Vous êtes sur la page 1sur 44

E CONOMETRIE 1

Sous la supervision du Professeur BOSONGA BOFEKI


Licence 1 Economie

Ass. Cdrick Tombola M.

Rappels et recueil dexercices

Cdrick Tombola M. /Assistant


Copyright cdktombola-Larq - mars 2012

UPC

Ass. Cdrick Tombola M.

A travers cette contre chaotique, des hommes audacieux et tenaces ont lanc le premier chemin de fer de lAfrique centrale. Henry Merton Stanley

Ass. Cdrick Tombola M.

AVANT-PROPOS
Je ne peux nier, quand jai commenc la rdaction de ce recueil, lambition de confectionner un vade-mecum dintroduction lEconomtrie lintention des tudiants de premire licence FAS. Mais le nombre de projets sur la file dattente et les nombreux dfis entre lesquels il me faut partager mon temps dune part, et le besoin rel et urgent chez les tudiants de disposer dun recueil qui accompagne le cours magistral assur par le professeur dautre part, mont oblig ne produire quune bauche. Le projet de proposer ce recueil est n de la dception et de linsatisfaction que jprouvais, encore tudiant, lors des sances TP dEconomtrie 1. Alors quailleurs ils prennent de la vitesse, nous, me semblait -il, on tombait, paradoxalement, dans la suffisance. Ce recueil a donc t rdig de faon permettre aux tudiants de porter un autre regard sur les notions quils apprennent pendant le cours thorique et de voir plus loin que moi. Le choix des applications a galement t fait dans cette optique. On remarquera que, par souci pdagogique et dexcellence, je me suis plus attard sur les aspects et les dmonstrations les moins populaires, bref, sur les non-dits. Les tudiants passionns et qui veulent aller loin en Economtrie, trouveront aussi, en annexe, une initiation aux logiciels conomtriques STATA et EVIEWS. Enfin, en le mettant la disposition du public, je formule le vu que ce recueil suscite, parmi mes tudiants et mes collgues de la FAS, de nombreux esprits critiques qui pourront nous proposer mieux et ainsi viter que nos efforts pour lavancement de cette facult ne sessoufflent et natteignent, prmaturment, un tat stationnaire , ce qui serait dommage .

Remerciement
Je remercie le professeur Jean-Pierre Bosonga pour la confiance quil a eue en moi vrai dire, sans vraiment me connatre et pour mavoir orient dans la rdaction de ce recueil. Mes sincres remerciements vont mon an et mon ami lassistant Jean-Paul Tsasa V. Kimbambu, pour nos nombreuses discussions, parfois laisses en queue de poisson, et pour lidal quil ma transmis. Je remercie aussi mes tudiants de premire licence FAS, de la promotion 2011-2012, pour avoir beaucoup exig et attendu de moi ; ils mont contraint plus de srieux dans le travail, et je leur en suis reconnaissant. Bien entendu, ce support nengage que son auteur. Toute remarque pertinente pouvant en amliorer le contenu sera la bienvenue.

Ddicace
Je ddie ce recueil lavenir du LAREQ et lmergence dune nouvelle classe denseignants lUPC.

Cdrick Tombola M. cedrictombola@lareq.com

Ass. Cdrick Tombola M.

.I.

INTRODUCTION
I.1. Quelques points de lhistoire
. Avant 1930 : Le Moyen-ge conomtrique Les premiers dveloppements de lEconomtrie1 peuvent remonter, selon Grard Grellet, au 17me sicle, lpoque de lArithmtique politique [Political Arithmeticians, en anglais] en Angleterre, avec des auteurs comme William Petty, Gregory King et Charles Devenant, pour leurs tentatives de modlisation partir des donnes empiriques. Selon dautres auteurs, on doit la gense de lEconomtrie aux travaux de tentative dunification de lEconomie et la Statistique dAuguste Cournot et de Jules Dupuit en France, de William Stanley Jevons en Angleterre et de Henry Ludwell Moore aux Etats-Unis. Ces auteurs tentrent dlaborer des lois conomiques { linstar des lois de la physique newtonienne. Mais il convient simplement de retenir que nombre de mthodes et techniques auxquelles recourt lEconomtrie, ont t dveloppes bien avant son institutionnalisation comme disci pline des sciences conomiques. A titre dexemple : - En 1805, dans son ouvrage intitul Nouvelles mthodes pour la dtermination des orbites des comtes , puis en 1806 dans la deuxime dition du mme ouvrage, le mathmaticien franais Adrien-Marie Legendre propose, par une mthode algbrique, le premier dveloppement rigoureux de la mthode des moindres carrs ordinaires. - En 1809, Carl Friedrich Gauss, dans son trait Theoria motus corporum coelestium , propose, par une approche probabiliste, un autre dveloppement rigoureux de la mthode des moindres carrs ordinaires dont il se rclame la paternit. Dans une lettre adresse Pierre-Simon de Laplace2, il explique quil avait fait usage de cette mthode dj en 1795, et de manire un peu plus frquente, dans ces calculs astronomiques sur les nouvelles plantes, depuis 1802. Plus tard, en 1829, Carl F. Gauss et Andrei A. Markov dmontrent que lestimateur des moindres carrs ordinaires est BLUE [en anglais : Best Linear Unbiaised Estimator]. Cest--dire quil est le meilleur estimateur linaire non biais, variance minimale. - En 1886, dans son tude sur la transmission des caractres hrditaires, Francis Galton, de qui le terme rgression tire son origine, fournit une premire rgression linaire. Plus tard, son disciple Karl Pearson, en 1896, dans son ouvrage La Grammaire de la Science , dveloppe la notion de corrlation linaire et propose un estimateur pour cette grandeur. La corrlation a t introduite en Economie en 1902, avec louvrage de Arthur Lyon Bowley Elements of Statistic . - En 1909, Georges Udny Yule invente les premires applications conomiques de la mthode de la corrlation et introduit la mme occasion la notion de corrlation partielle. Et en 1926, il dnonce les

On attribue souvent tort au norvgien R. Frisch, la cration du mot conomtrie qui revient plutt Pavel Compria. Il inclut lui-mme un expos de la mthode des moindres carrs ordinaires dans son trait de 1820 : Thorie analytique des probabilits . En 1808, le mathmaticien amricain Robert Adrain a aussi publi une formulation de la mthode des moindres carrs.
2

Ass. Cdrick Tombola M.

spurrious correlations , ce quil convient de traduire par corrlations fallacieuses . Puis montre que la corrlation de deux sries chronologiques peut tre totalement artificielle. . Depuis 1930 : La naissance de lEconomtrie moderne Linstitutionnalisation de lEconomtrie en tant que discipline des sciences conomiques sest ralise en 1930 exactement le 29 dcembre 1930 { loccasion de la cration { Cleveland, aux Etats-Unis, par 16 conomistes3 dont Ragnar Frisch4 et Irving Fisher sont les plus cits, de lEconometric Society [la Socit dEconomtrie] avec comme devise : pour lavancement de la thorie conomique dans ses relations avec la statistique et les mathmatiques. Depuis la cration de cette socit, et de la Cowles commission spcialise dans les mthodes destimation des modles { quations simultanes , fonde le 9 septembre 1932, deux ans aprs lEconometric Society, par Alfred Cowles, lEconomtrie a connu un grand essor. Cest ainsi quen 1933, R. Frisch cre la revue Econometrica pour la promotion des tudes qui ont pour but une unification des approches quantitatives thoriques et empiriques des problmes conomiques. On note aussi que ds le dpart, pour les promoteurs de lEconometric Society, il tait clair que deux dviations devraient tre vites : La construction d'difices mathmatiques purement logiques et dconnects du rel conomique. La mise en uvre de pures investigations statistiques qui, en dpit de leur caractre pouss et de leur apparence raliste, risque de manquer de consistance ou de pertinence, sans le soutien d'une pense conomique profonde et rigoureuse.

A ce sujet, R. Frisch crivit ainsi dans le premier numro de la revue Econometrica : "L'exprience a montr que chacun des trois points de vue suivants, celui de la statistique, celui de la thorie conomique et celui des mathmatiques est une condition ncessaire, mais par elle mme non suffisante, d'une comprhension effective des relations quantitatives de la vie conomique moderne : c'est leur unification qui est efficace. C'est cette unification qui constitue l'conomtrie . Il faut noter galement que le krach financier des annes 30, la domination du keynsianisme jusqu{ la fin des annes 60, le dveloppement de linfrence statistique { la fin du 19 me sicle et le consensus entre les conomistes autour du cadre IS LM avant 1970, sont aussi parmi les facteurs explicatifs de lessor de lEconomtrie depuis 1930, surtout au sein de la Cowles commission. La rvolution Keynsienne [1936], avec la logique de circuit, a dvelopp un autre type de raisonnement macroconomique en termes da grgats objectivement mesurables par la comptabilit nationale et de comportements mesurs par les propensions. Ainsi, entre 1944 et 1960, la plus grande partie de la recherche en Economtrie porta sur les conditions destimation des modles macroconomtriques quations simultanes. - En 1935, Jan Tinbergen estime un premier modle conomtrique quations simultanes, du type keynsien, comportant 31 quations de comportement et 17 identits. Il devient ainsi, dun point de vue empirique, le pre des modles conomtriques. - En 1944, Trygve Haavelmo pose les conditions gnrales de solvabilit dun systme dquations linaires.
3

R. Frisch, I. Fisher, Hotelling, K. Menger , F. Mills, Ogburn, Ore, Roos, Rorty, J. A. Schumpeter, H. Schultz, Shewart, Snyder , Wedervang, Wiener, Wilson. 4 Premier laurat du prix de la Banque de Sude communment appel prix Nobel en mmoire de son fondateur Alfred Nobel dconomie en 1969 avec Jan Tinbergen.

Ass. Cdrick Tombola M.

- En 1950, Lawrence Klein ouvre la vogue de la modlisation macroconomtrique. Il estime pour lconomie amricaine (1921-1941), un modle macroconomtrique de type keynsien 16 quations. Ce modle est amlior plus tard, en 1955, par L. Klein et Arthur Goldberger, et sera le premier modle utilis des fins prvisionnelles. Klein introduit galement la notion de multicolinarit. Il est parfois considr comme le pre des modles macroconomtriques. Plusieurs autres travaux seront produits au sein de la Cowles commission. En 1950, Durbin et Watson laborent leur clbre test dautocorrlation des erreurs. En 1954, Henri Theil et Robert Lon Basmann introduisent la mthode des doubles moindres carrs. Toujours dans les annes 50, il y eut un dveloppement des modles retards distribus par Koyck, Almon, Cagan et Friedman. Lon peut galement citer les travaux suivants dvelopps entre 1950 et 1970 : la mthode des moindres carrs gnraliss et lintroduction du calcul matriciel en Economtrie par Aitken; les tests et corrections de lhtroscedasticit [Glejser, White, ]. Lirruption de linformatique au dbut des annes 60 va donner un nouveau coup de pousse { lexpansion de lEconomtrie. En 1961, James Tobin dveloppe les modles microconomtriques. Il est, ce titre, considr comme le pre des modles microconomiques. La mme anne, Yair Mundlak conoit les mthodes bases sur les donnes de panel. . Les annes 1970 : La rvolution des anticipations rationnelles Les annes 1970 ont t marques par cinq faits majeurs qui ont conduit { lclatement du paradigme de la Cowles commission. Cest--dire une remise en cause radicale des modles macroconomiques structurels dvelopps au sein de cette institution. Ces faits sont : Le premier choc ptrolier [en 1973] ou le quadruplement du prix des produits ptroliers, ce qui marque, historiquement, la fin des Trente Glorieuses5 ; La stagflation et la remise en cause de la courbe de Phillips; La chute du keynsianisme et le rejet des modles conomtriques traditionnels devenus caducs bass sur le paradigme IS LM ; Le deuxime choc ptrolier [en 1979] ou le doublement du prix des produits ptroliers ; La naissance de la MFM [MicroFoundations of Macroeconomics] ou la Macroconomie Microfonde, le retour aux modles walrassiens et le dveloppement des modles dquilibre gnral calculable [MEGC].

Les critiques les plus acerbes et svres sont venues essentiellement, ds 1972, de Robert Emerson Lucas 6. Cest ce que la littrature qualifie de la fameuse critique de Lucas. Il discrdite les modles macroconomtriques traditionnels, en fustigeant leur incapacit expliquer et prvoir les bouleversements provoqus par le 1r et le 2me chocs ptroliers. Il leur reproche de manquer de fondations microconomiques suffisamment solides. De plus, Lucas interdit les prvisions myopes et adaptatives, il pose la problmatique des anticipations rationnelles, ce qui veut dire que les agents conomiques sont intelligents et capables de former leurs anticipations sur une base endogne et ainsi anticiper toute mesure de politique conomique. De fait, toute mesure de politique conomique, ajoute-t-il, devient inefficace du fait de la prise en compte des anticipations rationnelles, les agents pouvant lanticiper et la contrer.

Trente Glorieuses : Titre dun livre de Jean Fourasti, publi en 1977, qui dsigne la priode de forte croissance conomique, de plein-emploi et daugmentation des salaires rels et des revenus, quont connu les pays dvelopps , de laprs-guerre au premier choc ptrolier. 6 Laurat du prix Nobel dEconomie 1995.

Ass. Cdrick Tombola M.

Cette critique a pouss les conomtres penser plus profondment sur les fondements de leur discipline et a donn lieu des critiques plus svres. LEconomtrie va connaitre un changement radical, surtout en termes de relations quelle entretient avec la thorie conomique. - En 1970, George Box et Gwilym Jenkins dveloppent le modle ARMA [AutoRegressive with Moving Average] qui est un mlange des modles AR et MA dvelopps en 1927 respectivement par Georges Yule et Eugen Slustsky , comme une rponse aux dfaillances constates dans la capacit de prvision des modles labors la suite des travaux de Tinbergen. - Dj en 1974, Clive William John Granger et P. Newbold mettent en garde contre les spurrious regressions ou rgression fallacieuse, pour le cas dajustement par les MCO dun modle avec sries non stationnaires. - En 1980, dans un article qui a connu un succs destime lors de sa parution, intitul Macroeconomics and Reality, Christopher Sims7, en gnralisant le modle ARMA en modle VAR [Vector Auto Regressive] afin de tenir compte, au mme moment, de plusieurs variables, reproche aux conomtres davoir mis la charrue devant les bufs en remettant en cause la distinction priori entre variables endognes et variables exognes, et considre toute variable comme potentiellement endogne 8. Cest ce que la littrature appellera lEconomtrie sans thorie. La critique de Sims va permettre { lEconomtrie de devenir beaucoup plus autonome et de smanciper de la tutelle de la thorie conomique . - En 1987, Clive Granger et Robert Engle dveloppent la mthode de cointgration dans le traitement des sries non stationnaires. Une anne aprs, en 1988, Johansen propose une version amliore du test de cointgration Engle Granger. - En 1982, Robert Engle dveloppe le modle ARCH afin de prendre en compte la non linarit et la forte volatilit des variables financires, ce qui ntait pas possible avec les modles ARMA et VAR. Plusieurs mthodes encore ont t dveloppes depuis la fameuse critique de Lucas, et plus loin encore dans lhistoire, depuis la cration de la socit dEconomtrie. LEconomtrie a donc connu, ces deux dernires dcennies, un essor vertigineux. . Applications et place de lconomtrie La dmarche en sciences conomiques est hypothtico-dductive. Cest--dire que les thories conomiques ne sont valables que dans le domaine dfini par leurs hypothses. Sil est vrai que lusage des mathmatiques est la garantie de la rigueur et de la cohrence interne des thories conomiques modernes, la question reste cependant pose quant la pertinence de leurs hypothses. Ceci motive le recours { des outils plus puissants notamment lEconomtrie, qui est un outil de validation des thories. De fait donc, lconomiste ne doit-il pas tre aussi conomtre ? John Maynard Keynes, dans les annes 1930, crivait : Lconomiste doit tre mathmaticien, historien, philosophe, homme dEtat , . Sil faut transfrer la pense de Keynes aujourdhui, naurait-il pas lui-mme ajout lconomiste doit tre conomtre ? Il est clair quil nest plus possible { ce jour, de faire un bras de fer avec lirruption et la domination de lEconomtrie dans le champ de la science conomique, au risque, purement et simplement, de se soustraire de la catgorie dconomistes modernes.

Laurat, avec Thomas Sargent, du prix Nobel dEconomie 2011. Cette dmarche de Sims sinspire de lun des grands principes de la thorie de lquilibre gnral, sel on lequel toutes les variables conomiques sont dtermines simultanment.
8

Ass. Cdrick Tombola M.

Pour renchrir, dans une tude publie en 2006, les conomistes Kim, Morse et Zingales ont montr que le nombre darticles empiriques cits en conomie est pass de 11 % 60 % entre 1970 et 2000. Ce qui confirme limportance de plus en plus croissante de lEconomtrie dans lunivers des conomistes. Par ailleurs, lEconomtrie s'applique tous les domaines auxquels s'applique la science conomique. L'ouvrage de Levitt et Dubner, Freakonomics, tmoigne de la diversit des applications possibles de l'conomtrie. Voici quelques exemples significatifs: En conomie de guerre, Collier Hoeffler [1999] ont mis en vidence, par le recours un modle conomtrique, les dterminants politiques permettant de mettre fin aux guerres civiles et de relancer lconomie en priode post-conflit. En conomie de la croissance, Mankiw, Romer et Weil, en 1992, ont utilis un modle de rgression linaire pour tester empiriquement la pertinence du modle de Solow. Ils montrent que le modle de Solow augment du capital humain est cohrent avec les donnes observes. Barro et Sala-iMartin [1995], Easterly et Rebelo [1993], ont aussi eu recours aux mthodes conomtriques afin de rendre compte de leffet des dpenses publiques sur la croissa nce. En conomie de la criminalit, Levitt, en 1997, a utilis un modle linaire variables instrumentales pour estimer l'effet du nombre de policiers sur la criminalit. En 2002, Acemoglu, Johnson et Robinson ont utilis une rgression linaire pour estimer l'effet des institutions sur le dveloppement actuel des pays.

I.2. Quelques rappels statistiques


La force de la statistique est quon nest pas oblig dtudier toute la population. Il est possibl e de tirer des conclusions sur une population, partir dun chantillon suffisamment reprsentatif. Et comme les donnes en elles-mmes ne sont pas intelligibles, le statisticien recherche la synthse. Sa premire dmarche pour synthtiser les donnes consiste { calculer les paramtres de description, ce st la statistique descriptive. Plus tard, la dmarche du statisticien consistera contraster des donnes empiriques aux lois thoriques, dont on connait parfaitement les comportements, en vue de faire de la prdiction, cest la statistique infrentielle [ou mathmatique]. Encadr 1. Conditions de Yule Le statisticien britannique Georges U. Yule a nonc un certain nombre de proprits souhaites pour les indicateurs des sries statistiques ; ceux-ci doivent tre dune part, des rsums maniables et dautre part, les plus exhaustifs possibles relativement { linformation contenue dans les donnes. Dans son schma, une caractristique statistique doit tre une valeur-type : 1. 2. 3. 4. 5. 6. dfinie de faon objective et donc indpendante de lobservateur, dpendante de toutes les observations, de signification concrte pour tre comprise par les non-spcialistes, simple calculer, peu sensible aux fluctuations dchantillonnages, se prtant aisment aux oprateurs mathmatiques classiques.

En ralit, on ne dispose pas de caractristiques rpondant simultanment ces six conditions. Le choix dun indicateur sera lobjet dun compromis guid par la spcificit de ltude en cours.
Source : Adapt de B. Goldfard et C. Pardoux, 1995.

Ass. Cdrick Tombola M.

Indicateurs de position [ou de tendance centrale]


Soit une variable X observe sur un chantillon de n individus. xt est la valeur prise par X pour lobservation t.

1.

La moyenne arithmtique : =

La moyenne arithmtique9 est la mesure de rpartition quitable. Elle conserve la somme totale et satisfait toutes les conditions de Yule, sauf la 5me, car elle est une mesure sensible aux valeurs extrmes. Lorsque les valeurs sont alatoires, la moyenne arithmtique est appele Esprance mathmatique . 2. La mdiane [Me] : est la mesure qui divise la srie en deux groupes de tailles gales. Aprs avoir class les donnes en ordre croissant, elle correspond pour n impair [pair], au point milieu [ la moyenne arithmtique de deux points milieux]. Elle satisfait aux conditions 1, 3, 4 et 5 de Yule. Contrairement la moyenne arithmtique, la mdiane rsiste aux valeurs extrmes. 3. Le mode [Mo] : est la valeur dominante de la srie, celle qui a la frquence la plus leve. Pour une distribution discrte, le mode satisfait aux conditions 1, 3 et 4 de Yule. Le premier Quartile Q1 [ou quantile dordre 1, x25%] Le deuxime Quartile [ou quantile dordre x50%] Le troisime Quartile [ou quantile dordre x75%] Q2 2, Q3 3, Valeur telle quau moins 25% des valeurs prises par X lui sont infrieures. Aprs avoir class les donnes et spar la population en deux, le Q1 est la mdiane de la premire souspopulation. Le Q2 est la mdiane. Valeur telle quau moins 75% des valeurs prises par x lui sont infrieures. Le Q3 est la mdiane de la deuxime souspopulation.

4.

Les quartiles

Note : Les quartiles non plus ne subissent pas linfluence des valeurs extrmes. Comme la mdiane, les quartiles satisfont aux conditions 1, 3, 4 et 5 de Yule.

Indicateurs de dispersion 5.
La variance : =

( )
=

La variance empirique :

( )
=

La variance est la moyenne arithmtique des carrs des carts dune variable { sa moyenne arithmtique. Elle donne une ide de la dispersion [ou dviation] de chaque observation x t autour de sa moyenne. Mais comme on le voit, avec la variance on change dchelle, elle sexprime dans le carr de lunit en laquelle sexpriment les observations. Pour revenir { lchelle du dpart, on prend sa racine carre qui est lcart-type. Elle satisfait aux conditions 1, 2 et 6 de Yule. Note : La variance empirique est lestimateur non biais de la variance. La variance est un estimateur biais car utilisant un autre estimateur dans son calcul. Lcart-type : = Lcart-type empirique : = Lcart-type est la racine carre de la variance. Il est la mesure de dispersion la plus utilise. Elle satisfait aux conditions 1, 2 et 6 de Yule, et est plus sensible aux fluctuations dchantillonnage et aux valeurs extrmes que la moyenne arithmtique, en raison des lvations au carr.

6.

7. Ltendue : max xt min xt Ltendue est la diffrence entre la plus grande et la plus petite des valeurs observes. Elle est trs influence par les valeurs extrmes et ne satisfait pas aux conditions 2 et 5 de Yule. 8. LEtendue [cart] interquartile : EIQ = Q3 Q1 Lcart interquartile nest pas sensible aux valeurs extrmes.

Dans le langage courant, on dit simplement moyenne. Or, selon la manire dont le total des individus est calcul, il existe diffrentes moyennes [moyenne gomtrique, moyenne harmonique, moyenne quadratique].

Ass. Cdrick Tombola M.

Indicateurs de forme [de la distribution]


Parlons tout dabord de la notion des moments. Le moment centr sur a dordre r a r =

( )
=

Les moments ont la vertu de permettre de mettre ensemble les principales mesures de description. A titre dexemple, si a=0 et r=1, on retrouve la moyenne arithmtique, qui nest rien dautre que le moment non centr dordre 1. La variance serait donc le moment centr sur la moyenne arithmtique dordre 2, etc. Note : dans la suite, on dira moment centr pour parler de moment centr sur la moyenne arithmtique. On peut aisment vrifier que le moment centr sur la moyenne arithmtique dordre 1 (1) est nul. 9. Lasymtrie [Skewness en anglais]: est base sur le moment centr dordre 3. Pour une distribution symtrique, telle que la loi normale, la moyenne arithmtique est gale la mdiane gale au mode. De plus, les moments centrs dordre impair sont nuls pour une distribution symtrique. Le coefficient dasymtrie de Fisher : 1 =

/

1 est nul pour une distribution symtrique, telle que la loi normale.
Asymtrie gauche [distribution tale droite] Distribution symtrique Asymtrie droite [distribution tale gauche]

1>0

x=Me=Mo 1=0

1<0

10. Laplatissement [Kurtosis en grec, qui signifie bosse] : est bas sur le moment centr dordre 4 et permet de mesurer limportance des queues dune distribution ou son aplatissement. Le coefficient daplatissement de Fisher : 2 =

2 est nul pour une distribution mesokurtique. Cest le cas dune distribution gaussienne [normale].
Distribution platokurtique Distribution mesokurtique Distribution leptokurtique

2<0 Cas de la distribution de Student

2=0 Cas de la distribution normale

2>0

La loi normale
La loi normale est une des principales distributions de probabilit. On dit quelle est parfaite, car sa densit de probabilit dessine une courbe en cloche ou courbe de Gauss, qui est la fois symtrique et mesokurtique. Elle a t introduite, en 1733, par le mathmaticien Abraham de Moivre, et mise en vidente plus tard, au 19me sicle, par Carl F. Gauss. Elle est galement connue sous le nom de la loi de Gauss. Une variable distribue selon cette loi est dite normale ou gaussienne.

Test dhypothse [un petit commentaire]

Ass. Cdrick Tombola M.

10

Un test d'hypothse est une dmarche consistant valuer une hypothse statistique en fonction d'un chantillon. Il sagit donc de confronter une hypothse dite nulle [HO] contre une hypothse de recherche ou alternative [H1]. Une notion essentielle qui concerne les tests est la probabilit que l'on a de se tromper. Il existe deux faons de se tromper lors dun test statistique : La premire faon de se tromper est de commettre lerreur [ou risque] de premire espce, not , qui est la probabilit de rejeter tort HO alors quelle est vraie. On dit, dans ce cas, que est la probabilit davoir un faux positif. La deuxime faon de se tromper est de commettre lerreur [ou risque] de deuxime espce, not , qui est la probabilit de ne pas rejeter HO alors quelle est fausse. On dit, dans ce cas, que est la probabilit davoir un faux ngatif. HO est vraie Ne pas rejeter HO Rejeter HO Erreur de 1re espce HO est fausse Erreur de 2me espce

Lidal serait que ces deux erreurs soient nulles, mais puisque lon ne dispose que dun nombre fini dobservations, il faut faire un choix. Le risque tant difficile { valuer, voire impossible, seul le risque est utilis comme critre de dcision. Note : On accepte une hypothse en refusant sa fausset et non en acceptant sa vrit.

I.3. Quelques tests statistiques de normalit


Dans son article de 194410, qui a marqu une tape dcisive dans le dveloppement de lEconomtrie , crit dans lobjectif de briser la rticence de ses contemporains vis--vis de lapplication des mthodes statistiques aux donnes conomiques, Haavelmo a avanc deux thses. Dabord, il a dfendu l'ide que l'emploi des mesures statistiques telles que les moyennes, les carts-type, les coefficients de corrlation, des fins d'infrence n'a rellement de sens que dans un contexte probabiliste. De plus, estimait-il, peu importe la vraie nature des faits conomiques, il suffisait, pour les analyser, de faire comme si les donnes conomiques taient gnres par une loi de probabilit qu'il fallait identifier de faon adquate. Avant donc toute tude formelle, le travail de lconomtre est de tester ladquation ou la conformit dune distribution observe avec une distribution thorique associe { une loi de probabilit. Parmi ces tests dadquation, la conformit { la loi normale est le test le plus ut ilis, car elle sous-tend la plupart de tests paramtriques utiliss en Economtrie. A titre de rappel, pour une distribution gaussienne, 2 contiennent 95% des observations. Les nombreux tests11 de normalit dune distribution que fournit la littrature peuvent se regrouper en deux familles : Les tests informels et les tests formels.
Si n est le nombre dobservations

Tests informels Histogramme des frquences tuyau dorgue] Box plot [ou Bote--pattes] QQ plot [ou droite de Henry] [ou

Tests formels Test de Jarque Bera Test de Shapiro Wilk Test K2 dAgostino Pearson En termes defficacit Si n > 88 Si n 50 Si n 20

Les tests informes donnent une prsomption tandis que les tests formels apportent une approche plus rigoureuse et objective.

Ci-aprs sont exposs uniquement les tests les plus frquemment utiliss et les plus oprationnels.

10
11

Haavelmo, T. (1944), The Probability Approach in Econometrics, Supplement to Econometrica, 12, 1-118. Il existe une batterie de test de normalit, ici nous ne reprenons que quelques uns.

Ass. Cdrick Tombola M. . Le Box plot


Synonyme : Bote pattes, Bote moustache, Diagramme en boites, Box and Whiskers Plot

11

Le Box plot, invent par Tukey en 1977, est un outil graphique trs pratique qui permet de caractriser une distribution en fournissant un rsum riche dinformations sur sa dispersion et son asymtrie. Du fait quil renseigne sur lasymtrie dune distribution, le Box plot est galement utilise comme test de normalit. Les tapes suivre dans sa construction peuvent tre rsumes comme suit : a. Porter sur une chelle les valeurs calcules suivantes : Q1, Q2, Q3, Min xi et Max xi b. Construire la bote : - La longueur de la bote est donne par lEIQ - La largeur de la bote est fixe priori. c. Calculer la longueur des moustaches ou des pattes [infrieure et suprieure] : Pour savoir jusquo vont les moustaches, on calcule deux valeurs adjacentes : Frontire Basse [FB]= Q1 1.5EIQ Frontire Haute [FH]= Q3 + 1.5EIQ Selon Tukey, la valeur 1.5 serait plus pragmatique. Pour la longueur de la moustache infrieure : prendre, parmi les valeurs xi prises par X, la valeur minimale xb directement suprieure FB, soit xb = min {xi| xi FB}. Pour la longueur de la moustache suprieure : prendre, parmi les valeurs xi prises par X, la valeur maximale xh directement infrieure FH, soit xh = max {xi| xi FH}. A retenir : - Pour une distribution symtrique, Q2 divise la bote exactement en deux parties gales. - Pour une distribution symtrique, Q2= .

Illustration
Considrons lexemple suivant : X 6 7 8 Q1 = 8.5 Q2 = 12 FB = 8.5 (1.5)7 = 2 9 10 11 12 Q3 = 15.5 EIQ = 7 FH = 15.5 + (1.5)7 = 26 Etendue 13 14 15 16 17 18 Min xi = 6 et Max xi= 18 = 12 Etendue = 10 Xb = 6 Xh =18

*
FB Min xi Xb Q1 Q2 Q3 Max xi Xh FH

EIQ La croix lintrieur de la bote reprsente la moyenne.

Il ressort, puisque Q2 spare la bote en deux parties gales, que la distribution est symtrique, ce qui est une prsomption de normalit. De plus la mdiane (Q2) est gale la moyenne.

Ass. Cdrick Tombola M.

12

Note : la Botepattes permet galement de dtecter les valeurs aberrantes ou singulires [dviants ou atypiques ou encore outliers]. Aprs avoir construit le Box plot, est valeur aberrante celle situe au-del des pattes. . Le test de Jarque-Bera [JB] Le test de Jarque-Bera, propos en 1980 par Carlos Jarque et Anil Bera, est parmi les tests de normalit les plus populaires dans les milieux acadmiques. Mais la remarque { faire, dores et dj{, est quil est particulirement appropri pour grand chantillon, soit n > 88. Le test JB est fond sur les coefficients dasymtrie et daplatissement. Sa richesse consiste { ce quil permet de conclure { la fois sur lasymtrie et limportance des queues [aplatissement] dune distribution. Les hypothses du test sont : H0 : Normalit H1 : Non normalit Sous lhypothse de normalit de la srie, la statistique du test JB suit asymptotiquement une distribution du Khi deux 2 { degrs de libert avec le risque davoir un faux positif [ou seuil de signification] = 5%. La statistique du test est calcule comme suit : JB = n
S2 6

(K 3)2 24

n 6

S2 +

(K 3)2 4

o n est la taille de lchantillon, S le Skewness et K la Kurtosis.


Valeur lue dans la table de la loi du Khi carr deux degrs de libert

Seuil Valeur

1% 9.210

5% 5.991

Critre de dcision : Si JB la valeur du 2(2) de la table au seuil , alors RH0 de normalit. . Le test de Shapiro-Wilk Le test de Shapiro Wilk, propos en 1965 par Samuel Shapiro et Martin Wilk, est considr dans la littrature comme lun des tests de conformit { la loi normale les plus fiables et les plus efficaces, particulirement pour petits chantillons [n 50]12. Ce test est bas sur la statistique W, calcule comme suit :
n 2 a [x n i+1 =1 i 2

x i ]
2

W=

x (i) x

12

Lire par exemple Royston (1982), Palm (2002).

Ass. Cdrick Tombola M. o


n : est la taille de lchantillon
n 2 n 2

13

: est la partie entire du rapport

ai : sont des valeurs lues dans la table des coefficients de Shapiro et Wilk, connaissant n et lindice i.

x(i) : correspond la srie des donnes tries en ordre croissant

Les hypothses du test sont : H0 : la variable X est gaussienne H1 : la variable X est non gaussienne La statistique W est confronte une valeur lue dans la table des valeurs limites de W propose par Shapiro et Wilk, avec n le nombre dobservations et au seuil [5% en gnral]. Critre de dcision : Si W < WTable(n) au seuil , alors RH0 [la variable est non gaussienne]13. Note : Les deux tables utilises pour mener ce test sont reprises en annexe.

I.3. Trois piliers de lconomtrie


Lconomtrie se fonde sur trois piliers { savoir : . La thorie conomique ; . Les donnes ; . Les mthodes. Les trois piliers de lconomtrie

La thorie conomique

Les donnes

Les mthodes

De par sa nature lEconomtrie est intimement lie la thorie conomique qui lui fourni les modles et thories quelle teste. Aujourdhui encore, malgr lmancipation de lEconomtrie depuis le fameux article de 1980 de Sims, lon ne peut trancher en dfaveur du mariage thorie conomique Economtrie. Selon Ado et Davidson [1998], L'conomtrie est prcisment le moyen qui permet au discours conomique d'chapper la vacuit de son formalisme, en permettant une mise en correspondance des thories et des faits conomiques. C'est elle qui permet de confirmer ou
13

Pour tester les thories, lEconomtrie utilise les donnes observes, les informations fournies par un chantillon. Lconomtrie a principalement recours trois types et deux formats de donnes. Trois types de donnes : Chroniques [times series en anglais], on parle galement des sries chronologiques ou sries temporelles, notes Xt : sont de donnes indices par le temps. Ex. Le PIB de la RDC de 2000 2010.

Ce sont les mthodes statistiques qui permettent de mettre en uvre et dexploiter un modle { partir dinformations provenant de lchantillon. La mthode la plus populaire en Economtrie est celle des moindres carrs ordinaires. En recourant aux mthodes statistiques, et partir dinformations livres par le monde rel, lconomtre poursuit un triple objectif : Quantifier et tester les thories Faire des prvisions Evaluer lefficacit des mesures de politique conomique

Lire Tsasa Jean Paul [mars 2012] pour les illustrations.

Ass. Cdrick Tombola M.


d'infirmer les modles thoriques, du moins ceux qui admettent une reprsentation conomtrique. Donnes en Coupe longitudinale [cross section en anglais], on parle aussi de coupe instantane, notes Xi : font rfrence aux donnes observes au mme moment, pour des individus diffrents. Ex. Le PIB en 2009 de tous les pays de lAfrique Centrale. Donnes en Panel [pooling en anglais], on parle aussi des donnes croises, notes Xit : font rfrence la combinaison de deux premiers types. Ex. Le PIB de 2000 2010 de tous pays de lAfrique Centrale. On parle aussi de cohorte, lorsque lchantillon sond reste le mme dune priode { lautre.

14

LEconomtrie na donc pas pour objet dnoncer la thorie mais de la vrifier.

Deux formats des donnes : Quantitatives [ex : PIB, Taux dinflation, etc.] Qualitatives [ex : paix, sexe, religion, niveau dtude, etc.]

Ass. Cdrick Tombola M.

15

I.4. Modle conomique versus modle conomtrique


. Modle conomique Selon Barbancho14, un modle est lexpression mathmatique dune certaine thorie conomique. Lexemple de la loi psychologique fondamentale de Keynes est assez pertinent { cet effet. Daprs cette loi, en moyenne et la plupart du temps lorsque le revenu dun individu augmente, il augmente aussi sa consommation, mais dans une proportion moindre { laugmentation de son revenu. Mathmatiquement, si on note la consommation par Ct et le revenu par Yt, cette loi peut tre spcifie comme suit : Ct= 0 + 1Yt [avec 1 : propension marginale { consommer, 0 < 1 < 1]

En gnral, le modle spcifi par lconomiste est dfini comme tant une maquette de la ralit ou dun phnomne sous forme dquations dont les variables sont des grandeurs conomiques. A ce sujet, Lester C. Thurow note ceci : Les quations dcrivent quoi ressemblerait le monde rel sil ressemblait la thorie . . Modle conomtrique Toujours selon Barbancho, un modle conomtrique nest autre chose quun modle conomique qui contient les spcifications ncessaires pour son application empirique. Cest donc le modle conomique auquel on ajoute un terme derreur ut.

Ct=0 + 1Yt + ut

[modle spcifi par lconomtre]

La premire partie de ce modle [0 + 1Yt] constitue sa partie systmatique et la deuxime [ut] sa partie stochastique ou alatoire. Il convient de noter galement que le terme derreur ut [bruit, perturbation ou ala] dnote de la diffrence entre lconomiste et lconomtre. Il synthtise linfluence sur Ct [variable explique] de toutes les autres variables oublies et des erreurs ventuelles de spcification de la forme fonctionnelle dans le modle spcifi par lconomiste. De plus, sa prsence dans le modle rend les paramtres 0 et 1 inconnus, on ne sait plus les calculer, il faut donc les estimer.

14

Cit par Kintambu Mafuku (2004).

Ass. Cdrick Tombola M.

16

.II.

THEORIE DE LA CORRELATION
Lanalyse de la corrlation a pour objet de prsenter les mesures statistiques destines { rendre compte du sens et de la force de la liaison mathmatique qui peut exister entre deux variables quantitatives X et Y. Il faut, dores et dj{, noter que dans ce cadre , la position des variables est symtrique. Lanalyse ne permet pas de distinguer variable endogne de la variable exogne. Loutil graphique diagramme de dispersion ou graphique nuage de points est le plus adapt et indiqu pour dbuter ltude de la corrlation. Aprs lavoir ralis, la forme du nuage des points renseigne partir dun simple coup dil sur le type dune ventuelle liaison entre X et Y. Plusieurs situations sont possibles : Figures A. Relations linaires, de gauche droite, positive et ngative.
600 500 400 300 200 100 0 0 500 1000 1500 2000 600 500 400 300 200 100 0 0 500 1000 1500 2000

Figures B.1. Relation non linaire monotone 10 8 6 4 2 0 0 5 10 15 -4

Figures B.2. Relation non linaire non monotone 15 10 5

Figures B. 3. Absence de liaison


120 100 80 60 40 20 0 -20 -50 0 -40 -60 -80

-100

50

100

150

0 -2 0 2 4

Lanalyse du plot donne certes une ide sur le sens et le t ype dassociation entre X et Y, mais elle ne permet pas de quantifier son intensit. Depuis toujours, afin de mesurer la force du lien qui peut exister entre X et Y, les statisticiens ont eu recours au calcul de la covariance. Si on note par n la taille de lchantillon et i le numro de lobservation, la covariance empirique15 entre X et Y est calcule par la formule : Cov (X, Y) =

15

La covariance empirique tant un estimateur non biais de la covariance.

Ass. Cdrick Tombola M.

17

Lide est que si X et Y covarient, leur covariance devrait tre grande. Elle serait modrment faible si les deux variables ne covarient pas. Malheureusement, comme mesure du degr de dpendance entre X et Y, la covariance prsente la faiblesse dtre fortement influence par les units de mesure des variables en prsence. Cest cette limite qui a conduit au dveloppement des coefficients de corrlation.

II.1. Coefficient de corrlation de Bravais Pearson


Le coefficient de corrlation linaire de Bravais Pearson, not rXY, est un coefficient paramtrique qui donne la mesure du degr de liaison linaire entre deux variables quantitatives X et Y normalement distribues. Il est donn par le rapport entre leur covariance et le produit non nul de leurs carts types. Ainsi, il standardise la covariance et la corrige de linfluence de s units de mesure des variables. Formellement, le rXY est donn par la formule :

rXY =

cov (X,Y) = X Y

i X i x (Y i y ) X i x 2 i Y i y 2

[2.1]

Si lon considre les carts { la moyenne arithmtique16, la relation [2.1] peut galement scrire comme suit :

rXY =

i xi yi 2 2 i yi

[2.2]

Proprits de la covariance et proprits du coefficient de corrlation linaire Proprits de la covariance Cov (X, Y) = Cov (Y, X) Cov (X, X) = Var (X) Cov (k, X) = 0 Cov X, Y var X . var(Y) Proprits du rXY rXY = rYX rXX = 1 rkX = 0 1 rXY 1 Commentaires Comme la covariance, le rXY est symtrique. La corrlation entre une variable et ellemme est gale { lunit. La corrlation entre une constante et une variable est nulle. Le coefficient de corrlation linaire est un nombre sans dimension dont lintervalle de variation est : [1, +1]17.

. Hypothses fortes au calcul du rXY Le calcul du coefficient de corrlation linaire de Bravais Pearson entre les variables X et Y nest adapt quau strict respect des hypothses suivantes : Les variables X et Y doivent tre quantitatives ; Les variables X et Y doivent tre sont gaussiennes ; La relation entre X et Y doit tre linaire 18 ;

Note : Lorsque la liaison entre X et Y est non linaire mais monotone, le r XY ne devient pas hors de propos. Seulement, dans ce cas despce, il donne des informations sur le xistence de la liaison, mais estime mal son intensit. Noublions pas que le coefficient de corrlation linaire sert avant tout caractriser une liaison linaire. Lorsquelle ne lest pas, ce coefficient peut induire en erreur sur lexistence et lintensit de la relation entre variables considres.
16 17

La somme des carts la moyenne arithmtique est toujours gale 0, soit i Xi x = 0. On peut aisment dmontrer que par construction, le rXY reste compris entre -1 et 1. 18 Cette information est livre par le graphique nuage des points.

Ass. Cdrick Tombola M. . Test sur le coefficient de corrlation de Bravais - Pearson

18

Puisque le travail se fait sur un chantillon, aprs calcul et avant toute interprtation, le rXY doit tre soumis un test de significativit qui permet de vrifier si la corrlation calcule existe bel et bien au sein de la population. Les hypothses du test sont : H0 : XY = 0 H1 : XY 0n [hypothse dabsence de corrlation] [hypothse dabsence de dcorrlation]

XY est la corrlation thorique, inconnue au niveau de la population, rXY est la corrlation empirique estime { partir dinformations fournies par lchantillon. Sous H0, on dmontre que la statistique du test suit une distribution de Student au seuil [5% sauf indication contraire] et (n 2) degrs de libert. Le test est de la forme : Rejet H0 si
r XY
1 r 2 XY n 2

> t/2 ; (n 2) [valeur lue dans la table de Student]

. Signification clinique du coefficient de corrlation de Bravais - Pearson La signification clinique ou linterprtation du rXY nest valable que si, aprs test, on rejette lhypothse de dcorrlation. Le travail dinterprtation dun coefficient de corrlation linaire se fait toujours en deux temps : une interprtation par au signe/sens de la liaison et une interprtation par rapport au degr de dpendance.

A. Interprtation par rapport au signe

Si rXY > 0, X et Y sont positivement corrles [la relation linaire entre X et Y est positive]. Si rXY < 0, X et Y sont ngativement corrles [la relation linaire entre X et Y est ngative]. Si rXY = 0, X et Y sont non corrles [pas de liaison linaire, mais possibilit dune liaison dun autre type].

B. Interprtation par rapport lintensit

Si rXY = 1, le lien linaire entre X et Y est parfait. Dans ce cas, lune des variables est fonction affine de lautre, les n points (xi, yi) sont aligns. Si 0.80 < rXY < 1, le lien linaire est trs fort. Si 0.65 < rXY < 0.80, le lien linaire est fort [lev]. Si 0.50 < rXY < 0.65, le lien linaire est modr. Si 0.25 < rXY < 0.50, le lien linaire est faible. Si 0.025 < rXY < 0.25, le lien linaire est trs faible. Si rXY proche de 0, alors il y a absence de lien entre X et Y.

Note : Le coefficient de corrlation linaire entre deux variables quantitatives gaussiennes indpendantes est nul, mais la rciproque nest pas toujours vraie. Donc r XY = 0 ne signifie pas toujours quil y a indpendance entre X et Y. Cela peut tout simplement vouloir dire quil y a absence dune liaison

Ass. Cdrick Tombola M.

19

linaire entre les variables tudies. Ceci dit, le calcul dun coefficient de corrlation doit toujours commencer par un examen graphique. Lautre faiblesse majeure du coefficient de Bravais Pearson est dtre trs sensible aux points aberrants.

II.2. Coefficient de corrlation de rang de Spearman


Le coefficient de corrlation de Spearman, not XY, est un coefficient non paramtrique qui quantifie, comme le rXY de Bravais Pearson, le degr dassociation linaire entre deux variables quantitatives. Il est particulirement appropri lorsquau moins une de deux variables X et Y nest pas normalement distribue. Son calcul ncessite que les donnes soient transformes en rang. Le rang de X est not par R i et celui de Y par Si. Le XY de Spearman nest rien dautre que le rapport entre la covariance (Ri, Si) et le produit non nul de leurs carts-types. Il est donc un cas particulier du coefficient de corrlation de Bravais Pearson. En tenant compte de certaines proprits de rang, le XY de Spearman peut tre calcul de manire plus simple par la formule : XY = 1
( )

[2.3]

o Di = Ri - Si et n = nombre dobservations Avantages du XY de Spearman sur le rXY de Bravais Pearson Le rXY de Bravais - Pearson Le XY de Spearman A propos de la normalit Pour calculer rXY, les variables doivent tre Le XY lve lhypothse de normalit. De plus, dans gaussiennes. le cas des variables distribues normalement, le XY reste adapt car il fournit les mmes rsultats que le rXY de Bravais Pearson. Concernant une liaison non linaire monotone Le rXY donne une ide sur le sens de la liaison mais Dans ce cas, le XY est appropri, il estime mieux estime mal sa force. que le rXY ce type de liaison. La prsence des points atypiques Le rXY est fortement influenc par la prsence des Le XY rsiste aux points aberrants. Dans ce cas, il dviants [points aberrants]. est donc prfr au rXY. Note : Lorsque la liaison entre les deux variables tudies est non linaire et non monotone, les deux coefficients rXY et XY ne sont plus adapts. On peut soit transformer les donnes avant de les calculer ou carrment, lorsquon dispose de plusieurs valeurs de Y pour chaque valeur de X ou linverse, calculer le rapport de corrlation. La dmarche du test statistique sur le XY de Spearman est la mme que celle sur le coefficient de corrlation de Bravais Pearson. Remarques importantes sur le calcul du XY de Spearman Le calcul du coefficient de corrlation de Spearman exige que les donnes soient remplaces par leurs rangs. Et en prsence dex aequo dans les donnes, on leu r affecte un rang moyen, donn par la moyenne arithmtique de leurs rangs respectifs. Mais lorsquon compte plusieurs ex aequo, aprs avoir remplac les donnes par leurs rangs, il est conseill de faire subir au coefficient de Spearman quelques corrections ou simplement de lui prfrer le coefficient de Bravais-Pearson, mais calcul sur les rangs. Dans ce recueil, nous optons pour cette dernire option.

Ass. Cdrick Tombola M.

20

En rsum, lestimation dun coefficient de corrlation suivra toujours [sauf indication contraire], dan s lordre, les cinq tapes suivantes : (i) (ii) (iii) (iv) (v) Test de linarit [utiliser un diagramme de dispersion] Test de normalit [choisir le plus appropri connaissant n] Choix et estimation dun coefficient de corrlation Test de significativit statistique sur le coefficient calcul Interprtation ou signification clinique du coefficient estim [valable seulement si H0 est rejete]

Critre synthtique de choix dun coefficient de corrlation Informations fournies par les donnes Type de liaison linaire linaire Normalit Variables normales Coefficient de corrlation appropri [en termes de robustesse] - Coefficient rXY de Bravais Pearson - Coefficient XY de Spearman - Coefficient XY de Spearman

Lune au moins de deux variables est non normale Non linaire monotone Variables normales ou non Prsence des points atypiques

II.3. Limites de la corrlation


Les coefficients de corrlation prsents dans ce chapitre prsentent essentiellement quatre faiblesses, savoir : La mesure ne concerne quune relation linaire. Le coefficient de corrlation linaire sert avant tout { caractriser une liaison linaire. Lorsquelle ne lest pas, ce coefficient peut induire en erreur, surtout sur lintensit de la liaison entre variables considres. La mesure ne concerne que les variables quantitatives. En prsence des variables qualitatives comme la paix, la religion, , les deux coefficients prsents ci-haut ne sont plus adapts. La corrlation nest ni impact ni causalit . Lobjet de la corrlation nest pas dtablir une causalit mais simplement de rendre compte du sens et du degr dassociation ventuelle entre variables. La corrlation peut tre fortuite [artificielle ou fallacieuse ou encore artefactuelle]. Une corrlation leve ne peut tenir qu{ un facte ur confondant ou artefact. En ralit, les deux variables peuvent simplement tre lis un mme phnomne - source : une troisime variable dont il faut neutraliser leffet.

Les alternatives face ces faiblesses sont notamment la corrlation pour variables qualitatives, le rapport de corrlation, la rgression linaire et non linaire, la causalit, la cointgration, etc.

Ass. Cdrick Tombola M.

21

Exercices rsolus sur la thorie de la corrlation


Exercice 1
Un chercheur dsire examiner la relation quil peut exister entre lhabilit en lecture (X) et le nombre dheures de lecture par semaine (Y). X est mesur en laboratoire { laide dun test dhabilit en lecture alors que Y est estim par les sujets eux-mmes. 10 sujets ont t chantillons. Les rsultats sont : X Y 20 5 5 1 5 2 40 7 30 8 35 9 5 3 5 2 15 5 40 8

Estimer la corrlation entre X et Y [passer par les cinq tapes]


Solution de lexercice 1 Etape 1. Test de linarit 10 8 6 4 2 0 0 10 20 30 40 50 Ce graphique fait tat dune association linaire positive entre X et Y.

Etape 2. Test de normalit Puisqutant appropri pour petit chantillon, nous appliquons le test de Shapiro Wilk.
n 2 a [x n i+1 =1 i 2

x i ]
2

La statistique calculer est : W = Test sur la variable X i 1 2 3 4 5 6 7 8 9 X 20 5 5 40 30 35 5 5 15 X(i) 5 5 5 5 15 20 30 35 40 40

x (i) x

()
-15 -15 -15 -15 -5 0 10 15 20 20 0

()
225 225 225 225 25 0 100 225 400 400

ai 0,5739 0,3291 0,2141 0,1224 0,0399

35 35 30 25 5

20,0865 11,5185 6,423 3,06 0,1995 41,2875

W= = 0.83154032 Wtable =0.842 [ 5%, pour n=10] Puisque W<Wtable, RH0. La variable X est non gaussienne.

, 2

10 40

2050

=20 ; n=10 ; =5

Ass. Cdrick Tombola M. Test sur la variable Y i 1 2 3 4 5 6 7 8 9 10 Y 5 1 2 7 8 9 3 2 5 8 y(i) 1 2 2 3 5 5 7 8 8 9

22

()
-4 -3 -3 -2 0 0 2 3 3 4

()
16 9 9 4 0 0 4 9 9 16 76

ai 0,574 0,329 0,214 0,122 0,04

8 6 6 4 0

4,5912 1,9746 1,2846 0,4896 0 8,34

W= = 0.915205263 Wtable =0.842 [ 5%, pour n=10] Puisque W>Wtable, Non RH0. La variable Y est gaussienne.

, 2

0 =5 ; n=10 ; =5

Etape 3. Choix et estimation dun coefficient de corrlation Eu gard aux rsultats des tests de linarit et de normalit [X est non gaussienne], le coefficient de corrlation appropri dans ce cas est le XY de Spearman. Les calculs sont confins dans le tableau ci-aprs : X 20 5 5 40 30 35 5 5 15 40
6(18,5) XY = 1 10(10 2 1) = 0. 887878788

Y 5 1 2 7 8 9 3 2 5 8

Rang de X [Ri] 6 2,5 2,5 9,5 7 8 2,5 2,5 5 9,5

Rang de Y [Si] 5,5 1 2,5 7 8,5 10 4 2,5 5,5 8,5

Di = R i - Si 0,5 1,5 0 2,5 -1,5 -2 -1,5 0 -0,5 1

Di2 0,25 2,25 0 6,25 2,25 4 2,25 0 0,25 1 18,5

Note : Deux nombres au moins identiques ont mme rang qui est donn par la moyenne arithmtique de leurs rangs respectifs.

Etape 4. Test de significativit statistique La statistique du test est : tcal=


0.887878788
1 (0.887878788 )2 10 2

= 5. 45842979 et t0.025 ; 8 = 2.306 [Puisque tcal >ttable, alors RH0

dabsence de corrlation entre X et Y, le coefficient de corrlation calcul est statistiquement significatif]. Etape 5. Signification clinique [interprtation] Il existe bel et bien une corrlation linaire positive trs forte entre lhabilit en lecture (X) et le nombre dheures de lecture par semaine (Y) au sein de la population tudie.

Ass. Cdrick Tombola M.

23

Exercice 2
Montrer rigoureusement que par construction le coefficient de corrlation linaire est toujours comprise entre - 1 et 1 [Utiliser la formule de Bravais Pearson]. Solution de lexercice 2 Si le lien linaire entre X et Y est parfait, Y (X) scrirait comme une fonction affine de X (Y) : Y = + X Dune part, on aura : Cov (X, Y) = E(XY) = E{[X E(X)] [Y E(Y)]} = E{[X E(X)][ + X E( + X)]} = E{[X E(X)][ + X E(X)]} = E{[X E(X)] [X E(X)]} Y = X Dune part, on aura : Cov (X, Y) = E(XY) = E{[X E(X)] [Y E(Y)]} = E{[X E(X)][ X E( X)]} = E{[X E(X)][ X + E(X)]} = E{[X E(X)] [X E(X)]}

= [X E(X)]
= Var(X) Dautre part, on a ceci :
2

= [X E(X)]
= Var(X) Dautre part, on a ceci :
2 2

Var(Y) = E[Y E(Y)] = E[ + X E(X)] = 2var(X) Et par consquent, rXY =


Cov (X,Y) Var X Var (Y)

Var(Y) = E[Y E(Y)] = E[ X + E(X)] = 2var(X) Et par consquent, rXY =


Cov (X,Y) Var X Var (Y)

Var (X) Var X 2 Var (X)

Var (X) Var (X)

=1

Var (X) Var X 2 Var (X)

Var (X) Var (X)

=1

Le domaine de dfinition de rXY est donc [ 1, + 1]

Exercice 3
Le tableau ci-aprs renseigne sur lvolution de loffre de jus de banane (X) et son prix en USD (Y). N X 1 10 2 8 3 9 4 11 5 14 6 6 7 4 8 12 9 7 10 5 11 8

Travail faire : - Calculer le coefficient de corrlation appropri. - Tester sa significativit statistique - Evaluer sa signification clinique
Solution de lexercice 3 1. Test de linarit
10 8 6 4 2 0 0 5 10 15

Ass. Cdrick Tombola M. Le diagramme de dispersion tmoigne de lexistence dune association linaire positive entre X et Y. 2. Test de normalit Test sur la variable X i
1 2 3 4 5 6 7 8 9 10 11

24

X
10 8 9 11 14 6 4 12 7 5 8

()
4 5 6 7 8 8 9 10 11 12 14

()
-4,5454545 -3,5454545 -2,5454545 -1,5454545 -0,5454545 -0,5454545 0,4545455 1,4545455 2,4545455 3,4545455 5,4545455

()
20,661157

ai
0,5601 0,3315 0,226 0,1429 0,0695

10 7 5 3 1

5,601 2,3205 1,13 0,4287 0,0695

12,5702479 6,47933884 2,38842975 0,29752066 0,29752066 0,20661157 2,11570248 6,02479339 11,9338843 29,7520661

W=
, 2 ,

9,5497 = 0,983494579 Wtable=0,850 Puisque W >Wtable, alors Non RH0. La variable X est normalement distribue.

= 8,545454545 ; n =11 ;

92,7272727 = 5,5

Note : n tant impair, on na retenu que la partie entire du ratio , soit 5.

Test sur la variable Y i


1 2 3 4 5 6 7 8 9 10 11

Y
7 6 7 8 9 6 5 8 6 6 7

()
5 6 6 6 6 7 7 7 8 8 9

()
-1,818181818 -0,818181818 -0,818181818 -0,818181818 -0,818181818 0,181818182 0,181818182 0,181818182 1,181818182 1,181818182 2,181818182

()

ai
0,5601 0,3315 0,226 0,1429 0,0695

3,30578512 0,66942149 0,66942149 0,66942149 0,66942149 0,03305785 0,03305785 0,03305785 1,39669421 1,39669421 4,76033058

4 2 2 1 1

2,2404 0,663 0,452 0,1429 0,0695

W=
, 2 ,

3,5678 = 0,933474435

Wtable=0,850 Puisque W >Wtable, alors Non RH0. La variable Y est normalement distribue.

0 13,6363636 = 6,818181818 ; n=11 ; = 5,5

3. Choix et estimation dun coefficient de corrlation Les deux variables tant gaussiennes et linairement associes, on peut indiffremment estimer le r XY de Bravais-Pearson ou le XY de Spearman. Dans ce cas, les deux coefficients devraient donner pratiquement la mme chose. Aprs calcul, on a les rsultats suivants :

Ass. Cdrick Tombola M.

25

Corrlation entre X et Y

Le rXY de Bravais-Pearson 0,95870624

Le XY de Spearman 0,95227273

4. Signification statistique du coefficient calcul La statistique calcule est : = 10.1129979 pour le rXY de Bravais-Pearson, et = 9.3589914, pour le XY de Spearman. Et la valeur de la table, au seuil de 5%, est de : t0.025 ; 9 =2.262 Conclusion : le coefficient de corrlation calcul est statistiquement non nul. 5. Signification clinique il existe bel et bien une corrlation linaire positive trs forte entre quantit offerte de jus de banane et son prix, ce qui est conforme la moi de loffre.

Exercice 4
A partir dun chantillon de 27 objets, on a trouv que la valeur dun coefficient de corrlation linaire tait 0.4. Peut-on en conclure, un seuil de signification de 0.05 que le coefficient de corrlation diffre significativement de la valeur zro ? Quadviendrait la rponse obtenue prcdemment si lon considre un seuil de signification de 0.01. Solution de lexercice 4 Lexercice livre les informations suivantes : rXY =0.4 ; n=27 ; = 0.05. Aprs calcul, on a tcal=2.1821789. En considrant le seuil donn, = 0.05, et 25 degrs de libert, la table de la loi de Student donne la valeur : t0.025 ; 25 = 2.060. On peut donc conclure, un seuil de signification de 0.05 que le coefficient de corrlation diffre significativement de la valeur zro. Au seuil de signification de 0.01, t0.005 ; 25 = 2.787, ce coefficient de corrlation devient significatif.

Exercice 5
Soit le jeu de donnes normalement distribues ci-dessous.

Bloc I
X 10 8 13 9 11 14 6 4 12 7 5 Y 8,04 6,95 7,58 8,81 8,33 9,96 7,24 4,26 10,84 4,82 5,68 X 10 8 13 9 11 14 6 4 12 7 5

Bloc II
Y 9,14 8,14 8,74 8,77 9,26 8,10 6,13 3,1 9,13 7,26 4,74 X 10 8 13 9 11 14 6 4 12 7 5

Bloc III
Y 7,46 6,77 12,74 7,11 7,81 8,84 6,08 5,39 8,15 6,42 5,73 X 8 8 8 8 8 8 8 19 8 8 8

Bloc IV
Y 6,58 5,76 7,71 8,84 8,47 7,04 5,25 12,5 5,56 7,91 6,89

Ass. Cdrick Tombola M. Travail demand : (i) (ii) (iii) (iv)

26

Estimer pour chaque cas le coefficient de corrlation de Bravais Pearson Quel constat se dgage t-il de ces calculs ? A prsent, raliser un graphique nuage des points pour chaque cas. Quelle leon peut-on tirer ? Calculer le coefficient de Spearman pour le bloc IV. Quel avantage prsente-t-il ?

Solution de lexercice 5 (i) Aprs calcul, on a le coefficient de Bravais-Pearson ci-aprs, pour chaque cas : Bloc I 0,81642052 (ii) Bloc II 0,81623651 Bloc III 0,81628674 Bloc IV 0,81652144

rXY

Pour les 4 blocs, on obtient pratiquement la mme valeur du coefficient de corrlation de BravaisPearson, soit rXY = 0.82. Ce qui semble traduire dans ces diffrents cas, lexistence dun lien linaire positif trs fort. Graphique nuage ds points pour chaque bloc Bloc I Bloc II
10 5 0 15 10 5 0 0 10 20 0 5 10 15

(iii)
15 10 5 0 0

Bloc III
15 10 5 0 0

Bloc IV

10

20

10

20

La leon tirer est que lestimation du coefficient de corrlation de Pearson doit toujours saccompagner dun examen graphique. Car, comme on le voit, le coefficient estim rXY = 0.82, ne correspond, en toute rigueur, quau premier graphique. Le deuxime, par exemple, fait tat dune liaison fonctionnelle presque parfaite entre X et Y dont le rXY semble sous-estimer lintensit. Quant au troisime et au quatrime graphiques, il y a un point atypique qui fausse compltement le rXY de Bravais-Pearson. Pour preuve, il suffit de retirer le point aberrant, soit le couple (13, 12.74) et (19, 12.5), respectivement dans le troisime et quatrime graphiques, le coefficient de corrlation de Pearson qui tait de r XY=0.82, devient respectivement de 0.99999655 et de 0 [puisque rkX=0]. (iv) On remarquera quau bloc IV, la variable X prsente plusieurs ex aequo, nous avons donc calcul le coefficient de Bravais-Pearson sur les rangs. Coefficient de Bravais-Pearson calcul sur les rangs Bloc IV Lien entre X et Y 0.5

Par au rapport au coefficient de Pearson, le coefficient de rang prsente lavantage de rsister aux points atypiques.

Ass. Cdrick Tombola M.

27

Exercice 6
Voici un chantillon de deux variables gaussiennes : X -2 -1 0 1 2 Y 4 1 0 1 4

Travail faire : - Estimez le coefficient de corrlation de Bravais - Pearson - A quoi renvoie ce rsultat ? - Faites maintenant un diagramme de dispersion. Que voyez-vous ? Quelle nuance pouvez-vous donc formuler dans ce cas ?

Solution de lexercice 6 - Les deux variables tant supposes gaussiennes par lexercice, et puisque le test de linarit ici ne fait pas un pralable, on passe directement lestimation du rXY comme prsente dans le tableau ci-dessous : X -2 -1 0 1 2 Somme Moyenne 0 2 rXY = 0 - rXY = 0 signifie que les variables X et Y seraient non corrles [indpendance] - Le diagramme de dispersion des couples (xi, yi) est :
5 4 3 2 1 0 -3 -2 -1 0 1 2 3

Y 4 1 0 1 4

Xi -2 -1 0 1 2 0

Yi 2 -1 -2 -1 2 0

(Xi )(Yi ) -4 1 0 -1 4 0

(Xi )2 4 1 0 1 4 10

(Yi )2 4 1 4 1 4 14

Il ressort de ce diagramme de dispersion quil existe bel et bien une liaison [de type non linaire] entre les variables X et Y. La nuance faire, au vu de ces rsultats, est quun coefficient de corrlation de Bravais Pearson nul ne devrait pas toujours sinterprter comme une absence de relation entre variables en cause. La meilleure interprtation serait que les deux variables tudies sont non linairement corrles, car un rXY =0 laisse toujours la possibilit dexistence, entre les variables considres, dune liaison dun autre type.

Ass. Cdrick Tombola M.

28

Exercice 7
A Washington, un journaliste a dcouvert quil existe une trs forte corrlation entre le fait davoir un nid de cigognes sur sa demeure et le fait davoir des enfants. Do il conclut que les cigognes apportent les bbs . Quelle remarque pouvez-vous faire une telle conclusion ? Solution de lexercice 7 La remarque principale formuler ce type de corrlation que rien ne peut expliquer ou qui en ralit tient un autre phnomne-source est que la corrlation peut tre fortuite ou artificielle. Par ailleurs, bien analyser les choses, tenant compte des ralits de Washington, la prsence dun nid de cigog nes sur le toit signifierait plutt que la famille qui y habite est aise et donc dispose, financirement, avoir plus denfants.

Exercice 8
En rsolvant un TP de statistique 1 sur le calcul du coefficient de corrlation linaire, un tudiant de G1 FASE fournit le tableau suivant : Xi 80 100 115 110 70 125 105 90 110 95 =100 =50 Yi 32 50 62 56 8 80 62 50 62 38 Xi -20 0 15 10 -30 25 6 -10 10 -5 1 rXY = Yi -18 0 12 6 -42 30 12 0 12 -12 0
()

(Xi )(Yi ) 360 0 180 60 1260 750 72 0 120 60 2862 = 0.9519

(Xi ) 400 0 225 100 900 625 36 100 100 25 2511

(Yi ) 324 0 144 36 1764 900 144 0 144 144 3600

Sans avoir { refaire tous les calculs, { regarder ce tableau, vous concluez quil y a erreur de calcul. Par quoi la voyez-vous ? Solution de lexercice 8 Par la somme des carts de la variable Y sa moyenne arithmtique. Cette somme est forcment gale zro, une valeur diffrente indique tout simplement une erreur de calcul.

Exercice 9
Soient les donnes sur les variables X et Y reprises dans le tableau ci-aprs et le nuage de points correspondant :
12 10 8

X Y

1 3

1,1 6,8

1,25 8,3

1,5 9,3

2 9,81

2,25 9,85

6 4 2 0 0,9 1,4 1,9 2,4

Ass. Cdrick Tombola M.

29

Estimer les coefficients de corrlation de Bravais-Pearson et de Spearman, puis commenter. Solution de lexercice 9 Les calculs sont synthtiss dans le tableau ci-aprs : X 1 1,1 1,25 1,5 2 2,25 Moyenne 1,52 7,84 rXY = 0,78 XY = 1 Y 3 6,8 8,3 9,3 9,81 9,85 x -0,52 -0,42 -0,27 -0,02 0,483 0,733 y -4,84 -1,04 0,46 1,46 1,97 2,01 xy 2,50 0,43 -0,12 -0,02 0,95 1,47 5,21 x 0,2669 0,1736 0,0711 0,0003 0,2336 0,5378 1,28 y 23,46 1,09 0,21 2,12 3,87 4,03 34,77 Ri 1 2 3 4 5 6 Si 1 2 3 4 5 6 Di 0 0 0 0 0 0 Di 0 0 0 0 0 0 0

Les calculs montrent simplement que le XY de Spearman est prfr au rXY de Bravais-Pearson lorsque la liaison entre X et Y est non linaire mais monotone, car comme on le voit, le rXY a sous-estim lintensit dune relation non linaire certes, mais visiblement parfaite entre X et Y.

Exercice 10
[Il y a au moins une rponse exacte, cocher, la question suivante]. Le coefficient de corrlation linaire entre deux variables statistiques : (a) ne peut tre calcul que si les deux variables sont quantitatives (b) est un nombre positif ou nul (c) nest gal zro que lorsque les variables sont indpendantes (d) est un nombre sans dimension.

Solution de lexercice 10 : (a) et (b)

Ass. Cdrick Tombola M.

30

.III.

MODELE DE REGRESSION LINEAIRE SIMPLE


III.1. Modlisation et hypothses
La corrlation, comme dveloppe au chapitre prcdent, sert avant tout { quantifier le degr dassociation linaire entre deux variables quantitatives dont la position , dans ltude, est symtrique. Elle ne permet donc ni dtablir une causalit, ni de mesurer limpact dune variable sur lautre. Dans le modle de rgression linaire simple par contre, la position des variables dans lanalyse nest pas symtrique. On connait, priori, la variable alatoire qui cause lautre [Y=f(X)] 19, ce qui rend possible la mesure de limpact ou de la contribution de X dans lexplication de Y . La plupart du temps, et comme le mot lindique, le modle de rgression linaire simple considre que la variable expliquer Y est une fonction affine de la variable explicative X. Mathmatiquement, cette dpendance linaire scrit de la sorte : [3.1] Yt = 0 + 1Xt

o 0 et 1 sont les paramtres du modle qui permettent de caractriser la relation de dpendance linaire qui existe chaque date t entre Xt et Yt. Encadr 2. Fonction affine Une fonction affine est toute fonction de la forme : Y = a + bX [avec a et b *] a : est lordonne { lorigine ou lorigine b : est la pente de la droite ou le coefficient angulaire [directeur] La fonction affine est appele aussi fonction linaire si a =0 Graphe dune fonction affine [considrons le cas o a > 0 et b > 0] La pente dune droite mesure la variation de Y quand on se dplace le long de la droite en accroissant X dune unit. Y E Y = Y1 Y0 D a 0 X = X1 X0 F Y = a + bX Gomtriquement, la pente b est donne par :
c t oppos c t adjacent

b = tg () =

= DF

EF

Et lquation dune droite passant par deux points, de coordonnes (X0, Y0) et (X1, Y1), est : Y Y0 = b (X X0) X Algbriquement, la pente drivant Y par rapport X : sobtient en

b=

dY dX

ou

b=

Y X

= X 1 X 0 [Si donnes discrtes]


1 0

Y Y

19

Cette information est gnralement fournie par la thorie conomique, ou peut simplement dcouler de lobjectif de ltude du modlisateur.

Ass. Cdrick Tombola M. Sous sa spcification conomtrique, le modle [3.1] scrit comme suit : [3.2] Yt = 0 + 1Xt + ut

31

Dans ce cas de la rgression linaire simple 0 est le terme constant ou lorigine et 1 la pente. Comme pour la corrlation, avant toute analyse, il intressant de toujours commencer par un examen graphique travers un diagramme de dispersion du type de relation qui lie les deux variables considres. Il faut noter, par ailleurs, que le raisonnement qui sera dvelopp dans la suite de ce chapitre, ne peut sappliquer que si Y peut scrire comme une fonction affine de X. Considrons le jeu de donnes ci-aprs o un chercheur veut expliquer lhabilit en lecture (Y) de dix sujets chantillonns par le nombre dheures de lecture par semaine (X). Y est mesure en laboratoire { laide dun test dhabilit en lecture alors que X est estim par les sujets eux -mmes. Y X 20 5 5 1 5 2 40 7 30 8 35 9 5 3 5 2 15 5 40 8

Dun point de vue pratique, rgresser Y sur X prsente un objectif double : Ajuster un modle linaire pour expliquer les valeurs prises par Y par celles de X. Autrement, il sagit de faire un ajustement linaire, cest--dire de remplacer le nuage de points des couples (x i, yi) par une droite qui sy adapte le mieux que possible. Prdire les valeurs de Y pour les nouvelles valeurs de X.

Pour le jeu de donnes ci-dessus, on a les graphiques suivants : Graphique nuage de points
50 40 30 20 10 0 0 2 4 6 8 10 50 40 30 20 10 0 0 2 4 6 8 10

Sens de lajustement linaire

et

Lajustement linaire [ou rgression linaire] consiste donc tracer une droite dajustement appele galement droite de rgression qui, sans passer par tous les points du nuage, sy approche le mieux. Pour a, il faut donc un critre quantifiant la qualit de lajustement. Le critre auquel on se rfre dans ce chapitre, et trs souvent en conomtrie, est le critre ou la mthode des Moindres Carrs Ordinaires [MCO] 20. On utilise souvent le terme anglais OLS [Ordinary Least Squares] pour dsigner la mme mthode.

20

Certains auteurs ironisent en disant que la mthode nous sert { mettre un chapeau sur nos .

Ass. Cdrick Tombola M. Hypothses Lapplication du critre des moindres carrs repose sur les hypothses suivantes : Hypothses sur la partie systmatique H1. Les variables X et Y sont observes sans erreur. Y est
alatoire par lintermdiaire de ut, cest--dire que la seule erreur possible sur Y provient des insuffisances de X expliquer ses valeurs dans le modle. H2. Le modle est linaire en ses paramtres tels que lexprime lquation [3.2]. H3. Le nombre dobservations n doit tre suprieur au nombre des paramtres estimer.

32

Hypothses sur la partie stochastique H4. Hypothse de centralit : E(ut)=0

Cest--dire quen moyenne, linfluence de ut sur le modle est nulle, ce qui revient admettre que le modle est correctement spcifi. H5. Hypothse non autocorrlation des erreurs : E(uiuj) = 0 i j Les erreurs ut de diffrentes priodes sont indpendantes les unes des autres. H6. Hypothse dhomoscdasticit des erreurs : E(uiuj) = i =j Les erreurs ut ont une variance constante et finie. Plus explicitement, il sagit dassumer que les variables explicatives omises dans le modle influent toutes pratiquement de faon constante sur la variable explique. H7. Hypothse de normalit des erreurs: ut (0, ) Cette hypothse est la cl de linfrence statistique. Elle est donc ncessaire pour mener les tests. H8. Hypothse dindpendance entre la partie systmatique et la partie alatoire : Cov (Xt, ut)=0. Cette hypothse signifie que lerreur et les variables explicatives ont une influence spare sur la variable end ogne.

Note : (i) Lorsque les hypothses H4, H5 et H6 sont ralises, on dit que les erreurs sont des bruits blancs. Et lorsquon y ajoute lhypothse H7, on parle des bruits blancs gaussiens. (ii) Lorsque toutes les hypothses sous-tendant la mthode des MCO sont remplies, le thorme de Gauss Markov avance que ses estimateurs sont BLUE [Best Linear Unbiased Estimator], cest --dire quils sont les meilleurs estimateurs linaires, non biaiss et variance minimale.

III.2. Estimateurs des moindres carrs ordinaires


Le critre des MCO permet dobtenir lquation de la meilleure droite dajustement : Yt = 0 + 1 Xt, appele galement droite des moindres carrs. Le travail, qui permet dobtenir la droite, consiste choisir les paramtres 0 et 1 , en utilisant les informations apportes par lchantillon, de manire rendre minimale la somme des carrs des carts [rsidus] entre les valeurs observes de Y et ses valeurs prdites par le modle. Note : Les rsidus, nots et, sont lestimation de lerreur ut sur base de donnes de lchantillon [et = ut ], elle est donne par : et = Yt Yt . Mathmatiquement, le critre des MCO se prsente comme suit : Min S =
2 =1

= =

=1 =1

0 + 1 X t 0 1 Xt
2

La dtermination de 0 et 1 se fait en appliquant les conditions du premier ordre :


0 1

=0 =0

[3.3] [3.4]

Ass. Cdrick Tombola M.

33

En appliquant ces drives partielles, on obtient les quations normales, partir desquelles sont tirs les estimateurs des MCO :

Y = n0 + 1 X XY = 0 X + 1 X2

[3.5] [3.6]

A partir de [3.5], en divisant toute la relation par n, on dtermine lestimateur de 0 : 0 = 1 [3.7]

Aprs substitution de 0 dans la deuxime quation normale [3.6], on tire lestimateur de 1 : 1 =


X t Y t n
2 X2 t n

[3.8]

Un dveloppement mathmatique simple permet dexprimer 1 par le produit de la covariance empirique entre X et Y et de la variance empirique de X. 1 =
cov (X,Y) 2 X

X t (Y t ) X t 2

[3.9]

En utilisant les variables centres, 1 est donne par le rapport : 1 =



2

[3.10]

0 et 1 sont donc les estimateurs des moindres carrs ordinaires. 1 est le paramtre dintrt qui capture entirement la dpendance linaire de Y envers X. 1re consquence : La droite des moindres carrs Yt = 0 + 1 Xt passe forcment par lorigine 0 et le point de coordonnes ( , ), appel le centre de gravit ou le point moyen du nuage de points. Pour le vrifier, il suffit de raliser une projection pour le point : ( ) = 0 + 1 = ( 1 ) + 1 = Ce rsultat montre que lorsquon travaille sur les carts { la moyenne arithmtique [variables centres] , on reste sur la mme droite dajustement ce qui implique que la pente 1 reste inchange , mais lon soulve les axes jusquau centre de gravit. Y 45
40 35 30 25

= 20
15 10 5 0 0 1 2 3

(, ) x

4 = 5

10

Ass. Cdrick Tombola M.

34

Ainsi, en travaillant avec les carts { la moyenne arithmtique, lorigine 0 peut disparaitre momentanment, car une petite manipulation suffit le retrouver. La fonction affine Yt = 0 + 1 Xt devient linaire : = 1 2me consquence : la droite des moindres carrs a pour quation : Yt =
cov (X,Y) 2 X

[3.11]

(Xt )

[3.12]

On dmontre aussi que la moyenne arithmtique de Yt est gale : = = =


1 1

0 + 1 Xt 0 + 1 Xt

( 1 ) 1 X t +

=
3me consquence : la somme et donc la moyenne arithmtique des rsidus est nulle dans une rgression avec constante. En effet : e = Yt 0 + 1 Xt = n - n0 - n1 = n n( 1 ) - n1 =0 4me consquence : il existe un lien entre la pente dune rgression linaire simple 1 et le coefficient de corrlation de Bravais Pearson rXY: 1 =
cov (X,Y) 2 X

= rXY

cov (X,Y) X X

Lcart type tant non ngatif, la pente 1 et le coefficient de corrlation de Pearson rXY auront toujours le mme signe. Synthse des formules Donnes brutes Modle estim Yt = 0 + 1 Xt Equations normales Variables centres rXY connu Connaissant lorigine 0 et le centre de gravit

Yt = 0 + 1 Xt = 1

Y = n0 + 1 X
Formules

- Tracer la droite des moindres carrs ;

XY = 0 X + 1 X2
Estimateurs 1 =
21

1 =

cov (X,Y) 2 X
2

1 = rXY

- 1 est la pente de la droite, soit :

X t Y t n
2 X2 t n

1 = 0 = 1

Y 1 Y 0 X 1 X 0

21

Lestimateur est une formule, et lestimation est la valeur quon trouve en appliquant lestimateur.

Ass. Cdrick Tombola M.


2

35

III.3. Dcomposition de la variance totale et coefficient de dtermination R

Lanalyse de la variance a pour objet de driver un indicateur synthtique, appel coefficient de dtermination R2, qui value la qualit de lajustement ralis en appliquant le critre des moindres carrs. Il indique donc dans quelle mesure, la variable explicative X nous permet damliorer nos connaissances sur la variable endogne Y. Soit yt = + et [3.13]

La somme des carrs, dans [3.13], donne : 2 = + e


2

[3.14]

Aprs dveloppement de la relation [3.14], on obtient lquation danalyse de la variance : SCT = SCE + SCR 2 = 2 + e2 Interprtation de lquation danalyse de la variance : SCT est la somme des carrs totaux. Elle indique la variabilit totale de Y. SCE est la somme des carrs expliqus. Elle indique la variation de Y due sa rgression linaire sur X. SCR est la somme des carrs rsiduels. Elle indique la variabilit de Y non explique par le modle.
2

[3.15] [3.16]

Drivation du coefficient de dtermination R


2

A partir de lquation [3.15], le R correspond au rapport : R


2 2

= SCT

SCE

[3.17]

Ainsi, le R peut tre interprt comme la proportion de variance de Y explique par le modle. Toujours partir de la relation [3.15], on peut dduire les informations suivantes : Au meilleur des cas SCR = 0 SCT = SCE 2 R =1 Le modle est parfait, la droite de rgression passe par tous les points du nuage. Intervalle de variation du R
2

Au pire des cas SCE = 0 SCT = SCR 2 R =0 Le modle est mauvais, la meilleure prdiction de Y est sa propre moyenne. 0R R
2 2

1
SCR
2

= SCT = 1 - SCT =

SCE

1 2

Autres formules du R

2 X2 t n 2 Y2 t n

=1 1 =

xt yt 2
2 2

Avec 1 la pente de la droite de rgression de X sur Y, soit Xt = 0 + 1 Yt. 2 Plus le R est proche de 1, meilleur est lajustement, la connaissance des valeurs de X permet de

Ass. Cdrick Tombola M.

36

deviner avec prcision celles de Y. 2 Plus le R est proche de 0, mauvais est lajustement, X napporte pas dinformations utiles sur Y. 2 Il faut tout de mme faire attention quant au crdit accorder au R , il doit toujours tre accompagn dautres tests [Student et Fisher essentiellement] avant de trancher sur la bont dun modle , mais il reste un critre non ngligeable pour la prvision.
2 2

Relation entre le coefficient de corrlation de Pearson et le R

Pour une rgression linaire simple, et seulement dans ce cas, le R nest rien dautre que le carr du coefficient de corrlation de Pearson. La dmonstration est relativement simple. Partant de la relation 1 = rXY

, on peut tirer rXY et en llevant au carr, on a :


2 rXY = 1

2
X t 2 Y t 2

= = =

2 1

=
SCT

1 X t SCT

0 + 1 X t 0 + 1 Y t SCT
2

SCE SCT

=R Par consquent rXY = signe (1 ) R2

Note : Comme le coefficient de corrlation linaire de Pearson, le R , pour une rgression linaire simple, est symtrique.

III.4. Test de significativit des paramtres


Etant donn que les valeurs 0 et 1 ne sont que des estimations des paramtres 0 et 1 inconnus de la population, il faut donc sassurer de leur fiabilit statistique. Pour appliquer les tests sur les paramtres, il est important de connatre leurs variances et la variance rsiduelle. La dmonstration22 du thorme de Gauss Markov conduit la construction de la matrice symtrique des variances covariances suivante23 : Var 0 0 , 1 = 1 , 0 Var 1 2 ut
e2 t n 2
2

2 ut

1 n

2
2

2 ut

0, 1 =

2 u

Et la variance rsiduelle est donne par : 2 ut =

22 23

Pour les dtails, lire par exemple Bosonga (2010), Bourbonnais (2005), Bofoya (2007). Appele souvent matrice Omega ().

Ass. Cdrick Tombola M. Test de significativit individuelle Le test de significativit individuelle porte sur chaque paramtre. Les hypothses du test sont : H0 : i = 0 H1 : i 0n [le paramtre est statistiquement nul, non significatif] [le paramtre est statistiquement non nul, significatif]

37

Il sagit dun test bilatral [two-tail ou two-sided]24. Il est bas sur la statistique t de Student calcule comme suit : ti =
i i
i

[3.18]

Sous H0, la formule [3.18] devient : t i =


i
i

[3.19]

On dmontre, sous H0, que cette statistique suit une distribution de Student au seuil [5% sauf indication contraire] et (n 2) degrs de libert. Critre de dcision : Si t i > t/2 ; (n 2) [valeur lue dans la table de Student], alors RH0, le paramtre i est statistiquement non nul, la variable lui associe est par consquent non pertinente dans la prdiction de Y. Intervalle de confiance des paramtres i Le RH0 revient simplement { refuser que le paramtre i de la population est non nul, cela ne signifie nullement que i serait la vraie valeur du paramtre i. Ainsi, on peut, en se basant sur les paramtres estims i et en assumant un risque donn, construire des intervalles de confiance pour les paramtres i. Ces intervalles de confiance sont trouvs en appliquant la formule : I =i t/2 ; (n 2) i Test de significativit conjointe ou globale Un autre test consiste tester la significativit conjointe de tous les paramtres estims du modle. Cest le tes bas sur la statistique de Fisher donne par le rapport suivant : F=
SCE 1 SCR (n 2)

[3.20]

[3.21]
2

Une manipulation simple permet dexprimer F en fonction du R comme ci-aprs :


R2 1 (1 R 2 ) (n 2)

F=

[3.22]

Le test F teste statistiquement la raison dtre du modle. Par ailleurs, partant de la relation [3.22], daucuns considrent quil teste la significativit du coefficient de dtermination.

24

Cest--dire que H0 est rejete que le coefficient soit positif ou ngatif.

Ass. Cdrick Tombola M.

38

Dans le cas dune rgression linaire simple, le test F est confondu au test de significativit individuelle de la pente. Les deux tests sont bass sur les mmes hypothses, et on dmontre dans ce cas que : F = t2 1 Preuve : F=
SCE 1 SCR (n 2)

[3.23]

=
2

1
e2 t (n 2) 2 1 2 ut 2

2 ut 1 2

= t2

Les hypothses du test sont donc25 : H0 : 1 = 0 H1 : 1 0n [le modle nest pas bon] [le modle est bon]

Comme on le voit, valider la significativit de la pente revient, en mme temps, admettre la bont du modle. Sous H0, on dmontre que la statistique F suit une loi de Fisher respectivement 1 et (n-2) degrs de libert. Critre de dcision : Si F > F [1 ; (n 2)] [valeur lue dans la table de Fisher, au seuil de 5%, sauf indication contraire], on rejette H0, le modle est bon. Significativit de la pente versus significativit du r XY de Bravais Pearson Partant de la relation [3.22] et [3.23] ci-haut, on montre facilement que tester 1 = 0, revient tester rXY = 0. Cela implique quaccepter la significativit de la pente, cest accepter galement la significativit du coefficient de corrlation linaire. En effet, en considrant les relations [3.22] et [3.23], et en sachant que le R2 correspond au carr du rXY, on tablit :

t2 =
1

R2
(1 R 2 ) (n 2)

t1 =

1 r 2 XY (n 2)

r2 XY

r XY
1 r 2 XY (n 2)

25

Le test de significativit globale ne porte que sur les paramtres associs aux variables exognes.

Ass. Cdrick Tombola M.

39

III.5. Prvision dans le modle de rgression linaire simple


Lun des objets de lajustement linaire quon effectue est de nous aider { prdire les valeurs de Y pour les nouvelles de X, bref prvoir. Connaissant la nouvelle valeur de X pour un horizon h, note Xn+h, on distingue deux types de prvision de la valeur de Y { lhorizon considr : la prvision ponctuelle et la prvision par intervalle. La prvision ponctuelle est trs simple. Connaissant X n+h, il suffit de substituer cette valeur dans lquation estime pour obtenir la valeur correspondante de Y, soit : Yn+h = 0 + 1 Xn+h [3.24]

Partant de la prvision ponctuelle, la prvision par intervalle est faite en appliquant la formule ciaprs : Yn+h I =Yn+h t/2 ; (n 2) e n +h [3.25]

o e n +h est lcart-type de lerreur de prvision 26. Il est donn par la formule :

e n +h = 2 ut 1 + +
n

X n +h x 2 x2 t

1 2

[3.26]

26

Lerreur de prvision capte lcart entre ce qui sera ralis et ce quon prvoit.

Ass. Cdrick Tombola M.

40

Exercices sur le modle de rgression linaire


Exercice 1
Le tableau ci-dessous reprsente lvolution du revenu disponible brut et de la consommation des mnages en euros pour un pays donn sur la priode 1992-2001. [Pour les calculs, prendre 4 chiffres aprs la virgule]. Anne 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 Revenu 8000 9000 9500 9500 9800 11000 12000 13000 15000 16000 Consommation 7389.99 8169.65 8831.71 8652.84 8788.08 9616.21 10593.45 11186.11 12758.09 13869.62

On cherche expliquer la consommation des mnages (C) par le revenu (R), soit : Ct = + Rt + ut Travail faire : (i) Tracer le nuage de points et commenter. (ii) (iii) (iv) (v) (vi) (vii) (viii) (ix) (x) Estimer la consommation autonome et la propension marginale consommer et . En dduire les valeurs estimes de Ct. Calculer les rsidus et vrifier la proprit selon laquelle la moyenne des rsidus est nulle. Calculer lestimateur de la variance de lerreur. Tester la significativit de la pente. Construire lintervalle de confiance au niveau de confiance de 95% pour le paramtre . Calculer le coefficient de dtermination et effectuer le test de Fisher permettant de dterminer si la rgression est significative dans son ensemble. Ecrire et vrifier lquation danalyse de la variance. Interprter. Aprs un travail minutieux, un tudiant de L1 FASE trouve le coefficient de corrlation linaire entre Ct et Rt suivant rXY = 0.99789619. Sans le moindre calcul, tester la significativit de ce coefficient. Argumenter. En 2002 et 2003, on prvoit respectivement 16800 et 17000 euros pour la valeur du revenu. Dterminer les valeurs prvues de la consommation pour ces deux annes, ainsi que lintervalle de prvision au niveau de confiance de 95%.

(xi)

Exercice 2
Soit le modle linaire Yt = 0 + 1Xt + ut. O Yt reprsente la quantit offerte de pommes et Xt le prix. On donne les informations suivantes : = 5 et =3. Aprs estimation, on a la droite de rgression suivante : = 0 + 1 Xt. Connaissant le couple (Y=2.5 ; X=2) par lequel passe cette droite de rgression, trouver 0 et 1 .

Ass. Cdrick Tombola M.

41

Exercice 3
Soit un modle linaire simple : Yt = 0 + 0Xt + ut On donne les informations suivantes : YX=184500 Y2=26350 X2=1400000 =60 Travail demand : Estimer les coefficients du modle Evaluer la qualit de cet ajustement Tester la significativit globale du modle =400 n=7

Exercice 4
Soit le modle : Yt= 0 + 1Xt + ut Yt : salaire moyen horaire par jour [en USD] Xt : nombre dannes dtudes On donne par ailleurs les informations suivantes : rXY= 0.951916 ; x=3.894440 et y=2.945636 Aprs estimation, sur base dun chantillon de 13 observations, un tudiant de L1 FBA prsente l es rsultats incomplets ci-aprs : = 0.030769 + .. Xt Travail demand : (i) (ii) (iii) (iv) (v) Complter les pointills. Tester la significativit du rXY. Interprter ces rsultats. Semblent-ils logiques ? Calculer le R2. Tester la significativit de la pente et la significativit densemble du modle.

Exercice 5
Le tableau suivant donne lge et la tension artrielle Y de 12 femmes : Individu Age (X) Tension artrielle (Y) Travail demand : (i) (ii) (iii) Dterminer lquation de la droite de rgression de Y sur X. Tester la significativit de la pente. Quelle conclusion peut-on tirer ? Estimer la tension artrielle dune femme ge de 50 ans. 1 56 136 2 42 132 3 72 136 4 36 130 5 63 138 6 47 132 7 55 136 8 49 130 9 38 142 10 42 134 11 68 136 12 60 140

Exercice 6
Les donnes statistiques ci-dessous portent sur les poids respectifs des pres et de leur fils an. Pre Fils 65 68 63 66 67 68 64 65 68 69 62 66 70 68 66 65 68 71 67 67 69 68 71 70

Ass. Cdrick Tombola M. Travail demand : (i) (ii) (iii) (iv) Calculer la droite des moindres carrs du poids des fils en fonction du poids des pres. Calculer la droite des moindres carrs du poids des pres en fonction du poids des fils. Que vaut le produit des pentes des deux rgressions ? Juger de la qualit des ajustements faits en (i) et (ii).

42

Exercice 7
Cocher la bonne la rponse. 1. La droite des MCO dune rgression linaire simple passe -t-elle par le point ( , ) ? A. Toujours B. Jamais C. Parfois 2. Pour une rgression linaire simple, le R2 est symtrique : A. Oui B. Non C. Parfois 3. Pour une rgression linaire simple, le R2 correspond au carr du F de Fisher : A. Oui B. Non

Exercice 8
Soient les donnes suivantes :
6 1

= 114

6 1

= 36

6 2 1

= 226

6 1

= 702

Estimer la relation Yt = 0 + 1Xt + ut

Exercice 9
Soit le modle suivant sans terme constant : Yt = Xt + ut. Trouver lestimateur des MCO.

Exercice 10
Soit les rsultats dune estimation conomtrique : = - 32.95 + 1.251Xt n = 20 R2 = 0.23 = 10.66 1) A partir des informations connues, on demande de retrouver les statistiques suivantes : la somme des carrs des rsidus (SCR), la somme des carrs totaux (SCT), la somme des carrs expliqus (SCE), la statistique F de Fisher et lcart-type de la pente. 2) La pente est-elle significativement suprieur 1 ?

Ass. Cdrick Tombola M.

43

Exercice 11 Montrer algbriquement que : 1. La somme des rsidus est toujours gale 0. 2. Tester lhypothse H0 : 1 = 0 [avec 1 la pente], revient tester lhypothse rXY = 0. Exercice 12
Le tableau ci-aprs renseigne sur la quantit offerte dun bien (Y) et son prix (X) N Y X 1 23 5 2 25 7 3 30 9 4 28 6 5 33 8 6 36 10 7 31 9 8 35 7 9 37 8 10 42 11

Travail faire : (i) (ii) (iii) (iv) Tracer le diagramme de dispersion et commenter. Rgresser Y sur X. Calculer les rsidus de cette rgression. Juger de la qualit de cet ajustement. Tester la significativit individuelle et conjointe des paramtres.

(v) Exercice 13

Le coefficient de corrlation linaire entre deux variables X et Y est r = 0.60. Si les carts-type de X et Y sont respectivement 1.50 et 2 ; et leurs moyennes, respectivement, 10 et 20. Trouvez les quations de rgression de Y en X et de X en Y.