Vous êtes sur la page 1sur 109

ECONOMETRIE 1

Ass. Cédrick Tombola M.

Ass. Cédrick Tombola M. 0
Ass. Cédrick Tombola M. 0

0

Rappels et recueil d’exercices [résolus]

Sous la supervision du Professeur BOSONGA BOFEKI

Licence 1 Economie

supervision du Professeur BOSONGA BOFEKI Licence 1 Economie Cédrick Tombola M . / A s s
supervision du Professeur BOSONGA BOFEKI Licence 1 Economie Cédrick Tombola M . / A s s
supervision du Professeur BOSONGA BOFEKI Licence 1 Economie Cédrick Tombola M . / A s s

Cédrick Tombola M . / A s s i s t a n t

U P P C CU
U P P C CU

Copyright © cdktombola-Laréq - mars 2012

BOFEKI Licence 1 Economie Cédrick Tombola M . / A s s i s t a

Ass. Cédrick Tombola M.

Ass. Cédrick Tombola M. 1

1

A travers cette contrée chaotique, des hommes audacieux et tenaces ont lancé le premier chemin de fer de l’Afrique centrale.

Henry Merton Stanley

N'essayez pas de devenir un homme qui a du succès. Essayez de devenir un homme qui a de la valeur.

Albert Einstein

PLAN SOMMAIRE

Ass. Cédrick Tombola M.

Ass. Cédrick Tombola M. 2
Ass. Cédrick Tombola M. 2

2

AVANT PROPOS

INTRODUCTION

THEORIE DE LA CORRELATION

MODELE DE REGRESSION LINEAIRE SIMPLE

MODELE DE REGRESSION LINEAIRE MULTIPLE

MODELES DE REGRESSION NON LINEAIRES

VIOLATION DES HYPOTHESES DE BASE

ANNEXES

Ass. Cédrick Tombola M.

Ass. Cédrick Tombola M. 3
Ass. Cédrick Tombola M. 3

3

AVANT-PROPOS

Je ne peux nier, quand j’ai commencé la rédaction de ce recueil, l’ambition de confectionner un vade-mecum d’introduction à l’Econométrie à l’intention des étudiants de première licence FASÉ. Mais le nombre de projets sur la file d’attente et les nombreux défis entre lesquels il me faut partager mon temps d’une part, et le besoin réel et urgent chez les étudiants de disposer d’un recueil qui accompagne le cours magistral assuré par le professeur d’autre part, m’ont obligé à ne produire qu’une ébauche.

Le projet de proposer ce recueil est né de la déception et de l’insatisfaction que j’éprouvais, encore étudiant, lors des séances TP d’Econométrie 1. Alors qu’ailleurs ils prennent de la vitesse, nous, me semblait-il, on tombait, paradoxalement, dans la suffisance.

Ce recueil a donc été rédigé de façon à permettre aux étudiants de porter un autre regard sur les notions qu’ils apprennent pendant le cours théorique et de voir plus loin que moi. Le choix des applications a également été fait dans cette optique. On remarquera que, par souci pédagogique et d’excellence, je me suis plus attardé sur les aspects et les démonstrations les moins populaires, bref, sur les non-dits.

Les étudiants passionnés et qui veulent aller loin en Econométrie, trouveront aussi, en annexe, une initiation au logiciel économétrique EVIEWS.

Enfin, en le mettant à la disposition du public, je formule le vœu que ce recueil suscite, parmi mes étudiants et mes collègues de la FASÉ, de nombreux esprits critiques qui pourront nous proposer mieux et ainsi éviter que nos efforts pour l’avancement de cette faculté ne s’essoufflent et n’atteignent, prématurément, un état stationnaire , ce qui serait dommage .

Remerciement

Je remercie le professeur Jean-Pierre Bosonga pour la confiance qu’il a eue en moi – à vrai dire, sans vraiment me connaître et pour m’avoir orienté dans la rédaction de ce recueil.

Mes sincères remerciements vont à mon aîné et mon ami l’assistant Jean-Paul Tsasa V. Kimbambu, pour nos nombreuses discussions, parfois laissées en queue de poisson, et pour l’idéal qu’il m’a transmis.

Je remercie aussi mes étudiants de première licence FASÉ, de la promotion 2011-2012, pour avoir beaucoup exigé et attendu de moi ; ils m’ont contraint à plus de sérieux dans le travail, et je leur en suis reconnaissant.

Bien entendu, ce support n’engage que son auteur. Toute remarque pertinente pouvant en améliorer le contenu sera la bienvenue.

Dédicace

Je dédie ce recueil à l’avenir du LAREQ et à l’émergence d’une nouvelle classe d’enseignants à l’UPC.

Cédrick Tombola M. cedrictombola@lareq.com

I.1. Quelques points de l’histoire

α. Avant 1930 : Le Moyen-âge économétrique

Ass. Cédrick Tombola M.

Ass. Cédrick Tombola M. 4
Ass. Cédrick Tombola M. 4

4

.I.
.I.

INTRODUCTION

Les premiers développements de l’Econométrie 1 peuvent remonter, selon Gérard Grellet, au 17 ème siècle, l’époque de l’Arithmétique politique [Political Arithmeticians, en anglais] en Angleterre, avec des auteurs comme William Petty, Gregory King et Charles Devenant, pour leurs tentatives de modélisation à partir des données empiriques.

Selon d’autres auteurs, on doit la genèse de l’Econométrie aux travaux de tentative d’unification de l’Economie et la Statistique d’Auguste Cournot et de Jules Dupuit en France, de William Stanley Jevons en Angleterre et de Henry Ludwell Moore aux Etats-Unis. Ces auteurs tentèrent d’élaborer des lois économiques { l’instar des lois de la physique newtonienne.

Mais il convient simplement de retenir que nombre de méthodes et techniques auxquelles recourt l’Econométrie, ont été développées bien avant son institutionnalisation comme discipline des sciences économiques. A titre d’exemple :

- En 1805, dans son ouvrage intitulé « Nouvelles méthodes pour la détermination des orbites des comètes », puis en 1806 dans la deuxième édition du même ouvrage, le mathématicien français Adrien-Marie Legendre propose, par une méthode algébrique, le premier développement rigoureux de la méthode des moindres carrés ordinaires.

- En 1809, Carl Friedrich Gauss, dans son traité « Theoria motus corporum coelestium », propose, par une

approche probabiliste, un autre développement rigoureux de la méthode des moindres carrés ordinaires dont il se réclame la paternité. Dans une lettre adressée à Pierre-Simon de Laplace 2 , il explique qu’il avait fait usage de cette méthode déjà en 1795, et de manière un peu plus fréquente, dans ces calculs

astronomiques sur les nouvelles planètes, depuis 1802.

Plus tard, en 1829, Carl F. Gauss et Andrei A. Markov démontrent que l’estimateur des moindres carrés ordinaires est BLUE [en anglais : Best Linear Unbiaised Estimator]. C’est-à-dire qu’il est le meilleur estimateur linéaire non biaisé, à variance minimale.

- En 1886, dans son étude sur la transmission des caractères héréditaires, Francis Galton, de qui le terme

régression tire son origine, fournit une première régression linéaire. Plus tard, son disciple Karl Pearson, en 1896, dans son ouvrage « La Grammaire de la Science », développe la notion de corrélation linéaire et

propose un estimateur pour cette grandeur.

La corrélation a été introduite en Economie en 1902, avec l’ouvrage de Arthur Lyon Bowley « Elements of Statistic ».

- En 1909, Georges Udny Yule invente les premières applications économiques de la méthode de la corrélation et introduit à la même occasion la notion de corrélation partielle. Et en 1926, il dénonce les

1 On attribue souvent à tort au norvégien R. Frisch, la création du mot économétrie qui revient plutôt à Pavel Compria. 2 Il inclut lui-même un exposé de la méthode des moindres carrés ordinaires dans son traité de 1820 : « Théorie analytique des probabilités ». En 1808, le mathématicien américain Robert Adrain a aussi publié une formulation de la méthode des moindres carrés.

Ass. Cédrick Tombola M.

Ass. Cédrick Tombola M. 5
Ass. Cédrick Tombola M. 5

5

« spurrious correlations », ce qu’il convient de traduire par corrélations fallacieuses. Puis montre que la corrélation de deux séries chronologiques peut être totalement artificielle.

β. Depuis 1930 : La naissance de l’Econométrie moderne

L’institutionnalisation de l’Econométrie en tant que discipline des sciences économiques s’est réalisée en 1930 exactement le 29 décembre 1930 – { l’occasion de la création { Cleveland, aux Etats-Unis, par 16 économistes 3 dont Ragnar Frisch 4 et Irving Fisher sont les plus cités, de l’Econometric Society [la Société d’Econométrie] avec comme devise : ’’ pour l’avancement de la théorie économique dans ses relations avec la statistique et les mathématiques’’.

Depuis la création de cette société, et de la Cowles commission spécialisée dans les méthodes d’estimation des modèles { équations simultanées –, fondée le 9 septembre 1932, deux ans après l’Econometric Society, par Alfred Cowles, l’Econométrie a connu un grand essor.

C’est ainsi qu’en 1933, R. Frisch crée la revue Econometrica pour la promotion des études qui ont pour but une unification des approches quantitatives théoriques et empiriques des problèmes économiques.

On note aussi que dès le départ, pour les promoteurs de l’Econometric Society, il était clair que deux déviations devraient être évitées :

La construction d'édifices mathématiques purement logiques et déconnectés du réel économique.

La mise en œuvre de pures investigations statistiques qui, en dépit de leur caractère poussé et de leur apparence réaliste, risque de manquer de consistance ou de pertinence, sans le soutien d'une pensée économique profonde et rigoureuse.

A ce sujet, R. Frisch écrivit ainsi dans le premier numéro de la revue Econometrica :

"L'expérience a montré que chacun des trois points de vue suivants, celui de la statistique, celui de la théorie économique et celui des mathématiques est une condition nécessaire, mais par elle même non suffisante, d'une compréhension effective des relations quantitatives de la vie économique moderne : c'est leur unification qui est efficace. C'est cette unification qui constitue l'économétrie ’’.

Il faut noter également que le krach financier des années 30, la domination du keynésianisme jusqu’{ la fin

des années 60, le développement de l’inférence statistique à la fin du 19 ème siècle et le consensus entre les

économistes autour du cadre IS LM avant 1970, sont aussi parmi les facteurs explicatifs de l’essor de

l’Econométrie depuis 1930, surtout au sein de la Cowles commission. La révolution Keynésienne [1936], avec

la logique de circuit, a développé un autre type de raisonnement macroéconomique en termes d’agrégats

objectivement mesurables par la comptabilité nationale et de comportements mesurés par les propensions.

Ainsi, entre 1944 et 1960, la plus grande partie de la recherche en Econométrie porta sur les conditions d’estimation des modèles macroéconométriques { équations simultanées.

- En 1935, Jan Tinbergen estime un premier modèle économétrique à équations simultanées, du type

keynésien, comportant 31 équations de comportement et 17 identités. Il devient ainsi, d’un point de vue

empirique, le père des modèles économétriques.

- En 1944, Trygve Haavelmo pose les conditions générales de solvabilité d’un système d’équations linéaires.

3 R. Frisch, I. Fisher, Hotelling, K. Menger , F. Mills, Ogburn, Ore, Roos, Rorty, J. A. Schumpeter, H. Schultz, Shewart, Snyder , Wedervang, Wiener, Wilson. 4 Premier lauréat du prix de la Banque de Suède communément appelé prix Nobel en mémoire de son fondateur Alfred Nobel – d’économie en 1969 avec Jan Tinbergen.

Ass. Cédrick Tombola M.

Ass. Cédrick Tombola M. 6
Ass. Cédrick Tombola M. 6

6

- En 1950, Lawrence Klein ouvre la vogue de la modélisation macroéconométrique. Il estime pour l’économie américaine (1921-1941), un modèle macroéconométrique de type keynésien à 16 équations. Ce modèle est amélioré plus tard, en 1955, par L. Klein et Arthur Goldberger, et sera le premier modèle utilisé à des fins prévisionnelles. Klein introduit également la notion de multicolinéarité. Il est parfois considéré comme le père des modèles macroéconométriques.

Plusieurs autres travaux seront produits au sein de la Cowles commission. En 1950, Durbin et Watson élaborent leur célèbre test d’autocorrélation des erreurs. En 1954, Henri Theil et Robert Léon Basmann introduisent la méthode des doubles moindres carrés. Toujours dans les années 50, il y eut un développement des modèles à retards distribués par Koyck, Almon, Cagan et Friedman.

L’on peut également citer les travaux suivants développés entre 1950 et 1970 : la méthode des moindres carrés généralisés et l’introduction du calcul matriciel en Econométrie par Aitken; les tests et corrections de l’hétéroscedasticité [Glejser, White, …].

L’irruption de l’informatique au début des années 60 va donner un nouveau coup de pousse { l’expansion de l’Econométrie.

En 1961, James Tobin développe les modèles microéconométriques. Il est, à ce titre, considéré comme le père des modèles microéconomiques. La même année, Yair Mundlak conçoit les méthodes basées sur les données de panel.

γ. Les années 1970 : La révolution des anticipations rationnelles

Les années 1970 ont été marquées par cinq faits majeurs qui ont conduit { l’éclatement du paradigme de la Cowles commission. C’est-à-dire à une remise en cause radicale des modèles macroéconomiques structurels développés au sein de cette institution. Ces faits sont :

Le premier choc pétrolier [en 1973] ou le quadruplement du prix des produits pétroliers, ce qui marque, historiquement, la fin des Trente Glorieuses 5 ;

La stagflation et la remise en cause de la courbe de Phillips;

La chute du keynésianisme et le rejet des modèles économétriques traditionnels devenus caducs

basés sur le paradigme IS LM ;

Le deuxième choc pétrolier [en 1979] ou le doublement du prix des produits pétroliers ;

La naissance de la MFM [MicroFoundations of Macroeconomics] ou la Macroéconomie Microfondée, le retour aux modèles walrassiens et le développement des modèles d’équilibre général calculable [MEGC].

Les critiques les plus acerbes et sévères sont venues essentiellement, dès 1972, de Robert Emerson Lucas 6 . C’est ce que la littérature qualifie de la fameuse critique de Lucas. Il discrédite les modèles macroéconométriques traditionnels, en fustigeant leur incapacité à expliquer et à prévoir les bouleversements provoqués par le 1 èr et le 2 ème chocs pétroliers. Il leur reproche de manquer de fondations microéconomiques suffisamment solides. De plus, Lucas interdit les prévisions myopes et adaptatives, il pose la problématique des anticipations rationnelles, ce qui veut dire que les agents économiques sont intelligents et capables de former leurs anticipations sur une base endogène et ainsi anticiper toute mesure de politique économique. De fait, toute mesure de politique économique, ajoute-t-il, devient inefficace du fait de la prise en compte des anticipations rationnelles, les agents pouvant l’anticiper et la contrer.

5 Trente Glorieuses : Titre d’un livre de Jean Fourastié, publié en 1977, qui désigne la période de forte croissance économique, de plein-emploi et d’augmentation des salaires réels et des revenus, qu’ont connu les pays développés, de l’après-guerre au premier choc pétrolier.

6 Lauréat du prix Nobel d’Economie 1995.

Ass. Cédrick Tombola M.

Ass. Cédrick Tombola M. 7
Ass. Cédrick Tombola M. 7

7

Cette critique a poussé les économètres à penser plus profondément sur les fondements de leur discipline et a donné lieu à des critiques plus sévères. L’Econométrie va connaitre un changement radical, surtout en termes de relations qu’elle entretient avec la théorie économique.

- En 1970, George Box et Gwilym Jenkins développent le modèle ARMA [AutoRegressive with Moving

Average] qui est un mélange des modèles AR et MA développés en 1927 respectivement par Georges Yule et Eugen Slustsky , comme une réponse aux défaillances constatées dans la capacité de prévision des

modèles élaborés à la suite des travaux de Tinbergen.

- Déjà en 1974, Clive William John Granger et Paul Newbold mettent en garde contre les « spurrious

regressions » ou régression fallacieuse, pour le cas d’ajustement par les MCO d’un modèle avec séries non

stationnaires.

- En 1980, dans un article qui a connu un succès d’estime lors de sa parution, intitulé Macroeconomics and

Reality, Christopher Sims 7 , en généralisant le modèle ARMA en modèle VAR [Vector Auto Regressive] afin de tenir compte, au même moment, de plusieurs variables, reproche aux économètres d’avoir mis la charrue devant les bœufs en remettant en cause la distinction à priori entre variables endogènes et variables exogènes, et considère toute variable comme potentiellement endogène 8 . C’est ce que la littérature appellera l’Econométrie sans théorie. La critique de Sims va permettre { l’Econométrie de devenir

beaucoup plus autonome et de s’émanciper de la tutelle de la théorie économique.

- En 1987, Clive Granger et Robert Engle développent la méthode de cointégration dans le traitement des séries non stationnaires. Une année après, en 1988, Johansen propose une version améliorée du test de cointégration Engle Granger.

- En 1982, Robert Engle développe le modèle ARCH afin de prendre en compte la non linéarité et la forte volatilité des variables financières, ce qui n’était pas possible avec les modèles ARMA et VAR.

Plusieurs méthodes encore ont été développées depuis la fameuse critique de Lucas, et plus loin encore dans l’histoire, depuis la création de la société d’Econométrie. L’Econométrie a donc connu, ces deux dernières décennies, un essor vertigineux.

δ. Applications et place de l’économétrie

La démarche en sciences économiques est hypothético-déductive. C’est-à-dire que les théories économiques ne sont valables que dans le domaine défini par leurs hypothèses. S’il est vrai que l’usage des mathématiques est la garantie de la rigueur et de la cohérence interne des théories économiques modernes, la question reste cependant posée quant à la pertinence de leurs hypothèses. Ceci motive le recours { des outils plus puissants notamment l’Econométrie, qui est un outil de validation des théories.

De fait donc, l’économiste ne doit-il pas être aussi économètre ? John Maynard Keynes, dans les années 1930, écrivait : « L’économiste doit être mathématicien, historien, philosophe, homme d’Etat, ». S’il faut transférer la pensée de Keynes aujourd’hui, n’aurait-il pas lui-même ajouté l’économiste doit être économètre ?

Il est clair qu’il n’est plus possible { ce jour, de faire un bras de fer avec l’irruption et la domination de l’Econométrie dans le champ de la science économique, au risque, purement et simplement, de se soustraire de la catégorie d’économistes modernes.

7 Lauréat, avec Thomas Sargent, du prix Nobel d’Economie 2011. 8 Cette démarche de Sims s’inspire de l’un des grands principes de la théorie de l’équilibre général, selon lequel toutes les variables économiques sont déterminées simultanément.

Ass. Cédrick Tombola M.

Ass. Cédrick Tombola M. 8
Ass. Cédrick Tombola M. 8

8

Pour renchérir, dans une étude publiée en 2006, les économistes Kim, Morse et Zingales ont montré que le nombre d’articles empiriques cités en économie est passé de 11 % à 60 % entre 1970 et 2000. Ce qui confirme l’importance de plus en plus croissante de l’Econométrie dans l’univers des économistes.

Par ailleurs, lEconométrie s'applique à tous les domaines auxquels s'applique la science économique. L'ouvrage de Levitt et Dubner, Freakonomics, témoigne de la diversité des applications possibles de l'économétrie. Voici quelques exemples significatifs:

En économie de guerre, Collier Hoeffler [1999] ont mis en évidence, par le recours à un modèle économétrique, les déterminants politiques permettant de mettre fin aux guerres civiles et de relancer l’économie en période post-conflit.

En économie de la croissance, Mankiw, Romer et Weil, en 1992, ont utilisé un modèle de régression linéaire pour tester empiriquement la pertinence du modèle de Solow. Ils montrent que le modèle de Solow augmenté du capital humain est cohérent avec les données observées. Barro et Sala-i-

Martin [1995], Easterly et Rebelo [1993], ont aussi eu recours aux méthodes économétriques afin de rendre compte de l’effet des dépenses publiques sur la croissance.

En économie de la criminalité, Levitt, en 1997, a utilisé un modèle linéaire à variables instrumentales pour estimer l'effet du nombre de policiers sur la criminalité.

En 2002, Acemoglu, Johnson et Robinson ont utilisé une régression linéaire pour estimer l'effet des institutions sur le développement actuel des pays.

I.2. Quelques rappels statistiques

La force de la statistique est qu’on n’est pas obligé d’étudier toute la population. Il est possible de tirer des conclusions sur une population, { partir d’un échantillon suffisamment représentatif.

Et comme les données en elles-mêmes ne sont pas intelligibles, le statisticien recherche la synthèse. Sa première démarche pour synthétiser les données consiste { calculer les paramètres de description, c’est la statistique descriptive. Plus tard, la démarche du statisticien consistera à contraster des données empiriques aux lois théoriques, dont on connait parfaitement les comportements, en vue de faire de la prédiction, c’est la statistique inférentielle [ou mathématique].

Encadré 1. Conditions de Yule

Le statisticien britannique Georges U. Yule a énoncé un certain nombre de propriétés souhaitées pour les indicateurs des séries statistiques ; ceux-ci doivent être d’une part, des résumés ‘‘maniables’’ et d’autre part, les plus exhaustifs possibles relativement { l’information contenue dans les données. Dans son schéma, une caractéristique statistique doit être une valeur-type :

1. définie de façon objective et donc indépendante de l’observateur,

2. dépendante de toutes les observations,

3. de signification concrète pour être comprise par les non-spécialistes,

4. simple à calculer,

5. peu sensible aux fluctuations d’échantillonnages,

6. se prêtant aisément aux opérateurs mathématiques classiques.

En réalité, on ne dispose pas de caractéristiques répondant simultanément à ces six conditions. Le choix d’un indicateur sera l’objet d’un compromis guidé par la spécificité de l’étude en cours.

Source : Adapté de B. Goldfard et C. Pardoux, 1995.

Ass. Cédrick Tombola M.

Ass. Cédrick Tombola M. 9
Ass. Cédrick Tombola M. 9

9

Indicateurs de position [ou de tendance centrale]

Soit une variable X observée sur un échantillon de n individus. x t est la valeur prise par X pour l’observation t.

1. La moyenne arithmétique :

La moyenne arithmétique 9 est la mesure de répartition équitable. Elle conserve la somme totale et satisfait à toutes les conditions de Yule, sauf la 5 ème , car elle est une mesure sensible aux valeurs extrêmes. Lorsque les valeurs sont aléatoires, la moyenne arithmétique est appelée « Espérance mathématique ».

2. La médiane [Me] : est la mesure qui divise la série en deux groupes de tailles égales. Après avoir classé les

données en ordre croissant, elle correspond pour n impair [pair], au point milieu [à la moyenne arithmétique de deux points milieux]. Elle satisfait aux conditions 1, 3, 4 et 5 de Yule. Contrairement à la moyenne arithmétique, la médiane résiste aux valeurs extrêmes.

3. Le mode [Mo] : est la valeur dominante de la série, celle qui a la fréquence la plus élevée.

Pour une distribution discrète, le mode satisfait aux conditions 1, 3 et 4 de Yule.

   

Le

premier

Quartile

Q 1

Valeur telle qu’au moins 25% des valeurs prises par X lui sont inférieures. Après avoir classé les données et séparé la

[ou

quantile

d’ordre

1,

x

25% ]

population en deux, le Q 1 est la médiane de la première sous- population.

Le deuxième Quartile Q 2 [ou quantile d’ordre 2,

Le Q 2 est la médiane.

4.

Les quartiles

x

50% ]

 

Le troisième Quartile Q 3 [ou quantile d’ordre 3,

Valeur telle qu’au moins 75% des valeurs prises par x lui sont inférieures. Le Q 3 est la médiane de la deuxième sous-

x

75% ]

population.

Note : Les quartiles non plus ne subissent pas l’influence des valeurs extrêmes. Comme la médiane, les quartiles satisfont aux conditions 1, 3, 4 et 5 de Yule.

Indicateurs de dispersion

5.

La variance :

La variance empirique :

La variance est la moyenne arithmétique des carrés des écarts d’une variable { sa moyenne arithmétique. Elle donne une idée de la dispersion [ou déviation] de chaque observation x t autour de sa moyenne. Mais comme on le voit, avec la variance on change d’échelle, elle s’exprime dans le carré de l’unité en laquelle s’expriment les observations. Pour revenir { l’échelle du départ, on prend sa racine carrée qui est l’écart-type. Elle satisfait aux conditions 1, 2 et 6 de Yule.

Note : La variance empirique est l’estimateur non biaisé de la variance. La variance est un estimateur biaisé car utilisant un autre estimateur dans son calcul.

6. L’écart-type :

L’écart-type empirique :

L’écart-type est la racine carrée de la variance. Il est la mesure de dispersion la plus utilisée. Elle satisfait aux conditions 1, 2 et 6 de Yule, et est plus sensible aux fluctuations d’échantillonnage et aux valeurs extrêmes que la moyenne arithmétique, en raison des élévations au carré.

7. L’étendue : max x t min x t

L’étendue est la différence entre la plus grande et la plus petite des valeurs observées. Elle est très influencée par les

valeurs extrêmes et ne satisfait pas aux conditions 2 et 5 de Yule.

8. L’Etendue [écart] interquartile : EIQ = Q 3 Q 1

L’écart interquartile n’est pas sensible aux valeurs extrêmes.

9 Dans le langage courant, on dit simplement moyenne. Or, selon la manière dont le total des individus est calculé, il existe différentes moyennes [moyenne géométrique, moyenne harmonique, moyenne quadratique].

Ass. Cédrick Tombola M.

Ass. Cédrick Tombola M. 10
Ass. Cédrick Tombola M. 10

10

Indicateurs de forme [de la distribution]

Parlons tout d’abord de la notion des moments.

Le moment centré sur a d’ordre r

aμ r

Les moments ont la vertu de permettre de mettre ensemble les principales mesures de description. A titre d’exemple, si a=0 et r=1, on retrouve la moyenne arithmétique, qui n’est rien d’autre que le moment non centré d’ordre 1. La variance serait donc le moment centré sur la moyenne arithmétique d’ordre 2, etc.

Note : dans la suite, on dira moment centré pour parler de moment centré sur la moyenne arithmétique. On peut aisément vérifier que le moment centré sur la moyenne arithmétique d’ordre 1 (μ 1 ) est nul.

9. L’asymétrie [Skewness en anglais]: est basée sur le moment centré d’ordre 3.

Pour une distribution symétrique, telle que la loi normale, la moyenne arithmétique est égale à la médiane égale au

mode. De plus, les moments centrés d’ordre impair sont nuls pour une distribution symétrique.

Le coefficient d’asymétrie de Fisher : γ 1 =

γ 1 est nul pour une distribution symétrique, telle que la loi normale.

Asymétrie à gauche [distribution étalée à droite]

Distribution symétrique

[distribution étalée à droite] Distribution symétrique γ 1 >0 =M e =M o γ 1 =0
[distribution étalée à droite] Distribution symétrique γ 1 >0 =M e =M o γ 1 =0

γ 1 >0

=M e =M o

γ 1 =0

Asymétrie à droite [distribution étalée à gauche]

=0 Asymétrie à droite [distribution étalée à gauche] γ 1 <0 10. L’aplatissement [ Kurtosis en

γ

1 <0

10. L’aplatissement [Kurtosis en grec, qui signifie bosse] : est basé sur le moment centré d’ordre 4 et permet de mesurer l’importance des queues d’une distribution ou son aplatissement.

Le coefficient d’aplatissement de Fisher : γ 2 =

γ 2 est nul pour une distribution mesokurtique. C’est le cas d’une distribution gaussienne [normale].

3

Distribution platokurtique

Distribution mesokurtique

γ 2 <0 γ 2 =0
γ 2 <0
γ 2 =0

Cas de la distribution de Student

Cas de la distribution normale

Distribution leptokurtique

γ 2 >0
γ 2
>0

La loi normale

La loi normale est une des principales distributions de probabilité. On dit qu’elle est parfaite, car sa densité de probabilité dessine une courbe en cloche ou courbe de Gauss, qui est à la fois symétrique et mesokurtique.

Elle a été introduite, en 1733, par le mathématicien Abraham de Moivre, et mise en évidente plus tard, au 19 ème siècle, par Carl F. Gauss. Elle est également connue sous le nom de la loi de Gauss. Une variable distribuée selon cette loi est dite normale ou gaussienne.

Test d’hypothèse [un petit commentaire]

Ass. Cédrick Tombola M.

Ass. Cédrick Tombola M. 11
Ass. Cédrick Tombola M. 11

11

Un test d'hypothèse est une démarche consistant à évaluer une hypothèse statistique en fonction d'un échantillon. Il s’agit donc de confronter une hypothèse dite nulle [H O ] contre une hypothèse de recherche ou alternative [H1].

Une notion essentielle qui concerne les tests est la probabilité que l'on a de se tromper. Il existe deux façons de se tromper lors d’un test statistique :

La première façon de se tromper est de commettre l’erreur [ou risque] de première espèce, noté α, qui est la probabilité de rejeter à tort H O alors qu’elle est vraie. On dit, dans ce cas, que α est la probabilité d’avoir un faux positif.

La deuxième façon de se tromper est de commettre l’erreur [ou risque] de deuxième espèce, noté β, qui est la probabilité de ne pas rejeter H O alors qu’elle est fausse. On dit, dans ce cas, que β est la probabilité d’avoir un faux négatif.

 

H O est vraie

H O est fausse

Ne pas rejeter H O

 

Erreur de 2 ème espèce β

Rejeter H O

Erreur de 1 ère espèce α

 

L’idéal serait que ces deux erreurs soient nulles, mais puisque l’on ne dispose que d’un nombre fini d’observations, il faut faire un choix. Le risque β étant difficile { évaluer, voire impossible, seul le risque α est utilisé comme critère de décision.

Note : On accepte une hypothèse en refusant sa fausseté et non en acceptant sa vérité.

I.3. Quelques tests statistiques de normalité

Dans son article de 1944 10 , qui a marqué une étape décisive dans le développement de l’Econométrie, écrit dans l’objectif de briser la réticence de ses contemporains vis-à-vis de l’application des méthodes statistiques aux données économiques, Haavelmo a avancé deux thèses. D’abord, il a défendu l'idée que l'emploi des mesures statistiques telles que les moyennes, les écarts-type, les coefficients de corrélation, à des fins d'inférence n'a réellement de sens que dans un contexte probabiliste. De plus, estimait-il, peu importe la vraie nature des faits économiques, il suffisait, pour les analyser, de faire comme si les données économiques étaient générées par une loi de probabilité qu'il fallait identifier de façon adéquate.

Avant donc toute étude formelle, le travail de l’économètre est de tester l’adéquation ou la conformité d’une distribution observée avec une distribution théorique associée à une loi de probabilité. Parmi ces tests d’adéquation, la conformité { la loi normale est le test le plus utilisé, car elle sous-tend la plupart de tests paramétriques utilisés en Econométrie. A titre de rappel, pour une distribution gaussienne, ± 2σ contiennent 95% des observations.

Les nombreux tests 11 de normalité d’une distribution que fournit la littérature peuvent se regrouper en deux familles : Les tests informels et les tests formels.

 

Si n est le nombre d’observations

Tests informels

Tests formels

   

En termes d’efficacité

Histogramme des fréquences [ou tuyau d’orgue]

Test de Jarque Bera

Si n > 88

Test de Shapiro Wilk

Si n ≤ 50

Box plot [ou Boîte-à-pattes]

Test K2 d’Agostino – Pearson

 

QQ plot [ou droite de Henry]

Si n ≥ 20

Les tests informels donnent une présomption tandis que les tests formels apportent une approche plus rigoureuse et objective.

Ci-après sont exposés uniquement les tests les plus fréquemment utilisés et les plus opérationnels.

10 Haavelmo, T. (1944), The Probability Approach in Econometrics, Supplement to Econometrica, 12, 1-118. 11 Il existe une batterie de test de normalité, ici nous ne reprenons que quelques uns.

α. Le Box plot

Ass. Cédrick Tombola M.

Ass. Cédrick Tombola M. 12
Ass. Cédrick Tombola M. 12

12

Synonyme : Boîte à pattes, Boîte à moustache, Diagramme en boites, Box and Whiskers Plot

Le Box plot, inventé par Tukey en 1977, est un outil graphique très pratique qui permet de caractériser une distribution en fournissant un résumé riche d’informations sur sa dispersion et son asymétrie.

Du fait qu’il renseigne sur l’asymétrie d’une distribution, le Box plot est également utilisée comme test de normalité.

Les étapes à suivre dans sa construction peuvent être résumées comme suit :

a. Porter sur une échelle les valeurs calculées suivantes : Q 1 , Q 2 , Q 3 , Min x i et Max x i

b. Construire la boîte : - La longueur de la boîte est donnée par l’EIQ - La largeur de la boîte est fixée à priori.

c. Calculer la longueur des moustaches ou des pattes [inférieure et supérieure] :

Pour savoir jusqu’où vont les moustaches, on calcule deux valeurs adjacentes :

Frontière Basse [FB]= Q 1 1.5EIQ Frontière Haute [FH]= Q 3 + 1.5EIQ

Selon Tukey, la valeur 1.5 serait plus pragmatique.

Pour la longueur de la moustache inférieure : prendre, parmi les valeurs x i prises par X, la valeur minimale x b directement supérieure à FB, soit x b = min {x i | x i ≥ FB}.

Pour la longueur de la moustache supérieure : prendre, parmi les valeurs x i prises par X, la valeur maximale x h directement inférieure à FH, soit x h = max {x i | x i ≤ FH}.

A retenir :

- Pour une distribution symétrique, Q 2 divise la boîte exactement en deux parties égales.

- Pour une distribution symétrique, Q 2 =

.

Illustration

Considérons l’exemple suivant :

X 6 7 8 9 10 11 12 13 14 15 16 17 18 Q
X
6
7
8
9
10
11
12
13
14
15
16
17
18
Q 1 = 8.5
Q 2 = 12
Q 3 = 15.5
EIQ = 7
FB = 8.5 – (1.5)7 = – 2
FH = 15.5 + (1.5)7 = 26
Min x i = 6
= 12
et
Etendue = 10
Max x i = 18
X b = 6
X h =18
Etendue
*
Q
Q
Q
Min x i
3 Max x i
FB
1
2
FH
X b
X h

EIQ

La croix à l’intérieur de la boîte représente la moyenne.

Ass. Cédrick Tombola M.

Ass. Cédrick Tombola M. 13
Ass. Cédrick Tombola M. 13

13

Il ressort, puisque Q 2 sépare la boîte en deux parties égales et que les queues ont une longueur identique, que la distribution est symétrique, ce qui est une présomption de normalité. De plus la médiane (Q 2 ) est égale à la moyenne.

Note : la Boîteàpattes permet également de détecter les valeurs aberrantes ou singulières [déviants ou atypiques ou encore outliers]. Après avoir construit le Box plot, est valeur aberrante celle située au-delà des pattes.

β. Le test de Jarque-Bera [JB]

Le test de Jarque-Bera, proposé en 1980 par Carlos Jarque et Anil Bera, est parmi les tests de normalité les plus populaires dans les milieux académiques. Mais la remarque { faire, d’ores et déj{, est qu’il est particulièrement approprié pour grand échantillon, soit n > 88.

Le test JB est fondé sur les coefficients d’asymétrie et d’aplatissement. Sa richesse consiste { ce qu’il permet de conclure { la fois sur l’asymétrie et l’importance des queues [aplatissement] d’une distribution.

Les hypothèses du test sont :

d’une distribution. Les hypothèses du test sont : H 0 : Normalité H 1 : Non

H 0 : Normalité

H 1 : Non normalité

Sous l’hypothèse de normalité de la série, la statistique du test JB suit asymptotiquement une distribution du Khi deux χ 2 { degrés de liberté avec le risque d’avoir un faux positif [ou seuil de signification] α = 5%.

La statistique du test est calculée comme suit :

JB = n

=

où n est la taille de l’échantillon, S le Skewness et K la Kurtosis.

Valeur lue dans la table de la loi du Khi carré à deux degrés de liberté

Seuil Valeur
Seuil
Valeur

1%

5%

Khi carré à deux degrés de liberté Seuil Valeur 1% 5% 9.210 5.991 Critère de décision

9.210

5.991

Critère de décision : Si JB à la valeur du χ 2 (2) de la table au seuil α, alors RH 0 de normalité.

γ. Le test de Shapiro-Wilk

Le test de Shapiro Wilk, proposé en 1965 par Samuel Shapiro et Martin Wilk, est considéré dans la littérature comme l’un des tests de conformité { la loi normale les plus fiables et les plus efficaces, particulièrement pour petits échantillons [n ≤ 50] 12 . Ce test est basé sur la statistique W, calculée comme suit :

W =

12 Lire par exemple Royston (1982), Palm (2002).

n : est la taille de l’échantillon

: est la partie entière du rapport

x (i) : correspond à la série des données triées en ordre croissant

Les hypothèses du test sont :

triées en ordre croissant Les hypothèses du test sont : H 0 : la variable X

H 0 : la variable X est gaussienne

H 1 : la variable X est non gaussienne

Ass. Cédrick Tombola M.

Ass. Cédrick Tombola M. 14
Ass. Cédrick Tombola M. 14

14

a i : sont des valeurs lues dans la table des coefficients de Shapiro et Wilk, connaissant n et l’indice i.

La statistique W est confrontée à une valeur lue dans la table des valeurs limites de W proposée par Shapiro et Wilk, avec n le nombre d’observations et au seuil α [5% en général].

Critère de décision : Si W < W Table (n) au seuil α, alors RH 0 [la variable est non gaussienne] 13 .

Note : Les deux tables utilisées pour mener ce test sont reprises en annexe.

I.3. Trois piliers de l’économétrie

L’économétrie se fonde sur trois piliers { savoir :

α. La théorie économique ; β. Les données ; γ. Les méthodes. Les trois piliers
α. La théorie économique ;
β. Les données ;
γ. Les méthodes.
Les trois piliers de l’économétrie
La théorie économique
Les données
Les méthodes

De par sa nature l’Econométrie est intimement liée à la théorie économique qui lui fourni les modèles et théories qu’elle teste.

Pour tester les théories, l’Econométrie utilise les données observées, les informations fournies par un échantillon.

Ce sont les méthodes statistiques qui permettent de mettre en œuvre et d’exploiter un modèle à partir d’informations provenant de l’échantillon.

Aujourd’hui

encore,

malgré

L’économétrie a principalement recours à trois types et deux formats de données.

l’émancipation de l’Econométrie depuis le fameux article de 1980 de Sims, l’on ne peut trancher en défaveur du mariage théorie économique Econométrie.

La méthode la plus populaire en Econométrie est celle des moindres carrés ordinaires.

Trois types de données :

En recourant aux méthodes

 

Chroniques [times series en

statistiques,

et

à

partir

Selon Ado et Davidson [1998], L'économétrie est précisément le moyen qui permet au discours économique d'échapper à la vacuité de son formalisme, en permettant une mise en correspondance des théories et des faits économiques. C'est elle qui permet de confirmer ou

d’informations livrées par le monde réel, l’économètre poursuit un triple

anglais], on parle également des séries chronologiques ou séries

temporelles, notées X t : sont de données indicées par le temps. Ex. Le PIB de la RDC de 2000 à

objectif :

Quantifier et tester les théories

Faire des prévisions

 

2010.

Evaluer l’efficacité des mesures de politique économique

13 Lire TSASA Jean Paul (2012) pour les illustrations.

Ass. Cédrick Tombola M.

Ass. Cédrick Tombola M. 15
Ass. Cédrick Tombola M. 15

15

d'infirmer les modèles théoriques, du moins ceux qui admettent une représentation économétrique.

Données en Coupe longitudinale [cross section en anglais], on parle aussi de coupe instantanée, notées X i : font référence aux données observées au même moment, pour des individus différents. Ex. Le PIB en 2009 de tous les pays de l’Afrique Centrale.

L’Econométrie n’a donc pas pour objet d’énoncer la théorie mais de la vérifier.

Données en Panel [pooling en anglais], on parle aussi des données croisées, notées X it :

font référence à la combinaison de deux premiers types. Ex. Le PIB de 2000 à 2010 de tous pays de l’Afrique Centrale. On parle aussi de cohorte, lorsque l’échantillon sondé reste le même d’une période { l’autre.

Deux formats des données :

Quantitatives [ex : PIB, Taux d’inflation, etc.]

Qualitatives [ex : paix, sexe, religion, niveau d’étude, etc.]

Ass. Cédrick Tombola M.

Ass. Cédrick Tombola M. 16
Ass. Cédrick Tombola M. 16

16

I.4. Modèle économique versus modèle économétrique

α. Modèle économique

Selon Barbancho 14 , un modèle est l’expression mathématique d’une certaine théorie économique. L’exemple de la loi psychologique fondamentale de Keynes est assez pertinent { cet effet. D’après cette loi, en moyenne et la plupart du temps lorsque le revenu d’un individu augmente, il augmente aussi sa consommation, mais dans une proportion moindre { l’augmentation de son revenu. Mathématiquement, si on note la consommation par C t et le revenu par Y t , cette loi peut être spécifiée comme suit :

C t = α 0 + α 1 Y t

[avec α 1 : propension marginale { consommer, 0 < α 1 < 1]

En général, le modèle spécifié par l’économiste est défini comme étant une maquette de la réalité ou d’un phénomène sous forme d’équations dont les variables sont des grandeurs économiques.

A ce sujet, Lester C. Thurow note ceci : « Les équations décrivent à quoi ressemblerait le monde réel s’il ressemblait à la théorie ».

β. Modèle économétrique

Toujours selon Barbancho, un modèle économétrique n’est autre chose qu’un modèle économique qui contient les spécifications nécessaires pour son application empirique. C’est donc le modèle économique auquel on ajoute un terme d’erreur u t .

C t 0 + α 1 Y t + u t

[modèle spécifié par l’économètre]

La première partie de ce modèle [α 0 + α 1 Y t ] constitue sa partie systématique et la deuxième [u t ] sa partie stochastique ou aléatoire.

Il convient de noter également que le terme d’erreur u t [bruit, perturbation ou aléa] dénote de la différence entre l’économiste et l’économètre. Il synthétise l’influence sur C t [variable expliquée] de toutes les autres variables oubliées et des erreurs éventuelles de spécification de la forme fonctionnelle dans le modèle spécifié par l’économiste. De plus, sa présence dans le modèle rend les paramètres α 0 et α 1 inconnus, on ne sait plus les calculer, il faut donc les estimer.

14 Cité par Kintambu Mafuku (2004).

Ass. Cédrick Tombola M.

Ass. Cédrick Tombola M. 17
Ass. Cédrick Tombola M. 17

17

.II.
.II.

THEORIE DE LA CORRELATION

L’analyse de la corrélation a pour objet de présenter les mesures statistiques destinées { rendre compte du sens et de la force de la liaison mathématique qui peut exister entre deux variables quantitatives X et Y. Il faut, d’ores et déj{, noter que dans ce cadre, la position des variables est symétrique. L’analyse ne permet pas de distinguer variable endogène de la variable exogène.

L’outil graphique « diagramme de dispersion ou graphique nuage de points » est le plus adapté et indiqué

pour débuter l’étude de la corrélation. Après l’avoir réalisé, la forme du nuage des points renseigne – à

partir d’un simple coup d’œil – possibles :

sur le type d’une éventuelle liaison entre X et Y. Plusieurs situations sont

Figures A. Relations linéaires, de gauche à droite, positive et négative. 600 600 500 500
Figures A. Relations linéaires, de gauche à droite, positive et négative.
600
600
500
500
400
400
300
300
200
200
100
100
0
0
0
500
1000
1500
2000
0
500
1000
1500
2000
Figures B.1. Relation non linéaire monotone
Figures B.2. Relation non linéaire
non monotone
Figures B. 3. Absence de liaison
120
10
100
15
80
8
60
40
6
20
4
0
5
-100
-50
-20
0
50
100
150
2
-40
0
0
-60
0
5
10
15
-4
-2
0
2
4
-80
10

10

10

L’analyse du plot donne certes une idée sur le sens et le type d’association entre X et Y, mais elle ne permet pas de quantifier son intensité.

Depuis toujours, afin de mesurer la force du lien qui peut exister entre X et Y, les statisticiens ont eu recours au calcul de la covariance. Si on note par n la taille de l’échantillon et i le numéro de l’observation, la covariance empirique 15 entre X et Y est calculée par la formule :

Cov (X, Y) =

15 La covariance empirique étant un estimateur non biaisé de la covariance.

Ass. Cédrick Tombola M.

Ass. Cédrick Tombola M. 18
Ass. Cédrick Tombola M. 18

18

L’idée est que si X et Y covarient, leur covariance devrait être grande. Elle serait modérément faible si les deux variables ne covarient pas.

Malheureusement, comme mesure du degré de dépendance entre X et Y, la covariance présente la faiblesse d’être fortement influencée par les unités de mesure des variables en présence. C’est cette limite qui a conduit au développement des coefficients de corrélation.

II.1. Coefficient de corrélation de Bravais Pearson

Le coefficient de corrélation linéaire de Bravais Pearson, noté r XY , est un coefficient paramétrique qui donne la mesure du degré de liaison linéaire entre deux variables quantitatives X et Y normalement distribuées. Il est donné par le rapport entre leur covariance et le produit non nul de leurs écarts types. Ainsi, il standardise la covariance et la corrige de l’influence des unités de mesure des variables.

Formellement, le r XY est donné par la formule :

r XY =

=

[2.1]

Si l’on considère les écarts { la moyenne arithmétique 16 , la relation [2.1] peut également s’écrire comme

suit :

r XY =

[2.2]

Propriétés de la covariance et propriétés du coefficient de corrélation linéaire

Propriétés de la covariance

Propriétés du r XY

Commentaires

Cov (X, Y) = Cov (Y, X)

r XY = r YX

Comme la covariance, le r XY est symétrique.

Cov (X, X) = Var (X)

r XX = 1

La corrélation entre une variable et elle- même est égale { l’unité.

Cov (k, X) = 0

r kX = 0

La corrélation entre une constante et une variable est nulle.

   

Le coefficient de corrélation linéaire est un nombre sans dimension dont l’intervalle de variation est : [1, +1] 17 .

1 ≤ r XY ≤ 1

α. Hypothèses fortes au calcul du r XY

Le calcul du coefficient de corrélation linéaire de Bravais – Pearson entre les variables X et Y n’est adapté qu’au strict respect des hypothèses suivantes :

Les variables X et Y doivent être quantitatives ;

Les variables X et Y doivent être sont gaussiennes ;

La relation entre X et Y doit être linéaire 18 ;

Note : Lorsque la liaison entre X et Y est non linéaire mais monotone, le r XY ne devient pas hors de propos. Seulement, dans ce cas d’espèce, il donne des informations sur l’existence de la liaison, mais estime mal son intensité. N’oublions pas que le coefficient de corrélation linéaire sert avant tout { caractériser une liaison linéaire. Lorsqu’elle ne l’est pas, ce coefficient peut induire en erreur sur l’existence et l’intensité de la relation entre variables considérées.

16 La somme des écarts à la moyenne arithmétique est toujours égale à 0, soit

17 On peut aisément démontrer que par construction, le r XY reste compris entre -1 et 1.

18 Cette information est livrée par le graphique nuage des points.

= 0.

Ass. Cédrick Tombola M.

Ass. Cédrick Tombola M. 19
Ass. Cédrick Tombola M. 19

19

β. Test sur le coefficient de corrélation de Bravais - Pearson

Puisque le travail se fait sur un échantillon, après calcul et avant toute interprétation, le r XY doit être soumis à un test de significativité qui permet de vérifier si la corrélation calculée existe bel et bien au sein de la population.

Les hypothèses du test sont :

au sein de la population. Les hypothèses du test sont : H 0 : ρ X

H 0 : ρ XY = 0

[hypothèse d’absence de corrélation]

H 1 : ρ XY ≠ 0n

[hypothèse d’absence de décorrélation]

ρ XY est la corrélation théorique, inconnue au niveau de la population, r XY est la corrélation empirique estimée { partir d’informations fournies par l’échantillon.

Sous H0, on démontre que la statistique du test suit une distribution de Student au seuil α [5% sauf indication contraire] et à (n 2) degrés de liberté.

Le test est de la forme :

Rejet H0 si

> t α/2 ; (n 2) [valeur lue dans la table de Student]

γ. Signification clinique du coefficient de corrélation de Bravais - Pearson

La signification clinique ou l’interprétation du r XY n’est valable que si, après test, on rejette l’hypothèse de décorrélation.

Le travail d’interprétation d’un coefficient de corrélation linéaire se fait toujours en deux temps : une interprétation par rapport au signe/sens de la liaison et une interprétation par rapport au degré de dépendance.

 

Si r XY > 0, X et Y sont positivement corrélées [la relation linéaire entre X et Y est positive].

A. Interprétation par rapport au signe

Si r XY < 0, X et Y sont négativement corrélées [la relation linéaire entre X et Y est négative].

Si r XY = 0, X et Y sont non corrélées [pas de liaison linéaire, mais possibilité d’une liaison d’un autre type].

 

Si r XY = ± 1, le lien linéaire entre X et Y est parfait. Dans ce cas, l’une des variables est fonction affine de l’autre, les n points (x i , y i ) sont alignés.

B. Interprétation par rapport à l’intensité

Si 0.80 < r XY < 1, le lien linéaire est très fort.

Si 0.65 < r XY < 0.80, le lien linéaire est fort [élevé].

 

Si 0.50 < r XY < 0.65, le lien linéaire est modéré.

Si 0.25 < r XY < 0.50, le lien linéaire est faible.

Si 0.025 < r XY < 0.25, le lien linéaire est très faible.

Si r XY proche de 0, alors il y a absence de lien entre X et Y.

Note : Le coefficient de corrélation linéaire entre deux variables quantitatives gaussiennes indépendantes

Ass. Cédrick Tombola M.

Ass. Cédrick Tombola M. 20
Ass. Cédrick Tombola M. 20

20

est nul, mais la réciproque n’est pas toujours vraie. Donc r XY = 0 ne signifie pas toujours qu’il y a indépendance entre X et Y. Cela peut tout simplement vouloir dire qu’il y a absence d’une liaison linéaire entre les variables étudiées. Ceci dit, le calcul d’un coefficient de corrélation doit toujours commencer par un examen graphique.

L’autre faiblesse majeure du coefficient de Bravais – Pearson est d’être très sensible aux points aberrants.

II.2. Coefficient de corrélation de rang de Spearman

Le coefficient de corrélation de Spearman, noté ρ XY , est un coefficient non paramétrique qui quantifie, comme le r XY de Bravais – Pearson, le degré d’association linéaire entre deux variables quantitatives. Il est particulièrement approprié lorsqu’au moins une de deux variables X et Y n’est pas normalement distribuée.

Son calcul nécessite que les données soient transformées en rang. Le rang de X est noté par R i et celui de Y par S i . Le ρ XY de Spearman n’est rien d’autre que le rapport entre la covariance (R i , S i ) et le produit non nul de leurs écarts-types. Il est donc un cas particulier du coefficient de corrélation de Bravais Pearson.

En tenant compte de certaines propriétés de rang, le ρ XY de Spearman peut être calculé de manière plus simple par la formule :

ρ XY = 1

où D i = R i - S i et n = nombre d’observations

[2.3]

Avantages du ρ XY de Spearman sur le r XY de Bravais Pearson

Le r XY de Bravais - Pearson

Le ρ XY de Spearman

A propos de la normalité

Pour

gaussiennes.

calculer

r XY ,

les

variables

doivent

être

Le ρ XY lève l’hypothèse de normalité. De plus, dans le cas des variables distribuées normalement, le ρ XY reste adapté car il fournit les mêmes résultats que le r XY de Bravais Pearson.

Concernant une liaison non linéaire monotone

Le r XY donne une idée sur le sens de la liaison mais estime mal sa force.

Dans ce cas, le ρ XY est approprié, il estime mieux que le r XY ce type de liaison.

La présence des points atypiques

Le r XY est fortement influencé par la présence des déviants [points aberrants].

Le ρ XY résiste aux points aberrants. Dans ce cas, il est donc préféré au r XY .

Note : Lorsque la liaison entre les deux variables étudiées est non linéaire et non monotone, les deux coefficients r XY et ρ XY ne sont plus adaptés. On peut soit transformer les données avant de les calculer ou carrément, lorsqu’on dispose de plusieurs valeurs de Y pour chaque valeur de X ou l’inverse, calculer le rapport de corrélation.

La démarche du test statistique sur le ρ XY de Spearman est la même que celle sur le coefficient de corrélation de Bravais Pearson.

Remarques importantes sur le calcul du ρ XY de Spearman

Le calcul du coefficient de corrélation de Spearman exige que les données soient remplacées par leurs rangs. Et en présence d’ex aequo dans les données, on leur affecte un rang moyen, donné par la moyenne arithmétique de leurs rangs respectifs.

Ass. Cédrick Tombola M.

Ass. Cédrick Tombola M. 21
Ass. Cédrick Tombola M. 21

21

Mais lorsqu’on compte plusieurs ex aequo, après avoir remplacé les données par leurs rangs, il est conseillé de faire subir au coefficient de Spearman quelques corrections ou simplement de lui préférer le coefficient de Bravais-Pearson, mais calculé sur les rangs. Dans ce recueil, nous optons pour cette dernière option.

En résumé, l’estimation d’un coefficient de corrélation suivra toujours [sauf indication contraire], dans l’ordre, les cinq étapes suivantes :

(i)

Test de linéarité [utiliser un diagramme de dispersion]

(ii)

Test de normalité [choisir le plus approprié connaissant n]

(iii)

Choix et estimation d’un coefficient de corrélation

(iv)

Test de significativité statistique sur le coefficient calculé

(v)

Interprétation ou signification clinique du coefficient estimé [valable seulement si H0 est rejetée]

Critère synthétique de choix d’un coefficient de corrélation

Informations fournies par les données

Coefficient de corrélation approprié [en termes de robustesse]

Type de liaison

Normalité

linéaire

Variables normales

- Coefficient r XY de Bravais Pearson

- Coefficient ρ XY de Spearman

linéaire

L’une au moins de deux variables est non normale

- Coefficient ρ XY de Spearman

Non linéaire monotone

Variables normales ou non

Présence des points atypiques

II.3. Limites de la corrélation

Les coefficients de corrélation présentés dans ce chapitre présentent essentiellement quatre faiblesses, à savoir :

La mesure ne concerne qu’une relation linéaire. Le coefficient de corrélation linéaire sert avant tout { caractériser une liaison linéaire. Lorsqu’elle ne l’est pas, ce coefficient peut induire en erreur, surtout sur l’intensité de la liaison entre variables considérées.

La mesure ne concerne que les variables quantitatives. En présence des variables qualitatives comme la paix, la religion, …, les deux coefficients présentés ci-haut ne sont plus adaptés.

La corrélation n’est ni impact ni causalité. L’objet de la corrélation n’est pas d’établir une causalité mais simplement de rendre compte du sens et du degré dassociation éventuelle entre variables.

La corrélation peut être fortuite [artificielle ou fallacieuse ou encore artefactuelle]. Une corrélation élevée ne peut tenir qu’{ un facteur confondant ou artefact. En réalité, les deux variables peuvent simplement être liés à un même phénomène - source : une troisième variable dont il faut neutraliser l’effet.

Les alternatives face à ces faiblesses sont notamment la corrélation pour variables qualitatives, le coefficient de corrélation partiel, le rapport de corrélation, la régression linéaire et non linéaire, la causalité, la cointégration, etc.

Exercices résolus sur la théorie de la corrélation

Ass. Cédrick Tombola M.

Ass. Cédrick Tombola M. 22
Ass. Cédrick Tombola M. 22

22

Exercice 1

Un chercheur désire examiner la relation qu’il peut exister entre l’habilité en lecture (X) et le nombre d’heures de lecture par semaine (Y). X est mesuré en laboratoire { l’aide d’un test d’habilité en lecture alors que Y est estimé par les sujets eux-mêmes. 10 sujets ont été échantillons. Les résultats sont :

X 20

5

5 40

30

35

5

5

15

40

Y 5

2

1 7

8

9

3

2

5

8

Estimer la corrélation entre X et Y [passer par les cinq étapes]

Solution de l’exercice 1

Etape 1. Test de linéarité

10

8

6

4

2

0

de l’exercice 1 Etape 1. Test de linéarité 10 8 6 4 2 0 Ce graphique

Ce graphique fait état d’une association linéaire positive entre X et Y.
Ce graphique fait état d’une association linéaire positive entre X et Y. linéaire positive entre X et Y.

0

10

20

30

40

50

Etape 2. Test de normalité

Puisqu’étant approprié pour petit échantillon, nous appliquons le test de Shapiro Wilk.

Test sur la variable X

La statistique à calculer est : W =

i

X

X

(i)

     

a

i

   

1

20

 

5

-15

225

0,5739

   

35

20,0865

 

2

5

 

5

-15

225

0,3291

   

35

11,5185

 

3

5

 

5

-15

225

0,2141

   

30

6,423

 

4

40

 

5

-15

225

0,1224

   

25

 

3,06

5

30

15

-5

25

0,0399

   

5

0,1995

 

6

35

20

0

0

     

41,2875

7

5

30

10

100

   

8

5

35

15

225

 

W=

= 0.83154032

 
 

9

15

40

20

400

W table =0.842 [à 5%, pour n=10]

 

10

40

40

20

400

 

   

0

2050

Puisque

W<W table ,

RH0.

La

variable

X

est

non

 

=20 ; n=10 ;

=5

 

gaussienne.

 

Test sur la variable Y

Ass. Cédrick Tombola M.

Ass. Cédrick Tombola M. 23
Ass. Cédrick Tombola M. 23

23

i

Y

y

(i)

     

a

i

   

1

5

 

1

-4

16

0,574

8

4,5912

2

1

2

-3

9

0,329

6

1,9746

3

2

2

-3

9

0,214

6

1,2846

4

7

3

-2

4

0,122

4

0,4896

5

8

5

0

0

0,04

0

0

6

9

5

0

0

   

8,34

7

3

7

2

4

   

8

2

8

3

9

W=

= 0.915205263

9

5

8

3

9

W table =0.842 [à 5%, pour n=10]

10

8

9

4

16

   

   

0

76

Puisque

W>W table , Non RH0. La variable Y est

   

5 ; n=10 ;

=5

 

gaussienne.

 

Etape 3. Choix et estimation d’un coefficient de corrélation

Eu égard aux résultats des tests de linéarité et de normalité [X est non gaussienne], le coefficient de corrélation approprié dans ce cas est le ρ XY de Spearman. Les calculs sont confinés dans le tableau ci-après :

 

X

Y

Rang de X [R i ]

Rang de Y [S i ]

D i = R i - S i

D

i

2

20

5

6

5,5

0,5

0,25

5

1

2,5

1

1,5

2,25

5

2

2,5

2,5

0

0

 

40

7

9,5

7

2,5

6,25

30

8

7

8,5

-1,5

2,25

35

9

8

10

-2

4

 

5

3

2,5

4

-1,5

2,25

5

2

2,5

2,5

0

0

 

15

5

5

5,5

-0,5

0,25

40

8

9,5

8,5

1

1

 

18,5

   

ρ XY = 1

= 0. 887878788

 

Note : Deux nombres au moins identiques ont même rang qui est donné par la moyenne arithmétique de leurs rangs respectifs.

Etape 4. Test de significativité statistique

La statistique du test est : tcal=

= 5. 45842979 et t 0.025 ; 8 = 2.306 [Puisque tcal >t table , alors RH0

d’absence de corrélation entre X et Y, le coefficient de corrélation calculé est statistiquement significatif].

Etape 5. Signification clinique [interprétation]

Il existe bel et bien une corrélation linéaire positive très forte entre l’habilité en lecture (X) et le nombre d’heures de lecture par semaine (Y) au sein de la population étudiée.

Ass. Cédrick Tombola M.

Ass. Cédrick Tombola M. 24
Ass. Cédrick Tombola M. 24

24

Exercice 2

Montrer rigoureusement que par construction le coefficient de corrélation linéaire est toujours comprise entre - 1 et 1 [Utiliser la formule de Bravais Pearson].

Solution de l’exercice 2

Si le lien linéaire entre X et Y est parfait, Y (X) s’écrirait comme une fonction affine de X (Y) :

Y = α + βX D’une part, on aura :

Cov (X, Y) = E(XY) = E{[X E(X)] [Y E(Y)]}

= E{[X – E(X)][ α + βX – E(α + βX)]}

= E{[X – E(X)][ α + βX – α – βE(X)]}

= E{[X – E(X)] β[X E(X)]}

= β[X – E(X)] 2 = βVar(X) D’autre part, on a ceci :

Var(Y) = E[Y E(Y)] 2 = E[α + βX – α – βE(X)] 2 = β 2 var(X)

Et par conséquent,

r XY =

=

=

= 1

Y = α – βX D’une part, on aura :

Cov (X, Y) = E(XY) = E{[X E(X)] [Y E(Y)]}

= E{[X – E(X)][ α – βX – E(α – βX)]}

= E{[X – E(X)][ α – βX – α + βE(X)]}

= E{[X – E(X)] β[X – E(X)]}

= – β[X – E(X)] 2

= – βVar(X)

D’autre part, on a ceci :

Var(Y) = E[Y E(Y)] 2 = E[α – βX – α + βE(X)] 2 = β 2 var(X)

Et par conséquent,

r XY =

=

=

= 1

Le domaine de définition de r XY est donc [1, + 1]

Exercice 3

Le tableau ci-après renseigne sur l’évolution de l’offre de jus de banane (X) et son prix en USD (Y).

1

2

3

4

5

6

7

8

9

10

11

X

10

8

9

11

14

6

4

12

7

5

8

Y

7

6

7

8

9

6

5

8

6

6

7

Travail à faire :

- Calculer le coefficient de corrélation approprié.

- Tester sa significativité statistique - Evaluer sa signification clinique

Solution de l’exercice 3

1. Test de linéarité

10

8

6

4

2

0

0 5 10 15
0
5
10
15

Le diagramme de dispersion témoigne de l’existence d’une association linéaire positive entre X et Y.

2. Test de normalité

Test sur la variable X

Ass. Cédrick Tombola M.

Ass. Cédrick Tombola M. 25
Ass. Cédrick Tombola M. 25

25

 

i X

         

a

i

   

1 10

4

-4,5454545

20,661157

0,5601

 

10

5,601

2 8

5

-3,5454545

12,5702479

0,3315

7

2,3205

3 9

6

-2,5454545

6,47933884

0,226

5

1,13

4 11

7

-1,5454545

2,38842975

0,1429

3

0,4287

 

5 14

8

-0,5454545

0,29752066

0,0695

 

1

0,0695

 

6 6

8

-0,5454545

0,29752066

 

9,5497

7 4

9

0,4545455

0,20661157

W=

 

= 0,983494579

           

8 12

10

1,4545455

2,11570248

W

table =0,850

 
         

9 7

11

2,4545455

6,02479339

 

5

10 12

3,4545455

11,9338843

Puisque W >W table , alors Non RH0. La variable X est normalement distribuée.

         

8

11 14

5,4545455

29,7520661

 

 

0

92,7272727

 

= 8,545454545 ; n =11 ;

= 5,5

 

Note : n étant impair, on n’a retenu que la partie entière du ratio

, soit 5.

Test sur la variable Y

i

Y

         

a

i

   

1 7

5

-1,818181818

3,30578512

0,5601

 

4

2,2404

2 6

6

-0,818181818

0,66942149

0,3315

2

0,663

3 7

6

-0,818181818

0,66942149

0,226

2

0,452

4 8

6

-0,818181818

0,66942149

0,1429

1

0,1429

 

5 9

6

-0,818181818

0,66942149

 

0,0695

 

1

0,0695

 

6 6

7

0,181818182

0,03305785

   

3,5678

 

7 5

7

0,181818182

0,03305785

   

8 8

7

0,181818182

0,03305785

W=

 

= 0,933474435

           

9 6

8

1,181818182

1,39669421

W

table =0,850

 
         

10 8

6

1,181818182

1,39669421

 

11 9

7

2,181818182

4,76033058

Puisque W >W table , alors Non RH0. La variable Y est normalement distribuée.

 

0

13,6363636

   

= 6,818181818 ; n=11 ;

= 5,5

 

3. Choix et estimation d’un coefficient de corrélation

Les deux variables étant gaussiennes et linéairement associées, on peut indifféremment estimer le r XY de Bravais-Pearson ou le ρ XY de Spearman. Dans ce cas, les deux coefficients devraient donner pratiquement la même chose. Après calcul, on a les résultats suivants :

Ass. Cédrick Tombola M.

Ass. Cédrick Tombola M. 26
Ass. Cédrick Tombola M. 26

26

 

Le r XY de Bravais-Pearson

Le ρ XY de Spearman

Corrélation entre X et Y

0,95870624

0,95227273

4. Signification statistique du coefficient calculé

La statistique calculée est :

ρ XY de Spearman.

= 10.1129979 pour le r XY de Bravais-Pearson, et

Et la valeur de la table, au seuil de 5%, est de : t 0.025 ; 9 =2.262

= 9.3589914, pour le

Conclusion : le coefficient de corrélation calculé est statistiquement non nul.

5. Signification clinique

il existe bel et bien une corrélation linéaire positive très forte entre quantité offerte de jus de banane et son prix, ce qui est conforme à la moi de l’offre.

Exercice 4

A partir d’un échantillon de 27 objets, on a trouvé que la valeur d’un coefficient de corrélation linéaire était 0.4. Peut-on en conclure, à un seuil de signification de 0.05 que le coefficient de corrélation diffère significativement de la valeur zéro ? Qu’adviendrait la réponse obtenue précédemment si l’on considère un seuil de signification de 0.01.

Solution de l’exercice 4

L’exercice livre les informations suivantes : r XY =0.4 ; n=27 ; α = 0.05.

Après calcul, on a tcal=2.1821789. En considérant le seuil donné, α = 0.05, et 25 degrés de liberté, la

table de la loi de Student donne la valeur : t 0.025 ; 25 = 2.060. On peut donc conclure, à un seuil de signification de 0.05 que le coefficient de corrélation diffère significativement de la valeur zéro.

Au seuil de signification de 0.01, t 0.005 ; 25 = 2.787, ce coefficient de corrélation devient non significatif.

Exercice 5

Soit le jeu de données normalement distribuées ci-dessous.

 

Bloc I

 

Bloc II

 

Bloc III

Bloc IV

X

Y

X

Y

X

Y

X

Y

10

8,04

10