Vous êtes sur la page 1sur 83

F o r ma t io n s u r l An a l y s e d e D o n n e s e t Prvis ion

Avec initiation au logiciel Stata

Socit Scientifique d Appui la Quantification Economique


janvier 2014

Les machines un jour pourront rsoudre tous les problmes, mais jamais aucune d'entre elles ne pourra en poser un ! Albert Einstein

Initiation au logiciel Stata


I.1.1. Prsentation du logiciel Stata 10

Stata est un logiciel rput pour ses multiples fonctions de traitement des donnes et danalyse statistique. Il dispose galement dun langage de programmation ais et convivial. Ce logiciel prsente un certain nombre davantages dans son utilisation dont : la reproductibilit : Il est souvent ncessaire de pouvoir justifier de la faon dont a t calcul un indicateur. A la lecture d'un article ou d'un rapport, le lecteur doit pouvoir, partir des mmes donnes, obtenir les mmes rsultats. Or avec un logiciel a interface, il n'y a pas de trace de quels clics ont t faits. l'extensibilit : le logiciel s'enrichit en permanence. Il est possible de crer une commande en utilisant plusieurs autres. Or les interfaces sont figes et ne changent qu' la parution de nouvelles versions. praticabilit : il est trs pratique pour la manipulation de donnes, notamment de donnes longitudinales. en techniques Enfin il couvre la quasi-totalit des domaines des statistiques et de l'conomtrie d'valuation d'impact (rgressions linaires, modles de slection, variables abords dans diffrentes sciences comme l'conomie, la sant, l'pidmiologie : des exemple comme instrumentales) ; modles dichotomiques (modlisation des dterminants du chmage, de la mortalit); donnes de panel (suivi de gens dans le temps, permet de diffrencier l'effet individuel de l'effet temps) ;modles de dure (dmographie, dure de chmage) ; sries temporelles (macroconomie, prvisions); donnes d'enqutes (estimateurs sans biais, prcision des indicateurs), etc.

I.1.2. Types de fichiers sous Stata

Nous distinguons ici trois types de fichiers : ce sont les fichiers de donnes, les fichiers programmes et les fichiers de rsultats. Lextension des fichiers dpend du type. Sil sagit dun fichier de donnes, il porte lextension .dta ; les fichiers programmes ont lextension .do et les fichiers de rsultat ont lextension .log.

I.1.3. Fentres de travail


Au dmarrage, linterface de Stata laisse apparatre quatre fentres. A partir de ces fentres, on peut excuter les travaux dsirs. Si on veut automatiser le travail par un programme, il faut faire appel la fentre ddition des programmes encore appele Stata do-file editor. Le graphiques 1 suivant prsente linterface de Stata et la fentre ddition des programmes.

Figure 1.4. Interface de Stata

Les 4 fentres de base sont les fentres Command, Review, Variables et Results. Les commandes sont saisies dans la fentre Command puis excutes en validant. Cette fentre sert tester des commandes mais non rdiger un programme complet. La fentre Review liste les dernires commandes effectues. Il suffit de cliquer sur l'une d'elles pour la rappeler dans la fentre Command. La fentre Variables liste les variables figurant dans la base de donnes. Il suffit de cliquer sur l'une d'elles pour qu'elle soit saisie dans la fentre Command. La fentre Results, sur fond noir, dcrit les rsultats de toutes les commandes. Les commandes effectues y figurent en blanc, les rsultats en jaune, vert et blanc, les messages de mise en garde en vert, et les erreurs, stoppant l'excution, en rouge. Les erreurs sont rfrences. En cliquant sur le code de l'erreur, on accde une description de l'erreur. On peut copier les rsultats de Results pour les coller dans Word. Selon que lon veut copier du texte ou un tableau (slectionner uniquement le tableau avec des lignes entires), on utilisera Copy text ou Copy table dans le menu Edition. En plus de certaines icnes existant dj sous office, Stata possde dautres icnes dont les fonctionnalits sont prsentes sur la figure suivante.

Figure 1.5. Icnes utilises par Stata

De gauche droite : Ouvrir un fichier de donnes Stata Sauvegarder un fichier de donnes (quivalent la commande save) Imprimer les rsultats tels qu'ils apparaissent dans la fentre Results Commencer un fichier log, un journal qui conservera tout ce qui a t fait Faire apparaitre la fentre Results lorsqu'elle n'est pas prsente Ouvrir la fentre ddition des programmes (Stata Do -file Editor) Modifier les donnes charges en mmoire visualiser les donnes charges en mmoire Stopper la commande en cours (si c'est trop long ou qu'on s'est rendu compte d'une erreur).

Quelques oprateurs logiques et arithmtiques sous Stata

Les paragraphes prcdents ont prsent linterface de Stata. Le tableau suivant rend compte de quelques oprateurs logiques et arithmtiques qui peuvent tre utiliss.
Tableau 1.2. Oprateurs logiques et arithmtiques sous Stata

Oprateurs =

Rles Oprateur dgalit dexpression. Il est surtout utilis lors des calculs ou lors de la cration de variables.

==

Test dgalit entre une expression et une valeur. Il est utilis lors des Comparaisons.

~= ou != + * / < et > <= et >= & |

Diffrence Addition Soustraction Multiplication Division Infrieur et suprieur respectivement Infrieur ou gal et suprieur ou gal respectivement Et Ou

I.1.4. Recherche dune commande et de laide


Pour trouver une commande lorsqu'on ne connait pas son nom, il suffit de sasir la commande search suivie d'un ou plusieurs mots cls. Supposons que l'on souhaite trouver une commande permettant de calculer des statistiques descriptives de base d'une variable :

search univariate summary statistics


Stata retourne la liste de fichiers d'aide des commandes correspondantes ainsi que des liens hypertextes pointant sur le site web de Stata. Dans l'exemple ci-dessus, il retourne deux commandes dont summarize qui correspond a ce qu'on souhaite. Pour trouver ensuite des dtails sur la faon d'utiliser la commande summarize, il suffit de saisir :

help summarize
Chaque commande possde un fichier help, en anglais, assez dtaill. Les commandes search et help sont trs utilises car il est impossible de connaitre, par cur, toutes les commandes de Stata.

I.1.5. Utilisation et manipulation des fichiers sous Stata

Dans la mesure o l'utilisation courante de Stata ncessite la manipulation de fichiers issus d'autres logiciels comme Excel ou Access, il est fondamental de comprendre que l'importation des fichiers sous Stata dpend des sparateurs qui sont utiliss dans le fichier source. Nous allons nous atteler ici ce qui est fait avec Excel. 5

Importation des donnes depuis Excel

Il existe une faon plus simple d'importer les donnes d'Excel (voire Annexe 3) Stata, il s'agit du copier coller de Windows. Il suffit de copier, sous Excel, les donnes qu'on souhaite importer puis d'aller les coller dans l'diteur de donnes de Stata.

Figure 1.6. Editeur de donnes de Stata

Les variables et les observations sont reprises, respectivement, en colonne et en ligne. Il convient de faire remarquer que, sous lditeur de donnes de Stata, l es caractres apparaissent en rouge et les variables numriques en noir.

I.1.6. Dcrire les donnes sous Stata


La commande describe

Pour avoir une description gnrale des donnes (voir annexe 3) et le format pour chaque variable sur Stata, la commande saisir est describe, en validant, on a :

. describe Contains data obs: vars: size: variable name 30 14 2,580 (99.9% of memory free) storage type byte str5 str6 str14 str14 str6 str13 str8 str9 byte int byte byte byte display format %8.0g %9s %9s %14s %14s %9s %13s %9s %9s %8.0g %8.0g %8.0g %8.0g %8.0g value label variable label ID LastName First Name City State Gender Student Status Major Country Age SAT Average score (grade) Height (in) Newspaper readership (times/wk)

id lastname firstname city state gender studentstatus major country age sat averagescoreg~e heightin newspaperread~k Sorted by: Note:

dataset has changed since last saved

La commande list

La commande list, toute seule, donne lensemble des donnes de faon similaire browse mais sur la fentre rsultat. Il est vident que cela na de sens que si les variables sont peu nombreuses et les donnes rduites. Mais il est possible dutiliser list suivi de la variable dintrt. List age Le resulat est la suite de toutes les observations pour cette variable. Mais il est possible aussi de demander uniquement quelques observations. Ainsi pour les 5 premires observations :

. list age in 1/5 age 1. 2. 3. 4. 5. 30 19 26 33 37

Ou bien les 5 dernires observations :


. list age in -5/l age 26. 27. 28. 29. 30. 28 20 20 30 19

La commande summarize

Elle affiche le nombre dobservations, la moyenne, lcart -type, et les valeurs extremes. Si on souhaite plus de prcision, il suffit de rajouter une option detail.
. su age, detail Age 1% 5% 10% 25% 50% 75% 90% 95% 99% Percentiles 18 18 18 19 23 30 35 38 39 Largest 33 37 38 39 Smallest 18 18 18 18

Obs Sum of Wgt. Mean Std. Dev. Variance Skewness Kurtosis

30 30 25.2 6.870226 47.2 .5289348 1.923679

La commande tabulate

Elle donne le nombre dobservations et la frquence de chaque valeur de la variable. Elle peut donc etre utilise pour regarder la distribution dune variable. Avec deux variables, elle prsente un tableau crois souvent trs utile.
. tabulate gender Gender Female Male Total Freq. 15 15 30 Percent 50.00 50.00 100.00 Cum. 50.00 100.00

. tabulate gender major Gender Female Male Total Econ 3 7 10 Major Math 8 2 10 Politics 4 6 10 Total 15 15 30

I.1.7. Travailler sur les donnes sous Stata I.1.7. 1. Rorganiser les donnes La commande rename

Le premier travail dun chercheur est souvent de nettoyer son fichier et pour cela, il est parfois ncessaire de renommer les variables sous des noms plus pratiques. La commande rename (ren) permet de changer le nom de la variable. rename agedt age

Les commandes recode et replace

Le codage des variables nest pas forcment optimal et parfois faux. Lutilisation de la commande recode permet de remdier ces problmes. recode marital 1=3 si par exemple le code pour clibataire devrait tre 3 au lieu de 1 recode salaire 99999=. Si par exemple le codage du salaire donne 99999 en cas dabsence de rponse. Le point est considr comme une observation manquante. Avec une variable texte (string), il faut utiliser la commande replace et la commande logique if : replace pays=

"

RD Congo" if pays==" Zare"

Les commandes keep et drop

Pour travailler sur une base de donnes pratique, il sera ncessaire de supprimer les variables inutiles ou les observations non concernes par les objectifs de ltude. La commande keep permet de garder et drop de jeter. On les utilise alternativement selon le nombre des variables garder ou jeter.

keep age salaire pays marital

. drop age15 salred salaire150 fdsrt azerty Avec les observations et les commandes logiques, il est possible de prciser ce que lon veut effacer en le conditionnant la valeur dautres variables. Par exemple, on garde les plus de 15 ans :

Keep if age>=15

Ou bien on supprime les individus ns en 1973 et 2005 : drop if naissance==1973 | naissance==2005

Une commande importante sous Stata est _n qui donne le rang de lobservation, ainsi que _N qui dsigne le nombre dobservation dans la base de donnes. Ainsi, si vous voulez supprimer le s 15 premires observations de la variable ge , il suffit de : drop age if _n<=15 ou pour supprimer la dernire observation : drop age if_n==_N

Les commandes sort et by

La commande sort classe les donnes par ordre croissant. Il est possible de prciser les variables selon lesquelles le classement peut tre effectu : . sort sexe age Cette commande va classer les observations par sexe (dabord les femmes en numro 0 et puis

les hommes en numro 1, par exemple) puis au sein de chaque sexe par ge (les femmes et les enfants dabord). On peut utiliser la commande gsort pour effectuer des classements dans des ordres croissant ou dcroissant. Un + ou un vient donner le sens du classement au sein de chaque variable.

. gsort

gender -age

. list gender age in 1/10 gender 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. Female Female Female Female Female Female Female Female Female Female age 38 33 31 30 25 21 21 20 19 19

Cela classe dabord par sexe pu is par ge dcroissant. Le processus by : qui doit suivre obligatoirement un classement avec sort permet dutiliser la plupart des commandes pour chaque valeur de la variable indique par by. Voici donc quelques exemples pour comprendre le principe :

. sort gender . by gender: tabulate major -> gender = Female Major Econ Math Politics Total -> gender = Male Major Econ Math Politics Total Freq. 7 2 6 15 Percent 46.67 13.33 40.00 100.00 Cum. 46.67 60.00 100.00 Freq. 3 8 4 15 Percent 20.00 53.33 26.67 100.00 Cum. 20.00 73.33 100.00

On obtient ainsi la distribution par major dabord pour les femmes, puis pour les hommes. Cela revient en fait faire successivement les commandes 1 :

. tabulate major if sexe==0 . tabulate major if sexe==1

I.1.7. 2. Rorganiser les donnes Les commandes generate, egen et replace

Les deux commandes principales pour crer des variables sont generate et egen. La commande generate est la plus simple, utilise pour toutes les manipulations algbriques des donnes et egen (labrviation de extended generate ) sert plutt pour les crations des variables avec des combinaisons des moyennes, sommes, mdianes, etc. Quelques exemples pour voquer les manipulations algbriques : gen age2=age^2 (on cre la variable ge au carr) gen lnsalaire=ln(salaire) (on cre la variable logarithme de base nprien du salaire) gen id=_n (on cre la variable id nombre dobservation)

Quelques exemples dutilisation de la variable egen : . egen popmondiale = sum(pop), by(anne) /* on cre la anne*/ . egen moypop= mean(pop) /* on cre la variable population moyenne par anne*/ . egen maxpop= max(pop) /* on cre la variable valeur de la plus large population*/ . egen difference= diff(pop1 pop2) /* on cre la variable muette g a l e 1 si les deux variables sont diffrente et 0 sinon*/ . egen moyenne= rmean(pop1 pop2) /* on cre la variable moyenne entre plusieurs variables, pour chaque observation*/ . egen medpop= median(pop) /* on cre la variable population mdiane par anne*/ . egen sdpop= sd(pop) /* on cre la variable cart-type de la population par a n n e */ variable population mondiale par

Lorsque la variable prend plus de 2 valeurs, lutilisation de by est donc trs conomique.

Enfin la commande replace permet de modifier une variable dj existante :

replace salaire= salaire/6.55957 /* on cre la variable salaire en Euros*/

. replace age=99 if age>=100 Lorsquon cre une nouvelle variable, il est souvent prferable de prciser la dfinition de cette variable sous la forme dun label :

label variable sdpop " e cart-type de la population"

I.1.7. 2. Crer des variables avec retard


Avant toute chose si vous disposez de donnes temporelles, il faut utiliser la commande tsset qui permet de dclarer une variable comme une srie temporelle : gen t =_n tsset t

Les variables retardes pourront tre cres automatiquement sous la forme de L. nomdevariable pour un retard et L2. nomdevariable pour deux retards.

I.1.7. 3. Passer de variables textes des variables numriques


Deux cas de figure peuvent se prsenter : soit il sagit des variables numriques per se (comme ge, salaire, etc.) mais qui sont stockes en str ing (texte), et alors il suffit dutiliser la commande destring : destring age, replace destring age, gen(age_numerique)

Lautre cas de figure est une variable string par nature (comme pays) que vous souhaitez coder en numrique. Dans ce cas, les commandes encode pour passer en numrique et decode pour revenir en string, seront ncessaire : encode pays, gen(pays1) decode pays1, gen(pays)

11

II. Analyse statistique et conomtrique des donnes


II.1. Analyse statistique des donnes sous STATA
Il nest pa s inutile de rappeler ici que la quasi totalit des traitements que nous allons raliser ici peuvent tre effectus avec dautres logiciels statistiques et ne sont pas spcifiques STATA. Si la syntaxe diffrera selon les logiciels, la dmarche danalyse reste identique.

II.1.1. Types de variables

Avant de rentrer dans le processus danalyse, il est ncessaire de considrer les catgories de variables existantes dans la mesure o elles se traitent de faon diffrente. On considre classiquement deux catgories de variables : Les variables qualitatives : elles fournissent une information sur une caractristique

donne comme le genre, le niveau de vie, la possession de manuels scolaires. On distingue les variables dichotomiques qui prennent seulement deux valeurs et les variables polytomiques qui prennent plus de deux valeurs. Par exemple, dans notre fichier (voir annexe), nous avons la variable sexe1 qui prend la valeur 0 quand ltudiant est un garon et 1 quand cest une fille, il sagit dune variable dichotomique. L'option generate est trs utile car elle permet de crer une variable indicatrice correspondant a chacune des modalits. Ici, on cre 2 variables nommes sexe1 et sexe2 :

. tabulate Gender Female Male Total

gender, gen (sexe) Freq. 15 15 30 Percent 50.00 50.00 100.00 Cum. 50.00 100.00

. tab sexe1 gender==Fem ale 0 1 Total Freq. 15 15 30 Percent 50.00 50.00 100.00 Cum. 50.00 100.00

Par contre, la variable major qui dcrit le domaine dtude, pre nd trois valeurs 1, 2 et 3.

17

. tab major Major Econ Math Politics Total . codebook codemajor codemajor type: range: unique values: tabulation: numeric (int) [104,106] 3 Freq. 10 10 10 Value 104 105 106 units: missing .: 1 0/30 Freq. 10 10 10 30 Percent 33.33 33.33 33.33 100.00 Cum. 33.33 66.67 100.00

. recode codemajor 104=1 105=2 106=3 (codemajor: 30 changes made) . tab codemajor codemajor 1 2 3 Total Freq. 10 10 10 30 Percent 33.33 33.33 33.33 100.00 Cum. 33.33 66.67 100.00

Les variables quantitatives : elles permettent de mesurer une grandeur comme un score un test, lge, le nombre dannes dexprience professionnelle, etc. Elles prennent gnralement un grand nombre de valeurs. On peut aussi faire le regroupement des variables continues sous des intervalles choisis. On peut, par exemple, regrouper la variable ge en trois sous-groupes suivants : ge compris entre 18 et 19, entre 20 et 29, et entre 30 et 39. Les options egen et cut/group permettent de crer une nouvelle variable contenant le nouveau dcoupage des modalits. Sans spcifier cette option, ge est remplace par la variable nouvellement code. Notre exemple fait trois dcoupages. Le premier commence 18 et se termine avant 20, le second commence 20 et se termine avant 30, le troisime commence 30 et se termine avant 40.

. egen agegroups2=cut(age), at(18, 20, 30, 40) . browse . tab agegroups2 agegroups2 18 20 30 Total Freq. 10 9 11 30 Percent 33.33 30.00 36.67 100.00 Cum. 33.33 63.33 100.00

II.1.2. Analyse descriptive

Comme son nom lindique, il sagit avant tout de dcrire les donnes dont nous disposons. Elle peut apporter des informations importantes sur la situation dune tude quand lchantillon dont on dispose est reprsentatif. Ce type danalyse peut galement soulever certaines questions de recherche auxquelles lanalyse causale devra rpondre. Nous allons ici prsenter quelques exemples sur la faon de procder, il ne faut toutefois pas perdre de vue que lanalyse descriptive si elle nest pas ncessairement exhaustive doit passer en revue systmatiquement lensemble des variables dintrt pour une tude. Il sagit dun premier questionnement des donnes. Utiliser la commande summarize pour avoir quelques indicateurs pour lanalyse descriptive.

. summarize Variable id lastname firstname city state gender studentsta~s major country age sat averagesco~e heightin newspaperr~k Obs 30 0 0 0 0 0 0 0 0 30 30 30 30 30 Mean 15.5 Std. Dev. 8.803408 Min 1 Max 30

25.2 1848.9 80.36667 66.43333 4.866667

6.870226 275.1122 10.11139 4.658573 1.279368

18 1338 63 59 3

39 2309 96 75 7

Il est noter que les zros indiquent que la variable est un caractre. Variables qualitatives

En ce qui concerne les variables qualitatives, la description passe par la frquence de telle ou telle caractristique dans la population. On peut, par exemple, sinterroger sur la proportion de filles parmi les tudiants, ou bien la proportion dtudiants amricains. Cest linstruction tabulate (ou son abrviation tab) qui permet de calculer les frquences dapparition des modalits dune variable discrte.

19

. tab major Major Econ Math Politics Total Freq. 10 10 10 30 Percent 33.33 33.33 33.33 100.00 Cum. 33.33 66.67 100.00

Le tableau prcdent nous indique quil y a 30 tudiants dans notre chantillon dont 10 ont un major en conomie reprsentant 33% des tudiants (frquence relative). Cum. est la frquence cumule en ordre croissant de valeurs, par exemple, 66.67% des tudiants ont un diplme en conomie ou en mathmatique. On peut demander Stata de faire la mme chose pour plusieurs variables, ainsi :
. tab newspaperreadershiptimeswk

Newspaper readership (times/wk) 3 4 5 6 7 Total

Freq. 6 5 9 7 3 30

Percent 20.00 16.67 30.00 23.33 10.00 100.00

Cum. 20.00 36.67 66.67 90.00 100.00

Ce tableau montre que 6 tudiants lisent le journal 3 fois par semaine (20% de lchantillon), 9 tudiants le lisent 5 fois par semaine (30% de lchantillon). 66.67% des tudiants lisent le journal 3 ou 5 fois par semaine. On peut galement se poser dautres questions comme de savoir la moyenne dge et la moyenne de points obtenus par des filles, et la moyenne dge des tudiants ayant un diplme en mathmatique, etc.

. table gender, contents(freq mean age mean Gender Female Male .


. table major, contents(freq mean age mean Major Econ Math Politics Freq. 10 10 10 mean(age) 23.8 23 28.8

averagescoregrade) mean(averag~e) 78.7333 82

Freq. 15 15

mean(age) 23.2 27.2

heightin mean

averagescoregrade mean mean(news~k) 4.4 5.3 4.9

newspaperreadershiptimeswk

mean(heig~n) 68.4 65.2 65.7

mean(aver~e) 76.2 79.8 85.1

La moyenne dge des filles est de 23 ans, pour les garons, la moyenne dge est de 27 ans ; la moyenne de point obtenu par les filles est de 78 et 82 pour les garons ; les tudiants ayant fini en mathmatique ont une moyenne dge de 23 ans, un poids moyen de 65.2 (in), un point moyen de 79.8 et lisent en moyenne 5 fois un journal par semaine.

Variables quantitatives

Quand on veut dcrire des variables quantitatives, on sintresse principalement leurs caractristiques de valeur centrale (mdiane, moyenne) et leurs caractristiques de dispersion (variance, cart type). On peut galement avoir recours des graphiques pour visualiser les distributions des variables. Sous STATA, on utilisera linstruction summarize (sum). La commande summarize possde l'option dtail qui permet d'obtenir plus de statistiques descriptives (par exemple certains quantiles).

. summarize age, detail Age 1% 5% 10% 25% 50% 75% 90% 95% 99% Percentiles 18 18 18 19 23 30 35 38 39 Largest 33 37 38 39 Smallest 18 18 18 18

Obs Sum of Wgt. Mean Std. Dev. Variance Skewness Kurtosis

30 30 25.2 6.870226 47.2 .5289348 1.923679

L'option detail permet une description plus prcise des variables continues incluant notamment les coefficients d'asymtrie (la valeur de skewness est de 0 pour une distribution normale) et d'aplatissement (la valeur de kurtosis est de 3 pour une distribution normale), les quatre valeurs les plus faibles (smallest) et les plus leves (largest) et diffrents percentiles dont la mdiane (percentile = 50%). Les chiffres cidessus montrent une distribution asymtrique droite, la mdiane (23) est infrieure la moyenne (25.2) et le coefficient d'asymtrie est positif. Par ailleurs, le coefficient d'aplatissement ou de concentration est de 1.92 ce qui montre une distribution peu concentre (distribution platykurtique). On peut aussi utiliser la commande inspect pour identifier quelques donnes atypiques (outliers). Ces variables peuvent avoir une influence sur le calcul des statistiques descriptives. Nous utilisons un exemple sur les variables ge et SAT scores.

21

. inspect age age: # # # # # # 18 (13 unique values) . inspect sat: SAT # # # # # # Negative Zero Positive Total Missing sat Number of Observations Total 30 30 30 Integers 30 30 Nonintegers Age Negative Zero Positive # # # # # 39 Total Missing Number of Observations Total 30 30 30 Integers 30 30 Nonintegers -

# # #

# # #

# # # #

1338 2309 (30 unique values)

Dcider que telles observations sont atypiques est gnralement une dcision arbitraire dpendant de chaque tude. Supposons que nous voulons prendre une dcision denlever les observations inferieures au premier percentile et suprieures au 99me percentile, nous pouvons procder comme suit :

. sum age, detail Age 1% 5% 10% 25% 50% 75% 90% 95% 99% . . return list scalars: r(N) r(sum_w) r(mean) r(Var) r(sd) r(skewness) r(kurtosis) r(sum) r(min) r(max) r(p1) r(p5) r(p10) r(p25) r(p50) r(p75) r(p90) r(p95) r(p99) . = = = = = = = = = = = = = = = = = = = 30 30 25.2 47.2 6.870225614927067 .5289347736921489 1.923679454391617 756 18 39 18 18 18 19 23 30 35 38 39 Percentiles 18 18 18 19 23 30 35 38 39 Largest 33 37 38 39 Smallest 18 18 18 18

Obs Sum of Wgt. Mean Std. Dev. Variance Skewness Kurtosis

30 30 25.2 6.870226 47.2 .5289348 1.923679

Les donnes percentiles identifies sont donc r(p1)= 18 et r(p99)= 39 (ici, Stata les sauvegarde comme des scalaires). On pourra ensuite utiliser la commande drop pour enlever les donnes atypiques : drop if age < r(p1) | age > r(p99). Pour les statistiques descriptives (les mesures de position telles que la moyenne et la mdiane et les mesures de dispersion telles q ue la variance et lcart-type), de toutes les variables continues de notre fichier, on peut utiliser la commande tabstat :

. tabstat age sat stats mean p50 sd variance N range min max

averagescoregrade heightin age sat 1848.9 1817 275.1122 75686.71 30 971 1338 2309 averag~e 80.36667 79.5 10.11139 102.2402 30 33 63 96

newspaperreadershiptimeswk, s(mean median sd var co newspa~k 4.866667 5 1.279368 1.636782 30 4 3 7

heightin 66.43333 66.5 4.658573 21.7023 30 16 59 75

25.2 23 6.870226 47.2 30 21 18 39

On peut aussi obtenir ces statistiques descriptives pour chaque sous-groupe (exemple, gender, ge, etc.) :

23

. tabstat age sat > ender)

averagescoregrade heightin

newspaperreadershiptimeswk, s(mean median sd v

Summary statistics: mean, p50, sd, variance, N, range, min, max by categories of: gender (Gender) gender Female age 23.2 20 6.581359 43.31429 15 20 18 38 27.2 28 6.773899 45.88571 15 21 18 39 25.2 23 6.870226 47.2 30 21 18 39 sat 1871.8 1821 307.587 94609.74 15 971 1338 2309 1826 1787 247.0752 61046.14 15 845 1434 2279 1848.9 1817 275.1122 75686.71 30 971 1338 2309 averag~e 78.73333 79 10.66012 113.6381 15 32 63 95 82 82 9.613978 92.42857 15 31 65 96 80.36667 79.5 10.11139 102.2402 30 33 63 96 heightin 63.4 63 3.112188 9.685714 15 9 59 68 69.46667 71 3.943651 15.55238 15 12 63 75 66.43333 66.5 4.658573 21.7023 30 16 59 75 newspa~k 5.2 5 1.207122 1.457143 15 4 3 7 4.533333 4 1.302013 1.695238 15 4 3 7 4.866667 5 1.279368 1.636782 30 4 3 7

Male

Total

II.1.3. Reprsentation graphique des donnes sous Stata

Il existe plusieurs instructions pour faire des graphiques da ns Stata. Linstruction gnrale scrit comme suit : graph_command varlist [if] [in] [weight] [, type_specific_options general_options]

Reprsentation graphique pour les variables quantitatives discrtes ou continues

La fonction graph dans la barre des tches peut toujours offrir une alternative aux instructions plus complexes et moins intuitives. Voici donc quelques exemples pour notre fichier : Histogramme : histogram age, frequency title(Figure 2)

Figure 2
15 Frequency 0 5 10

20

25 Age

30

35

40

Le graphique confirme le constat prcdent, on voit que les ges faibles sur la gauche du graphique sont plus frquents que les ges levs d'o l'asymtrie remarque prcdemment. On peut aussi utiliser lhistogramme pour dterminer la nature dune distribution, particulirement la distribution normale. La syntaxe est : histogram age, frequency normal

Frequency

10

15

20

25 Age

30

35

40

Le diagramme en botes : graph box age, over( major) yline(5.1)

25

Age

20

25

30

35

40

Econ

Math

Politics

Reprsentation graphique pour les variables qualitatives dichotomiques ou polytomiques

On peut utiliser un diagramme circulaire avec la commande :

diagramme circulaire pour gender

diagramme circulaire pour major

33.33%

33.33%

50%

50%

33.33%

Econ Female Male Politics

Math

. graph pie, over(gender) plabel(1 percent) plabel(2 percent) title(diagramme circulaire pour gender)

. graph pie, over(major) plabel(1 percent) plabel(2 percent) plabel(3 percent) title(diagramme circulaire pour major . graph combine graph1 graph2

Pour visualiser les donnes qualitatives dichotomiques, on peut aussi utiliser la commande catplot. Puisque cette commande est un programme dfini par lutilisateur, il faudra donc linstaller : ssc install catplot

catplot major agegroups, percent(agegroups) blabel(bar)

Econ

40 50 10

18

Math Politics

Econ

40 30 20

20

Math Politics

Econ

20 20 70

30

Math Politics 0

20

40 percent

60

80

27

catplot major agegroups, percent(major gender) blabel(bar) by(gender)


Female
Econ
66.6667 62.5

Male
Econ
28.5714

18

Math Politics

18

Math Politics
16.6667

Econ

33.3333 12.5 50

Econ

42.8571 100

20

Math Politics

20

Math Politics

Econ

Econ
25 50

28.5714

30

Math Politics 0 20

30

Math Politics
83.3333

40

60

80

100

20

40

60

80

100

percent
Graphs by Gender

graph hbar (mean) age (mean) averagescoregrade, blabel(bar) by(, title(gender and major)) by(gender major, total)

gender and major


Female, Econ
19 70.3333

Female, Math
23 79

Female, Politics
26.75 84.5

Male, Econ
25.8571 78.7143

Male, Math
23 83

Male, Politics
30.1667 85.5

20

40

60

80

20

40

60

80

Total
25.2 80.3667

20

40

60

80

mean of age
Graphs by Gender and Major

mean of averagescoregrade

graph

hbar

(mean)

age

averagescoregrade

newspaperreadershiptimeswk,

over(gender) over(studentstatus, label(labsize(small))) blabel(bar) title(Student indicators) legend(label(1 "Age") label(2 "Score") label(3 "Newsp read"))

Student indicators
31.4

Female
5 Graduate 31.1

80.2

Male
4.9

81.1

19.1

Female
5.3 Undergraduate 19.4

78

Male
3.8

83.8

20

40 Age Newsp read

60 Score

80

II.2. Analyse bivarie


Aprs avoir tudi indpendamment diffrentes variables, il convient de les tudier conjointement pour mettre en exergue certaines relations. Il faut cependant , dores et dj, rappeler que l'analyse bivarie ne prouve pas une relation causale. Aussi, il sied de noter que l'approche de la relation entre deux variables diffre selon qu'il s'agit de variables continues ou discrtes.

II.2.1. Relation entre deux variables travers un graphique sous STATA

Une toute premire approche pour identifier une ventuelle relation entre deux variables est de faire un graphique. A titre d'exemple, nous avons ici voulu voir la relation entre SAT score de dbut d'anne et lge.

29

La commande scatterplots permet dexplorer les relations entre les variables et didentifier les donnes atypiques (outliers). La syntaxe est : twoway scatter sat age, mlabel(last) || lfit sat age.

2400

DOE15

2200

DOE11 DOE13

DOE01

DOE14 DOE01 DOE10

2000

DOE02 DOE11 DOE15 DOE10 DOE03 DOE04 DOE13

DOE05 DOE09

1800

DOE08 DOE04 DOE06 DOE12 DOE14

DOE02 DOE07

DOE03 DOE05

1600

DOE09

DOE08 DOE12 DOE07

DOE06

1400

20

25 Age SAT

30 Fitted values

35

40

Le graphique prcdent nous permet de constater qu'il y a une faible relation ngative entre le SAT score et lge, c'est--dire que plus on a eu un score lev en SAT score et moins il y a de chance que lindividu soit g. Toutefois, le nuage de point indique que cette relation est loin d'tre parfaite car on voit que pour un mme ge, les SAT scores peuvent varier de faon importante. Un autre exemple consisterait par exemple faire la mme reprsentation selon les diplmes obtenus (par catgorie) : twoway scatter sat age, mlabel(last) by(major, total).

2500

Econ
DOE15 DOE11 DOE13 DOE02 DOE04 DOE12 DOE02 DOE03 DOE04 DOE14 DOE09 DOE07

Math
DOE01 DOE05

2000

1500

DOE15 DOE08DOE10 DOE06 DOE12

DOE06

SAT

1000

2500

Politics
DOE14 DOE01 DOE10 DOE15 DOE11 DOE13 DOE02 DOE11 DOE15 DOE10 DOE08 DOE04DOE03 DOE06 DOE12 DOE14 DOE05 DOE09 DOE07

Total
DOE01 DOE14 DOE01 DOE10 DOE05 DOE09 DOE04 DOE13 DOE02 DOE07 DOE08 DOE12 DOE03 DOE05 DOE06

2000

DOE11 DOE03

DOE09 DOE13 DOE07 DOE08

1000

1500

20
Graphs by Major

25

30

35

40

20

25

30

35

40

Age

II.2.2. Relation entre une variable quantitative et une variable qualitative

L'exemple type est de s'interr oger sur lge des tudiants selon leur genre ou encore selon leur domaine dtude. On commencera alors par calculer le score moyen pour chaque cas de figure.
. sort gender . by gender: sum -> gender = Female Variable age -> gender = Male Variable age Obs 15 Mean 27.2 Std. Dev. 6.773899 Min 18 Max 39 Obs 15 Mean 23.2 Std. Dev. 6.581359 Min 18 Max 38 age

31

. sort

major age

. by major: sum -> major = Econ Variable age -> major = Math Variable age

Obs 10

Mean 23.8

Std. Dev. 6.779053

Min 18

Max 37

Obs 10

Mean 23

Std. Dev. 7.102425

Min 18

Max 38

-> major = Politics Variable age Obs 10 Mean 28.8 Std. Dev. 5.80804 Min 19 Max 39

On constate que les filles ont un ge moyen lgrement infrieur celui des garons (23 ans contre 27 ans). L'cart entre les tudiants ayant un diplme en politique et ceux en mathmatique est plus marqu (28.8 contre 23). Doit-on prendre ces carts directement et conclure des diffrences entre garons et filles et entre les diplms en politique et mathmatique? La rponse est non, pour pouvoir conclure la diffrence entre deux moyennes, il faut avoir recours un test de comparaison de moyenne.

. ttest age, by (gender) Two-sample t test with equal variances Group Female Male combined diff Obs 15 15 30 Mean 23.2 27.2 25.2 -4 Std. Err. 1.6993 1.749013 1.254326 2.438579 Std. Dev. 6.581359 6.773899 6.870226 [95% Conf. Interval] 19.55536 23.44874 22.63462 -8.995202 26.84464 30.95126 27.76538 .9952023

diff = mean(Female) - mean(Male) Ho: diff = 0 Ha: diff < 0 Pr(T < t) = 0.0561

t = -1.6403 degrees of freedom = 28 Ha: diff > 0 Pr(T > t) = 0.9439

Ha: diff != 0 Pr(|T| > |t|) = 0.1121

Le principe du test est de voir si la diffrence entre les deux moyennes est nulle (Ho). Pour cela on va tester si la diffrence est diffrente de 0, si c'est le cas on rejettera l'hypothse Ho sinon on l'acceptera. Ici on a P > |t| = 0.1121, cela signifie qu'on a 11 chances sur 100

de se tromper si on affirme que la diffrence entre les deux moyennes est comprise entre -8.995202 et 0.9952023. Il faut savoir qu'en gnral au-del de 5 chances sur 100, on considre que l'on ne peut accepter l'hypothse. Ici, on peut donc retenir qu'il n'y a pas de diffrence significative entre lge moyen des garons et celui des filles. Voyons pour les domaines dtude (politics, math and Econ) :

. oneway age major Source Between groups Within groups Total Analysis of Variance SS df MS 197.6 1171.2 1368.8 2 27 29 98.8 43.3777778 47.2 chi2(2) = 0.3671 Prob>chi2 = 0.832 F 2.28 Prob > F 0.1219

Bartlett's test for equal variances:

Nous appliquons lanalyse de variance car nous voulons c omparer plusieurs moyennes (au del de deux). Lhypothse nulle est : 0 : = = contre lhypothse alternative 1 : au moins une de ces galits est fausse. Avec =moyenne dge des tudiants ayant un diplme en politique, = moyenne dge des tudiant ayant un diplme en mathmatique et = moyenne dge des tudiants ayant un diplme en conomie, on Prob > F = 0.1219, on est donc amen accepter lhypothse sur lgalit dge selon les diplmes obtenus.

II.2.3. Relation entre deux variables qualitatives


Il est possible de dcrire deux variables discrtes dans un seul tableau. On utilise alors un test de chi2 pour vrifier si les variables sont ou non indpendantes dans un tableau de contingence. Lhypothse nulle est que les deux variables sont indpendantes (pas de relation). Cette hypothse est rejete lorsque la p-value est infrieure 0.05 (pour un degr de confiance de 95%). Prenons comme exemple le genre (gender) et le domaine dtude (major) :

. tab

gender

major, chi2 Econ 3 7 10 Major Math 8 2 10 5.6000 Politics 4 6 10 Pr = 0.061 Total 15 15 30

Gender Female Male Total

Pearson chi2(2) =

33

Ici, on a 6 chances sur 100 de se tromper en affirmant que les deux variables ne sont pas indpendantes, cest--dire quil ny a pas un lien entre le (les deux variables sont donc indpendantes). genre et le domaine dtude

II.3. Analyse causale ou conomtrique sous STATA


La question de la causalit est aussi redoutable qu'incontournable, c'est pourquoi elle est aborde ici. Il semble important effectivement de comprendre la diffrence de statut entre ce type d'analyse et les analyses prcdentes. Toutefois, on ne peut pas ici traiter de faon complte cet aspect. On peut pe nser la causalit par rapport lexprimentation telle que la pratiquent les sciences exprimentales : on rpte la mme exprience plusieurs fois, mais en modifiant seulement une des conditions de lexprience. Si on constate que les rsultats varient systmatiquement en fonction de cette condition, on infre que cette condition a un effet causal donn sur les rsultats. En sciences sociales, si lexprimentation exprimentation nest et gure analyse possible. Cest par lanalyse

comparative de situations existantes quon essaie de me ttre en vidence des relations causales. Mme comparative apparaissent fondamentalement diffrentes, il reste intressant de penser lanalyse comparative par rapport lexprimentation idale. En effet, lanalyse comparative fait un double effort pour se rapprocher des conditions de lexprimentation : le choix dun chantillon comprenant une multiplicit dindividus fait cho la rptition de lexprience ; et la reconstitution de conditions toutes choses gales par ailleurs est lanalogue du contrle des conditions de lexprimentation. Pour le cas par exemple du processus dacquisition, il est important de rappeler qu'une multitude de facteurs y interviennent simultanment. Or, si l'on veut mesurer l'effet d'un facteur donn il faut tre en mesure de prendre en compte l'effet des autres facteurs afin de s'assurer que l'on mesure bien l'effet du seul facteur qui nous intresse (on parle d'effet net). Par exemple, dans la comparaison des classes nombreuses et peu nombreuses on va constater que ces classes diffrent par leur localisation, par leur public dlves, par les moyens ducatifs mis en uvre. On va mesurer les effets de ces diffrences. On va ter ces effets de la diffrence de rsultats mesure entre classes nombreuses et classes peu nombreuses. La diffrence restante sera attribue la taille de classe. Pour cela, on a recours des analyses statistiques multivaries comme la rgression multiple. Il y a en effet une difficult pratique : pour mesurer leffet cau sal de la diffrence de tailles de classe, nous devons connatre leffet causal des autres variables. Mais la rciproque est vraie : pour connatre leffet causal des autres variables, nous devons

connatre leffet causal des diffrences de taille de classe. Prenons par exemple leffet causal du milieu rural : nous ne pouvons le dduire de la comparaison simple des rsultats en milieu urbain et en milieu rural. Car on pourrait objecter que les classes de milieu rural sont aussi en gnral moins nombreuses, et que cela trouble la comparaison. Cest pourquoi la rgression multivarie identifie de faon simultane les diffrents effets. Il faut donc laborer un modle statistique intgrant de multiples variables, il se pose donc la question du choix des variables. On introduira les variables ncessaires pour tester si ces effets existent de faon significative, et quelle est leur valeur. On introduira les variables ncessaires, ni plus, ni moins : pas moins, car oublier une variable pertinente cest se heurter lobjection de la variable manquante qui vient fausser lestimation des effets des autres variables. pas plus, car ce serait demander trop des donnes existantes que de permettre didentifier simultanment les effets de dizaines de variables partir de configurations existantes forcment en nombre limit. En particulier, quand deux variables visent le mme concept ou semblent troitement lies, on nintroduira que lune des deux dans le modle. Concrtement, le modle se prsente comme une grande quation o figurent, gauche, la variable expliquer, et droites les variables explicatives. Il faut ici mettre en vidence deux logiques complmentaires dans l'laboration des modles statistiques. L'objectif de ces modles est d'expliquer au mieux la ralit, donc on choisira, aprs les avoir testes, les variables qui apporteront le plus au pouvoir explicatif du modle. Toutefois, une variable qui n'a pas d'effet significatif peut galement s'avrer intressante. Par exemple, en matire de politique ducative, le fait que l'lectricit n'ait pas d'impact sur les apprentissages des lves permettrait aux dcideurs de ne pas prendre prioritairement des mesures en faveur de l'lectrification des coles mais plutt par exemple en faveur de la dotation en manuels scolaires. L'laboration d'un modle est toujours une alchimie complexe qui repose sur le contexte de ltude, l'exprience du modlisateur et aussi sur les lments mis en vidence dans les analyses descriptives et bivaries. Le modle de rgression repose sur un certain nombre dhypothses : H1. Linarit : la relation entre y et les rgresseurs est linaire. H2. Plein rang : il nexiste pas de relation linaire exacte entre les variables explicatives, et le rang de la matrice des variables explicatives est gal au nombre

35

des paramtres estimer. Cette hypothse est ncessaire pour lestimation des paramtres du modle. En effet, lindpendance linaire des c olonnes de X est une condition ncessaire lunicit du vecteur . 2 H3. Exognit des variables indpendantes : la matrice des variables explicatives est compose des variables certaines c..d. non alatoires, en dautres termes, les variables indpendan tes ninterviennent pas dans la prdiction de i. Cette hypothse implique que les variables explicatives du modle et les alas sont des variables indpendantes. H4. Homoscdasticit et absence dautocorrlation : la variance de i est constante et finie 2 et i nest pas corrl avec j, pour ij. Si cette hypothse est vrifie et que lesprance des alas est nulle, on dit que lala est un bruit blanc. 3 H5. Donnes gnres de manire exogne : les observations de variables explicatives peuvent tre un mlange de constantes et des variables alatoires. Le processus ayant gnr les donnes est indpendant de celui qui a gnr lala, ceci constitue une extension de H3. H6. Distribution normale : la distribution du terme derreurs est normale.

II.3.1. Etude des cas : Lconomie amricaine de 1992 2002

Lanalyse porte sur la performance de lconomie amricaine de 1992 2002 (voire la deuxime feuille du fichier student, pour les donnes). Nous avons donc collect les donnes annuelles sur le taux de croissance du PIB (gdpgr), le taux de croissance du PIB per capita (gdpcapgr), le taux de croissance de la consommation prive (consgr), le taux de croissance de linvestissement (invgr), le taux de croissance de la productivit du travail dans les industries manufacturires (producgr), le taux de chmage (unemp), et le taux dinflation (inf). Les deux variables peuvent tre considres comme des variables dpendantes. La consommation, linvestissement et la productivit peuvent tre considrs comme des facteurs qui augmentent le taux de croissance du PIB, par consquent ils doivent tre affects du signe positif dans le modle. Finalement, le chmage et linflation sont fortement corrls, il faudra donc vrifier si lun de deux(ou les deux) peut tre inclus dans ce modle simpliste de croissance.

A.

Analyse exploratoire des donnes

Une analyse exploratoire des donnes sous Stata nous donne les rsultats suivants :

2 3

JOHNSTON J.et DINARDO J., Mthodes conomtriques, 4e d., Economica, Paris, 1997, pg.90 CADORET I.et alli., Economtrie applique, d. DeBoeck, Bruxelles,

. summarize Variable year gdpgr consgr invgr unemp gdpcapgr inf producgr Obs 11 11 11 11 11 11 11 11 Mean 1997 3.463636 3.645455 6.954545 5.327273 2.490909 2.590909 4.309091 Std. Dev. 3.316625 1.050974 1.03476 2.408885 1.125247 1.048289 .5204893 1.590883 Min 1992 1.5 2.4 3.3 4 .7 1.5 1.9 Max 2002 5 5.3 10.7 7.5 4.2 3.4 7.2

On peut aussi vrifier la relation entre les variables graphiquement. Par exemple, on voudrait savoir comment la consommation et linvestissement sont corrls avec le PIB (les variables sont exprimes en taux de croissance), la commande utilise sera donc :

10

1992

1994

1996 year gdpgr invgr

1998 consgr

2000

2002

Ce graphique prsente les nuages de points pour chaque variable, avec li nvestissement relativement plus suprieur que les deux autres variables. On peut aussi combiner les graphes dans une seule figure. Les commandes seront alors : Twoway scatter gdpgr consgr, saving(part1) twoway scatter gdpgr invgr, saving(part2) twoway scatter gdpgr producgr, saving(part3)

37

twoway scatter unemp inf, saving(part4) graph combine part1 part2 part3 part4, margin(10)

gdpgr

gdpgr

4 consgr

8 invgr

10

12

unemp

gdpgr

4 5 producgr

1.5

2.5 inf

3.5

graph matrix gdpgr consgr invgr producgr unemp inf, half

gdpgr
6 4 2 10 8 6 4 8 6 4 2 8 6 4 3 2 1 0 52 4 6 4 6 8 10 2 4 6 84 6 8

consgr

invgr

producgr

unemp

inf

B.

Rgression linaire

Avant destimer un mod le de rgression, il est recommand avant tout de vrifier la corrlation entre les diffrentes variables. Pour savoir si cette corrlation est significative, on peut procder un test de nullit du coefficient de la corrlation (la commande est alors pwcorr et de son option star (5) pour un seuil de signification de 5%).

. pwcorr gdpgr gdpcapgr consgr invgr producgr unemp inf, star(5) gdpgr gdpcapgr gdpgr gdpcapgr consgr invgr producgr unemp inf consgr invgr producgr unemp inf

1.0000 0.9890* 1.0000 0.8394* 0.8347* 1.0000 0.9097* 0.8841* 0.8270* 1.0000 0.5708 0.6003 0.7050* 0.5238 -0.3035 -0.4143 -0.4761 -0.3684 -0.1012 -0.1230 -0.1198 -0.3090

1.0000 -0.5336 -0.0832

1.0000 0.3590

1.0000

Ce tableau indique par exemple que le PIB et le PIB per capita sont fortement corrls (car lun intervient dans le calcul de lautre) avec un coefficient statistiquement significati f de 0.989 mais chacun a un diffrent coefficient de corrlation avec le taux de chmage 0.4143 pour le taux de croissance du PIB per capita et 0.3035 pour le taux de croissance du PIB, les deux coefficients ntant pas statistiquement significatifs. Linf lation et le taux de chmage ont un coefficient de corrlation positif et modeste (0.3590). La croissance du PIB dpend de plusieurs variables en mme temps. La corrlation nous permet de tester les variables explicatives une par une, mais pas ensemble. Le modle linaire, ou modle des moindres carrs ordinaires permet d'estimer l'effet d'un facteur sur la variable d'intrt, "toute chose gale par ailleurs", c'est-a-dire en maintenant les autres variables constantes, a leur moyenne pour les variables continues, leur valeur dite de rfrence pour les variables catgorielles. Il est prfrable de choisir la catgorie la plus reprsente comme catgorie de rfrence. Maintenant, commenons avec quelques rgressions linaires simples. Par exemple, vrifions les rgressions individuelles du taux de croissance du PIB avec les taux de croissance de la consommation et de linvestissement.

39

. regress gdpgr consgr Source Model Residual Total gdpgr consgr _cons SS 7.78197201 3.26348251 11.0454545 Coef. .8525216 .3558076 df 1 9 10 MS 7.78197201 .362609168 1.10454545 t 4.63 0.51 P>|t| 0.001 0.621 Number of obs F( 1, 9) Prob > F R-squared Adj R-squared Root MSE = = = = = = 11 21.46 0.0012 0.7045 0.6717 .60217

Std. Err. .1840263 .6949943

[95% Conf. Interval] .4362251 -1.216379 1.268818 1.927994

. . regress gdpgr invgr Source Model Residual Total gdpgr invgr _cons SS 9.14164404 1.90381048 11.0454545 Coef. .3969137 .7032821 df 1 9 10 MS 9.14164404 .211534498 1.10454545 t 6.57 1.59 P>|t| 0.000 0.146 Number of obs F( 1, 9) Prob > F R-squared Adj R-squared Root MSE = = = = = = 11 43.22 0.0001 0.8276 0.8085 .45993

Std. Err. .0603774 .4422039

[95% Conf. Interval] .2603305 -.2970526 .5334969 1.703617

Dans le tableau de la rgression proprement parler, en haut gauche apparat la variable qu'on cherche expliquer (gdpgr). En dessous, la ou les variables explicatives et la constante. Ici il n'y a que consgr (dans le premier modle) et invgr (dans le deuxime modle) comme variable explicative, concrtement on essaie d'expliquer le taux de croissance du PIB respectivement par le taux de croissance de la consommation et le taux dinvestissement. A chaque variable est associ un coefficient (coef) qui donne l'impact de la variable explicative sur la variable explique. Par exemple ici, un accroissement dune unit dans le taux de consommation (consgr) se traduit par 0.82 accroissement dans le taux du PIB. Nous avons galement pour chaque variable son erreur type, son t de Student qui nous permet de savoir quelle confiance accorde au coefficient. Si P>|t|>0.05 alors on dira que le coefficient n'est pas significatif dans le cas contraire il sera accept. Pour consgr, on a moins d'une chance sur 1000 de se tromper en disant que son coefficient est compris entre 0.4362 et 1.268. Le coefficient est une valeur moyenne de cet intervalle. La statistique F teste l'hypothse que tous les coefficients du modle l'exception de la constante (_cons) sont nuls, elle est rejete ici dans les deux rgressions. Le R (R-squared) indique le pourcentage de variance explique par le modle, c'est--dire en quelque sorte la capacit du modle expliquer la ralit. videmment, plus le R est

lev et plus le modle est performant.

Cette mesure peut augmenter artificiellement

lorsqu'on ajoute des variables explicatives, mme si celles-ci n'expliquent pas la variable dpendante. Aussi, il est d'usage de lui prfrer Le R ajust. Le R ajust (Adj R-squared) tient compte des degrs de libert et constitue une mesure plus prcise. On constate ici que le taux de croissance de la consommation permet d'expliquer lui tout seul 70% de la variance totale, ce qui souligne l'importance de la consommation dans un modle de croissance du PIB. Pour une rgression multiple, le rsultat est le suivant :

. regress gdpgr consgr invgr producgr unemp inf Source Model Residual Total gdpgr consgr invgr producgr unemp inf _cons SS 9.70924721 1.33620731 11.0454545 Coef. .1822094 .3448859 .0490201 .0551669 .3019558 -.8865854 df MS Number of obs F( 5, 5) Prob > F R-squared Adj R-squared Root MSE P>|t| 0.635 0.050 0.764 0.783 0.455 0.578 = = = = = = 11 7.27 0.0242 0.8790 0.7581 .51695

5 1.94184944 5 .267241462 10 1.10454545 Std. Err. .3605194 .1338048 .1547288 .1897954 .372596 1.492931 t 0.51 2.58 0.32 0.29 0.81 -0.59

[95% Conf. Interval] -.7445351 .0009296 -.3487228 -.4327176 -.6558326 -4.724287 1.108954 .6888422 .4467631 .5430514 1.259744 2.951116

Dans . notre exemple, malgr un 2 lev, toutes les variables explicatives, lexception du taux dinvestissement, ne sont pas statistiquement significatifs au niveau de 5%. Il y videmment quelques raisons lies ces rsultats (notamment la spcification du modle, la multicollinarit, etc.) 4.

Nous pouvons aussi faire une estimation log-linaire aprs avoir transform les variables dans une chelle logarithmique (log naturel) :

gen lngdpgr= ln(gdpgr) gen lnconsgr=ln(consgr) gen lninvgr=ln(invgr) gen lnproduc=ln(producgr)

Pour un approfondissement de ces problmes, lintress peut se rfrer au guide Larq pour tudiants de Tombola (2012a).

41

gen lnunemp=ln(unemp) gen lninf=ln(inf) regress lngdpgr lnconsgr lninvgr lnproduc lnunemp lninf

. regress lngdpgr lnconsgr lninvgr lnproduc lnunemp lninf Source Model Residual Total lngdpgr lnconsgr lninvgr lnproduc lnunemp lninf _cons SS 1.07467131 .149400242 1.22407155 Coef. .114882 .779761 .0950277 .2009322 .1184624 -.9912522 df MS Number of obs F( 5, 5) Prob > F R-squared Adj R-squared Root MSE P>|t| 0.815 0.052 0.644 0.612 0.688 0.264 = = = = = = 11 7.19 0.0247 0.8779 0.7559 .17286

5 .214934262 5 .029880048 10 .122407155 Std. Err. .4666926 .3081229 .1935535 .3716735 .2785439 .787582 t 0.25 2.53 0.49 0.54 0.43 -1.26

[95% Conf. Interval] -1.08479 -.0122942 -.4025174 -.7544849 -.5975574 -3.015796 1.314554 1.571816 .5925728 1.156349 .8344822 1.033292

On peut donc visualiser les valeurs prdites de la variable dpendante : predict lngdpfit twoway scatter lngdpfit year

Fitted values

1.2 .6
1992

1.4 .8 1

1.6

1994

1996 year

1998

2000

2002

predict lngdpres, resid twoway scatter lngdpres year

II.3.2. Diagnostic du modle linaire II.3.2. 1. Etude sur les rsidus

L'infrence statistique relative la rgression (estimation par intervalle des coefficients, tests d'hypothses, etc.) repose principalement sur les hypothses lies au terme d'erreur qui rsume les informations absentes du modle. Il importe donc que l'on vrifie ces hypothses afin de pouvoir interprter les rsultats. Rappelons brivement les hypothses lies au terme d'erreur : sa distribution doit tre symtrique, plus prcisment elle suit une loi normale ; sa variance est constante ; les erreurs ( = 1, . . ., ) sont indpendantes.

Vrification de la normalit des rsidus

Une fois que les rsidus sont calculs (voire la commande predict), La vrification de la normalit des rsidus sous Stata seffectue grce aux commandes tell es que kdensity, qnorm et pnorm.

predict lngdpres, resid kdensity lngdpres, normal

43

Kernel density estimate


4 Density 0
-.4

-.2

0 Residuals Kernel density estimate Normal density

.2

.4

kernel = epanechnikov, bandwidth = 0.0681

0.00
0.00

0.25

0.50

0.75

1.00

0.25

0.50 Empirical P[i] = i/(N+1)

0.75

1.00

Comme le montre ce deux graphiques, il y a une petite dviation par rapport la distribution normale, nanmoins cette dviation semble tre mineure. Pour une

confirmation de nos rsultats, nous pouvons utiliser un test formel plus rigoureux. Un de ces tests est celui de Shapiro Wilk, ce test est considr dans la littrature comme lun des tests de conformit la loi normale le plus fiable et le plus efficace, particulirement pour de petits chantillons [n 50].

. swilk

lngdpres Shapiro-Wilk W test for normal data Obs W V z 11 0.95775 0.684 -0.654 Prob>z 0.74334

Variable lngdpres

Pour notre exemple, notre p-value est de 0.74334 largement suprieur 0.05, nous ne pouvons donc pas rejeter lhypothse de la normal it des rsidus.

Vrification de lautocorrlation des rsidus

Lorsque nous travaillons avec des donnes longitudinales, la date dfinit naturellement l'ordonnancement des observations. Il est important de vrifier que les rsidus sont produits de manire totalement alatoire. Si l'on conclut au rejet de cette hypothse, les rsidus sont produits par un processus quelconque, l'hypothse d'indpendance des erreurs est rejete, la mthode des moindres carrs ordinaires n'est plus BLUE : elle est certes non-biaise, mais elle n'est plus variance minimale, et la matrice de variance covariance n'est plus estime de manire convergente, les tests de significativit ne sont plus oprants. La dtection de l'autocorrlation des rsidus peut s'effectuer visuellement l'aide du graphique des rsidus. Elle peut galement s'appuyer sur des techniques statistiques. La plus connue est certainement le test de Durbin-Watson qui dtecte une forme particulire de l'autocorrlation (lautocorrlation dordre 1).

45

. tsset year time variable: year, 1992 to 2002 delta: 1 unit . regress lngdpgr lnconsgr lninvgr lnproduc lnunemp lninf Source Model Residual Total lngdpgr lnconsgr lninvgr lnproduc lnunemp lninf _cons . dwstat Durbin-Watson d-statistic( 6, 11) = 2.79778 SS 1.07467131 .149400242 1.22407155 Coef. .114882 .779761 .0950277 .2009322 .1184624 -.9912522 df MS Number of obs F( 5, 5) Prob > F R-squared Adj R-squared Root MSE P>|t| 0.815 0.052 0.644 0.612 0.688 0.264 = = = = = = 11 7.19 0.0247 0.8779 0.7559 .17286

5 .214934262 5 .029880048 10 .122407155 Std. Err. .4666926 .3081229 .1935535 .3716735 .2785439 .787582 t 0.25 2.53 0.49 0.54 0.43 -1.26

[95% Conf. Interval] -1.08479 -.0122942 -.4025174 -.7544849 -.5975574 -3.015796 1.314554 1.571816 .5925728 1.156349 .8344822 1.033292

Pour notre exemple, la valeur de DW de 2.798 nous indique quil y a absence dautocorrlation des erreurs (voire la table de Durbin -Watson pour une bonne lecture).

Vrification de lhomoscdasticit des rsidus

On dit quil y a htroscdasticit lorsque lhypothse de la constance de lerreur, mise lors de la prsentation de la mthode des moindres carrs ordinaires, est viole. La consquence directe de cette violation est que les estimateurs des MCO, bien que encore non biaiss, ne sont plus efficients, puisq ue nayant plus une variance minimale. Et par consquent les t de Student et F de Fisher ne sont plus utilisables des fins dinfrence.

. estat hettest Breusch-Pagan / Cook-Weisberg test for heteroskedasticity Ho: Constant variance Variables: fitted values of lngdpgr chi2(1) = Prob > chi2 = 4.67 0.0306

. estat imtest Cameron & Trivedi's decomposition of IM-test Source Heteroskedasticity Skewness Kurtosis Total chi2 11.00 4.71 0.33 16.05 df 10 5 1 16 p 0.3575 0.4518 0.5633 0.4496

En utilisant le test de Breusch-Pagan, nous avons un p-value de 0.0306 infrieur 0.05, nous rejetons lhypothse dhomoscdasticit des rsidus. Ceci est encore confirm pour le test de White.

II.3.2.2. Vrification de la multicolinarit


On parle de colinarit entre 2 variables exognes lorsque la corrlation linaire entre ces variables est leve (ex. r > 0.8 a-t-on l'habitude d'indiquer mais ce n'est pas une rgle absolue). On peut gnraliser cette premire dfinition en dfinissant la multicolinarit comme la corrlation entre une des exognes avec une combinaison linaire des autres exognes. Une fois que la rgression est effectue, on peut donc vrifier la multicolinarit avec la commande vif (facteur dinflation de la variance). On dcide qu'il y a un problme de colinarit lorsque 4. Certains utilisent une rgle moins contraignante et prfrent les seuils 5 ou mme 10 c.--d. la multicolinarit n'est signale que si elle est vraiment leve. A vrai dire, l'essentiel est d'identifier les variables qui posent problme dans la rgression. La tolrance, dfinie comme 1 est galement fournie par les logiciels statistiques. Plus elle est faible, plus la variable soufre de colinarit. En drivant la rgle de dtection du VIF, on s'inquiterait ds que la tolrance est infrieure 0.25 (lorsque la rgle de VIF est de 4) ou infrieure 0.1 (lorsque la rgle est de 10).

47

. vif Variable lnconsgr lninvgr lnunemp lnproduc lninf Mean VIF VIF 5.55 4.68 1.91 1.86 1.29 3.06 1/VIF 0.180027 0.213631 0.524226 0.537596 0.774642

Pour notre exemple, la variable lnconsgr a un VIF de 5.55. On peut donc lidentifier comme une variable qui pose problme. Une fois, enleve dans le modle, on constate une amlioration dans le diagnostic de la multicolinarit des variables restantes.

. regress lngdpgr lninvgr lnproduc lnunemp lninf Source Model Residual Total lngdpgr lninvgr lnproduc lnunemp lninf _cons . vif Variable lnproduc lnunemp lninvgr lninf Mean VIF VIF 1.75 1.69 1.27 1.19 1.47 1/VIF 0.572722 0.592722 0.789830 0.837064 SS 1.07286071 .151210845 1.22407155 Coef. .8445445 .1068273 .1698301 .1371867 -.9507823 df MS Number of obs F( 4, 6) Prob > F R-squared Adj R-squared Root MSE P>|t| 0.001 0.558 0.616 0.597 0.228 = = = = = = 11 10.64 0.0068 0.8765 0.7941 .15875

4 .268215177 6 .025201807 10 .122407155 Std. Err. .1471685 .1722194 .3210115 .2460876 .70737 t 5.74 0.62 0.53 0.56 -1.34

[95% Conf. Interval] .4844362 -.3145784 -.6156568 -.464968 -2.681654 1.204653 .528233 .955317 .7393414 .7800897

II.3.2.3. Dtection de lerreur de spcification du modle


On voudrait vrifier sil y a un problme de sous -ajustement (variables omises) ou un problme de surajustement (lexistence des variables superflues). On utilise les commandes :

ovtest et linktest

. ovtest Ramsey RESET test using powers of the fitted values of lngdpgr Ho: model has no omitted variables F(3, 2) = 1.69 Prob > F = 0.3934
Pour notre exemple, nous ne pouvons pas rejeter lhypothse que le modle na pas des variables omises.

. linktest Source Model Residual Total lngdpgr _hat _hatsq _cons SS 1.07494763 .149123927 1.22407155 Coef. 1.125274 -.0581038 -.061089 df 2 8 10 MS .537473813 .018640491 .122407155 t 1.08 -0.12 -0.12 P>|t| 0.310 0.906 0.911 Number of obs F( 2, 8) Prob > F R-squared Adj R-squared Root MSE = = = = = = 11 28.83 0.0002 0.8782 0.8477 .13653

Std. Err. 1.037357 .4772479 .5273712

[95% Conf. Interval] -1.266876 -1.158639 -1.277209 3.517424 1.042432 1.155031

. on sintressera la significativit de _hatsq. Lhypothse nulle est que le modle ne Ici


comporte pas une erreur de spcification. Si le p-value de _hatsq nest pas significatif alors lhypothse sera accepte et notre modle est alors correctement spcifi.

II.3.2.4. Dtection de la non-linarit


On peut faire une dtection graphique ou numrique de la non-linarit du modle. La dtection graphique prsente un double avantage : nous pouvons dceler une ventuelle non-linarit, nous disposons de pistes sur la "bonne" forme de la relation. Elle n'est pas adapte en revanche pour le traitement automatis d'un grand nombre de variables. Dans ce contexte, rien ne remplace un critre numrique qui permet, au moins dans une

49

premire tape, d'isoler les cas problmes sur lesquels nous devrions nous pencher plus attentivement. Reprenons notre estimation de dpart :

. regress

gdpgr

consgr SS 9.70924721 1.33620731 11.0454545 Coef. .1822094 .3448859 .0490201 .0551669 .3019558 -.8865854

invgr df 5 5 10

producgr MS

unemp

inf Number of obs F( 5, 5) Prob > F R-squared Adj R-squared Root MSE P>|t| 0.635 0.050 0.764 0.783 0.455 0.578 = = = = = = 11 7.27 0.0242 0.8790 0.7581 .51695

Source Model Residual Total gdpgr consgr invgr producgr unemp inf _cons

1.94184944 .267241462 1.10454545 t 0.51 2.58 0.32 0.29 0.81 -0.59

Std. Err. .3605194 .1338048 .1547288 .1897954 .372596 1.492931

[95% Conf. Interval] -.7445351 .0009296 -.3487228 -.4327176 -.6558326 -4.724287 1.108954 .6888422 .4467631 .5430514 1.259744 2.951116

La commande acprplot (augmented component-plus-residual plot) fournit un graphique afin dexaminer la relation entre les variables. Il fournit un bon test pour la lin arit. Elle sera utilise aprs la regression. Loption lowess (locally weighted scatterplot smoothing) permet de visualiser les donnes afin de detecter la non-linarit. Pour notre exemple, la variable invgr prsente une relation quadratique, il semble ncessaire dajouter la version au carr de cette variable dans le modle. La syntaxe est : acprplot consgr, lowess

Augmented component plus residual

Augmented component plus residual

Augmented component plus residual 5.5 5 6 6.5

Augmented component plus residual -1.5 -.5 -1

4 5 4 consgr 6 unemp 7 8
1.5 2 3 3 2.5 4 5 6

2 3 5 6
Augmented component plus residual 7

1.5 4 2 6 8 invgr 2.5 inf 3 3.5 10 12


-.4 -.2 0 .2 .4 .6

2 3 4 5 6 producgr 7

51

II.4. Sries chronologiques et prvisions sous STATA


II.4.1. Dfinitions

Une srie chronologique ( , ) est une srie statistique ordonne en fonction du temps. Habituellement T est dnombrable, de sorte que t = 1,2,,T. La dfinition mathmatique adquate pour ltude et la prvision de telles suites consiste les considrer comme une ralisation particulire du ne famille de variables alatoires { , }. Notation : { , } ou notera la srie (), }). Une srie temporelle peut concerner des donnes macroconomiques (Masse montaire, PIB, inflation,), microconomiques (nombre demploys dune entreprise, ventes, ..), politiques (nombre de votants, nombre de votes nuls,.), dmographiques (ge moyen des habitants dune localit, leur taille,..), financires (Indice BRVM composite, cours dune action,..). La priodicit de la srie importe peu. Il peut sagir de mesures annuelles, { } o est un intervalle de temps qui peut tre discret,

(dans ce cas = {1,2, , } et T est le nombre dobservations ou continu (auquel cas on

semestrielles, mensuelles etc. Les figurent qui suivent prsentent une varit de sries chronologiques.

Figure 1 : Quelques sries chronologiques (de gauche droite, (a) nombre des victimes des accidents de la route au Luxembourg de 1970 2001 ; (b) la masse montaire au Sngal (en milliers de F cfa) ; (c) bruit blanc ; (d) le taux de croissance du PIB de la RD Congo de 1990 2007).

Ltude dune srie chronologique peut tre motive par deux contextes diffrents : La conjoncture : lanalyse conjoncturelle a pour but dinterprter la situation correspondant aux dernires donnes observes : que sest-il pass les derniers mois ? Que se passe-t-il aujourdhui ? Est-on en prsence dune croissance, dune stagnation ou dune diminution, dun retournement ? Lvolution observe est-elle structurelle ou accidentelle ? Le but est encore ici, de dterminer les diffrentes composantes dune srie { }, en particulier, obtenir la srie corrige des variations saisonnires (mthodes de dessaisonalisation). Pour les sries
5

stationnaires, on peut aussi chercher modliser la srie laide dun modle ARMA , par exemple pour faire la prvision ; La prvision : on se base gnralement sur le postulat implicite que linformation concernant le futur est incluse dans les donnes du pass et du prsent ncessitant donc une analyse de cette
5

ARMA= AutoRegressive Moving Average.

65

information. La prvision consiste prvoir les valeurs futures + (= 1, 2,3,) de la srie chronologique partir de ses valeurs observes jusquau temps T : 1 . La prdiction de la srie chronologique au temps t+h est note (h) et, en gnral, est diffrente de la valeur relle + que prend la srie T+h. Pour mesurer cette diffrence, on dfinira lerreur de prdiction par la diffrence (h)+ . En moyenne avec lide que plus h est grand, plus grande est lerreur. Lintervalle de prcision, dfini par les deux val eurs () () est susceptible de contenir la valeur inconnue de + . Il existe encore bien dautres objectifs immdiats ltude des sries chronologiques. Par exemple, si deux sries sont observes, on peut se demand er quelle influence elles exercent lune sur lautre. En notant { } et { } deux sries chronologiques observes, on examine sil existe, par exemple des relations de type = 1 1 + 2 3 . Ici, deux questions interviennent : tout dabord la question de la causalit c..d. quelle variable explique lautre ? Ce qui amne la deuxime question, celle du dcalage temporel : si une influence de { } sur { } existe, avec quel dlai et pendant combien de temps, la variable explicative { } influence-t-elle la variable explique { } ?
1 2

II.4.2. Les composantes dune srie chronologique


Lorsquon souhaite analyser une srie chronologique prsente sous la forme dun tableau de chiffres, il faut tout dabord reprsenter la srie sous la forme dun graphe. Une approche classique consiste essayer de dcomposer la srie tudie en diffrents lments ou composantes. Nous supposerons que toute srie chronologique puisse tre mise sous la forme de la dcomposition (modle classique de dcomposition) :

= + + + O les observations sont modlises comme superposition additive dune tendance

dterministe, un cycle, une saisonnalit (dterministe) et une perturbation alatoire. est appel trend (ou tendance), reprsentant lvolution moyen terme du phnomne tudi. Cette tendance agit comme une forte corrlation entre les variables qui nexprime aucune liaison caractre explicatif. La tendance est soit une fonction dcrite par un nombre fini des paramtres, par exemple une fonction linaire du temps a+bt ou un polynme en t, soit plus gnralement une fonction lisse en temps t ; C t est le cycle. Cest un mouvement lisse, quasi priodique autour de la tendance prsentant des phases de croissance et de rcession.

est appel saisonnalit rsultant dun comportement cyclique dans la srie observe. Ainsi, les grands rythmes naturels tels que le rythme circadien (rotation de la terre en 24 heures), la succession des saisons gouvernent des cycles sociaux (alternance du jour et de la nuit, priodes de vacances, etc.). Viennent sajouter des rythmes purement sociaux tels que le rythme hebdomadaire et sa consquence du repos dominical. est une fonction priodique. Soit d la priode de , on a alors = + pour tout t. On supposera galement que ne contient pas de tendance, en dautres termes toute la tendance est modlise dans , ce quon crira
=1 + =

0.

+ est la composante dterministe du modle ;

est, par opposition, la composante alatoire (ou Irrgulier), suppose de moyenne nulle (par ce quelle reprsente les composante s (erreurs) non systmatiques), mais possdant en gnral une structure de corrlation non nulle. Cest la partie la plus intressante modliser. Sous certaines hypothses, on peut ajuster un modle pour afin de prvoir les valeurs futures de la srie chronologique.

Dans un premier temps, on estimera la composante dterministe du signal. De cette faon, on aura plus qu sintresser la partie ala toire. Ayant envisag dclater la srie originale en 3 composantes ( , , ), on peut sinterroger sur le mode de composition 6. Diverses solutions sont envisageables : On distingue souvent un ajustement additif de type (, )= +

ave = + , et un ajustement multiplicatif, cest--dire (, )= . pour lequel on fait rfrence aux modles de type (G)ARCH 7. Ainsi, dans le cas de la composition additive, on supposera que les 3 composantes reconstituent la srie originale par la formule suivante : = + + et pour une composante multiplicative, la formule sera : = . . Pour comprendre la diffrence entre ces deux mcanismes, on peut considrer les units des diffrentes composantes : dans les deux cas, et sont dans les mmes units, celles de la variable originale, dans le cas additif, et sont galement dans les mmes units ; en revanche, dans le cas multiplicatif, elles deviennent de simples coefficients, sans dimension. Ainsi, dans le premier cas, les variations saisonnires sont des variations absolues, elles
6

Les composantes tendances et cycles sont souvent regroups et on parle alors de la composante tendance-cycle . 7 ARCH= AutoRegressive Conditional Heteroskedasticity, G= Genaralized .

67

sexpriment sous la forme de +5000 $ ou -3000$.

A linverse, dans le cas multiplicatif, les

coefficients sexprimeront sous la forme 1,20 ou 0,95, sans unit, soit, de manire quivalente +20% ou -5%. Pour faire ressortir ces coefficients en pourcentage, on peut galement crire le modle de composition multiplicative sous la forme : = . 1 + . (1 + ) Dans le modle multiplicatif, les variations saisonnires sont proportionnelles au niveau de la srie.

Considrons maintenant la srie du trafic SNCF reprsente ci-dessous, avec en lignes les annes et en colonnes les trimestres : YEAR 1963 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1ST 5130 5110 5080 5310 5320 5486 5629 5682 5963 6270 6472 6892 7505 8139 8088 8983 8829 9009 2ND 6410 6680 6820 6600 6800 6738 6696 7359 6430 7525 7871 8236 9005 9212 9494 9986 10340 10265 3RD 8080 8350 8190 8090 7650 7258 7491 7836 7844 7997 8188 8978 9591 9522 9583 9907 10070 10236 4TH 5900 5910 5990 6020 6110 6111 6494 6583 6692 6853 7207 7561 8608 8816 9204 9457 9669 10458

Cration de la variable temps :

Souvent quand les donnes sont saisies, il y a une variable qui identifie la frquence de la variable temps, celle-ci peut tre lanne, le trimestre, le mois, etc. La premire de chose est de savoir les observations commencent quelle priode ? Supposons que nous savons que les donnes commencent le premier trimestr e de lanne 1990, on crera donc la variable temps pour toutes les observations avec la commande : generate time=q(1990q1)+_n-1 format time %tq tsset 8 time

La commande tsset permet de dclarer une variable comme une srie temporelle.

Pour les donnes annuelles dbutant 2000, on aura : generate time=y(2000)+_n-1 format time %ty tsset time Pour les donnes semetrielles commenant le deuxime semestre de lanne 2000 (2000h2), on aura : generate time=h(2000h2)+_n-1 format time %th tsset time Pour les donnes mensuelles de dbut 2004m7 (juillet 2004), on aura : generate time=m(2004m7)+_n-1 format time %tm tsset time Pour les donnes hebdomadaires d e dbut 1994w1 (premire semaine de lanne 1994), on aura : generate time=m(1994w1)+_n-1 format time %tw tsset time Pour les donnes journalires de dbut 1jan1999, on aura : generate time=d(1jan1999)+_n-1 format time %td tsset time

Une fois que la variable time est cre, on peut donc dans un premier temps visualiser la srie dintrt :

. graph twoway line

sncft_lin time

69

Le trafic sur le sncf


10000 SNCFT_LIN 5000
1963q1

6000

7000

8000

9000

1967q3

1972q1 time

1976q3

1981q1

II.4.2. 1. Estimation de la tendance Mthode des moyennes mobiles

Il est clair quafin de pouvoir estimer la tendance, cest--dire le mouvement dun phnomne observ sur un grand intervalle de temps, il faut disposer dune srie statistique sur une longue priode. Disposant de ces donnes, le premier travail consiste effectuer une reprsentation graphique adquate permettant davoir une vue globale du phnomne tudi. Afin dliminer ou damortir les mouvements cycliques, saisonniers et accidentels, on utilise la technique des moyennes mobiles. On procde en quelque sorte au lissage de la courbe. Le principe de cette mthode est de construire une nouvelle srie obtenue en calculant des moyennes arithmtiques successives de longueur p fixe partir des donnes originales. Chacune de ces moyennes obtenues correspondra au milieu de la priode pour laquelle la moyenne arithmtique vient dtre calcule. Appliquons pour notre srie sncft_lin, les moyennes mobile simples dordres respectifs 3 9 et 5 sous Stata :

. tssmooth ma sm2= sncft_lin, window(1 1 1) The smoother applied was (1/3)*[x(t-1) + 1*x(t) + x(t+1)]; x(t)= sncft_lin

Mme commande avec : egen sm2= ma(sncft_lin), nomiss t(3)

. tssmooth ma sm1= sncft_lin, window(2 1 2) The smoother applied was (1/5)*[x(t-2) + x(t-1) + 1*x(t) + x(t+1) + x(t+2)]; x(t)= sncft_lin

. gr combine Graph3 Graph5, col(1)

Estimation de la tendance par la moyenne mobile d'odre 3 et 5


10458 5080

1963q1

1967q3

1972q1 time

1976q3 SNCFT_LIN

1981q1

ma: x(t)= sncft_lin: window(1 1 1)


10458 5080

1963q1

1967q3

1972q1 time

1976q3 SNCFT_LIN

1981q1

ma: x(t)= sncft_lin: window(2 1 2)

. generate noise2= sncft_lin- sm2 . ac noise2

71

Autocorrelations of sm2

-1.00

-0.50

0.00

0.50

1.00

10

20 Lag

30

40

Bartlett's formula for MA(q) 95% confidence bands

Le graphe montre une vidence significative dAutocorrlation dans la variable noise2 (ceci pour dire que la variable contient toujours la composante saisonnire, en effet : T+S+I-T=S+I).
. list time sncft_lin time 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. . 1963q1 1963q2 1963q3 1963q4 1964q1 1964q2 1964q3 1964q4 1965q1 1965q2 sncft_~n 5130 6410 8080 5900 5110 6680 8350 5910 5080 6820 sm2 sncf3 sm2 5770 6540 6796.667 6363.333 5896.667 6713.333 6980 6446.667 5936.667 6696.667 noise2 in 1/10 sncf3 . 6540 6796.667 6363.333 5896.667 6713.333 6980 6446.667 5936.667 6696.667 noise2 -640 -130 1283.333 -463.3335 -786.6665 -33.3335 1370 -536.6665 -856.6665 123.3335

Mthode dajustement analytique

Si les donnes (brutes ou lisses) sur le graphique se prsentent sous une forme ressemblant une courbe connue (droite, parabole, exponentielle, etc.), on peut essayer de dgager une forme analytique pour cette courbe.

. twoway (line sncft_lin time, lpattern(solid)) (lfit sncft_lin time, atobs) . twoway (line sncft_lin time, lpattern(solid)) (qfit sncft_lin time) . graph combine graph2 graph3

Estimation de la tendance par une droite et une parabole


10458 5080

1963q1

1967q3 SNCFT_LIN

1972q1 time

1976q3 Linear prediction

1981q1

5080

10546

1963q1

1967q3 SNCFT_LIN

1972q1 time

1976q3 Quadratic prediction

1981q1

Le graphique ci-dessus contient une approximation linaire et quadratique ralise automatiquement par Stata. La tendance est estime par la droite de rgression de la forme :
. reg sncft_lin Source Model Residual Total sncft_lin time _cons time SS 107173428 55832619.6 163006047 Coef. 58.7053 4852.901 df 1 70 71 MS 107173428 797608.851 2295859.82 t 11.59 18.48 P>|t| 0.000 0.000 Number of obs F( 1, 70) Prob > F R-squared Adj R-squared Root MSE = = = = = = 72 134.37 0.0000 0.6575 0.6526 893.09

Std. Err. 5.064409 262.5771

[95% Conf. Interval] 48.60466 4329.207 68.80595 5376.594

Lquation de la tendance est donc : = 4852,901 + 58,7053

73

. list

time sncft_lin sncf noise4 in 1/10 time sncft_~n 5130 6410 8080 5900 5110 6680 8350 5910 5080 6820 sncf 5557.365 5616.07 5674.775 5733.48 5792.186 5850.891 5909.596 5968.302 6027.007 6085.712 noise4 -427.3647 793.9302 2405.225 166.5195 -682.186 829.1089 2440.404 -58.30176 -947.0068 734.2876

1. 2. 3. 4. 5. 6. 7. 8. 9. 10.

1963q1 1963q2 1963q3 1963q4 1964q1 1964q2 1964q3 1964q4 1965q1 1965q2

II.4.2. 1. Estimation des mouvements saisonniers Modle additif vs modle multiplicatif ?

Pour effectuer lanalyse des mouvements saisonniers, on essaie dabord de dterminer si on est en prsence dune srie dans laquelle pour une observation Y donne : La variation saisonnire S sajoute simplement la rsultante des autres composantes R, Y=R+S (cest le modle additif) ; La variation saisonnire S est proportionnelle la rsultante des autres composantes R, S=c.R et alors Y=S+R= c.R+R= R(1+c) (cest le modle multiplicatif). On admet en gnral que la somme des coefficients saisonniers est gale au nombre de priodes de la saison pour un modle multiplicatif et gale zro pour un modle additif. La srie sncft_lin admet un modle additif alors que la srie import admet un modle multiplicatif :

. list

time time

seas if seas<. seas -857.02679 397.7333 273.50992 185.78357

69. 70. 71. 72.

1980q1 1980q2 1980q3 1980q4

. list time time 13. 14. 15. 16. 1986q1 1986q2 1986q3 1986q4

seas1 if seas1<. seas1 1.0125961 .99300432 1.0598615 .93453805

Estimation des variations saisonnires

Lestimation de la saisonnalit peut tre dtermine p ar plusieurs mthodes notamment la mthode des rapports la tendance gnrale. La dtermination des coefficients saisonniers par la mthode des rapports la tendance gnrale se fait en 3 tapes :

1. 2.

Dterminer la tendance gnrale laide de lquation = + ; Calculer le rapport la tendance gnrale en divisant les valeurs observes par les valeurs de la tendance gnrale ; Calculer le coefficient saisonnier en faisant la moyenne arithmtique des rapports la tendance gnrale correspondant chaque saison.

3.

Voici lvolution trimestrielle en tonnes des produits imports : Anne 1983 1984 1985 1986 Trimestre 1 34.9 34.9 34.5 26.9 Trimestre 2 37.0 36.9 32.8 23.5 Trimestre 3 39.7 35.5 30.2 24.8 Trimestre 4 33.0 31.5 26.0 20.3

Evolution trimestrielle des produits imports (en tonnes)


40 Import 20 25 30 35

1983q1

1984q1

1985q1 time

1986q1

1987q1

75

Dtermination de la tendance gnrale :

. reg import time Source Model Residual Total import time _cons SS 372.334312 93.6457657 465.980077 Coef. -1.046471 135.5238 df 1 14 15 MS 372.334312 6.68898327 31.0653385 t -7.46 9.70 P>|t| 0.000 0.000 Number of obs F( 1, 14) Prob > F R-squared Adj R-squared Root MSE = = = = = = 16 55.66 0.0000 0.7990 0.7847 2.5863

Std. Err. .1402622 13.97106

[95% Conf. Interval] -1.347303 105.5589 -.7456382 165.4888

. reg import t Source Model Residual Total import t _cons . SS 372.334312 93.6457657 465.980077 Coef. -1.046471 40.295 df 1 14 15 MS 372.334312 6.68898327 31.0653385 t -7.46 29.71 P>|t| 0.000 0.000 Number of obs F( 1, 14) Prob > F R-squared Adj R-squared Root MSE = = = = = = 16 55.66 0.0000 0.7990 0.7847 2.5863

Std. Err. .1402622 1.356271

[95% Conf. Interval] -1.347303 37.38609 -.7456382 43.20391

Lquation de la tendance est donc : = 40.295 1.046471

Calcul des rapports

. predict tend, xb . edit - preserve . gen rap= import/ tend . list time t import tend rap

time 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 1983q1 1983q2 1983q3 1983q4 1984q1 1984q2 1984q3 1984q4 1985q1 1985q2 1985q3 1985q4 1986q1 1986q2 1986q3 1986q4

t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

import 34.9 37 39.7 33 34.9 36.9 35.5 31.5 34.5 32.8 30.2 26 26.9 23.5 24.8 20.3

tend 39.24853 38.20206 37.15559 36.10912 35.06265 34.01618 32.96971 31.92323 30.87676 29.83029 28.78382 27.73735 26.69088 25.64441 24.59794 23.55147

rap .8892053 .9685341 1.06848 .9138966 .9953613 1.084778 1.076746 .9867421 1.117345 1.099553 1.0492 .9373642 1.007835 .916379 1.008214 .8619419

Calcul des coefficients saisonniers.

Anne 1983 1984 1985 1986 Moyenne= Coefficients Saisonniers

Trimestre1 0.889205 0.995361 1.117345 1.007836 1.0025

Trimestre2 0.968534 1.084778 1.099554 0.916379 1.0173

Trimestre3 1.068480 1.076746 1.049201 1.008215 1.0507

Trimestre4 0.913897 0.986742 0.937364 0.861942 0.9250

On peut donc normaliser ces indices avec la commande :


. tssmooth shwinters shwa= import, snt_v(seas1)normalize computing optimal weights Iteration Iteration Iteration Iteration Iteration Iteration Iteration 0: 1: 2: 3: 4: 5: 6: penalized penalized penalized penalized penalized penalized penalized RSS RSS RSS RSS RSS RSS RSS = = = = = = = -55.536263 -54.463995 -54.337033 -54.329794 -54.319735 -54.319624 -54.319622 = = = = = = (not concave)

Optimal weights: alpha beta gamma penalized sum-of-squared residuals sum-of-squared residuals root mean squared error 0.5445 0.2857 0.7493 54.31962 54.31962 1.842546

77

. list time time 13. 14. 15. 16. 1986q1 1986q2 1986q3 1986q4

seas1 if seas1<. seas1 1.0125961 .99300432 1.0598615 .93453805

N.B : Dans le modle multiplicatif, si le coefficient saisonnier = 1 cela veut dire que la saison nexerce aucune influence sur , si > 1 la saison exerce une influence dans le sens de laugmentation de et si < 1, la saison exerce une influence dans le sens de la diminution de .

Mthode de dsaisonalisation :

Llimination de linfluence saisonnire dans les valeurs observes a pour but de faire apparaitre les autres composantes. Il sagit de diviser les valeurs observes par le coefficient saisonnier de la saison correspondante.
. gen import_sa= import/ seas

Voici les donnes dsaisonnalises IMPORT_SA de la srie IMPORT :


. list time time 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 1983q1 1983q2 1983q3 1983q4 1984q1 1984q2 1984q3 1984q4 1985q1 1985q2 1985q3 1985q4 1986q1 1986q2 1986q3 1986q4 import seas import_sa import 34.9 37 39.7 33 34.9 36.9 35.5 31.5 34.5 32.8 30.2 26 26.9 23.5 24.8 20.3 seas 1.0125961 .99300432 1.0598615 .93453805 1.0125961 .99300432 1.0598615 .93453805 1.0125961 .99300432 1.0598615 .93453805 1.0125961 .99300432 1.0598615 .93453805 import~a 34.46587 37.26066 37.45773 35.31157 34.46587 37.15996 33.49494 33.70649 34.07084 33.03107 28.49429 27.82123 26.56538 23.66556 23.39928 21.72196

Donne brute (Import) et donne dsaisonnalise


40 20
1983q1

25

30

35

1984q1

1985q1 time Import

1986q1 import_sa

1987q1

II.4. 3. La prvision
Prvoir, ces t porter un jugement sur les vnements ou volutions possibles venir en utilisant comme outils le pass et le prsent. Pour russir une telle entreprise, quatre conditions sont certaine rgularit dans le fonctionnement du monde est tout d abo rd remplir :(1) une

ncessaire, (2) il faut par ailleurs que cette rgularit fournisse une information sur lavenir, (3) que la mthode choisie pour tablir la prvision capture une part de cette rgularit et (4) enfin quelle exclue au maximum le bruit ou les irrgularits passs. Les deux premires conditions sont de la mthode prvisions sont constitutives du systme conomique, les deux de prvision ou de la thorie toujours entaches d erreur conomique dernires sont fonctions que les choisies. Il en rsulte

et quil est possible d en tablir plusieurs pour

un mme vnement venir (qui constitue lobjet de la prvision). Des outils d analyse doivent donc tre dvelopps afin de comparer et de hirarchiser les prvisions pour discerner ce qui fait quon puisse, ou non, en qualifier certaines de bonnes .

La qualit d une

prvision

est

df inie par

le

critre

d valuation considr. que le

Ainsi, si on soit de autour

sintresse lin flation en RD Congo en 2014, il est probable indiffrent entre une erreur lhypothse centrale. En revanche une prvision le sismologue

prvisionniste

de + 0,1 % et de 0,1 %, i.e. symtrique

qui sattache dterminer la date de la

prochaine ruption de lEtn a accordera une

valeur nettement (infiniment ?) plus g rande

en de de la date d ruption. Il apparat clair que, dans ces deux contextes,

les mthodes choisies se ressentiront des critres retenus pour leur valuation.

79

De manire gnrale, trois qualits sont recherches : lexactitude , la prcision et la certitude, et on privilgiera lune ou lautre selon les cas. Pour supposons est que nous disposions en prcise dans son 2005 nonc, de bien comprendre leur diffrence, si nous deux prvisions de de point (en lin flation en de France en prs une

2006 : une 1,95 0,45 % et laut re 2,0 0,2 %. Laquelle prfrer ? La premire davantage au centime pourcentage contre un dixime pour la seconde. En revanche, cette dernire est nettement plus certaine, confiance lui correspondant est assez troit tout 0,4 %) contre de 0,90 % dans le premier cas. Enfin, si on dcouvre, fin 2006, que lin flation se

car lintervalle de incertitude

monte 1,9 %, la premire prvision est finalement plus proche dans son scnario central de la ralisation. Mais laquelle peut tre lin flation se portera 12,314 de dite la plus exacte ? Ceci dpend du critre considr dire des deux dclarations d environ 2 % . La et du autour lin flation sera et donc de lutilisation faite de cette prvision. Et encore ! Que % en 2006 et manire

premire est trs prcise, i.e. prsentant un fort degr de dtail dans son assertion, certaine (car elle n autorise, premptoire, aucune marge d erreur scnario central), mais trs loigne de la vrit, laut re est moins prcise et certaine, ! Pour mesurer moyenne moyenne lerreur). et hirarchiser lexactitude, les conomistes utilisent souvent de prvision) et lincertitude entourant le scnario le critre

mais de (la

plus proche de la ralisation. Toutes ces dclarations peuvent pourtant tre qualifies d inexactes quadratique d e rreur de prvision (MQEP) qui combine lcart la ralisation d erreur

central (la variance de

II.4. 3. 1. Quelques techniques de prvision sous Stata

(i) La prvision par les techniques de lissage

Le principe fondamental des mthodes de lissage est la simple pondration ou le lissage des observations antrieures dans une srie chronologique en vue de prdire le futur. On utilise les donnes historiques en vue d'obtenir pour la srie une valeur "lisse" qui devient la prvision pour la priode future. Il y a donc, lorsqu'on emploie une technique de lissage, un processus en deux temps. Dans un premier temps, on calcule une certaine forme de valeur lisse pour la base des donnes historiques et, dans le second, on utilise cette valeur comme prvision applicable une certaine priode du futur.

Le lissage par moyennes mobiles Le lissage par moyennes mobiles

Pour liminer la composante alatoire dans une srie, on peut considrer lutilisation dune certaine forme de moyenne des valeurs observes rcentes. Voire la section prcdente pour la description de la mthode.

Les donnes suivantes reprsentent lvolution des ventes mensuelles des maisons (en milliers) dans les Etats du MidWest Amricain de janvier 1994 mai 2001. Voir le fichier Excel sur la prvision pour plus de dtails.

. list newt ventes in 1/10 newt 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 1994m1 1994m2 1994m3 1994m4 1994m5 1994m6 1994m7 1994m8 1994m9 1994m10 ventes 128 135 130 127 125 119 108 112 111 141

newt 85. 86. 87. 88. 89. 2001m1 2001m2 2001m3 2001m4 2001m5

ventes 173 168 192 176 186

On peut utiliser la moyenne mobile simple dordres 3 et 5 respectivement pour faire la prvision des ventes :
. tssmooth ma sm1= ventes, window(1 1 1) The smoother applied was (1/3)*[x(t-1) + 1*x(t) + x(t+1)]; x(t)= ventes . tssmooth ma sm2= ventes, window(2 1 2) The smoother applied was (1/5)*[x(t-2) + x(t-1) + 1*x(t) + x(t+1) + x(t+2)]; x(t)= ventes

. list

newt ventes sm1 sm2 in 85/91 newt ventes 173 168 192 176 186 . . sm1 171.6667 177.6667 178.6667 184.6667 181 186 . sm2 171.2 176.6 179 180.5 184.6667 181 186

85. 86. 87. 88. 89. 90. 91.

2001m1 2001m2 2001m3 2001m4 2001m5 2001m6 2001m7

Nous avons la prvision des ventes pour juin 2001 avec la moyenne mobile dordre 3 de 186 et pour juin 2001 et juillet 2001 avec la moyenne mobile dordre 5 de 181 et 186 respectivement.

81

Le lissage par moyennes mobiles pondres

Cette pondration consiste multiplier chaque valeur de la srie par un coefficient reprsentant le pourcentage dinformation pour lequel cette valeur contribue la dfinition de la moyenne. L a moyenne pour la priode t+1 sera ainsi donne par :

+1 = 0 + 1 1 + 1 2 + + 0 , 1 , , i , ... sont les coefficients de pondration respectifs aux informations Y t, Yt -1,... Yi, ... avec la contrainte que la somme de termes de ces coefficien ts (puisquils reprsentent des pourcentages) soit gale 1.

. tssmooth ma sm3= ventes, weights(1/2 <3> 2/1) The smoother applied was (1/9)*[1*x(t-2) + 2*x(t-1) + 3*x(t) + 2*x(t+1) + 1*x(t+2)]; x(t)= ventes . list newt ventes sm3 in 85/91 newt 85. 86. 87. 88. 89. 90. 91. 2001m1 2001m2 2001m3 2001m4 2001m5 2001m6 2001m7 ventes 173 168 192 176 186 . . sm3 171.5556 176 180.3333 181.5 183.6667 182.6667 186

Selon la mthode de moyenne mobile pondre, la prvision de ventes pour juin 2001 est de 182,6667. Le problme qui se pose en pratique avec cette mthode consiste dterminer la structure des coefficients puisque de cette structure dpend le contenu informationnel de la moyenne. Etant donn quil y a une infinit de combinaisons possibles, il en rsulte une infinit de moyennes possibles, toutes issues de la mme srie chronologique ; do, difficult de stockage et dinterprtation des coefficients de pondration .10

Le lissage exponentiel

10

Ici, nous avons utilis cette structure : +1 = avec 2 = 1, 1 = 2, 0 = 3, 1 = 2, 2 = 1

2 =2

Le lissage exponentiel est une technique de prvision utilise dans le cas dune chronique affecte dune tendance alatoire. Cette technique regroupe lensemble des techniques empiriques qui ont pour caractristiques communes daccorder un poids plus important aux valeurs rcentes de la srie chronologique. On donne ainsi chaque observation un poids dautant plus faible quelle est ancienne et ces poids dcroissent exponentiellement dans le pass.

Le lissage exponentiel simple

Le lissage exponentiel simple (single exponential smoothing) est bas sur lide que les observations rcentes contiennent plus dinformation sur le futur que les anciennes. Par consquent, les observations rcentes devront tre affectes dun poids plus important que les anciennes. +1 = + (1 ) avec 0 1 o Yt = valeur de la srie chronologique la priode t ; Pt
+ 1

= prvision pour la priode t+1; Pt = valeur prdite la priode t ; = coefficient de

pondration appel aussi constante de lissage. Il est gnralement compris entre 0 et 1. Cest la formule gnrale utilise dans le calcul des prvisions par la mthode du lissage exponentiel. Cette formule rduit sensiblement le problme de stockage, tant donn quil nest plus ncessaire de conserver toutes les donnes historiques (comme dans le cas de la moyenne) ou une partie dentre elles (comme dans le cas de la moyenne mobile). Mieux, seules lobservation rcente, la prvision rcente et une valeur de ont besoin dtre stockes. Dans un premier temps, nous fixons la valeur de 0,4 et voulons une prvision pour 3 mois, la commande est donc :

. tssmooth exponential sm2= ventes, parms(.4) forecast(3) exponential coefficient = sum-of-squared residuals = root mean squared error = 0.4000 17638 14.077

83

. list

newt ventes sm2 in 85/93 newt ventes 173 168 192 176 186 . . . . sm2 161.7877 166.2726 166.9636 176.9781 176.5869 180.3521 180.3521 180.3521 180.3521

85. 86. 87. 88. 89. 90. 91. 92. 93.

2001m1 2001m2 2001m3 2001m4 2001m5 2001m6 2001m7 2001m8 2001m9

La prvision de vente pour le mois de juin 2001, sera donc de 180,3521 et la valeur de =0,4 fournit lcart- type de lerreur quadratique moyenne (RMSE, Root Mean Squared Error) de 14,077. Le graphique ci-dessous prsente la srie ventes et la prvision obtenue avec le lissage exponentiel simple (sm2) :

. line sm2 ventes newt, title("Prvision avec lissage exponential simple") ytitle( ventes) xtitle(time)

ventes

100

120

140

160

180

200

Prvision avec lissage exponential simple

1994m1

1996m1

1998m1 time

2000m1 Ventes

2002m1

exp parms(0.4000) = ventes

On peut aussi demander Stata de choisir le paramtre qui minimise le RMSE, dans ce cas la commande sera :

tssmooth exponential sm3= ventes, forecast(3) computing optimal exponential coefficient (0,1) 0.2981 17389.493 13.97811

optimal exponential coefficient = sum-of-squared residuals = root mean squared error =

Le lissage exponentiel double :

Lapplication du lissage exponentiel simple une srie chronologique comportant une loi de tendance donne des rsultats systmatiquement infrieurs la tendance. Une seconde application du procd ces valeurs lisses produit de nouveau des valeurs infrieures la tendance modifie. Le lissage exponentiel double permet dajouter la valeur rsultant du lissage exponentiel simple la diffrence entre elle-mme et le lissage double, puis ajuster pour tenir compte de la tendance. La prvision par lissage exponentiel double est :
= + (1 ) 1

(1)

= + (1 ) 1

(2)

= 2 = 1 ( ) +1 = +

(3)

(4)

(5)

o St est la valeur lisse exponentielle simple la priode t ; St est la valeur doublement lisse de la srie ; est la constante du lissage exponentiel et futur, exprim en nombre de priodes (lhorizon). m est le dcalage de la prvision dans le

. tssmooth dexponential sm4= ventes, forecast(3) computing optimal double-exponential coefficient (0,1) optimal double-exponential coefficient = sum-of-squared residuals = root mean squared error = 0.0863 17970.127 14.209558

85

. list

newt ventes sm4 in 85/93 newt ventes 173 168 192 176 186 . . . . sm4 160.2147 162.4916 163.6075 168.7153 170.3905 173.5572 174.1452 174.7333 175.3214

85. 86. 87. 88. 89. 90. 91. 92. 93.

2001m1 2001m2 2001m3 2001m4 2001m5 2001m6 2001m7 2001m8 2001m9

La prvision de vente pour juin 2001 est de 173,5572 pour un optimal de 0,0863 (c..d. qui minimise le RMSE). Le graphique suivant prsente la srie ventes et la prvision obtenue avec le lissage exponentiel double (sm4) :
. line sm4 ventes > ) xtitle(time)

newt, clwidth(thin) clpattern(solid) title("Prvision par lissage exponential double") ytitle( ventes

ventes

100

120

140

160

180

200

Prvision par lissage exponential double

1994m1

1996m1

1998m1 time

2000m1 Ventes

2002m1

dexpc(0.0863) = ventes

(i)

La mthode de Holt-Winters : La mthode non saisonnire :

Cette technique est applique au cas dune srie avec tendance (ou des volutions de tendance) mais sans saisonnalit. Cette mthode de lissage linaire est semblable, en principe, celle de Brown, sauf quelle ne fait pas intervenir la formule du lissage double. Elle lisse directement les valeurs du trend. La prvision fournie cette mthode est obtenue en utilisant deux constantes de lissage et (0 < , < 1) et les trois quations ci-aprs :

= + 1 (1 + 1 ) = 1 + (1 )1 + = +
avec :

(1) (2) (3)

St = niveau de la tendance dfini comme une moyenne pondre de la dernire observation Y t et de la prvision ralise en temps t

l pour la priode t ; Tt = pente de la tendance en priode t. Elle

est une moyenne pondre de la nouvelle pente (St tendance; m = horizon suppos gal 1.

St

- 1)

et de lancienne pente Tt-1 ; =

constante de lissage correspondant au niveau de la srie; = constante de lissage associe la

Lquation (1) ajuste directement St pour tenir compte de la tendance de la priode prcdente, T t - 1, en lajoutant la dernire valeur lisse, S t - 1. Cet ajustement limine le dcalage et porte S t une base approximative de la valeur des donnes actuelles. La relation (2) actualise le trend qui est exprim ici comme la diffrence entre deux valeurs successives du lissage exponentiel. Ce qui est normal puisque lorsque les donnes prsentent un trend, les nouvelles valeurs pourraient tre plus grandes ou plus faibles que les prcdentes. Cette procdure est identique celle dcrite dans le cas du lissage exp onentiel de Brown o lon a soustrait les valeurs du lissage exponentiel double des valeurs du lissage simple.

87

. tssmooth hwinters hw2= ventes, forecast(3) computing optimal weights Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration 0: 1: 2: 3: 4: 5: 6: 7: 8: 9: 10: penalized penalized penalized penalized penalized penalized penalized penalized penalized penalized penalized RSS RSS RSS RSS RSS RSS RSS RSS RSS RSS RSS = = = = = = = = = = = -24920.496 -18876.235 -18022.971 -17175.178 -17082.509 -17056.059 -17050.057 -17048.765 -17048.571 -17048.555 -17048.555 = = = = = (not concave) (not concave)

Optimal weights: alpha beta penalized sum-of-squared residuals sum-of-squared residuals root mean squared error 0.2304 0.0000 17048.55 17048.55 13.8404

. list

newt ventes newt

hw1 in 85/92 hw1 161.4504 164.6173 165.903 172.4211 173.752 177.0798 177.5863 178.0928

ventes 173 168 192 176 186 . . .

85. 86. 87. 88. 89. 90. 91. 92.

2001m1 2001m2 2001m3 2001m4 2001m5 2001m6 2001m7 2001m8

La prvision de ventes pour les mois de juin, juillet et aout 2001 seront respectivement de 177,0798 ; 177,5863 et 178,0928.

ventes

100

120

140

160

180

200

Prvision par la mthode Holt-Winters avec alpha et beta optimaux

1994m1

1996m1

1998m1 time

2000m1 Ventes

2002m1

hw parms(0.230 0.000) = ventes

(ii)

La mthode saisonnire :

Il sagit dun lissage exponentiel double (LED) de Holt deux paramtres pour la partie non saisonnire et dun lissage exponentiel saisonnier un paramtre de Winters. Cette mthode de lissage exponentiel comporte donc trois paramtres estimer et il existe deux manires de combiner la tendance linaire et la composante saisonnire : par addition (modle additif) et par multiplication (modle multiplicatif). La mthode donne des rsultats identiques ceux du lissage exponentiel double, mais a l'avantage supplmentaire d'incorporer un coefficient saisonnier It, avec une priode de saisonnalit gale L, c'est-dire que It = Tt-L pour tout t (dans la pratique, les estimations de It ne seront toutefois pas priodiques).

Dans

le

modle

multiplicatif,

les

coefficients

saisonniers

vrifient

la

proprit :

I
t 1

o L = priodicit des donnes ou longueur de la saisonnalit (L = 12 en mensuel, L = 4 en trimestriel) dans une anne) et Le principe de la conservation des aires implique pour le modle additif :

I
t 1

89

Reprenons la srie sncft_lin qui comportait une forte saisonnalit et appliquons la mthode de HoltWinters avec saisonnalit :

. tssmooth shwinters shw1= sncft_lin, forecast(4) computing optimal weights Iteration Iteration Iteration Iteration Iteration Iteration 0: 1: 2: 3: 4: 5: penalized penalized penalized penalized penalized penalized RSS RSS RSS RSS RSS RSS = = = = = = -9881503.7 -5895249.4 -5593730.1 -5590269 -5590243.6 -5590243.6 = = = = = = (not concave)

Optimal weights: alpha beta gamma penalized sum-of-squared residuals sum-of-squared residuals root mean squared error 0.1932 0.1208 0.8279 5590244 5590244 278.6436

Pour le modle additif, on aura :


. tssmooth shwinters shwa= sncft_lin, forecast(4) snt_v(seas) normalize additive computing optimal weights Iteration Iteration Iteration Iteration Iteration 0: 1: 2: 3: 4: penalized penalized penalized penalized penalized RSS RSS RSS RSS RSS = = = = = -8326825.3 -5344101.4 -5295149.1 -5294180.7 -5294180.6 = = = = = = (not concave)

Optimal weights: alpha beta gamma penalized sum-of-squared residuals sum-of-squared residuals root mean squared error 0.2070 0.1472 0.7602 5294181 5294182 271.1647

. list

time sncft_lin time sncft_~n 10265 10236 10458 . . . .

shw1 shwa in 70/76 shw1 10568.62 10287.68 9854.668 9332.478 10717.21 10671.89 10694.02 shwa 10523.28 10272.88 9845.903 9357.208 10690.26 10644.32 10634.88

70. 71. 72. 73. 74. 75. 76.

1980q2 1980q3 1980q4 1981q1 1981q2 1981q3 1981q4

Les prvisions pour le troisime trimestre de lanne 1981 seront gales 10671,89 (pour le modle multiplicatif) et 10644,32 (pour le modle additif). Il est clair que le modle est additif tel que lindique la srie seas.

. list

time time

seas if seas<. seas -857.02679 397.7333 273.50992 185.78357

69. 70. 71. 72.

1980q1 1980q2 1980q3 1980q4

91

Rfrences bibliographiques

LEBLOND, S., 2003, Guide dEconomtrie applique pour Matlab , Universit de Montral, 50p. RAKOTOMALALA, R., 2008, Analyse de la corrlation. Etudes des dpendances variables quantitatives, Universit Lumire Lyon 2, Lyon, 89p. HAMILTON, L.C., 2006, Statistics with Stata, Pacific Grove, CA: Thomson Brook/Cole. KAMIANTAKO, A., 2010, p o ly c o p i d u c o u r s d e t h o r ie s e t pr a t iq ue s de p r v is io n , Facult de Sciences Economiques et de Gestion, Universit de Kinshasa, Kinshasa.

TOMBOLA, C., 2012, Economtrie 1 : Rappels et Recueils dexercices, Guide Larq pour tudiant, (Juin 2012), 109p.

81

Annexe
Annexe1
Anne PIB INV 2000 297,1 3,5 2001 290,8 5,2 2002 300,9 9 2003 318,3 12,2 2004 336,5 12,8 2005 366 14,2 2006 386,4 13 2007 410,8 19,5 2008 436,3 23,9 2009 448,2 29,8

Source : Banque Centrale du Congo et Banque mondiale

Annexe 2

Source : Princeton University

83

Annexe 3 Donnes sur lconomie amricaine Anne gdpr consgr invgr unemp gdpcapgr inf producgr

1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002

3.1 2.7 4 2.7 3.6 4.4 4.4 4.2 5 1.5 2.5

2.9 3.4 3.8 3 3.2 3.6 4.7 5.3 5.3 2.5 2.4

5.2 5.7 7.3 5.4 8.4 8.8 10.7 9.1 8.8 3.3 3.8

7.5 6.9 6.1 5.6 5.4 5 4.5 4.2 4 4.4 5

1.9 1.5 3 1.7 2.6 3.4 3.4 3.2 4.2 0.7 1.8

3 3 2.6 2.8 2.9 2.3 1.5 2.2 3.4 2.6 2.2

5.1 1.9 3 3.9 3.4 3.8 6.2 5.8 7.2 4.1 3

Source : US Census

Annexe 4

Les donnes suivantes reprsentent l'volution des ventes mensuelles de maisons (en milliers) dans les tats du MidWest Amricain.

Mois janv-94 fvr-94 mars-94 avr-94 mai-94 juin-94 juil-94 aot-94 sept-94 oct-94 nov-94 dc-94 janv-95 fvr-95 mars-95 avr-95 mai-95 juin-95 juil-95 aot-95 sept-95 oct-95 nov-95 dc-95 janv-96 fvr-96 mars-96 avr-96 mai-96 juin-96

Ventes 128 135 130 127 125 119 108 112 111 141 126 113 107 110 122 128 121 131 134 138 132 131 130 125 146 137 132 128 141 122

85

juil-96 aot-96 sept-96 oct-96 nov-96 dc-96 janv-97 fvr-97 mars-97 avr-97 mai-97 juin-97 juil-97 aot-97 sept-97 oct-97 nov-97 dc-97 janv-98 fvr-98 mars-98 avr-98 mai-98 juin-98 juil-98 aot-98 sept-98 oct-98 nov-98 dc-98 janv-99 fvr-99 mars-99 avr-99 mai-99 juin-99 juil-99 aot-99

133 173 130 117 127 148 148 119 125 134 137 157 152 138 129 133 166 157 166 187 178 151 147 173 160 149 175 159 161 186 152 163 149 169 175 171 171 185

sept-99 oct-99 nov-99 dc-99 janv-00 fvr-00 mars-00 avr-00 mai-00 juin-00 juil-00 aot-00 sept-00 oct-00 nov-00 dc-00 janv-01 fvr-01 mars-01 avr-01 mai-01

158 189 178 148 146 166 168 139 150 148 169 141 163 158 149 174 173 168 192 176 186

87