Vous êtes sur la page 1sur 51

INTRODUCTION AUX

SRIES CHRONOLOGIQUES

AXE MTHODES STATISTIQUES ET APPLICATIONS

O. ROUSTANT

Novembre 2008
Table des matires
TABLE DES MATIERES ..................................................................................................................................... 1

INTRODUCTION .................................................................................................................................................. 3

QUELQUES TECHNIQUES DESCRIPTIVES.................................................................................................. 4


1. UTILISATION D'UNE TRANSFORMATION............................................................................................................. 5
2. ESTIMATION DE LA TENDANCE ET DE LA SAISONNALITE. .................................................................................. 6
2.1. Estimation de la tendance ......................................................................................................................... 6
2.2. Estimation de la saisonnalit..................................................................................................................... 8
3. FILTRAGE DE LA TENDANCE ET DE LA SAISONNALITE. .................................................................................... 12
3.1. Filtrage de la tendance............................................................................................................................ 12
3.2. Filtrage de la saisonnalit....................................................................................................................... 13
3.3. Un deuxime exemple. ............................................................................................................................. 14
PREVISION PAR LES METHODES DE LISSAGE EXPONENTIEL ......................................................... 16
1. LISSAGE EXPONENTIEL SIMPLE (SES POUR SINGLE EXPONENTIAL SMOOTHING).............................................. 16
2. METHODE DE HOLT ......................................................................................................................................... 18
3. METHODES DE HOLT-WINTERS ....................................................................................................................... 18
3.1. Holt-Winters, version multiplicative ....................................................................................................... 18
3.2. Holt-Winters, version additive................................................................................................................. 19
3.3. Exemple ................................................................................................................................................... 19
4. CRITIQUE DES METHODES DE LISSAGE EXPONENTIEL ...................................................................................... 20
CADRE PROBABILISTE. QUELQUES MODELES PROBABILISTES. ................................................... 21
1. NOTIONS GENERALES. ..................................................................................................................................... 21
1.1. Stationnarit. ........................................................................................................................................... 21
1.2. Fonction d'autocovariance. Autocorrlations......................................................................................... 22
1.3. Autocorrlations partielles. ..................................................................................................................... 22
2. MODELES SARIMA. ....................................................................................................................................... 24
2.1. Bruit blanc. .............................................................................................................................................. 24
2.2. Marche au hasard.................................................................................................................................... 24
2.3. Modle autorgressif. .............................................................................................................................. 24
2.4. Modle moyenne mobile. ...................................................................................................................... 26
2.5. Modle mixte ARMA. ............................................................................................................................. 27
2.6. Modles ARMA intgrs : ARIMA et SARIMA................................................................................... 28
METHODOLOGIE DE BOX ET JENKINS..................................................................................................... 29
1. PREPARATION DES DONNEES : STATIONNARISATION. ...................................................................................... 29
2. SELECTION D'UN MODELE................................................................................................................................ 29
2.1. ACF et PACF........................................................................................................................................... 29
2.2. Autres outils de dcision.......................................................................................................................... 32
3. ESTIMATION .................................................................................................................................................... 32
4. VALIDATION.................................................................................................................................................... 33
4.1. Vrifications graphiques ......................................................................................................................... 34
Tests statistiques. ............................................................................................................................................ 35
5. RETOUR SUR LA SERIE 'AIRLINE'. ..................................................................................................................... 37
PREVISION AVEC UN MODELE PROBABILISTE. .................................................................................... 39
1. QU'EST-CE QU'UNE PREVISION ? ...................................................................................................................... 39
2. CALCUL DES PREVISIONS................................................................................................................................. 40
2.1. Calcul explicite. ....................................................................................................................................... 40
2.2. Simulation................................................................................................................................................ 42
2.3. Bootstrap. ................................................................................................................................................ 44
3. OPTIMALITE DES METHODES DE LISSAGE EXPONENTIEL.................................................................................. 44
4. PERFORMANCES EN TERMES DE PREVISION. ANALYSE POST-SAMPLE. ............................................................. 45

1 Ecole Nationale Suprieure des Mines de Saint-Etienne 2008-2009


CONCLUSION. COMPLEMENTS ET EXTENSIONS. ................................................................................. 47
1. ANALYSE SPECTRALE (DOMAINE DES FREQUENCES). ...................................................................................... 47
2. ASPECT VECTORIEL. MODELE VARMA. ........................................................................................................ 47
3. MODELES NON LINEAIRES. .............................................................................................................................. 48
3.1. Modle GARCH....................................................................................................................................... 48
3.2. Autres exemples. ...................................................................................................................................... 48
4. METHODES NON PARAMETRIQUES................................................................................................................... 49
RFRENCES. .................................................................................................................................................... 50

2 Ecole Nationale Suprieure des Mines de Saint-Etienne 2008-2009


Introduction
__________

Une srie chronologique, ou srie temporelle, est une srie d'observations ordonnes
chronologiquement1. Elles se rencontrent naturellement dans une grande varit de domaines.
On peut citer : l'conomie (taux de chmage, PNB ), la finance (cours d'action, taux
d'intrt, ), l'cologie (pollution l'ozone, au CO, ), le transport (avec l'exemple clbre
du trafic arien international), la dmographie

Les objectifs d'tude sont multiples. La prvision est sans doute le but le plus frquent. Il
s'agit de prvoir les valeurs futures d'une variable grce aux valeurs observes dans le prsent
et le pass de cette mme variable ; la problmatique n'est donc pas la mme qu'en rgression
o l'on cherche prvoir le niveau d'une variable (la rponse) en fonction du niveau d'autres
variables (les prdicteurs). Parmi les autres objectifs avous de l'tude des sries temporelles,
figure le problme de l'estimation d'une tendance ; par exemple on peut se demander si une
variation observe du chmage est le fait d'une fluctuation saisonnire, ou bien est le reflet
d'une tendance. Cela ncessite donc le filtrage des variations saisonnires. En finance, c'est en
gnral tout simplement (!) la dynamique2 de la srie qui est au centre des tudes ; la
modlisation d'un cours d'action est quasiment sans intrt sur la prvision mais est essentielle
pour l'valuation (le "pricing") des produits financiers complexes construits sur l'action (on
parle de "produits drivs"). Un autre problme consiste valuer l'impact d'un vnement sur
une variable : comment quantifier l'influence de la ceinture de scurit sur le nombre de tus
sur la route? du changement d'horaire sur la consommation d'nergie ?

L'tude systmatique des sries temporelles remonte la fin du 2me conflit mondial et n'a
cess de s'intensifier depuis (la rvolution informatique a mme donn un srieux coup
d'acclrateur pour tout ce qui relve des applications pratiques3 !). Le nombre de techniques
d'tudes et de modles est maintenant colossal. Ce cours est une modeste introduction
quelques techniques de base reconnues par le monde scientifique et employes par les
praticiens. Il se limite aux sries temporelles univaries (une seule variable) et discrtes (par
opposition au temps continu) ; quelques complments (notamment l'aspect "frquence") et
extensions sont voqus dans le tout dernier chapitre.

1
Par la suite, il s'agira d'une suite de variables alatoires.
2
C'est--dire la faon dont influent les valeurs passes sur le prsent.
3
mais aussi du dveloppement thorique : la croissance fulgurante de la puissance de calcul a ainsi ouvert la
voie l'estimation non paramtrique.

3 Ecole Nationale Suprieure des Mines de Saint-Etienne 2008-2009


Chapitre 1.
Quelques techniques descriptives
__________

Nous allons illustrer quelques techniques descriptives utiles en sries chronologiques sur
quelques exemples. Commenons par la clbre srie du trafic arien international, que nous
dnommerons dsormais 'airline' (source : http://go.to/forecasting/ ).

Table 1. Trafic arien international de janvier 1949 dcembre 1960 (milliers)

1949 1950 1951 1952 1953 1954 1955 1956 1957 1958 1959 1960
Janvier 112 115 145 171 196 204 242 284 315 340 360 417
Fvrier 118 126 150 180 196 188 233 277 301 318 342 391
Mars 132 141 178 193 236 235 267 317 356 362 406 419
Avril 129 135 163 181 235 227 269 313 348 348 396 461
Mai 121 125 172 183 229 234 270 318 355 363 420 472
Juin 135 149 178 218 243 264 315 374 422 435 472 535
Juillet 148 170 199 230 264 302 364 413 465 491 548 622
Aot 148 170 199 242 272 293 347 405 467 505 559 606
Septembre 136 158 184 209 237 259 312 355 404 404 463 508
Octobre 119 133 162 191 211 229 274 306 347 359 407 461
Novembre 104 114 146 172 180 203 237 271 305 310 362 390
Dcembre 118 140 166 194 201 229 278 306 336 337 405 432

La premire tape consiste tracer les donnes, ce qui est fait sur la figure ci-aprs. On peut
dj faire quelques remarques prliminaires :
Augmentation rgulire du trafic ;
Fluctuation saisonnire : augmentation de novembre juillet-aot, avec un creux vers le
mois d'avril, puis diminution jusqu'en novembre.
Les donnes sont de plus en plus disperses.

Cependant certains points mriteraient d'tre claircis ; par exemple :


L'augmentation se fait-elle de faon constante, exponentielle, etc.?
La fluctuation saisonnire est-elle constante au fil du temps ?
Que se passe-t-il, indpendamment de la tendance la hausse et des fluctuations
saisonnires?

Pour faire vite, disons que les deux premires questions reviennent tudier la partie
dterministe de la srie que l'on visualise aisment ; la dernire vise analyser la structure
alatoire - "le bruit" - qui reste une fois que l'on a extrait la partie dterministe. Dans ce
chapitre on tudiera essentiellement la partie dterministe en prparant le terrain pour la partie
alatoire.

4 Ecole Nationale Suprieure des Mines de Saint-Etienne 2008-2009


Figure. Trafic arien international (milliers)

1. Utilisation d'une transformation.


Bien que cela ne soit pas compltement indispensable ici, il est commode de faire subir une
transformation aux donnes dans le but de stabiliser la variance. Aprs quelques essais, la
transformation qui semble la mieux adapte semble tre la fonction logarithme.

Trafic arien international : effet de la transformation logarithme.

5 Ecole Nationale Suprieure des Mines de Saint-Etienne 2008-2009


On constate que la transformation a bien l'effet escompt de rendre la variance peu prs
constante. Le logarithme a galement le mrite d'tre reli une interprtation simple.

xt +1
Interprtation: Notons yt = log( xt ) . Alors pour de petites variations de xt , yt +1 yt
.
xt
Autrement dit, l'accroissement sur la courbe transforme est approximativement le
pourcentage d'accroissement sur la courbe initiale.

Dmonstration: faire un dveloppement limit...

La transformation logarithmique fait partie de la famille des transformations de Box-Cox :


x 1
si > 0
g ( x) =
log x si = 0

qui sont galement frquemment cites. (En dehors du cas =0, il est difficile de donner un
sens ces transformations). On peut citer galement la transformation logistique adapte aux
sries qui varient dans un intervalle constant de temps
g ( x) = log( x /(1 x))
La valeur transforme varie entre - et +.

2. Estimation de la tendance et de la saisonnalit.


Qu'appelle-t-on tendance et saisonnalit ? Il est bien difficile de rpondre et on se limitera
une dfinition approximative : la tendance correspond l'volution au cours du temps
indpendamment de fluctuations saisonnires ; la saisonnalit aux variations saisonnires
"pures". Cependant, tendance et saisonnalit semblent sont souvent lies et il est parfois
difficile de les extraire. Ici cependant, on peut suggrer que la srie, une fois transforme,
rsulte simplement de l'addition de la tendance et de la saisonnalit. Autrement dit, on
propose un modle de dcomposition additive pour yt = log( xt ) :
yt = mt + st + ut
o mt reprsente la tendance, st la saisonnalit et ut un terme alatoire.
Il en rsulte une dcomposition multiplicative pour xt :
xt = M t St U t
Avec M t = exp(mt ) , St = exp( st ) et U t = exp(ut ) .
La transformation logarithme a permis de visualiser la forme d'une dcomposition adquate ;
ceci fait, il est plus naturel (mais pas obligatoire) de travailler directement sur la srie de trafic
arien et de considrer la dcomposition multiplicative. Supposons alors que M t soit connu.
Alors St et U t s'interprtent comme des indices ; St est l'indice saisonnier et U t l'indice
alatoire par lesquels on doit multiplier le niveau actuel de tendance pour obtenir le nombre
de passagers. On peut donc exprimer St et U t en pourcentage.

2.1. Estimation de la tendance


Elle peut se faire par exemple :

6 Ecole Nationale Suprieure des Mines de Saint-Etienne 2008-2009


Soit en imposant une forme paramtre, par exemple ici une fonction affine mt = d .t + e ,
ou de type exponentiel mt = exp(d .t + e) ;
Soit en filtrant la saisonnalit. Ceci peut tre ralis au moyen d'un lissage par moyenne
mobile.

Dfinition : un filtre moyenne mobile (ou MA pour Moving Average) est une application de la
M
forme xt
i .xt +i .
i = m

Les filtres MA centrs les plus simples sont de la forme


h h
1
(2 h +1) MA 2 h MA 1 1 1
xt
xt +i et xt
xt h + xt +i + xt + h

2h + 1 i = h h 2 i = h 2

L'appellation (2h+1) MA fait rfrence la largeur de la fentre utilise pour lisser ; il en est
de mme de l'appellation 2h MA mme si la largeur de la fentre est 2h+1 car ce filtre
s'obtient comme la moyenne des deux filtres "naturels" de taille 2h.

Proprit: Les filtres (2h+1) MA et 2h MA laissent invariants les polynmes de degr 1.

Preuve : laisse en exercice

La largeur de la fentre doit tre choisie en fonction de l'objectif souhait. S'agissant de filtrer
la saisonnalit, il est recommand de choisir la taille de la fentre gale la priodicit. Dans
notre cas, on utilisera le filtre 12 MA. Le rsultat est donn sur la figure ci-dessous, ainsi que
la srie rsiduelle xt / M t .

7 Ecole Nationale Suprieure des Mines de Saint-Etienne 2008-2009


Avant toute chose, remarquons que les lissages utiliss suppriment les valeurs du bord. Ils ne
sont donc pas recommander pour la prvision ! Toutefois, diverses techniques existent pour
pallier ce problme (lissage sur la plus grande fentre possible, prvision des valeurs futures
avant lissage, etc.).
Venons-en aux rsultats eux-mmes. On constate que l'augmentation rgulire du trafic est
entrecoupe semble-t-il - de deux paliers, un correspondant grosso modo l't 1953, l'autre
l'hiver 1958. Il serait intressant ce stade d'avoir des informations supplmentaires pouvant
(peut-tre) expliquer ces paliers.
Si le lissage utilis a bien filtr toute la saisonnalit, alors la srie rsiduelle xt / M t
correspond comme indiqu une srie laquelle on a enlev la tendance : il reste la
saisonnalit "bruite" par un terme alatoire. Malgr ce bruit, certaines caractristiques
semblent apparatre :
D'aot novembre, la dcroissance du trafic semble rgulire ; en revanche, la croissance
du trafic de novembre juillet-aot semble tre perturbe par deux lgers creux en fvrier et
en avril ;
D'autre part, concernant les sries saisonnires (c'est--dire les sries du type St +12 o t
dcrit un mois donn) : celles des mois de juillet-aot semblent indiquer une croissance de la
fluctuation estivale (bien entendu : indpendamment de la tendance haussire) tandis que celle
de mars (2me "pic") semble indiquer une baisse du trafic pour ce mois-ci au cours du temps.

2.2. Estimation de la saisonnalit


Pour estimer la saisonnalit, on va chercher filtrer la composante alatoire encore prsente
(on pourrait galement utiliser d'autres techniques : ajustement d'une courbe priodique,
"moyennage" saisonnier, etc.). Afin de lisser suffisamment mais en vitant de gommer les
creux en fvrier et avril que l'on juge important, on a choisi un filtre 3 MA avec poids [0.2 0.6
0.2]. Le rsultat est montr ci-dessous, ainsi que la srie rsiduelle qui devrait donc pouvoir
s'interprter comme une srie "purement alatoire".

8 Ecole Nationale Suprieure des Mines de Saint-Etienne 2008-2009


9 Ecole Nationale Suprieure des Mines de Saint-Etienne 2008-2009
Avant d'aller plus loin propos de la saisonnalit, on peut constater que le lissage a gomm,
malgr tout, une partie des creux de fvrier et avril. Ceci peut tre vit mais demande un peu
plus de travail. Voir (Makridakis et al.), chapitre "Time Series Decomposition".
D'autre part, la srie rsiduelle semble assez imprvisible, ce qui fait dire que notre tude n'est
pas de trop mauvaise qualit : il ne reste pas de terme de tendance ou de saisonnalit flagrants.

On peut maintenant tudier le comportement des sries saisonnires partir de l'estimation de


la saisonnalit par lissage. On les a reprsentes sur la figure ci-dessous ; le trait horizontal
reprsente la valeur moyenne de chaque srie.

On constate comme suppos que les indices saisonniers de juillet-aot - mais aussi juin ont
tendance augmenter ; d'autre part, ceux de fvrier et mars ont tendance diminuer.

Finalement la dcomposition obtenue pour la srie 'airline' est la suivante :

10 Ecole Nationale Suprieure des Mines de Saint-Etienne 2008-2009


Remarques :
Notons que, bien que donnant les caractristiques essentielles, il s'agit d'une
dcomposition relativement grossire. En effet, on peut vouloir affiner l'estimation de la
tendance une fois que l'on a estim la saisonnalit. Ainsi on peut considrer xt / St pour
obtenir une nouvelle estimation de la tendance M 't . Puis on peut vouloir restimer la
saisonnalit, puisque l'on a une estimation que l'on espre plus fine de la tendance, en
considrant xt / M 't , etc. Bon nombre de logiciels existent sur ce principe, avec plus ou moins
de raffinements (traitements des valeurs aberrantes, utilisation de filtres sophistiqus, etc.). Le
lecteur intress pourra consulter (Makridakis et al.), chapitre "Time Series Decomposition".
Le problme de la perte de valeurs chaque lissage peut-tre rsolu en estimant les
valeurs futures ou passes. Voir aussi (Makridakis et al.), mme chapitre.
Les accros n'auront pas manqu de remarquer que le terme alatoire Ut a bon dos et
autorise toute sorte de "bidouillage" ; cela vient du fait que l'on ne fait aucune hypothse sur la
nature probabiliste de Ut. C'est l'un des mrites de la modlisation probabiliste que de donner
un cadre rigoureux au traitement des sries chronologiques.

11 Ecole Nationale Suprieure des Mines de Saint-Etienne 2008-2009


3. Filtrage de la tendance et de la saisonnalit.
Dans certaines circonstances, il sera utile non pas d'estimer la tendance et la saisonnalit mais
plutt de les filtrer afin d'estimer directement le terme alatoire. La technique prcdente
permet d'estimer ce dernier mais les lissages utiliss ont le mauvais got d'introduire des
artefacts sous forme de corrlations "parasites" (voir TD).

3.1. Filtrage de la tendance


Il est important cette fois de partir de la srie transforme yt = log( xt ) , car les techniques que
l'on va voir correspondent des oprations additives. Au premier regard la tendance semble
tre assez proche d'une droite. Pour l'liminer, l'ide est de driver. Pour les sries
chronologiques, les donnes sont souvent espaces de faon rgulire et l'intervalle de temps
qui les spare est choisie comme unit. Par consquent l'opration de drivation correspond
simplement regarder la diffrence yt +1 yt entre deux valeurs conscutives.

Dfinition: L'oprateur de diffrentiation, not , est yt



yt yt 1 .

Cet oprateur peut s'crire au moyen de l'oprateur retard :

B
Dfinition: L'oprateur retard, not B (pour backward), est yt yt 1 .

On a alors = I B , o I est l'application identique.

Diffrentiant une premire fois, on obtient le rsultat ci-dessous. Comme prvue, la tendance
a t en bonne partie limine ; il reste peut-tre un terme constant. D'autre part, la
transformation n'a pas limin la saisonnalit : on voit de faon vidente des cycles de
longueur 12. On pourrait ensuite diffrencier une 2me fois mais cela n'est pas ncessaire car le
filtrage de la saisonnalit aura la mme consquence.

12 Ecole Nationale Suprieure des Mines de Saint-Etienne 2008-2009


Remarque:
Notons y 't = yt . Il est trs simple de revenir yt partir de y 't . En temps continu, il
t
suffirait d'intgrer et on crirait y (t ) = y (0) + y '(u )du
0

Ici on a la formule analogue yt = y0 + y '0 + y '1 + ... + y 't


On revient donc yt par intgration discrte de y 't avec la condition initiale y0 .

3.2. Filtrage de la saisonnalit.


Une faon simple de filtrer la saisonnalit est de considrer les variations d'une anne
l'autre, ce qui correspond effectuer une diffrentiation saisonnire :

Dfinition. L'oprateur de diffrentiation saisonnire pour une priode s , not s , est


xt
s
xt xt s

On a donc s = I B s , avec B s =
B B ... B .
s fois

Remarque (ordre des diffrentiations).


Sous cette forme, on remarque que et s commutent. L'ordre dans lequel on effectue les
diffrentiations "simple" et saisonnire n'a donc aucune importance.

La diffrentiation saisonnire 12 conduit la srie zt = 12yt = ( I B12 )( I B) yt ,


reprsente ci-dessous. La srie obtenue parat effectivement "alatoire" au sens o il n'y a
pas, de faon vidente, de terme dterministe. Au chapitre 4, on prcisera sa nature alatoire.

13 Ecole Nationale Suprieure des Mines de Saint-Etienne 2008-2009


3.3. Un deuxime exemple.
La table ci-dessous contient les donnes mensuelles de janvier 1961 dcembre 1985 du
nombre de jeunes femmes sans emploi des Etats-Unis entre 16 et 19 ans. Nous dnommerons
cette srie 'unemp' (source : http://go.to/forecasting/ ).

Jan. Fev. Mars Avril Mai Juin Juil. Aot Sep. Oct. Nov. Dec.
1961 375 384 383 326 344 375 419 424 429 399 376 288
1962 360 376 360 381 354 301 333 339 316 352 378 360
1963 388 398 377 383 449 415 429 369 414 462 447 403
1964 409 390 380 438 431 426 348 394 396 451 384 491
1965 466 454 442 475 401 406 385 380 422 397 430 433
1966 421 374 401 451 465 456 469 466 412 427 414 384
1967 328 395 381 360 383 383 403 425 422 414 382 390
1968 320 412 437 421 450 442 450 412 422 372 375 392
1969 356 392 426 442 426 406 392 426 445 464 379 409
1970 497 459 513 549 447 445 432 514 565 557 601 582
1971 587 560 590 556 582 527 585 556 574 556 582 583
1972 644 620 618 623 546 568 595 605 598 592 558 595
1973 549 637 568 605 594 567 545 545 592 576 593 603
1974 631 614 617 546 632 673 732 593 693 730 731 733
1975 802 755 805 751 855 769 800 825 799 802 765 827
1976 760 781 769 766 752 751 761 873 750 758 772 791
1977 813 781 797 802 782 838 756 764 796 781 780 679
1978 748 759 749 756 802 754 792 772 769 731 746 741
1979 712 723 698 746 754 735 722 737 728 773 723 741
1980 738 765 748 707 808 746 773 751 721 731 735 701
1981 762 783 796 803 806 765 781 768 812 854 858 818
1982 856 897 817 872 895 825 922 915 902 908 911 919
1983 861 827 855 867 836 916 828 835 792 771 757 756
1984 712 733 746 728 707 666 636 676 696 654 613 677
1985 705 680 699 650 687 638 670 555 631 676 659 689

Le graphe de la srie est reprsent ci-aprs. Il est bien difficile de dceler une tendance ou un
phnomne cyclique. Nanmoins, on ne peut esprer tudier cette srie sans effectuer de
transformation car il y a un manque de stabilit au niveau des valeurs elle-mme. En
revanche, le problme disparat lorsqu'on s'intresse la srie des variations du nombre de
jeunes femmes sans emploi obtenue par diffrentiation. La diffrentiation a pour but de se
ramener une srie "stationnaire" (la dfinition rigoureuse est donne au chapitre 3).

L'utilisation de transformations est la premire tape de la mthodologie de Box et Jenkins


d'tude des sries temporelles.

14 Ecole Nationale Suprieure des Mines de Saint-Etienne 2008-2009


__________

15 Ecole Nationale Suprieure des Mines de Saint-Etienne 2008-2009


Chapitre 2.
Prvision par les mthodes de lissage exponentiel
__________

Etant donne une srie d'observations x1 , x2 ,..., xN , on s'intresse aux prvisions qu'on peut
donner la date N pour les dates futures. De faon gnrale, la prvision faite une date t
pour l'horizon h, c'est--dire pour la date t+h, sera note x (t , h) .
La mthode de lissage exponentiel simple procde par filtrage de la srie de donnes avec les
particularits suivantes:

le filtre utilis fait intervenir tout le pass (il est donc dcentr gauche, contrairement
ceux employs au chapitre prcdent).
les poids attribus aux observations dcroissent de faon exponentielle en fonction de
l'anciennet de ces observations.

Le lissage exponentiel simple ne s'applique qu'aux sries sans tendance ni saisonnalit. Les
extensions de la mthode - mthodes de Holt et de Holt-Winters permettent de tenir compte
de la prsence d'une tendance et/ou d'une saisonnalit.

1. Lissage exponentiel simple (SES pour Single Exponential Smoothing)

Description
La prvision l'horizon 1 est donne ici par la moyenne des observations passes, avec des
poids dcroissant avec l'anciennet de faon gomtrique:
x ( N ,1) = c0 xN + c1 xN 1 + ...
avec ct +1 = (1 ).ct , 0 < < 1 . Avec la contrainte que la somme des poids fasse 1, on en
dduit la forme des poids comme une fonction exponentielle de l'anciennet:
ct = (1 )t , t = 0,1,...
La prvision l'horizon h est, par dfinition, la mme qu' l'horizon 1:
x ( N , h) = x ( N ,1), h = 1, 2,...

Algorithme itratif
Sous la forme prcdente, l'valuation des prvisions comme une moyenne de toutes les
observations passes peut-tre trs coteuse en temps de calcul. Heureusement on a la
relation:

x ( N ,1) = xN + (1 ) x ( N 1,1)

ce qui permet de calculer les prvisions la date N de proche en proche. Pour initialiser
l'algorithme, on adopte gnralement le choix x (1,1) = x1 .
La formule ci-dessus donne en outre une autre interprtation de la mthode: la prvision la
date N "corrige" la prvision antrieure avec l'observation prsente. Le paramtre rgit
l'importance du prsent dans cette correction; par exemple, pour =0 la prvision est la valeur
la plus ancienne tandis que pour =1, la prvision est donne par l'observation prsente.

16 Ecole Nationale Suprieure des Mines de Saint-Etienne 2008-2009


Choix du paramtre
Le choix de dpend du but recherch. Supposons par exemple que l'objectif soit la prvision
l'horizon 1. Alors il est naturel de minimiser un critre faisant intervenir les erreurs de
prvision l'horizon 1 jusqu' la date N, et ( ) = x (t ,1) xt +1 , t = 2,3,..., N 1 . On choisit
N
2
souvent un critre de moindre carrs f ( ) = et ( ) et la valeur de correspond au
t =2
minimum du critre4.

Cadre d'application
Le lissage exponentiel simple n'est rien d'autre qu'un filtrage local de la srie de donne; rien
n'est prvu pour prendre en compte un terme tendanciel ou un phnomne cyclique, et les
rsultats sont en effet trs dcevants dans ces cas. On se bornera donc l'utiliser lorsque
aucune tendance ou saisonnalit n'est visible.

Exemple
Reprenons la srie 'unemp'. Supposons que l'on ignore les donnes des 6 derniers mois de
l'anne 1985 et que l'on souhaite prvoir au 30 juin 1985 les chiffres du chmage relatif la
catgorie sociale considre pour les 6 derniers mois de l'anne. Ici la srie ne prsente pas de
tendance vidente ni de saisonnalit; on peut donc employer la technique de lissage
exponentiel simple. Ci-dessous, on donne les rsultats obtenus pour 3 valeurs du paramtre .

Prvisions l'horizon 1
Mois Index Valeurs =0.1 =0.5 =0.9
observes
Janvier 1961 1 375
Fvrier 2 384 375.0 375.0 375.0
Mars 3 383 375.9 379.5 383.1
Avril 4 326 376.6 381.3 383.0
.. .. .. .. .. ..
Avril 1985 292 650 712.6 690.0 697.3
Mai 293 687 706.3 670.0 654.7
Juin 294 638 704.4 678.5 683.8
Juillet 295 (670)* 697.8 658.2 642.6
Aot 296 (555)* 697.8 658.2 642.6
Septembre 297 (631)* 697.8 658.2 642.6
Octobre 298 (676)* 697.8 658.2 642.6
Novembre 299 (659)* 697.8 658.2 642.6
Dcembre 300 (689)* 697.8 658.2 642.6

Analyse des erreurs. (Janvier 1961 Juin 1985)


RMSE** 51.06 36.93 39.80

* Donnes inconnues au moment de la prvision.


**Root Mean Square Error : racine carre de la somme des carrs des erreurs.

4
Dans un cadre probabiliste le critre serait choisi, de prfrence, de faon maximiser la vraisemblance.

17 Ecole Nationale Suprieure des Mines de Saint-Etienne 2008-2009


Les prvisions la date t l'horizon 1 sont places la date t+1. Parmi les trois valeurs =
0.1, = 0.5 ou = 0.9, c'est la valeur = 0.5 qui minimise la somme des carrs des erreurs.
sur la priode d'estimation (Janvier 1961 Juin 1985). En fait la valeur optimale de est
0.4931.

2. Mthode de Holt
Il s'agit d'une adaptation du lissage exponentiel simple aux sries prsentant une tendance
mais sans saisonnalit vidente. Elle opre au plan local le lissage simultan du "niveau" de la
srie Lt et de la pente bt de la tendance, au moyen des quations rcursives:

Lt = xt + (1 )( Lt 1 + bt 1 )
bt = ( Lt Lt 1 ) + (1 )bt 1

Lt s'interprte comme une estimation de la tendance la date t, et bt comme une estimation de


la pente. La prvision l'horizon h est dfinie par:

x (t , h) = Lt + hbt

On retrouve le lissage exponentiel simple pour =0, et b1=0. Dans ce cas on a tout simplement
Lt = x (t ,1) .

Initialisation
Le plus simple consiste prendre L1 = x1 et b1 = x2 x1 , mais d'autres techniques peuvent tre
envisages, par exemple une rgression linaire sur les premires valeurs pour donner une
estimation locale de la tendance initiale.

Choix des paramtres


On peut choisir , de faon minimiser, par exemple, un critre de moindres carrs des
erreurs de prvisions et ( , ) = x (t ,1) xt +1 .

3. Mthodes de Holt-Winters
Ce sont les mthodes privilgier parmi les techniques de lissage exponentiel dans le cas de
sries d'observations prsentant la fois un terme de tendance et une saisonnalit. Elles
oprent le lissage simultan de 3 termes correspondant respectivement des estimations
locales du niveau de la srie dsaisonnalise Lt , de la pente de la tendance bt et de la
saisonnalit St . On peut citer au moins deux mthodes dont l'une est adapte aux sries
admettant une dcomposition multiplicative et l'autre correspondant aux dcompositions
additives.

3.1. Holt-Winters, version multiplicative


En notant s la priodicit naturelle de la srie, les quations sont les suivantes:

18 Ecole Nationale Suprieure des Mines de Saint-Etienne 2008-2009


xt
Lt = + (1 )( Lt 1 + bt 1 )
St s
bt = ( Lt Lt 1 ) + (1 )bt 1
xt
St = + (1 ) St s
Lt

La prvision l'horizon h est donne par:

x (t , h) = ( Lt + hbt ) St s + h

Initialisation
L'initialisation de l'algorithme requiert cette fois 3s valeurs: L1 ,..., Ls , b1 ,..., bs , S1 ,..., S s . Il est
naturel de choisir pour t=1,,s :
x + ... + xs
Lt = 1
s
1x x x x
bt = 1+ s 1 + ... + 2 s s
s s s
x
St = t
Lt
mais d'autres choix restent possibles.

Choix des paramtres.


Le choix de , , peut tre fait l encore en minimisant un critre des moindres carrs des
erreurs de prvision et ( , , ) = x (t ,1) xt +1 .

3.2. Holt-Winters, version additive.


Le systme d'quations est donn par:

Lt = ( xt St s ) + (1 )( Lt 1 + bt 1 )
bt = ( Lt Lt 1 ) + (1 )bt 1
St = ( xt Lt ) + (1 ) St s

et la prvision l'horizon h par:

x (t , h) = Lt + hbt + St s + h

Le choix des valeurs initiales et des paramtres se fait de faon tout fait analogue au cas
multiplicatif.

3.3. Exemple
Reprenons la srie 'airline'. Plaons-nous au 31 dcembre 1959 et supposons que l'on ait
prvoir le trafic pour l'anne suivante. D'aprs l'tude descriptive ralise au chapitre 1, c'est
la mthode de Holt-Winters multiplicative qui parat la plus adapte

19 Ecole Nationale Suprieure des Mines de Saint-Etienne 2008-2009


parmi les techniques de lissage exponentiel. L'estimation des paramtres par moindres carrs
donne: =0.319, =0.049, =0.986. Les prvisions obtenues sont montres sur la figure ci-
dessous; on observe qu'elles sont "proches" des valeurs rellement observes - ce qui relve
de la chance; mais surtout elles sont la "suite logique" de ce qui prcde, ce qui est du la
technique utilise.

4. Critique des mthodes de lissage exponentiel


L'avantage des mthodes vues dans ce chapitre pour la prvision, est de fournir une prvision
"bon march" (peu coteuse en moyens) et parfois trs satisfaisante comme dans l'exemple
prcdent.

Les inconvnients les plus flagrants sont de deux ordres. Tout d'abord, rien ne garantit
l'optimalit de la mthode sur une srie de donne : les mthodes de lissage exponentiel sont
parfois loin d'tre les mieux adaptes (encore faut-il s'en apercevoir). D'autre part, elles sont
incapables de fournir des intervalles de prvision, c'est--dire un intervalle contenant la
prvision avec une probabilit donne. Et pour cause, aucun cadre probabiliste n'a t dfini
pour le moment.

Pour pallier ces insuffisances, on est amen raliser des prvisions au moyen de modles
probabilistes. Il est noter que les mthodes de lissage exponentiel correspondent (
l'exception de la version multiplicative de Holt-Winters) des modles probabilistes
particuliers. On peut donc voir les mthodes probabilistes comme des techniques plus
gnrales permettant de justifier l'emploi des mthodes lmentaires et d'en largir le champ
d'application.

__________

20 Ecole Nationale Suprieure des Mines de Saint-Etienne 2008-2009


Chapitre 3.
Cadre probabiliste. Quelques modles probabilistes.
__________

Jusqu' prsent, nous avons regard les donnes sans aucune ambition de modlisation. Si l'on
prend l'image d'un projectile propuls par un canon, notre dmarche se serait limite
observer une forme parabolique de la trajectoire. On aimerait maintenant aller plus loin et
proposer un modle capable de reproduire le "comportement" des donnes de faon analogue
que le modle Newtonien explique la forme de la chute du boulet de canon. Ici cependant la
tache est bien diffrente puisque les donnes ne sont pas dterministes. La dmarche consiste
supposer que les donnes observes x1 ,..., xn forment un extrait d'une trajectoire d'un
processus stochastique ( X t ( ))tZ , donc qu'il existe tel que ( x1 ,..., xn ) = ( X 1 ( ),..., X n ( )) .
L'ambition est alors de proposer, lorsque cela est possible, un modle "plausible" pour le
processus ( X t ) . En fait on ne sait vraiment faire quelque chose que lorsqu'il est possible de
supposer que le processus est stationnaire. Dans ce cas on peut associer deux caractristiques
essentielles au processus, la fonction d'autocorrlation et la fonction d'autocorrlation
partielle. La ncessaire comparaison des autocorrlations estimes partir des donnes avec
celles calcules pour des modles connus sera parfois mme suffisante pour avoir une bonne
ide d'un modle adquat. Cela suppose naturellement d'avoir une connaissance solide des
modles probabilistes les plus courants. Dans ce cours, on se restreint des modles linaires
de type "SARIMA"; leur prsentation fait l'objet de la deuxime partie du chapitre.

1. Notions gnrales.

1.1. Stationnarit.
La connaissance d'un processus quivaut connatre la loi de tout vecteur ( X t +1 ,..., X t + h ) , h
entier. La notion de stationnarit au sens strict, analogue celle de rgime permanent en
physique, est donne par la

Dfinition. ( X t ) est stationnaire au sens strict si et seulement si la loi de ( X t +1 ,..., X t + h )


dpend seulement de h.

Cette notion est parfois trop restrictive et l'on prfre alors la stationnarit au second ordre :

Dfinition. ( X t ) est stationnaire au second ordre ou simplement : stationnaire, si et


seulement si pour tout entier h, EX t + h et cov( X t , X t + h ) ne dpendent que de h.

Notons que ces dfinitions sont quivalentes lorsque ( X t ) est un processus gaussien (c'est--
dire lorsque la loi de tout vecteur ( X t +1 ,..., X t + h ) est gaussienne).

Pour un processus stationnaire, les moments d'ordre 1 et 2, EX t et var( X t ) , sont donc


constants au cours du temps. Toutefois cette proprit n'est pas suffisante. Quitte retrancher
= EX t , on peut toujours se ramener un processus centr. Dans la suite tous les processus

21 Ecole Nationale Suprieure des Mines de Saint-Etienne 2008-2009


sont centrs, et la notion de stationnarit doit tre comprise au sens faible. (En revanche on
ne suppose pas dans ce chapitre que les processus sont gaussiens).

1.2. Fonction d'autocovariance. Autocorrlations.


La connaissance d'un processus centr stationnaire se ramne entirement l'tude de la
fonction d'autocovariance (h) = cov( X t , X t + h ) , ou bien la connaissance de la variance
( h)
2 = (0) = var( X t ) et la fonction d'autocorrlation (h) corr ( X t , X t + h ) = .
(0)
Notons que ces notions n'ont de sens que pour les processus stationnaires.

Les proprits sont semblables pour et . Dans le cas de la fonction d'autocorrlation, on a

Proprits.
(0) = 1
( h) 1 (d'aprs l'ingalit de Cauchy-Schwartz)
( h) = ( h) est une fonction paire.

Interprtation gomtrique.
(h) est le cosinus de l'angle entre X t et X t + h .

Signalons une difficult d'ordre thorique : deux processus stationnaires distincts peuvent
avoir la mme fonction d'autocorrlation. Considrons par exemple :
1
X t = Z t + Z t 1 et Yt = Z t + Z t 1

o est un rel non nul fix, et les v.a. Z t sont i.i.d. Il est facile de voir que les fonctions
d'autocorrlations X et Y sont gales.
D'autre part, sur un plan pratique cette fois, il serait miraculeux de pouvoir identifier un
processus la seule vue de la fonction d'autocorrlation (estime). Heureusement, nous avons
un deuxime outil notre disposition.

1.3. Autocorrlations partielles.


Considrons le processus
X t = 0.8 X t 1 + Z t (*)
o les v.a. Z t sont i.i.d. avec Z t indpendant de X t 1 .
De par la dfinition de ( X t ) , il y a une forte corrlation entre X t et X t 1 ( (1) = 0.8 ), qui se
rpercute entre X t et X t 2 ( (2) = 0.82 = 0.64 ), entre X t et X t 3 ( (3) = 0.83 = 0.512 ),
Pourtant la formule (*) semble indiquer qu'il n'y a pas de corrlation "directe" entre X t et
X t h pour h>1. L'autocorrlation partielle permet en fixant le niveau des variables
intermdiaires, de mesurer cette dpendance.

22 Ecole Nationale Suprieure des Mines de Saint-Etienne 2008-2009


Dfinition. Si ( X t ) est un processus stationnaire, l'autocorrlation partielle d'ordre h, note
(h) , est dfinie par
(h) = corr ( X t + h EL ( X t + h | X t +1 ,..., X t + h 1 ); X t EL ( X t | X t +1 ,..., X t + h 1 ) ) pour h 2
o EL dsigne l'esprance conditionnelle linaire. EL ( | X t +1 ,..., X t + h 1 ) est donc l'oprateur de
projection orthogonale sur l'espace vectoriel engendr par X t +1 ,..., X t + h 1 .
On convient que (0) = 1 et (1) = (1) .

Le coefficient (h) jouit des mmes proprits qu'un coefficient de corrlation ordinaire et
on a :

Interprtation gomtrique.
(h) est le cosinus de l'angle entre X t et X t + h , les projections sur l'orthogonal de l'espace
vectoriel engendr par X t +1 ,..., X t + h 1 .
Xt+1
Exemple pour h = 2. Xt
Xt+2
cos( ) = (2)
cos( ) = (2)


X t +1

Pour le processus (Xt) prcdent, on a EL ( X t + h | X t +1 ,..., X t + h 1 ) = 0.8 X t + h 1 , si bien que pour


h 2, (h) = corr (Z t + h ; X t EL ( X t | X t +1 ,..., X t + h 1 ) ) = 0 . Il n'y a donc pas, comme on s'y
attendait, de corrlation linaire directe entre X t et X t h pour h 2.

Le rsultat suivant donne un autre moyen de calcul de (h) :

Proposition.
Considrons la projection de X t + h sur l'espace vectoriel engendr par X t , X t +1 ,..., X t + h 1 :
EL ( X t + h | X t , X t +1 ,..., X t + h 1 ) = h ,1 X t + h 1 + ... + h ,h 1 X t +1 + h ,h X t
Alors (h) = h ,h .

Le calcul pratique des coefficients (h) est bas sur ce rsultat et utilise astucieusement le
fait que lorsque h augmente la projection sur l'espace augment de la nouvelle variable se
dduit de la projection prcdente. C'est l'algorithme de Durbin-Levinson (voir (Brockwell,
Davis) 5.2.).

23 Ecole Nationale Suprieure des Mines de Saint-Etienne 2008-2009


2. Modles SARIMA.

2.1. Bruit blanc.


C'est le modle le plus simple o l'on suppose qu'il n'y a aucune dpendance temporelle, soit
au sens strict, soit seulement au second ordre, ce qui donne les deux notions :

Dfinitions.
1. ( X t ) est un bruit blanc fort ssi les v.a. Xt sont identiquement distribues et indpendantes.
On note ( X t ) IID (0, 2 ) o 2 est la variance de Xt .
2. (X t ) est un bruit blanc (faible) ssi les v.a. Xt sont identiquement distribues et non
linairement corrles : cov( X t ; X t + h ) = 0 . On note ( X t ) WN (0, 2 ).

Dans le cas de processus gaussiens, les deux notions concident. On parle alors de bruit blanc
gaussien.

Proprits du second ordre.


Un bruit blanc est stationnaire et les autocorrlations (h) et (h) sont nulles ds que h 1.

2.2. Marche au hasard.


Dfinition. ( X t ) est une marche au hasard ssi X t = X t X t 1 est un bruit blanc.

Il s'agit donc d'un processus dont les accroissements sont un bruit blanc. Lorsque ( X t ) est
gaussien, c'est la version discrte du clbre mouvement brownien.

Stationnarit.
Une marche au hasard n'est pas stationnaire car var( X t ) = var( X 0 ) + t var( X 1 X 0 ) .

2.3. Modle autorgressif.


Dfinition. Le modle autorgressif d'ordre p, not AR(p), est donn par
X t = 1 X t 1 + ... + p X t p + Z t
avec (Z t ) WN (0, 2 ).

Par sa forme le modle AR(p) voque le modle de rgression linaire. La diffrence majeure
est que les prdicteurs sont eux-mmes alatoires et (souvent) corrls entre eux. Pour tudier
ses proprits, il est commode de commencer par le cas p = 1.

Cas p=1.
Le processus AR(1) est donc dfini par
X t = X t 1 + Z t (*)
avec (Z t ) WN (0, 2
).

24 Ecole Nationale Suprieure des Mines de Saint-Etienne 2008-2009


Stationnarit. Causalit.
Le cas = 1 correspond la marche au hasard, le processus n'est pas stationnaire.
Pour < 1 , on a de proche en proche la relation
+
X t = j Zt j
j =0

qui dfinit un processus stationnaire.


Pour > 1 , on a de faon analogue une unique solution stationnaire de (*) donne cette
fois par
1 +
X t =
j
Zt + j
j =1

Cette dernire solution n'est toutefois pas envisageable dans la pratique car la valeur du
processus en un instant fait intervenir tous les instants futurs. On dit que le processus n'est pas
causal.

Dfinition. ( X t ) est dit causal par rapport au bruit blanc (Z t ) si on peut l'crire sous la forme
+
X t = j Z t j
j =0

On parle alors de la forme MA() de ( X t ) . En utilisant l'oprateur retard B, elle se prsente


de faon condense :
X t = ( B) Zt
+
o est la srie entire ( z ) = j z j .
j =0

En rsum le processus AR(1) que nous considrerons sera causal, ce qui implique < 1 et
l'criture MA() : X t = ( B) Z t , avec ( z ) = 1 + z + 2 z 2 + ... .

Proprits du second ordre.


On vrifie aisment :
( h) = h pour tout h 0
( h) = 0 pour tout h > 1

Les autocorrlations dcroissent de faon exponentielle tandis que (comme on l'avait dj


remarqu) les autocorrlations partielles sont nulles pour h > 1.

Cas gnral.
Le modle AR(p) peut s'crire sous la forme synthtique
( B) X t = Zt
avec ( z ) = 1 1 z ... p z p .
On a les rsultats suivants :

25 Ecole Nationale Suprieure des Mines de Saint-Etienne 2008-2009


Thorme.
Causalit.
( X t ) est causal si et seulement si les racines de sont l'extrieur du cercle unit z = 1 .
La srie entire ( z ) est alors inversible et ( X t ) admet la forme MA() : X t = ( B) Z t ,
avec ( z ) = 1 ( z ) .
Autocorrlations.
Les coefficients d'autocorrlations vrifient la relation, dite de Yule-Walker,
(h) = 1 (h 1) + ... + p (h p )
D'aprs les rsultats classiques sur les suites rcurrentes linaires, on en dduit que (h)
dcrot exponentiellemment avec h :
]0,1[ et C > 0 tels que pour tout h 0, (h) C h .
Autocorrlations partielles.
On a ( p ) = p et surtout : pour tout h > p, (h) = 0 .

2.4. Modle moyenne mobile.


Dfinition. Le modle moyenne mobile d'ordre q, not MA(q), est dfini par
X t = Z t + 1Z t 1 + ... + q Z t q
avec (Z t ) WN (0, 2 ).

Le terme "MA" vient du fait que que Xt est exprim comme une moyenne mobile de (Z t )
avec les poids 1,1 ,..., q .

Cas q=1.

Stationnarit. Inversibilit.
Le modle MA(1) : X t = Z t + Z t 1 est toujours stationnaire. Cependant il est indispensable
de pouvoir exprimer Zt en fonction de X t , X t 1 ,... ne serait-ce que pour pouvoir calculer
Z1 , Z 2 ,..., Z n en fonction des donnes X 1 , X 2 ,..., X n . Or si < 1 , on peut crire
Z t = X t X t 1 + 2 X t 2 ...
tandis que pour > 1 ,
1 1
Zt =
X t +1 2 X t + 2 + ...

Ce dernier cas est peu recommandable et correspond une situation de non-inversibilit.

Dfinition. ( X t ) est dit inversible par rapport au bruit blanc (Z t ) si on peut crire Zt sous la
forme
+
Zt = j X t j
j =0

On parle alors de la forme AR() de ( X t ) .

26 Ecole Nationale Suprieure des Mines de Saint-Etienne 2008-2009


On s'intressera uniquement aux processus inversibles dans la suite pour la raison voque
plus haut. Pour un MA(1), la condition d'inversibilit est simplement < 1 .

Proprits du second ordre.


Il est ais de vrifier que (1) = et (h) = 0 pour h > 1.
Les autocorrlations partielles sont plus difficiles obtenir ; on montre que pour tout h
( ) h .(1 2 )
( h) =
1 2( h +1)
En particulier (h) dcrot exponentiellemment avec h.

Remarque.
On n'aura pas manqu d'observer la "dualit" entre un modle autorgressif et un modle
moyenne mobile, entre causalit et inversibilit, proprits de (resp. ) pour le modle AR
et les celles de (resp. ) pour le modle MA. Cependant on ne peut pas parler de symtrie
car dans les deux cas la proprit de bruit blanc est porte par (Z t ) .

Cas gnral.
Ecrivons le modle MA(q) sous la forme
X t = ( B ) Z t
q
avec ( z ) = 1 + 1 z + ... + q z .
On a les rsultats suivants:

Thorme.
Stationnarit, inversibilit.
( X t ) est toujours stationnaire, et inversible si et seulement si a toutes ses racines
l'extrieur du cercle unit.
Autocorrlations.
On a (h) = 0 si h > q. En outre, la rciproque est vraie : si ( X t ) est un processus
stationnaire avec les coefficients d'autocorrlations nuls au-del de l'ordre q (et non nul en q),
alors ( X t ) suit le modle MA(q).
Autocorrlations partielles.
Il n'y a pas de rsultat particulier.

2.5. Modle mixte ARMA.


Le modle ARMA(p,q) est form de "l'assemblage" du modle AR(p) et du modle MA(q). Il
est dfini par
( B ) X t = ( B ) Z t
avec ( z ) = 1 1 z ... p z p et ( z ) = 1 + 1 z + ... + q z q .
On se limite au cas o les polynmes et n'ont pas de zros communs (le cas gnral peut
tre trait au prix d'une plus grande complexit; en pratique, il ne se prsente pour ainsi dire
pas).

27 Ecole Nationale Suprieure des Mines de Saint-Etienne 2008-2009


Causalit, inversibilit.
On requiert la causalit et l'inversibilit pour ( X t ) . La condition est la runion des conditions
des modles AR et MA savoir que et ont leurs racines l'extrieur du cercle unit.

Proprits au second ordre.


Il n'y a pas de formule explicite simple donnant (h) ou (h) . Signalons cependant que la
relation de Yule-Walker
(h) = 1 (h 1) + ... + p (h p )
est valable pour h > q. En particulier (h) dcrot de faon exponentielle.

2.6. Modles ARMA intgrs : ARIMA et SARIMA.


Comme on l'a observ au cours du chapitre 1, les sries temporelles "brutes" sont rarement
stationnaires et l'on peut parfois "stationnariser" en effectuant des diffrentiations
convenables. Les modles ARIMA et SARIMA sont conus en ce sens; les processus de type
ARIMA sont adapts des sries sans saisonnalit; ceux du type SARIMA peuvent s'utiliser
pour les sries les plus gnrales

Dfinition.
1. ( X t ) suit le modle ARIMA(p,d,q) lorsque la srie diffrencie Yt = ( I B) d X t suit le
modle ARMA(p,q). On a donc formellement
( I B ) d ( B ) X t = ( B ) Z t
o et sont deux polynmes unitaires de degr respectif p et q, et (Z t ) WN (0, 2 ).

2. (X t ) suit le modle SARIMA(p,d,q)(P,D,Q)s lorsque la srie diffrencie


D
Yt = d s X t = ( I B) d ( I B s ) D X t suit un modle ARMA "saisonnier" du type
s ( B s ) ( B)Yt = s ( B s )( B) Z t
o s, , s, sont des polynmes unitaires de degr respectif P, p, Q, q et
(Zt ) WN (0, 2 ). Le modle s'crit
( I B s ) D s ( B s ) ( I B ) d ( B ) X t = s ( B s ) ( B ) Z t

AR(P) AR(p) MA(q)


saisonnier
diffrence MA(Q)
saisonnire diffrence saisonnier

Les proprits du modle gnral SARIMA se dduisent de celles du processus ARMA. Il est
bien sr non stationnaire sauf (peut-tre) si d = D = 0.

__________

28 Ecole Nationale Suprieure des Mines de Saint-Etienne 2008-2009


Chapitre 4.
Mthodologie de Box et Jenkins
__________

Etant donne une srie d'observations, une question essentielle dans l'approche probabiliste
est le choix d'un modle le mieux adapt. Box et Jenkins ont propos au cours des annes
1970 une dmarche systmatique permettant d'aboutir, si c'est possible, au choix d'un modle
de type (S)ARIMA.
Elle repose sur plusieurs tapes qui sont dtailles sur la srie 'unemp'. La srie du trafic
arien est tudie ensuite.

1. Prparation des donnes : stationnarisation.


La premire tape consiste se ramener une srie stationnaire. Elle se dcompose en deux
phases5 :

utilisation d'une transformation;


diffrentiation (simple et/ou saisonnire).

Pour la srie 'airline', on a utilis la transformation logarithmique suivie d'une diffrentiation


simple et d'une diffrentiation saisonnire. Pour la srie "unemp", une diffrentiation simple a
suffi. Il est important d'utiliser les transformations bon escient; dans les exemples
prcdents, chacune correspondait la rsolution d'une difficult (prsence d'une tendance,
d'un terme saisonnier, etc.). La sur-diffrentiation est viter ainsi que la sous-diffrentiation.
Un mauvais usage des diffrentiations sera repr, en principe, dans la dernire tape de
validation.

2. Slection d'un modle.


Il s'agit de choisir pour les donnes transformes y1 ,..., yn un modle de type ARMA(p,q) ou
de type saisonnier SARIMA(p,0,q)(P,0,Q). L'examen des autocorrlations empiriques
"totales" (ACF) ou partielles (PACF) permet souvent lui seul de slectionner un bon
candidat.

2.1. ACF et PACF.


On se rappelle qu'un processus MA(q) est caractris par le fait que ses autocorrlations
thoriques (k ) sont nulles pour k > q ; par ailleurs les autocorrlations partielles (k ) d'un
processus AR(p) sont nulles pour k > p . On peut donc esprer reconnatre au moins les
processus autorgressif ou moyenne mobile purs. Cependant, on doit se contenter
d'estimations de (k ) et (k ) (puisque les processus sont inconnus), (k ) , (k ) . La
slection s'effectue en examinant les corrlations significatives.

Les estimateurs usuels de (k ) et (k ) sont naturels compte-tenu de leur dfinition. Pour le


coefficient d'autocorrlation d'ordre k, on utilise :

5
Notons que les techniques de dcompositions ne font pas partie, stricto sensu, de la dmarche de Box et
Jenkins. En fait lorsqu'une dcomposition a t ralise, il est souvent possible d'obtenir un rsultat analogue par
le biais de transformations et de diffrentiations (comme dans le cas du trafic arien).

29 Ecole Nationale Suprieure des Mines de Saint-Etienne 2008-2009


nh

(Y Y )(Y
t t +h Y )
(k ) = t =1
n
2
(Y Y )
t =1
t

Le coefficient d'autocorrlation partielle empirique (k ) s'obtient par exemple comme


l'estimation k ,k du coefficient de yt k , k ,k , dans la rgression linaire de yt sur yt 1 ,..., yt k :
yt = k ,1 yt 1 + k ,2 yt 2 + ... + k ,k yt k + et
Les autocorrlations empiriques "compltes" ou partielles sont donnes par les logiciels de
statistique.

Mme lorsqu'un coefficient d'autocorrlation thorique est nul, le coefficient estim


correspondant est non nul et l'on a recours des tests statistiques permettant de dcider si la
valeur obtenue est significative ou non. On ne dtaillera pas ici les proprits statistiques
sous-jacentes des estimateurs (k ) et (k ) 6. Disons simplement que celles-ci dpendent du
processus ARMA mais dans la pratique, on considre qu'une valeur l'intrieur des bornes
1.96n 1/ 2 n'est pas significative quel que soit le modle. L'interprtation est la suivante : k
tant fix, sous l'hypothse de nullit de (k ) ( (k ) ), la probabilit que (k ) ( (k ) ) soit
l'intrieur des bornes est approximativement de 95%.

Ci-dessous figurent ACF et PACF pour la srie "unemp", avec les bandes7 de confiance
1.96n 1/ 2 .

6
Les lecteurs intresss pourront regarder (Brockwell, Davis), thormes 7.2.2. et 8.1.2.
7
Le terme est trompeur car l'interprtation se fait coefficient par coefficient.

30 Ecole Nationale Suprieure des Mines de Saint-Etienne 2008-2009


Avant d'analyser les rsultats, remarquons que l'on a reprsent seulement les 20 premiers
coefficients estims. En effet, il faut tre conscient que lorsque h devient grand, l'estimation
(h) (par exemple) devient de plus en plus mauvaise car elle utilise de moins en moins de
donnes (dans le cas extrme o h = n, l'autocorrlation d'ordre n est estime seulement avec
la premire et la dernire donne !). En rgle gnrale, on prfre se limiter h < n / 5 .
On observe que les autocorrlations empiriques ne sont pas significatives partir du rang 2 (
l'exception de cas isols autour du rang 15), tandis que les autocorrlations partielles
empiriques dcroissent trs rapidement. Cela voque donc un processus MA(1). Le fait
d'observer des dfauts autour du rang 15 n'est pas rdhibitoire: des donnes issues d'un
vritable processus MA(1) peuvent donner des ACF et PACF tout fait semblables; c'est le
nombre relativement peu lev de donnes qui explique principalement la qualit mdiocre
des estimateurs.

Le pige
Il est crucial d'avoir une srie stationnaire pour pouvoir tirer des enseignements des
graphiques prcdents. Considrons par exemple le modle form d'une composante
saisonnire bruite:
X t = sin(2 t / 30) + 0.5Z t (*)
o Zt est un bruit blanc N(0,1). Il est clair que les autocorrlations thoriques sont nulles
partir du rang 1 car le processus (*) ne diffre d'un bruit blanc qu'au travers d'une partie
dterministe. Pourtant voici ce que donne ACF et PACF pour une srie de 500 valeurs
simules partir de (*) :

Il ne faut surtout pas conclure qu'il y a de fortes corrlations ! En fait l'estimation des
autocorrlations est brouille par la composante dterministe. Le graphique ci-dessus
nous montre la prsence d'une saisonnalit mais est inutilisable pour examiner les
corrlations au sens probabiliste. En gnral le fait que les corrlations ne tendent pas
rapidement vers zro est un signe de non-stationnarit8.

8
Mais la srie correspondante peut trs bien tre associe un modle ARMA

31 Ecole Nationale Suprieure des Mines de Saint-Etienne 2008-2009


2.2. Autres outils de dcision.
Il se peut que l'ACF et la PACF ne soient pas aussi simples que dans l'exemple prcdent ou
que l'on hsite entre plusieurs modles. Dans ce cas, on peut avoir recours l'un des outils
suivants.

Utilisation d'un critre.


Diffrents critres sont fournis par les logiciels de statistique : AIC (Aikaike's Information
Criterion), SBC (Schwarz Bayesian Criterion) Ils sont bass sur la notion de vraisemblance.
En principe le modle pour lequel le critre a la plus faible valeur est le mieux adapt.
Cependant le critre AIC favorise les modle sur-paramtrs; il est donc utiliser avec
prcaution. On lui prfrera le critre SBC qui a de meilleures proprits. De faon gnrale
cependant, il vaut mieux viter d'employer un quelconque critre "en aveugle"; il s'agit plutt
d'un outil complmentaire de slection.

Analyse des rsultats d'estimation.


Si un ARMA(p,q) est slectionn, il est vident qu'un ARMA(p',q') avec p' p et q' q fera
aussi l'affaire. Cependant il est prfrable de conserver le modle avec le moins de
paramtres. La raison essentielle est que les paramtres supplmentaires sont souvent trs
mal estims (voir un exemple dans la section suivante). A cette fin, la table regroupant les
rsultats d'estimation (voir ci-aprs) est d'une grande utilit.

3. Estimation
Nous considrons ici le cas d'un ARMA(p,q) , ( B)Yt = ( B) Z t avec Z t N (0, 2 ), mais
des rsultats analogues existent pour les modles du type SARIMA.
Notons = (1 ,..., p ,1 ,..., q ) le vecteur des paramtres. L'estimation de est un problme
assez dlicat, mais qui est trait par les logiciels de statistique usuels. Parmi les techniques
employes, citons la plus sduisante pour l'esprit qui est celle du maximum de vraisemblance.
On estime par la valeur la plus vraisemblable, c'est--dire celle qui donne la plus grande
densit de probabilit :
= Arg max L( y1 ,..., yn ; )

o L(Y1 ,..., Yn ; ) est la densit de probabilit du vecteur alatoire (Y1 ,..., Yn ) . Les proprits
asymptotiques9 sont donnes dans le :

Thorme.
Soit ( B)Yt = ( B) Z t un modle ARMA(p,q) causal et inversible, tel que et n'ont pas de
zros communs. Alors si (Zt) est un bruit blanc gaussien N (0, 2 ) ,
(i) n N (0, V ( ) )
( ) n +

o V() est une matrice de taille (p+q)(p+q) connue.


i
(ii) n i est approximativement N(0,1)
vii ( )
o v ( ) est le coefficient (i,i) de V ( ) .
ii

9
Les proprits asymptotiques sont identiques pour l'estimateur des moindres carrs.

32 Ecole Nationale Suprieure des Mines de Saint-Etienne 2008-2009


Les logiciels fournissent la matrice de variance-covariance de , qui est donc
approximativement gale (pour n "grand") V ( ) / n . On peut alors, de faon analogue ce
qui est fait en rgression linaire, prsenter les rsultats dans des tables de la forme suivante :

Paramtre Estimation Ecart-type Ratio p-valeur


i i ,obs v P =0 { > }
ii n i ,obs i
i i , obs

n vii

On les interprte de la faon suivante:


la seconde colonne contient une estimation de chaque coefficient;
l'cart-type reprsente l'cart-type d'estimation approximatif;
la colonne ratio est le rapport entre les 2 colonnes prcdentes; sous l'hypothse H0 :
" i = 0 ", ce rapport est approximativement de loi N(0,1);
la colonne p-valeur contient la probabilit sous H0 pour une loi N(0,1) de dpasser en
valeur absolue le ratio calcul prcdemment (autrement dit d'obtenir une plus mauvaise
statistique).

Pour la srie diffrencie obtenue partir de "unemp", on a slectionn un modle de type


MA(1) : Yt = Z t + 1Z t 1 . Les rsultats de l'estimation sont montrs ci-dessous. On constate
que le paramtre estim est trs significatif.

Paramtre Estimation Ecart-type Ratio p-valeur


1 -0.5070 0.0519 -9.7676 0.0000

Bien que ACF et PACF ne le suggrent pas, on pourrait tre tenter d'essayer un modle plus
riche de type MA(2) : Yt = Z t + 1Z t 1 + 2 Z t 2 . On obtient alors :

Paramtre Estimation Ecart-type Ratio p-valeur


1 -0.5032 0.0594 -8.4644 0.0000
2 -0.0106 0.0592 -0.1785 0.8584

La valeur estime pour 1 n'a quasiment pas chang (ce qui est rassurant!) et toujours trs
significative; en revanche, l'estimation obtenue pour 2 est entache d'une erreur plus de 5
fois suprieure et n'est donc pas significative. On n'a donc pas intrt rajouter un deuxime
paramtre.

Enfin l'estimation ne serait pas complte sans l'estimation de la variance du bruit. On obtient
Z =37.45.

4. Validation.
Tous les rsultats d'estimation obtenus prcdemment, toutes les prvisions que l'on pourra
faire, etc. dpendent de faon cruciale du fait que les rsidus forment un bruit blanc gaussien.
Il est donc capital d'accorder un soin particulier la vrification de cette hypothse.

Les vrifications vont porter non pas sur les rsidus thoriques mais sur les rsidus estims ce
qui peut modifier les conclusions parfois de faon importante. D'autre part, l'indicateur usuel

33 Ecole Nationale Suprieure des Mines de Saint-Etienne 2008-2009


de dpendance - le coefficient de corrlation - mesure la corrlation linaire et peut faire
manquer des dpendances importantes. C'est pourquoi les tests d'indpendance seront raliss
la fois sur les rsidus et sur les carrs des rsidus10.

4.1. Vrifications graphiques


Pour un bruit blanc, les coefficients de corrlation sont nuls partir du rang 1. Il est donc
naturel de tracer ACF et PACF pour les rsidus et leurs carrs avec les bandes de signification
1.96n 1/ 2 . Pour le modle MA(1), Yt = Z t + 1Z t 1 o Z t N (0, 2 ) , avec 1 = 0.5070 et
= 37.45 , et les rsidus estims correspondants, on obtient les graphiques ci-dessous.

Rsidus

Carrs des rsidus

Les rsultats sont plutt encourageants. toutefois, il faut savoir que travaillant avec des
rsidus estims les bandes de confiance pour les coefficients de corrlation des rsidus

10
Il est clair en effet que si les rsidus sont indpendants, leurs carrs le sont galement.

34 Ecole Nationale Suprieure des Mines de Saint-Etienne 2008-2009


estims sont trop larges pour de petits dcalages11 (h 10 en pratique). On doit donc utiliser
les conclusions avec prudence : ces graphiques servent surtout invalider le modle.

Avant de passer des tests plus rigoureux, on peut galement contrler visuellement la
normalit des rsidus en traant la droite de Henri. On constate ici que les quantiles
exprimentaux sont parfaitement aligns12.

4.2. Tests statistiques.


L'utilisation des tests va permettre de dcider de manire plus objective si le modle est valide
ou non. Notons qu'il est prfrable de faire les tests d'indpendance avant le test d'adquation
la loi normale, car ce dernier concerne les chantillons13.

Tests de Portmanteau.
Notons ( Z (h) ) la fonction d'autocorrlation empirique des rsidus estims Zt .
Le trac de l'ACF des rsidus vise vrifier que chaque coefficient Z (h) est, de faon
individuelle, l'intrieur de la bande de confiance. Les tests de Portmanteau sont bass sur
une statistique faisant intervenir collectivement les premires autocorrlations. L'hypothse
H0 est : " Z1 ,..., Z n sont indpendantes et identiquement distribues". On se contentera de
prsenter le test de Ljung-Box, dont la statistique est :
2
n
( j )
QZ = n(n + 2) Z
j =1 n j

Intuitivement une valeur leve de QZ signifie qu'il y a parmi les h premires autocorrlations
des valeurs significatives et va pousser au rejet de H0. Pour les carrs des rsidus on considre
de faon analogue la statistique :
11
Voir (Brocwell, Davis) 9.4.
12
Un tel alignement est plutt exceptionnel!
13
Donnes issues de v.a. indpendantes.

35 Ecole Nationale Suprieure des Mines de Saint-Etienne 2008-2009


2
ZZ ( j )
n
QZZ = n(n + 2)
j =1 n j
2
o ( ZZ (h) ) est la fonction d'autocorrlation empirique des carrs des rsidus estims :
nh

(Z )(Z )
2 2
t Z2 t +h Z2
2
ZZ (h) = t =1
n 2
(Z )
2
t Z2
t =1
n
1
Zt . On a alors le rsultat suivant, relatif un modle ARMA(p,q) sous des
2
avec Z 2 =
n t =1
hypothses que l'on supposera vrifies.

Thorme.
Si les variables alatoires Z1 ,..., Z n sont i.i.d., alors
(i) QZ est approximativement de loi 2 (h ( p + q ))
(ii) QZZ est approximativement de loi 2 (h)

Le choix de h est laiss l'utilisateur. On peut choisir plusieurs valeurs de h infrieures n


(ce seuil intervient dans les hypothses du thorme).

Test de Kendall
Il est bon d'effectuer un test d'indpendance qui ne fasse pas intervenir le coefficient de
corrlation linaire. Le test de Kendall en est un. L'hypothse H0 est inchange (cependant on
applique le test aux rsidus estims). La statistique T du test est le nombre de
"retournements", ou changements de pente, de la srie de donnes z1 ,..., zn . Un retournement
dsigne une configuration de trois nombres a, b, c avec a<b et b>c ou a>b et b<c. On a alors :

Thorme.
Si les variables alatoires Z1 ,..., Z n sont i.i.d., alors T est asymptotiquement normale
(
N T , T
2
) avec T
2
= 2(n 2) / 3 et T = (16n 29) / 90 .

La rgle de dcision est cette fois bilatrale. Un trop grand nombre de retournements indique
des variations trop frquentes pour un bruit blanc (corrlation ngative); l'inverse trop peu
de changements de pente indique une rgularit suspecte (corrlation positive).

Test de Kolmogorov
On renvoie le lecteur au cours de 1re anne o ce test est prsent en dtail.

On peut maintenant prsenter le rsultat des tests sur la srie tudie.

Rsidus Carrs des rsidus


Test Largeur Statistique p-valeur Statistique p-valeur
Ljung-Box 4 1.9767 0.5772 2.4591 0.6520

36 Ecole Nationale Suprieure des Mines de Saint-Etienne 2008-2009


8 6.1874 0.5180 4.2703 0.8319
12 8.8336 0.6372 5.9859 0.9168
16 19.0694 0.2106 10.8931 0.8160
Kendall 0.8906
Kolmogorov 0.0374

Les p-valeurs pour les tests d'indpendance sont satisfaisantes. La statistique de Kolmogorov
Dn est fournie. Au niveau 5%, on rejette l'hypothse de normalit si ( n + 0.85 / n 0.01) Dn
est suprieur 0.895. Le membre de gauche est valu 0.64 ce qui est acceptable.

En conclusion, on valide le modle MA(1) pour la srie diffrencie. Pour la srie initiale du
nombre de jeunes femmes sans emploi aux Etats-Unis, on peut donc proposer le modle
ARIMA(0,1,1) :

X t = X t 1 + Z t 0.51Z t 1 avec Z t WN (0,37.452 )

5. Retour sur la srie 'airline'.


Que donne la mthodologie de Box et Jenkins sur cette srie ? La premire tape a t
effectue lors du chapitre 1 o l'on s'est ramen une srie stationnaire (Zt) avec
Z t = 12 X t . La slection d'un modle probabiliste pour cette (Zt) est plus dlicate. ACF et
PACF sont reprsents ci-dessous jusqu'au rang h = 36.

On remarque tout d'abord que parmi les premires autocorrlations, seule la premire est

"clairement" significative, ce qui voque un processus de type MA(1). Cependant, il y a des


corrlations importantes au rang 12. Si l'on se souvient qu'il y a une saisonnalit annuelle

37 Ecole Nationale Suprieure des Mines de Saint-Etienne 2008-2009


marque, cette corrlation a trait aux sries saisonnires. Si l'on regarde donc les
autocorrlations de 12 en 12, on remarque que seule la premire est significative, ce qui
voque un processus MA(1). Tout ceci invite proposer un modle du type
SARIMA(0,0,1)(0,0,1)12 pour (Zt) :
Z t = ( I + 1 B)( I + 1 B12 )U t
Une autre faon de raisonner est de considrer le modle MA(1) pour Zt , Z t = (1 + B)Vt puis
d'analyser les autocorrlations empiriques de V : il y a des valeurs significatives
t

essentiellement au rang 12 ce qui voque le modle MA(1) saisonnier Vt = U t + U t 12 .


L'estimation des paramtres est laisse un logiciel de statistique. On ne dtaillera pas non
plus la partie validation qui ne pose pas de problme particulier. Finalement, le modle obtenu
- de type SARIMA(0,1,1)(0,1,1)12 pour le logarithme des donnes - est donn par :

( I B)( I B12 ) log X t = ( I 0.40 B)( I 0.53B12 )U t avec U t WN (0, 0.037 2 )

Corrlogrammes de Vt

__________

38 Ecole Nationale Suprieure des Mines de Saint-Etienne 2008-2009


Chapitre 5.
Prvision avec un modle probabiliste.
__________

Dans le cadre probabiliste fix au chapitre 3, les donnes x1 , x2 ,..., xN sont vues comme une
ralisation particulire d'un processus alatoire ( X t )t . A l'issue des chapitres 3 et 4 on
suppose qu'on connat la loi du processus, donc la loi de tout vecteur ( X t +1 ,..., X t + h ) . Dans ce
contexte, quoi correspond la notion de prvision ? Comment la calcule-t-on ?

1. Qu'est-ce qu'une prvision ?


Plaons-nous la date t., et notons t l'information connue cette date. Que peut-on prvoir
l'horizon h ? On peut donner, au moins thoriquement, la loi de probabilit conditionnelle
de X t + h sachant t . La prvision au sens large est donc cette loi, que l'on appellera "loi de
prvision". On retrouve alors la notion de prvision au sens commun comme la valeur
moyenne de la loi de prvision, mais l'on a bien plus : on connat les fluctuations autour de
cette valeur.

Dfinition.
La prvision en t l'horizon h, note X (t , h) , est
X (t , h) = E ( X t +h | t )
14
L'erreur de prvision correspondante, note e(t , h) , est dfinie par
e(t , h) = var ( X t + h | t ) = E ((X t +h X (t , h) ) )
2
t

La prvision et l'erreur de prvision sont des variables alatoires, fonctions de X t , X t 1 ,... En


pratique, t reprsente l'information apporte par X t , X t 1 ,..., X 1 sous la condition15
X 0 = 0, X 1 = 0,... En revenant au jeu de donnes, la prvision que l'on donne est :
x (t , h) = E ( X t + h | X t = xt , X t 1 = xt 1 ,..., X 1 = x1 , X 0 = 0, X 1 = 0,...)
L'erreur de prvision est gnralement insuffisante pour dcrire les fluctuations autour de la
prvision (cas d'une loi dissymtrique par exemple), sauf dans le cas gaussien. En fait, le
prvisionniste recherche un intervalle de prvision.

Dfinition.
Un intervalle de prvision est un intervalle contenant la prvision avec une probabilit
donne. Ainsi I (t , h) est un intervalle de prvision au niveau de X (t , h) ssi :
P X (t , h) I (t , h) | t =
( )
Il ne s'agit donc pas d'un intervalle de confiance

14
Il s'agit d'un abus de langage. L'erreur de prvision dsigne, proprement parler, l'cart entre la valeur
inconnue X t + h et la prvision X (t , h ) . Il faudrait parler d'erreur quadratique moyenne de prvision.
15
pour un processus centr.

39 Ecole Nationale Suprieure des Mines de Saint-Etienne 2008-2009


Proposition.
Si ( X t ) est un processus gaussien, l'intervalle
X (t , h) 1,96.e(t , h); X (t , h) + 1,96.e(t , h)

est un intervalle de prvision au niveau 95%.

2. Calcul des prvisions.

2.1. Calcul explicite.


Dans les cas simples, il est tout fait possible de calculer analytiquement la prvision et
l'erreur de prvision. A l'exception du cas gaussien, la loi de prvision est plus difficile
obtenir. Les rsultats suivants sont laisss en exercice.

Exercice 1. Prvision pour le modle AR(p) gaussien.


Soit ( X t ) le processus AR(p) causal et gaussien,
( B) X t = Zt
avec (Z t ) WN (0, 2
) et ( z ) = 1 z ...
1 p zp .
1) Vrifier que :
a) X (t , h) = 1 X (t , h 1) + 2 X (t , h 2) + ... + p X (t , h p )
avec X (t , i ) = 0 pour i 0.
2 1/ 2
( 2
b) e(t , h) = 1 + 1 + ... + p )
o 1 , 2 ,... sont les coefficients de la forme MA(), X t = ( B) Z t .
2) Expliciter la prvision et l'erreur de prvision dans le cas p=1. Donner un intervalle de
prvision dans le cas gaussien. Que se passe-t-il lorsque h tend vers l'infini?

Exercice 2. Prvision pour le modle MA(q) gaussien.


Soit ( X t ) le processus MA(q) inversible et gaussien,
X t = ( B ) Z t
avec (Z t ) WN (0, 2 ) et ( z ) = 1 + 1 z + ... + q z q .
Montrer que :
qh
a) X (t , h) = j + h Z t + j et vaut donc 0 si h > q.
j =0
1/ 2
min( q ,h 1) 2
b) e(t , h) = j
j =0

40 Ecole Nationale Suprieure des Mines de Saint-Etienne 2008-2009


Retour sur la srie 'unemp'.
Pour cette srie, on a propos le modle ARIMA(0,1,1) gaussien. On peut facilement dduire
de l'exercice prcdent la loi de prvision :

Proposition. Soit ( X t ) le processus ARIMA gaussien X t = X t 1 + Z t + Z t 1 (*)

(
avec (Z t ) WN (0, 2 ). Alors, X t + h | t N X t + Z t ; 2 (1 + (h 1)(1 + 2 ) ) .)
La valeur de Z t s'obtient de proche en proche partir de (*) et une condition d'initialisation,
par exemple Z 0 = 0 . En fait, les prvisions un pas16 sont simplement donnes par la
mthode de lissage exponentiel. En effet, on a
X (t ,1) = X t + Z t
= X t + ( X t ( X t 1 + Z t 1 ))
= (1 + ) X X (t 1,1)
t
ce qui correspond la mthode SES avec = 1 + lorsque ] 1;0[ . On vrifie que les
prvisions un horizon quelconque concident galement.

Autrement dit, les prvisions obtenues par le modle ARIMA sont les mmes que celles
obtenues par lissage exponentiel. On peut donc dans ce cas donner des intervalles de prvision
pour les prvisions obtenues par SES. Soulignons que si le modle ARIMA(0,1,1) n'avait pas
t valid pour la srie de donnes, la notion mme d'intervalle de prvision n'aurait pas de
sens dans le cadre SES.

Reprenons le problme de prvision consistant prdire le chmage pour les 6 derniers mois
de l'anne 1985 au 30 juin 1985. La procdure de Box et Jenkins dcrite au chapitre 4 doit
tre reconduite en enlevant les 6 dernires valeurs de la srie. Le modle ARIMA(0,1,1) est
encore valide; on obtient = 0.5005 et = 37.06 . On remarque que 1 + = 0.4995 est
diffrent du paramtre estim dans SES, = 0.4931 . Cela vient du fait que la procdure
d'estimation de n'est pas un calcul de moindres carrs simples. La diffrence est cependant
minime (ne pas oublier l'ordre de grandeur de l'erreur d'estimation de ). Bien que et
soient estims, on se contente de faire comme s'il s'agissait des "vrais" paramtres. La loi de
prvision est celle indique dans la proposition ci-dessus. Finalement, on a :

Intervalle de prvision
Mois Index Valeur Valeur Erreur de Borne Borne
observe prdite prvision infrieure suprieure
Juillet 295 (670)* 658.3 37.1 585.6 730.9
Aot 296 (555)* 658.3 41.4 577.1 739.5
Septembre 297 (631)* 658.3 45.4 569.3 747.2
Octobre 298 (676)* 658.3 49.0 562.2 754.3
Novembre 299 (659)* 658.3 52.4 555.6 760.9
Dcembre 300 (689)* 658.3 55.6 549.4 767.2

*Donnes inconnues au moment de la prvision.

16
c'est--dire l'horizon 1.

41 Ecole Nationale Suprieure des Mines de Saint-Etienne 2008-2009


On observe que les valeurs futures l'exception de la donne du mois d'aot - se trouvent
dans la fentre prvue. Cependant, il faut prendre garde qu'il s'agit des valeurs rellement
observes et non des valeurs futures de la trajectoire du processus. Il faut donc tre prudent
avec ce genre d'apprciation.
Force est de constater que les prvisions deviennent rapidement trs imprcises ! En fait les
prvisions pour cette srie n'ont de sens qu' trs court terme. D'autre part, en donnant un
ordre de grandeur de l'incertitude future, les intervalles de prvision sont sans doute une
information plus intressante que la prvision elle-mme (constante ). On ne prvoit pas la
baisse du mois d'aot 85, mais celle-ci est (relativement) en accord avec la fourchette de
prvision 95% . Il ne faut pas s'tonner de la qualit mdiocre des prvisions : peut-on
esprer mieux avec aussi peu d'information ? De meilleures prvisions seraient
vraisemblablement obtenues en faisant intervenir d'autres variables conomiques. On parle
alors de sries multivaries.

2.2. Simulation
La loi de prvision peut tre approche au moyen de simulations.
D'un point de vue thorique, les simulations permettent d'obtenir des ralisations
indpendantes X tr+ h , r = 1,..., R , de la loi conditionnelle X t + h | t . D'aprs la loi des grands
nombres, on dispose d'approximations de la prvision et de l'erreur de prvision, valables pour
R "grand"
1 R 1 R
E ( X t + h | t ) X R X tr+ h , var ( X t + h | t ) ( X tr+ h X R ) 2
R r =1 R r =1
mais aussi de la loi de prvision elle-mme :
1 R
P ( X t + h x | t ) 1 r
R r =1 {X t +h x}

42 Ecole Nationale Suprieure des Mines de Saint-Etienne 2008-2009


Pratiquement on utilise les valeurs connues x1 , x2 ,..., xt pour simuler le dbut d'une
trajectoire future du processus X tr+1 , X tr+ 2 ,..., X tr+ h conditionnellement aux valeurs passes. On
obtient donc d'un seul coup les lois de prvision approches pour tous les horizons jusqu' h.

Retour sur la srie 'airline'.


Reprenons le problme consistant prvoir au 31 dcembre 1959 le trafic arien mensuel
de l'anne suivante. En suivant la mthodologie de Box et Jenkins pour la srie ampute des
douze dernires donnes, on obtient le modle SARIMA(0,1,1)(0,1,1)12 :
( I B)( I B12 ) log X t = ( I 1 B)( I 12 B12 )U t avec U t WN (0, 2 )
Les coefficients estims sont = 0.35 , = 0.53 et = 0.037 . Pour effectuer les
1 12

simulations il est commode de dvelopper. Avec Yt = log X t , on a

Yt + k = Yt + k 1 + Yt + k 12 Yt + k 13 + U t + k 1U t + k 1 12U t + k 12 + 112U t + k 13

Les valeurs x1 , x2 ,..., xt tant donnes, on dduit y1 , y2 ,..., yt puis z1 , z2 ,..., zt (avec la
condition xi = 0, i 0 ). Conditionnellement ces valeurs, on obtient en simulant U t +1 selon
la loi N (0; 2 ) des ralisations indpendantes de Yt +1 . Puis de proche en proche de
Yt + 2 ,..., Yt + h . Le processus tant gaussien, on dispose d'intervalles de prvisions relatifs (Yt ) .
Il faut ensuite revenir (X t ) .

Ci-dessous on donne les rsultats obtenus pour R = 105 simulations.

Intervalle de prvision
Mois Index Valeur Valeur Borne Borne
observe prdite infrieure suprieure
Janvier 133 (417) * 419.6 390.3 451.0
Fvrier 134 (391) * 398.7 365.9 434.4
Mars 135 (419) * 466.6 423.1 514.6
Avril 136 (461) * 454.3 407.5 506.5
Mai 137 (472) * 473.8 421.1 533.1
Juin 138 (535) * 547.4 482.0 621.6
Juillet 139 (622) * 623.2 544.3 713.5
Aot 140 (606) * 631.8 547.7 728.9
Septembre 141 (508) * 527.1 453.4 612.7
Octobre 142 (461) * 462.7 395.3 541.6
Novembre 143 (390) * 407.1 345.4 479.7
Dcembre 144 (432) * 452.6 381.6 536.7

*Donnes inconnues au moment de la prvision.

43 Ecole Nationale Suprieure des Mines de Saint-Etienne 2008-2009


2.3. Bootstrap.
Les simulations prcdentes sont rendues possibles par la connaissance de la loi du bruit
blanc (U t ) . Dans certaines situations il peut arriver que l'on n'ait pas de raison de rejeter
l'indpendance de U1 ,..., U t alors que l'on observe des dfauts vidents de normalit. Dans ce
cas, on peut utiliser les rsidus estims u1 ,..., ut :
soit en ajustant une loi paramtrique u1 ,..., ut , et en effectuant des simulations partir de
cette loi. On parle de bootstrap paramtrique.
soit en rchantillonnant directement partir de u1 ,..., ut 17; on parle de bootstrap non
paramtrique.

Dans les situations o la fois l'indpendance et la normalit sont douteuses, il est prfrable
d'envisager un autre modle.

3. Optimalit des mthodes de lissage exponentiel.


Pour la srie 'unemp', modlise par un processus ARIMA(0,1,1), on a observ que les
prvisions sont les mmes que par lissage exponentiel. En revanche, il est ais de vrifier que
pour un processus de type AR(1), par exemple :
X t = 0.8 X t 1 + Z t , Z t WN (0,1)
les prvisions probabilistes sont bien plus satisfaisantes. En fait une mthode de lissage
exponentiel est optimale lorsque les erreurs de prvision sont totalement imprvisibles, c'est-
-dire lorsqu'elles forment un bruit blanc. Ici on ne s'intresse qu'aux erreurs de prvisions
l'horizon 1.

17
Voir le cours de 1re anne, paragraphe "simulation d'une loi discrte".

44 Ecole Nationale Suprieure des Mines de Saint-Etienne 2008-2009


On peut montrer (voir (Granger, Newbold), 5.3.) :
La mthode SES est optimale si et seulement si la srie est gnre par le modle
ARIMA(0,1,1)
( I B) X t = (1 + B) Z t
avec = 1 + .
La mthode de Holt est optimale ncessairement pour un modle de type ARIMA(0,2,2)
( I B ) 2 X t = ( I + 1 B + 2 B 2 ) Z t
o 1 et 2 sont des fonctions de et .
La mthode de Holt-Winters, version additive, est optimale ncessairement pour un
modle de type SARIMA
( I B)( I B s ) X t = ( I + b1 B + b2 B 2 + bs B s + bs +1 B s +1 + bs + 2 B s + 2 ) Z t
o b1 , b2 , bs , bs +1 et bs + 2 sont des fonctions de , et . Le modle est donc contraint (les bk
sont "lis").
La mthode de Holt-Winters, version multiplicative, ne correspond aucun modle
particulier de type SARIMA.

4. Performances en termes de prvision. Analyse post-sample.


La performance des prvisions dpend de l'importance des erreurs de prvision. Cependant
jusqu' prsent, seules les erreurs thoriques ont t envisages mesurant l'cart entre la valeur
prdite et la valeur "de modle". Il serait plus judicieux de comparer les prvisions avec les
valeurs rellement observes. Pratiquement, on divise l'intervalle de temps en 2 parties dans
l'ordre chronologique :

modlisation zone de test

t0 t1 t2

La premire dtermine les donnes servant la modlisation ;


La seconde est utilise comme zone de test.

On compare alors les prvisions avec les donnes postrieures celles utilises pour la
modlisation. On parle de donnes post-sample et d'valuation post-sample des erreurs.
Pour valuer la qualit des prvisions l'horizon h, on calcule les erreurs relles
er (t , h) = x (t , h) xt , t1 < t t2
et on peut mesurer leur importance au moyen d'indicateurs classiques tels que
l'erreur moyenne absolue (MAE)
t2 h
1
MAE (h) = | er (t , h) |
t2 t1 + 1 t =t1 +1
l'erreur quadratique moyenne (MSE)
t2 h
1
MSE (h) = er (t , h) 2
t2 t1 + 1 t =t1 +1

45 Ecole Nationale Suprieure des Mines de Saint-Etienne 2008-2009


On peut galement vouloir valuer la qualit des prvisions sans distinction d'horizons . Si H
est l'horizon maximum d'intrt, un indicateur correspondant cet objectif est par exemple
1 H
MSE (t ) = er (t , h) 2 , t1 < t t2 H
H h =1

__________

46 Ecole Nationale Suprieure des Mines de Saint-Etienne 2008-2009


Conclusion. Complments et extensions.
__________

Le domaine des sries chronologiques est en pleine expansion et les notions prsentes ici,
quoique largement utilises, ne constituent qu'une petite part des connaissances actuelles sur
le sujet. De faon rapide, on peut distinguer : temps discret et temps continu, stationnarit et
non stationnarit, scalaire et vectoriel, linaire et non linaire, domaine temporel et domaine
des frquences, paramtrique et non paramtrique. Alors ce cours correspond peu prs au
choix : "temps discret, scalaire, linaire, domaine temporel, paramtrique" !. Bien entendu il
est hors de question de prsenter tous les choix restants. On se contentera de prsenter certains
des aspects ci-dessus non traits ici en renvoyant des ouvrages choisis.

1. Analyse spectrale (domaine des frquences).


Aux techniques descriptives vues au chapitre 1, on se devrait d'ajouter l'analyse spectrale.
Il s'agit de la vision "frquence" des sries temporelles. Pour un processus alatoire, le spectre
dsigne l'inverse de la transforme de Fourier des coefficients d'autocorrlations. Avec ce
point de vue, un bruit blanc apparat comme une constante (il contient toutes les frquences).
L'estimation du spectre est plus dlicate on parle de "priodogramme" que celle de la
fonction d'autocorrlation : l'estimateur usuel n'est pas consistant et le priodogramme doit
tre liss. Un des succs de l'analyse spectrale pour les sries chronologiques est la dtection
de frquences caches. Un bon livre d'introduction est celui de Chatfield.

2. Aspect vectoriel. Modle VARMA.


Comme on l'a remarqu propos du taux de chmage des jeunes femmes aux Etats-Unis,
les prvisions obtenues par l'tude de l'historique d'une srie de donnes peuvent se rvler
trs dcevantes. Par ailleurs, les techniques de rgression linaire prennent en compte
plusieurs prdicteurs, et les prvisions sont ralises suivant le niveau de ces variables (voir le
cours de rgression de Laurent Carraro). L, les prdicteurs sont non alatoires et il n'y a pas
de notion de chronologie dans les jeux de donnes.
Le modle VARMA (Vector AutoRegressive Moving Average) est une extension naturelle
la fois du modle ARMA et du modle de rgression linaire. Les prvisions sont fonction
du niveau de toutes les variables diffrentes dates du pass. A titre d'illustration, le modle
VAR(1) pour deux sries xt et yt s'crit :
xt = a11 xt 1 + a12 yt 1 + ut

yt = a21 xt 1 + a22 yt 1 + vt
o le processus t = (ut , vt ) ' est un bruit blanc vectoriel : E t = 0 , E[ t t '] = et E[ t s '] = 0
si ts. On a la forme vectorielle autorgressive quivalente :
( I A.B) zt = t
a a12 x
avec A = 11 , zt = t et B l'oprateur backward usuel.
a21 a22 yt
Une bonne introduction au sujet est l'ouvrage de Ltkepohl.

47 Ecole Nationale Suprieure des Mines de Saint-Etienne 2008-2009


3. Modles non linaires.
Tout processus alatoire stationnaire et centr peut s'crire sous la forme MA()
X t = t + a1 t 1 + a2 t 2 + ... (*)
o ( t ) est un bruit blanc faible. C'est le fameux thorme de Wold. Cependant le rsultat
est faux lorsque l'on impose au processus de bruit ( t ) d'tre un bruit blanc fort. Lorsque X t
s'crit sous la forme (*) avec ( t ) bruit blanc fort, on dit que le modle est linaire. Une
reprsentation gnrale d'un modle non linaire est :
X t = f ( t , t 1 , t 2 ,...)
avec ( t ) IID(0, 2 ) et f une fonction non linaire.
Pour un modle linaire, la prvision est une combinaison linaire des valeurs passes (
condition que le processus soit inversible) et l'erreur quadratique moyenne de prvision est
constante pour un horizon donn (elle ne dpend pas des valeurs passes). Bien que la relation
qui le dfinisse soit linaire, un modle de type ARMA n'est pas en gnral linaire. En
revanche, un modle ARMA gaussien est linaire.
On donne maintenant quelques exemples.

3.1. Modle GARCH.


Le modle ARCH (Auto-Regressive Conditional Heteroscedatic) dvelopp par R. Engle18
(1982) ou sa gnralisation (modle GARCH) par T. Bollerslev (1986) est tel que la variance
conditionnelle dpend du niveau des valeurs passes. La proprit de non constance de la
variance est appele htroscdasticit, son contraire tant l'homoscdasticit. Il s'agit donc
ici d'htroscdasticit conditionnelle que rappellent les lettres CH dans (G)ARCH. Le
modle GARCH(p,q) est donn par
X t = t ht
o les deux processus (t ) et (ht ) [variance conditionnelle] sont indpendants et dfinis par :
(t ) est un bruit blanc fort centr et de variance 1,
q p
2
ht = 0 + i X t i + i ht i
i =1 i =1

avec p 0 , q > 0 , 0 > 0 , i 0 , i = 1,..., q et i 0 , i = 1,..., p .

Les modles GARCH sont trs employs en finance. En effet, on observe pour les cours
d'action par exemple que de fortes hausses (baisses) se rpercutent souvent les jours suivants,
traduisant un "emballement" du march. On ne peut donc pas en gnral admettre que la
variance conditionnelle des rendements19 soit constante comme dans le cas du modle
ARMA. Pour en savoir plus, on pourra consulter les articles fondateurs de Engle et Bollerslev,
ou les ouvrages de Gouriroux (1997) ou Campbell, Lo, MacKinlay (1997) (chapitre 12).

3.2. Autres exemples.


Parmi les exemples clbres les plus simples de modles non linaires, on trouve le modle
autorgressif seuil TAR (Threshold AutoRegressive)

18
R. Engle a obtenu pour cette dcouverte le prix Nobel dconomie 2003, ex aequo avec
C.W.G. Granger, lui aussi conomtre.
19
En finance, on parle plus volontiers de volatilit qui dsigne l'cart-type du rendement.

48 Ecole Nationale Suprieure des Mines de Saint-Etienne 2008-2009


1 + 1 X t 1 + t si X t 1 < k
Xt =
2 + 2 X t 1 + t si X t 1 > k
ou le modle bilinaire
X t = X t 1 + t + X t 1 t 1
Une prsentation plus complte est ralise dans (Hafner).

4. Mthodes non paramtriques.


Elles permettent d'tudier un modle gnral sans imposer a priori de forme paramtrique.
Par exemple, on peut proposer le modle
X t = g ( X t 1 , X t 2 ,..., X t r ) + t
sans prciser la forme de la fonction inconnue g. Celle-ci est alors estime. Les lecteurs
intresss peuvent consulter (Campbell, Lo, MacKinlay), chapitre 12.

En guise de conclusion, citons simplement quelques notions importantes non abordes ici
relatives aux sries temporelles : les modles d'tat, le filtrage de Kalman, (voir par exemple
(Chatfield) ou (Brockwell, Davis)), les rseaux de neurones (une courte introduction et
quelques rfrences se trouvent dans (Campbell, lo, MacKinlay)), les ondelettes.

__________

49 Ecole Nationale Suprieure des Mines de Saint-Etienne 2008-2009


Rfrences.
T. Bollerslev (1986). Generalized autoregressive conditional heteroskedasticity. Journal of
Econometrics, 31, pp. 307-327.

P.J. Brockwell, R.A. Davis. (1987). Time Series: Theory and Methods. Second edition.
Springer-Verlag.

J.Y.Cambell, A.W. Lo, A.C. MacKinlay. (1997). The Econometrics of Financial Markets.
Princeton.

C. Chatfield. (1989). The Analysis of Time Series, an Introduction. Fourth edition. Chapman
& Hall.

R. Engle (1982).Autoregressive conditional heteroscedasticity with estimates of the variance


of United Kingdom inflation. Econometrica, 50 (4), pp. 987-1007.

C. Gouriroux, A. Montfort. (1995). Sries Temporelles et Modles Dynamiques. 2me dition.


Economica.

C. Gouriroux (1997). ARCH Models and Financial Applications. Springer.

C.W.J. Granger, P. Newbold. (1986). Forecasting Economic Time Series. Second edition.
Academic Press.

C.M. Hafner. (1998). Non Linear Time Series Analysis with Applications to Foreign
Exchange Rate Volatility. Physica Verlag.

H. Ltkepohl. (1993). Introduction to Multiple Time Series Analysis. Second Edition.


Springer-Verlag.

S. Makridakis, S.C. Wheelwright, R.J. Hyndman. (1998). Forecasting : Methods and


Applications. Third edition. John Wiley & Sons.
Site du livre : http://go.to/forecasting/

50 Ecole Nationale Suprieure des Mines de Saint-Etienne 2008-2009

Vous aimerez peut-être aussi