Vous êtes sur la page 1sur 97

Introduction à l'analyse des séries temporelles

Felix Cheysson
Chargé de recherche CNRS

Université Gustave Eiel, CNRS, UMR 8050, LAMA


felix.cheysson@univ-eiel.fr

Année universitaire 2022-2023

Felix Cheysson Séries chronologiques 2022-2023 1 / 97


Modalités d'enseignement et d'évaluation

Enseignement
Enseignement
Enseignement

2 × 3h de cours théoriques (ici, faculté de médecine du KB).

4 × 3h de TPs pratiques sous R (ici, KB-TP3).


TPs dédoublés en demi-groupes ?
Supports de cours, exercices corrigés, annales et TPs disponibles sur
https://fcheysson.github.io/serc.html.
Evaluation
Evaluation
Evaluation

Quiz (questions de cours) au premier TP : 20 minutes, ∼ 3 points.


Contenu indispensable signalé par l'icône .
1 feuille manuscrite recto-verso acceptée.
Devoir collaboratif au dernier TP : 1 heure, ∼ 7 points.
Tous documents + ordinateur acceptés.
Devoir maison : 1 mois, ∼ 10 points.

Felix Cheysson Séries chronologiques 2022-2023 2 / 97


Rappels : variable aléatoire
Formellement. Une variable aléatoire X est une application d'un
espace probabilisé (Ω, F, P) dans un espace mesurable (R, B(R)).
Intuitivement. Une variable aléatoire est une variable dont la valeur
dépend d'événements inconnus.
On caractérise une variable aléatoire par :
les diérentes valeurs qu'elle peut prendre ;
la probabilité qu'elle prenne ces valeurs.
Fonction de répartition FX : Probabilité
1.00
FX (t) = P(X ≤ t); 0.75
0.50
Fonction de densité fX : 0.25
0.00
Z t
Densité
FX (t) = fX (u)du. 0.4
−∞ 0.3
0.2
Fonction quantile :
0.1

Q(p) = inf{x ∈ R; p ≤ FX (x)} ≈ FX−1 (p). 0.0


−2 0 2
Valeur

Felix Cheysson Séries chronologiques 2022-2023 3 / 97


Rappels : loi normale N (µ, σ 2 )
Fonction de densité :

(x − µ)2
 
1
f (x) = √ exp − .
σ 2π 2σ 2
Caractérisée complètement par son espérance µ et sa variance σ2.
Apparait dans le théorème central limite : Soit une suite de
variables aléatoires X1 , X2 , . . . indépendantes et identiquement
distribuées (i.i.d.), d'espérance µ et de variance σ 2 < ∞. Alors
n
!
√ 1 X d
n Xi − µ −−−→ N (0, σ 2 ).
n n→∞
i=1

10 100 1000 10000


100
Dénombrement

200
75 75
75
150
50 50 50
100
50 25 25 25

0 0 0 0
0.00 0.25 0.50 0.75 0.4 0.5 0.6 0.450 0.475 0.500 0.525 0.550 0.49 0.50 0.51
Moyenne
Felix Cheysson Séries chronologiques 2022-2023 4 / 97
Dénition : série temporelle
Dénition. On appelle série temporelle une collection de variables
aléatoires indexées par le temps :

(Xt )t∈N = (X0 , X1 , X2 , . . .).


Exemple. On mesure la fréquence cardiaque d'un individu toutes les
minutes pendant 10 minutes au cours d'un eort :

(Xt )0≤t≤10 = (X0 , X1 , . . . , X10 ).


80
x1
x0
Fréquence cardiaque (bpm)

75
x2 x4 x8
x5
70
x6
65 x3
x10
60 x7 x9
Intense Modéré Léger
55

0.0 2.5 5.0 7.5 10.0


Temps (min)
Felix Cheysson Séries chronologiques 2022-2023 5 / 97
Problématique

Lors d'un test d'eort, on cherche à exprimer la fréquence cardiaque


d'un individu en fonction de l'eort réalisé par ce dernier.

Naïvement. On eectue une ANOVA en fonction de l'eort :

Xt = µ + αeort + εt ,
i.i.d.
où εt désigne une variable d'erreur gaussienne : εt ∼ N (0, σ 2 ).

Question

Quel est le problème d'une telle modélisation ? Quelle hypothèse n'est pas
vériée dans ce modèle ?

Felix Cheysson Séries chronologiques 2022-2023 6 / 97


Motivation (application shiny)
300

Number of admissions (per day)

Mean temperature (in °C)


20
PLOS ONE 250

RESEARCH ARTICLE
200 15
ICU admissions and in-hospital deaths linked
to COVID-19 in the Paris region are correlated 150
with previously observed ambient 10
temperature 100
Mehdi Mejdoubi ID1*, Xavier Kyndt2, Mehdi Djennaoui2

1 Department of Radiology, Hospital of Valenciennes, Valenciennes, France, 2 Department of Public Health,


5
Hospital of Valenciennes, Valenciennes, France 50
a1111111111
a1111111111 * mejdoubi-m@ch-valenciennes.fr
a1111111111
a1111111111 0 0
a1111111111 Abstract

Mar 31
Apr 02
Apr 04
Apr 06
Apr 08
Apr 10
Apr 12
Apr 14
Apr 16
Apr 18
Apr 20
Apr 22
Apr 24
Apr 26
Apr 28
Apr 30
May 02
May 04
May 06
May 08
May 10
The purpose of this ecological study was to explore the association of weather with severity
indicators of coronavirus disease 2019 (COVID-19). Daily COVID-19-related intensive care
OPEN ACCESS
unit (ICU) admissions and in-hospital deaths in the Paris region and the daily weather char-
acteristics of Paris midtown were correlated with a time lag. We assessed different study
Citation: Mejdoubi M, Kyndt X, Djennaoui M
(2020) ICU admissions and in-hospital deaths periods (41, 45, 50, 55, and 62 days) beginning from 31 March 2020. Daily ICU admissions
linked to COVID-19 in the Paris region are and in-hospital deaths were strongly and negatively correlated to ambient temperatures
correlated with previously observed ambient (minimal, average, and maximal). The highest Pearson correlation coefficients and statisti-
temperature. PLoS ONE 15(11): e0242268. https://
cally significant p values were found 8 days before the occurrence of ICU admissions and
doi.org/10.1371/journal.pone.0242268
15 days before deaths. Partial correlations with adjustment on days since lockdown showed
300
Editor: Corstiaan den Uil, Erasmus Medical Center,
similar significant results. The study findings show a negative correlation of previously

Number of deaths (per day)


NETHERLANDS

Mean temperature (in °C)


observed ambient temperature with severity indicators of COVID-19 that could partly explain
Received: August 3, 2020 20
Accepted: October 22, 2020
the death toll discrepancies between and within countries. 250
Published: November 20, 2020

Copyright: © 2020 Mejdoubi et al. This is an open


access article distributed under the terms of the 200 15
Creative Commons Attribution License, which Introduction
permits unrestricted use, distribution, and
reproduction in any medium, provided the original The ongoing major epidemic of coronavirus disease 2019 (COVID-19) infection began in cold
areas of temperate countries of the northern hemisphere [1], which raises the question of
author and source are credited.
weather influence.
150
Data Availability Statement: The data used in this
study are public and freely accessible. Ambient Continental France has been severely hit by this outbreak of COVID-19, with around 30 10
temperature data are available from http://www. 000 deaths, including more than 19 000 in-hospital deaths (as of 15 June 2020). The main
meteofrance.com and daily numbers of COVID-19
deaths are available from https://geodes.
affected regions were its eastern region (mainly Alsace) and the Paris region (Île-de-France), 100
with more than 3500 and 7200 in-hospital deaths, respectively.
santepubliquefrance.fr.
Monitoring the outbreak of COVID-19 with biological testing is imprecise as the infection
Funding: The author(s) received no specific can be asymptomatic [2]. Data such as deaths or intensive care unit (ICU) admissions (reflect- 5
funding for this work. ing critically ill patients) are more reliable, especially in highly developed countries. In the nat- 50
Competing interests: The authors have declared ural course of infection with COVID-19, a pulmonary worsening may appear around 5 to 9
that no competing interests exist. days after infection onset [2, 3], with an immunological mechanism known as “cytokine

0 0
Mar 31
Apr 02
Apr 04
Apr 06
Apr 08
Apr 10
Apr 12
Apr 14
Apr 16
Apr 18
Apr 20
Apr 22
Apr 24
Apr 26
Apr 28
Apr 30
May 02
May 04
May 06
May 08
May 10
PLOS ONE | https://doi.org/10.1371/journal.pone.0242268 November 20, 2020 1 / 12

Felix Cheysson Séries chronologiques 2022-2023 7 / 97


Rappels : tests d'hypothèse

Procédure de décision permettant de rejeter une hypothèse sur la base de


l'étude statistique d'un échantillon (X1 , . . . , Xn ).
Hypothèse nulle H0 :
En général choisie comme l'inverse de ce que l'on veut montrer.
Hypothèse pour laquelle les calculs statistiques sont explicites.
Statistique de test et distribution sous H0 .
Détermine si l'échantillon a de fortes chances d'être observé sous H0 .
Ne représente qu'un cliché des caractéristiques de l'échantillon.
Région de rejet et p-valeur.
Permettent de conclure quant au rejet ou non de H0 .

Risque de première espèce α


Probabilité de rejeter H0 à tort : attention aux tests multiples, aux fausses
interprétations, aux idées reçues, etc.

Felix Cheysson Séries chronologiques 2022-2023 8 / 97


p-value : erreurs d'interprétation (credits to xkcd)

Felix Cheysson Séries chronologiques 2022-2023 9 / 97


Exemple : test de Kolmogorov-Smirnov
Permet de tester si l'échantillon provient d'une distribution F déterminée.
Hypothèse nulle H0 :∀x ∈ R, Fn (x) = F (x).
Statistique de test : Dn = supx∈R |Fn (x) − F (x)|.
Loi sous H0 :
√ d
nDn −−−→ K = sup |B(F (t))|,
n→∞ t∈[0,1]

où B(·) correspond au pont brownien.



Région de rejet au niveau de risque α : nDn > K1−α , où K1−α
représente le quantile de niveau 1 − α de la variable K .
1.00

0.75
Probabilité

Fonction
0.50 Vraie
Empirique
0.25

0.00
−2 0 2

Felix Cheysson Séries chronologiques 2022-2023 10 / 97


Exemple de données de surveillance
Nombre de remboursements des prescriptions d'antibiotiques en ville.
Données du SNIIRAM (CNAMTS + RSI) : 90% de la population.
Nombre de syndromes grippaux.
Données du Réseau Sentinelles : représentatives à l'échelle de la France.

2000

1500
Count (per 100.000)

type
Antibiotics
Influenza
1000

500

2004 2006 2008 2010


Time

Felix Cheysson Séries chronologiques 2022-2023 11 / 97


Surveillance épidémiologique

Qualité
Qualité de
Qualité de l'indicateur
de l'indicateur
l'indicateur
Représentatif ?
Surveillance passive : sous-estimation.
Biais de recrutement.
Stabilité temporelle ?
Evolution de l'indicateur dans le temps.
Qualité
Qualité
Qualité de
de
de la
la
la modélisation
modélisation
modélisation

Caractérisation simple de la série (tendance, saison, variations


accidentelles, points de rupture, ...).

Représentation de la série par un modèle statistique (ARIMA).

Prédiction de la série à partir de ses valeurs passées.

Felix Cheysson Séries chronologiques 2022-2023 12 / 97


Exemple de données biologiques

Intensité du signal BOLD (Blood Oxygenation-Level Dependent) dans le


cortex d'un patient soumis à des stimuli, collectée par fMRI.

0.4

Location
cort1
Intensity

0.0
cort2
cort3
cort4

−0.4

0 50 100
time

Felix Cheysson Séries chronologiques 2022-2023 13 / 97


Exemple de données économiques
Nombre de personnes sans emploi aux Etats-Unis entre 1948 et 1978.

Impact du choc pétrolier de 1973.

700
Unemployment (x10−4)

500

300

1950 1960 1970 1980


Time

Felix Cheysson Séries chronologiques 2022-2023 14 / 97


Exemple de données géologiques
Épaisseur de la couche sédimentaire.

Recueillie au Massachussetts.

Représentative de la température il y a 11.834 ans.

150

100
varve

50

0 200 400 600


Year

Felix Cheysson Séries chronologiques 2022-2023 15 / 97


Composantes d'une série temporelle
Number of deaths (per day)

200

100

0
avril 01 avril 15 mai 01 mai 15 juin 01

On distingue généralement 3 composantes d'une série temporelle :

Sa tendance (= évolution à long terme) ; peut être récupérée par une


moyenne glissante ou un modèle de régression.

Sa saisonnalité (= évolution périodique) ; peut être récupérée par une


moyenne saisonnière ou par analyse spectrale de la série.

Ses résidus (= ce qu'il reste).

Felix Cheysson Séries chronologiques 2022-2023 16 / 97


Décomposition d'une série temporelle
Série

200
100
0
Nombre de décès (par jour)

Tendance
200
150
100
50

Saisonnalité
40
20
0
−20
−40
Résidus
50
25
0
−25
avril 01 avril 15 mai 01 mai 15 juin 01

Felix Cheysson Séries chronologiques 2022-2023 17 / 97


Motivation et enjeux
On dispose d'une ou de deux séries que l'on veut modéliser :

Xt = Tt + St + Ut
Yt = Tt′ + St′ + βXt + Ut′ ,

Tt et Tt′ tendances (évolution à long terme) ;


désignent les

St et St′ désignent lessaisonnalités (évolution périodique) ;


νt et υt désignent les variables résiduelles autodépendantes, i.e.

∀s ̸= t, Us ̸⊥
⊥ Ut et Us′ ̸⊥
⊥ Ut′ .

Problématique

Prendre en compte la structure d'autodépendance des innovations.

Felix Cheysson Séries chronologiques 2022-2023 18 / 97


Objectifs

Théoriques
Théoriques
Théoriques
Applications
Applications
Applications
Connaître les notions
Identier la nécessité d'un
statistiques sous-jacentes aux
modèle de séries temporelles.
modèles de séries temporelles.
Modéliser les séries temporelles
simples (ARIMA). Comprendre les résultats
mathématiques permettant
Nomenclature, démarche,
l'analyse des séries temporelles.
etc.

Programmation en R. Stationnarité d'une série.


Théorème de représentation
Connaître ses limites.
de Wold.

Felix Cheysson Séries chronologiques 2022-2023 19 / 97


Contenu

1 Notions théoriques essentielles 5 Données non stationnaires

2 Exemples lés 6 Modèles ARIMA

3 Stationnarité 7 Modèles saisonniers SARIMA

4 Estimateurs de la corrélation 8 Procédure de Box et Jenkins

9 Pour aller plus loin : introduction à l'analyse spectrale

Felix Cheysson Séries chronologiques 2022-2023 20 / 97


Outline

1 Notions théoriques essentielles


Fonction d'autocovariance
Fonction d'autocorrélation

Felix Cheysson Séries chronologiques 2022-2023 21 / 97


Caractérisation des séries temporelles

Espérance. (ex. 2, 4, 5)

µt = E[Xt ]

Fonction d'autocovariance ou produit moment d'ordre 2. (ex. 1)

γ(s, t) = Cov(Xs , Xt )
 
= E (Xs − µs )(Xt − µt )

Remarque. La fonction d'autocovariance désigne la dépendance


linéaire entre deux temps.

Remarque. γ(t, t) = Var(Xt ).

Felix Cheysson Séries chronologiques 2022-2023 22 / 97


Caractérisation des séries temporelles (cont'd)

Propriétés. Soient A, B et C trois variables aléatoires et α un réel.


(ex. 2, 3, 4)

Cov(A, B) = Cov(B, A)
Cov(A + B, C) = Cov(A, C) + Cov(B, C)
Cov(αA, B) = α Cov(A, B)

Fonction d'autocorrélation (ACF). (ex. 2, 3)

γ(s, t)
ρ(s, t) = p
γ(s, s)γ(t, t)

Remarque. La fonction d'autocorrélation caractérise la prédictabilité


linéaire de la série au temps t sachant la valeur de Xs .

Felix Cheysson Séries chronologiques 2022-2023 23 / 97


Outline

2 Exemples lés
Bruit blanc Gaussien
Moyenne mobile
Processus autorégressif
Marche aléatoire avec dérive
Signal bruité

Felix Cheysson Séries chronologiques 2022-2023 24 / 97


Exemple 1.1 : Bruit blanc Gaussien
Collection de variables aléatoires normales indépendantes et identiquement
distribuées :
iid
Wt ∼ N (0, σ 2 )

2
wt

−2

0 50 100 150 200 250


Time

Felix Cheysson Séries chronologiques 2022-2023 25 / 97


Exemple 1.2 : Moyenne mobile
Combinaison linéaire d'un bruit blanc Gaussien :

1
Xt = (Wt−1 + Wt + Wt+1 )
3

2
xt = 1/3 (wt−1 + wt + wt+1)

−2

0 50 100 150 200 250


Time

Felix Cheysson Séries chronologiques 2022-2023 26 / 97


Exemple 1.3 : Processus autorégressif
Régression sur les valeurs passées de la série :

Xt = 0.9 Xt−1 + Wt

5.0

2.5
xt = .9 xt−1 + wt

0.0

−2.5

0 50 100 150 200 250


Time

Felix Cheysson Séries chronologiques 2022-2023 27 / 97


Exemple 1.4 : Marche aléatoire avec dérive
Succession de pas aléatoire avec dérive δ :

Xt = δ + Xt−1 + Wt
60

40
xt = δ + xt−1 + wt

20

0 50 100 150 200 250


Time

Felix Cheysson Séries chronologiques 2022-2023 28 / 97


Exemple 1.5 : Signal bruité
Signal périodique bruité :
 
2πt
Xt = 2 cos + Wt
52
4

2
xt = 2 cos  + wt
2πt
 52 

−2

0 50 100 150 200 250


Time

Felix Cheysson Séries chronologiques 2022-2023 29 / 97


Sinus et cosinus
Les fonctions sin and cos sont 2π -périodiques : pour u∈R et k ∈ Z,
cos(u + 2kπ) = cos(u).

cos(u) sin(u)
1.0 1.0

0.5 0.5

0.0 0.0

−0.5 −0.5

−1.0 −1.0
0π 2π 4π 0π 2π 4π

2
Soit u = 2π 128 t pour t = 1, 2, . . . , 128.
2 2
cos(2π t) sin(2π t)
128 128
1.0 1.0

0.5 0.5

0.0 0.0

−0.5 −0.5

−1.0 −1.0
0 64 128 0 64 128

2
On peut interpréter
128 comme 2 cycles pour 128 unités de temps.

Felix Cheysson Séries chronologiques 2022-2023 30 / 97


Sinus et cosinus
7
Similairement, avec u = 2π 128 t pour t = 1, 2, . . . , 128.
7 7
0.5 cos(2π t) 1.5 sin(2π t)
128 128

−1

0 64 128 0 64 128

cos(2π nk t) et sin(2π nk t) possèdent k cycles pour n unités de temps.


k
La quantité f= n est appelée la fréquence du sinus ou du cosinus.
Elle représente le nombre (ou la fraction) de cycles par unité de temps.
Si f est faible (resp. élevée), le sinus est dit de basse (haute) fréquence.
1
La période T = f dénombre les unités de temps nécessaires à un cycle.
L'amplitude est l'étendue maximale de la variation et est égale à 1
pour les fonctions sin et cos.
Felix Cheysson Séries chronologiques 2022-2023 31 / 97
Outline

3 Stationnarité
Problématique
Stationnarité au sens strict
Stationarité au sens faible

Felix Cheysson Séries chronologiques 2022-2023 32 / 97


Retour sur le cas simple : indépendance des observations
Echantillon indépendant {(X1 , Y1 ), . . . , (Xn , Yn )}.
Inférence de la relation Y = f (X) en combinant l'information.

Par exemple, cas de la régression linéaire :

2
Outcome

0.00 0.25 0.50 0.75 1.00


Facteur de risque

Felix Cheysson Séries chronologiques 2022-2023 33 / 97


De l'inférence avec une seule trajectoire ?

Série temporelle : on ne dispose que d'une seule trajectoire {Xt }t∈N .


Comment inférer le comportement statistique de Xt ?

80.0

77.5
Fréquence cardiaque (bpm)

75.0

72.5

70.0

0.0 2.5 5.0 7.5 10.0


Temps (min)

Felix Cheysson Séries chronologiques 2022-2023 34 / 97


Stationnarité au sens strict
On dit que la série (Xt ) est stationnaire au sens strict si le
comportement probabiliste de toute collection (Xt1 , . . . , Xtk ) est invariant
par translation.
→ Pour tout h, le comportement probabiliste de (Xt1 , . . . , Xtk ) est
identique à (Xt1 +h , . . . , Xtk +h ).
x1 x1
x4 x1
75 75
x4 x4 x4
x5 x5 x5
Fréquence cardiaque (bpm)

Fréquence cardiaque (bpm)


x5 x3
70
x0 x3 70 x3 x3
x0
x2 x2 x2
x2
65 x7 65 x7 x7 x7
x6 x6 x6 x6
x8 x8 x8 x8

60 60 x9
x9 x9

x10
55 55 x10
0.0 2.5 5.0 7.5 10.0 1.0 1.5 2.0 2.5 3.0
Felix Cheysson Temps (min) Séries chronologiques Trois temps consécutifs
2022-2023 35 / 97
Stationnarité au sens faible (ou du 2ème ordre)
On dit que la série (Xt ) est stationnaire au sens faible si ses deux
premiers moments sont invariants par translation :

µt = E[Xt ] ne dépend pas de t ;

γ(s, t) = Cov(Xs , Xt ) ne dépend que de |s − t|.


Il s'agit d'une propriété plus faible que la stationnarité stricte :

stationnarité stricte =⇒ stationnarité faible,

stationnarité stricte ⇐=
̸ stationnarité faible,

stationnarité stricte ⇐= stationnarité faible.


Xt gaussien

Enjeu de la propriété de stationnarité

Pour une série stationnaire, il est possible d'identier et d'estimer les


caractéristiques statistiques de la série à partir d'une unique trajectoire.

Felix Cheysson Séries chronologiques 2022-2023 36 / 97


Stationnarité au sens faible (cont'd)

Espérance. E[Xt ] = µ ;
Fonction d'autocovariance.
γ(t + h, t) = Cov(Xt+h , Xt )
= Cov(Xh , X0 )
= γ(h, 0)
=: γ(h) ;

Variance. Var(Xt ) = γ(t, t) = γ(0, 0) = γ(0) ;


Fonction d'autocorrélation. ρ(h) := ρ(t + h, t) = · · · = γ(h)/γ(0).
Exemples. Les séries 1, 2, 4 et 5 sont-elles stationnaires ?

Exemple. Sous l'hypothèse de stationnarité, calculer l'espérance et la


variance pour la série 3.

Felix Cheysson Séries chronologiques 2022-2023 37 / 97


Outline

4 Estimateurs de la corrélation
Dénitions
Exemples

Felix Cheysson Séries chronologiques 2022-2023 38 / 97


Estimateurs de la corrélation
Fonction d'autocovariance empirique. Il s'agit de l'estimateur
déni par :

n−h
X
b(h) = n−1
γ (Xt+h − X̄n )(Xt − X̄n ).
t=1
Fonction d'autocorrélation (ACF) empirique. Il s'agit de
l'estimateur précédent normalisé :

ρb(h) = γ
b(h)/b
γ (0).

Propriétés asymptotiques de l'ACF

Pour un bruit blanc Gaussien (Wt ), si n est grand, la loi de l'ACF


empirique peut être approchée par :

ρbw (h) ∼ N 0, σn2 ,




où σn = √1 .
n

Felix Cheysson Séries chronologiques 2022-2023 39 / 97


Test d'hypothèse sur l'autocorrélation
Motivation : Permet de déterminer si l'autocorrélation ρ(·) à un décalage
h xé est diérent de 0.
Hypothèse nulle H0 : ρ(h) = 0.
Statistique de test :

ρb(h) − ρ(h) ρb(h)


Z= = .
σn H0 σn

Loi asymptotique sous H0 :

Z ∼ N (0, 1).
Région de rejet au risque α : |Z| > u1−α/2 , où u1−α/2 désigne le
quantile de niveau 1 − α/2 de la loi N (0, 1).
Rejet de H0
L'existence d'un pic d'autocorrélation ρ(h) non nul représente une
association statistique entre deux observations de la série séparées de h
unités de temps.

Felix Cheysson Séries chronologiques 2022-2023 40 / 97


ACF 4.1 : Bruit blanc Gaussien
Collection de variables aléatoires normales indépendantes et identiquement
distribuées :
iid
Wt ∼ N (0, σ 2 )

Series eps
1.0
0.8
0.6
ACF

0.4
0.2
0.0

0 20 40 60 80 100

Lag

Felix Cheysson Séries chronologiques 2022-2023 41 / 97


ACF 4.2 : Moyenne mobile
Combinaison linéaire d'un bruit blanc Gaussien :

1
Xt = (Wt−1 + Wt + Wt+1 )
3
Series ma[!is.na(ma)]
1.0
0.8
0.6
ACF

0.4
0.2
0.0
−0.2

0 20 40 60 80 100

Lag

Felix Cheysson Séries chronologiques 2022-2023 42 / 97


ACF 4.3 : Processus autorégressif
Régression sur les valeurs passées de la série :

Xt = 0.9 Xt−1 + Wt

Series ar
1.0
0.8
0.6
0.4
ACF

0.2
0.0
−0.2

0 20 40 60 80 100

Lag

Felix Cheysson Séries chronologiques 2022-2023 43 / 97


ACF 4.4 : Marche aléatoire avec dérive
Succession de pas aléatoire avec dérive δ :

Xt = δ + Xt−1 + Wt

Series walk
1.0
0.8
0.6
ACF

0.4
0.2
0.0

0 20 40 60 80 100

Lag

Felix Cheysson Séries chronologiques 2022-2023 44 / 97


ACF 4.5 : Signal bruité
Signal périodique bruité :
 
2πt
Xt = 2 cos + Wt
52

Series sig
1.0
0.8
0.6
0.4
ACF

0.2
0.0
−0.2
−0.4

0 20 40 60 80 100

Lag

Felix Cheysson Séries chronologiques 2022-2023 45 / 97


Outline

5 Données non stationnaires


Prise en compte d'une tendance par régression
Prise en compte d'une tendance par diérenciation
Stabilisation de la variance

Felix Cheysson Séries chronologiques 2022-2023 46 / 97


Données non stationnaires

Problématique

En pratique, la plupart des jeux de données ne sont pas issus de processus


stationnaires.

Méthode. On va chercher à stationnariser (rendre stationnaire) la série de


données an de pouvoir analyser sa structure de dépendance.

Prise en compte d'une tendance par régression ;

Prise en compte d'une tendance par diérentiation.


Tendance linéaire ;
Tendance stochastique ;
Tendance saisonnière.

Felix Cheysson Séries chronologiques 2022-2023 47 / 97


Prise en compte d'une tendance par régression

On considére une série du type Xt = µt + νt , où Ut est stationnaire.

Par exemple :

Régression linéaire avec erreurs stationnaires : Xt = β0 + β1 t + Ut ;


2πt

Signal bruité : Xt = 2 cos 52 + Wt
Démarche de modélisation :

1. Modéliser µt , et eectuer la régression linéaire Xt = µt + εt ;


2. Etudier la structure de dépendance des bt = Xt − µ
résidus U bt ;
3. Utiliser la structure identiée pour estimer conjointement les
paramètres de la régression et de la structure de dépendance.

Felix Cheysson Séries chronologiques 2022-2023 48 / 97


Prise en compte d'une tendance par diérenciation
Principe. On retire la tendance en étudiant les diérences de la série.

On note B l'opérateur retard déni par :

B Xt = Xt−1 ,
B 2 Xt = B(BXt ) = B(Xt−1 ) = Xt−2 ,
B k Xt = Xt−k .

On note ∇ := 1 − B l'opérateur de diérence d'ordre 1 :

∇ Xt = (1 − B) Xt = Xt − BXt = Xt − Xt−1 ,
∇2 Xt = (1 − B)2 Xt = (1 − 2B + B 2 )Xt = Xt − 2Xt−1 + Xt−2 .

Exemple. Etudier la stationnarité de la série 4 par diérenciation.

Exemple. Etudier la stationnarité de la régression linéaire avec erreurs


stationnaires par diérenciation.

Felix Cheysson Séries chronologiques 2022-2023 49 / 97


Diérentiation de la marche aléatoire
Succession de pas aléatoire avec dérive δ :

Xt = δ + Xt−1 + Wt

Non stationnaire

60

40

20

0
Après différenciation d’ordre 1

−2

0 50 100 150 200 250


Time

Felix Cheysson Séries chronologiques 2022-2023 50 / 97


Stationnarité : Marche aléatoire avec dérive
Succession de pas aléatoire avec dérive δ :

Xt = δ + Xt−1 + Wt

Non stationnaire
1.00

0.75

0.50

0.25

0.00

Après différenciation d’ordre 1


1.00

0.75

0.50

0.25

0.00

0 25 50 75 100
Lag

Felix Cheysson Séries chronologiques 2022-2023 51 / 97


Prise en compte de la tendance par diérenciation

Pour une série saisonnière, on pourra étudier une diérenciation de


plus grand ordre.

On note ∇S = 1 − B S l'opérateur de diérence d'ordre S :

∇S Xt = (1 − B S )Xt = Xt − Xt−S .

Exemple. Etudier la stationnarité de la série 5 par diérenciation.

Felix Cheysson Séries chronologiques 2022-2023 52 / 97


Diérentiation ou régression du signal bruité
 
2πt
Xt = 2 cos + Wt
52
Non stationnaire
4

−2

−4
Après régression

−2

Après différenciation d’ordre 52


6
4
2
0
−2
−4
0 50 100 150 200 250
Time

Felix Cheysson Séries chronologiques 2022-2023 53 / 97


Stationnarité : Signal bruité
Signal périodique bruité :
 
2πt
Xt = 2 cos + Wt
52
Non stationnaire
1.0

0.5

0.0

−0.5
Après régression
1.0

0.5

0.0

−0.5
Après différenciation d’ordre 52
1.0

0.5

0.0

−0.5
0 25 50 75 100
Lag

Felix Cheysson Séries chronologiques 2022-2023 54 / 97


Stabilisation de la variance
Pour des séries dont la variabilité augmente avec l'espérance, on peut
stabiliser la variance en transformant la série par un logarithme.

Exemple. Yt = log Xt avec Xt la série des couches sédimentaires.


varve

150

100

50

0
log(varve)
5

0 200 400 600


Time

Felix Cheysson Séries chronologiques 2022-2023 55 / 97


Outline

6 Modèles ARIMA
Modèles MA
Modèles AR
Autocorrélation partielle
Modèles ARMA
Estimation
Prédiction

Felix Cheysson Séries chronologiques 2022-2023 56 / 97


Modèle moyenne mobile (moving average )
Dénition. On appelle processus moyenne mobile d'ordre q, noté
MA(q ), le processus Xt déni par :

Xt = Wt + θ1 Wt−1 + . . . + θq Wt−q
q
X
= Wt + θj Wt−j ,
j=1

i.i.d.
où θq ̸= 0 et Wt ∼ N (0, σ 2 ).
Remarque.

Xt = (1 + θ1 B + . . . + θq B q )Wt
Xt = Θ(B)Wt

Dénition. On appelle Θ le polynôme moyenne mobile.

Exemple. MA(1) : Xt = Wt + θWt−1 . Que valent E[Xt ] et ρ(h) ?

Felix Cheysson Séries chronologiques 2022-2023 57 / 97


Trajectoires de processus MA
MA(1), θ1 = 0.5 MA(1), θ1 = − 0.5
3 3

2 2

1 1

0 0

−1 −1

−2 −2

MA(2), θ1 = 0.5, θ2 = 0.4 MA(3), θ1 = 0.5, θ2 = 0.4, θ3 = − 0.4


3

2 2
1

0 0

−1
−2
−2

MA(5), θ5 = 0.8 Bruit blanc Gaussien

2
2
0

−2 0

−4
−2
0 50 100 150 200 250 0 50 100 150 200 250

Felix Cheysson Séries chronologiques 2022-2023 58 / 97


ACF de processus MA
MA(1), θ1 = 0.5 MA(1), θ1 = − 0.5
1.00 1.0

0.75
0.5
0.50

0.25
0.0
0.00

−0.25
MA(2), θ1 = 0.5, θ2 = 0.4 MA(3), θ1 = 0.5, θ2 = 0.4, θ3 = − 0.4
1.00
0.8
0.75

0.50 0.4

0.25
0.0
0.00

MA(5), θ5 = 0.8 Bruit blanc Gaussien


1.00 1.00

0.75 0.75

0.50 0.50

0.25 0.25

0.00 0.00

0 10 20 30 40 50 0 10 20 30 40 50

Felix Cheysson Séries chronologiques 2022-2023 59 / 97


Modèle autorégressif
Dénition. On appelle processus autorégressif d'ordre p, noté AR(p),
le processus stationnaire Xt vériant :

Xt = Wt + ϕ1 Xt−1 + . . . + ϕp Xt−p
p
X
= Wt + ϕi Xt−i ,
i=1

i.i.d.
où ϕp ̸= 0 etWt ∼ N (0, σ 2 ).
Remarque. Si E[Xt ] = µ, on considérera Yt = Xt − µ.

Remarque.

Xt = (ϕ1 B + . . . + ϕp B p )Xt + Wt
(1 − ϕ1 B − . . . − ϕp B p )Xt = Wt
Φ(B)Xt = Wt

Dénition. On appelle Φ le polynôme autorégressif.


Felix Cheysson Séries chronologiques 2022-2023 60 / 97
Ecriture d'un AR(1) comme processus linéaire
1. Soit Xt un AR(1). Prouver que :

k−1
X
Xt = ϕk Xt−k + ϕj Wt−j .
j=0

2. Si| ϕ |< 1 et Xt stationnaire, on peut donc représenter un AR(1) par


un MA(∞) :

X
Xt = ϕj Wt−j .
j=0

3. En déduire :

E[Xt ] = 0,
σ 2 ϕh
γ(h) = ,
1 − ϕ2
ρ(h) = ϕh .

Felix Cheysson Séries chronologiques 2022-2023 61 / 97


Causalité

Dénition. Lorsque, pour un AR(p) de la forme Φ(B)Xt = Wt ,


l'écriture

X
Xt = ψj Wt−j = Ψ(B)Wt
j=0

existe, on dira que le processus Xt est causal.

Remarque. Dans ce cas, on a

Φ−1 (B)Φ(B)Xt = Φ−1 (B)Wt ,

soit
Ψ(B) = Φ−1 (B).

Felix Cheysson Séries chronologiques 2022-2023 62 / 97


Inversibilité

Dénition. Lorsque, pour un MA(q ) de la forme Xt = Θ(B)Wt ,


l'écriture

X
Wt = πj Xt−j = Π(B)Xt
j=0

existe, on dira que le processus Xt est inversible.

Remarque. Dans ce cas, on a

Θ−1 (B)Xt = Θ−1 (B)Θ(B)Wt ,

soit
Π(B) = Θ−1 (B).

Felix Cheysson Séries chronologiques 2022-2023 63 / 97


Trajectoires de processus AR
AR(1), φ1 = 0.6 AR(1), φ1 = − 0.6
4
2
2

0
0

−2
−2

AR(2), φ1 = 0.5, φ2 = 0.3 AR(1), φ1 = 1 (marche aléatoire)


6 0

4
−10
2

0 −20

−2
−30

AR(1), φ1 = 1.05 (processus explosif) Bruit blanc Gaussien


0e+00

2
−2e+05

−4e+05 0

−6e+05
−2

0 50 100 150 200 250 0 50 100 150 200 250

Felix Cheysson Séries chronologiques 2022-2023 64 / 97


ACF de processus AR
AR(1), φ1 = 0.6 AR(1), φ1 = − 0.6
1.00 1.0

0.75
0.5
0.50

0.25 0.0

0.00
−0.5

AR(2), φ1 = 0.5, φ2 = 0.3 AR(1), φ1 = 1 (marche aléatoire)


1.00 1.0

0.75
0.5
0.50

0.25
0.0
0.00

AR(1), φ1 = 1.05 (processus explosif) Bruit blanc Gaussien


1.00 1.00

0.75 0.75

0.50 0.50

0.25 0.25

0.00 0.00

0 10 20 30 40 50 0 10 20 30 40 50

Felix Cheysson Séries chronologiques 2022-2023 65 / 97


Corrélation partielle
Idée. Contrôler les facteurs de confusion dans le calcul de corrélation.
Dénition. Le coecient de corrélation partielle entre deux variables
aléatoires X et Y sachant une troisième variable Z est déni par :

Corr(X, Y |Z) = Corr(E, F ),


où E et F sont les résidus des régressions de X et Y sur Z :

X = a1 + b1 Z + E, Y = a2 + b2 Z + F.

Felix Cheysson Séries chronologiques 2022-2023 66 / 97


Autocorrélation partielle

Dénition. La fonction d'autocorrélation partielle ( PACF) d'une série


stationnaire Xt , notée ϕhh , est dénie par :

ϕ11 = Corr(Xt , Xt−1 ) = ρ(1)


ϕhh = Corr(Xt , Xt−h |Xt−1 , . . . , Xt−h+1 ), h ≥ 2.

Idée. On retire la dépendance linéaire des termes intermédiaires de la


série.

Felix Cheysson Séries chronologiques 2022-2023 67 / 97


Autocorrélation partielle : processus AR
On considère un processus AR(2) : Xt = ϕ1 Xt−1 + ϕ2 Xt−2 + Wt .

PACF d'ordre 2 : ϕ22 = Corr(Xt , Xt−2 |Xt−1 ).

PACF d'ordre 3 : ϕ33 = Corr(Xt , Xt−3 |Xt−1 , Xt−2 ).

Felix Cheysson Séries chronologiques 2022-2023 68 / 97


PACF de processus AR
AR(1), φ1 = 0.6 AR(1), φ1 = − 0.6
0.6

0.0
0.4

−0.2
0.2

0.0 −0.4

AR(2), φ1 = 0.5, φ2 = 0.3 AR(1), φ1 = 1 (marche aléatoire)

0.6 0.75

0.4 0.50

0.2 0.25

0.0 0.00

AR(1), φ1 = 1.05 (processus explosif) Bruit blanc Gaussien


1.00
0.1
0.75

0.50 0.0

0.25 −0.1

0.00
−0.2
0 10 20 30 40 50 0 10 20 30 40 50

Felix Cheysson Séries chronologiques 2022-2023 69 / 97


Autocorrélation partielle : processus MA
On considère un processus MA(1) : Xt = Wt + θ1 Wt−1 .

PACF d'ordre 2 : ϕ22 = Corr(Xt , Xt−2 |Xt−1 ).

Felix Cheysson Séries chronologiques 2022-2023 70 / 97


Autocorrélation partielle : processus MA (cont'd)
On considère un processus MA(1) : Xt = Wt + θ1 Wt−1 .

PACF d'ordre 3 : ϕ33 = Corr(Xt , Xt−3 |Xt−1 , Xt−2 ).

Felix Cheysson Séries chronologiques 2022-2023 71 / 97


PACF de processus MA
MA(1), θ1 = 0.5 MA(1), θ1 = − 0.5
0.4
0.1

0.2 0.0

−0.1
0.0
−0.2
−0.2
−0.3
MA(2), θ1 = 0.5, θ2 = 0.4 MA(3), θ1 = 0.5, θ2 = 0.4, θ3 = − 0.4

0.4
0.2

0.2
0.0

0.0
−0.2

−0.2

MA(5), θ5 = 0.8 Bruit blanc Gaussien


0.4
0.10

0.2 0.05

0.00
0.0
−0.05

−0.2 −0.10

0 10 20 30 40 50 0 10 20 30 40 50

Felix Cheysson Séries chronologiques 2022-2023 72 / 97


Modélisation : identication des ordres du processus
AR(3), φ1 = 0.3, φ2 = 0, φ3 = 0.4 MA(2), θ1 = 0.7, θ2 = − 0.4

2 2

0 0

−2 −2

−4
−4
0 50 100 150 200 250 0 50 100 150 200 250
AR(3), ACF MA(2), ACF
1.0
0.8

0.5
0.4

0.0 0.0

0 10 20 30 40 50 0 10 20 30 40 50
AR(3), PACF MA(2), PACF
0.2
0.4
0.3
0.0
0.2
0.1
−0.2
0.0
−0.1 −0.4
0 10 20 30 40 50 0 10 20 30 40 50

Felix Cheysson Séries chronologiques 2022-2023 73 / 97


Modèle autorégressif moyenne mobile

Dénition. On appelle processus autorégressif moyenne mobile


d'ordre (p, q), noté ARMA(p, q ), le processus stationnaire Xt vériant
:
p
X q
X
Xt = Wt + ϕi Xt−i + θj Wt−j ,
i=1 j=1

i.i.d.
où ϕp ̸= 0, θq ̸= 0 et Wt ∼ N (0, σ 2 ).
Remarque. En utilisant les polynômes AR Φ et MA Θ, on a :

Φ(B)Xt = Θ(B)Wt .

Théorème de représentation de Wold. Toute série stationnaire au


second ordre peut être représentée par un processus ARMA(p, q ).

Felix Cheysson Séries chronologiques 2022-2023 74 / 97


Identication des ordres du processus ?
ARMA(3, 2), φ1 = 0.3, φ3 = 0.4, θ2 = 0.6 ARMA(2, 3), φ2 = 0.6, θ1 = 0.3, θ3 = 0.4
4
2
2
0
0
−2
−2
−4
−4
0 50 100 150 200 250 0 50 100 150 200 250
ARMA(3, 2), ACF ARMA(2, 3), ACF
1.00 1.00

0.75 0.75

0.50 0.50

0.25 0.25

0.00 0.00

0 10 20 30 40 50 0 10 20 30 40 50
ARMA(3, 2), PACF ARMA(2, 3), PACF
0.6 0.6

0.4 0.4

0.2
0.2

0.0
0.0
−0.2
−0.2
0 10 20 30 40 50 0 10 20 30 40 50

Felix Cheysson Séries chronologiques 2022-2023 75 / 97


Redondance paramétrique

Un sophisme

Soit Xt = Wt un bruit blanc Gaussien.

On a donc 0.5 Xt−1 = 0.5 Wt−1 .


Puis Xt − 0.5 Xt−1 = Wt − 0.5 Wt−1 .
Donc Xt est un processus ARMA(1, 1).

Redondance paramétrique. La surparamétrisation cache le fait que le


processus est un bruit blanc Gaussien :

(1 − 0.5B)Xt = (1 − 0.5B)Wt .

Felix Cheysson Séries chronologiques 2022-2023 76 / 97


Critères pénalisés d'information : critères de parcimonie

Pour choisir entre deux modèles, on utilise l' AIC ou le BIC (plus
parcimonieux).

Basés sur la fonction de vraisemblance ;

Pénalisent le nombre de paramètres du modèle ;

Compromis entre la qualité de l'ajustement et la complexité du modèle.

AIC = 2 #{paramètres} − 2 log(vraisemblance),


BIC = log(n) #{paramètres} − 2 log(vraisemblance).

Felix Cheysson Séries chronologiques 2022-2023 77 / 97


Modèle autorégressif intégré moyenne mobile

Dénition. On appelle processus autorégressif intégré moyenne


(p, d, q), noté ARIMA(p, d, q ), un processus Xt
mobile d'ordre tel que
∇d Xt = (1 − B)d Xt est un modèle ARMA(p, q ) :

Φ(B)∇d Xt = Θ(B)Wt .

Aucune nouveauté ici : il s'agit principalement d'un jeu d'écriture.

Remarque. L'écriture ARIMA est surtout utile pour R pour eectuer


des prédictions.

Felix Cheysson Séries chronologiques 2022-2023 78 / 97


Estimation des modèles ARMA

On procède par maximum de vraisemblance : on cherche à maximiser


L(µ, Φ, Θ, σ 2 ; X1:n ) = fµ,Φ,Θ,σ2 (X1 , . . . , Xn ).
Cette fonction de densité jointe se décompose en conditionnant par
rapport aux points du passé :

fµ,Φ,Θ,σ2 (X1 , . . . , Xn ) = f (X1 )f (X2 | X1 ) · · · f (Xn | X1:(n−1) ).

Chaque fonction intermédiaire f (Xj | X1:j ) est la fonction de densité


d'une loi normale univariée.

Felix Cheysson Séries chronologiques 2022-2023 79 / 97


Estimation des modèles ARMA (cont'd)

Propriété. Sous de bonnes conditions, pour un processus ARMA


causal et inversible, le maximum de vraisemblance donne des
estimateurs optimaux de σ2 et β = (µ, Φ, Θ), et

√ d
n(βb − β) → N 0, I −1 (β) .


Remarque. Dans le cas d'un modèle surparamétrisé, la variance des


estimateurs augmente : b ↗.
Var(β)

Felix Cheysson Séries chronologiques 2022-2023 80 / 97


Prédiction
On cherche à prédire Xn+m à partir des observations (X1 , . . . , Xn ).
On appelle prédicteur au pas de temps m la variable aléatoire
dénie par :
n
Xn+m = E[Xn+m | X1:n ].

2
(1−.25B)(1−.55B6)xt = wt

−2

0 10 20 30
Time
Felix Cheysson Séries chronologiques 2022-2023 81 / 97
Prédiction (cont'd)

Exemple. Pour un AR(p) :

n
À n + 1 : Xn+1 = ϕ1 Xn + ϕ2 Xn−1 + . . . + ϕp Xn−p+1 ,
n n
À n + 2 : Xn+2 = ϕ1 Xn+1 + ϕ2 Xn + . . . + ϕp Xn−p+2 .

Exemple. Pour un ARMA(p, q ), il faut d'abord l'écrire sous forme de


MA(∞) :

X
Xn+m = ψj Wn+m−j .
j=0

Alors, on a
m+n
X
n
Xn+m = ψj Wn+m−j .
j=m

Felix Cheysson Séries chronologiques 2022-2023 82 / 97


Outline

7 Modèles saisonniers SARIMA


ARIMA saisonnier pur
Modèles SARIMA

Felix Cheysson Séries chronologiques 2022-2023 83 / 97


ARIMA saisonnier pur

Idée. On souhaite modéliser une structure de dépendance saisonnière.

Principe. On va appliquer un modèle ARIMA, dont les ordres sont


des multiples de la saisonnalité S.
On note ∇S := 1 − B S l'opérateur de diérence d'ordre S.
Dénition. On appelle processus ARIMA(P , D, Q)S saisonnier le
processus stationnaire Xt vériant :

ΦP (B S )∇D S
S Xt = ΘQ (B )Wt ,

ΦP (B S ) = 1 − φ1 B S − . . . − φP B P S ,
ΘQ (B S ) = 1 + ϑ1 B S + . . . + ϑQ B QS .

Felix Cheysson Séries chronologiques 2022-2023 84 / 97


Trajectoire et (P)ACF d'ARIMA saisonnier
ARIMA(2, 0, 0)6, ϕ1 = 0.5, ϕ2 = 0.3

−2

−4
0 50 100 150 200 250
ARIMA(2, 0, 0)6, ACF
1.00

0.75

0.50

0.25

0.00

0 10 20 30 40 50
ARIMA(2, 0, 0)6, PACF
0.6

0.4

0.2

0.0

0 10 20 30 40 50

Felix Cheysson Séries chronologiques 2022-2023 85 / 97


Modèles SARIMA

En pratique, il existe généralement deux structures de dépendances :


Une à court terme, généralement ≤ 3 pas de temps ;
Une à long terme, due à la saisonnalité S de la série.
Idée. On va combiner deux modèles ARIMA, le premier pour expliquer
la dépendance à court terme, le deuxième pour la dépendance à long
terme.

Dénition. On appelle processus SARIMA(p, d, q )×(P , D, Q)S le


processus stationnaire Xt vériant :

ΦP (B S )Φ(B)∇D d S
S ∇ Xt = ΘQ (B )Θ(B)Wt ,

où Φ et Θ sont les polynômes AR et MA de court terme,


et ΦP et ΘQ sont ceux modélisant la saisonnalité.

Felix Cheysson Séries chronologiques 2022-2023 86 / 97


Trajectoire et (P)ACF d'ARIMA saisonnier
SARIMA(1, 0, 0)(1, 0, 0)6, φ1 = 0.3, ϕ1 = 0.6
5.0

2.5

0.0

−2.5
0 50 100 150 200 250
SARIMA(1, 0, 0)(1, 0, 0)6, ACF

0.8

0.4

0.0

0 10 20 30 40 50
SARIMA(1, 0, 0)(1, 0, 0)6, PACF
0.50

0.25

0.00

−0.25
0 10 20 30 40 50

Felix Cheysson Séries chronologiques 2022-2023 87 / 97


Outline

8 Procédure de Box et Jenkins

Felix Cheysson Séries chronologiques 2022-2023 88 / 97


Procédure de Box et Jenkins
0a. Représenter les données.
0b. Transformer les données si nécessaire.
Régression linéaire ou diérentiation ;
Stabilisation de la variance par logarithme.
1. Identication les ordres p et q du modèle ARMA.
ACF (acf) et PACF (pacf) empiriques.
Identier les structures saisonnières avant celles de court terme.
2. Estimation des paramètres par maximum de vraisemblance.
arima(series, order=c(p,d,q),
seasonal=list(order=c(P,D,Q), period=S)).
3. Diagnostic des résidus.
ACF des résidus : existe-t-il des pics de covariance non pris en compte ?
Test de Ljung-Box : l'ensemble des pics de covariance est-il conforme
avec un bruit blanc ?
Graphiques et tests usuels : la normalité des résidus est-elle vériée ?
4. Choix du modèle.
Utilisation des critères d'information parcimonieux.
Felix Cheysson Séries chronologiques 2022-2023 89 / 97
Identication des ordres du processus
AR(p), ACF : décroissance jusqu’à 0 MA(q), ACF : stoppe net après l’ordre q
1.00 1.00

0.75 0.75

0.50 0.50

0.25 0.25

0.00
0.00

0 10 20 30 40 50 0 10 20 30 40 50
AR(p), PACF : stoppe net après l’ordre p MA(q), PACF : décroissance jusqu’à 0
0.4
0.2

0.1
0.2

0.0

−0.1
0.0

−0.2

−0.3
0 10 20 30 40 50 0 10 20 30 40 50

Felix Cheysson Séries chronologiques 2022-2023 90 / 97


Outline

9 Pour aller plus loin : introduction à l'analyse spectrale

Felix Cheysson Séries chronologiques 2022-2023 91 / 97


Introduction to spectral analysis

We consider four examples of time series X1 , X2 , . . . , X128 . How would


you describe them?

Wind Speed Atomic Clock


2.5
10

5
0.0

−2.5
−5

−10
−5.0

Willamette River 6
Ocean Noise
11
3

10
0

9
−3

0 50 100 0 50 100

Spectral analysis describes Xt 's by comparing them to sines and cosines.

Felix Cheysson Séries chronologiques 2022-2023 92 / 97


Sines and cosines?
The functions sin and cos are 2π -periodic: for u∈R and k ∈ Z,
cos(u + 2kπ) = cos(u)

cos(u) sin(u)
1.0 1.0

0.5 0.5

0.0 0.0

−0.5 −0.5

−1.0 −1.0
0π 2π 4π 0π 2π 4π

2
Let u = 2π 128 t for t = 1, 2, . . . , 128.
2 2
cos(2π t) sin(2π t)
128 128
1.0 1.0

0.5 0.5

0.0 0.0

−0.5 −0.5

−1.0 −1.0
0 64 128 0 64 128

2
128 can be interpreted as 2 cycles over the time span of 128.

Felix Cheysson Séries chronologiques 2022-2023 93 / 97


Sines and cosines?
7
Similarly, with u = 2π 128 t for t = 1, 2, . . . , 128.
7 7
0.5 cos(2π t) 1.5 sin(2π t)
128 128

−1

0 64 128 0 64 128

cos(2π nk t) and sin(2π nk t) have k cycles per n time steps.


k
The quantity f= n is called the frequency of the sine or cosine.
It is the amount (or rather fraction) of cycles per time step.
If f is small (large), the sine is said to have low (high) frequency.
1
The period T = f is the time steps needed for a full cycle.
The amplitude is the maximum range of variation and is equal to 1 for
the functions sin and cos.
Felix Cheysson Séries chronologiques 2022-2023 94 / 97
Sines and cosines?
1
f=
128

Summing up sines and cosines of dierent f=


3
128

amplitudes and frequencies create time series


5
f=

that resemble actual data. 128

7
f=
128
Goal of spectral analysis
9
f=

Given a time series Xt , gure out its Fourier 128

representation, i.e. its decomposition into


11
f=
128

sines and cosines: 13


f=
    128
X k k
Xt = ak cos 2π t + bk sin 2π t f=
15

n n 128

k 17
f=
128

Actually easy to compute ak and bk : f=


19
128
 
k
ak ∝ Cov Xt , cos 2π t
n xt

0 64 128

Felix Cheysson Séries chronologiques 2022-2023 95 / 97


The spectrum and periodogram

σk2 = a2k + b2k , the squared amplitude of the sine-cosine pair, highlights the
k
importance of the frequency
n in the decomposition of Xt .
2
(σk )k=1,...,n is called the spectrum of the time series Xt .
2 k
If σk is large, there are strong patterns of frequency
n.
The sample spectrum, noted Ik , is called the periodogram of Xt .

Decomposition of variance

Since the sines and cosines of dierent frequencies are uncorrelated, then
X X
Var Xt = (a2k + b2k ) = σk2
k k
2
The spectrum (σk ) is the decomposition of the variance of the time series
Xt into its dierent frequencies nk .

Felix Cheysson Séries chronologiques 2022-2023 96 / 97


Examples

Recall the four examples: here are their periodograms.

Wind Speed Wind Speed


2.5 0.8
0.6
0.0
0.4
−2.5
0.2
−5.0 0.0

Atomic Clock Atomic Clock


2.0
10
5 1.5
0 1.0
−5 0.5
−10
0.0

Willamette River 0.4


Willamette River
11 0.3
10 0.2

9 0.1
0.0

6
Ocean Noise Ocean Noise
3 0.4

0
0.2
−3
0.0
0 50 100 0.0 0.1 0.2 0.3 0.4 0.5

Felix Cheysson Séries chronologiques 2022-2023 97 / 97

Vous aimerez peut-être aussi