Académique Documents
Professionnel Documents
Culture Documents
Felix Cheysson
Chargé de recherche CNRS
Enseignement
Enseignement
Enseignement
(x − µ)2
1
f (x) = √ exp − .
σ 2π 2σ 2
Caractérisée complètement par son espérance µ et sa variance σ2.
Apparait dans le théorème central limite : Soit une suite de
variables aléatoires X1 , X2 , . . . indépendantes et identiquement
distribuées (i.i.d.), d'espérance µ et de variance σ 2 < ∞. Alors
n
!
√ 1 X d
n Xi − µ −−−→ N (0, σ 2 ).
n n→∞
i=1
200
75 75
75
150
50 50 50
100
50 25 25 25
0 0 0 0
0.00 0.25 0.50 0.75 0.4 0.5 0.6 0.450 0.475 0.500 0.525 0.550 0.49 0.50 0.51
Moyenne
Felix Cheysson Séries chronologiques 2022-2023 4 / 97
Dénition : série temporelle
Dénition. On appelle série temporelle une collection de variables
aléatoires indexées par le temps :
75
x2 x4 x8
x5
70
x6
65 x3
x10
60 x7 x9
Intense Modéré Léger
55
Xt = µ + αeort + εt ,
i.i.d.
où εt désigne une variable d'erreur gaussienne : εt ∼ N (0, σ 2 ).
Question
Quel est le problème d'une telle modélisation ? Quelle hypothèse n'est pas
vériée dans ce modèle ?
RESEARCH ARTICLE
200 15
ICU admissions and in-hospital deaths linked
to COVID-19 in the Paris region are correlated 150
with previously observed ambient 10
temperature 100
Mehdi Mejdoubi ID1*, Xavier Kyndt2, Mehdi Djennaoui2
Mar 31
Apr 02
Apr 04
Apr 06
Apr 08
Apr 10
Apr 12
Apr 14
Apr 16
Apr 18
Apr 20
Apr 22
Apr 24
Apr 26
Apr 28
Apr 30
May 02
May 04
May 06
May 08
May 10
The purpose of this ecological study was to explore the association of weather with severity
indicators of coronavirus disease 2019 (COVID-19). Daily COVID-19-related intensive care
OPEN ACCESS
unit (ICU) admissions and in-hospital deaths in the Paris region and the daily weather char-
acteristics of Paris midtown were correlated with a time lag. We assessed different study
Citation: Mejdoubi M, Kyndt X, Djennaoui M
(2020) ICU admissions and in-hospital deaths periods (41, 45, 50, 55, and 62 days) beginning from 31 March 2020. Daily ICU admissions
linked to COVID-19 in the Paris region are and in-hospital deaths were strongly and negatively correlated to ambient temperatures
correlated with previously observed ambient (minimal, average, and maximal). The highest Pearson correlation coefficients and statisti-
temperature. PLoS ONE 15(11): e0242268. https://
cally significant p values were found 8 days before the occurrence of ICU admissions and
doi.org/10.1371/journal.pone.0242268
15 days before deaths. Partial correlations with adjustment on days since lockdown showed
300
Editor: Corstiaan den Uil, Erasmus Medical Center,
similar significant results. The study findings show a negative correlation of previously
0 0
Mar 31
Apr 02
Apr 04
Apr 06
Apr 08
Apr 10
Apr 12
Apr 14
Apr 16
Apr 18
Apr 20
Apr 22
Apr 24
Apr 26
Apr 28
Apr 30
May 02
May 04
May 06
May 08
May 10
PLOS ONE | https://doi.org/10.1371/journal.pone.0242268 November 20, 2020 1 / 12
0.75
Probabilité
Fonction
0.50 Vraie
Empirique
0.25
0.00
−2 0 2
2000
1500
Count (per 100.000)
type
Antibiotics
Influenza
1000
500
Qualité
Qualité de
Qualité de l'indicateur
de l'indicateur
l'indicateur
Représentatif ?
Surveillance passive : sous-estimation.
Biais de recrutement.
Stabilité temporelle ?
Evolution de l'indicateur dans le temps.
Qualité
Qualité
Qualité de
de
de la
la
la modélisation
modélisation
modélisation
0.4
Location
cort1
Intensity
0.0
cort2
cort3
cort4
−0.4
0 50 100
time
700
Unemployment (x10−4)
500
300
Recueillie au Massachussetts.
150
100
varve
50
200
100
0
avril 01 avril 15 mai 01 mai 15 juin 01
200
100
0
Nombre de décès (par jour)
Tendance
200
150
100
50
Saisonnalité
40
20
0
−20
−40
Résidus
50
25
0
−25
avril 01 avril 15 mai 01 mai 15 juin 01
Xt = Tt + St + Ut
Yt = Tt′ + St′ + βXt + Ut′ ,
où
∀s ̸= t, Us ̸⊥
⊥ Ut et Us′ ̸⊥
⊥ Ut′ .
Problématique
Théoriques
Théoriques
Théoriques
Applications
Applications
Applications
Connaître les notions
Identier la nécessité d'un
statistiques sous-jacentes aux
modèle de séries temporelles.
modèles de séries temporelles.
Modéliser les séries temporelles
simples (ARIMA). Comprendre les résultats
mathématiques permettant
Nomenclature, démarche,
l'analyse des séries temporelles.
etc.
Espérance. (ex. 2, 4, 5)
µt = E[Xt ]
γ(s, t) = Cov(Xs , Xt )
= E (Xs − µs )(Xt − µt )
Cov(A, B) = Cov(B, A)
Cov(A + B, C) = Cov(A, C) + Cov(B, C)
Cov(αA, B) = α Cov(A, B)
γ(s, t)
ρ(s, t) = p
γ(s, s)γ(t, t)
2 Exemples lés
Bruit blanc Gaussien
Moyenne mobile
Processus autorégressif
Marche aléatoire avec dérive
Signal bruité
2
wt
−2
1
Xt = (Wt−1 + Wt + Wt+1 )
3
2
xt = 1/3 (wt−1 + wt + wt+1)
−2
Xt = 0.9 Xt−1 + Wt
5.0
2.5
xt = .9 xt−1 + wt
0.0
−2.5
Xt = δ + Xt−1 + Wt
60
40
xt = δ + xt−1 + wt
20
2
xt = 2 cos + wt
2πt
52
−2
cos(u) sin(u)
1.0 1.0
0.5 0.5
0.0 0.0
−0.5 −0.5
−1.0 −1.0
0π 2π 4π 0π 2π 4π
2
Soit u = 2π 128 t pour t = 1, 2, . . . , 128.
2 2
cos(2π t) sin(2π t)
128 128
1.0 1.0
0.5 0.5
0.0 0.0
−0.5 −0.5
−1.0 −1.0
0 64 128 0 64 128
2
On peut interpréter
128 comme 2 cycles pour 128 unités de temps.
−1
0 64 128 0 64 128
3 Stationnarité
Problématique
Stationnarité au sens strict
Stationarité au sens faible
2
Outcome
80.0
77.5
Fréquence cardiaque (bpm)
75.0
72.5
70.0
60 60 x9
x9 x9
x10
55 55 x10
0.0 2.5 5.0 7.5 10.0 1.0 1.5 2.0 2.5 3.0
Felix Cheysson Temps (min) Séries chronologiques Trois temps consécutifs
2022-2023 35 / 97
Stationnarité au sens faible (ou du 2ème ordre)
On dit que la série (Xt ) est stationnaire au sens faible si ses deux
premiers moments sont invariants par translation :
stationnarité stricte ⇐=
̸ stationnarité faible,
Espérance. E[Xt ] = µ ;
Fonction d'autocovariance.
γ(t + h, t) = Cov(Xt+h , Xt )
= Cov(Xh , X0 )
= γ(h, 0)
=: γ(h) ;
4 Estimateurs de la corrélation
Dénitions
Exemples
n−h
X
b(h) = n−1
γ (Xt+h − X̄n )(Xt − X̄n ).
t=1
Fonction d'autocorrélation (ACF) empirique. Il s'agit de
l'estimateur précédent normalisé :
ρb(h) = γ
b(h)/b
γ (0).
où σn = √1 .
n
Z ∼ N (0, 1).
Région de rejet au risque α : |Z| > u1−α/2 , où u1−α/2 désigne le
quantile de niveau 1 − α/2 de la loi N (0, 1).
Rejet de H0
L'existence d'un pic d'autocorrélation ρ(h) non nul représente une
association statistique entre deux observations de la série séparées de h
unités de temps.
Series eps
1.0
0.8
0.6
ACF
0.4
0.2
0.0
0 20 40 60 80 100
Lag
1
Xt = (Wt−1 + Wt + Wt+1 )
3
Series ma[!is.na(ma)]
1.0
0.8
0.6
ACF
0.4
0.2
0.0
−0.2
0 20 40 60 80 100
Lag
Xt = 0.9 Xt−1 + Wt
Series ar
1.0
0.8
0.6
0.4
ACF
0.2
0.0
−0.2
0 20 40 60 80 100
Lag
Xt = δ + Xt−1 + Wt
Series walk
1.0
0.8
0.6
ACF
0.4
0.2
0.0
0 20 40 60 80 100
Lag
Series sig
1.0
0.8
0.6
0.4
ACF
0.2
0.0
−0.2
−0.4
0 20 40 60 80 100
Lag
Problématique
Par exemple :
B Xt = Xt−1 ,
B 2 Xt = B(BXt ) = B(Xt−1 ) = Xt−2 ,
B k Xt = Xt−k .
∇ Xt = (1 − B) Xt = Xt − BXt = Xt − Xt−1 ,
∇2 Xt = (1 − B)2 Xt = (1 − 2B + B 2 )Xt = Xt − 2Xt−1 + Xt−2 .
Xt = δ + Xt−1 + Wt
Non stationnaire
60
40
20
0
Après différenciation d’ordre 1
−2
Xt = δ + Xt−1 + Wt
Non stationnaire
1.00
0.75
0.50
0.25
0.00
0.75
0.50
0.25
0.00
0 25 50 75 100
Lag
∇S Xt = (1 − B S )Xt = Xt − Xt−S .
−2
−4
Après régression
−2
0.5
0.0
−0.5
Après régression
1.0
0.5
0.0
−0.5
Après différenciation d’ordre 52
1.0
0.5
0.0
−0.5
0 25 50 75 100
Lag
150
100
50
0
log(varve)
5
6 Modèles ARIMA
Modèles MA
Modèles AR
Autocorrélation partielle
Modèles ARMA
Estimation
Prédiction
Xt = Wt + θ1 Wt−1 + . . . + θq Wt−q
q
X
= Wt + θj Wt−j ,
j=1
i.i.d.
où θq ̸= 0 et Wt ∼ N (0, σ 2 ).
Remarque.
Xt = (1 + θ1 B + . . . + θq B q )Wt
Xt = Θ(B)Wt
2 2
1 1
0 0
−1 −1
−2 −2
2 2
1
0 0
−1
−2
−2
2
2
0
−2 0
−4
−2
0 50 100 150 200 250 0 50 100 150 200 250
0.75
0.5
0.50
0.25
0.0
0.00
−0.25
MA(2), θ1 = 0.5, θ2 = 0.4 MA(3), θ1 = 0.5, θ2 = 0.4, θ3 = − 0.4
1.00
0.8
0.75
0.50 0.4
0.25
0.0
0.00
0.75 0.75
0.50 0.50
0.25 0.25
0.00 0.00
0 10 20 30 40 50 0 10 20 30 40 50
Xt = Wt + ϕ1 Xt−1 + . . . + ϕp Xt−p
p
X
= Wt + ϕi Xt−i ,
i=1
i.i.d.
où ϕp ̸= 0 etWt ∼ N (0, σ 2 ).
Remarque. Si E[Xt ] = µ, on considérera Yt = Xt − µ.
Remarque.
Xt = (ϕ1 B + . . . + ϕp B p )Xt + Wt
(1 − ϕ1 B − . . . − ϕp B p )Xt = Wt
Φ(B)Xt = Wt
k−1
X
Xt = ϕk Xt−k + ϕj Wt−j .
j=0
3. En déduire :
E[Xt ] = 0,
σ 2 ϕh
γ(h) = ,
1 − ϕ2
ρ(h) = ϕh .
soit
Ψ(B) = Φ−1 (B).
soit
Π(B) = Θ−1 (B).
0
0
−2
−2
4
−10
2
0 −20
−2
−30
2
−2e+05
−4e+05 0
−6e+05
−2
0.75
0.5
0.50
0.25 0.0
0.00
−0.5
0.75
0.5
0.50
0.25
0.0
0.00
0.75 0.75
0.50 0.50
0.25 0.25
0.00 0.00
0 10 20 30 40 50 0 10 20 30 40 50
X = a1 + b1 Z + E, Y = a2 + b2 Z + F.
0.0
0.4
−0.2
0.2
0.0 −0.4
0.6 0.75
0.4 0.50
0.2 0.25
0.0 0.00
0.50 0.0
0.25 −0.1
0.00
−0.2
0 10 20 30 40 50 0 10 20 30 40 50
0.2 0.0
−0.1
0.0
−0.2
−0.2
−0.3
MA(2), θ1 = 0.5, θ2 = 0.4 MA(3), θ1 = 0.5, θ2 = 0.4, θ3 = − 0.4
0.4
0.2
0.2
0.0
0.0
−0.2
−0.2
0.2 0.05
0.00
0.0
−0.05
−0.2 −0.10
0 10 20 30 40 50 0 10 20 30 40 50
2 2
0 0
−2 −2
−4
−4
0 50 100 150 200 250 0 50 100 150 200 250
AR(3), ACF MA(2), ACF
1.0
0.8
0.5
0.4
0.0 0.0
0 10 20 30 40 50 0 10 20 30 40 50
AR(3), PACF MA(2), PACF
0.2
0.4
0.3
0.0
0.2
0.1
−0.2
0.0
−0.1 −0.4
0 10 20 30 40 50 0 10 20 30 40 50
i.i.d.
où ϕp ̸= 0, θq ̸= 0 et Wt ∼ N (0, σ 2 ).
Remarque. En utilisant les polynômes AR Φ et MA Θ, on a :
Φ(B)Xt = Θ(B)Wt .
0.75 0.75
0.50 0.50
0.25 0.25
0.00 0.00
0 10 20 30 40 50 0 10 20 30 40 50
ARMA(3, 2), PACF ARMA(2, 3), PACF
0.6 0.6
0.4 0.4
0.2
0.2
0.0
0.0
−0.2
−0.2
0 10 20 30 40 50 0 10 20 30 40 50
Un sophisme
(1 − 0.5B)Xt = (1 − 0.5B)Wt .
Pour choisir entre deux modèles, on utilise l' AIC ou le BIC (plus
parcimonieux).
Φ(B)∇d Xt = Θ(B)Wt .
√ d
n(βb − β) → N 0, I −1 (β) .
2
(1−.25B)(1−.55B6)xt = wt
−2
0 10 20 30
Time
Felix Cheysson Séries chronologiques 2022-2023 81 / 97
Prédiction (cont'd)
n
À n + 1 : Xn+1 = ϕ1 Xn + ϕ2 Xn−1 + . . . + ϕp Xn−p+1 ,
n n
À n + 2 : Xn+2 = ϕ1 Xn+1 + ϕ2 Xn + . . . + ϕp Xn−p+2 .
Alors, on a
m+n
X
n
Xn+m = ψj Wn+m−j .
j=m
ΦP (B S )∇D S
S Xt = ΘQ (B )Wt ,
où
ΦP (B S ) = 1 − φ1 B S − . . . − φP B P S ,
ΘQ (B S ) = 1 + ϑ1 B S + . . . + ϑQ B QS .
−2
−4
0 50 100 150 200 250
ARIMA(2, 0, 0)6, ACF
1.00
0.75
0.50
0.25
0.00
0 10 20 30 40 50
ARIMA(2, 0, 0)6, PACF
0.6
0.4
0.2
0.0
0 10 20 30 40 50
ΦP (B S )Φ(B)∇D d S
S ∇ Xt = ΘQ (B )Θ(B)Wt ,
2.5
0.0
−2.5
0 50 100 150 200 250
SARIMA(1, 0, 0)(1, 0, 0)6, ACF
0.8
0.4
0.0
0 10 20 30 40 50
SARIMA(1, 0, 0)(1, 0, 0)6, PACF
0.50
0.25
0.00
−0.25
0 10 20 30 40 50
0.75 0.75
0.50 0.50
0.25 0.25
0.00
0.00
0 10 20 30 40 50 0 10 20 30 40 50
AR(p), PACF : stoppe net après l’ordre p MA(q), PACF : décroissance jusqu’à 0
0.4
0.2
0.1
0.2
0.0
−0.1
0.0
−0.2
−0.3
0 10 20 30 40 50 0 10 20 30 40 50
5
0.0
−2.5
−5
−10
−5.0
Willamette River 6
Ocean Noise
11
3
10
0
9
−3
0 50 100 0 50 100
cos(u) sin(u)
1.0 1.0
0.5 0.5
0.0 0.0
−0.5 −0.5
−1.0 −1.0
0π 2π 4π 0π 2π 4π
2
Let u = 2π 128 t for t = 1, 2, . . . , 128.
2 2
cos(2π t) sin(2π t)
128 128
1.0 1.0
0.5 0.5
0.0 0.0
−0.5 −0.5
−1.0 −1.0
0 64 128 0 64 128
2
128 can be interpreted as 2 cycles over the time span of 128.
−1
0 64 128 0 64 128
7
f=
128
Goal of spectral analysis
9
f=
n n 128
k 17
f=
128
0 64 128
σk2 = a2k + b2k , the squared amplitude of the sine-cosine pair, highlights the
k
importance of the frequency
n in the decomposition of Xt .
2
(σk )k=1,...,n is called the spectrum of the time series Xt .
2 k
If σk is large, there are strong patterns of frequency
n.
The sample spectrum, noted Ik , is called the periodogram of Xt .
Decomposition of variance
Since the sines and cosines of dierent frequencies are uncorrelated, then
X X
Var Xt = (a2k + b2k ) = σk2
k k
2
The spectrum (σk ) is the decomposition of the variance of the time series
Xt into its dierent frequencies nk .
9 0.1
0.0
6
Ocean Noise Ocean Noise
3 0.4
0
0.2
−3
0.0
0 50 100 0.0 0.1 0.2 0.3 0.4 0.5