Vous êtes sur la page 1sur 42

Introduction à

l’analyse des séries


temporelles

M2 DYNEA Florence Dufour


http://duduffe.free.fr/M2DYNEA/ Décembre 2007
Plan du cours
• Savoir ce qu’est une série temporelle et voir
quelques exemples
• Pourquoi traiter les séries temporelles
• Quelques définitions utiles
• Tester l’existence d’une tendance
• Estimer les différentes tendances
• Comment éliminer la tendance générale
• Pourquoi et comment prendre en compte
l’autocorrélation
Qu’est-ce qu’une série temporelle?
Suite d’observations :
• mesurées à intervalles réguliers
• Indicées par le temps

La date à laquelle l’observation est faite est


une information importante sur le
phénomène observé
Quelques exemples de séries
temporelles - 1
Evolution de la population française Evolution de la population des EU

Pour ces 2 séries on voit que le temps explique bien le niveau de la série. Une
fonction du temps assez lisse capte bien le niveau de la série
Quelques exemples de séries
temporelles - 2
Nombre de morts par accident de voiture au R.U.
Le niveau moyen
reste stable jusqu’à
fin 1982 et il y a
d’importantes
fluctuations
saisonnières. En
février 1983 une
nouvelle législation
rend obligatoire le
port de la ceinture de
sécurité.

La saisonnalité contribue donc à expliquer le niveau.


Quelques exemples de séries
temporelles - 3
La saisonnalité qui
contribue à expliquer
le niveau, comme
avant
En plus la moyenne et
la variabilité de la
série augmente avec
le temps

La variance nést pas


constante. Les séries
dont la variance à une
date est fonction de la
moyenne à cette date.
est appelé série
hétéroscédastique
Comment qualifiez-vous cette
série?
La saisonnalité qui
contribue à expliquer
le niveau, comme
avant
Et encore une fois la
moyenne et la
variabilité de la série
augmente avec le
temps
C’est donc une série
hétéroscédastique
Objectifs de l’analyse des séries
3 objectifs principaux:
1) Description:
– Diagramme séquentiel (time plot)
– Histogramme pour voir la distribution des valeurs
Remarquer les valeurs atypiques ou aberrantes

2) Explication – résumé:
Comprendre comment se passent certains processus et
avoir une vue synthétique débarrassée de détails de
court terme (instituts officiels de statistiques)

3) Prédictif:
Prédire dans le futur comment évolue un phénomène
Les définitions 
• Une série temporelle est une suite d’instants
• Une série est dite régulière (rare) s’il n’y a pas
de lacunes et que le pas d’échantillonnage ne
change pas
• On rencontre également des séries temporelles
à données manquantes. Pour boucher les trous
on peut utiliser un modèle qui prédit les données
en prenant en compte les caractéristiques
locales et globales
• Une série est dite lacunaire ou intermittente
lorsque l’on a pas d’observation pendant
plusieurs années.
Les définitions 
Les différentes composantes d’une série
temporelle sont:
• La tendance générale: Ne peut être étudiée que
si l’épisode est terminé et non en cours de
formation
• Variation saisonnière: Applicable que si l’on
dispose de plusieurs observations par an
• Composante cyclique: Echelle intermédiaire
entre le court et le long terme
Décomposition des séries
Il est classique de décomposer une série temporelle en tendance mt, effet
saisonnier st, et erreur Ut.

Généralement on s’intéresse à un modèle additif :


Yt = mt, + st, + Ut avec E(Ut) = 0

Dans le cas où les séries montrent une saisonnalité qui a de plus en plus
d’ampleur alors (comme pour les ventes de champagne) un modèle
multiplicatif est plus ajusté à la série:
Yt = mt, . st, . Ut avec E(Ut) = 0

Suivant l’objectif de l’analyse, le traitement de la série sera différent. Dans le


cas où l’on veut regarder le comportement à moyen terme d’une série, il est
utile d’éliminer l’effet saisonnier tandis que lorsque c’est le comportement à
court terme qui nous intéresse, il est important de garder l’effet saisonnier.
Tester l’existence d’une tendance
Rappel : les test non paramétriques permettent de ne pas faire d’hypothèse sur
la distribution des probabilités.

2 tests non paramétriques de l’existence d’une tendance:


- Correlation sur les rangs de Spearman
- Corrélation de rang de Mann-Kendall
Corrélation sur les rangs de
Spearman

Afin de savoir s’il existe une tendance, il faut faire une corrélation entre les valeurs
observées et les dates d’observations.

Comme la tendance n’est pas forcément linéaire, on va remplacer les valeurs


observées par leur rangs, puis calculer la corrélation non paramétrique
de Spearman, rs, avec le temps. Soit une série de n observations. Si on appelle R
le rang moyen, Rx le rang de la valeur de l'observation x, Ry le rang de la valeur de
l'abcisse temporelle correspondante, ex, le nombre d'ex-æquo la formule s'écrit:

n n n n
(ex3 - ex)
 x (R - 2
R) +  y (R - R) -  12 -  (Rx - Ry)2
2
i=1 i=1 i=1 i=1
rs = n n n
(ex3 - ex)
2  (Rx - R) 2
 (Ry - R) -  12
2
i=1 i i=1
.

Interprétation

1) Les valeurs du coefficient de Spearman sont comprises entre -1 et +1.


Si le processus est purement aléatoire, la moyenne de rs est égale à 0 et sa
variance est égale à 1/(n-1). La distribution des rs est normale pour n >50.
On calcule ici la quantité rs n - 22 qui suit une loi t de Student,
1 - rs

avec n-2 degrés de liberté, valable pour tout n.


2 ) Il existe une tendance si la corrélation sur les rangs du temps et des
observations est significative.

3) Quand la moyenne du coefficient est négative alors la tendance est


décroissante et quand elle est positive la tendance est croissante.
Corrélation de Mann-Kendall
Le principe du test de Mann-Kendall de l’existence d’une tendance est d’examiner le
signe des différences sur des paires des données observées.

Z  r/ 2
r

 4 p  2 2(2n  5)
r    1 et r 

n(n  1) 
 9n(n  1)

p = nombre de fois où x  x > 0 avec j >i


j i

Pour un seuil  donné, on refusera Ho (pas de tendance) si :

Z  z1  
PAUSE


Estimation de la tendance générale
• Par régressions:

L'idée simple pour estimer une tendance générale est de vérifier son
ajustement par une droite, une parabole, un polynôme d'ordre plus élevé.

Ces techniques reposent sur l'algorithme des moindres carrés: on minimise les
carrés d'écarts entre les données observées et un polynôme de degré fixé à
l'avance. L'estimation des paramètres se fait en considérant un système
d'équations de dérivés partielles. La signification de l'ajustement peut se
faire par l'inférence statistique si les distributions sont normales, cas
malheureusement peu fréquent avec les séries.
Zt = at + b où Zt est la tendance

Si on veut plus détailler la série, on peut utiliser une régression polynomiale


Mais on est face à une ambiguïté si un ajustement par un polynôme d'ordre 5 par
exemple, semble très bien décrire visuellement la tendance générale, l'ajustement
simple peut être lui aussi déjà, hautement significatif. Pour savoir si un degré
supérieur est nécessaire il faut tester si le coefficient de régression partielle attaché à
ce degré est significativement différent de 0.
Estimation de la tendance générale
• Par les moyennes mobiles:

La méthode des Moyennes Mobiles (MB), correspond à un filtre linéaire.


Le filtrage linéaire d'une chronique Zt, consiste à remplacer les diverses valeurs
de cette chronique par une combinaison linéaire de ses diverses valeurs :
remplacer chaque valeur de la série par la moyenne des valeurs comprises
dans 1 fenêtre définie de façon arbitraire.
Plus la fenêtre est grande et plus le lissage est fort c’est la moyenne de
beaucoup de termes

Si on fait un bon choix dans la grandeur de la fenêtre alors la série obtenue


peut être considérée comme la tendance générale .
Moyenne mobile simple :

i  m
1
Yj  y j i wi
 wi i  m

C’est donc la somme des valeurs comprises dans la fenêtre et on divise


par la somme des coefficients de pondération
Une moyenne mobile d’ordre m (calculée sur 2m+1 termes) a la propriété d’éliminer
le cycle de même période, la fréquence de coupure du spectre étant égale en effet à :

1
fc 
2m  1
Si 2m + 1 égale période de la série alors on fait apparaître la tendance en moyennant
la composante : si 2m + 1 = T alors Ft = MMt
Moyenne mobile pondérée : les termes qui sont proches ont plus de poids que les
termes qui sont loin
Ex : MB simple : 1 1 1 1 1
MB pondérée : 0,3 0,8 1 0,8 0,3
Filtrage Moyennes mobiles
Filtrage des moyennes mobiles
2000 2000
2m+1=5 2m+1=7

1000 1000

0 0
0 20 40 60 80 0 20 40 60 80

2000 2000
2m+1=13
w= [.2 .5 .9 1 .9 .5 .2]
2m+1=7
1000 1000

0 0
0 20 40 60 80 0 20 40 60 80
Estimation de la tendance locale
2 méthodes:
1) Différence entre la série totale et la tendance générale
St = Yt – Ft
où Yt est la série totale et Ft est la tendance générale

2) Méthode des sommes cumulées:


Cette méthode dite des sommes cumulées se propose :
• de détecter les changements survenant dans le niveau moyen de la série
• de déterminer la date d’apparition de ces changements
• d’estimer la valeur moyenne d’intervalles homogènes
Soit une série échantillonnée régulièrement à pas constant, x(t), t variant entre 1 et N.
Choisissons une valeur de référence k (par exemple la moyenne). On retire cette
valeur k de toutes les estimations de la série, puis on effectue le cumul des valeurs
successives :

S1 = (x1 - k)
S2 = (x1 - k) +(x2 - k) = S1 +(x2 - k)
= x1 + x2 - 2k

p
D’où
S p =  xi - p k
i=1
Cette somme cumulée est très sensible au changement de la valeur moyenne d'une
série.
Les changements d’Acartia dans la
8
Gironde 5000 20
Ln(ACARTIA MES SALINITE
6 ) 4000
3000
4 10
2000
2 1000
0 0 0
1978 80 82 84 86 88 90 1978 80 82 84 86 88 90 1978 80 82 84 86 88 90
Années Années Années

MES Ln (Acartia ) Salinité Ln (Acartia )


3a 10 0
3b
30000 S = 8,90 10
A = 413 M = 1686 S = 3,20
0 -20 0
20000 M = 762 A = 2529
-40
-10 -10
10000 -60 S = 4,30
-20 A = 413 -20
-80
0
A =108 A = 2529 -30 -100 A = 108 -30
M =1020
-10000 -40 -120 -40
1978 79 80 81 82 83 84 85 86 87 88 89 90 91 1978 79 80 81 82 83 84 85 86 87 88 89 90 91
Années Années
Estimation de la composante
aléatoire

et = Y t – S t avex E(et) = 0
Elimination de la tendance
générale
Elimination directe: méthode des
différence
La méthode des différences a pour but d'éliminer la tendance. Ce n'est valable
que si la série a une tendance monotone et non "en dents de scie".
Pour décrire la méthode, définissons d'abord la notion d'opérateurs de
retard.
Soit l'opérateur polynomial :  = L0 - L1
Soit: Zt = (L0 - L1 )Zt = Zt - Zt-1
Les différences d'ordre r (successives), sont définies par :
r
r
 Zt = (L0 - L1 )rZt =  (-1)r-i Cir Li Zt
i=0
où Cir désigne les combinaisons simples de i termes pris r à r.
Exemple: Soient les différences secondes:
2 2
 Zt = (L0 - L1 ) Zt = (L0 + L2 - 2L1 L0 ) Zt
2
 Zt = Zt + Zt-2 - 2 Zt-1

La transformation de Zt en  Z t élimine totalement ou en partie la tendance.


2

La méthode des différences est extrêmement courante lorsqu'on désire se rapprocher


de façon rapide et simple de la stationnarité, en répétant le procédé si nécessaire.
Elimination par la méthode des
moyennes mobiles
La méthode des moyennes mobiles permet également d'éliminer directement
toute variation cyclique. Si on dispose d'une série pluriannuelle avec des
observations mensuelles, une MB simple centrée de 12 mois (13 mois
successifs) élimine la variation saisonnière.

Problème du centrage des observations dans la fenêtre de lissage:

On démontre qu'une MB calculée sur 12 termes a la propriété d'éliminer le


cycle de même période, la fréquence de coupure du spectre (voir chapitre
sur l'analyse spectrale), étant égale en effet à: 1
fc =
2m + 1
Cependant on ne peut centrer les observations dans une fenêtre contenant un
nombre pair de termes. C'est pourquoi on va considérer un lissage avec une fenêtre
à 13 termes. Le filtre de désaisonnalisation s'écrira:

11
1 1
Yi =
11  Z i-6+j + 24 (Z i-6 + Z i+6)
j=1

Comme il faut considérer le poids de 12 valeurs et non de 13, les observations


extrêmes dans la fenêtre, comptent seulement pour moitié. Naturellement, 6
valeurs au début et 6 valeurs à la fin de la série, ne pourront être estimées par cet
algorithme.

Problème de l'estimation des termes extrêmes de la série lissée


La méthode d'addition de valeurs au début et à la fin de la série ne s'applique pas
ici si on a à estimer 6 mois successifs au début et à la fin d'une série
pluriannuelle. Si la série comporte un grand nombre d'années, on peut
préalablement rajouter les valeurs des 6 premiers mois de la deuxième année au
début et les valeurs des 6 derniers mois de l'avant dernière année à la fin.
Elimination par la méthode des
écarts saisonniers
La méthode des différences est également efficace pour éliminer une tendance
sinusoïdale.
Si on dispose par exemple de séries pluriannuelles avec un pas d'observation
mensuel, dans la mesure où on considère que la variabilité saisonnière peut
être modélisée par une sinusoïde (ce qui n'est pas le cas général, car souvent
les cycles annuels biologiques sont "télescopés" : la période de
reproduction printanière est souvent décalée d'une année sur l'autre..), alors on
remplace les données Zi par les écarts aux moyennes des mois respectifs. Si
la série était une sinusoïde, un tel filtrage aurait pour effet de la transformer en
ne droite. Supposons que l'on ait n années, la valeur désaisonnalisée zi du
mois i s'écrira:
12
 Zt
t=1
zi = Zi -
12
Pause


Prendre en compte
l’autocorrélation dans les
études de corrélation
L’autocorrélation c’est lorsque les données d’une année sont fortement liées aux
valeurs l’année précédente

L’autocorrélation viole l’hypothèse d’indépendance requise pour la plupart des tests


statistiques

Pour faire face à ce problème, les scientifiques spécialisés dans les pêches ont mis
au point deux types de méthode :

- Calculer un degré de liberté modifié prenant en compte l’autocorrélation.


- Enlever l’autocorrélation avant de faire le moindre test statistique
Ajuster les degrés de liberté
Méthode pas très utile lorsque les séries temporelles sont courtes. En effet, le
calcul des degrés de liberté passe par l’estimation de la fonction
d’autocorrélation, difficilement calculable pour les séries courtes.

Plusieurs changements sont opérés entre l’analyse des données brutes et lorsque
l’on s’intéresse à traiter l’autocorrélation:
1) Ajustement de la fonction d’autocorrélation
2) Changement du nombre de degrés de liberté utilisés pour les corrélations
Fonction d’autocorrélation « normale »

= Eq. 1

Fonction d’autocorrélation modifiée pour prendre en compte l’autocorrélation:

Eq. 1
Nombre de degrés de liberté effectifs:

N/5

Ne pas utiliser N* comme degré de liberté mais N*- 2

Cette prise en compte de l’autocorrélation a tout d’abord été prise en compte


par Chelton et modifiée par Pyper et Peterman (1998)
Eliminer l’autocorrélation

Le principe est que si les séries sont libérées de leur autocorrélation alors les
tests statistiques peuvent leur être appliqués.
Cependant, enlever l’autocorrélation revient à enlever la variabilité à court
terme. Ainsi, le problème est que si la composante basse fréquence est
commune entre les deux séries (processus synchrones ou asynchrones) alors
enlever l’autocorrélation revient également à se séparer de la covariance. On
est donc dans un cas où l’on tend à augmenter l’erreur de type II, i.e.
augmenter la probabilité de ne pas détecter d’importantes relations entre des
processus à variation lente à long terme et par exemple la dynamique des
populations de poissons.
2 méthodes principales pour éliminer l’autocorrélation:

• Prewhithenning: Ajuster un modèle de série temporelle (autoregressif) et


analyser les résidus

• First differencing: Soustraire chaque point du suivant


Eliminer la variabilité haute
fréquence
Lorsque l’on est intéressé par la variabilité basse fréquence
(long terme), il est fréquent de lisser (smoothing) les
Séries temporelles. C’est une approche opposée à
l’élimination de l’autocorrélation du fait qu’au lieu de retirer
la variabilité basse fréquence, on retire la variabilité haute
fréquence. L’hypothèse associée à ce type de traitement
est que le « bruit » haute fréquence (court terme), comme
l’erreur de mesure, peut voiler la détection d’une
importante variabilité basse fréquence commune.

Ce processus se fait par exemple très simplement à l’aide


des moyennes mobiles.
Conclusions
• Lorsqu’on a des données indicées par le
temps elles doivent être traitées avec
précaution
• Il faut savoir à quelle échelle on souhaite
travailler, ce que l’on recherche
principalement
• Si l’on veut faire des études de corrélations
ou de régression, il est très important de
prendre en compte l’autocorrélation des
données