Vous êtes sur la page 1sur 41

Introduction à l’Etude des Séries Chronologiques

Céline Lévy-Leduc

16 mai 2007
Chapitre 1

Introduction et Motivations

1.1 Introduction
1.1.1 Définitions et objectifs
Définition 1. Une série chronologique est un ensemble d’observations, xt , chacune étant
enregistrée à un instant spécifique t. L’intervalle d’observations sera noté T0 dans la suite.
L’étude des séries chronologiques est utile lorsque l’on cherche à analyser, comprendre ou
encore prévoir un phénomène évoluant dans le temps. Le but est donc de tirer des conclusions
à partir des séries observées. Nous considèrerons les étapes suivantes :
1. Proposer un modèle probabiliste afin de représenter les données.
2. Estimer les paramètres du modèle choisi et vérifier la qualité de l’ajustement aux
données (validation du modèle).
3. Application du modèle (validé) : prévision.
Les domaines concernés sont nombreux :
– ingéniérie, (EDF, pollution)
– sociologie, (chômage, grèves)
– finance, (ventes, bourse, passagers)
– industrie. (production, consommation)

1.1.2 Exemples de séries chronologiques


Exemple 1. Vente de vin rouge.
La Figure 1.1 montre les ventes mensuelles (en kilolitres) de vin rouge de janvier 1980
jusqu’à octobre 1991. L’intervalle d’observations est T0 = {1, 2, . . . , 142}. La courbe suggère
que les ventes ont une tendance croissante et un caractère saisonnier avec un maximum en
juillet et un minimum en janvier.
Exemple 2. Population des U.S.A., 1790 − 1990
La population des U.S.A., mesurée tous les 10 ans, est représentée par la Figure 1.2.
La courbe suggère la possibilité d’adapter une tendance quadratique ou exponentielle aux
données.
On définit maintenant la notion de processus stationnaires. Ceux-ci jouent un rôle fonda-
mental dans l’étude des séries chronologiques.

1
3000

2500

2000

ventes mensuelles de vin 1500

1000

500

0
0 12 24 36 48 60 72 84 96 108 120 132 144
mois (janvier1980−octobre1991)

Fig. 1.1 – Ventes annuelles de vin rouge (en kilolitres) entre janvier 1980 et octobre 1991.

250

200

150
millions

100

50

0
1790 1810 1830 1850 1870 1890 1910 1930 1950 1970 1990

Fig. 1.2 – Population des U.S.A. en intervalles de 10 ans, 1790 − 1990.

1.2 Stationnarité et stationnarité stricte


Définition 2. (Fonction d’autocovariance) Soit {Xt , t ∈ Z} un processus aléatoire tel que
V ar(Xt ) < ∞ pour tout t ∈ Z. La fonction d’autocovariance γX (., .) de {Xt } est définie par

γX (r, s) = Cov(Xr , Xs ) = E {(Xr − E(Xr ))(Xs − E(Xs ))} , r, s ∈ Z.

Définition 3. (Stationnarité ou Stationnarité faible) La série temporelle {Xt , t ∈ Z} est dite


stationnaire ou faiblement stationnaire si
(i) E(Xt2 ) < ∞
(ii) E(Xt ) = m, ∀t ∈ Z
(iii) γX (r, s) = γX (r + t, s + t), ∀r, s, t ∈ Z.
Remarque 1. Si {Xt , t ∈ Z} est stationnaire alors γX (r, s) = γX (r − s, 0) ∀r, s ∈ Z. Il
est donc plus agréable de redéfinir la fonction d’autocovariance d’un processus stationnaire
comme une fonction d’une seule variable définie par

γX (h) := γX (h, 0) = Cov(Xt+h , Xt ) ∀t, h ∈ Z.

Définition 4. (Stationnarité stricte) La série temporelle {Xt , t ∈ Z} est dite strictement


stationnaire si les lois jointes de (Xt1 , . . . , Xtk ) et de (Xt1 +h , . . . , Xtk +h ) pour tout entier
positif k et pour tous t1 , . . . , tk , h ∈ Z.
Intuitivement, une série chonologique strictement stationnaire doit avoir le même com-
portement statistique sur des intervalles de temps égaux.

2
1.2.1 Relation entre stationnarité faible et stricte
Un processus strictement stationnaire ayant ses moments d’ordre 2 finis est faiblement
stationnaire.
La réciproque n’est pas vraie en général.

Contre-exemple : Soit {Xt } une suite de variables aléatoires indépendantes telle que
– Xt ∼ E(1), lorsque t est pair
– Xt ∼ N (1, 1), lorsque t est impair
alors {Xt } est stationnaire avec γX (0) = 1 et γX (h) = 0 lorsque h 6= 0. Cependant X1 et X2
n’ont pas la même loi donc {Xt } n’est pas strictement stationnaire.

Cependant, il y a une classe importante de processus pour laquelle l’assertion : “ station-


narité (faible) implique stationnarité stricte ” est vraie : il s’agit des processus gaussiens.
En effet, ils sont caractérisés par leur espérance et leur covariance.

1.2.2 Quelques exemples


Exemple 3. Processus à moyenne mobile d’ordre 1 : MA(1)

Soit {Zt } une suite de variables iid d’espérance nulle et de variance finie σZ2 . On pose

Xt = Zt + θZt−1 .

La fonction d’autocovariance de Xt est donnée par

Cov(Xt+h , Xt ) = Cov(Zt+h + θZt+h−1 , Zt + θZt−1 )



 (1 + θ2 )σZ 2 , si h = 0
= θσZ 2 , si h = +1 ou − 1

0, si |h| > 1.

{Xt } est donc un processus stationnaire. En fait, on peut montrer qu’il est aussi stationnaire
au sens strict.

Exemple 4.

Soit {Yt } une série temporelle stationnaire. On définit


½
Yt , si t est pair
Xt =
Yt + 1, si t est impair

Bien que Cov(Xt+h , Xt ) = γY (h), {Xt } n’est pas un processus stationnaire car il n’a pas une
espérance constante.

Exemple 5. Marche aléatoire

Soit St = X1 + X2 + · · · + Xt où les Xi sont iid d’espérance nulle et de variance σ 2 . Pour


h > 0,
à t+h t
! Ã t t
!
X X X X
Cov(St+h , St ) = Cov Xi , Xi = Cov Xi , Xi = σ 2 t.
i=1 i=1 i=1 i=1

3
Donc {St } n’est pas stationnaire.
Evidemment, la plupart des séries temporelles ne sont pas des réalisations de processus
stationnaires. Mais comme on va le voir dans les paragraphes qui suivent, on peut s’y ramener
en faisant subir à la série chonologique certaines transformations.

1.3 Modélisation des séries chronologiques


Une étape importante dans l’analyse des séries chronologiques (SC) est le choix d’un
modèle probabiliste pour les données. Afin de conclure sur le caractère aléatoire des observa-
tions futures, il est naturel de supposer que chaque observation xt est une réalisation d’une
variable aléatoire Xt . La SC {xt , t ∈ T0 } est une réalisation de la famille de variables aléatoires
{Xt , t ∈ T0 }. Ces considérations suggèrent de modéliser les données comme une réalisation
d’un processus aléatoire {Xt , t ∈ T } où T ⊇ T0 .

1.3.1 Modèle général


On modélise un processus par la somme d’une partie déterministe et d’une partie aléatoire
(modèle additif), ou par le produit d’une partie déterministe et d’une partie aléatoire (modèle
multiplicatif). Le modèle de décomposition classique est le suivant (modèle additif) :

Xt = mt + st + et 1 ≤ t ≤ n. (1.1)

où dt = (mt + st ) représente la partie déterministe du processus et et sa partie aléatoire, avec


1. mt une fonction qui varie lentement, appelée la composante de tendance. C’est une
fonction qui varie au cours du temps et traduit l’aspect général de la série.
2. st une fonction périodique de t avec la période d : st−d = st . C’est la composante
saisonnière de période 4, 12, 52...selon qu’il s’agit de données trimestrielles, mensuelles,
hebdomadaires....
3. et un bruit aléatoire, stationnaire, de moyenne nulle. Il correspond à la notion d’écart
au modèle.
NB : Le modèle multiplicatif s’écrira Xt = dt et , où dt est la partie déterministe et et la partie
aléatoire.
La modélisation de la série (trajectoire du processus) comporte deux parties :
– celle de la partie fixe,
– celle de la partie aléatoire.

Nous nous intéressons tout d’abord à la première étape qui consiste à voir s’il existe une
tendance, une composante saisonnière, etc....et à les modéliser.

Pour détecter une tendance et/ou une saisonnalité, on peut s’aider des informations a priori,
notamment la nature des données et leur représentation graphique ; par exemple, si le signal
observé est la consommation mensuelle d’électricité par foyer, on pourra s’attendre à une
certaine saisonnalité (mensuelle ? trimestrielle ?) et à une tendance (linéaire ? quadratique ?).

4
1.3.2 Modèles avec tendance et composante saisonnière
Modèles avec tendance
Le modèle est de la forme :
Xt = mt + et (1.2)
où et est un bruit aléatoire de moyenne nulle.

Pour modéliser la tendance de la série observée, on peut par exemple chercher une fonction
paramétrique qui ressemble à l’allure générale de la série et estimer les paramètres de cette
fonction afin d’ajuster le mieux possible les observations.

Les fonctions les plus utilisées sont des fonctions :


• linéaires :
mt = a + bt. (1.3)
• polynomiales :
mt = a0 + a1 t + . . . ad td . (1.4)
NB : on peut aussi modéliser par des fonctions de type exponentiel.

Il existe plusieurs méthodes pour estimer la fonction mt . Une des plus utiles est la méthode
des moindres carrés. Les paramètres des fonctions sont choisis de façon à minimiser l’erreur :
n
X
(xt − mt )2 . (1.5)
t=1

Un examen visuel de la série permet en général de se faire une idée du degré du po-
lynôme à utiliser. Il faut utiliser un polynôme de degré le plus petit possible tout en ayant
un bon ajustement. Pour cela, on aimerait que les résidus fluctuent autour de 0 avec une
amplitude la plus faible possible.

NB : On peut aussi regarder l’erreur définie en (1.5) : par exemple, si l’erreur pour un
polynôme de degré d = 4 est proche de celle pour un polynôme de degré d = 3, alors le choix
d = 4 n’améliore pas nettement l’ajustement.

Exemple 6. Population des U.S.A

On essaie d’ajuster un polynôme de degré 2 (i.e d = 2 dans (1.4)). Pour obtenir les estimées
de a0 , a1 et a2 , on écrit
 
  1 t1 t21
a0  1 t2 t22 
Y = A  a1  + e où A =   ...
 , les ti étant les instants d’observations.

a2 2
1 tn tn

On estime a0 , a1 et a2 en utilisant le critère des moindres carrés


 
ab0
 ab1  = (AT A)−1 AT Y.
ab2

5
On représente dans la Figure 1.3 : m̂ = A(ab0 ab1 ab2 )T . On peut s’en servir pour faire de la
prévision ce qui donne
Année 2000 : Population estimée = 2.74348 × 108
Année 2010 : Population estimée = 3.01466 × 108
Année 2020 : Population estimée = 3.29886 × 108 .
6
300 x 10
4

250
2

200
0

150
−2

100 −4

50 −6

0 −8
1750 1800 1850 1900 1950 2000 1750 1800 1850 1900 1950 2000

Fig. 1.3 – Ajustement polynomial et résidus pour les données : Population des U.S.A.

Modèles avec composante saisonnière


Pour représenter un effet saisonnier, admettant du bruit mais pas de tendance, nous
utilisons le modèle simple suivant :
Xt = st + et (1.6)
où st est une fonction périodique de t, de période d, i.e., pour tout t, st−d = st . Un choix
convenable pour st est une somme de fonctions harmoniques définies par
k
X
st = a0 + [aj cos(λj t) + bj sin(λj t)] ,
j=1

où a0 , a1 . . . , ak et b1 . . . , bk sont des paramètres inconnus, et λ1 . . . , λk sont des fréquences


fixes, chacune étant un multiple entier de 2π/d.

Exemple 7. Victimes des accidents de la route aux U.S.A entre 1973 et 1978

11500

11000

10500

10000

9500

9000

8500

8000

7500

7000

6500
0 10 20 30 40 50 60 70 80

Fig. 1.4 – Nombre mensuel de victimes des accidents de la route aux USA entre 1973 et 1978

6
On ajuste aux données une fonction périodique avec une seule composante harmonique de
période 12 mois et une fonction périodique avec deux composantes : l’une de période 6 mois
et l’autre de période 12 mois (voir Figure 1.5).
• 1er cas : k = 1, λ1 = 2π/12
 
  1 cos(λ1 t1 ) sin(λ1 t1 )
ab0  
 ab1  = (AT A)−1 AT Y, où A =  1 cos(λ1 t2 ) sin(λ1 t2 ) 
 ... 
bb1
1 cos(λ1 tn ) sin(λ1 tn )

• 2ème cas : k = 2, λ1 = 2π/12, λ2 = 2π/6


 
ab0  
  1 cos(λ1 t1 ) sin(λ1 t1 ) cos(λ2 t1 ) sin(λ2 t1 )
ab1
   1 cos(λ1 t2 ) sin(λ1 t2 ) cos(λ2 t2 ) sin(λ2 t2 ) 
 bb1  = (AT A)−1 AT Y, où A =  
   ... 
 ab2 
1 cos(λ1 tn ) sin(λ1 tn ) cos(λ2 tn ) sin(λ2 tn )
bb2

11500 11500

11000 11000

10500 10500

10000 10000

9500 9500

9000 9000

8500 8500

8000 8000

7500 7500

7000 7000

6500 6500
0 10 20 30 40 50 60 70 80 0 10 20 30 40 50 60 70 80

Fig. 1.5 – Ajustement de composantes saisonnières

Les différentes composantes déterministes ayant été modélisées, il reste à les éliminer pour
effectuer la deuxième étape de modélisation, celle de la partie aléatoire.

1.3.3 Elimination de la tendance et de la composante saisonnière par différenciation


(Box et Jenkis (1970))
Opérateur retard et opérateur différence
Opérateur retard :
L’opérateur retard B décale le processus d’une unité de temps vers le passé :

BXt = Xt−1 .

Si on applique j fois cet opérateur, on décale le processus de j unités de temps :

B j Xt = B(B(..BXt )) = Xt−j .

Opérateur différence :

7
L’opérateur différence ∆ fait la différence entre le processus et sa version décalée de une
unité de temps :
∆Xt = Xt − Xt−1 = (1 − B)Xt .
• Elimination de la tendance
L’opérateur différence ∆ élimine les tendances linéaires. Par exemple, pour un processus
de la forme
Xt = a + bt + et ,
on a
∆Xt = b + et − et−1 .
De façon générale, l’opérateur ∆d élimine les tendances polynomiales de degré d. Par
exemple, pour une tendance de degré 2,

∆2 Xt = ∆2 (a + bt + ct2 + et ) = (1 − B)2 Xt = 2c + (et − 2et−1 + et−2 ).

Exemple 8. Population des U.S.A.


Après deux applications de l’opérateur ∆, on s’est ramené à une série stationnaire ce
qui confirme ce que l’on a obtenu précédemment pour cette série temporelle (voir Figure
1.6).

pop U.S.A.

200
millions

150
100
50
0
1780 1800 1820 1840 1860 1880 1900 1920 1940 1960 1980 2000
pop U.S.A. − differenciation de degre 1

20
millions

10

0
1780 1800 1820 1840 1860 1880 1900 1920 1940 1960 1980 2000
pop U.S.A. − differenciation de degre 2
10

5
millions

−5

1780 1800 1820 1840 1860 1880 1900 1920 1940 1960 1980 2000

Fig. 1.6 – Différenciation de la série : Population des U.S.A

• Elimination de la composante saisonnière


L’opérateur ∆d = (1 − B d ) élimine une saisonnalité de degré d. Par exemple, pour un
modèle général,
Xt = mt + st + et ,
où st est de période d, on obtient,

∆d = mt − mt−d + et − et−d .

8
avec mt − mt−d la tendance et et − et−d le bruit.

Exemple 9. Nombre de victimes des accidents de la route aux U.S.A.


On applique tout d’abord ∆12 pour faire une désaisonnalisation d’ordre 12 et ensuite
on fait une différenciation d’ordre 1 (voir Figure 1.7).

11000
nombre de victimes

10000

9000

8000

7000
0 10 20 30 40 50 60 70
differenciation de degre 12 pour la saisonnalite
nombre de victimes

500
0
−500
−1000
−1500
0 10 20 30 40 50 60 70
differenciation de degre 1 pour la tendance
nombre de victimes

1000
500
0
−500
−1000
0 10 20 30 40 50 60 70
mois (janvier1973−decembre1978)

Fig. 1.7 – Désaisonnalisation et différenciation de la série : nombre de victimes des accidents


de la route aux U.S.A

1.3.4 Méthode générale pour la modélisation des séries chronologiques


Les exemples que l’on a vus indiquent l’approche générale suivante pour la modélisation
des SC :
• tracer la série et examiner les caractéristiques du graphique. Vérifier en particulier si il
existe
1. une tendance,
2. une composante saisonnière
• modéliser la tendance et la composante saisonnière.
• enlever la tendance et la composante saisonnière afin d’obtenir des résidus station-
naires.
• choisir un modèle pour les résidus en utilisant des statistiques (empiriques) de la réalisation,
comme par exemple l’autocorrélation (voir plus loin).
Ensuite, on peut faire de la prévision sur les résidus d’abord et puis en inversant les transfor-
mations sur les données.

9
1.4 Propriétés de la fonction d’auto-covariance d’un processus
stationnaire
1.4.1 Propriétés de la fonction d’auto-covariance
Proposition 1. Si γ(.) est la fonction d’autocovariance d’un processus stationnaire {Xt , t ∈
Z} alors
(i) γ(0) ≥ 0,
(ii) |γ(h)| ≤ γ(0), ∀h ∈ Z
(iii) γ(−h) = γ(h), ∀h ∈ Z.
Démonstration. (i) : γ(0) = Var(Xt ) ≥ 0.
(ii) : Par l’inégalité de Cauchy-Scwarz,

|E [{Xt+h − E(Xt+h )} {Xt − E(Xt )}]| ≤ Var(Xt+h )1/2 Var(Xt )1/2 .

(iii) γ(−h) = Cov(Xt−h , Xt ) = Cov(Xt , Xt+h ) = γ(h).

Définition 5. Une fonction κ : Z −→ R est dite définie positive si et seulement si


n
X
ai κ(ti − tj )aj ≥ 0
i,j=1

pour tous entiers positifs n et pour tous vecteurs a = (a1 , . . . , an )0 ∈ Rn et t = (t1 , . . . , tn )0 ∈


Zn .
Théorème 1. (Caractérisation des fonctions d’autocovariance)
Une fonction à valeurs réelles définie sur les entiers est la fonction d’autocovariance d’une
série temporelle stationnaire si et seulement si elle est paire et définie positive.
Démonstration. Montrons que la fonction d’autocovariance d’une série temporelle {Xt } est
définie positive. Si a = (a1 , . . . , an )0 ∈ Rn , t = (t1 , . . . , tn ) ∈ Zn et Zt = (Xt1 −E(Xt1 ), . . . , Xtn −
E(Xtn ))0 alors
n
X
0 ≤ Var(a0 Zt ) = a0 E(Zt Zt0 )a = a0 Γn a = ai γ(ti − tj )aj ,
i,j=1

où Γn = [γ(ti − tj )]1≤i,j≤n est la matrice de covariance de (Xt1 , . . . , Xtn )0 .

La réciproque est admise.

Exemple 10.
Montrons que la fonction suivante définie sur Z :

 1 , si h=0
κ(h) = ρ , si h=+1 ou -1

0 , sinon.

est une fonction d’autocovariance si et seulement si |ρ| ≤ 1/2.


En effet,

10
κ est la fonction d’autocovariance d’un MA(1) avec σ 2 = (1 + θ2 )−1
– Si |ρ| ≤ 1/2, alors p
et θ = (2ρ)−1 (1 ± 1 − 4ρ2 ).
– Si ρ > 1/2, K = [κ(i−j)]1≤i,j≤n et a le vecteur de taille n défini par a = (1, −1, 1, −1, . . . )0
alors
a0 Ka = n − 2(n − 1)ρ < 0 lorque n > 2ρ/(2ρ − 1),
ce qui montre que κ(.) n’est pas définie positive et donc d’après le théorème précédent
κ n’est pas une fonction d’autocovariance.
– Si ρ < −1/2, on peut utiliser le même argument que précédemment mais cette fois-ci
avec comme vecteur a : a = (1, 1, 1, . . . ).

1.4.2 Fonction d’auto-covariance empirique


A partir des observations {x1 , . . . , xn } d’une série chronologique stationnaire {Xt }, nous
aurons souvent besoin d’estimer la fonction d’autocovariance γ(.) du processus sous-jacent
{Xt } afin de mieux comprendre sa structure de dépendance.

Définition 6. La fonction d’auto-covariance empirique de {x1 , . . . , xn ) est définie par


n−h
X
−1
γ̂n (h) = n (xj+h − x̄)(xj − x̄), 0 ≤ h < n
j=1

n (h) = γ̂n (−h) lorsque −n < h ≤ 0, x̄ étant la moyenne empirique des xi : x̄ =


et γ̂P
n−1 nj=1 xi .

Définition 7. La fonction d’auto-correlation empirique est définie par

ρ̂(h) = γ̂n (h)/γ̂n (0), |h| < n

Exemple 11. Autocorrelation empirique pour la série : population aux U.S.A (voir Figure
1.8).

300

250 0.8

0.6

200 0.4

0.2

150 0

−0.2

100 −0.4

−0.6

50 −0.8

−1

0
1750 1800 1850 1900 1950 2000 0 2 4 6 8 10 12 14 16 18 20

Fig. 1.8 – Autocorrelation empirique pour la série : Population aux U.S.A

Exemple 12. Autocorrelation empirique pour la série : ventes de vin aux U.S.A (voir Figure
1.9)

11
3000

2500 0.8

0.6

2000 0.4
ventes mensuelles de vin

0.2

1500 0

−0.2

1000
−0.4

−0.6

500
−0.8

−1
0
0 12 24 36 48 60 72 84 96 108 120 132 144
mois (janvier1980−octobre1991) 0 5 10 15 20 25 30 35 40

Fig. 1.9 – Autocorrelation empirique pour la série : ventes de vin aux U.S.A.

12
Chapitre 2

Processus ARMA

Dans ce chapitre, nous introduisons une classe très importante de séries chronologiques
{Xt , t ∈ Z} : les processus auto-régessifs à moyenne mobile (Auto Regressive Moving Ave-
rage). De plus, pour toute fonction d’autocovariance γ telle que limh→∞ γ(h) = 0, il existe un
processus ARMA de fonction d’auto-covariance γX telle que γX (h) = γ(h), h = 0, 1, . . . , k
pour tout entier k > 0. C’est entre autres pour cette raison que les modèles ARMA jouent un
rôle très important dans l’étude des séries temporelles.

2.1 Inversibilité et causalité des processus ARMA


Définition 8. (Bruit blanc)
Un processus {Zt } est un bruit blanc de moyenne nulle et de variance σ 2 noté

{Zt } ∼ W N (0, σ 2 ), (WN est une abréviation pour White Noise)

si et seulement si {Zt } est de moyenne nulle et de fonction d’auto- covariance définie par
½ 2
σ , si h = 0,
γ(h) =
0, si h 6= 0.

Définition 9. (Processus ARMA(p,q))


Le processus {Xt , t ∈ Z} est un processus ARMA si {Xt } est stationnaire et si pour tout t,

Xt − φ1 Xt−1 − · · · − φp Xt−p = Zt + θ1 Zt−1 + · · · + θq Zt−q ,

où {Zt } ∼ W N (0, σ 2 ). On dit que {Xt } est un processus ARMA(p,q) de moyenne µ si {Xt −µ}
est un processus ARMA(p,q).

L’équation ci-dessus peut être réécrite de façon symbolique comme suit

φ(B)Xt = θ(B)Zt , t ∈ Z,

où φ(z) = 1 − φ1 z − · · · − φp z p , θ(z) = 1 + θ1 z + · · · + θq z q et B est un opérateur de retard


defini par
B j Xt = Xt−j , j ∈ Z.

Exemple 13. Processus MA(q)

13
Si φ(z) est identiquement égal à 1, alors

Xt = θ(B)Zt

et {Xt } est appelé processus à moyenne mobile d’ordre q. Ainsi défini, {Xt } est un processus
stationnaire. En effet,
q
X
E(Xt ) = θj E(Zt−j ) = 0,
j=0

où θ0 = 1 et ( Pq−|h|
σ2 j=0 θj θj+|h| , si |h| ≤ q,
Cov(Xt+h , Xt ) =
0, si |h| > q.

Exemple 14. Processus AR(p)

Si θ(z) est identiquement égal à 1, alors

φ(B)Xt = Zt .

L’existence et l’unicité d’une solution stationnaire reste à établir. Nous allons examiner le cas
où p = 1 : φ(z) = 1 − φ1 z i.e.
Xt = Zt + φ1 Xt−1 .
En itérant l’équation précédente, on obtient

Xt = Zt + φ1 Zt−1 + φ21 Zt−2 + · · · + φk1 Zt−k + φk+1


1 Xt−k−1 .

• |φ1 | < 1

On en déduit qu’au sens de la convergence dans L2 , on a



X
Xt = φj1 Zt−j . (2.1)
j=0

En effet, Xt étant une solution stationnaire,


° °2  2 
° k ° k
° X ° X
°X t −
° φj1 Zt−j °
° =E
Xt − φj1 Zt−j   = φ2k+2
1
2
E(Xt−k−1 ) → 0, lorsque k → ∞.
° j=0 ° j=0
2

On verra plus tard que l’égalité est aussi valable au sens de la convergence p.s. autrement dit
X j
Xt (ω) = φ1 Zt−j (ω), ∀ω ∈ A
j≥0

où A est tel que P (A) = 1. Vérifions qu’une telle solution (2.1) est bien stationnaire. On peut
le montrer de deux façons différentes.

14
– En utilisant la continuité du produit scalaire dans L2 défini par hX, Y i = E(XY ) : si
Xn converge vers X dans L2 (kXn − Xk2 → 0) et Yn converge vers Y dans L2 alors
limn→∞ hXn , Yn i = hX, Y i.
En effet, en écrivant hX, Y i = h(X − Xn ) + Xn , (Y − Yn ) + Yn i, on obtient en utilisant
l’inégalité de Cauchy-Schwarz

|hXn , Yn i − hX, Y i| ≤ |h(X − Xn ), (Y − Yn )i| + |h(X − Xn ), Yn i| + |hXn , (Y − Yn )i|


≤ kX − Xn k2 kY − Yn k2 + kX − Xn k2 kYn k2 + kY − Yn k2 kXn k2 → 0 .
P
On en déduit donc que E(Xt ) = limk→∞ E( kj=0 φj1 Zt−j ) = 0 et que
 Ã !
n
X Xn ∞
X
|h| 2 |h|
Cov(Xt+h , Xt ) = lim E  φj1 Zt+h−j  φk1 Zt−k  = σ 2 φ1 φ2j 2
1 = σ φ1 /(1−φ1 ).
n→∞
j=0 k=0 j=0

– En utilisant le théorème de Fubini


¯  ¯  
¯ X j ¯ X X
¯ ¯ j Fubini-Tonnelli
¯E 
¯ φ1 Zt−j  ¯≤E
¯ |φ1 | |Zt−j |  = |φ1 |j E(|Zt−j |)
¯ j≥0 ¯ j≥0 j≥0
Cauchy-Schwarz X
≤ σ2 |φ1 |j < ∞ .
j≥0
³P ´ P
j j
D’après le théorème de Fubini, E(Xt ) = E j≥0 φ1 Zt−j = j≥0 φ1 E(Zt−j ) = 0.
Pour l’auto-covariance de {Xt }, on regarde
¯  ¯  
¯ ¯
¯ X j X ¯ X
|E(Xt+h Xt )| = ¯¯E  φ1 Zt−j φk1 Zt+h−k ¯¯ ≤ E  |φ1 |j |φ1 |k |Zt−j ||Zt+h−k |
¯ j≥0 k≥0 ¯ j,k≥0
Fub-Ton,CS X
≤ |φ1 |j |φ1 |k σ 2 < ∞ .
j,k≥0

D’après le théorème de Fubini,

X ∞
X
|h| |h|
E(Xt+h Xt ) = φj1 φk1 E(Zt−j Zt+h−k ) = σ 2 φ1 φ2j
1 = σ 2 φ1 /(1 − φ21 ).
j,k≥0 j=0

On a de plus unicité de la solution. En effet, soient Xt et Yt deux solutions de l’équation :


Xt = φ1 Xt−1 +Zt , on a alors : Xt −φ1 Xt−1 = Yt −φ1 Yt−1 soit encore Xt −Yt = φ1 (Xt−1 −Yt−1 ).
En itérant, on obtient
Xt − Yt = φk1 (Xt−k − Yt−k ) .
Ainsi

E(|Xt − Yt |) = |φ1 |k E(|Xt−k − Yt−k )|) ≤ 2|φ1 |k σX σY → 0, lorsque k → ∞ .

D’où l’on déduit que Xt = Yt p.s.

15
• |φ1 | > 1
° P °2
° °
Dans ce cas-là, la norme L2 précédente : °Xt − kj=0 φj1 Zt−j ° = φ2k+21
2
E(Xt−k−1 ) diverge
2
lorsque k tend vers l’infini. Par contre, on peut réécrire l’équation définissant Xt en fonction
de Zt comme suit
Xt = −φ−1 −1
1 Zt+1 + φ1 Xt+1 .
En itérant l’équation précédente, on obtient
Xt = −φ−1 −2 −2
1 Zt+1 − φ1 Zt+2 + φ1 Xt+2 = . . .
= −φ−1 −2 −k−1
1 Zt+1 − φ1 Zt+2 − · · · − φ1 Zt+k+1 + φ1−k−1 Xt+k+1 .
En utilisant exactement les mêmes arguments que ceux employés précédemment, on déduit
que la solution stationnaire dans ce cas vaut
X −j
Xt = − φ1 Zt+j .
j≥1

Cette solution est non causale : elle dépend du “futur” et non pas que du passé comme dans
le cas précédent où dans ce cas la solution est causale dont une définition précise est donnée
plus loin.

• |φ1 | = 1

Par stationnarité de Xt ,
° °
° k−1
X °
° j ° k k
°X t − φ1 Zt−j °
° ° = φ1 kXt−k k2 = φ1 kXt k2 .
° j=0 °
2
Or, le carré du terme de gauche est aussi égal à
° °2 * +
°Xk−1 ° k−1
X
° °
kXt k22 + °
° φj1 Zt−j °
° − 2 Xt , φj1 Zt−j .
° j=0 ° j=0
2
°P °2 D Pk−1 j E °P °2 P
° k−1 j ° ° k−1 j ° k−1 2j
Ainsi, ° j=0 φ1 Zt−j ° = 2 Xt , φ
j=0 1 Zt−j . De plus, ° φ
j=0 1 Zt−j ° = j=0 φ1 σZ2 =
2 2
kσZ2 . D’où, en utilisant l’inégalité de Cauchy-Schwarz,
° °
°Xk−1 °
2
°
1/2 ° j ° 1/2
kσZ ≤ 2 (γX (0)) ° φ1 Zt−j °
° ≤ 2 (γX (0)) k 1/2 σZ ,
° j=0 °
2
ce qui est impossible pour k grand.

Donc, dans ce cas, il n’existe pas de solution stationnaire.


Définition 10. Un processus ARMA(p,q) défini par les P équations φ(B)Xt = θ(B)Zt est dit
causal s’il existe une suite de constantes ψj telles que j≥0 |ψj | < ∞ et
X
Xt = ψj Zt−j , t ∈ Z.
j≥0

16
La signification de la somme précédente est donnée par la proposition suivante.
P
Proposition 2. Soit {ψk }k∈Z une suite absolument sommable : k |ψk | < ∞, et {Zt }t∈Z
une suite de variables aléatoires.
(i) Si supt∈Z E[|Zt |] < ∞, alors pour tout t ∈ Z, la suite {Xn,t }n∈N définie par
n
X
Xn,t = ψk Zt−k ,
k=−n
P
converge presque sûrement vers une v.a. Xt que l’on notera k∈Z ψk Zt−k . De plus,
E[|Xt |] < ∞ (noté aussi kXt k1 < ∞) et Xt est aussi la limite dans L1 de la suite
{Xn,t }n∈N .
(ii) Si supt∈Z E[|Zt |2 ] < ∞, alors E[Xt2 ] < ∞ et Xt est aussi la limite dans L2 de la suite
{Xn,t }n∈N .

Démonstration.
Pn ps P
I Soit Yn,t = k=−n |ψk ||Zt−k | alors Yn,t −→ Yt = k∈Z |ψk ||Zt−k | ∈ L1 .

P le théorème de convergence monotone, encore appelé théorème de Beppo-Levi, Yn,t →


Par
k∈Z |ψk ||Zt−k |, (limite croissante) implique
à !
X
E(Yn,t ) → E |ψk ||Zt−k | , en croissant.
k∈Z

Or,
n
X X
E(Yn,t ) ≤ |ψk | sup E(|Zt |) ≤ sup E(|Zt |) |ψk | < ∞
t t
k=−n k∈Z
¡P ¢
donc E k∈Z |ψk ||Zt−k | < ∞.

I Xn,t converge ps vers Xt finie ps.

On déduit de la précédente inégalité qu’il existe un ensemble A tel que P (A) = 1 et tel
que ∀ω ∈ A, X
|ψk ||Zt−k (ω)| < ∞.
k∈Z

Donc pour tout ω ∈ A,


X
|Xn,t (ω) − Xt (ω)| ≤ |ψk ||Zt−k (ω)| → 0 .
|k|>n

Ainsi pour tout ω ∈ A la suite Xn,t (ω) est convergente et converge vers Xt (ω) d’où l’on déduit
la convergence ps de Xn,t vers Xt .

I Xt est la limite dans L1 de Xn,t et est dans L1 également sous les hypothèses de (i).

17
Remarquons que
 
n −(p+1)
X X
E(|Xn,t − Xp,t |) ≤ sup E(|Zt |)  |ψk | + |ψk | ≤ ε, ∀n, p ≥ Mε
t −n
p+1

d’après le critère de Cauchy pour des séries convergentes. Or,

E(|Xt − Xp,t |) = E[lim |Xn,t − Xp,t |]


n
Fatou
= E(lim inf |Xn,t − Xp,t |) ≤ lim inf E(|Xn,t − Xp,t |) ≤ ε, ∀p ≥ Mε
n n

donc Xt = limn Xn,t dans L1 et Xt ∈ L1 en écrivant


X
E(|Xt |) ≤ E(|Xt − Xp,t |) + E(|Xp,t |) ≤ ε + sup E(|Zt |) |ψk | < ∞ .
t
k∈Z

On aurait aussi pu utiliser pour conclure le fait que L1


est complet et que donc tout suite de
Cauchy de L est convergente dans L et dont la limite est aussi dans L1 .
1 1

I La même chose est vraie dans L2 sous les hypothèses de (ii).


¯ ¯2 
¯ Xn −(p+1)
X ¯
2
¯ ¯
E[|Xn,t − Xp,t | ] = E ¯ ¯ ψk Zt−k + ψk Zt−k ¯¯ 
¯k=p+1 k=−n ¯
¯ ¯2  ¯ ¯2   
¯ X ¯ ¯−(p+1) ¯  
¯ n ¯ ¯ X ¯ X
≤ 2E ¯¯ ψk Zt−k ¯¯ +2E ¯¯ ψk Zt−k ¯¯  ≤ 2 sup E(|Zt |2 ) (|ψk ψl | + |ψ−k ψ−l |)
¯k=p+1 ¯ ¯ k=−n ¯ t  
(p+1)≤k,l≤n

≤ ε, ∀n, p ≥ Mε .
Xn,t est donc une suite de Cauchy dans L2 et converge donc dans L2 vers Xt ∈ L2 puisque
c’est un Hilbert (donc complet).

Rappels sur l’espace de Hilbert L2


L’espace quotient L2 (X ∼ Y si et seulement si X = Y ps) des variables aléatoires réelles
définies sur (Ω, A, P ) de carré intégrable muni du produit scalaire
hX, Y i = E [XY ]
est un espace de Hilbert : c’est un espace vectoriel, muni d’un produit scalaire donc d’une
norme, et il est complet. L’espace est quotienté pour que cette application soit bien un produit
scalaire.
P
Proposition 3. Soit {ψk }k∈Z une suite absolument sommable : k |ψk | < ∞, et {Zt }t∈Z un
processus
P stationnaire, de moyenne µZ et de fonction d’auto-covariance
P γZ . Alors le processus
Xt = k∈Z ψk Zt−k est stationnaire, de moyenne µX = µZ k ψk et de fonction d’auto-
covariance XX
γX (h) = ψj ψk γZ (h + k − j).
j∈Z k∈Z
P
La limite k∈Z ψk Zt−k est à prendre au sens L2 et p.s.

18
Démonstration. – On vérifie les conditions de la proposition précédente, pour montrer
¡ ¢1/2
que la limite est au sens p.s. et L2 : on a E[|Zt |] ≤ E[|Zt |2 ]1/2 = γZ (0) + µ2Z , donc
les espérances et les variances¡P
sont uniformément
¢ bornées.
– Pour l’espérance E(Xt ) = E ψ Z
k∈Z k t−k . D’après le théorème de Fubini-Tonnelli,
¯ Ã !¯
¯ X ¯ X X
¯ ¯
¯E ψk Zt−k ¯ ≤ |ψk |E(|Zt−k |) ≤ sup E(|Zt |) |ψk | < ∞ .
¯ ¯ t
k∈Z k∈Z k∈Z

D’après le théorème de Fubini,


à !
X X
E(Xt ) = E ψk Zt−k = µZ ψk .
k∈Z k∈Z
¡P P ¢
– Pour la covariance : E(Xt Xt+h ) = E k∈Z r∈Z ψk ψr Zt−k Zt+h−r . On a de plus
XX Cauchy-Schwarz XX
|E(Xt Xt+h )| ≤ |ψk ||ψr |E(|Zt−k Zt+h−r |) ≤ |ψk ||ψr |γZ (0) < ∞.
k∈Z r∈Z k∈Z r∈Z

D’où l’on déduit


XX
E(Xt Xt+h ) = ψk ψr (γZ (k + h − r) + E(Zt )2 ),
k∈Z r∈Z

ce qui conclut la preuve de la proposition.


La preuve peut aussi être faite en utilisant la continuité du produit scalaire dans L2 comme
on l’a vu précédemment.

La proposition suivante fournit une condition nécessaire et suffisante pour qu’un processus
ARMA soit causal.

Proposition 4. Soit {Xt } un processus ARMA(p,q) tels que les polynômes φ(.) et θ(.) n’ont
pas de racines communes. Alors {Xt } est causal si et seulement si φ(z) 6= 0, pour tout z ∈ C
tel que |z| ≤ 1. Les coefficients {ψj } caractérisant la solution causale évoquée précédemment
sont déterminés par la relation
X
ψ(z) = ψj z j = θ(z)/φ(z), |z| ≤ 1 .
j≥0

Démonstration. Supposons que φ(z) 6= 0 si |z| ≤ 1. Ceci implique qu’il existe ε > 0 tel que
1/φ(z) a le développement en série entière suivant

X
1/φ(z) = ξj z j = ξ(z), |z| < 1 + ε .
j=0

En conséquence, ξj (1 + ε/2)j → 0 lorsque j → ∞ de telle sorte qu’il existe K ∈ (0, ∞) pour


lequel
|ξj | < K(1 + ε/2)−j , ∀j = 0, 1, 2, . . .
P
En particulier, ∞ j=0 |ξj | < ∞ et ξ(z)φ(z) = 1 pour |z| ≤ 1.

19
D’après la Proposition précédente, on peut appliquer l’opérateur ξ(B) aux deux membres
de l’équation φ(B)Xt = θ(B)Zt ce qui donne
Xt = ξ(B)θ(B)Zt .
Ceci fournit la représentation attendue :
X
Xt = ψj Zt−j .
j≥0
P P∞
On suppose maintenant que {Xt } est causal i.e : Xt = ∞ j=0 ψj Zt−j où j=0 |ψj | < ∞. On
a alors
θ(B)Zt = φ(B)Xt = φ(B)ψ(B)Zt .
P∞
Posons η(z) = φ(z)ψ(z) = j=0 ηj z j , |z| ≤ 1, on peut réécrire l’équation précédente sous la
forme
Xq X∞
θj Zt−j = ηj Zt−j .
j=0 j=0
On multiplie chaque membre de l’équation précédente par Zt−k et on prend l’espérance.
Comme Zt est un bruit blanc, on obtient que ηk = θk , k = 0, . . . , q et ηk = 0, k > q. Ainsi
θ(z) = η(z) = φ(z)ψ(z), |z| ≤ 1 .
Comme θ(z) et φ(z) n’ont pas de racines communes et |ψ(z)| < ∞ pour |z| ≤ 1, on conclut
que φ(z) ne peut pas s’annuler lorque |z| ≤ 1.
Remarque 2. On retrouve à l’aide de la proposition précédente ce que l’on avait trouvé pour
l’AR(1).
On définit maintenant ce qu’est un processus ARMA inversible.
Définition 11. Un processus ARMA(p,q)
P défini par φ(B)Xt = θ(B)Zt est dit inversible s’il
existe une suite {πj } telle que j≥0 |πj | < ∞ et
X
Zt = πj Xt−j , t ∈ Z.
j≥0

Le théorème suivant donne une condition nécessaire et suffisante pour qu’un processus
ARMA soit inversible.
Proposition 5. Soit {Xt } un processus ARMA(p,q) tels que les polynômes φ(.) et θ(.) n’ont
pas de racines communes. Alors {Xt } est inversible si et seulement si θ(z) 6= 0, pour tout z ∈ C
tel que |z| ≤ 1. Les coefficients {πj } caractérisant la solution inversible évoquée précédemment
sont déterminés par la relation
X
π(z) = πj z j = φ(z)/θ(z), |z| ≤ 1 .
j≥0

Démonstration. La preuve est similaire à celle de la proposition précédente.


Proposition 6. Si φ(z) 6= 0, pour tout z de module 1 alors l’équation φ(B)Xt = θ(B)Zt a
une unique solution stationnaire s’écrivant comme suit
X
Xt = ψj Zt−j ,
j∈Z

où ψj a la même définition que celle donnée précédemment.

20
2.2 Calcul de la fonction d’autocovariance d’un processus ARMA(p,q)
On donne à présent une méthode pour calculer la fonction d’auto-covariance d’un proces-
sus ARMA.
D’après la Proposition 3, on a que la fonction d’autocovariance d’un processus ARMA(p,q)
causal solution de φ(B)Xt = θ(B)Zt satisfait

X
2
γ(k) = σ ψj ψj+|k| (2.2)
j=0

où

X
ψ(z) = ψj z j = θ(z)/φ(z), lorsque |z| ≤ 1
j=0

et θ(z) = 1 + θ1 z + θ2 + · · · + θq z q , φ(z) = 1 − φ1 z − · · · − φp z p . Pour déterminer les


z2
coefficients ψj , on réécrit l’équation précédente sous la forme : ψ(z)φ(z) = θ(z) et on égalise
les coefficients de z j pour obtenir (en posant θ0 = 1, θj = 0 pour j > q et φj = 0 pour j > p) :
X
ψj − φk ψj−k = θj , 0 ≤ j < max(p, q + 1) (2.3)
0<k≤j

et X
ψj − φk ψj−k = 0, j ≥ max(p, q + 1) . (2.4)
0<k≤p

Les deux relations précédentes permettent, en utilisant (2.2) de calculer la fonction d’auto-
covariance d’un ARMA(p,q). En effet, la solution générale de (2.4) peut s’écrire sous la forme :
k rX
X i −1

ψn = αij nj ξi−n , n ≥ max(p, q + 1) − p


i=1 j=0

où les ξi , i P
= 1, . . . , k sont les racines distinctes de φ et ri est la multiplicité de ξi . En
particulier, ki=1 ri = p. Les p constantes αij sont déterminées par les équations (2.3) ainsi
que les ψj tels que 0 ≤ j < max(p, q + 1) − p.

Exemple 15.

On considère le processus ARMA : (1 − B + B 2 /4)Xt = (1 + B)Zt . On veut calculer sa


fonction d’auto-covariance. On a d’une part

ψ 0 = θ0 = 1
ψ1 = θ1 + ψ0 φ1 = θ1 + φ1 = 2

et d’autre part grâce à (2.4), on a

ψj − ψj−1 + ψj−2 /4 = 0, j ≥ 2 .

La solution de l’équation précédente est

ψn = (α10 + nα11 )2−n , n ≥ 0 .

21
Les constantes α10 et α11 sont trouvées en utilisant que ψ0 = 1 et ψ1 = 2 grâce aux deux
premières équations, on en déduit

α10 = 1 et α11 = 3 .

Ainsi
ψn = (1 + 3n)2−n , n = 0, 1, 2, . . .
On obtient donc, pour k ≥ 0,
X
γ(k) = σ 2 (1 + 3j)(1 + 3j + 3k)2−2j−k
j≥0
X£ ¤
= σ 2 2−k (3k + 1)4−j + 3(3k + 2)j4−j + 9j 2 4−j
j≥0
2 −k
= σ 2 [4(3k + 1)/3 + 12(3k + 2)/9 + 180/27]
2 −k
= σ 2 [32/3 + 8k] .

22
Chapitre 3

Représentation spectrale d’un


processus stationnaire

La représentation spectrale d’un processus stationnaire {Xt , t ∈ Z} consiste à décomposer


{Xt } en une somme de sinusoı̈des avec des coefficients aléatoires décorrélés. La représentation
spectrale pour les processus stationnaires est l’analogue de la représentation en séries de
Fourier pour les fonctions déterministes.

3.1 Séries chronologiques à valeurs complexes


Définition 12. Le processus {Xt } est un processus stationnaire à valeurs complexes si E|Xt |2 <
∞, E(Xt ) et E(Xt+h Xt ) sont indépendants de t.

Définition 13. La fonction d’autocovariance d’un processus stationnaire à valeurs complexes


{Xt } est définie par
γ(h) = E(Xt+h Xt ) − E(Xt+h )E(Xt ) .

On donne maintenant les propriétés des fonctions d’autocovariance d’un processus à va-
leurs complexes

γ(0) ≥ 0 (3.1)
|γ(h)| ≤ γ(0), pour tout entier h (3.2)
γ(.) est hermitienne i.e. γ(h) = γ(−h) (3.3)

Théorème 2. Une fonction K(.) définie sur les entiers est la fonction d’autocovariance d’un
processus stationnaire (à valeurs complexes) si et seulement si K(.) est hermitienne et définie
positive i.e. si et seulement si K(n) = K(−n) et
n
X
ai K(i − j)aj ≥ 0
i,j=1

pour tout entier positif n et pour tous nombres complexes (aj )1≤j≤n .

23
3.2 Distribution spectrale d’une combinaison linéaire de si-
nusoı̈des
On considère le processus {Xt } défini par
n
X
Xt = A(λj )eitλj ,
j=1

où −π < λ1 < λ2 < · · · < λn = π et A(λ1 ), . . . , A(λn ) sont des coefficients aléatoires à valeurs
complexes décorrélés tels que
E(A(λj )) = 0, j = 1, . . . , n
et
E(A(λj )A(λj )) = σj2 , j = 1, . . . , n .
Pn 2 ihλj
{Xt } est un processus stationnaire puisque E(Xt ) = 0 et E(Xt+h Xt ) = j=1 σj e = γ(h)
sont indépendants de t. On remarque que
Z
γ(h) = eihν dF (ν)
[−π,π]
P
où F (λ) = j:λj ≤λ σj2 .
On verra dans la suite que la fonction d’autocovariance de tout processus stationnaire
peut s’écrire sous la forme ci-dessus avec F bornée.

3.3 Théorème de Herglotz


Théorème 3. Une fonction γ définie sur les entiers et à valeurs complexes est définie positive
si et seulement si Z
γ(h) = eihν dF (ν), h ∈ Z (3.4)
[−π,π]

où F (.) est continue à droite, croissante, bornée sur [−π, π] et telle que F (−π) = 0. La

fonction f définie par F (λ) = −π f (ν)dν est appelée la densité spectrale de γ(.).
Démonstration. Si γ(.) est définie par (3.4) alors γ(.) est bien hermitienne et définie positive
et donc une fonction d’autocovariance.
Inversement, supposons que γ(.) est une fonction définie positive sur les entiers. On définit
alors
N
1 X −irν 1 X
fN (ν) = e γ(r − s)eisν = (N − |m|)e−imν γ(m) .
2πN 2πN
r,s=1 |m|<N

γ(.) étant définie positive, on a


fN (ν) ≥ 0, pour tout ν ∈ [−π, π].
Soit FN la fonction de répartition associée à la densité fN (.)1I[−π,π] (.). Ainsi, FN (λ) = 0, si
λ ≤ −π, FN (λ) = FN (π), si λ ≥ π et
Z λ
FN (λ) = fN (ν)dν, si − π ≤ λ ≤ π .
−π

24
Alors pour tout entier h,
Z µ ¶ Z π
ihν 1 X |m|
e dFN (ν) = 1− γ(m) ei(h−m)ν dν
[−π,π] 2π N −π
|m|<N

i.e. ( ³ ´
Z |h|
1− γ(h), si |h| < N
eihν dFN (ν) = N
[−π,π] 0, sinon .
On applique le théorème de Helly pour déduire qu’il existe une fonction de répartition F et une
sous-suite FNk de FN telle que pour toute fonction continue bornée g vérifiant g(−π) = g(π),
on ait Z Z
g(ν)dFNk (ν) → g(ν)dF (ν), lorsque k → ∞ .
[−π,π] [−π,π]

En remplaçant N par Nk dans l’égalité précédente et en faisant tendre k vers l’infini, on


obtient Z
γ(h) = eihν dF (ν),
[−π,π]

qui est la représentation spectrale attendue de γ(.).

Théorème 4. Si K(.) est une fonction complexe quelconque définie sur les entiers telle que
X
|K(n)| < ∞
n∈Z

alors Z π
K(h) = eihν f (ν)dν, h ∈ Z
−π
où
1 X −inλ
f (λ) = e K(n) .

n∈Z

Démonstration.
Z π Z π X
ihν 1
e f (ν)dν = ei(h−n)ν K(n) dν = K(h),
−π 2π −π n∈Z

R P
où on a pu intervertir le signe Σ et l’ par le théorème de Fubini puisque n∈Z |K(n)| <
∞.

Corollaire 1. Une fonction complexe absolument sommable γ(.) à valeurs complexes définie
sur les entiers est la fonction d’autocovariance d’un processus stationnaire si et seulement si
1 X −inλ
f (λ) := e γ(n) ≥ 0, pour tout λ ∈ [−π, π],

n∈Z

auquel cas f (.) est la densité spectrale de γ(.).

25
Démonstration. Supposons que γ(.) est une fonction d’autocovariance. Puisque γ est définie
positive et absolument sommable,
N
1 X −irλ
0 ≤ fN (λ) = e γ(r − s)eisλ
2πN
r,s=1
µ ¶
1 X |m| −imλ
= 1− e γ(m) → f (λ), lorsque N → ∞ .
2π N
|m|<N

Ainsi
R π ihν f (λ) ≥ 0 pour tout λ ∈ [−π, π]. En utilisant le théorème précédent, on a que γ(h) =
−π e f (ν)dν pour h ∈ Z.
Inversement, supposons
R π ihνuniquement que γ est absolument sommable.
R π ihνD’après le théorème
précédent, γ(h) = −π e f (ν)dν. Si f (λ) ≥ 0, alors γ(h) = −π e dF (ν) où F (λ) =

−π f (ν)dν. Ceci implique d’apres le théorème 3 de Herglotz que γ(.) est une fonction d’au-
tocovariance de densité spectrale f .
Exemple 16.
Nous pouvons prouver grâce à ce corollaire que la fonction K définie par

 1, si h = 0
K(h) = ρ, si h = 1 et h = −1

0, sinon .
est une fonction d’autocovariance si et seulement si |ρ| ≤ 1/2.

3.4 Densité spectrale des processus ARMA


Théorème 5. Soit {Yt } un processus stationnaire de moyenne nulle pouvant être à valeurs
complexes de fonction de répartition spectrale FY (.) et {Xt } le processus défini par
X X
Xt = ψj Yt−j où |ψj | < ∞,
j∈Z j∈Z

alors {Xt } est un processus stationnaire de fonction de répartition spectrale


¯ ¯2
Z ¯X ¯
¯ ¯
−ijν ¯
¯
FX (λ) = ¯ ψ j e ¯ dFY (ν), −π ≤ λ ≤ π .
[−π,λ] ¯ j∈Z ¯
Démonstration. D’après ce que l’on a vu dans le chapitre sur les processus ARMA, {Xt } est
un processus stationnaire de moyenne nulle et de fonction d’autocovariance
X
E(Xt+h Xt ) = ψj ψk γY (h − j + k), h ∈ Z.
j,k∈Z

En utilisant la représentation spectrale de γY , on obtient


X Z
γX (h) = ψj ψk ei(h−j+k)ν dFY (ν)
j,k∈Z [−π,π]
 Ã ! ¯ ¯2
Z Z ¯ ¯
X X ¯ X ¯
 −ijν  ikν ihν ihν ¯ −ijν ¯
= ψj e ψk e e dFY (ν) = e ¯ ψj e ¯ dFY (ν)
[−π,π] j∈Z k∈Z [−π,π] ¯ j∈Z ¯

26
ce qui permet d’identifier la fonction de répartition spectrale de {Xt }.
P
Remarque
P 3. Si {Yt } a pour densité spectrale fY et si {Xt } est défini par Xt = j∈Z ψj Yt−j
où j∈Z |ψj | < ∞, alors la densité spectrale de {Xt } vaut

fX (λ) = |ψ(e−iλ )|2 fY (λ),


P
où ψ(e−iλ ) = j∈Z ψj e
−ijλ .

On peut en déduire la densité spectrale d’un processus ARMA(p,q).

Théorème 6. Soit {Xt } un processus ARMA(p,q) (pas nécessairement causal ou inversible)


satisfaisant

φ(B)Xt = θ(B)Zt , où {Zt } est un bruit blanc d’espérance nulle et de variance σ 2

où φ(z) = 1 − φ1 z − · · · − φp z p et θ(z) = 1 + θ1 z + · · · + θq z q n’ont pas de racines communes


et φ(z) n’a pas de racines sur le cercle unité. Alors, {Xt } a pour densité spectrale

σ 2 |θ(e−iλ )|2
fX (λ) = , −π ≤ λ ≤ π .
2π |φ(e−iλ )|2

Démonstration. Trivial.

Exemple 17. Densité spectrale d’un MA(1)

Si Xt = Zt + θZt−1 , où {Zt } est un bruit blanc d’espérance nulle et de variance σ 2 alors

σ2 σ2
fX (λ) = |1 + θe−iλ |2 = (1 + 2θ cos(λ) + θ2 ), −π ≤ λ ≤ π .
2π 2π
Exemple 18. Densité spectrale d’un AR(1)

Si Xt − φXt−1 = Zt , où {Zt } est un bruit blanc d’espérance nulle et de variance σ 2 alors

σ2 σ2
fX (λ) = |1 − φe−iλ |−2 = (1 − 2φ cos(λ) + φ2 )−1 , −π ≤ λ ≤ π .
2π 2π

3.5 Causalité, inversibilité et densité spectrale


Soit {Xt } un processus ARMA(p,q) satisfaisant

φ(B)Xt = θ(B)Zt , où {Zt } est un bruit blanc d’espérance nulle et de variance σ 2

où φ(z)θ(z) 6= 0 pour tout z de module 1.


On va montrer que l’on peut proposer une représentation causale et inversible d’un pro-
cessus ARMA(p,q).
On factorise les polynômes φ et θ sous la forme
p
Y q
Y
(1 − a−1
j B)Xt = (1 − b−1
j B)Zt
j=1 j=1

27
où {Zt } est un bruit blanc d’espérance nulle et de variance σ 2 et
|aj | > 1, 1 ≤ j ≤ r, |aj | < 1, r < j ≤ p,
et
|bj | > 1, 1 ≤ j ≤ s, |bj | < 1, s < j ≤ q .
Le théorème précédent donne pour {Xt } la densité spectrale suivante
Qq −1 −iλ 2
σ 2 j=1 |1 − bj e |
fX (λ) = Qp .
2π j=1 |1 − a−1 j e
−iλ |2

Définissons à présent, Y Y
φ̃(B) = (1 − a−1
j B) (1 − aj B)
1≤j≤r r<j≤p
et Y Y
θ̃(B) = (1 − b−1
j B) (1 − bj B)
1≤j≤s s<j≤q

alors le processus ARMA défini par φ̃(B)X̃t = θ̃(B)Zt a pour densité spectrale
σ 2 |θ̃(e−iλ )|2
fX̃ (λ) = .
2π |φ̃(e−iλ )|2
Puisque
|1 − bj e−iλ | = |1 − bj eiλ | = |bj ||1 − b−1
j e
−iλ
|,
fX̃ peut être réécrit sous la forme
Q
s<j≤q |bj |2
fX̃ (λ) = Q f (λ)
2 X
.
r<j≤p |aj |

Ainsi le processus ARMA(p,q) {Xt+ } défini par


φ̃(B)Xt+ = θ̃(B)Z̃t
³Q ´2 ³Q ´−2
où Z̃t est un bruit blanc d’espérance nulle et de variance σ 2 |a
r<j≤p j | |b
s<j≤q j |
est causal et inversible et a exactement la même densité spectrale (et donc la même fonction
d’autocovariance) que {Xt }. En fait, {Xt } a la représentation causale et inversible
φ̃(B)Xt = θ̃(B)Zt∗
où {Zt∗ } est un bruit blanc ayant la même variance que {Z̃t } puisque les racines de φ̃ et de θ̃
ont des racines de module strictement plus grand que 1.
Exemple 19.
Le processus ARMA
Xt − 2Xt−1 = Zt + 4Zt−1 ,
où {Zt } est un bruit blanc de moyenne nulle et de variance σ 2 . {Xt } a la représentation
causale inversible donnée par
Xt − 0.5Xt−1 = Zt∗ + 0.25Zt−1

,
où {Zt∗ } est un bruit blanc d’espérance nulle et de variance 4σ 2 .

28
Chapitre 4

Prédiction de processus
stationnaires

Dans ce chapitre, nous nous intéressons au problème de la prédiction des valeurs {Xt , t ≥
n + 1} d’un processus stationnaire à partir des valeurs {X1 , . . . , Xn }. Etant donné un sous-
espace fermé M de L2 , le meilleur prédicteur de Xn+h appartenant à M est défini comme
l’élément de M étant à la plus petite distance (issue de la norme L2 ) de Xn+h . D’après ce que
l’on sait sur l’espace L2 , il s’agit de la projection sur le sous-espace fermé M. On s’intéressera
dans ce chapitre à la meilleure prédiction linéaire i.e. à la meilleure combinaison linéaire de
1, X1 , . . . , Xn définie par Psp{1,X1 ,...,Xn } Xn+h , où sp{1, X1 , . . . , Xn } désigne la fermeture de
l’espace vectoriel engendré par 1, X1 , . . . , Xn .

4.1 Prédiction d’un processus stationnaire


On supposera dans tout ce chapitre que {Xt } est d’espérance nulle. Ainsi,
Psp{1,X1 ,...,Xn } Xn+h = Psp{X1 ,...,Xn } Xn+h .

4.1.1 Prédiction à “un pas”


Soit Hn le sous-espace vectoriel fermé : sp{X1 , . . . , Xn } et soit X̂n+1 , n ≥ 0 le prédicteur
à un pas défini par ½
0, si n = 0
X̂n+1 =
PHn Xn+1 , si n ≥ 1 .
Puisque X̂n+1 ∈ Hn , n ≥ 1, nous pouvons écrire
X̂n+1 = φn1 Xn + · · · + φnn X1 , n ≥ 1,
où φn1 , . . . , φnn satisfont (puisque Xn+1 − PHn Xn+1 est orthogonal à Hn ) :
* n
+
X
Xn+1 − φni Xn+1−i , Xn+1−j = 0, , j = 1, . . . , n
i=1

soit encore * +
n
X
φni Xn+1−i , Xn+1−j = hXn+1 , Xn+1−j i , j = 1, . . . , n
i=1

29
où hX, Y i = E(XY ). Les équations précédentes peuvent s’écrire sous la forme
n
X
φni γ(i − j) = γ(j), j = 1, . . . , n
i=1

ou de façon équivalente
Γn φn = γn , (4.1)
où Γn = [γ(i − j)]i,j=1,...,n , γn = (γ(1), . . . , γ(n))0 )0 .
et φn = (φn1 , . . . , φnn L’équation (4.1) a
une seule solution si et seulement si Γn est inversible auquel cas la solution vaut :

φn = Γ−1
n γn .

La proposition suivante fournit les conditions suffisantes assurant que Γn est inversible
pour tout n. On a ainsi les conditions sous lesquelles on peut calculer le prédicteur à “un
pas”.
Proposition 7. Si γ(0) > 0 et si γ(h) → 0 lorsque h → ∞ alors la matrice de covariance
Γn = [γ(i − j)]i,j=1,...,n est inversible pour tout n.
Démonstration. On fait une preuve par récurrence. Γ1 = γ(0) > 0 est donc inversible. Sup-
posons que Γr est inversible, montrons que Γr+1 est inversible. Pour cela supposons que Γr+1
n’est pas inversible. On en déduit qu’il existe a non nul dans Rr+1 tel que ar+1 6= 0 et tel que
a0 Γr+1 a = 0.
En effet, si l’on suppose que ar+1 = 0,
à !µ ¶
.. ã
0 0
0 = a Γr+1 a = (ã ar+1 ) Γ r . = ã0 Γr ã .
· · · γ(0) a r+1

Or a 6= 0 donc ã 6= 0 et ã0 Γr ã = 0 ainsi Γr est non inversible : contradiction.


On peut supposer sans perte de généralité que ar+1 = 1.
Montrons que pour tout h ≥ 1, Xr+h est une combinaison linéaire de X1 , . . . , Xr .
Ã !2 
r+1
X
£ ¤
0 = a0 Γr+1 a = a0 E (X1 , . . . , Xr+1 )0 (X1 , . . . , Xr+1 ) a = E  ak Xk  .
k=1

On en déduit que
r
X r
X
Xr+1 = − ak Xk = bk Xk .
k=1 k=1
Par stationnarité de {Xt }, on a
£ ¤ £ ¤
E (X1 , . . . , Xr+1 )0 (X1 , . . . , Xr+1 ) = E (Xh , . . . , Xr+h )0 (Xh , . . . , Xr+h )

et donc
r
X
Xr+h = bj Xj+h−1 , ∀h ≥ 1 .
j=1

On en déduit que pour tout n ≥ r + 1, Xn est une combinaison linéaire de X1 , . . . , Xr i.e.


0
Xn = b(n) (X1 , . . . , Xr )0 .

30
A partir de l’écriture précédente, on déduit
0 0
γ(0) = b(n) Γr b(n) = b(n) U ΛU 0 b(n) ,

où les éléments de la diagonale de Λ sont : 0 < λ1 ≤ · · · ≤ λr . Ainsi,


r
X
0 (n)
γ(0) ≥ λ1 b(n) U U 0 b(n) = λ1 (bj )2
j=1

(n) Pr (n)
ce qui montre que les bj sont bornés. On peut aussi écrire γ(0) = Cov(Xn , j=1 bj Xj ) et
on en déduit
r
X (n)
0 < γ(0) ≤ |bj | |γ(n − j)| .
j=1

On ne peut donc pas avoir que γ(0) > 0 puisque γ(h) → 0 lorsque h → ∞ : c’est une
contradiction. On en déduit donc que Γr+1 est inversible et donc, par récurrence, on a le
résultat attendu.

Corollaire 2. Sous les hypothèses de la proposition précédente, le meilleur prédicteur linéaire


X̂n+1 de Xn+1 en fonction de X1 , . . . , Xn est
n
X
X̂n+1 = φni Xn+1−i , n = 1, 2, . . .
i=1

où φn := (φn1 , . . . , φnn )0 = Γ−1 0


n γn , γn = (γ(1), . . . , γ(n)) et Γn = [γ(i − j)]i,j=1,...,n . L’erreur
quadratique moyenne vaut : vn = γ(0) − γn Γn γn .0 −1

Démonstration. Le début a déjà été vu. On calcule maintenant vn .


·³ ´2 ¸ n
X
vn = E Xn+1 − X̂n+1 = γ(0) + φ0n Γn φn −2 φni γ(i) = γ(0) + γn0 Γ−1 0 −1
n γn − 2γn Γn γn
i=1
= γ(0) − γn0 Γ−1
n γn .

4.1.2 Prédiction à “h pas”, h ≥ 1


Le meilleur prédicteur de Xn+h en fonction de X1 , . . . , Xn pour tout h ≥ 1 peut se calculer
exactement de la même façon que X̂n+1 et donc
(h)
PHn Xn+h = φn1 Xn + · · · + φ(h)
nn X1 , n, h ≥ 1

(h) (h) (h)


où φn = (φn1 , . . . , φnn )0 est solution (unique si Γn est inversible) de

Γn φ(h) (h)
n = γn

(h)
où γn = (γ(h), γ(h + 1), . . . , γ(n + h − 1))0 .

31
4.2 Algorithmes récursifs pour calculer les meilleurs prédicteurs
linéaires
L’utilisation d’algorithmes récursifs est très importante en pratique. En effet, on n’a ainsi
pas besoin d’inverser la matrice Γn qui peut être de grande dimension lorsque n est très grand.
D’autre part, les algorithmes récursifs permettent d’utiliser le prédicteur linéaire calculé à
partir de n observations lorsque le nombre d’observations devient égal à n + 1 pour calculer
le prédicteur linéaire à partir de n + 1 observations.

4.2.1 Algorithme de Durbin-Levinson


L’algorithme de Durbin-Levinson détaillé dans la proposition suivante explique comment
calculer φn = (φn1 , . . . , φnn )0 et vn correspondant à l’erreur quadratique moyenne donnée par
h i
vn = E (Xn+1 − X̂n+1 )2 , n ≥ 1 .

Proposition 8. Si {Xt } est un processus stationnaire de moyenne nulle et de fonction d’au-


tocovariance γ(.) telle que γ(0) > 0 et γ(h) → 0 lorsque h → ∞ alors les coefficients φni
définis par
X̂n+1 = φn1 Xn + · · · + φnn X1 , n ≥ 1,
et vn défini ci-dessus satisfont : φ11 = γ(1)/γ(0), v0 = γ(0),
 
n−1
X
−1
φnn = γ(n) − φn−1,j γ(n − j) vn−1 ,
j=1

     
φn,1 φn−1,1 φn−1,n−1
 ..   ..   .. 
 . = .  − φnn  . 
φn,n−1 φn−1,n−1 φn−1,1
et
vn = vn−1 (1 − φ2nn ) .

Démonstration. Par définition, K1 = sp{X2 , . . . , Xn } et K2 = sp{X1 − PK1 (X1 )} sont des


sous-espaces orthogonaux de Hn = sp{X1 , . . . , Xn }. De plus, si Y ∈ L2 , on a : PHn (Y ) =
PK1 (Y ) + PK2 (Y ). Ainsi,

X̂n+1 = PK1 (Xn+1 ) + PK2 (Xn+1 ) = PK1 (Xn+1 ) + a(X1 − PK1 (X1 ))

où
a = hXn+1 , X1 − PK1 (X1 )i /kX1 − PK1 (X1 )k2 .
En effet, en multipliant les deux membres de l’égalité définissant X̂n+1 par X1 − PK1 (X1 ), on
obtient : D E
a = X̂n+1 , X1 − PK1 (X1 ) /kX1 − PK1 (X1 )k2 ,
D E
d’autre part, X̂n+1 − Xn+1 , X1 − PK1 (X1 ) = 0 puisque X1 − PK1 (X1 ) est dans K2 ⊂ Hn
et X̂n+1 − Xn+1 est orthogonal à Hn .

32
En utilisant la stationnarité du processus {Xt }, on a que (X1 , . . . , Xn ) a la même fonction
d’autocovariance que (Xn , Xn−1 , . . . , X1 ) et (X2 , . . . , Xn+1 ) et donc :
n−1
X
PK1 (X1 ) = φn−1,j Xj+1
j=1

n−1
X
PK1 (Xn+1 ) = φn−1,j Xn+1−j
j=1

et
kX1 − PK1 (X1 )k2 = kXn+1 − PK1 (Xn+1 )k2 = kXn − X̂n k2 = vn−1 .
On en déduit que
n−1
X
X̂n+1 = aX1 + (φn−1,j − aφn−1,n−j ) Xn+1−j
j=1

où
   
n−1
X n−1
X
−1 −1
a = hXn+1 , X1 i − φn−1,j hXn+1 , Xj+1 i vn−1 = γ(n) − φn−1,j γ(n − j) vn−1 .
j=1 j=1

D’après les hypothèses de la proposition, la représentation suivante est unique


n
X
X̂n+1 = φnj Xn+1−j .
j=1

En comparant les coefficients des deux décompositions de X̂n+1 , on a

φnn = a

et
φnj = φn−1,j − aφn−1,n−j , j = 1, . . . , n − 1 .
On doit maintenant établir le résultat concernant vn .

vn = kXn+1 − X̂n+1 k2 = kXn+1 − PK1 (Xn+1 ) − PK2 (Xn+1 )k2


= kXn+1 − PK1 (Xn+1 )k2 + kPK2 (Xn+1 )k2 − 2 hXn+1 − PK1 (Xn+1 ), PK2 (Xn+1 )i
= vn−1 + a2 vn−1 − 2a hXn+1 , X1 − PK1 (X1 )i .

D’après la définition de a, on a :

vn = vn−1 (1 − a2 ) .

Remarque 4. Lien avec la fonction d’autocorrélation partielle (voir TD).

33
4.2.2 Algorithme des innovations
L’idée centrale de la proposition précédente consistait à décomposer Hn en deux sous-
espaces orthogonaux : K1 et K2 . L’idée de l’algorithme des innovations consiste à decomposer
Hn en n sous-espaces orthogonaux au moyen de la procédure de Gram-Schmidt.
L’algorithme des innovations est plus facilement applicable puisque l’on permet à {Xt }
de ne pas être un processus stationnaire. On le suppose uniquement de moyenne nulle et de
fonction d’autocovariance
κ(i, j) = E(Xi Xj ) .
Rappelons que Hn = sp{X1 , . . . , Xn } et vn = kXn+1 − X̂n+1 k2 . On a, en posant X̂1 = 0,

Hn = sp{X1 − X̂1 , X2 − X̂2 , . . . , Xn − X̂n }, n ≥ 1

de telle sorte que


n
X ³ ´
X̂n+1 = θnj Xn+1−j − X̂n+1−j .
j=1

L’algorithme des innovations décrit dans la proposition suivante fournit une méthode récursive
permettant de calculer (θnj , j = 1, . . . , n ; vn ), n = 1, 2, . . .
Proposition 9. Si {Xt } a une moyenne nulle et E(Xi Xj ) = κ(i, j), où la matrice [κ(i, j)]i,j=1,...,n
est inversible pour tout n ≥ 1 alors
½
0, si n = 0
X̂n+1 = Pn
j=1 θnj (Xn+1−j − X̂n+1−j ), si n ≥ 1

et 

 ³ v0 = κ(1, 1) ´
Pk−1
θn,n−k = vk−1 κ(n + 1, k + 1) − j=0 θk,k−j θn,n−j vj , k = 0, 1, . . . , n − 1,

 Pn−1 2
vn = κ(n + 1, n + 1) − j=0 θn,n−j vj .

Démonstration. Par définition de Hn , (Xi − X̂i ) ∈ Hj−1 lorsque i < j et par définition de X̂j ,
on a que (Xj − X̂j ) est orthogonal à Hj−1 . On considère
n
X
X̂n+1 = θnj (Xn+1−j − X̂n+1−j )
j=1

et on fait le produit scalaire des deux membres de l’égalité précédente avec Xk+1 − X̂k+1 ,
0 ≤ k < n et on obtient D E
X̂n+1 , Xk+1 − X̂k+1 = θn,n−k vk .

Puisque (Xn+1 − X̂n+1 ) est orthogonal à (Xk+1 − X̂k+1 ) lorsque 0 ≤ k < n, les coefficients
θn,n−k , k = 0, . . . , n − 1 sont donnés par
D E
θn,n−k = vk−1 Xn+1 , Xk+1 − X̂k+1 . (4.2)

En utilisant que
k
X k−1
X
X̂k+1 = θkj (Xk+1−j − X̂k+1−j ) = θk,k−j (Xj+1 − X̂j+1 ),
j=1 j=0

34
 
k−1
X D E
θn,n−k = vk−1 κ(n + 1, k + 1) − θn,k−j Xn+1 , Xj+1 − X̂j+1  .
j=0
D E
D’après (4.2), Xn+1 , Xj+1 − X̂j+1 = vj θn,n−j , 0 ≤ j < n, l’égalité ci-dessus se réécrit
 
k−1
X
θn,n−k = vk−1 κ(n + 1, k + 1) − θn,k−j θn,n−j vj  .
j=0

Prouvons à présent le résultat concernant vn :


n−1
X
2 Pythagore 2 2 2
vn = kXn+1 − X̂n+1 k = kXn+1 k − kX̂n+1 k = κ(n + 1, n + 1) − θn,n−k vk .
k=0

Exemple 20. Prédiction d’un processus MA(1) à l’aide de l’algorithme des innovations (cf
TD)

4.2.3 Calcul récursif d’un prédicteur à “h pas”


Notons Pn l’opérateur de projection sur Hn alors le prédicteur à h pas : Pn (Xn+h ) peut
être calculé comme suit
 
n+h−1
X ³ ´
Pn (Xn+h ) = Pn (Pn+h−1 (Xn+h )) = Pn (X̂n+h ) = Pn  θn+h−1,j Xn+h−j − X̂n+h−j  .
j=1

Puisque (Xn+h−j − X̂n+h−j ) est orthogonal à Hn lorsque j < h, on a

n+h−1
X ³ ´
Pn (Xn+h ) = θn+h−1,j Xn+h−j − X̂n+h−j
j=h

où les coefficients θnj ont été déterminés précédemment.


De plus,
£ ¤ Pythagore
E (Xn+h − Pn (Xn+h ))2 = kXn+h k2 − kPn (Xn+h )k2
n+h−1
X
2
= κ(n + h, n + h) − θn+h−1,j vn+h−j−1 .
j=h

35
Chapitre 5

Estimation de la moyenne et de la
fonction d’autocovariance

Si {Xt } est un processus stationnaire alors sa moyenne µ et son autocovariance γ(.) contri-
buent à sa caractérisation. C’est pour cela que l’estimation de µ, de γ et de la fonction d’au-
tocorrélation ρ(.) = γ(.)/γ(0) à partir des observations X1 , . . . , Xn joue un rôle crucial dans
la modélisation des données. Dans ce chapitre, on va proposer des estimateurs des différents
paramètres précédents et donner leurs propriétés statistiques.

5.1 Estimation de µ
Un estimateur sans biais naturel de la moyenne µ d’un processus stationnaire {Xt } est la
moyenne empirique
X̄n = (X1 + · · · + Xn )/n .
£ ¤
On commence par examiner le comportement de l’erreur quadratique moyenne : E (X̄n − µ)2
lorsque n tend vers l’infini.

Proposition 10. Si {Xt } est un processus stationnaire de moyenne µ et de fonction d’auto-


covariance γ, alors, lorsque n tend vers l’infini
£ ¤
Var(X̄n ) = E (X̄n − µ)2 → 0, si γ(n) → 0

et £ ¤ X X
nE (X̄n − µ)2 → γ(h), si |γ(h)| < ∞ .
h∈Z h∈Z

Démonstration.
 2   
Xn n
X
1 1
n Var(X̄n ) = E  (Xj − µ)  = E  (Xi − µ)(Xj − µ)
n n
j=1 i,j=1
n
X n n
1 1 X 1 X
= E [(Xi − µ)(Xj − µ)] = Cov(Xi , Xj ) = γ(i − j)
n n n
i,j=1 i,j=1 i,j=1

36
n−1
X µ ¶ X
|h|
= 1− γ(h) ≤ |γ(h)| .
n
h=−(n−1) |h|<n

L’égalité
n n−1 µ ¶
1 X X |h|
γ(i − j) = 1− γ(h)
n n
i,j=1 h=−(n−1)

vient du fait que la matrice [γ(i − j)]1≤i,j≤n est une matrice de Toeplitz ayant (n − 1) termes
sur la première surdiagonale tous égaux à γ(1), (n − 2) termes sur la deuxième surdiagonale
tous égaux à γ(2)... P
γ(n) → 0, alors par Césaro, ( |h|<n |γ(h)|)/n → 0 et donc Var(X̄n ) → 0.
Si P
Si k∈Z |γ(h)| < ∞, alors par le théorème de convergence dominée, on a le second résultat
attendu.
P
Remarque 5. Si h∈Z |γ(h)| < ∞, alors {Xt } a une densité spectrale f et d’après ce qui a
été vu dans le chapitre sur la représentation spectrale des processus stationnaires,
X
n Var(X̄n ) → γ(h) = 2πf (0) .
h∈Z
P P P
Remarque 6. Si Xt = j∈Z ψj Zt−j et que j∈Z |ψj | < ∞ alors h∈Z |γ(h)| < ∞ et donc
 2
X X
n Var(X̄n ) → γ(h) = 2πf (0) = σ 2  ψj  .
h∈Z j∈Z

P P
Remarque 7. Sous l’hypothèse h∈Z |γ(h)| < ∞, Var(X̄n ) ∼ n−1 h∈Z γ(h). Ceci suggère
que, sous certaines conditions, on
P pourrait montrer que X̄n est asymptotiquement normal
d’espérance µ et de variance n−1 h∈Z γ(h).

Proposition 11. Si {Xt } est un processus stationnaire tel que


X
Xt = µ + ψj Zt−j
j∈Z
P P
où les Zt sont iid de moyenne nulle et de variance σ 2 , j∈Z |ψj | < ∞ et j∈Z ψj 6= 0 alors
√ L
n(X̄n − µ) −→ N (0, v)
P ³P ´2
où v = 2 et γ est la fonction d’autocovariance de {Xt }.
h∈Z γ(h) = σ j∈Z ψj

Démonstration. On définit
m
X
Xtm = µ + ψj Zt−j
j=−m

et à !
n
X
Ynm = X̄nm = Xtm /n .
t=1

37
Lorsque n → ∞,
√ L
n(Ynm − µ) −→ Ym ,
où   2 
m
X
Ym ∼ N 0, σ 2  ψj   .
j=−m

Cette affirmation vient de l’application du théorème central limite pour les suites stric-
tement stationnaires m-dépendantes. La propriété de m-dépendance généralise la notion
d’indépendance : des variables m-dépendantes sont indépendantes pourvu qu’elles soient
séparées d’au moins m unités de temps. Par exemple, un processus MA(q) est m-dépendant.
³P ´2 ³P ´2
m
Lorsque m → ∞, σ 2 j=−m jψ → σ 2 ψ
j∈Z j et donc, en utilisant le théorème
de Paul Lévy assurant l’équivalence entre convergence en loi et convergence des fonctions
caractéristiques correspondantes,
  2 
L
X
Ym −→ N 0, σ 2  ψj   .
j∈Z

En utilisant la remarque 6, on a
   2
n X
X X
¡√ ¢
Var n(X̄n − Ynm ) = n Var n−1 ψj Zt−j  →  ψj  σ 2 lorsque n → ∞ .
t=1 |j|>m |j|>m

Ainsi ¡√ ¢
lim lim sup Var n(X̄n − Ynm ) = 0 .
m→∞ n→∞
µ ³P ´2 ¶
√ L 2
On en déduit que n(X̄n − µ) −→ N 0, σ j∈Z ψj . En effet, le résultat se déduit de
la proposition suivante :

Soient (Xn ) et (Yn,j ) des variables aléatoires telles que


L
(i) Yn,j → Yj , lorsque n → ∞ pour chaque j = 1, 2, . . .
L
(ii) Yj → Y , lorsque j → ∞
(iii) limj→∞ lim supn→∞ P (|Xn − Ynj | > ε) = 0, ∀ε > 0,
alors
L
Xn → Y, lorsque n → ∞.
Cette proposition se démontre une fois encore en utilisant le théorème de Paul Lévy.

Remarque 8. Le théorème précédent sert à fournir des intervalles de confiance asympto-


tiques pour µ. Si le processus {Xt } est non seulement stationnaire mais aussi gaussien alors
on peut montrer que, pour n fini,
 
√ X µ |h|

n(X̄n − µ) ∼ N 0, 1− γ(h) .
n
|h|<n

38
5.2 Estimation de γ et de ρ
Les estimateurs que nous allons utiliser pour γ(h) et ρ(h) sont
n−h
X
γ̂(h) = n−1 (Xt − X̄n )(Xt+h − X̄n ), 0 ≤ h ≤ n − 1,
t=1

ρ̂(h) = γ̂(h)/γ̂(0) .
L’estimateur γ̂(h) est biaisé mais on peut montrer (voir plus loin) que, sous certaines hy-
pothèses, il est asymptotiquement non biaisé i.e. que sa moyenne tend vers γ(h) lorsque
n → ∞.
Les estimateurs γ̂(h) ont aussi la propriété intéressante suivante : pour tout n ≥ 1, la
matrice  
γ̂(0) γ̂(1) . . . γ̂(n − 1)
 γ̂(1) γ̂(0) . . . γ̂(n − 2) 
 
Γ̂n =  .. 
 . 
γ̂(n − 1) γ̂(n − 2) . . . γ̂(0)
est définie positive. Pour montrer cela, on écrit

Γ̂n = n−1 T T 0 ,

où T est la matrice n × 2n suivante


 
0 ... 0 Y1 Y2 ... Yn
 0 ... 0 Y1 Y2 ... Yn 0 
 
T = . 
 .. 
0 Y1 Y2 . . . Yn 0 ... 0

et Yi = Xi − X̄n , i = 1, . . . , n. Ainsi pour tout vecteur a de taille n × 1,

a0 Γ̂n a = n−1 (a0 T )(a0 T )0 ≥ 0 .

De plus, on peut montrer que det(Γ̂n ) > 0, si γ̂(0) > 0.


La proposition suivante sera utile pour arriver à savoir quel processus ARMA(p,q) corres-
pond le mieux à la modélisation de la partie aléatoire de certaines données. En effet, on sait
que ρ(k) = 0, ∀|k| > q lorsque l’on a affaire à un MA(q). La proposition suivante va servir à
mettre au point un test pour savoir si ρ̂(k) est significativement différent de 0 ou pas.

Proposition 12. Si {Xt } est un processus stationnaire


X
Xt − µ = ψj Zt−j ,
j∈Z
P
où les {Zt } sont iid d’espérance nulle et de variance σ 2 , j∈Z |ψj | < ∞ et E(Zt4 ) < ∞ alors
pour tout h ∈ {1, 2, . . .}
√ L
n(ρ̂V (h) − ρV (h)) −→ N (0, W ) lorsque n → ∞

39
où
ρ̂V (h)0 = [ρ̂(1), . . . , ρ̂(h)]
ρV (h)0 = [ρ(1), . . . , ρ(h)]
et W est une matrice de covariance dont l’élément (i, j) est donné par la formule de Bartlett
X
wi,j = [ρ(k + i) + ρ(k − i) − 2ρ(i)ρ(k)] × [ρ(k + j) + ρ(k − j) − 2ρ(j)ρ(k)] .
k≥1

Remarque 9.
P
L’hypothèse E(Zt4 ) < ∞ peut être remplacée par 2
j∈Z |j|ψj < ∞.

Application 1 : Tester si des observations sont iid


1ère méthode : Fonction d’autocorrélation empirique
Si les Xt sont iid d’espérance nulle et de variance σ 2 alors ρ(l) = 0 si |l| > 0 et donc
½
1, si i = j,
wij =
0, sinon.

Pour n suffisamment grand, ρ̂(1), . . . , ρ̂(h) sont approximativement iid gaussiens d’espérance
nulle et de variance n−1 . Donc si on trace les autocorrélations empiriques ρ̂(k) en fonction de
k ≥ 1 et si celles-ci restent entre les bornes −1.96 × n−1/2 et 1.96 × n−1/2 alors ceci assure
que l’on a bien affaire à des données iid.

2ème méthode : Test de Portmanteau


Au lieu de regarder si chaque ρ̂(k) est bien dans l’intervalle de confiance précédent, on
peut envisager une statistique globale
h
X
Q=n ρ̂(j)2 .
j=1

Si les observations sont iid alors Q est la somme de h variables aléatoires qui sont des carrés
de gaussiennes centrées réduites, Q suit donc une loi χ2 (h). Une valeur trop grande de Q
par rapport au (1 − α)-quantile d’une loi du χ2 (h) nous amène à rejeter l’hypothèse que les
observations sont iid.

Application 2 : Tester si un processus est un MA(q) ou un AR(1)


On utilise pour ce faire la formule de Bartlett et la proposition précédente (voir TD).

40

Vous aimerez peut-être aussi