Vous êtes sur la page 1sur 7

LA HOUILLE BLANCHE / N° 4-1977

Etude de la stationnarité
des séries hydrornéléorologiques
..Jacques Bernier
Laboratoire National d'Hydraulique
Electricité de France - Direction des Études et Recherches

Introduction cumuls". Le gros défaut de cette méthode est l'absence


de tests statistiques valables pour préciser la signification
des cassures apparentes. On peut démontrer par des rai·
sonnements probabilistes que la courbe résultant de
séries homogènes doit présenter nécessairement de telles
L'étude dont le présent article expose les résultats a cassures par sa nature même et il reste à distinguer les
été entreprise dans le cadre d'un contrat passé en 1972 cassures "naturelles" de celles qui sont imputables aux
avec le Ministère de l'Equipement et du Logement. Elle ruptures de tendances.
concernait la détermination de méthodologies efficaces Hinkley [1] a étudié les performances de tests précis
pour détecter et estimer les ruptures de .tendances et les dans le cas de séries unidimensionnelles, c'est-à-dire en
non-stationnarités dans les séries chronologiques. Pour ne tenant pas compte de variables de contrôle:
remettre cette étude de 1972 en perspective, nous cite-
rons les résultats récents qu'a donné P. Bois dans sa Considérons une séquence y l' Y 2 . . . , y N dont on
connaît l'espérance mathématique m o et la variance 0 2 ,
thèse "Contribution à la critique et à la prévision des
on construit les cumuls suivants:
variables hydrométéorologiques ; applications à la pré- n
vision des débits du Niger et des avalanches à Davos" S o = 0 '. S = '" (y. - m 0 + 00)
présentée en septembre 1976 à l'Université de Grenoble. n '-' J
j=1
Bien que faisant référence aux exemples hydrolo- ou 0 est un nombre convenablement choisi.
giques et météorologiques, les méthodes sont d'une L'époque L éventuelle, où un changement de moyen·
portée très générale. ne (écart à mo) apparaît, peut être estimée par le pre-
mier indice n où Sn atteint sa valeur maximale, mathé·
matiquement définie par:

Historique i = minimum (n tel que Sn ;;;. S)


pouru = 1,2, ... N

Le test consiste à rejeter l'hypothèse d'absence de


La détection des "cassures" dans les séries hydrolo- changement si :
giques est une des premières tâches des hydrologues.
Diverses méthodes sont utilisées. On connaît la vogue de SN - max Sn <- h
la technique dite "doubles cumuls" (ou doubles masses). n<N
Cette technique graphique consiste à porter en ordon-
nées le cumul dans l'ordre chronologique des valeurs de Hinkley définit la méthode de choix de h et 0 pour
la série à vérifier et en abscisse le cumul des valeurs con- donner des performances désirées à cette procédure.
comittantes d'une série de contrôle. On détecte usuelle- Ce choix est assez délicat et les résultats du test peuvent
ment les écarts systématiques pouvant survenir à certai- être complètement faussés par un mauvais choix.
nes époques par les cassures de cette courbe "double L'efficacité de la méthode est également fonction de

Article published by SHF and available at http://www.shf-lhb.org or http://dx.doi.org/10.1051/lhb/1977023


314 LA HOUILLE BLANCHE / N° 4-1977

la variance a 2 de la série. Dans le cas de séries hydro- Dans l'hypothèse de distribution gaussienne des ré-
métriques et pluviométriques, cette variance peut être sidus, ceux-ci sont distribués selon une loi normale
telle que le test unidimensionnel perd toute efficacité. de moyenne nulle et de variance égale à (1 - y2) S;
C'est la raison de l'introduction de variables de con- (résultat valable pour N grand). Un cumul partiel (cf. fi-
trôle comme le fait la méthode des "doubles cumuls". gure ci-après) :
La Division Technique Générale (D.T.G.) d'E.D.F. k+m
a proposé et utilise systématiquement la méthode
suivante: Zk,k+m = L
i=k
~i
Soit : YI' Y 2' ... y N' la série à vérifier et Xl' X 2' ...
x N ' la série concommitante de contrôle: représente la distance verticale séparant deux points figu-
X, y, S2, S2, y les moyennes, variances et coeffi- ratifs de deux cumuls distants de m dans la série de
cients de c~rrél1tion empiriques de ces séries. résidus. C'est une réalisation d'une variable aléatoire nor-
Le résidu ~i correspondant à la valeur Yi dans la male d'espérance nulle et de variance donnée par Bois
régression linéaire de y en x est défini par: sous la forme:

_ _ Sy _ Var [Zk,k+m] (1)


( = 11· - y - y- (X. - x)
1 ./ 1 Sx 1
Zk
La D.T.G. considère les cumuls:

k
Zk= L1 i (k±I,2,oo.N)
i= 1

La courbe de Zk en fonction de k et notamment


les maxima de cette courbe peuvent permettre la détec-
tion des ruptures de séquences.

x
y. -------1"
tj"l{ 1

-- --x---
Une rupture peut exister entre les époques k et k + m
1
x 1 si Zk,k+m est trop grand. Dans son premier travail Bois
x 1 utilisait la formule (1) pour définir un seuil de test en
1 négligeant la dépendance des résidus et la contrainte
1 essentielle:
1
N
.x
L ~i = 0
On pourrait penser appliquer à ces résidus la procé- i =1
dure de Hinkley avec :
Dans sa thèse Bois tient compte de cette contrainte et
- mû = 0 (la moyenne des résidus est nulle)
- a 2 = S2 (1 - y2)
plus généralement donne une approximation de la loi de
Y l'ordonnée Zk' de la courbe de cumul des résidus con-
On constate que la variance des residus est d'autant trainte à passer par deux points M et P fixés, d'abcisses
plus faible que la corrélation avec la série de contrôle k et k + 1 (voir graphique joint). De façon spécifique
est forte. La corrélation accroît donc l'efficacité de la Bois montre que la distance verticale CC' d'lm point C
méthode. Cependant la méthode de Hinkley devrait être de la courbe des cumuls d'abscisse k + m au segment
modifiée pour tenir compte de la contrainte imposée aux MP, dans l'hypothèse de stationnarité, est une variable
résidus, à savoir: aléatoire normale d'espérance nulle et de variance
approximative (pour N grand)
N

L t = 0
Var (CC') =
Nm(l - m)
S2 (I - y2) (2)
i= 1
(N-l)l Y'

avec nos notations.

Les travaux de P. Bois Pour 1 = N, et k = 0

, m(N -m)
Var (CC) == Var (Zm) =
(N - 1)
S; (1 - y2) (3)
Dans une precédente publication P. Bois [2] avait
proposé un test statistique basé sur les principes suivants: où Zm est le cumul total à partir de l'origine.
J. BERNIER 315

La méthode de test proposé par Bois est alors la sommets coïncide avec les différents points de la
suivante: courbe "cumuls des résidus" on détecte les écarts
Il existe une rupture significative entre M et C si : Zk,k+m qui sortent des limites de l'ellipse.
3/ La première époque L (0 « L « N) de rupture
est estimée par l'indice k correspondant au premier
cc' > t 0'. ..JVar (CC/) (4)
maximum de Zk jugé significatif par la procédure ci-
2
dessus.
La détection des époques de ruptures postérieures est
où Var (CC') èst calculée par (2) ou (3) et t 0'. est la
effectuée en prenant comme origine des temps la précé-
valeur de la variable normale centrée réduite doJt la pro- dente époque de rupture estimée et en effectuant un
ex nouveau calcul des résidus.
babilité de dépassement est - (l - ex étant le seuil de 4/ Estimation de e : écart moyen des espérances
. 2
confiance choisi) avant et après rupture:

e = E(U - E(~i)
1 -ex= 95 % tO'.
-
1,96 ~~
2 i«L i>L
2
1 - ex = 99 % tO'. = 2,57 N
e (5)
2 L (N - L) (N - 1) Sy ..JI - r2
Graphiquement la courbe représentative de la limite
donnée par (4) est une ellipse passant par M et P si on se 2 e méthode plus expéditive
reporte au graphique précédent. Une difficulté de cette
procédure est l'imprécision sur la performance du test Déplacer l'origine le long de la courbe des cumuls de
où ex n'est pas liée directement à un risque d'erreur. résidus revient à considérer les sommes partielles Z k k+m .
En résumé, il serait possible d'utiliser les techniques Considérons alors le maximum U de la valeur absolùe des
de Hinkley appliquées aux résidus ~i' La mise en œuvre sommes partielles pour 0 « k « N et 0 < m « N - k.
de ces techniques n'est pas simple mais elle pourrait être Ce maximum est en fait égal à l'étendue: écart entre le
utile dans certains cas d'espèce. maximum et le minimum de la courbe des résidus
Les techniques pratiques que nous donnons dans le cumulés. L'hypothèse d'absence de rupture dans la série
paragraphe suivant prennent pour point de départ les des y est rejetée si :
principes posés par P. Bois mais elles ont été développées
à partir d'une étude plus poussée du processus des U ~ j(N - 21) (a'}') S y
~ (6)
résidus, étude explicitée en annexe. La première mé-
thode est essentiellement celle de notre étude de 1972,
la deuxième méthode est nouvelle et basée sur où r est relié au seuil de confiance 1 - ex choisi par :
l'approximation par le mouvement brownien contraint.
ex
r = ~
N
et ex'}' est la valeur de la variable exponentielle dont la
Les méthodes proposées
probabilité de dépassement est r (voir annexe).

Remarques importantes:
1 e're méthode
1/ Les procédures ci-dessus supposent stationnaires
1/ Pour un seuil de confiance 1 - ex choisi (on les séries naturelles non perturbées. On ne peut pas les
appliquer à des séries où apparaissent des variations
pourra prendre 1 - ex = 0,90), on calcule t 0'. saisonnières.
N(N -1)
2/ Les couples (Xi' yJ sont supposés indépendants.
la valeur de la variable normale centrée réduite dont la
En toute rigueur, les procédures ne s'appliquent pas lors-
ex
probabilité de dépassement est . que les séries testées présentent des auto-corrélations
N(N - 1) importantes. L'effet de ces auto-corrélations serait de
2/ On considère l'ellipse de contrôle d'équation sous-estimer la variance des résidus, ce qui entraînerait
un risque plus grand de détecter des ruptures non réelles.
Cependant la non-vérification de l'hypothèse d'indépen-
Z(m) = ± t 0'. ..Jm(N - m) (N - 1).
dance ne semble pas cruciale.
N(N -1)
3/ S'il y a rupture et donc un e significativement dif-
férent de 0, la statistique S2 (l - r2 ) surestime la
(4)
"vraie" variance des résidus. On pourrait dans ce cas
effectuer une correction, cependant assez complexe.
En déplaçant cette ellipse de façon que l'un de ses Pratiquement cette correction ne semble pas essentielle.
316 LA HOUILLE BLANCHE / N° 4-1977

4/ Il est loisible d'utiliser plusieurs variables hydrolo- imprécise. Ceci ne doit pas être oublié dans l'interpré-
giques de contrôle. Dans ce cas, les résidus sont ceux tation des résultats du tableau (1). Une procédure
apparaissant dans une régression à plusieurs dimensions approximative permettant d'apprécier la plage d'incer-
et r est remplacé par le coefficient de corrélation titude concernant L consiste à définir l'intervalle des
multiple. valeurs de k correspondant aux Z k qui sortent de
l'ellipse de confiance.
Globalement, il apparaît donc que les séries vérifiées
sont hétérogènes et les dates de rupture semblent coïn-
Application cider nettement avec les deux périodes de guerre 1914-
1918 d'une part, 1940-1945 d'autre part.
Notons que la station d'Origny-Ste-Benoite, choisie
comme station de référence pour illustrer la méthode,
Le Service Central Hydrologique du Ministère de a dû être soumise aux mêmes avatars que les autres sta-
l'Equipement et du Logement nous a fourni les données tions ; elle n'est certainement pas exempte de toute
de hauteurs d'eau relatives à 10 stations du bassin de rupture' aux époques de guerre. Dans ce cas, le calcul de
l'Oise. Nous avons appliqué la technique exposée dans ce e n'a pas grande signification. Mais la méthode indiquée
rapport aux séquences des hauteurs moyennes annuelles dans ce rapport peut s'appliquer dans d'autres contextes.
en utilisant la station d'Origny Sainte-Benoite comme
contrôle. Le tableau ci-après donne les éléments des
Zk en cm
calculs par la première méthode. 100

80 1\

Sv~ Signification
Date de
A' \

ri
Données
Stations r rupture

v\ \
60
existantes (cm) IS -NS)
(maxima)
40
Condren
Moncornet
1876-1968
1876-1968
0,86
0,69
13,6
19,6
18,7
S
NS
S
1921-1945
(1915-19171
(1914-1939)
20 \ \
Hirson
Origny-en-
1885-1968

1873-1968 0,78
0.13

16,7 S (seuil 70 %) 1942


\ \
\
Thiérache k
Isauf 1941)
1885-1968 0,52 23,8 S 1928
- 20 /
1 /
Biermes
$3Înte- \\ r
vl v'l
- 40

\' / ~
Menehould 1876-1968 0,56 22,1 S 1937
Isauf 1935-
1936) - 60

Vouziers 1884-1968 0,55 22,6 S 1920


\J '\ ( /
Vraincourt 1876-1968 0,67 20,4 NS (1939) - 80
(sauf 1935-
1936) -\00
i

i i "'~L /
Etreux 1885-1968 0.68 20,2 S 1938
Isauf 1924 -120 , , ,r,
o 10 20 30 18 40 70 80
il 1931)
Origny-Ste-
Benoite 1881-1968 - - - - Résidus cumulés Condren-Drigny Sainte-Benoîte

- L'ensemble de ces stations présente des lacunes de 1915 il 1919.


- Le coefficient de corrélation r est calculé à partir de la station
.d Origny-Ste-Benoite choisie comme contrôle.
Annexe
Dans le cas de cassure non significative, la date du maximum de Z est Etude des processus des résidus
donnée entre parenthèses à titre indicatif.

Reprenons l'expression du résidu:


L'application de la deuxième méthode pour un seuil
_ _ S
a comparable (a = 10 %) a donné des résultats iden- ~. = y. - y - r-L (x. - x)
tiques sauf pour Condren, Vouziers et Etreux où la pre- 1 1 Sx 1

mière méthode donnait des résultats très proches des


En utilisant j'identité:
limites de l'ellipse de contrôle.
N
Hinkley, dans son étude de la distribution d'échan-
tillonnage de l'estimateur de L, a constaté la grande dis- rS ~ (Xi - x) Yj
-----...E _ /=1
persion de cet estimateur. Il en résulterait donc une S - -'--'-=--N-S"'"2--
imprécision notable de l'estimation qui devrait être x x
assortie d'un intervalle de confiance assez large. Il n'est on peut mettre le résidu sous la forme:
pas douteux que ceci s'applique également au cas de
l'analyse des résidus comme nous le faisons. Bien que = [~ _ (Xi - X)2] _
cette méthode nous paraisse être la plus efficace pos- ~ N Ns 2
x
Yi
sible, elle permet certes de tester avec une sécurité
notable et calculable effectivement l'existence de rup-
ture mais l'estimation de la date reste relativement
_7
'" [1
7.
_+ (x. - x) (x.1
N
1

Ns x2
I-r-l
J. BERNIER 31?

qui, les x.1 fixés, exprime f1 comme combinaison linéaire comme conditionnellement normales; les moments
desy .. (A.?) à (A.9) définissent donc les paramètres de la distri-
] -
Les ~i ne sont pas indépendants, ils sont fonctionnel- bution normale des Z ~. On voit aussi que la distribution
lement reliés par les deux équations: des Z k dépend des valeurs x de la série de contrôle. En
N fait ici l'hypothèse de distribution normale n'est pas
Lf
i=l 1
= 0 (A.2) essentielle et au moins pour k grand, la distribution des
Zk sera approximativement normale si même la distri-
N bution desYj ne l'est pas.
L
i=l
(x. -
1
x) f =0
1
(A.3) La mise en œuvre pratique des formules condition-
nelles peut nécessiter des calculs assez lourds. Pour des
La prise en compte de cette dépendance est essen- raisons de commodité il est préférable d'utiliser des dis-
tielle pour une bonne représentation des fluctuations des tributions et moments non conditionnels (quels que
résidus et de leurs cumuls. soient les x) au prix d'une légère perte d'efficacité.
La formule (A.!) permet l'expression de f; comme Les formules ci-dessous résultent cependant de
fonction linéaire de variables indépendantes desyj' C'est l'approximation consistant à remplacer la variance empi-
la formule de base de notre calcul. rique S2 figurant au dénominateur des formules (A.?) à
Rappelons qu'avec l'hypothèse de régression linéaire (A.9) pXar la valeur théoriqùe ax2 vers laquelle elle con-
des y en fonction des x, on suppose que, conditionnelle- verge lorsque N -* ex>; cette approximation est justifiée
ment aux x fixés : lorsque N est grand (N ;;" 40 à 50). On obtient alors:

(y.) = aI
- EX + bI
(x. - x) E(Zk) =0 (A.IO)

- Var (y.) = a 2 (l _ p2) Var (Zk) keN - k)(N - 1)


x 1
2 (A. Il)
- a2 étant la variance théorique de y et de p le coeffi-
a (1 _ p2) N2
cient de corrélation théorique des y avec les x.
Cov (Z k ' Z k') _ k (N - k') (N - 1)
(Le conditionnement par les Xi est indiqué par (A.12)
l'indice x). a 2 (1 _ p2) - N2
Il est possible alors de calculer les espérances et va- De (A.12) on tire l'expression du coefficient de corré-
riances et covariances conditionnelles des f 1 par l'inter-
lation entre Z k et Z k' :
médiaire de (A.l) ; on trouve:

. Ex (~) =0 (A.4) (A.13)

Var i (1) N-1


2 (A.5) Z k et Z k' sont donc très liés lorsque k' - k est petit.
a (1 _ p2) N
(x. - x) (x. - X)2
1
NS 2]' .....- - (A.6) Détermination de l'ellipse de contrôle
x
Ces formules permettent de passer aux cumuls : Le problème est de rechercher une courbe de contrôle
k telle que tout dépassement amène à repousser l'hypo-
Zk=LT. thèse d'homogénéité de la série avec un seuil de con-
i=l 1 fiance contrôlé.
Ex (Zk) =0 (A.?) Considérons alors l'ensemble de tous les intervalles:

Varx (Zk) _ k (N - k)
- f- y .J Var (Zk) ~ Zk ~ + t'Y .J Var (Zk)
a 2 (1 - p2) - N - -
2 2
avec pour k = l, 2 ... N
avec une valeur t'Y de la variable normale centrée réduite
2 l'
et si k' > k dont la probabilité de dépassement est 2'

Covx (Zk Zk') =k (N - k') k k' (x k - x) (xe - x) Soit E k l'évènement: "z k compris dans l'intervalle"
a 2 (1 - p2) N NS x2
(A.9)
Prob [E k ] = 1 - l'

On peut écrire:
Distribution conditionnelle et non condi- Prob [tous les E k simultanément] = N
tionnelle
= Prob [El () E 2 .. , () EN];;" 1 - L P(Ek)
k=l
Commençons par supposer les variables aléatoires Yi
318 LA HOUILLE BLANCHE / N° 4-1977

OÙ Bk est l'évènement contraire de E k : Zk situé hors de buée selon une loi exponentielle:
l'intervalle.
La probabilité de Ek est égale à r donc:
Prob [A > a] = e -Q (A.15)

Prob [touslesEk Simultanément] >1- Nr


Pour un seuil de test fixé r tel que :

On voit ainsi qu'il ne suffit pas de contrôler la proba· Prob [A > a-y] = r
bilité correspondant à un Z k individuel comme le fait P. on peut alors bâtir un test à partir du maximum de Zk
Bois mais il faut contrôler la probabilité de l'occurence en supposant valable l'approximation par le mouvement
simultanée des E k dont on connaît une borne inférieure. brownien (N) 50).
La méthode consiste donc à contrôler cette borne infé·
Si on considère le maximum des Zk contraintes à la
rieure, par exemple :
seule condition ZN = 0, d'où x = 0 pour u = 1 dans la
1 - Nr = 1 - a formule de la loi de A, on définit un seul B 0 vérifiant:

et d'en tirer la valeur de r correspondante.


Si le sommet de l'ellipse est déplacé de façon à coïn·
. If-y
sOltB
o
= -2 (A.16)
cider successivement avec les différents points de la
N (N - 1) On est donc amené à prendre en compte la limite de
courbe des cumuls, on aura en fait inter- rejet de l'hypothèse d'absence de rupture sous la forme:
2
valles à prendre en compte de telle sorte que dans ce max Z k yr=---:7-::-
cas: S ..j 1 _ r2 > (N - 1) B o (A.l7)
N (N - 1) y
1- r=l-a
2 Si de façon comparable à la méthode basée sur l'el-
lipse de contrôle, on envisage de déplacer l'origine de la
L'expression de Var (Zk) en fonction de k (for· courbe des Z t en la faisant coïncider avec tous les points
mule A.II) montre bien que les limites de la courbe de de cette courbe, un raisonnement analogue au précédent
contrôle sont définies par l'équation d'une ellipse don· montre que r doit être relié à un risque a global contrôlé
née par la formule (4). par la formule:

1 - Nr = 1- a
Approximation asymptotique (complément à
l'étude de 1972) On notera de plus que les propriétés des lois du mou-
vement brownien étant symétriques autour de B = 0,
Considérons un changement d'échelle des temps en la loi conditionnelle pour ZN = 0 s'applique aussi au
posant: minimum de Zk et la formule (A.17) est donc valable
pour le minimum à condition de changer le sens de
K
t =- l'inégalité.
N
et le processus des Z k transformé sous la forme: Estimation de e
Z
B(t) - Nt (A 14) Admettons un écart moyen e intervenant dans la
- S
y
y (1 - r2 )(N - 1) . série à l'époque L, tel que:

On peut alors montrer aisément que si N tend vers


l'infini le processus B(t) converge vers un processus de
E(Yi) = Ji +e pour ° ~ i ~ L

Wiener-Levy ou mouvement brownien défini sur l'inter- E(y) = Ji pour L <i <N
valle de temps 0 ~ t ~ 1 et soumis à la contrainte
On peut montrer que Zk n'a pas une espérance ma-
B(t) = 0 pour t = 1 thématique nulle mais:

Bois avait déjà remarqué dans sa thèse l'analogie avec le e k (N - 1) (N - L)


processus de Wiener-Levy. N2
On peut cependant utiliser plus complètement les
propriétés du mouvement brownien. On trouvera notam· eL (N - 1) (N - k)
ment dans l'ouvrage de S. Karlin [3], l'expression de la N2
loi conjointe du maximum de B(t) sur l'intervalle
o ~ t~u, soitBM et deB(u). Connaissant la loi deB(u) L'espérance de Zk atteint donc un extrêmum pour
on peut en déduire la loi du maximum BM conditionnée k = L ce qui justifie la méthode de test et d'esti-
par la contrainte B(u) = x. On obtient le résultat remar- mation de L.
quable suivant: On constate également que Zk est en moyenne
2 B (B - x) e
négative si l'écart est négatif, c'est-à-dire si les Yi pré-
La variable aléatoire A = M M ,est distri- cédant l'époque L sont en moyenne inférieurs aux Yi
u
suivant L.
J. BERNIER 319

Ces formules peuvent permettre une estimation de e. Bibliographie


En utilisant la déviation maximale, on peut égaler
l'espérance mathématique de Z L à la valeur observée
ê (N - 1) (N - L) L [1] HlNKLEY (D.V.) Inference about the change-point
2 from cumulative sum tests - Biometrika (1971) nO 58-3.
N
(2) BOIS (p.) - Une méthode de contrôle de séries chronolo-
On estime donc e par: girjues utilisées en climatologie ct en hydrologie. Publica-
tion du laboratoire de Mécanique des Fluides - Section
Hydrologie Université de Grenoble (mai 1971).
(A.19) (3) KARLIN (S.) - A first course in Stochastic Processes -
Academie Press - 1966 - p. 281 - Problème 1.

Vous aimerez peut-être aussi