Vous êtes sur la page 1sur 477

-

UNESCO
INTERNATIONAL HYDROLOGICAL PROGRAMME
PROGRAMME HYDROLOGIQUE INTERNATIONAL

Statistical and Bayesian Methods in


Hydrological Sciences

Méthodes Statistiques et Approches


Ba @siennes en Hydrologie

Edited by / Sous la direction de :

Eric Parent, Pierre Hubert, Bernard Bobée, Jacques Miquel

Selected
papers from the International Conference
in honor of Professor Jacques Bernier,
held at UNESCO, Paris, from 11 to 13 September 1995

Comptes-Rendus sélectionnés de la Con ference In terna tionale


en l’honneur du Professeur Jacques Bernier,
tenue à /*UNESCO, Paris, du 1 I au 13 septembre 1995

IHP-V 1Technical Documents in Hydrology / Documents Techniques en Hydrologie ) No. 20


UNESCO, Paris, 1998
Prof. Jacques Bernier
Artwwk by/Dessin pur : Martial Guisnet
The designations employed and the presentation of material
throughout the publication do not imply the expression of any
opinion whatsoever on the part of UNESCO concerning the legal
status of any country, territory, city or of its authorities, or
concerning the delimitation of its frontiers or boundaries.

Les appellations employées dans cette publication et la


prhenta tion des donndes qui y figurent n’impliquent de la part
de l’UNESCO aucune prise de position quant au statut juridique
des pays, territoires, villes ou zones, ou de leurs autorit&, ni
quant au trac8 de leurs frontières ou limites.

SC-98lWSI80
Table des matières Contents
PREFACE

REMERCIEMENTS / ACKNOWLEDGMENTS
ORGANISATION / ORGANIZATION
LISTE DES AUTEURS / ADDRESS LIST OF AUTHORS

1 - INTRODUCTION . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . , . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ,.. 1

1. HOMMAGE A JACQUES BERNIER / HOMAGE TO JACQUES BERNIER ,................ 3-22


J. Jacquet, B. Bobée, J. Miquel, E. Parent

2. INFORMATION, MODeLES, RISQUES ET HYDROLOGIE STATISTIQUE /


INFORMATION, MODELS, RISKS AND STATISTICAL HYDROLOGY . . . . . . . . . . . . . . . . . . . 23-38
J. Bernier

II - MODÉLISATION STATISTIOUE / STATISTICAL MODELING . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .39

3. RECENT DEVELOPMENTS IN BAYESIAN INFERENCE WITH


APPLICATION IN HYDROLOGY / DEVELOPPEMENTS RECENTS POUR
L’INFERENCE BAYÉSIENNE AVEC APPLICATIONS A L’ HYDROLOGIE.. . . . . . . . . . . .43-62
J. 0. Berger, D. Rios Insua

4. ESTIMATION DE L’INTENSITÉ D’UN PROCESSUS DE POISSON


INHOMOGÈNE PAR UNE MÉTHODE BAYÉSIENNE / BAYESIAN
ESTIMATION OF INHOMOGENEOUS POISSON PROCESS INTENSITY . . . . . . . . . . . . . . . . 63-78
1. Abi-Zeid

5. BAYESIAN APPROACH TO RAINFALL MODELLING / UNE APPROCHE


BAYÉSIENNE DE LA MODÉLISATION DE LA PLUIE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79-86
E. Todini, M. Di Bacco

6. MODÉLISATION DE DONNÉES HYDROLOGIQUES EXTRÊMES DE CRUES


À L’AIDE DES LOIS DE HALPHEN / FLOOD EXTREME HYDROLOGICAL
DATA MODELING USING HALPHEN DISTRIBUTIONS . . . . . . . . . . . ..a,............ . . . . . . . . . . . . . . 87-106
L. Perreault. B. Bobée

7. DEALING WITH UNCERTAINTY IN SIMPLE SCALING MODELING OF


FLOOD PROCESSES / LE TRAITEMENT DES INCERTITUDES POUR UN
MODÈLE SIMPLE DE SIMILITUDE D’ÉCHELLE DE PROCESSUS DE CRUES . . 107-116
J. Ribeiro, S. Birikundavyi, J. Rousselle
III - MÉTHODES D’HYDROLOGIE STOCHASTIOUE / STOCHASTIC
HYDROLOGY METHODS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117-120

8. SUR LA PRISE EN COMPTE DES CRUES HISTORIQUES / DEALING WITH


HISTORICAL FLOODS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121-146
C. Thirriot

9. COMPARAISON DES MODES D’ÉCHANTILLONNAGES PAR SÉLECTION


DU MAXIMUM ANNUEL ET DES VALEURS SUPÉRIEURES À UN SEUIL /
COMPARISON OF SOME SAMPLING TECHNIQUES BY PEAK OVER
THRESHOLD AND MAXIMUM ANNUAL VALUE SELECTION . . . . . . . . . . . . . . . . . . . . 147-180
M. Lang

10 DIFFERENCES ET COMPLÉMENTARITÉS DE TROIS METHODES


D’ESTIMATION DES RISQUES DE CRUES : RENOUVELLEMENT,
GRADEX, AGREGEE / DIFFERENCES AND COMPLEMENTARITIES OF
SOME FLOOD RISK ESTIMATION TECHNIQUES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ...< 181-200
J. Miquel

11. UTILISATION DE L’ANALYSE STATISTIQUE MULTIDIMENSIONNELLE


DANS LE CALCUL DES CARACTÉRISTIQUES HYDROLOGIQUES
CONJUGUÉES ET DANS LES PRÉVISIONS HYDROLOGIQUES /
MULTIDIMENSIONAL STATISTICAL ANALYSIS FOR ASSESSING
CONJUGATE CHARACTERISTICS IN HYDROLOGICAL FORECASTING . . . . . . . . . 201-214
V. S tanescu

IV - ANALYSE DES SÉRIES TEMPORELLES / TIME SERIES ANALYSIS . . . . . . . . . . . . . . . 215218

12. STATISTICAL PERSISTENCE IN HYDROCLIMATOLOGICAL SERIES /


PERSISTANCE STATISTIQUE DES SERIES HYDROCLIMATIQUES . . . . . . . . . . . . . . . . . . 219-234
A. Bardossy

13. A STOCHASTIC MODEL FOR SIMULATING OF DAILY FLOWS IN


HIGHGLY DEVELOPED BASIN / UN MODÈLE STOCHASTIQUE POUR
SIMULER LES APPORTS JOURNALIERS DANS UN BASSIN TRÈS
DÉVELOPPÉ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235-250
L. Kottegoda, L. Natale, E. Raiteri, 1. Saccardo

14. RIVER POLLUTION FROM URBAN STORMWATER RUNOFF / LA


POLLUTION DES RIVIÈRES DUE AUX ORAGES EN MILIEU URBAIN . . . . . . . . . . . . . 251-262
P. Schmitt-Heiderich. E. Plate

15. INDEPENDANCE D’ECHELLE DE LA DISTRIBUTION STATISTIQUE DES


PRECIPITATIONS EXTRÊMES / SCALE INDEPENDENCE OF EXTREME
RAINFALL PROBABILITY DISTRIBUTION . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263-268
P. Hubert, H. Bendjoudi, D. Schertzer
V - REGIONALISATION / REGIONALIZATION ,.........................,.....,.......................... 269-272

16. REGIONALIZATION AND MULTIVARIATE ANALYSIS : THE


CANONICAL CORRELATION APPROACH / ANALYSE MULTIVARIÉE ET
RÉGIONALISATION : APPROCHE PAR CORRELATIONS CANONIQUES . . . . . . . .273-284
G. Cavadias

17. REGIONAL FLOOD FREQUENCY ANALYSIS : SOME LESS FREQUENTED


CORNERS / ANALYSE FRÉQUENTIELLE RÉGIONALE DES CRUES : UNE
VISITE DE QUELQUES ENDROITS PEU FRÉQUENTÉS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285-298
M. Beran

18. TOTAL PROBABILITY METHODS FOR PROBLEMS IN FLOOD


FREQUENCY ESTIMATION / LES METHODES DE PROBABILITÉS
TOTALES POUR L’ESTIMATION DES FRÉQUENCES DE CRUES . . . . . . . . . . . . . . . . . . . . . . . 299-326
R. Durrans

19. A REGIONAL BAYESIAN METHOD FOR ESTIMATION OF EXTREME


STREAMFLOW DROUGHTS / UNE MÉTHODE BAYESIENNE
D’ESTIMATION RÉGIONALE POUR LE CALCUL DES DÉBITS EXTREMES
EN PÉRIODE DE SÉCHERESSE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 327-340
H. Madsen, D. Rosbjerg

20. FLOOD FREQUENCY STUDIES USING REGIONAL METHODS / LES


MÉTHODES RÉGIONALES POUR L’ÉTUDE DES FRÉQUENCES DE CRUES . . . . 341-356
J. Stutcliffe, F.A.K. Farquharson

VI - THÉORIE STATISTIOUE DE LA DÉCISION ET PRÉVISION /


STATISTICAL DECISION THEORY AND FORECASTING . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357-360

2 1. LE DÉVELOPPEMENT RÉCENT DES SCIENCES DE LA DÉCISION : UN


REGARD CRITIQUE SUR LA STATISTIQUE DÉCISIONNELLE
BAYESIENNE / THE RECENT ADVANCE OF DECISION SCIENCES : A
CRITICAL VIEW AT BAYESIAN STATISTICAL DECISION THEORY . . . . . . . . . . . . . . . . 361-398
B. Munier, E. Parent

22. UTILISATION DES TECHNIQUES D’ANALOGUES POUR LA PREVISION


QUANTITATIVE DES PRÉCIPITATIONS JOURNALIERES / QUANTITATIVE
FORECASTING OF DAILY PRECIPITATIONS USING ANALOG
TECHNIQUES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 399-414
S. Guilbaud, J.Y. Rodriguez, C. Obled

23.RAINFALL FORECASTS FOR FLOOD MANAGEMENT IN RIVER BASINS /


LA PRÉVISION DES PLUIES POUR LA GESTION DES CRUES . . . . . . . . . . . . . . . . . . . . . . . . . . . . 415-436
H. Muster, A. Bardossy

24. PONDÉRATION BAYÉSIENNE DE PRÉVISIONS : UNE APPLICATION


OPÉRATIONNELLE À LA PREVISION DES CRUES / BAYESIAN
WEIGHTING OF FORECASTS : AN OPERATIONAL APPLICATION TO
FLOOD FORECASTING . . . . . . . ,. . . . . . . . . . . . . . . .._..................................................................... 437-446
P.A. Roche
VII - MÉTHODES NOUVELLES D’ÉVALUATION ET DE GESTION DU
RISQUE / NEW DEVELOPMENTS FOR RISK ASSESMENT AND
MANAGEMENT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 447-450

25. BAYES AND FUZZY LOGIC MODELING OF ENGINEERING RISK UNDER


DYNAMIC CHANGE / MODÉLISATIONS FLOUE ET BAYÉSIENNE DU
RISQUE EN SITUATION DE CHANGEMENT DYNAMIQUE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 451-464
L. Duckstein

26. NON-PRECISE INFORMATION IN BAYESIAN INFERENCE /


L’INFORMATION IMPRÉCISE POUR L’INFÉRENCE BAYÉSIENNE... . . . . . . . . . . . . . . . . . 465-478
R. 3ertl

27. RÉGIONALISATION FLOUE DES DÉBITS DE CRUE À L’AIDE DE LA


MÉTHODE ISODATA / FLOOD STREAMFLOW FUZZY REGIONALIZATION
USING ISODATA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 479-490
V. Fortin, Z. Bargaoui, B. Bobée, L. Duckstein
PREFACE
CC livre comprend une sélection d’articles révisés après This book is composed of refereed, sclectcd.
leur présentation à la Conférence Internationale en rewritten, and edited contributions presented at the
l’honneur du Professeur Jacques Bernier qui s’est tenue International Conference in honor of Profcssoi
à Paris, à 1’Unesco du l l au 13 Septembre 1995. Le Jacques Bernier, held at UNESCO headquarters in
thème de la conférence, les méthodes statistiques et Paris from 1 I to 13 September, 1995. Thc
upproches bayLsiennes en hydrologie, avait pour objet Conference theme : Stutistical and bo~~esirm
de souligner les avancées récentes en sciences de l’eau, methods in hydrological sciences, was meant to
reliées aux activités de recherches principales du point out recent advances of water sciences related
Professeur J. Bernier, c’est à dire : to the main research activities of Professor J.
Bernier :
a) les approches bayésiennes, l’esprit et les méthodes a) Bayesian approaches: philosophy and methods in
en hydrologie (la prise de décision en avenir incertain hydrology (uncertainty and risk based decision
et risqué, la théorie de la décision statistique) making, statistical decision theory)
b) la modélisation statistique en hydrologie (les b) Statistical modeling in hydrology (Mode1 of’
modèles de dépassement, les distributions statistiques, exceedances, statistical distributions, multivariate
les modèles multivariés) models)
c) l’estimation régionale et le transfert d’information c) regional estimation and transfer of information
pour les variables hydrométéorologiques (sécheresse, of hydrometeorological variables (droughts, floods,
pluie, précipitation) precipitation....)
d) la théorie de la décision statistique appliquée aux 4 statistical decision theory applied 10
systèmes hydriques hydrosystems
e) l’évaluation et la gestion du risque en hydrologie. e) assessment and management of risk in
hydrology.
Plus de deux cents participants ont suivi les cinq
sessions. Chaque session était composée d’une séance More than two hundred participants attended the
plénière dressant l’état de l’art et de nombreuses five sessions. Each session was composed OI‘ a
communications orales ou démonstrations de logiciels plenary conference on the state of the art, as well as
et présentations de posters. many oral communications, software and poste]
Sous les hospices de l’UNESCO, les objectifs de cette exhibitions.
conférence étaient : Under the patronage of UNESCO, the objectives of
this conference were :
1. de centrer l’attention des participants sur les cinq
thèmes de recherches précédents qui avaient été 1. to focus on the previous five themes developed
développés par Jacques Bernier et d’autres statisticiens by J. Bernier and other statistical hydrologists,
appliqués et hydrologues,

2. de mettre en lumière les études récentes et les 2. to highlight recent studies of the challenging
techniques novatrices en hydrologie statistique et tout techniques in statistical hydrology, especially risk-
spécialement la prise de décision en avenir risqué pour based decision making in water resources
la gestion des ressources en eau ainsi que l’évaluation management and statistical estimation OI’
statistique des variables hydrologiques. hydrological variables,

3. de mettre sur pied un forum d’échange d’idées et de 3. to provide a forum for the exchange of ideas and
transfert de techniques pour les scientifiques de la transfer of techniques among the scientists of the
communauté hydrologique. hydrological community.
Remerciements Acknowledgments
Mise en place par Ics sections fran@sc, canadienne et Initiatcd by the Frcnch, Canadian and Hunga~~at~
hongroise du pt-ogramme hydt-ologiquc international. sections of rhc IHP, and with thc support of’ m;~n>’
cette coiil’%cncc ii rc~u l’appui de nombreux collC;gucs coIIca(Tues
5 os thc’ international s~~ciitili~
dc la communaut6 internationale; elle s’inscrit dans le community, this UNESCO Watcr Sc~cncc
cadre des activilCs scientifiques soutenues par la Division confcrence intends to rccogniLc LIK
clt\,tsion des scicnccs de l’eau de l’UNESCO cl a ~OUI cminent contribution of Professor Jacques Bct-nict
ob.jct dc rcconnaîtrc l’émincntc contribution du to statistical hydrolopy.
PI-ofesseLtt Jacques Bet-nicr 3 la slatistiquc The organizing committee (Bernard Bobéc. Pict-t-e
hydrologiquc. Hubet-t, Jacques Miquel, Éric Parent. Istv5n Zsul.l:t.
Lc comit6 d’organisation (Bernard Bob&, Pierre Andras Szollosi-Nagy) wants 10 undcrlinc ~II:I~
Hubert, Jacques Miqucl. Éric Parent. Andras Szollosi- rcndcring thts soletnn homagc at UNESCO
Nagy. Istvan Zsuffa) tient ;I souligner que rendre ccl dedicatcd to Scicnccs, Education and Culture. IS
hommage solennel à l’UNESCO, organisme dédié aux undoubtcdly right since these threc domains ha\.~
sciences, à l’éducation et à la culture, est sans aucun becn illustrated hy all thc scientific carccr 01
doute justifiée puisque ces trois domaines ont 8té Jacques Bcrnicr.
illustrés par toute la carrière scientifique de Jacques
Bcrnicr.

Les sponsors que nous retnercions iivcment pour Icur Sponsors whose fïnancial and tnatcrial help IS
appui financier ou tnalériel, sont, dans l’ordre gratefully acknowledged, werc. in alphahctic
alphabétique : order :

Ecole Nationale du Génie Rural, des Eaux Institute of Forestry, Agricultural and
et des Forêts (France) Environmental Engineering (France)

Ecole Nationale des Mines de Paris Institute of Mines from Paris (France)
(France)

Electricité de France : DER et DTG French Electric Utility : DER et DTG


(France) (France)

Hydro-Québec et le groupement E7 Hydro-Québec and group E7


(Canada) (Canada)

Institut National de Recherche Scientifique National Institut of Scientific Research


Eau (Canada) in Water Science (Canada)

Sections Françaises, Canadiennes et French, Canadian and Hungarian


Hongroises du programme hydrologique Sections of the International
international Hydrological Programme

UNESCO (Division Ressources en Eau) UNESCO Water Resources Division


De nombreuses personnes ont aidé à la préparation de Among the many individuals who have helped us
ce livre; nous sommes spécialement reconnaissants à : prepare this book, we are especially indebted to :
- Nicole Boileau, qui a géré toute la correspondance - Nicole Boileau, who handled the correspondence
relative aux contributions et qui a tenu le fichier des relative to the papers and organized the authors’
auteurs, files,
- Françoise Million, qui a refrappé nombre de papiers - Françoise Million, who retyped many of thc
et reformaté les autres de façon à préparer un papers and reformatted the others SO as to preparc
exemplaire esthétique prêt à la photocopie, an aesthetically pleasing camera-rendy copy.
- Martial Guisnet, qui a imaginé le graphisme en page - Martial Guisnet, who designed the caver I’ront
de couverture, qui nous a aidé à améliorer la page, helped to improve the general presentation
présentation générale et a réalisé de nombreuses and xeroxcopied many drafts of the book.
photocopies d’essais de l’ouvrage.
Nous voulons aussi remercier en particulier les
responsables de sessions et les conférenciers We also thank in particular the chairmen/ kcynotc
principaux (J. Berger, A. Bardossy, G. Cavadias, B. speakers of the sessions (J Berger, A. Bardossy. G.
Munier, L. Duckstein) qui, après la conférence Cavadias, B. Munier, L. Duckstein) that , after thc
inaugurale de J.Bernier, ont mené avec enthousiasme inaugural conference of J. Bernier, enthusiastically
la discussion sur les approches innovantes en led the discussion on innovative techniques in
hydrologie statistique. statistical hydrology.

Nous sommes également redevables de l’aide


importante qui a été fournie sur la base du volontariat We also acknowledge with thanks the great help
par les membres du comité de publication ainsi que par provided on a volunteer basis by the members OI‘
un groupe de relecteurs composé d’un échantillon de the publication committee, and then by the group 01‘
participants allant du jeune docteur jusqu’au professeur paper referees composed of a cross-spectrum OI‘
confirmé. Cette relecture et sélection a été accomplie participants, from Young graduate students to
selon les instructions que la Revue des Sciences de senior professors. The revisions have been
l’Eau utilise lors de la soumission d’un article. performed according to the “Revue des Sciences de
Que Janos Bogardi et Andras Szollosi-Nagy acceptent I’Euu” instructions for submitting a paper.
ici l’expression de notre reconnaissance pour leur aide May Janos Bogardi and Andras Szollosi-Nagy also
et leur encouragements. accept our grateful thanks for their constant help
Sans la participation active de toutes les personnes and stimulating encouragements.
citées , la qualité de cet ouvrage ne pouvait être Without the active participation of all thcsc
garantie. individuals we could not even have pretended to
control the quality of this volume.
Nous regrettons que quelques articles présentés, au
demeurant excellents, n’aient pas pu être inclus dans We regret that a few excellent lecturers’ papcrs
cet ouvrage. Cela ne met pas en cause la qualité du could not be included into this book. This is
travail de leurs auteurs, c’est seulement une certainly not a retlection on the intrinsic quality OI‘
conséquence des limitations en temps et en place their work, but only a consequence of the space and
imposées aux responsables de la réalisation de cet time limitation requirements that were given to the
ouvrage. editors.
Organisation Organization
Les 27 chapitres de cc livre proviennent de la The 27 chapters of ,his book consist 01‘sclected and
rcécriture d’une sélection des contributions de la rcwritten papers ti-om the Coni’crence ICCILIITS.
conférence. Ils ont été regroupés en sept parties de la They have heen grouped into sevcn intcrrclatcd
facon suivante : parts as follows:

1. Introduction 1. Introduction
II. Modélisation statistique II. Statistical modeling
III. Méthodes stochastiques en hydrologie III. Stochastic methods in hydrology
IV. Analyse des séries temporelles IV. Time series analysis
V. Régionalisation V. Regionalization
VI. Théorie de la décision statistique VI. Statistical decision theory
VII. Développements nouveaux pour l’évaluation VII. New developments for risk asaessment and
du risque et la gestion. management.

Chacune de ces parties peut être lue de l’ac;on séparée et Each of the seven parts cari be read separately and
donne un point de vue unifié sur un sujet donné. Ce provides a unifying view on a given topic. It cari be
livre peut être utilisé par des étudiants de niveau used as background material for advanced graduatc
maîtrise ou de jeunes docteurs afin de comprendre les students and recent PhD’s to understand the recent
avancées récentes en matière d’hydrologie statistique advances in stochastic hydrology and engineering
ou d’ingénierie des systèmes de ressources en eau. Il in water resources management. It cari also bc
peut Cgalcment servir d’ouvrage d’introduction à considered as an introductory book l’or academic
l’usage des scientifiques du monde académique et and industrial scientists or cxperienccd
industriel OLI dc professionnels confirmés avec une professionals to discuss the various topics OI’
l’orte motivation pour discuter des divers points de theoretical and applied decision making under risk.
théorie ou d’applications en matière de prise de stochasticity and uncertainty conditions in the Iïelcl
décision en avenir risqué, puisqu’il met l’accent sur of water sciences, with emphasis on Bayesiaii
l’approche bayésienne pour traiter des aspects approaches.
stochastiques et incertains rencontrés dans le champ
des sciences de l’eau.

L’anglais et le francais ont été utilisés sans distinction Both English and French have been used as
comme langues of’ficielles de la conférence (une conference languages (with simultancous
traduction simultanée a été fournie par l’UNESCO). Ce translation provided by UNESCO) and this book OI‘
livre en deux langues de contributions sélectionnées selected papers in any of the two languages rei‘lccts
rel‘lete aussi l’esprit bilingue qui a prévalu durant ces the bilingual spirits that prevails during these thrcc
trois jours de conférence où les échanges au sein de la days of many fruitt’ul exchanges among thc
communauté internationale en hydrologie statistique international scientifïc community in statistical
furent nombreux et fructueux. hydrology.

Nous espérons que le lecteur aura autant de plaisir à We hope that the reader Will enjoy studying thc
consulter ces divers chapitres que nous cn avons vorious chapters as much as we did when we were
rencontré lors de l’élaboration de cet ouvrage! gathering all of them!

Eric Parent, Pierre Hubert, Bernard Bobée, Jacques Miquel.


LISTE DES AUTEURS ADDRESS LIST OF’AUTHORS
4BI-ZEID, Ir&ne. Defense Scientist. Software Engineering, 2459 BI. 13ARDOSSY, Andras, University of Stuttgart, Hydraulic
‘te XI Nord, CP 8800, - VAL BELAIR. GOA 1RO CANADA. 1zngmeering, Pfaffenwaldring 61, D 70550 STUTTGART.
4LLEMAGNE.
3ARGAOUI. Zoubeida, ENIT TUNIS, Laboratoire hydrauhque. ;3ENJOUDI. Hocine, Université Pierre et Mane Curie, Laboratoire
3.P.37. Le Belvédère, 1002 - TUNIS, TUNISIE. <Je giologie appliquée, 4 Place Jussieu, 7.5252 PARIS CEDEX 05,
1çRANCE.
SERAN, Max. TIGER Programme manager, Institute d’hydrologie, 1BERGER, James O., Purdue University, Departement of Statistlcb
Irowmarsh Gifford, Wallingford, 0X10 8BB - OXFORDSHIRE, IIND 47907 - WEST LAFAYETTE, USA.
4NGLETERRE.
BERNIER. Jacques Le Pech de Binud, 24250 - ST MARTIAL de 1BIRIKUNDAVYI, Salvator, Ecole Polytechnique of Montreal. Dpt
VABIRAT, FRANCE. cIf Civil Engineering, P.O.BOX 6079, Station Downtown,
IMONTREAL, Québec, H3C 3A7 CANADA.
BOBEE, Bernard, INRS EAU, Chaire Hydro-Québec/CRSNG, lZAVADIAS. George 21 Alopekis, 10675 ATHENES, GRECE.
Hydrologie statistique, 2800 rue Einstein, STE FOY (Québec).
3 IV 4C7 CANADA.
OI BACO, Mario, Università di Bologna, Dipartlmento di Science 1DUCKSTEIN, Lucien, University of Arizona, System, Ind. Eng.
Statistiche, Via delle Belle arti 41.40126 BOLOGNA, ITALIE. IDpt., College Eng.Mines, 85721 - TUCSON, USA.
DURRANS, Rocky, University of Alabama, Civil environmental, 1FARQUHARSON, F.A.K, Institute of Hydrology, 0X10 8BB
Box 870205, TuscaIoosa, 35487.0205 ALABAMA, USA. WALLINGFORD, UK.
FORTIN, Vincent, INRS EAU, Chaire Hydro-Québec/CRSNG, ,JULLBAUD, Sophie, LTHE-UMR, SS64 BP 51 38041
2800 rue Einstem, CP 7500 STE FOY (Québéc), CANADA. ,SRENOBLE CED-EX, FRANCE.
HUBERT, Piere, Ecole des Mines de Paris, UMR CNRS Sisyphe, JACQUET, Joseph, 18 rue Rameau, 63000 CLERMONT-
152 rue de Charenton, 77300 - FONTAINEBLEAU, FRANCE. FERRAND, FRANCE.
KOTTEGODA. Luigi, Universita di Pavia, Hydraulic & LANG, Michel, CEMAGREF LYON, Division Hydrolofle
Environmental Engineering, Via Ferrata 1. 27 100 PAVIA, ITALIE. 1hydraulique, 3 bis quai Chauveau, 69.136 LYON CEDEX 09.
FRANCE.
MADSEN, Henrik, University of Danemark, Hydrodynamlcs & MIQUEL, Jacques, EDF - DEPT DTG, Service Ressource en Eau,
hydraulic eng., Building 115, Technical University, DK 2800 37 rue Diderot, 38040 _ GRENOBLE CEDEX, FRANCE.
LYNGBY, DANEMARK.
MUNIER, Bertrand, Ecole Normale Supérieur-e,GRID - URA CNRS MLJSTER, Holger, Universitat Karlsruhe, Instltute für Hydrologie
1419,61 avenue du Pdt. Wilson, 94230 - CACHAN. FRANCE. und Wasserwirtschaft, Kaiserstr. 12, D 76128 - KARLSRUHE.
ALLEMAGNE.
NATALE, Luigl, Universtta di Pnvia, Hydraulic & Enviromnental OBLED, Charles, LTHE-UMR 5564, BP 53, 38041 GRENOBLE
Engineering, Via Ferrata 1, 27100 _ PAVIA, ITALIE. CEDEX, FRANCE.
PARENT, Eric, ENGREF, L.aboratorte GRESE, 19 avenue du PERREAULT, Luc, INRS EAU, Chaire Hydro-Quibuc/CRSNG.
Maine. 75732 - PARIS CEDEX 15. FRANCE. Hydrologie statistique, 2800 rue Einstrm, --STE FOY (Quebec).
GlV 4C7 CANADA.
PLATE, Erich J.. Universltat Karlsruhe, Instltute fur Hydrologie und RAITERI, E, Universita dl Pavia, Hydraulic & Env]i-omnental
Wasserwirtschaft, Kaiserstr. 12, D 7612X - KARLSRUHE, Engineering, Via Ferrata, 1, 27 100 PAVIA, ITALIE.
ALLEMAGNE.
RIBEIRO. Joseph, Ecole Polytechnique of Montreal, Dpt. of Clvil RIOS-INSUA, David, Umversidad Politecnica Madrid , Spain and
Engineering,, P.O.BOX 6079, Station Downtown, - MONTREAL CNR-]AMI, - MADRID, ITALIE.
Québec, H3C 3A7 CANADA.
ROCHE, Pierre Alain, Ministère Equipement, Logement, Transport RODRIGUEZ. Javter Yves, EDF-DTG, Ressource en eau. BP 53
Tourisme, EquIpement de Picard]e, Cité administrative. 56, rue Jules 38041 GRENOBLE CEDEX, FRANCE.
Bal-ni, 80040 - AMIENS, FRANCE.
ROSBJERG. Henrik. University of Danemark, Hydrodynamics & ROUSSELLE, Jean, Ecole Polytechnique of Montreul, Dpt. of Cl\11
hydraulic eng.. Building 115, Technical University, DK 2800 Engineermg, P.O.BOX 6079, Station Downtown, MONTREAL.
LYNGBY. DANEMARK. Quibec, H3C I(A7 CANADA.
SAC?$RDO. Ionel, ENEL - CRIS UIGI , SO del Pop010 245, 3017; SCHERTZER, Daniel, Université Pierre et Marx Curie, Laboratoit-e
MESTRE. ITALIE. de géologie appliquée, 4 Place Jussleu, 7.5252 PARIS CEDEX OS.
FRANCE.
SCHMITT-HEIDERICH, Erich, Universitat Karlsruhe, Institute fül STANESCU, Viorel, Institut national météorology-hydrologie SCCIOI
Hydrologie und Wnsserwirtschaft, Kalserstr. 12, D 76 128 1, Sos.bucuresti-ploiesti Y7. 71.552 BUCARESTI. ROUMANIE
KARLSRUHE. ALLEMAGNE.
SUTCLIFFE. John, HEATH BARTON Manor road, Gorlng or THIRRIOT, Claude, CNRS/ENSEEIHT, Laboratoire 005, 2, rut C.
thames, RC8 YEH - NEAR READING. ANGLETERRE. Camichel, 31071 -TOULOUSE CEDEX, FRANCE.
TODINI, Ezo, Umversith dl Bologna. Dipartimento di Scienze dell: VIERTL, Reinhard, Technische Universitat Wien , Wledner
Terra Via Zamboni 67. 40126 BOLOGNA, ITALIE. Haupstrasse X-lO/lO7, A.1040 WIEN, AUTRICHE.
PARTIE 1 PART 1

INTRODUCTION

1. HOMMAGE A JACQUES BERNIER / HOMAGE TO JACQUES BERNIER ._.......,........ 3-22


J. Jacquet, B. Bobée, J. Miquel, E. Parent

2. INFORMATION, MODÈLES, RISQUES ET HYDROLOGIE STATISTIQUE /


INFORMATION, MODELS, RISKS AND STATISTICAL HYDROLOGY . . . . . . . . . . . . . . . . . . . 23-38
J. Bernier

1
1. HOMMAGE A JACQUES BERNIER

Joseph JACQUET
Ancien Conseiller Scientifique d’Electricité de France
Professeur Honoraire d’Hydrologie à 1’Ecole Nationale des
Ponts et Chaussées

Bernard BOBEE
Titulaire de la Chaire d’Hydrologie Statistique HYDRO-
QUEBECKRSNG établie à l’INRS-EAU

Jacques MIQUEL
Chef du Service Ressources en Eau
Electricité de France - Division Technique Générale

Eric PARENT
Directeur du laboratoire de Gestion des Risques En
Sciences de l’Eau de 1’Ecole Nationale du Génie Rural, des
Eaux et des Forêts

Résumé

A l’ouverture de la conférence internationale “ Méthodes Statistiques et Bayésiennes en


Hydrologie “, qui s’est tenue à l’UNESCO les 11, 12 et 13 septembre 1995 en l’honneur du professeur J.
BERNIER, nombre de ses collègues, disciples et amis se félicitent de voir ses travaux enfin reconnus par
la communauté scientifique internationale. Après une évocation du creuset scientifique où s’est formé le
jeune statisticien hydrologue, sont ici retracés les parcours du chercheur, de l’ingénieur et de l’homme.

Abstract

The international conference “Statistical and Bayesian Methods in Hydrological Sciences ” was
held in Unesco headquarters from September 11 to September 13, 1995 in honor of Prof. Jacques
BERNIER. Several of his friends and colleagues took the opportunity to express their sincere happiness
to see that his important work was finally recognized by the international scientific community. After
briefly recalling how Jacques Bernier came to hydrology, the traits of the researcher, the engineer and the
man are sketched in this paper.

3
1.1. Au commencement de la carrière de J. Bernier, un entourage scientifique
exceptionnel
En septembre 1955, frais émoulu de la Faculté des Sciences et de l’Institut de Statistique
de l’Université de PARIS (I.S.U.P.), Jacques BERNIER est entré au Service des Etudes
Hydrauliques (S.E.H.) de la Direction des Etudes et Recherches (D.E.R.) d’Electricité de
France (E.D.F.). EDF a alors 9 ans... La loi de nationalisation de 1946 a confié au nouveau
Service National la mission de subvenir aux besoins en électricité de la collectivité nationale
en assurant la garantie de la fourniture “aux meilleurs conditions de coût et de qualité de
service”. Cette obligation implique la recherche permanente d’un optimum en matière
d’équipement et de gestion des moyens de production d’électricité d’origine hydraulique et
thermique afin de faire face aux fluctuations de la demande présente et future. Au sein de la
nouvelle Direction des Etudes et Recherches (D.E.R.), sont regroupés plusieurs équipes et
laboratoires dont ceux:

- de la Société Hydrotechnique de France (S.H.F.) chargée de la mise au point des


outils intellectuels et techniques nécessaires à la conception, à la réalisation et à
l’exploitation des aménagements hydroélectriques

- et du Laboratoire National d’Hydraulique (L.N.H.), créé dans l’île de CHATOU


quelques années auparavant sous l’égide de la Direction des Ports et des Voies
Navigables du Ministère des Travaux Publics et de la Reconstruction, pour l’étude
sur modèles physiques, des aménagements hydrauliques de toute nature.

L’originalité du S.E.H. réside dans sa composition. Cet organisme regroupe en effet à la


fois

- une équipe d’ingénieurs et de techniciens hydrologues étudiant les mécanismes


de génération de l’écoulement à partir des précipitations à l’échelle du bassin
versant en vue de la prévision des apports dans les retenues, et se préoccupant de
toutes les questions d’hydrométéorologie connexes,

- et une équipe de mathématiciens, universitaires de formation, constituant un


Bureau d’Etudes Statistiques (B.E.S), dont la qualité des travaux en Hydrologie
Statistique associée à l’économie de l’électricité a déjà attiré l’attention de Pierre
MASSÉ, premier Directeur de 1’Equipement d’EDF et futur Commissaire au Plan.

C’est naturellement dans l’équipe du B.E.S., animée alors par Georges MORLAT, que
Jacques BERNIER va prendre place au coté d’hydrométéorologues de terrain, tels que Joseph
JACQUET, qui animera sucessivement la future Division Hydrologie, puis le Département
Environnement Aquatique et Atmosphérique.

1.1.1. Halphen

Etienne HALPHEN est présent dans les esprits des chercheurs du B.E.S. Normalien de
la Promotion 1925, trop tôt disparu en 1954, il a donné à 1’Hydrologie Statistique ses lettres
de noblesse et un essor inégalé, en puisant dans la nature même des variables à traiter
l’inspiration créatrice d’outils adaptés, faisant appel aux ressources d’une culture et d’une
intuition mathématique incomparables.

4
Il est surtout connu dans la Communauté Scientifique par la classe complète de
fonctions de distribution à 3 paramètres - les lois de HALPHEN - qu’il a imaginée face à
l’insuffisance des lois statistiques classiques pour représenter convenablement les
caractéristiques fondamentales des distributions de débits des cours d’eau. Bien que les
difficultés rencontrées pour la tabulation précise de ces lois avant l’ère des ordinateurs aient
freiné leurs applications, il est intéressant de mentionner ici, qu’à l’instigation de Jacques
BERNIER,elles ont été utilisées pour la modélisation des débits extrêmes de crues au Canada,
et ont été introduites dans un logiciel pour en faciliter l’utilisation (PERREAULT et BOBEE,
1997).
Ces lois ne représentent toutefois qu’une petite partie des travaux d’HALPHEN : ses
réflexions sur les fondements du calcul des probabilités et de la statistique mathématique, en
approfondissant la notion de vraisemblance, mériteraient en particulier que l’on s’y arrête:
Georges MORLAT et Jacques BERNIER ont été les dépositaires et continuateurs de cette
entreprise...

1.1.2. Morlat

Georges MORLAT est la seconde personnalité atypique du B.E.S. de la Division


Hydrologie, formé à 1’Hydrologie à l’école d’Etienne HALPHEN. Il s’est engagé à fond dans
la mise au point de modèles adaptés à la représentation des aléas hydrologiques aux diverses
échelles de temps et d’espace; elles sont nécessaires à la résolution des problèmes
économiques qui concernent l’équipement des moyens de production d’énergie électrique, et à
la définition de stratégies de gestion des réserves hydrauliques. Les travaux de MORLAT, à
forte connotation économique, l’ont naturellement conduit à s’orienter résolument vers les
applications du calcul des probabilités à l’économie.
L¶I.S.U.P. a bénéficié de ses talents de professeur et d’organisateur des études, tandis
qu’EDF et le CEA ont fait appel à lui pour prendre la mesure des risques liés à l’énergie
nucléaire et introduire une certaine forme de rationalité .économique en matière de
radioprotection. Dans les années 70, il s’intéressera à la compréhension des mécanismes de la
contestation en animant un Groupe de Recherches “Energie, Technologie et Société”, qui
poursuivra ensuite ses travaux sur la prise en compte des facteurs humains dans l’évaluation
des risques de l’industrie nucléaire...

1.1.3. Le Cam

Le troisième homme de la triade des statisticiens hydrologues du B.E.S. vers 1950 est
Lucien LE CAM, chez qui se conjuguent la Statistique Mathématique et I’Hydrologie
Analytique. Pour l’étude de la structure fine des séries chronologiques de débits, il s’intéresse
à l’opérateur de convolution reliant les processus de précipitation et d’écoulement et par là,
tout naturellement, à la connaissance des mécanismes physiques qui régissent cette
transformation. Il va prendre en compte l’aspect aléatoire des phénomènes pour représenter les
processus stochastiques des débits à partir de ceux caractérisant l’évolution de l’intensité des
pluies dans le temps.
Avant de rompre les amarres avec le vieux Continent en devenant chercheur et
professeur à l’Université de BERKELEY, ses travaux sur les sécheresses contiennent des
aperçus originaux sur les successions de ces phénomènes qui ont conduit HALPHEN à
proposer son schéma de “vaches maigres” pour décrire les probabilités de sécheresses en
faisant intervenir deux lois, l’une pour les années “normales”, l’autre pour l’occurrence en série
d’évènements exceptionnels tels que ceux de la décennie 1940-1950... En ce sens, LE CAM
et HALPHEN sont les précurseurs des travaux de Benoît MANDELBROT.

5
Sous le titre “Problèmes et Méthodes de I’Hydrologie Statistiques”, Jacques BERNIER
a dressé en 1963 un tableau remarquable des travaux effectués par le trio HALPHEN-
MORLAT-LE CAM en les replaçant dans le contexte opérationnel où ils se sont développés.

1.1.4. Mandelbrot

Benoît MANDELBROT a profondément marqué une génération de chercheurs du


L.N.H. à Chatou. Sa démarche intellectuelle allant du complexe au simple, montre comment
la prise en compte des phénomènes géophysiques les plus complexes, dans tous leurs états et
leur dynamique, peut être féconde pour la création de nouvelles représentations de la réalité
en mobilisant des entités mathématiques développées indépendamment et qui se révèlent
adaptées à leur utilisation inattendue. Sa recherche obstinée de la réduction de l’écart entre
l’objet et sa.représentation est le moteur même de la quête de vérité si l’on admet que cette
dernière se définit comme “adaequatio rei et intellectus”, d’après le vieil adage aristotélicien
qui assure que l’esprit humain est fait pour comprendre la réalité du monde extérieur à lui.
Ainsi exposait-il ses recherches en 1967 dans une petite salle située dans les combles
des grands halls d’essais du L.N.H. , expliquant en particulier comment la considération des
successions de longue durée d’évènements hydrologiques rares, qu’il désignait de façon
parlante par”Effet Noé” et “Effet Joseph”, le conduisait à une révision radicale des processus
statistiques “classiques”, dérivés de l’approche gaussienne, et de la notion même de hasard qui
leur était appliquée. Il recherchait alors les plus longues séries disponibles de données
hydrologiques pour tester le caractère opérationnel des nouveaux modèles, dits “à homothétie
interne”, qu’il proposait en substitution aux modèles markoviens après avoir découvert les
travaux de HURST décrivant, à l’aide d’un coefficient d’échelle les dépendances entre débits
successifs du NIL... Jacques BERNIER fera exécuter par un jeune ingénieur des Ponts et
Chaussées, Henri BONAQUE, un travail remarquable, resté inédit, sur le coefficient de
HURST et le Modèle de MANDELBROT appliqué à La LOIRE où la question posée par
l’occurrence de la succession des 3 crues historiques de 1846 - 1856 - 1866 reste encore
entière.

1. 2. Du S.E.H à 1’INRS Eau au Québec, en passant par le LNH : quarante


années très riches.. .

1.2.1. Du Services des études hydrologiques . ..

A son arrivée en 1955 à I’EDF les premiers travaux de Jacques BERNIER portent sur
l’analyse des crues de la DURANCE pour le dimensionnement des évacuateurs de crues du
réservoir de SERRE-PONÇON. L’enjeu socio-économique était de taille en raison de
l’irrégularité du régime de la rivière, des données fragmentaires sur les plus importantes crues
historiques et de la première mondiale que constituait l’implantation d’une digue en terre de
telles dimensions dans un lit constitué d’alluvions. D’emblée, il est confronté à la notion de
risque dans la prise de décision dans le cadre de l’estimation des crues de très faible
probabilité, à partir de l’ajustement de lois de distribution à des échantillons de données
limitées à la fois en qualité et en durée d’observation. On retrouve dans ses publications de
l’époque, déjà précisées, la plupart des grands thèmes qui vont guider sa réflexion ultérieure
et, esquissées, certaines des approches originales qu’il médite déjà.
1958 a été marqué par la dissolution du B.E.S. Jacques BERNIER fait alors un bref
séjour à Gaz de France où il se consacre pendant trois années au traitement de problèmes
technico-économiques.
1.2.2. En passant par le LNH de Chatou...

Les liens avec ce qui reste de la Division Hydrologie sont trop forts: Jacques BERNER
y succombe et arrive fin 1962 à Chatou où il participe et met un point d’orgue aux
expérimentations de pluie provoquée commencées par EDF en 1954. 11 en a d’ailleurs tiré la
matière de sa thèse : “Sur le contrôle des opérations de pluie provoquée”, présentée à
1’I.S.U.P. en 1963 et une communication faite à BERKELEY en 1965, dans laquelle sont
évalués les divers plans d’expérience, avec ou sans tirage au sort pour les inséminations de
nuages, avec les tests de contrôle associés. Ce travail demeure une référence sûre que l’on
peut encore consulter avec profit dès que l’on s’interroge sur les moyens à mettre en œ uvre
pour conjurer la sécheresse. Ce sera aussi pour lui l’occasion d’approfondir la notion de
robustesse des tests statistiques d’hypothèses, selon leur sensibilité à un mauvais choix des
lois de distribution des observations, et de s’intéresser à la théorie des tests, en particulier à
celle des tests non paramétriques plus “robustes” pour la comparaison de séries de valeurs
voisines. Dans une de ses publications de 1963, faite à propos du contrôle statistique des
opérations de pluie provoquée, apparaît la première mention de l’utilisation du principe de
BAYES dans le choix de probabilités a priori pour les hypothèses d’un test de comparaison,
choix permettant de minimiser l’espérance mathématique du coût a posteriori. Dans son esprit,
les méthodes bayésiennes sont en route ! Deux autres sujets génériques dominent cette
période (1963-67): l’estimation des probabilités des débits de crue (méthodes bayesiennes,
cas d’information incomplète,...), et les problèmes d’exploitation des réserves hydrauliques :
la gestion optimale des réservoirs à buts multiples, la garantie assurée par des réservoirs de
régulation saisonnière, les règles de gestion des réservoirs de protection contre les crues, etc...
En 1967 Jacques BERNIER est directement attaché au Chef du Laboratoire National
d’Hydraulique. A ce titre il participe à une aventure originale : la création d’une structure de
recherche hydrologique mixte EDF - Université, dirigée par Yves CORMARY à
MONTPELLIER. Il est chargé d’un rôle de conseil en statistique auprès de l’équipe
montpelliéraine dont les travaux, orientés vers les synthèses hydrologiques régionales,
mettent en œ uvre un ensemble très élaboré de modèles statistiques à variables multiples dont
il est l’inspirateur : l’Atlas Hydrologique de l’Allier en sera la réalisation la plus achevée qui
sera utilisé avec profit par toute une génération d’hydrologues.
Parallèlement il développe de nombreux modèles de processus stochastiques, à une ou
plusieurs dimensions, pour la représentation des crues comme des sécheresses. Il introduit en
France le modèle de “ Renouvellement ” qui, sera appliqué d’abord aux pluies puis aux
débits, et rendra de nombreux services. A cette époque également apparaissent plusieurs
travaux sur le calage des modèles, sur les erreurs d’échantillonnage, sur le traitement de
l’information incomplète: thème omniprésent dans la suite de sa carrière.
A partir de 1970, ses contributions originales à l’élaboration de modèles de pollution en
rivière, prenant en compte la capacité auto-épuratrice du cours d’eau, ont permis d’introduire
le point de vue stochastique dans la modélisation de la qualité des eaux. Il découvre aussi
dans ce nouveau domaine de l’environnement un champ particulièrement adapté à l’analyse
bayésienne qui ne considère plus la probabilité comme une notion “objective”, figée, mais
bien plutôt évolutive avec la prise en compte de nouvelles informations.
A partir de 1973, le choc pétrolier, puis les besoins d’études liés à l’équipement
nucléaire ouvrent encore de nouvelles perspectives aussi bien en hydrologie fluviale que
maritime. Jacques BERNIER est chargé d’animer une petite équipe d’ingénieurs qui
participera à l’évaluation des risques liés aux événements naturels pour les centrales en
bordure de rivière ou en bordure de mer: calage des plates-formes par rapport aux niveaux
atteints par les crues, risque de perte de la source froide en période d’étiage, risques liés aux

7
séismes, risques de houles ou de surcotes de marée extrêmes pour les centrales en bord de
mer.
Pour répondre à ces questions les modèles d’évaluation du risque, combinant le
“ renouvellement ” et l’analyse bayésienne, sont parvenus à leur maturité et trouvent tout
naturellement leur emploi naturel, aussi bien pour les crues, les séismes que les surcotes de
marée. En étiage, les modèles proposés analysent conjointement l’amplitude des débits et leur
durée sous un seuil fixé. Pour la houle, la vérification du modèle gaussien des amplitudes
permettra une approche fiable et une modélisation rigoureuse des événements extrêmes.
Cette activité liée au nucléaire ne doit pas masquer la poursuite des travaux concernant
le dimensionnement et la gestion des ouvrages hydrauliques en collaboration avec Jacques
MIQUEL: le cas du projet de barrage aux Angles sur la Vézère est l’occasion d’introduire de
manière explicite la valeur de l’information hydrologique dans un processus de
dimensionnement optimal d’un réservoir, dans le cadre de la théorie de la décision en avenir
incertain. L’optimisation de la gestion d’un réservoir, également en avenir incertain, en
présence d’incertitudes sur les apports et la propagation des lachures, a fait l’objet d’une thèse
et d’un développement de modèles d’optimisation par programmation dynamique appliquée à
des scénarios de prévision de débits.
D’autres organismes comme le Service des Phares et Balises (prévision du pied de pilote
pour les pétroliers entrant au Havre, dimensionnement des digues, des plates-formes
pétrolières,...) ou encore le Ministère de l’Environnement (modèles de simulation et de
prévisions hydrologiques), et de nombreux laboratoires de recherches français et étrangers ont
aussi utilisé les résultats de ses travaux.

1.2.3. Jusqu’à I’INRS Eau au Québec....

Lorsqu’en 1991 Jacques BERNIER quitte EDF après 36 années de bons et loyaux
services, curieusement fort peu célébrés, ce n’est pas pour se retirer dans quelque thébaîde,
c’est pour mieux se consacrer aux collaborations externes qu’il avait initiées depuis quelques
années : d’abord avec l’Institut National de la Recherche Scientifique de l’Université du
Québec qui lui a spontanément proposé de participer à des programmes de recherche (étude
des lois de Halphen, régionalisation des crues,... ). Cette collaboration se poursuit aujourd’hui
dans le cadre de la chaire en hydrologie statistique financée par Hydro-Québec et le CRSNG.
L’ équipe de Gestion du Risque en Sciences de l’Eau (à 1’Ecole nationale du Génie Rural et
des Eaux et Forêts), ou encore celle de la Surveillance de l’Environnement de Jean-Jacques
BOREUX (Fondation Universitaire Luxembourgeoise) bénéficient également de l’appui d’un
conseiller scientifique bénévole et enthousiaste...

1.3. La complicité du chercheur et de l’ingénieur


Pour notre collègue, les problèmes techniques de l’ingénieur sont le terreau, savamment
fertilisé, du chercheur ! Là où l’ingénieur questionne “ risques de crues “, le chercheur répond
Renouvellement, Analyse Bayésienne, Information Historique....

1.3.1. L’ ingénieur...

Le caractère opérationnel de ses travaux s’impose: sa réflexion n’est pas un jeu de


l’esprit gratuit. La liste des publications, présentée en annexe de cet article, n’est que la partie
émergée des centaines de notes, rapports internes, conférences et cours inédits, et l’on est
immédiatement frappé par la variété des problèmes techniques auxquels il a imprimé un sceau

8
personnel, élaborant à chaque occasion des outils souvent novateurs et adaptés à leur
résolution.
Il est bon de souligner combien EDF, mais aussi les Ministères de l’Environnement, des
Transports, de I’Equipement, des Agences de l’Eau, et bien d’autres organismes, ont
concrètement bénéficié des solutions apportées par l’ingénieur-chercheur.
On a déjà parlé de sa contribution au dimensionnement et à la gestion des réservoirs, de
son expertise en matière de pluie provoquée, de son apport en matière de modélisation
stochastique de phénomènes d’environnement aquatique. Mais ses études de risques, aussi
bien pour les crues, les étiages, les séismes, les surcotes de marée, les houles extrêmes auront
été des outils indispensables aux calages de plates-formes des centrales nucléaires, aux
dimensionnements de digues fluviales et maritimes, aux projets autoroutiers, aux aides à la
navigation par faibles pieds de pilote,...
Ses travaux concernant la modélisation hydrologique à des fin de simulation ou de
prévision aura permis de répondre à des questions aussi diverses que la conception d’un canal
à houle aléatoire, l’analyse des efforts subies par les plates-formes pétrolières, la corrélation
spectrale de plusieurs variables comme vent et courant marin, la définition du dispositif de
mesures de la houle par le Service des Phares et Balises, le calage de modèles hydrologiques
et hydrauliques, la comparaison de modèles de prévision de crues, etc...
La multiplicité de ces applications témoigne d’un sens profond du concret qui se traduit
dans la formulation de chaque problème de façon à pouvoir lui apporter la réponse statistique
optimale, mais elle souligne aussi la généralité des méthodologies employées. C’est même
avec une sorte d’intempÈrance statistique que Jacques BERNIER traque sans relâche l’aléa
dans chaque problème, débusque la moindre faille pour y glisser au moins une distribution, et
trouve parfois, ô bonheur, un terrain expérimental pour une analyse de processus et un
nouveau modèle stochastique!. . .

1.3.2. Le chercheur...

La diversité d’applications ne masque pas ce qui fait l’unité profonde de ses recherches:
le triptyque Temps, Information et Décision.
Les trois sont évidemment intimement liés: l’information est incomplète parce que
limitée dans le temps; cette information incomplète affecte profondément l’appréciation que
nous pouvons avoir de phénomènes dont la structure temporelle peut pourtant nous permettre
parfois, de prévoir et décider, de façon dynamique, à défaut de tout comprendre; la décision
elle même très dépendante de cette information incomplète, dont la valeur devient une notion
tangible, souvent même économique.
Ces trois volets et leurs interactions constituent pour Jacques BERNIER, une
préoccupation permanente .
- l’étude des processus, et le mélange d’imagination et de rigueur pour les modéliser de
façon pertinente par rapport au problème technique posé, qu’il s’agisse de prédétermination,
de prévision ou de simulation de phénomènes hydrologiques est une clé de voûte de sa
contribution. Un des premiers en 1956 à proposer l’utilisation des loi de Gumbel et Fréchet
pour la prédétermination des débits de crue, l’intérêt qu’il porte à la distribution des
événements dans le temps le conduit rapidement de l’étude des liaisons entre débits successifs
à celle de la répartition des intervalles de temps séparant deux crues de probabilité donnée par
les méthodes dites de Renouvellement, dont il sera le promoteur en France dès 1967, en
complément de l’approche classique basée sur les lois de probabilité des crues maximales
annuelles.

9
P~US tard il élargit son champ d’étude aux modèles multivaries, qu’il s’agisse de
Renouvellement à plusieurs dimensions, d’analyse spectrale croisée, ou de régionalisation.
- l’évaluation des incertitudes, jugée aussi importante que l’estimation elle même, est un
leitmotiv. Il est particulièrement vigilant a la critique de l’information, voire a sa
reconstitution ou son extension, pour toujours en tirer le meilleur parti.
Mais la constatation triviale que l’information hydrologique se présente toujours sous
forme de séries chronologiques d’observations relatives à un intervalle de temps donné et que
le déroulement du temps, donc l’occurrence des phénomènes, se poursuit, ne laisse pas de lui
poser la question de fond : comment prendre en compte rationnellement l’information
supplémentaire qui devient ainsi disponible ? Ceci explique que sa pensée ait très tôt adhéré à
la théorie selon laquelle le concept de probabilité doit être dynamique et réévalué en fonction
du caractère lui-même évolutif de l’information dont on dispose, même s’il s’agit
d’information “hétérogène” par rapport à l’échantillon initial. Dans une telle perspective,
l’analyse bayésienne s’impose rapidement. A partir de 1967 il en est un promoteur convaincu,
et l’un des scientifiques qui aura le plus contribué à la diffusion et à la démonstration du
potentiel de l’approche bayésienne en hydrologie..
La prise en compte des informations historiques isolées a été chez lui un souci constant
depuis ses premiers travaux sur les crues de la DURANCE : là encore le point de vue
bayésien a apporté la réponse à cette question insoluble dans un contexte de probabilités
“objectives”.
C’est aussi cette perception dynamique de l’arrivée d’information qui le conduit à
explorer l’intérêt du traitement des erreurs, notamment par filtrage de Kalman, pour renforcer
les performances des modèles de prévision.
- l’analyse de la décision: si les outils de la recherche opérationnelle, à commencer par
la programmation dynamique, lui sont familiers, il ne cache pas que “ se poser la question de
savoir si l’on prend la bonne décision est vain, l’important est de savoir si l’on prend la bonne
décision compte tenu de l’information disponible “. Et d’adapter les principes de l’analyse de
la décision à l’hydrologie, aussi bien au dimensionnement qu’à la gestion de réservoirs. La
valeur de l’information, qui prend bien en compte conjointement enjeux et aléa, est un de ses
chevaux de bataille: montrer à quel point la pauvreté de l’information hydrologique pèse sur
la décision est riche pour le projeteur, le gestionnaire, et l’hydrologue. Le premier peut se
déterminer en tenant compte dans son dimensionnement de cette pauvreté, le second dispose
d’une aide à la décision qu’il appellera au début “ Tableau de Bord “, et le troisième, en
affichant le surcoût consenti par le projeteur, peut renforcer son message sur l’utilité de cette
information. si difficile et coûteuse à recueillir...

1.3.3. Le professeur...

Les écrits de Jacques BERNIER révèlent un style, toujours dense et précis, dépourvu de
jargon ésotérique et fallacieux, et un souci permanent de pédagogie sans pédantisme,
s’appuyant sur le concret pour faire pénétrer les nuances les plus subtiles de ses
argumentations, même s’il faut consentir un effort certain pour y accéder ! Car si la concision
extrême de sa pensée, qu’il faut interpréter, certains diront décrypter, a pu décourager
quelques uns, mais quel plaisir pour les autres!
L’ouvrage, intitulé : “Eléments de décision statistique” (1973) rédigé avec Jeanine
ULMO, constitue sans doute une référence à laquelle il faut se reporter pour saisir ce qui
constitue la toile de fond de ses recherches en Hydrologie Statistique : la poursuite obstinée
de la réduction rationnelle des incertitudes variées qui affectent toute prise de décision en
situation de risque et qui l’a amené pour cela à promouvoir, entre autres techniques,
l’utilisation de l’analyse bayésienne.

10
Les enseignements de Jacques BERNIER sont nombreux : d’abord à EDF où son cours
inédit sur les applications de la Statistique aux travaux de recherches expérimentales vient à
point actualiser en 1964 les conférences de MORLAT de 1952, puis à 1’I.S.U.P. à la demande
de Daniel DUGUÉ et Michel GIRAULT, à 1’Ecole Nationale des Ponts et Chaussées
(E.N.P.C.) pendant plus de 15 années avec Joseph JACQUET, à l’Université de PARIS VI à
l’appel de Ghislain de MARSILY, à celle de MONTPELLIER avec Claude BOCQUILLON, à
1’Ecole Centrale de Paris , et la liste n’est pas exhaustive... Le Professeur BERNIER a de plus
participé à la direction de nombreuses thèses dont certaines représentent des travaux
marquants en hydrologie: la thèse de Mme BABUZIAUX en 1969 sur la loi des fuites et la
thèse de Michel NORTH en 198 1 sur les processus intermittents en sont des exemples.
Enfin Jacques BERNIER n’a été avare ni de ses collaborations, ni de ses conseils: ses
collègues qui ont longtemps fait le siège de son bureau peuvent témoigner de sa disponibilité
à toute épreuve et de son attention sincère. De nombreux visiteurs, stagiaires, thésards et
chercheurs, dont certains en année sabbatique comme Vujica YEVDJEVICH et Jacques
DELLEUR, peuvent attester que CHATOU est devenu un lieu de rencontre privilégié pour les
Hydrologues et les Statisticiens! Collaboration aussi avec de nombreux centres
d’enseignement ou de recherche français (le CEMAGREF, le CERGRENE, l’ENGREF, pour
ne citer que quelques uns) et internationaux (l’INRS-Eau et HYDRO-QUEBEC, l’Université
de Budapest, la F.U.L.) dont plusieurs représentants participent à cette conférence.

1.4. A jolly good fellow !


Le rayonnement international des travaux de Jacques BERNIER trouve une
consécration dans ce colloque. Cela ne surprend pas ceux qui connaissent sa fécondité alliée à
sa rigueur scientifique, ses capacités d’ouverture et d’échange. ces qualités expliquent toutes
les vocations d’hydrologue statisticien qu’il a suscitées ou soutenues, et tout simplement les
liens amicaux qu’il a tissés.

1.4.1. Une reconnaissance tardive de travaux originaux...

Nombreux sont ceux qui s’étonnent que cette reconnaissance ne soit pas intervenue plus
tôt. Plusieurs raisons peuvent l’expliquer:
- une modestie et une discrétion proverbiales, qui ne le poussaient pas sur le devant de
la scène. Elles l’ont desservi dans le déroulement de sa carrière qui n’a pas reçu toute la
reconnaissance méritée au sein de son entreprise. Toujours est il que l’intérêt même de
l’entreprise est de savoir identifier, de valoriser au travers de responsabilités confiées ou
d’une reconnaissance affichée, et de se faire elle même l’écho de ses propres richesses et
compétences scientifiques . . . Puisse cet exemple être médité et suivi d’effets pour mieux
assurer dans le futur aux chercheurs de cette trempe une juste promotion à la hauteur de leurs
mérites...
- raison supplémentaire: la publication restreinte et tardive de ses résultats en anglais
ont incontestablement masqué l’originalité des travaux qu’il a réalisés, et leur caractère
précurseur, comme en témoigne l’annexe de cet article qui dresse la liste de l’ensemble de ses
publications.
Il a été en particulier le premier à proposer, en 1956, l’utilisation de la loi de Fréchet
(BERNIER, 1956) pour l’étude des débits de crue et il a montré que cette distribution était
souvent préférable à la loi de Gumbel. Ces deux distributions (GUMBEL et FRÉCHET) sont
des cas particuliers de la loi généralisée des valeurs extrêmes (JENKINSON, 1955) qui est
depuis quelques années devenue d’un usage courant particulièrement en Grande-Bretagne
(NERC, 1975).

11

- -
Dès 1967, Jacques BERNIER a proposé l’application de la théorie du renouvellement
en hydrologie (BERNIER, 1967a,b), ses travaux ont ensuite été repris et utilisés par d’autres
auteurs. Il existe maintenant une abondante littérature sur ce sujet (RASMUSSEN et. al.,
1994) sans que sa contribution initiale bien qu’évidente ne soit soulignée.
En 1967 encore (BERNIER, 1967c), il a présenté la première application des méthodes
bayésiennes en hydrologie pour prendre en compte le plus d’information possible dans
l’estimation des débits de crues et là encore, la paternité ne lui en a pas été reconnue. En effet
KJRBY et MOSS écrivaient, en 1987, (p. 10): “jusqu’à présent, cette méthodologie (l’analyse
bayésienne) a reçu relativement peu d’attention dans le domaine de l’analyse de fréquence des
crues. Les premiers travaux ont été effectués par DAVIS, KISIEL et DUCKSTEIN (1972)“.
Et pourtant, ces auteurs citaient les travaux de BERNIER réalisés dès 1967.
Outre ses travaux de précurseur, Jacques BERNIER a également contribué au grand
développement que l’hydrologie statistique a connu dans les années 1970. En 197 1, Jacques
BERNIER participait, à la suite de MATALAS (1967), au développement de modèles
multivariés de simulation de variables hydrologiques pour différents pas de temps (annuel,
mensuel, hebdomadaire). Ce type de modèle généralisait le modèle unidimensionnel de
FIERING (1967) et dans son article Jacques BERNIER améliorait la méthode de calcul
proposée par FIERING en 1964. Ces travaux précurseurs ont ouvert la voie aux recherches
qui ont été réalisées au cours des deux dernières décennies, entre autres par SCHAAKE et a1
(1972), CAVADIAS (1980), SALAS et. al. (1980) et, STEDINGER et VOGEL (1984),
concernant l’élaboration de modèles multivariés plus raffinés et plus performants.

1.4.2. Conclusion

Les qualités du scientifique ont été évoquées, et il y aurait encore beaucoup à dire sur sa
rigueur et son honnêteté intellectuelle, sur sa culture mathématique assortie d’une intuition (on
parle du “flair” de l’Hydrologue...) appuyée par une solide argumentation, et sur l’une de ses
qualités, peut être la plus précieuse pour un chercheur, celle d’être “non conformist”, vocable
anglais que l’on traduit par “dissident” mais qu’il faut interpréter comme une exigence de
“sortir des sentiers battus” lorsque la nécessité l’impose. Jacques BERNIER est en effet tout le
contraire d’un “suiveur” appliquant des “recettes”. Chaque problème est une occasion de
remise en question des approches “classiques”, au profit des Valeurs Extrêmes, du
Renouvellement, de l’analyse bayésienne, etc... Que cet hommage qui a lieu dans le cadre
prestigieux de l’UNESCO, dédié à l’Education, aux Sciences et à la Culture, trois domaines
que toute la vie de J. Bernier illustre, permette à ses pairs de la communauté scientifique
internationale de lui redire toute leur estime et toute leur reconnaissance!

12
BIBLIOGRAPHIE

BABUZIAUX, C. (1969). Étude statistique de la loi des fuites. Electricité de France (ÉDF),
Service Études et Recherches nucléaires, thermiques et hydrauliques. Thèse de doctorat,
ST-19, 119 pages.
BERNIER, J. (1956). Sur l’application des diverses lois limites des valeurs extrêmes aux
débits de crue. La Houille Blanche, no 5: 718-725
BERNIER, J. (1967a). Sur la théorie de renouvellement et son application en hydrologie.
Rapport HYD. 67, no 10, Laboratoire National d’Hydraulique, Chatou.
BERNIER, J. (1967b). Les processus de renouvellement appliqués à l’hydrologie.
LNH/HY 5.
BERNIER, J. (1967~). Les méthodes bayésiennes en hydrologie statistique (Essai de
réconciliation de l’hydrologue et du statisticien). 1st International Hydrology
Symposium, Fort Collins: 46 l-470.
CAVADIAS, G. (1980). An approach to the stochastic simulation of river flows. Report no.
SO-l, Department of Civil Engineering and Applied Mechanics, McGill University,
Montreal, Canada.
DAVIS, D.R., KISIEL, C.C. and L. DUCKSTEIN (1972). Bayesian decision theory applied
to design in hydrology. Water Res. Res., 8( 1): 33-41.
FIERING, M.B. (1964). Multivariate technique for synthetic hydrology. Journal of the
Hydraulics Division. Proceedings of the American Society of Civil Engineers,
90(HY5): 43-60.
FIERING, M.B. (1967). Streamflow synthesis. Harvard University Press.
JENKINSON, A.F. (1955). The frequency distribution of the annual maximum (or minimum)
values of meteorological elements. Quart. Journal of the Royal Meteor. Soc., 8 l(347):
158-171.
KIRBY W.H. and M.E. MOSS (1987). Summary of flood frequency analysis in the United
States. Journal of Hydrology, 96: 5-14.
MATALAS, M.C. (1967). Mathematical assessment of synthetic hydrology. Water Resources
Research, 3(4): 937-945.
NERC (1975). Natural environment research council. Flood studies report, vol. 1,
Hydrological studies, 549 p.
NORTH, M. (198 1). Processus hydrologiques intermittents: Étude de modélisations
stochastiques et application.
PERREAULT, L. et B. BOBÉE (1997). Modélisation de données hydrologiques extrêmes de
crues à l’aide des lois de halphen. Dans cet ouvrage, chap. 6.
RASMUSSEN, P.F., ASHKAR, F., ROSBJERG, D. and B. BOBÉE (1994). The POT
method for flood estimation: A review. Stochastic and statistical methods in hydrology
and environmental engineering. K.W. Hipel (Ed.), Kluwer Academic Publishers, the
Netherlands, vol. 1, Extreme values: jloods and droughts: 15-26.

13
SALAS, J.D., DELLEUR, J.W., YEVJEVICH, Y. and W.L. LANE (1980). Applied
modeling of hydrologie time series. Water Resources Publications, Littleton, Colorado.
SCHAAKE, J.C., GLANSLAW, M.J., FOTHERGILL, J.W. and T.E. HARBAUGH ( 1972).
Multivariate rainfall generator for annual, seasonal, monthly and daily events.
International Symposium on Modelling techniques in water resources, Ottawa, vol. 2:
437-460.
STEDINGER, J.R. and R.M. VOGEL (1984). Disaggregation procedures for, generating
serially correlated flow vectors. Water Resources Research, 20( 1): 47-56.

14
ANNEXE : BIBLIOGRAPHIE de
J. BERNIER

PUBLICATIONS ET CONFÉRENCES

BERNIER, J. (1956). Sur l’application des diverses lois limites des valeurs extrêmes aux
débits de crue. La Houille Blanche, n” 5: 718-725.

BERNIER, J., MORLAT, G. et A. BILLIET (1956). Les crues de la Haute Durance et la


théorie statistique des valeurs extrêmes. Proc. Symp. Darcy, Dijon, AISH, n” 42.

BERNIER, J. (1959). Comparaison des lois de Gumbel et de Fréchet sur l’estimation des
débits maxima de crues - Comparaison asymptotique des courbes de débits classés. La Houille
Blanche, Janv.-Fév. (1): 47-56.

BERNIER, J. (1963). La prévision statistique des bas débits. XIIIè”” Assemblée Générale
de W.G.G.I., Berkeley, août-septembre.

BERNIER, J. (1963). L’optimum économique des ouvrages de protection contre les crues.
Proc. Congrès AIRH, Londres.

BERNIER, J. (1964). Les méthodes statistiques de comparaison de deux séries de valeurs


voisines. Revue de Statistique Appliquée, vol. XII, n” 2.

BERNIER, J. et R. VERON (1964). Sur quelques difficultés rencontrées dans l’estimation


d’un débit de crue de probabilité donnée. Revue de Statistique Appliquée, vol. XII, n” 1.

BERNIER, J. (1965). L’application du calcul des probabilités aux problèmes


d’exploitation des réservoirs: Introduction aux processus de Markoff. La Houille Blanche, (5):
431-433.

BERNIER, J. (1965). L’application du calcul des probabilités aux problèmes


d’exploitation des réservoirs: la théorie stochastique des réservoirs. La Houille Blanche, (5):
434-444.

BERNIER, J. (1965). On the design and evaluation of cloud seeding experiments


performed by Electricité de France. Proc. 5’ Symp. Math. Stat. Prob., Berkeley.

15
BERNIER, J. (1967). Les méthodes bayésiennes en hydrologie statistique (Essai de
réconciliation de l’hydrologue et du statisticien). 1”’International Hydrology Symposium, Fort
Collins: 46 l-470.
JACQUET, J. et J. BERNIER (1967). Détermination du débit maximum de crue et de sa
probabilité de dépassement dans le cas d’information incomplète. Association Internationale
d’Hydrologie scientifique. Actes du Colloque de Léningrad, août, n0 84: 4 19-43 1.

BERNIER, J. et J.C. LEBRETON (1968). Modèle de propagation de crues permettant la


mise au point de règles de gestion des réservoirs compte tenu de la nature aléatoire de leur
occurence. Xlemes
Journées de 1’Hydraulique SHF.

BERNIER, J. (1968). Incidence des règles de gestion sur la garantie assurée par un
réservoir à buts multiples. XIème\
Journées de 1’Hydraulique SHF.

BERNIER, J. (1968). Sur l’établissement de synthèses statistiques régionales des


ressources en eau. Coll. AISH: L’utilisation des calculatrices analogiques et des ordinateurs en
hydrologie. Tucson, Arizona.

BERNIER, J. (1970). 1nventaire des modèles de processus stochastiques applicables à la


description des débits journaliers des rivières. Revue de l’Institut International de Statistique,
vol. 38 (1): 49-61.

BERNIER, J. et D. FANDEUX (1970). Théorie du renouvellement - Application à l’étude


statistique des précipitations mensuelles. Revue de Statistique appliquée, vol. XVIII (2): 75-87.

BERNIER, J. et R. GRAS (1970). Simulation des apports dans un système de réservoirs.


Journées de l’Hydraulique, Paris: 6 pages.
Société Hydrotechnique de France. XI’bmer.

BERNIER, J. (1971). Modèles probabilistes à variables hydrologiques multiples et


hydrologie synthétique. Symposium Modèles mathématiques en hydrologie. Colloque de
Varsovie. Juillet. IASH Publication n” 100: 333-342.

BERNIER, J. (1971). A mathematical mode1 of bed transport caused by river traffic.


Intem. Symp. Stoch. Hydraul., Pittsburg.

BERNIER, J. (197 1). Bases physiques des modèles stochastiques en géophysique. Symp.
Math. Models Geoph., Moscow, August.

BERNIER, J. (1971). Les modèles mathématiques de la pollution en rivière. La Houille


Blanche, n” 3.

BERNIER, J. et C. RUSZNIEWSKI (1971). Modèle de simulation de la pollution en


rivière. La Houille Blanche, n” 8.

BERNIER, J. et al. TDUFFAU, HERRIOU, NORMAN, GUILLOT, ROCHE] (1971).


Détermination des crues de projet. XIèmeCongrès des Grands Barrages, Madrid.

BERNIER, J. et C. RUSZNIEWSKI (1971). Modèle de simulation de la pollution en


rivière. La Houille Blanche, n” 8.

16
BERNIER, J. et J. MIQUEL (1975). Valeur économique de l’information nécessaire à la
prise de décision en matière d’investissement hydraulique. Proc. Congrès AIRH, Sao Paulo.

BERNIER, J. (1977). Aspects méthodologiques de la gestion optimale des réservoir à buts


multiples. La Houille Blanche, n“ 2/3.

BERNIER, J. (1977). Étude de la stationnarité des séries hydrométéorologiques. La


Houille Blanche, n”4 (32): 3 13-3 19.

BERNIER, J. et J. MIQUEL (1977). Exemple d’application de la théorie de la décision


statistique au dimensionnement d’ouvrages hydrauliques: prise en compte de l’information
hétérogène. XVII’“meCongrès AIRH, Baden, Baden, vol. 4.

BERNIER, J. et P. LENCIONI (1978). Modèle de renouvellement à deux dimensions -


Application à la description des processus de précipitations à l’échelle fine. La Houille Blanche,
ri” 5.

BERNIER, J. et P. LENCIONI (1978). Un modèle probabiliste multidimensionnel


applicable à la description des processus hydrométéorologiques à l’échelle fine - Modèle de
renouvellement à plusieurs dimensions. La Houille Blanche, n” 6: 401-410.

BERNIER, J. (1979). Sur la nature aléatoire du coût des dommages provoqués par les
crues. La Houille Blanche, n’ 1: 1 l-20.

BERNIER, J. et J. MIQUEL (1979). Incertitudes de l’information et décisions en situation


de risque. Cas de problèmes de protection contre les crues. La Houille Blanche, n” 45 (5): 25 l-
258.

BERNIER, J. et J. MIQUEL (1979). Security of coastal nuclear power stations in relation


with the state of the sea. Symposium on Marine Forecasting, Liège, Belgium: 465-479, E43/78-
58.

BERNIER, J. (1981). Sur l’établissement de synthèses statistiques régionales des


ressources en eau. IASH Publication n” 8 l(2): 52 l-526.

BERNIER, J. (1982). Méthodes utilisées en France pour la détermination des crues de


référence prises en compte pour la protection des sites de centrales nucléaires en bord de rivière.
Seminar Safety Aspects Nuclear Power Plant Siting, AIEA, Vienne.

BERNIER, J. (1983). Application des processus ponctuels marqués à l’étude des valeurs
extrêmes de houles et surcotes. Séminaire sur les valeurs extrêmes, ARAE, Brest.

BERNIER, J. (1985). Prise en compte des incertitudes d’information et des objectifs dans
l’estimation des modèles hydrologiques. Rev. Intern. SC. Eau, vol. l(4): 3-10.

BERNIER, J., MIQUEL, J., LEBOSSÉ, A. et A. GRIFFET (1986). Use of additional


historical information for estimation and goodness of fit of flood frequency models.
International Symposium on Flood frequency and risk analyses, V. Singh (Ed.): 153- 164.

17
BERNIER, J., DARRAS, M., GRAFF, M. et B. MANOHA (1987). Prediction statistique
des états de mer extrêmes. Annales des ponts et chaussées,31hrnc
trimestre.

BERNIER, J., MANOHA, B. et M. GRAFF (1987). An efficient statistical method of


estimation of extreme maritime events using two sets of related information.

BERNIER, J., BLINOWSKA, A., CHATELLIER, G., et J. VERROUST (1990).


Statistical decision in medical field: Two examples. 12” Annual Conf. IEEE, Medecine Biology
Soc.. Philadelphia.

BERNIER, J. (1990). Les incertitudes hydrologiques dans les problèmes de


dimensionnement d’ouvrages: Valeur des informations locales et spatiales. Revue des Sciences
de l’Eau, n” 3( 1): 37-53.

BERNIER, J. and B. MANOHA (1991). The estimation of uncertainties for design


extreme values of waves and sea level. ASCE on Reliability and uncertainties in hydraulics
design.

ASHKAR, F., BOBÉE, B. and J. BERNIER (1992). Separation of skewness: Reality or


regional artifact. Journal of Hydraulic Engineering, ASCE, vol. 118 (3): 460-475.

BERNIER, J. (1993). Robustness of models and estimation methods in flood analysis.


Stochastic and statistical methods in hydrology and environmental engineering. An
International Conference in honour of Professor T.E. Unny, Waterloo, Ontario, 2 1-23 June.

BOBÉE, B., CAVADIAS, G., ASHKAR, F., BERNIER, J. and P.F. RASMUSSEN
(1993). Towards a systematic approach to comparing distributions used in flood frequency
analysis. Journal of Hydrology, vol. 142: 12 l-l 36.

RASMUSSEN, P.F., BOBÉE, B. et J. BERNIER (1994). Une méthodologie générale de


comparaison de modèles d’estimation régionale de crue. Revue des Sciences de l’Eau, 7( 1): 23-
41.

RASMUSSEN, P.F., BOBÉE, B. and J. BERNIER (1994). Comment on: Parameter


estimation for the Pearson type 3 distribution. Journal of Hydrology. vol. 153 (l-4): 4 17-424.

RASMUSSEN, P.F., BERNIER, J., MATHIER, L. and B. BOBÉE (1994). Comparison


of regional flood frequency procedures: A Bayesian approach. Association québécoise des
techniques de l’eau (AQTE), Montreal, Canada, 16 November. Collection Environnement, C.E.
Delisle et M.A. Bouchard (Eds.). Compte rendu: 543-549.

18
RAPPORTS, NOTES SCIENTIFIQUES ET NOTES DE COURS

BERNIER, J. (1963). Les méthodes statistiques de comparaison de deux séries de valeurs


voisines. Rapport Hyd. 63 (29), Division Hydrologie du CREC: 11 p.

BERNIER, J. (1963). Portée et limite des méthodes de prévision statistique des crues
utilisées dans le calcul économique des ouvrages de protection contre les crues. Bulletin du
CREC, n” 6.

BERNIER, J. (1963). Sur les applications des méthodes statistiques aux travaux de
recherche expérimentale. Rapport de EDF, 140 p.

BERNJER, J. (1963). Problèmes et méthodes de l’hydrologie statistique. Bulletin du


CREC, n” 4.

BERNIER, J. (1964). Cours sur les applications de la statistique aux travaux de recherches
expérimentales. LNH.

BERNIER, J. (1965). Sur les probabilités d’occurrence des sécheresses et des étiages.
Bulletin du CREC, n” 11: 3-12.

BERNIER, J. (1966). Sur la garantie assurée par un réservoir de régulation saisonnière.


Bulletin technique du GR.

BERNIER, J. (1967). Sur la théorie de renouvellement et son application en hydrologie.


Rapport HYD. 67, n” 10, Laboratoire National d’Hydraulique, Chatou.

BERNIER, J. (1967). An introduction to statistical decision theory - A schematic example


of investment decision in reservoir for flood control. Rapport E40/79.5, Laboratoire National
d’Hydraulique, Chatou.

BERNIER, J. (1967). Les processus de renouvellement appliqués à l’hydrologie.


LNHIHY 5.

BERNIER, J. et D. FANDEUX (1967). Théorie du renouvellement - Application à l’étude


statistique des précipitations mensuelles. Rapport HYD. 67, n” 35, Laboratoire National
d’Hydraulique, Chatou.

BERNIER, J. (1967). Les erreurs d’échantillonnage. Bulletin du CREC, 2iemcSession de


recyclage (5-10 juin) n” 21: 11 p., 8 planches.
BERNIER, J. (1968). Sur les propriétés des lois 1,. EDF, DER, Département Laboratoire
National d’Hydraulique. Étude HC 034 st. 6,9 p.

BERNIER, J. (1969). Estimation dans le cas d’information dissymétrique. Bulletin de la


DER, C n” 1.

BERNIER, J. (1970). Ajustement des modèles probabilistes en hydrologie de surface.

BERNIER, J. et D. GRAS (1970). Modèles Markoviens de sécheresse (Application à un


modèle bidimensionel). EDF, DER. Étude ST 25, 8 p. et 5 annexes.

BERNIER, J. (1980). Les méthodes bayésiennes: fondements de leur utilisation dans les
problèmes d’environnement. EDF, DER, E 40 (12).

BERNIER, J. (198 1). Éléments de statistique bayésienne. EDF, Bulletin de la DER, HE 40


(09): 91 p.

BERNIER, J. (1981). L e modèle de renouvellement non stationnaire (Présentation et


méthodes d’estimation). EDF, Bulletin de la DER, HE 40 (11): 36 p.

MIQUEL, J. et J. BERNIER (1981). Sûreté des centrales et état de la mer. EDF, Bulletin
de la DER, Série A Nucléaire, Hydraulique, Thermique n’ 2: 73-78.

BERNIER, J. (1982). Analyse de la décision en situation de risque. EDF, Bulletin de la


DER. Texte du cours présenté à Lisbonne, 3 1 mai - 4 juin 1982, E 40 (02): 29 p.

BERNIER, J. et M. GRAFF (1983). Méthodes d’estimation de la houle de projet avec


données incomplètes. EDF, Bulletin de la DER, HE 42.

BERNIER, J. (1986). Éléments de calcul des probabilités pour l’approche bayésienne.


Notes de cours.

BERNIER, J. (1986). L’analyse de risque bayésienne et ses applications géophysiques -


Cas des problèmes de prévision. Notes de cours.

BERNIER, J. (1986). Analyse régionale des ressources en eau. Notes de cours.

BERNIER, J. (1987). Prise en compte des incertitudes de représentativité dans les


intervalles de confiance des valeurs de projet. LNH, n” 8.

BERNIER, J. (1987). Intervalles de confiances pour les valeurs de projet. LNH, n” 15.

BERNIER, J., B. MANOHA et M. GRAFF (1987). An efficient statistical method of


estimation of extreme maritime events using two sets of related information.

BERNIER, J. (1988). Intervalles de confiance pour les valeurs de projet. Rapport LNH: HE-
40188-15.

20
BERNIER, J. (1993). Combinaison des informations locales et spatiales dans les modèles
de régionalisations des crues. Notes scientifiques (août): 6 p.

BERNIER, J. (1993). Simulation, bayes et bootstrap en hydrologie statistique. Notes


scientifiques (décembre): 22 p.

BERNIER, J. (1993). Sur les utilisations des L-moments en hydrologie statistique. INRS-
Eau, rapport interne n0 1- 128.

BERNIER, J. (1994). Peut-on construire une statistique floue?. Notes scientifiques (avril
1994), 18 p.

BERNIER, J. (1994). Flou et probabilité. Notes de lectures, 6p.

BERNIER, J. (1994). Ensembles flous et statistique. Notes scientifiques, 5 p.

BERNIER, J. (1994). Modélisation et probabilité en hydrologie. Notes scientifiques (juin


1994), 54 p.

RASMUSSEN, P.F., MATHIER, L., PERRON, H., OUARDA, T., ASHKAR, F.,
BOBÉE, B. et J. BERNIER (1995). Résultats d’une intercomparaison de modèles d’estimation
régionale de crue. INRS-Eau, rapport de recherche n” R-436,30 pages, 24 annexes.

RASMUSSEN, P.F., BERNIER, J., MATHIER, L. and B. BOBÉE (1995). Comparison


of regional flood frequencty procedures: A Bayesian approach. NSERC Strategic Grant
(STRO 118482), INRS-Eau technical report, 19 pages.

21
COLLABORATIONS À DES OUVRAGES : LIVRES, CHAPITRES, THÈSES
BERNIER, J. (1963). Sur le contrôle statistique des opérations de pluie provoquée. Thèse
ISUP, Paris.

ULMO, J. et J. BERNIER (1973). Éléments de décision statistique. Presses universitaires


de France, Collection Systèmes et décisions. 330 p.

BERNIER, J. (1974). Le pouvoir autoépurateur des cours d’eau dans J.C. Lebreton,
Dynamique fluviale, Collection DER, n” 18, Eyrolles, Paris.

BERNIER, J. et J. MIQUEL (1978). Security of coastal nuclear power stations in relation


with the state of the sea. In Marine Forecasting, J.C.L. Nihoul (Ed.), Elsevier.

BERNIER, J. (1984). Évaluation des crues fluviales: méthodes utilisées pour le calage des
plates-formes de centrales nucléaires en France. Comparaison avec les méthodes étrangères.
Dans Les agressions externes et les grandes activités industrielles, SFEN, Versailles.

BERNIER, J. (1987). Elements of bayesian analysis of uncertainty in reliability and risk


models. In Engineering reliability and risk in water resources. L. Duckstein and E.J. Plate
(Eds.), Martinus Nijhoff Publishers, NATO AS1 Series E: Applied Sciences, no. 124: 405-422.

BERNIER, J. (1987). Bayesian analysis: Further advances and applications. In


Engineering reliability and risk in water resources. L. Duckstein and E.J. Plate (Eds.), Martinus
Nijhoff Publishers, NATO AS1 Series E: Applied Sciences, no. 124: 465-484.

BERNIER, J., FEUILLET, J., COÉFFÉ, Y. et B. CHALOIN (1987). Le


dimensionnement des digues à talus. Collection DER, n” 64, Eyrolles, Paris.

BERNIER, J. (1991). Bayesian analysis of robustness of models in water and


environmental sciences. NATO AS1 on Risk and Reliability in Water Resources and
Environmental Engineering, Porto Karras, Greece, J. Ganoulis (Ed.), Springer-Verlag Berlin
Heidelberg, vol. G29: 203-229.

BERNIER, J. (1994). Statistical detection of changes in geophysical series. In


Engineering risk and reliability in a changing physical environment. L. Duckstein and É. Parent
(Eds.), Kluwer Academic Publishers, the Netherlands. NATO AS1 Series E: Applied Sciences,
vol. 275: 159-176.

BERNIER, J; (1994). Quantitative analysis of uncertainties in water resources. In


Engineering risk in natural resources management with special references to hydrosystems
under changes ofphysical or climatic environment. L. Duckstein and É. Parent (Eds.), Kluwer
Academic Publishers, the Netherlands. NATO AS1 Series E: Applied Sciences, vol. 275: 343-
357.

22
2. Information, modèles, risques et
hydrologie statistique

Jacques Bernier
Le Pech de Biaud
24250 ST MARTIAL DE NABIRAT
F”RANCE
Abstract

The paper gives some methodologicalremarks in the light of bayesianphilosophy which asks the
combined use of all available informations : quantitative as well qualitative ones,observationdata
and physical knowledge togetherand quantification of objectivesin the hydrological studies.
Three classical problems are examined ;
- probabilistic simulation in hydrology,
- validation of regional estimation,
- building of stochasticPOT (peaksover threshold)models of floods.
For each of them, it is shown how the bayesianapproachallows to eliminate some insufficiencies
of answersgiven by traditional models and methcdsin statistical hydrology.

Résumé

L’article présente un certain nombre de remarquesméthodologiquesinspirées par la philosophie


bayesiennequi demandel’utilisation combinéede toutes les informations aussi bien quantitatives
que qualitatives, données d’observations ou connaissancesphysiques et la prise en compte
quantifiée des objectifs dans les études hydrologiques.
Trois problémesclassiquessont examinés:
- la simulation probabiliste en hydrologie,
- la validation des estimationsregionales,
- la mise en oeuvre des modèlesstochastiquesde dépassementpour les crues.
Pour chacun d’eux on montre comment l’approche bayésiennepeut permettre de lever certaines
insuffisances des solutions apportéespar les modèles et méthodes traditionnelles d’hydrologie
statistique.

2.1. Introduction
Dans les circonstances semblables à celles où je me trouve aujourd’hui, il est de tradition, soit
d’effeuiller un album de souvenirs, soit de délivrer un “message” d’allure philosophique sur
les errements, tendances actuelles ou souhaitées de notre domaine de l’hydrologie
stochastique. Je me sens assez incapable de discourir sur de tels grands sujets de “généralités
fondamentales”. Ce sera certainement paraître plus terre à terre que de discuter de quelques
problèmes typiques d’hydrologie statistique à la lumière des réflexions qui m’ont été inspirées
par la pratique de la Méthodologie Bayésienne.

Ces réflexions concernent essentiellement la notion d’information et ses diverses


expressions soit quantitatives (c’est à dire les données d’observation), soit “qualitatives” (c’est

23
à dire les connaissances physiques sur les phénomènes en jeu). Elles sont ici illustrées par
trois types d’applications des méthodes statistiques assez à la mode dans les années récentes :
- la simulation probabiliste en hydrologie,
- la validation des estimations régionales,
- la mise en oeuvre des modèles stochastiques de dépassement pour les crues.

L’introduction des méthodes bayésiennes en hydrologie statistique remonte à presque


trente ans; elles n’ont cependant pénétré ce nouveau domaine d’application que très lentement
pour accéder aujourd’hui à un niveau de diffusion modeste. Cette situation présente n’est
d’ailleurs pas celle que l’on aurait pu espérer de leurs potentialités d’application en gestion de
l’eau aussi bien qu’en hydrologie scientifique. Trop souvent la seule formule de Bayes n’est
utilisée que comme un processeur d’information quantitative au même titre que les méthodes
statistiques classiques, avec les mêmes modes de pensée, les mêmes schémas intellectuels
d’interprétation, ce qui peut entraîner des conclusions fallacieuses ou incomplètes. En fait, la
démarche bayésienne “complète”, au delà même de la simple mise en oeuvre de la formule de
Bayes, permet une réflexion cohérente sur les multiples difficultés critiques que peut soulever
la démarche propre de l’hydrologue. Elle servira utilement de cadre conceptuel à nos
discussions ultérieures sans que la mise en application effective de la formule de Bayes soit
concernée par nos propos.

2.2. La démarche bayésienne complète


Cette démarche est présentée en figure 2.1 sous forme de diagramme.
Remarquons d’emblée que nous n’avons pas fait figurer expressément le terme
“décisions” dans les objectifs de l’analyse bayésienne pour ne pas effaroucher les tenants de la
séparation entre hydrologie scientifique et gestion opérationnelle de l’eau. Il n’en reste pas
moins que les “actions” de l’hydrologue purement scientifique, choix de modèles, de leurs
hypothèses, estimation de leurs paramètres, etc... sont des décisions dont les conséquences
méritent d’être inventoriées sinon quantifiées et prises en compte même du seul point de vue
de l’avancement des connaissances hydrologiques. Ainsi le terme “conséquences” et leur
évaluation. W(a, 0) sont parmi les aspects essentiels de la démarche (Berger, 1985; Robert,
1992).

Remarquons aussi combien le concept d’information recouvre des notions différentes ; il


concerne aussi bien :
- le concept de données d’observations (traditionnel en hydrologie), noté x dans notre
schéma, et que nous qualifierons d’information quantitative de base,
- le concept bayésien d’information a priori constitué d’autres données d’observations ou
“information quantitative complémentaire” ou (et) de l’ensemble des connaissances physiques
de l’hydrologue inscrites dans le modèle lui-même ou permettant de lever une part de
l’incertitude sur les états de la nature ou paramètres 8.

Enfin l’approche bayésienne proprement dite distingue :


- l’analyse a posteriori qui représente les incertitudes par la distribution de probabilités a
posteriori p,(O) des paramètres, et suppose donc l’information “complète”. incluant x,
disponible à ce moment. Elle est utilisée au stade terminal du choix des actions de
l’hydrologue,
- l’analyse prédictive basée sur la distribution marginale. m(x), quelles que soient les
valeurs des incertitudes modélisées, est utilisée pour définir a priori les campagnes de mesure
ou les propriétés intrinsèques générales (non liées à l’observation d’échantillons x particuliers)
des choix de modèles ou des méthodes d’estimation.

24
Ensemble A d’actions a,

Ensemble 0 d’états de la
iature 8, L/
Zonséquencesexprimées r Analvse Drédictive
,ar une fonction de coût
Wa, 0)

InformationS
- Observations “obiectives” x (information
quantitative) représentéescomme réalisations
d’une densitéfcx; 8 )
- Connaissances a priori de l’hvdrologue
de tvne nhvsiaue : représentation du modèle “f’
et (ou) détermination de la densité a priori b(8),
de type quantitatif : autres observations
(information quantitative complémentaire)

Figure 2-I : Problématique de l’approche bayésienne

2.3. La simulation probabiliste en hydrologie


La simulation probabiliste est une méthode dont on a usé et abusé en hydrologie
statistique depuis un certain nombre d’années. Les validations par simulation stochastique
(méthodes de Monte Carlo) ont même été érigées au statut de critères de valeur scientifique
essentiels sinon uniques des modèles hydrologiques (stochastiques ou non) et de diverses
méthodes d’estimation proposés. Cependant une interprétation correcte des résultats de ces
simulations n’est possible que dans le cas d’un plan de simulation préalable soigneusement
établi ce qui n’est pas le cas de toutes les études de la littérature, et d’une prise en compte de
concepts statistiques de base nécessaires pour choisir les objectifs et les critères, concepts qui
sont souvent oubliés. C’est ainsi que ne sont “sempiternellement” étudiés que les biais et
variantes d’estimateurs ou les seuils d’intervalles de confiance alors que d’autres
caractéristiques seraient mieux adaptées en fonction des contextes de chaque problème.

Mais nous voudrions surtout critiquer le concept de “distribution parente” à la base de


ces simulations traditionnelles. Les difficultés du choix des distributions parentes de crue ont

25

-- -
été présentées par aillleurs (Bobée et al., 1993). Mais nous voudrions revenir sur l’utilisation
de ce concept en simulation. En effet une simulation particulière d’un ensemble
d’échantillons, quel que soit le nombre de ceux ci, demande que soient complètement
spécifiées à la fois la forme analytique du modèle et les valeurs de ses paramètres. Il est clair
qu’on ne peut multiplier le nombre des jeux de paramètres testés si bien que ces validations ne
peuvent être que partielles,

De plus les calculs sont effectués dans l’hypothèse de distribution parente de forme
connue et fixée. C’est ainsi que des présentations imagées de simulations extensives sont
faites en termes de “Log-Pearson world”, ”GEV world” ou autres “Wakeby world”. Mais que
ces mondes-là sont oh combien moins merveilleux et riches que celui d’Alice! Leurs
“phénomènes” sont ceux que nous avons délibérément introduits par nos hypothèses. Ils ne
sont créés que par notre incapacité à résoudre des problèmes par l’outil mathématique
analytique. Si l’on se réfère au sens de l’information telle que définie ci-dessus, ces mondes ne
créent pas de telle information et n’utilisent que très peu sinon pas d’observations quantitatives
du “monde réel”.

La portée de ces méthodes de validation est parfaitement mise en lumière par leur
rattachement à l’analyse bayésienne prédictive.
Le contexte prédictif est celui où on se place avant la réalisation d’une information x à
venir résultant d’une procédure de collecte donnée. La notion première est alors celle de
stratégie ou règle d’action Squi définit l’action u = 6(x) pour chaque information x potentielle.
En termes d’hydrologie une telle règle peut être une méthode, une procédure d’estimation
associée à un modèle par exemple. Valider une méthode 6, c’est évaluer le “coût prévisionnel”
des actions associées à 6 pour la comparer à d’autres. Ce coût prévisionnel est :
C(S) = jïvx(6(x)).n1(x).dr
Où (2.1)

wx@w) = pc a =6(x), e).p,(e).de


L’évaluation de C(6) peut rarement être effectuée analytiquement (au contraire de
Wx(a) bien souvent); il reste l’évaluation de ce coût moyen par la simulation par Monte Carlo
à partir de la distribution prédictive n?(x).

Avant de discuter cette simulation, remarquons que, d’une part cette approche permet la
prise en compte de coûts divers autres que les classiques biais et variantes et, d’autre part, le
choix d’une distribution parente déterminée est traduit ici par un domaine d’incertitude 0
réduit à un seul élément Fo, précisément cette loi parente donnée. En d’autres termes, aucune
incertitude n’est admise à ce niveau dans ce cas particulier.

Figure 2-2 : Dormitle de l’incertitude

A l’opposé de cette croyance certaine, on peut envisager pour ce champ d’incertitude 0,


la plus large étendue possible, par exemple l’ensemble des distributions continues (on suppose

26
ici que les variables hydrologiques étudiées sont représentables par des variables aléatoires
continues). L’hydrologue bayésien doit alors représenter ses idées a priori par une distribution
b(8) adaptée sur ce champ très vaste. Ferguson (1973) a donné une solution à ce problème en
proposant le modèle a priori de processus de Dirichlet. Pour notre propos nous ne retiendrons
de celui-ci que les caractéristiques a priori suivantes :
- une fonction de répartition Fo, spécifiée, pari de l’hydrologue et qu’il considère comme
“probable” a priori,
- un paramètre a, homogène à un nombre d’observations, et dont la valeur est d’autant
plus grande que la confiance dans le pari a priori F. est grande.

A partir de ce modèle a priori, l’approche bayésienne peut ên-e développée. Les


propriétés a posteriori ont été présentées par Ferguson (1973). Il est possible de déterminer
également la distribution prédictive m(x) dans le cas suivant :
- x représente un p-échantillon (x,, x,, . . . x,)d’une variable aléatoire hydrologique dont
Fo donne a priori une idée de la fonction de répartition,
- on dispose en plus d’une information complémentaire quantitative a priori, constituée
d’un rl-échantillon de référence (yl, y2,. . . y,‘), observations réelles de la variable étudiée.

Ce dernier point mérite une explication. Traditionnellement en simulation hydrologique


on utilise une distribution F. certaine dont les paramètres ont, certes, des valeurs
vraisemblables mais ne sont pas rattachés à une station d’observation précise. Cependant, le
“monde hydrologique” est constitué de telles stations et le fait de rattacher la simulation à des
stations réelles, avec toutes leurs données de référence disponibles, et la prise en compte de
l’incertitude ne peut que renforcer le caractère démonstratif des résultats de l’analyse.

La figure 2.3 présente le schéma de simulation de la distribution prédictive m(x)


(simulation qu’on qualifierait de non-paramétrique s’il n’y avait l’idée a priori F. dont le poids
peut être cependant variable sinon nul). Les réalisations de la distribution prédictive jointe du
p-échantillon se présentent comme les résultats d’une succession de ,Y tirages où chaque xi est
tiré dans un mélange de deux urnes (ou mixture pour utiliser un anglicisme). A et Bi, x, est
soit une réalisation de A représentant Fo avec probabilité p,4(i) soit une réalisation de l’urne
Bi avec probabilité p,(i). La composition de l’urne B’ est obtenue en complétant le IZ-
échantillon initial par une réplique des tirages précédant l’étape i (que ceux ci soient obtenus à
partir des B, ou de A ). Il est remarquable que ce procédé de simulation généralise les
méthodes de Monte Carlo usuelles en hydrologie :
- si a est très grand, c’est dire qu’on accepte F. avec certitude, alors PA(i)=1 quel que
soit i
et on retrouve la méthode de simulation usuelle,
- si a = 0, c’est dire qu’on ne veut utiliser pour information a priori que l’échantillon de
référence sans faire d’hypothèse incertaine sur la distribution parente. On doit noter que si p
est petit devant II , on retrouve strictement la méthode de Bootstrap, mais le tirage exact avec
remise d’une réplique du résultat du tirage précédent est simplement une généralisation du
modèle classique de Polya,
- dans les cas intermédiaires de valeurs de a positives et finies, on a une façon
commode et simple de pondérer la croyance que l’on est disposé à accorder à une distribution
parente donnée relativement à l’information quantitative disponible.

Pour mesurer l’intérêt de ce type de méthode, il faut accepter l’idée que le concept de loi
parente stricte de forme définie puisse être remplacé avantageusement en hydrologie par le
point de vue de loi parente inconnue mais représentée “pratiquement de façon approchée dans
le domaine d’intérêt des valeurs de la variable” par une distribution donnée (GEV par
exemple) mais les procédures d’évaluation des méthodes et modèles (les règles d’action)
devraient être adaptées en conséquence à cette façon de poser le problème de l’ajustement.

27
C’est en fait l’objet de l’analyse prédictive avec des coûts adaptés. Il semble que le point de
vue “de modèles d’approximation” soit celui de beaucoup d’utilisateurs au niveau de
l’interprétation des ajustements, mais, curieusement, ils raisonnent pour la validation des
procédures d’ajustement de façon contradictoire en termes de loi parente stricte, ce qui est
incohérent sur le plan de la logique et fallacieux sur le plan des validations.
Comparativement aux simulations traditionnelles, le Bootstrap semble peu utilisé. Son
intérêt ainsi que celui des généralisations décrites précédemment devraient militer pour un
usage plus fréquent.

PA(i)

Constitution du D-échantillon

Les y* sont des répliques des x i précédents


ajoutées une à une à l’urne Bi après chaque tirage non-
exhaustif

Bi
urne du n-échantillon
de référence complété

Figure 2.3 : Schéma d’urne de type POLYA pour la simulation de la distribution prédictwe

2.4. La validation des estimations régionales


Voici un sujet qui a été le champ privilégié d’applications très extensives des méthodes de
simulation sans que leurs résultats aient fait apparaître des conclusions vraiment claires en
terme de comparaison des multiples estimations régionales proposées. On retrouve à ce
niveau les difficultés d’interprétation dues aux ensembles partiels et réduits de modèles, de
paramètres et de “mondes hydrologiques” forcément choisis de façon limitative.

2s
On rappelle qu’une estimation régionale d’une grandeur hydrologique en un site i donné
(moyenne, quantile, etc...) consiste à transférer au lieu i l’ensemble agrégé des informations
de K sites (incluant ou non i) appartenant à une région. On espère ainsi, soit augmenter la
précision d’estimation de la grandeur étudiée si les données locales sont réduites (site jaugé),
soit résoudre le problème de données manquantes en i (site non jaugé).
Une part de ce que nous dirons ici a déjà été présentée par Kuczera (1982). A cette
occasion, nous voudrions souligner combien l’ensemble des travaux de cet auteur sur les
méthodes bayésiennes est important et aurait mérité plus d’impacts s’il n’y avait une certaine
résistance déjà notée à l’encontre de l’approche bayésienne dans le monde des hydrologues.

Nos remarques concernant la régionalisation portent sur les coûts d’estimation en


relation avec l’hétérogénéité des sites.
En premier lieu le concept de fonction de coût W(cr, B)est important et doit permettre
de distinguer les aspects locaux et agrégés. Pour fixer les idées nous utiliserons des coûts
quadratiques, bien que ce soit pas essentiel pour notre propos, soit :
Coût agrégé W(a, 9) = i(ui - 8,)’
i=l (2.2)
Coût individuel W(a, 0) = (ai - Bi )”
Ici, pour chaque site i dans l’ensemble K, ai représente l’estimation et ei le paramètre.
La distinction coût agrégé-coût individuel est en effet essentielle dans ces analyses.

Pour qualifier une méthode, dans notre jargon une règle d’action 6(x), l’analyse
statistique dite normale utilise la fonction de risque :
R(6,8)=111/(6(x),e).f(x-,e).dx (2.3
d’ailleurs liée au coût prévisionnel bayésien précédent qui en est une moyenne pondérée par
les probabilités a priori :
C(6) = JR(&e).b(e).de 0.4)
-
On notera que le coût agr:gé doit être utilisé dans le cas des sites jaugés comme dans
celui des sites non jaugés. En effet la validation d’une méthode régionale dans le dernier cas
n’est possible que sur un ensemble de sites jaugés voisins et semblables.
Dans la mesure où les méthodes d’estimation régionale sont très sensibles au critère
adopté, il est indispensable de bien analyser le sens opérationnel de ces diuers coûts. Le coût
agrégé est par exemple le critère à faire intervenir lorsque l’on veut qualifier une méthode de
régionalisation a priori applicable à K sites sans préjuger de l’application à un site plutôt qu’à
un autre ou en sachant qu’une estimation d’ensemble est recherchée pour un bilan
hydrologique global par exemple. Le coût individuel intervient lorsque, s’intéressant à un site
particulier, on veut comparer l’estimation régionale à celle résultant de toutes les données
locales existantes et ceci pour un problème spécifique à un site donné (aménagement ou
dimensionnement local par exemple).

Passons au problème d’hétérogénéité. Toute méthode régionale comporte deux étapes


successives essentielles :
- une étape d’homogénéisation de K grandeurs X, d’une région, grandeurs qui
sont le plus souvent des paramètres statistiques observés : Cv, Cs, L-moments,
- une étape d’agrégation des grandeurs homogénéisées Yi et (ou) de transfert de
ces grandeurs vers le site “cible” choisi.
Les procédés d’homogénéisation sont divers. C’est ainsi que la méthode classique des
indices de crue (méthode de Dalrymple, la plus populaire) norme les grandeurs de base par un
coefficient de site Si (débit moyen, une fonction de l’aire de drainage, etc..), soit :
y.1 2i cw
si

29
Cette méthode admet au moins théoriquement que les Yi sont alors strictement
homogènes, c’est à dire assimilés à des réalisations aléatoires d’un même paramètre
caractéristique T d’une distribution dite régionale de telle sorte qu’une simple moyenne :

(2.6)
i=l
pondérée ou non ( wi = yK) peut donner une estimation de T considérée comme sans biais.

Certes, on peut douter que des traitements aussi simples sinon simplistes que la prise en
compte d’un unique coefficient de site suffise à homogénéiser complètement des ensembles
de sites divers sous les aspects géographiques, physiographiques, météorologiques. Mais il
semble qu’on ne se soit qu’assez peu soucié de l’hétérogénéité résiduelle certainement
présente. Quelques études mentionnent la robustesse de la méthode vis a vis d’une
hétérogénéité dite modeste sans que ce qualificatif puisse être clairement défini à la suite de
ces travaux issus de simulations traditionnelles et que l’on pourrait qualifier d’expérimentaux.
Ce terme n’a pour nous rien de péjoratif mais les résultats expérimentaux pourraient être
mieux éclairés par la considération de quelques arguments théoriques basés sur des
graphiques comme ceux des figures 2.4 et 2.5 issues de résultats de statistique mathématique
bien connus (Judge et Bock, 1978).

La figure 2.4 présente la fonction de risque agrégée en fonction du paramètre


caractéristique :

&=C K (0; - ë)’ (2.7)


i=l Ko2
O* est ici la variante, supposée constante, des Y dont les espérances mathématiques
sont les 0, et ë leur moyenne; &, est ainsi un indicateur de l’hétérogénéité “résiduelle” des K
sites et la figure illustre la robustesse de diverses méthodes vis à vis de cette hétérogénéité.
Remarquons que l’hypothèse cr2 constant implique que les K sites sur lesquels les Y sont
calculés ont même dispersion d’échantillonnage, ce qui est peu réaliste mais ne nous semble
pas fausser la valeur démonstrative de nos conclusions. Les calculs supposent les Y distribués
normalement, ce qui n’est pas si faux si on se souvient que les Y sont en fait des statistiques
calculées sur les échantillons disponibles en chaque site.

Pour la figure 2.5 où le risque individuel est montré, celui ci dépend à la fois de fiO qui
est fixé et du paramètre d’hétérogénéité individuel :

P.8)

Trois méthodes d’estimation des 0, sont représentées :


- l’estimation individuelle (1) dite “locale” : Yi ,
- l’estimation régionale (2) au sens de Dalrymple : y (la moyenne pondérée se
réduit à une moyenne simple avec notre hypothèse de variantes égales mais nos conclusions
seraient sensiblement équivalentes pour une moyenne pondérée),
- l’estimation (3) dite “Bayes empirique” de James-Stein :
o2
hi = Yi - K .(Yi -Y, (2.9)
c (Yi -Y}2
i=I

Il est assez remarquable que, du point de vue risque agrégé, l’estimation locale soit
uniformément dominée, quel que soit le facteur d’hétérogénéité SC,par l’estimation de James-
Stein. Ce “paradoxe de Stein ” est bien connu et ici il doit être complété par l’observation du

30
comportement de l’estimation régionale style Dalrymple. Certes, si l’homogénéité est parfaite
(6, = 0) celle-ci est la meilleure des trois méthodes mais sa robustesse vis à vis des variations
de 6, est faible; elle est dominée par l’estimation individuelle dès que S,,>l. Or ce paramètre,
qui n’est pas autre chose que le rapport de la variante régionale des K paramètres f3, à la
variante d’échantillonnage des estimations locales, a vraisemblablement plus de chance d’être
supérieur à 1 que plus proche de 0. Notons que l’estimation de James-Stein n’est pas une règle
de Bayes au sens strict et il est possible de construire de telles règles de Bayes qui soient
admissibles, c’est à dire non dominées par aucune des trois règles précédentes.

1 1 I 1 /h:M’ ovenne individuelle l


Ygénérale
.a-- Aa.T---m cc..:... t

-0 ,5 1 1,5 2 2,5 3 3,5 4 4,5 6 5


0
Figure 2 .4 :Risque agrégé

179
t

-0 75 1 175 2 2S 3 395
Figure 2.5 : Risque individuel ( 6, = 0.5 )

En ce qui concerne le risque individuel, les conclusions à tirer sont différentes; certes la
méthode (2) reste peu robuste mais (3) n’est plus uniformément meilleure que l’estimation

31
locale tout en restant préférable pour une large plage de valeurs des dei. Mais ici les
jugements doivent être individualisés.

Dans l’ensemble K, et même si une méthode régionale semble apporter un gain notable
globalement, certains sites pourront être mieux estimés avec l’estimation régionale, d’autres
avec l’information locale; c’est affaire du facteur d’hétérogénéité individuel dei qui,
malheureusement, n’est pas connu exactement. Le retour au niveau local peut d’ailleurs
permettre de mobiliser des informations complémentaires, comme les chroniques
pluviométriques avec un gain significatif quelquefois moins fallacieux dans les études de crue
par exemple.
Ces considérations théoriques peuvent être aussi éclairantes sur certains choix
méthodologiques. Doit-on, par exemple, régionaliser des moments classiques (Cv, CS) ou les
L-moments comme la majorité des auteurs le pensent actuellement pour distinguer entre sites
homogènes et hétérogènes? Il s’agit ici du problème de la sensibilité des paramètres choisis.
Certes, les L-moments ont des variantes o2 plus petites, comme on le souligne généralement,
mais les écarts régionaux entre les valeurs parentes ei risquent aussi d’être plus petits, de telle
sorte que les ratios déterminants que sont aO et les doine sont pas nécessairement augmentés
avec les L-moments.

Notons que cette discussion aurait pu être faite avec l’approche bayésienne complète.
Celle-ci a d’ailleurs été utilisée par Rasmussen et al. (1994) pour traiter le cas plus réaliste de
variantes d’estimation locales hétérogènes.
Nous n’insisterons pas davantage sur l’intérêt de telles réflexions théoriques avant de se
lancer dans de vastes simulations extensives dont la valeur démonstrative n’est pas
nécessairement en rapport avec certaines conclusions peut être excessives. C’est ainsi que,
compte tenu de l’efficacité supposée des méthodes régionales les plus à la mode, certaines
études fréquentielles de crue locales ont été qualifiées “d’exercices futiles” (Wallis, 1988).
Nous suggérons malgré tout à l’hydrologue statisticien de succomber encore à cette futilité-là
dans quelques unes de ses tâches les plus délicates.

2.5. Les modèles stochastiques de dépassementpour les crues


Estimer en termes de probabilités ou de durées de retour les risques de crues rares, voici un
problème qui a fait et fera dépenser beaucoup de salive et d’encre. Nous y reviendrons encore
car il illustre parfaitement le concept d’information au sens bayésien le plus large.
Les méthodes statistiques usuelles ont subi ici de fortes critiques, à commencer par le
procédé d’extrapolation des courbes de fréquences. Il faut d’ailleurs noter que ce n’est pas en
soi l’extrapolation qui est critiquable, car ce procédé fait partie intégrante de toute démarche
scientifique et est le moteur de sa progression. Il s’agit plutôt du “support d’extrapolation”,
c’est à dire la forme de la courbe de fréquence observée qui ne transporte de fait que peu
d’information. C’est dans le choix du support d’extrapolation adéquat, caractéristique des
observations ou hypothèses issues de considérations physiques a priori, que réside tout l’art de
la bonne estimation des risques d’événements rares. C’est tout le sens de la remarque profonde
de Vit Klemes (1993) pour qui “plus de lumière doit être apportée sur les probabilités
d’extrèmes hydrologiques par plus d’information physique et non par plus de mathématiques”.
Il nous faut cependant pour notre part coniger ce point de vue. Le calcul des probabilités a ses
règles qu’on ne peut négliger. C’est avec la prise en compte de plus de connaissances
physiques mobilisées par la méthode probabiliste et statistique adéquate, éventuellement plus
élaborée mathématiquement, que viendra plus de lumière. Il n’est pas douteux que la plupart
des modèles actuellement en usage sont finalement relativement pauvres aussi bien du point
de vue physique que probabiliste.
Nous avons toujours pensé que l’introduction de plus d’information à la fois quantitative
et qualitative physique passait par le développement des modèles de dépassement de seuils
(voir la figure 2.6).

32
Seuil Objectif x Q-1
Yi+l
yi
yi-2
Seuil de
modélisation : x0

CI G-1
Temps t
Figure 2.6 : Chronique de dépassements

Encore faut-il ne pas se limiter aux hypothèses justifiant les modèles de dépassements
en débits couramment utilisés actuellement. C’est l’hypothèse d’indépendance des
dépassements successifs supérieurs au seuil x0 choisi pour la modélisation qui nous semble
en cause.
Rappelons que l’hypothèse d’indépendance des Yi, de fonction de répartition F(.), et
l’hypothèse de processus de Poisson (intensité Ao) pour les occurrences supérieures à x0,
entraînent que le processus des occurrences supérieures à un seuil objectif en débit x
(généralement grand par rapport à x0 ) est strictement un processus de Poisson d’intensité :

A(x) = A,[1 -F(x)] (2.10)

La distribution du maximum des Yi sur un intervalle de temps [O,n se déduit aisément


de la distribution du nombre NT de telles occurrences :
prob(M~~ < x] = prob[N, = ()/ = e-T.A’x) = e-aO.T.il-F’X)l (2.11)
Ceci (avec des extensions simples à des intensités poissonniennes L(x, l) dépendant du
temps) est la base probabiliste des méthodes de dépassements les plus couramment
appliquées aux crues.

Je pense que les contraintes imposées aux données pour satisfaire les hypothèses au
niveau de x, ne permettent généralement pas de sélectionner beaucoup de données et de
valider convenablement le modèle précédent. Certes, au niveau des seuils objectifs x utiles
(généralement élevés comme une valeur décennale par exemple) ces hypothèses sont
acceptables. II n’en résulte pas qu’elles soient applicables au niveau du seuil de
modélisation et surtout que l’intensité poissonnienne (Eq. 2.10) calculée sur ces
hypothèses à ce niveau soit applicable au niveau objectif x en extrapolation

De nombreux efforts ont été entrepris pour la validation du modèle classique


poissonnien. On a même envisagé des modèles de dépendance autorégressive des crues
comme Dan Rosbjerg (1987). Ce type de modèle suppose généralement une autocorrélation
constante entre crues successives, quel que soit l’intervalle de temps qui les sépare, ce qui
semble assez u-réaliste hydrologiquement. On notera d’ailleurs que les tests statistiques
classiques de dépendance par corrélation constante souvent utilisés sont assez peu efficaces
pour mettre en évidence des dépendances variables plus complexes.
C’est ici que des considérations plus physiques peuvent introduire des informations
significatives. Considérons le cas d’un régime hydrologique pluvial. Un des facteurs les plus
déterminants de l’importance d’une crue est bien sûr l’état de saturation du bassin. Souvenons-
nous que des hypothèses maximisantes sur le rendement des averses ont déjà permis
l’élaboration de méthodes d’estimation de probabilités des crues telle que le gradex de Guillot
et Duband (1967).
Mais nous restons ici dans le contexte des modèles de dépassement. Le phénomène de
saturation doit aboutir à ceci : à précipitation fixée, une crue doit être d’autant plus forte que
l’intervalle de temps la séparant d’une crue notable précédente est plus court. La liaison entre
crues successives doit donc dépendre des intervalles de temps aléatoires les séparant.
Un modèle bien connu, simple sinon simpliste hydrologiquement, a été réétudié
récemment par Konecny (1992) sur le plan théorique; il s’écrit avec les notations de la figure
(2.6) :
yi = Yi_l.eK” +Ui (2.12)

l les Ui sont des variables (interprétées comme averses efficaces) distribuées


exponentiellement avec une moyenne MU et indépendantes les unes des autres,
l les ri sont les intervalles de temps d’
un processus de Poisson avec une intensité Ao ,
l K est un paramètre dont l’inverse l/K, homogène à un temps sera appelé temps de
corrélation C’est le temps nécessaire pour que la corrélation entre crues Yi successives passe
de 1 à 0.36 pour fixer les idées.

Nous verrons que le paramètre déterminant pour les crues extrêmes est le rapport
G =g qui s’interprète comme le nombre moyen d’averses efficaces par temps de corrélation
ou rapport entre temps de corrélation et intervalle moyen entre averses.
En utilisant les propriétés des processus ponctuels généraux dits marqués, Konecny a pu
déterminer l’intensité il(x,t) du processus des dépassements du seuil objectif x. Ce n’est plus
strictement un processus de Poisson, mais cette intensité garde un sens général si on la définit
par l’equation :
Prob[un dépssemerlt dex etltre t et t + At l H’] = L(x,t / H’).At (2.13)

Comme dans Konecny, il s’agit ici d’une intensité conditionnée par le passé Ht du
processus avant t.. Cependant il est possible de lever le conditionnement et de déterminer une
intensité inconditionnelle ;l(x,t ) , qui, avec les hypothèses du modèle (2.12), donne :
X

;l(x,t) = ;l,.e MU.(&)G


résultat indépendant de t dans le cas d’un processus stationnaire.

Si le processus des dépassements de x n’est plus strictement poissonnien, on peut


cependant prendre cette hypothèse comme approximation pour x grand et écrire :

en concordance avec (2.11).

Il faut noter que dans le cas de crue indépendantes exponentielles où G = 0, on retrouve


les formules (2.10) et (2.11) et le modèle traditionnel. Cependant, il est clair
qu’asymptotiquement, on ne retrouve pas l’extrapolation du modèle d’indépendance si G est
différent de 0.
Le rapport G du temps de corrélation à l’intervalle moyen entre averses successives, qui
est une expression du risque de saturation, joue un rôle très important comme le montre la
figure 2.7.
Cet exemple illustre bien le choix déterminant du support d’extrapolation. Ce n’est plus
une courbe de fréquence mathématique qui est extrapolée, c’est une représentation (très

34
simplifiée ici) du phénomène physique de saturation du bassin et de la dépendance entre crues
qui en résulte. En valeur relative, les écarts par rapport au cas d’indépendance peuvent être
très importants, 10 fois plus forts pour les seuils objectifs élevés.
Il apparaît donc que privilégier l’hypothèse d’indépendance peut introduire un biais par
rapport à une hypothèse plus réaliste physiquement où intervient la saturation du bassin sous
une forme, le paramètre G, qui peut s’interpréter physiquement. Répétons encore que cette
dépendance-là est difficilement vérifiable par les tests statistiques usuels. Remarquons aussi
que les modes de sélection usuels des crues supérieures au seuil de modélisation, basés sur un
intervalle de temps limite entre crues sélectionnées, peut accentuer le biais car on ne sait
finalement quelle est la bonne distribution F(x) des dépassements qui est de fait estimée.

Maintenant le modèle (2.12) n’est ici qu’un modèle de démonstration. Il est trop
simpliste hydrologiquement car la dépendance entre crues n’est en fait fonction que du débit
de base si la fonction eHKrest censée représenter la décrue. De fait, cette dépendance est
certainement plus forte si on admet que le rendement de l’averse elle-même doit être fonction
de la crue antérieure. Peut-être aussi l’histoire antérieure de la saturation du bassin ne doit-elle
pas être résumée par la seule crue antérieure. Je pense qu’il est possible d’introduire de telles
hypothèses plus réalistes et par là-même de prendre en compte des données quantitatives
complémentaires sur les averses génératrices de crue, par exemple en combinant modèles de
dépassements et méthodes type gradex. Pour en venir à la critique de Klemes, ce n’est que par
le développement combiné des modèles à base physique plus solide et de leur expression
probabiliste sous une forme mathématiquement correcte que l’on se dégagera de l’ornière
consistant à multiplier formes de distributions et estimations diverses utilisant toujours les
mêmes informations, ornières où de nombreux hydrologues se sont complus au cours des
années récentes.

Nombre moyen de crues

5 5.5 6 6.5 7
Seuil de crue (rapporté d la moyenne) : x

Figure 2-7 : Intensité du processus des crues supérieures ou égales uu seuil x (crues
dépendantes)

35

-
2.6. Conclusion
Il pourrait sembler que les discussions précédentes nous éloignent du sujet des méthodes
bayésiennes. Il n’en est rien car développer des modèles permettant de mobiliser toutes les
informations pertinentes, que celles-ci soient quantitatives ou de nature plus physique
qualitative, est une part nécessaire de la démarche bayésienne qui doit tendre à s’appuyer, non
pas sur quelques données facilement mobilisables, mais sur l’ensemble des informations
utiles.
De ce point de vue, cette démarche met clairement dans leurs justes perspectives, les
contributions nécessaires à la fois de l’information quantitative et des connaissances
qualitatives (physiques), base d’une modélisation efficace.

Enfin une facette de l’approche bayésienne complète, essentielle pour l’analyse des
risques de crue, est l’interprétation qu’elle donne à la notion concrète de probabilité. Celle-ci
est difficilement interprétable en termes de fréquence pour les événements hydrologiques
rares comme l’a excellemment montré Klemes (1993). Mais l’interprétation concrète de la
probabilité subjective bayésienne en termes de pari, applicable aux incertitudes de
parametres, s’applique tout autant aux aléas naturels rares et fournit une réponse aux
difficultés des interprétations fréquentistes.

36

-
Bibliographie

BERGER J. 0. (1985) Stutistical décision theory and Buyesiun unufysis. Second Edition, Springer
Verlag.
BOBÉE B., G. CAVADIAS, F. ASHKAR, J. BERNIER and P. F. RASMUSSEN (1993) ‘Towards a
systematic approach to comparing distributions used in flood frequency analysis’. Journal of
Hydrology, Vol. 142, pp . 121, 136.
FERGUSON T. S. (1973) ‘A Bayesian analysis of some nonparametric problems’. Annals of
Statistics, Vol 1, no 2.
GUILLOT P, et D. DUBAND (1967) ‘La méthode du GRADEX pour le calcul de la probabilité des
crues à partir des pluies’. Journéesde la SHF, 1 (7), Paris.
JUDGE G.G. and M.E. BOCK (1978) The stutisticul implications of pre-test und Stein rules
estimators in econometrics. North Holland.
KLEMES V. (1993) ‘Probability of extreme hydrometeorological events - A different approach’,
Yokohama Symp. IASH Publ. no 213, pp. 167, 176.
KONECNY F. (1992) ‘On the shot-noise streamflow mode1and its applications’. Stochast Hydrology
and Hydraulics, 6, pp. 289, 303.
KUCZERA G. (1982) ‘Robust flood frequency models’, Water ResourcesResearch,
Vol 18 n”2, pp. 315, 324.
RASMUSSEN P. , B. BOBÉE et J. BERNIER (1994) Une méthodologie générale de comparaison de
modèles d’estimation régionale de crues’. Rev. Sciencesde l’Eau- 7(l),pp. 23,41.
ROBERT C. (1992) L’analyse statistique buyesienne.Economica, Paris.
ROSBJERG D. (1987) ‘On the annual maximum distribution in dependent partial duration series’.
Stochast Hydrology and Hydraulics, 1, pp. 3, 16.
WALLIS J.R. (1988) ‘Catastrophes,computing and containment living with our restless habitat ‘.
Speculation in Science and Technology, Vol 1 l(4), pp. 295, 324.

37
PARTIE II PART II

MODÉLISATION STATISTIQUE
STATISTICAL MODELING
PARTIE II PART II

MODÉLISATION STATISTIQUE
STATISTICAL MODELING
3. RECENT DEVELOPMENTS IN BAYESIAN INFERENCE WITH
APPLICATION IN HYDROLOGY / DEVELOPPEMENTS RECENTS POUR
L’INFERENCE BAYÉSIENNE AVEC APPLICATIONS A L’ HYDROLOGIE.. . . . . . . . . . . .43-62
J. 0. Berger, D. Rios Insua

4. ESTIMATION DE L’INTENSITÉ D’UN PROCESSUS DE POISSON


INHOMOGÈNE PAR UNE MÉTHODE BAYÉSIENNE / BAYESIAN
ESTIMATION OF INHOMOGENEOUS POISSON PROCESS INTENSITY . . . . . . . . . . . . . . . . 63-78
1. Abi-Zeid

5. BAYESIAN APPROACH TO RAINFALL MODELLING / UNE APPROCHE


BAYÉSIENNE DE LA MODÉLISATION DE LA PLUIE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79-86
E. Todini, M. Di Bacco

6. MODÉLISATION DE DONNÉES HYDROLOGIQUES EXTRÊMES DE


CRUES À L’AIDE DES LOIS DE HALPHEN / FLOOD EXTREME
HYDROLOGICAL DATA MODELING USING HALPHEN
DISTRIBUTIONS .,..,....................................................................................................... 87-106
Perreault, B. Bobée

7. DEALING WITH UNCERTAINTY IN SIMPLE SCALING MODELING OF


FLOOD PROCESSES / LE TRAITEMENT DES INCERTITUDES POUR UN
MODÈLE SIMPLE DE SIMILITUDE D’ÉCHELLE DE PROCESSUS DE
CRUES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .... 107-116
J. Ribeiro, S. Birikundavyi, J. Rousselle

41
3. ReCent developments in
Bayesian inferenCe with
applications in hydrology

James 0. Berger
Department of Statistics
Purdue University, USA
David Rios Insua
Decision Analysis Group
Universidad Politecnica de Madrid, SPAIN and
CNR-IAMI, ITALY
Abstract

This paper describes some fairly new tools for Bayesian inference that are of considerable
potential use in hydrology. These tools include Bayesian mode1 selection, new computational
techniques, and Bayesian approaches to time series and dynamic linear models. We also
illustrate how these tools cari be applied to problems in hydrology.
KEYWORDS: Bayesian Inference, Hydrology, Mode1 Selection, Bayes Factors, Bayesian
Computation, Markov Chain Monte Carlo, Dynamic Linear Models, Time Series.

Résumé

Ce chapitre décrit quelques nouveaux outils d’inférence bayésienne qui ont un potentiel con-
sidérable d’utilisation en hydrologie. Ces outils incluent la sélection bayésienne de modèles
dynamiques linéaires. Nous illustrons également comment ces outils peuvent être appliqués
aux problèmes hydrologiques.
MOTS CLEFS: Inférence bayésienne, Hydrologie, Sélection de modèle, Facteurs Bayes,
Calculs bayésiens, Chaine de Markov pour simulation Monte-Carlo, Modèles linéaires dy-
namiques, Séries temporelles.

3.1. Introduction

Throughout his career, Jacques Bernier has been advocating the use of Bayesian ideas in
hydrology, both in its scientific and managerial aspects. Indeed, because of his seminal
work, Bayesian methods are starting to permeate hydrological sciences. This paper Will
describe some fairly recent tools for Bayesian inference which we feel cari help to further
advance this adoption of Bayesian methods. Our choice reflects in part our persona1
interests, but we chose them mainly because of their enormous potential in hydrology,

43
their novelty, and their relationship to some of Bernier’s interests. We also hope to
contribute to the traditional Bayesian/non-Bayesian debate, which affects a11 sciences in
general, and hydrology in particular. Other contributions to this debate cari also be found
in this volume, such as Munier and Parent (1996) and Duckstein (1996).
Our support for Bayesian ideas is both conceptual and practical : the Bayesian
approach provides a coherent framework which facilitates the analysis of decision making
problems under uncertainty, see Berger (1985) for a full development. Without entering
into much detail, criticisms have centered mainly on three issues :
1. Computations. Implementing the Bayesian framework leads to dificult computa-
tional problems. As a conscquence, it is .sometimes argued that it is necessary to limit
attention to overly simplified models or to undertake a non-Bayesian analysis. The repent
development of Markov chain Monte Carlo rnethods, and other Bayesian computational
machinery, has outdated this criticism, allowing for more realistic (and typically complex)
modeling. This Will be the topic of Section 3.3. Rasmussen, Bobée, and Bel-nier (1994)
describes the role of simulation methods in complex Bayesian hydrological models.
2. Imprecision. It is often argued that the Bayesian framework demands excessive pre-
cision in the Decision Maker’s judgements, particularly in regard to specification of the
prior distribution. This corresponds to a too narrow-minded perception of Bayesian ideas,
and has led to alternative theories like fuzzy sets or Dempster and Shafer’s theory. We
remind the reader that the Bayesian framework is normative. When applied, it serves
as a guidance for action under uncertainty. However, in early stages of an analysis we
may not be able to elicit precise information (prior, model, utility). TO counter this fact,
robust Bayesian methods have been developed. They essentially consist of undertaking
a family of Bayesian analyses and basing conclusions on their common ground. If there
are too many discrepancies, robust Bayesian tools suggest how to resolve them, guiding
elicitation. We shall not pursue this important issue of robustness. The interested reader
may follow the review by Berger (1994) and its discussion. Let us mention that robustness
issues in hydrological science have been emphasised by Bernier (1991).
In regards to statistical inference, it should also be noted that there exists a well-
developed version of Bayesian analysis which utilizes “default” or “noninformative” prior
distributions, and hence which requires no more specifications than classical statistical
methods. For reviews of this approach see Berger (1985) and Kass and Wasserman (1995).
3. Descriptive. It is sometimes argued that actual Decision Makers do not conform to
Bayesian postulates. Stemming from work by Allais (1953), many experimental studies
bave pointed out that some decision makers violate the Bayesian postulates in unaided
tasks. This suggests weaknesses of the Bayesian approach as a descriptive theory. Some
authors interpret this, as well, as threatening its normative status, although such an
interpretation carries no logical force. In any case, many new theories which attempt to
improve upon Bayesian analysis from a descriptive point of view have appeared, see Rios
Insua (1994) for a review.
Whereas experience concerning the descriptive inadequacy of the Bayesian approach
has accumulated, recent comparisons among the new theories have painted a somewhat
different picture. Note first that by abandoning axioms for descriptive purposes, we have
to abandon them for normative purposes : some theories have been proposed too lightly,
since they violate principles like transitivity or stochastic dominante. Camerer (1992)
observes that a11 alternative theories SO far proposed run into one kind or another of
descriptive problems; Bernasconi (1992) o b serves that performers of experiments seem
to conform progressively to Bayesian postulates, after repetitions of experiments; finally,

44
Hey and Orme (1994) o b serve that, for many subjects, Expected Utility fits equally well
as other theories from a statistical point of view, whereas economic implications are not
that important for those for which fit is not SO good. TO sum up, risky decisions do not
fully conform to Bayesian postulates, but they approximate them very reasonably.
Some recent descriptive theories are close to this idea. For example, Leland (1994)
suggests that paradoxes may not be due to the preference structure but rather to cognitive
constraints and experiential limitations, suggesting an approximate EU theory resolution
to EU violations. A related issue is that of imprecision in judgements, as in Robust
Bayesian Analysis. Experiments described in Rios et al. (1994) suggest that paracloxical
behavior in experiments may be explained via imprecision in judgments.
This completes our brief defense of Bayesian ideas. Other views may be seen in
Edwards (1992). We turn now to the description of some recent useful Bayesian tools.
Section 3.2 considers recent developments in Bayesian mode1 selection. Section 3.13consid-
ers the powerful new computational tools that have recently become available. Section :3.4
discusses the attractive and easily implementable tools for Bayesian analysis of time series
and dynamic linear models.

3.2. Bayesian mode1 selection


3.2.1. Notation

The data, y, is assumed to have arisen from one of several possible models izIr, . . . , &VIm’.
Under Mi, the density of X is ~;(XI@;), w h ere &i is an unknown vector of parameters of
fi*

The Bayesian approach to mode1 selection begins by assigning prior probabilities,


P(i%+‘;), to each model; often, equal prior probabilities are used, i.e. P(Mi) = l/m. It
is also necessary to choose prior distributions r(@i) for the unknown parameters of each
model; sometimes these cari also be chosen in a “default” manner, as Will be illustrated
later.
The analysis then proceeds by computing the posterior probabilities of each model,

&K>W(Z)
P(MiJZ) = (3.1)
2 m4hj(4 ’
j=l

where mj(z) = Sfj(zl&j)nj(&j)d&j. Typically one selects the mode1 (or models) with
largest posterior probability.

3.2.2. Advantages

Curiously, the Bayesian approach to mode1 selection is less widely used than the Bayesian
approach to estimation, even though the approach is arguably of even more value in
mode1 selection. The most obvious advantage of the Bayesian approach is the simplicity
of interpretation of the answers; even those with limited statistical background cari easily
interpret the conclusion “the (posterior) probabilities that MI and I+I~ are true are 0.93
and 0.07, respectively.” This ease of interpretation is in stark contrast to the situation
when classical measures such as P-values or Chi-square are used. Few understand what
evidence is actually provided by such classical measures, and misinterpretation is the rule.
rather than the exception (cf. Berger and Sellke, 1987; Berger and Delampady, 1987 and

45
Delampady and Berger, 1990).
A second-advantage of Bayesian mode1 selectioI1 is that it is consistent,in the sense
that, as one obtains more and more data, one is guaranteed to Select the true mode1 (or
the mode1 closest to the true mode1 if none are truc). Classical methods typically fail
even this minimal criterion, usually by selecting models that are too complex when there
is a large amount of data.
This is related to a thircl advantage of the Bayesian approach, namely that it acts
as an automatic “Ockham’s razor,” selecting a simpler mode1 over a more complex mode1
if both are compatible with the data. Indeed, Bayesian analysis cari be used to quantify
Ockham’s razor, making precise what bas long been viewecl as a fundamental, but heuris-
tic, scientific principle. See .Jefferys and Berger (1992) for discussion and illustration.
Bernier (1991) d iscusses this as the “parsimony principle.”
A fourth advantage of Bayesian mode1 selection is that one cari account for moclel
uncertainty. Since each mode1 Will have a posterior probability, P( Mi lz), one cari maintain
consideration of several models, with the input of each into the analysis weighted by the
P(ii!i$l(I:). Cl assical analyses, which Select one mode1 and base predictions upon this
one model, are notorious for providing predicted precisions that are much too small.
See Draper (1995) f or g eneral discussion. This key point is extensively discussed in the
hydrological literature by Bernier (1991, 1994b).
A fifth advantageof Bayesian mode1 selection is that it cari be applied to comparison
of multiple models, and applies very generally; the models need not be in standard families,
and need not be nested.

3.2.3. Default implementation

The two difficulties in implementing Bayesian mode1 selection are (i) choosing the prior
distributions Ti(ti;), and (ii) computing the m;(z). A variety of strategies exist for carrying
out the integrations necessary to compute the m;(z); see Kass and Raftery (1995) for
discussion. Choosing the ni(@i) is more of a problem.
It may well be the case that subjective knowledge about the &i is available, and cari
be incorporated into subjective proper priors for the 0;. This is clearly desirable if it cari
be done. Often, however, the &; may be high dimensional and subjective elicitation of a11
the i~,( @;) may be impossible. There are then several possible “default” strategies one cari
follow.
The simplest default option is to use the approximation typically referred to as
BIC (cf. Kass and Raftery, 1995). Th is is a quite accurate approximation if there is a
substantial amount of data. Also, the approximation avoids the computational difficulty
mentioned earlier.
For a moderate or small amount of data, BIC cari be inaccurate. Sometimes (though
not often!) it is possible to use “noninformative” or “objective” priors. This cari be done
for some scenarios in which the dimensions of the vectors 8; are the same for a11 models.
Here is an example.

Example 1. Suppose we observed the following 30 tlood periods : 23, 51, 87, 7, 120, 14,
62, 47, 225: 71, 246, 21, 42, 20, 5, 11, 4, 12, 120, 1, 3, 14, 71, 11, 16, 90, 1, 16, 52, 9.5.
Assume these observations are independent, and consider two models for a datum, xi.
A41 : the lognormal mode1 with 81 = (~,a), and :

46
(3.2)

Lt42 : the Weibull mode1 with &2 = (y,@), and :

(3.3)

We choose equal prior probabilities for the models, P(Mr) = P(LI~~) = 1/2, and
thus need only to choose the n;(@;). The best “noninformative” priors for @r and & are :

?(Iv) = f ad v(r,j3) = --$

These are the so-called “reference priors” (see Bernardo, 1979, and Berger and Bernardo,
1992, for discussion). Since @r and & have the same dimension (two), and since fi and
fi cari be shown to be transformed “location-scale” models, use of these noninformative
priors for mode1 selection is valid.
Using these priors, the m;(z) cari be computed (ml (2) in closed form; mz(z) re-
quiring one-dimensional numerical integration). The answers are P( MI 12) = 0.31 and
P(Mz(z) = 0.69. Thus the data favors the Weibull mode1 by about 2:l.

Unfortunately, it is somewhat rare for use of noninformative priors in mode1 selection


to be valid. Recently, however, two very general default Bayesian mode1 selection tools
have been developed, the “Intrinsic Bayes factor” approach of Berger and Pericchi (1996),
and the “Fractional Bayes factor” approach of O ’Hagan (1994, 1995). These approaches
are too involved to describe here, but it is noteworthy that they apply to almost any mode1
selection problems, and operate without the need for subjective proper priors. Although
we cannot present the algorithms here, it is of value to look at an application, to see the
nature of the conclusions that arise.
r

Fig. 3.1: Time series data

Example 2. Figure 3.1 presents some time series data typical of a variety of hydrological
applications. It is decided to mode1 this as a stationary autoregressive process with drift.
For instance, the AR( 1) mode1 with a linear drift would be described as :

yt = Pd + $,(Y,-, - PI(i - 1)) + ft, (3.5)

47
where Yt is the observation at time t, /jl is the unknown linear coefficient, 41 is the
unknown autocorrelation, and the ct are i.i.d. hr(0, a’) errors, cr2 also unknown.
It is decided to consider autoregressive models of order 1, 2, 3 and 4, and also to
consider constant (C), linear (L), and quadratic (Q) drift. Thus the AR(j) mode1 with
drift of polynomial order k (k = 0, 1,2) cari be written :

yt = .k Pet’ + 2 4TpL - 5 /Je(t - r)‘) + Et.


e=o r=l e=o
We are thus considering twelve models (any of the four AR models together with any
of the three polynomial drifts).
The “intrinsic Bayes facto? approach applies directly to this problem. It utilizes
only standard noninformative priors for the parameters (constant priors for the /3; and
&, and 1/g2 for the variante, g”). Note that, because the models being considered are
of differing dimensions, one cannot use these noninformative priors directly, but must use
them through the “intrinsic Bayes factor” algorithm. There is also a computational com-
plication: because of the stationarity assumption, & = (4,) 42,. . . , $j) is restricted to the
“stationarity region.” and SO the integration in computation of the m;(z) must be carried
out over this region. Methods of doing this, as well as the relevant intrinsic Bayes factor
algorithm, cari be found in Varshavsky (1996). Th e results are summarized in table 3.1.

TABLE 3.1. Posterior probabilities of models assuming equal prior probabilities

Mode1 P(MilZ) Mode1 P(Mlz)


AR(l), C w 0 AR(3), C 0.740
AR(l), L N 0 AW), L 0.001
AR(l), Q N 0 -WV, Q 0.001
ARP), C 0.161 AW), C 0.076
AR(L), L 0.011 ARP% L 0.006
ARP), Q 0.001 AR(J), Q 0.001

There is clearly no support for a nonconstant drift. Among the models with constant drift,
the AR(3) mode1 is the clear winner, although the AR(2) mode1 receives some support. It
is of interest that classical mode1 selection procedures choose substantially more complex
models, such as the {AR(4), C} or even the {AR(4), Q} models. This is the “overfitting”
of classical methods that was referred to earlier.

3.3. Advances in Bayesian computation

3.3.1. Introduction

Recent computational tools have allowed application of Bayesian methods to highly com-
plex and nonstandard models. Indeed, for complicated models, Bayesian analysis has
arguably now become the simplest (and often only possible) method of analysis.
Although other goals are possible, most Bayesian computation is focused on calcu-
h
lation of posterior expectations E*[g(8)], w ere E* represents expectation with respect to ,
the posterior distribution and g(0) is some function of interest. For instance, if g(0) = 0,
then E*[g(O)] = E*[O] 3 pu, the posterior mean; if g(0) = (0 - II)“, then E*[s(O)] is the

48
posterior variante of 0; and, if g(0) is 1 if 0 > C and 0 otherwise, then E*[s(O)] is the
posterior probability that 0 is greater than C.

3.3.2. Traditional numerical methods

The ‘traditional’ numerical methods for computing E*[g(O)] are numerical integration,
Laplace approximation, and Monte Carlo Importance Sampling. Brief introductions to
these methods cari be found in Berger (1985). H ere we say only a few words, to place the
methods in context and provide references.
A successful general approach to numerical integration in Bayesian problems,
using adaptive quadrature methods, was developed in Naylor and Smith (1982). This was
very effective in moderate (e.g., 10) dimensional problems.
Extension of the Laplace approximation method of analytically approximating
E*[g(O)], leading t o a reasonably accurate general technique, was carried out in Tierney
et al. (1989). Th e main limitations of the method are the need for analytic derivatives,
the need to redo parts of the analysis for each different g(O), and the lack of an estimate of
the error of the approximation. For many problems, however, the technique is remarkably
successful.
Monte Carlo importance sampling [see Geweke (1989) and Wolpert (1991) for
discussion] has been the most commonly used traditional method of computing E*[s(O)].
The method cari work in very large dimensions, and carries with it a fairly reliable accuracy
measure. Although one of the oldest computational devices, it is still one of the best, being
nearly ‘optimal’ in many problems. It does require determination of a good ‘importance
function’, however, and this cari be a difficult task. Current research continues to address
the problem of choosing a good importance function; for instance, Oh and Berger (1993)
developed a method of selecting an importance function for a multimodal posterior.

3.3.3. Markov chain simulation techniques

The newest techniques to be extensively utilized for numerical Bayesian computations are
Markov chain simulation techniques, including the popular Gibbs Sampling. [Certain of
these techniques are actually quite old - see, e.g., Hastings (1970); it is their application
and adaption to Bayesian problems that is new.] A brief generic description of these
methods is as follows :

Step 1. Select a ‘suitable’ Markov chain on 0, with p(., .) being the transition probability
density (i.e., p(O,O*) g ives the transition density for movement of the chain from
0 to O*). Here ‘suitable’ means primarily that the posterior distribution of 0 given
the data 2, ~(O]X), is a stationary distribution of the Markov chain, which cari
be assured in a number of ways.
Step 2. Starting at a point 0 (O) E 0, generate a sequence of points O(r), Ot2), . . .,Otm) from
the chain.
Step 3. Then, for large m, O(m) is (approximately) distributed as 7r(O]~) and :

; ~g(O(i’) 2 E*[s(O)]. (3.7)


a=1

The main strengths of Markov chain methods for computing E*[g(o>] are :

49
(1) Many different (I cari simultaneously be handled via Step 13. once the sequence
O(l)> . . , OtvL) has been generated.

(2) Programming tends to he comparatively simple.

(3) I\iI e th o d s .-o f assessing convergence and accuracy exist and/or are being developed.

The main weaknesses of Markov chain methods are :

(1) They cari be quite slow. It is not uncommon in complicated problems to need m to
be in the hundreds of thousands, requiring millions of random variable generations
if the dimension of 0 is appreciable.

(2) One cari be misled into prematurely judging that convergence has obtained.

The more common Markov chain methods, corresponding to different choices of


p(*, .), Will briefly be discussed. A recent general guide to these methods, and their use in
practice, is Gelman et al. (1995). See also Smith (1991) and Besag et al. (1995).
Metropolis-Hastings algorithm : One generates a new O* based on a ‘probing’ dis-
tribution, and then moves to the new O* or stays at the old 0 according to a certain
‘accept-reject’ probabilities, see Hastings (1970).
Gibbs sampling : The Markov chain moves from O(‘) to Oei+l) one coordinate at a
time (or one group of coordinates at a time), the transition density being the conditional
posterior density of the coordinate(s) being moved given the other coordinates. This is a
particularly attractive procedure in many Bayesian scenarios, such as analysis of hierar-
chical models, because the conditional posterior density of one parameter given the others
is often relatively simple (or cari be made SO with the introduction of auxiliary variables).
Extensive discussion and illustration of Gibbs sampling cari be found in Gelfand and
Smith (1990)) G e 1man and Rubin (1992)) Raftery (1992) and Smith and Gelfand (1992).

Example 3. The following posterior density is a somewhat simplified version of pos-


terior densities which occur commonly in Bayesian analysis, and which are particularly
amenable to Gibbs sampling. Suppose the posterior density is :

n(Oi, Oaldata) = L exp{ -Oi( 1 + 0;)) (3.8)


on the domain 01 > 0, -00 < 02 < 00. Many posterior expectations cannot be done
in closed form. Gibbs sampling, however, cari easily be applied to this distribution to
compute a11 integrals of interest.
Note, first, that the conditional distribution of 02, given 01, is Normal with mean
zero and variante 1/2Oi; and, given 02, Oi has an exponential distribution with mean
l/( 1 + 02). Hence the Gibbs sampling algorithm cari be given as follows :

Step 0. Choose an initial value for 02; for instance, the maximizer of the posterior,
o(O)
2 = 0
Step i(a). Generat-e Oii) = E/( 1 + [0(+]2 where & is a standard exponential random
variable.
Step i(b). Generate 0:’ = //m2 , w h ere’ 2 is a standard normal random variable.
Repeat Steps i(a) and i(b) for i = 1,2,. . . , m.

50
Final Step. Approximate the posterior expectation of ~(0~) 0,) by :

(3.9)

For instance, the typical estimate of Or would be its posterior mean, approximated by
4 = w-4 p1 (‘). Table 3.2 presents the results of this computation for various values
of m. Note that the true posterior mean here is 0.5.

TABLE 3.2. Approximate values of posterior mean of 81 from Gibbs Sampling

m 100 500 1,000 10,000 50,000


êl 0.43761 0.53243 0.48690 0.49857 0.50002

Hit and run sampling : The idea here is roughly that one moves from Oli) to O(if’) by
choosing a random direction and then moving in that direction according to the appro-
priate conditional posterior distribution. This method is particularly useful when 0 is a
sharply constrained parameter space. Extensive discussion and illustration cari be found
in Belisle et al. (1993) and Chen and Schmeiser (1993).
Hybrid methods : Complex problems Will typically require a mixture of the above (and
other) methods. Here is an example, from Müller (1991)) the purpose of which is to do
Gibbs sampling when the posterior conditionals [e.g., r(Oi(z, other O,)] are not ‘nice’.
Step 1. Each step of the Markov chain Will either :
0 generate Oji, f rom n(Oj]z, other Of’) if the conditional posterior is ‘nice’ or
l generate 0:‘) b y employing one or several steps of the Metropolis-Hastings
algorithm if the conditional is not nice.
Step 2. For the probing function in the Metropolis-Hastings algorithm, use the relevant
conditional distribution from a global multivariate normal (or t) importance func-
tion, as typically developed in Monte Carlo importance sampling.
Step 9. Adaptively update the importance function periodically, using estimated poste-
rior means and covariance matrices.
Other discussions or instances of use of hybrid methods include Geyer (1992), Gilks
and Wild (1992), T anner (1991)) Smith and Roberts (1993)) Berger and Chen (1993) and
Tierney ( 1994).

3.3.4. Software existence and development

Availability of general user-friendly Bayesian software would rapidly advance use of Bayes-
ian methods. A number of software packages do exist, and are very useful for particular
scenarios. An example is BATS [cf. Pole, West and Harrison (1994) and West and Harri-
son (1989)], which is designed for Bayesian time series analysis. A listing and description
of pre-1990 Bayesian software cari be found in Goel (1988) and Press (1989).
Four recent software developments are BAIES, a Bayesian expert system (see Cow-
ell, 1992); [B/D], an ‘expectation based’ subjective Bayesian system (see Wooff, 1992);
BUGS, designed to analyze general hierarchical models via Gibbs sampling (see Thomas

51
et al., 1992); and XLISP-STAT, a general system with excellent interactive and graphies
facilities, but limited computational power (see Tierney 1990).
Two of the major strengths of the Bayesian approach create certain difficulties in
developing generic software. One is the extreme flexibility of Bayesian analysis, with
virtually any constructed mode1 being amenable to analysis. Classical packages need
contend with only a few well-defined models or scenarios for which a classical procedure
has been determined. Another strength of Bayesian analysis is the possibility of extensive
utilization of subjective prior information, and Bayesians tend to feel that software should
include an elaborate expert system for prior elicitation. This is hard, in part because much
remains to be done empirically to determine optimal ways to elicit priors. Note that such
an expert system is not, by any means, a strict need for Bayesian software; it is possible
to base a system on use of noninformative priors.

3.4. Bayesian forecasting through dynamic linear models

In this section, we describe a class of forecasting models that may be very useful for
practitioners in hydrological forecasting, say, of inflows to reservoirs. Dynamic Linear
Models (DLMs) actually stem from work by Harrison and Stevens (1976). However, during
the late eighties and early nineties, numerous modeling and computational enhancements
and the development of the user-friendly software BATS (Pole et al., 1994) have made
them readily available for applications. Here, we shall describe the main ideas of DLMs,
and illustrate them with the forecast of inflows to Kariba Lake, used to manage the
reservoir. For a thorough review of Bayesian forecasting, see West and Harrison (1989).
West (1995) p rovides recent developments and applications, whereas specific applications
to hydrology may be seen in Rios Insua and Salewicz (1995)) Rios Insua et al. (1996a)
and Muster and Bardossy (1996).
Apart from the usual benefits of Bayesian modeling, we see many advantages that
make DLMs potentially useful for hydrologists. One that is especially important is that
they allow for moving away from stationarity assumptions, since process parameters are
time varying. This is important in hydrology, as Bernier (1994a,b) has been recently
emphasizing. Also, they are flexible enough to mode1 usual behavior of hydrological time
series like seasonal patterns and trends, and permit the incorporation of covariates, such
as rainfall for inflows. They are also computationally fast, facilitating their use in real
time decision making and the large-scale simulations habitua1 in hydrology. Finally, they
allow for the incorporation of a11 prior information, including that due to interventions,
hence incorporating a principle of management by exception, fundamental in the Bayesian
forecasting philosophy (West and Harrison, 1989) : a set of models is routinely used for
processing information, making inferences and forecasting, unless exceptional circum-
stances arise. Examples would include a sudden rainfall or a big release from a reservoir
upstream. In this case, the system is open to external intervention, typically by inclusion
of additional subjective information. Forecasting is performed sequentially based on a11
available information.
Our problem is to forecast the next r values of a variable yt, from instant T + 1 to
instant T + r, given the available information DT. For that we use DLMs, which in their
simplest case have the following structure, for every instant of time t, t = 1,2,3, . . . :

52

- ~--~-~ _ ._--.-..- ~- -~--.----.. ___-


l Observation equation :

Yt = Ftzt + Ut, ?Jtrv N(O, Vi) (3.10)

where yt denotes the observed value, which depends linearly on the values of the
state variables zt. perturbed by a normal noise.

l System evolution equation :

zt = G tzt-, + zut, wt - N(O, Wt) (3.11)

describing the evolution of the state variables, linearly dependent on the variables
in the previous state plus a random perturbation.

0 Initial in.formation :

~oIDoN mno, CO) (3.12)

describing the prior beliefs of the forecaster.


The errer sequences ut and wt are independent, and mutually independent. More-
over, they are independent of (&[Do).

Updating procedures and the use of this mode1 for forecasting are described in detail by
West and Harrison (1989). E ssentially, inferences about both parameters and forecasts,
one or more steps ahead, are based on a normal model, with corresponding parameters
computed recursively.
The mode1 specification requires that F,, G t, V,, IV,, mo, C O are known. The modeling
of these is fully described in West and Harrison (1989). Concerning Ft and G t, the key idea
is the Superposition Princip/e, which states that linear combinations of independent DLM’s
lead to a DLM. This suggests a mode1 building strategy based on blocks, representing
polynomial trends, seasonal patterns and dynamic regression, if covariates are available.
One of us (Rios Insua) has been using this modeling strategy in our hydrological consulting
work. which is implemented in BAYRES (Rios Insua et al., 1996b), a system for stochastic
multiobjective reservoir operations.
Concerning Wt, the use of the discount principle (West and Harrison, 1989) allows
for a semiautomatic modeling approach to that variante, based on the idea of information
discounting. Finally, a typical strategy concerning V, is to consider it constant, but
unknown, and introduce a procedure for learning adaptively about it.
Example 4. The example we consider illustrates in part these ideas. We are interested
in forecasting the inflows to Lake Kariba, a hydropower reservoir in the Zambezi river, as
part of a management system. Figure 3.2 represents part of the time series of monthly
inflows to t.he Lake available, after logarithmic transformation.
Hence, if it designates the inflow to the lake, we shall forecast yt = log it, decompos-
ing the series into a level and a seasonal part with annual cycle. For the level, we use a
first order polynomial term. For the seasonal part, we use a Fourier decomposition of the
pattern, see West and Harrison (1989). T o improve short term forecasting, we add also a
low coefficient first order autoregressive term. The precise mode1 is as follows :

53
0,
0 ca 2w x0 400

Fig. 5.2: Monthly injlows to h’ariba Lake in mln.m3. Oct ‘C30-Sep ‘65

l Observation equation

Yt = (Ll,O, Y( Zt1,Ztz,Zt3, GI) + ut, (3.132

where ztr designates the level, (zt2, z ta ) refer to the seasonal component, and zt4
to the autoregressive term. vt is a normal observation error with constant but un-
known variante V.

a System equation

zt = Gzt+wt, (3.14)

with matrix G given by :

1 0 0 0
0 cos(7r/6) sin(r/6) 0
(3.15)
0 -sin(n/6) COS(~/~) 0
0 0 0 0.4
and observation error distributed as :

Wt PV N(O,&) (3.16)

with Ct defined allowing for discount, with a discount factor Sr for the level and
a discount factor 62 for the seasonal part. Note that the evolution of the seasonal
part is defined in terms of periodic functions of period 12. They actually correspond
to the first harmonie of the Fourier decomposition. If necessary, other harmonies
may be introduced. The coefficient of the autoregressive part is 0.4.

54
l Prior information

zol4 - N( mo, VC*) (3.17)

4 - Gamma(no/2, do/2) (3.18)

with C$= If’-‘. This provides a mode1 for learning about the variante.
The assessment of the prior was done judgmentally, based on the beliefs of an expert,
and sensitivity thoroughly checked. Figure 3.3 provides an indication of the forecasting
performance of the model.
-

Fzg. 3.3: Forecasts for log inflows to Kariba Lake. Dotted lines are Upper and lower limits of .95 predictzve
intervals. Dots represent actual log inlows

A key issue in Bayesian forecasting is that the output is the entire predictive distri-
bution, not just summaries. Thus we cari use this distribution for any purposes, taking
expectations or simulating the future. As an aside, the standard method of : i) esti-
mating mode1 parameters; ii) plugging the estimates into the model; and iii) using the
estimated mode1 for prediction or simulation; typically greatly underestimates uncertainty
in predictions, since the uncertainty in the mode1 parameters is not taken into account.
Example 4 (cent.) T O turn back to our illustration, we shall describe the actual use
of this forecasting mode1 for determining the optimal operating policy for Lake Kariba
hydropower system, in terms of regulating the flow through the dam. Hence, the problem
is to determine how much water to release through turbines and spillgates.
Assume that, at the beginning of a month, the reservoir operator makes the decision
to release ult volume units of water for energy production and, additionally, u2t units of
volume to control the level of the reservoir. Priority is given to energy release : if there is
enough water! commitments are fulfilled; if there is too much water, part of it is released
or spilled. Then, given Ultr Uzt, the control strategy proposed is as follows :
l If there is not enough water to release Ult, a11 available water is released for energy
production to satisfy the first objective of the reservoir operation. O therwise, uit is
released for energy production.

l If, after the release of Urt, there is still water available, some water is additionally
released to control reservoir storage level. If there is not enough water to release the

55
volume uzt defined above, a11 available water is released. Otherwise, 1~2~is released.
In the event that, after the two releases. the remaining water would exceed the
maximum storage iI4, a11 excess water is spilled.

We need to determine the optimal controls.


From the.operational and managerial viewpoint, the factors that characterize the
consequences of a given operating policy at the end of every month are :

l t,he existence of energy deficit,

l the amount of water spilled,

l the value of the reservoir storage level at the end of the month.

These are easily computed, given the dynamics of the reservoir, the storage at the begin-
ning of the month and the inflow.
Next, we assume that we cari cari specify the value of a storage level which secures
‘satisfactory’ operation of the reservoir over a long term time horizon. Such an assumption
is reasonable, since ‘traditional’ methods of reservoir operation are based on the concept
of rdç curzIes. Consequently, each month one could maximize the expected value of a
utility function which depends on the existence (or not) of deficit, the amount of water
spilled and the deviation from a given ‘ideal’ (or reference) state XT+*, i.e. :

(3.19)

where S(~+I, ++,) re P resents the deviation of the final state from the ‘ideal’ final state.
Intuitively, if the ideal state is defined taking into account the dynamics of the system,
we would not lose too much with this approach.
For simplicity of calculations, and because assessments indicated that it was a good
approximation, we used the utility function :

f(u2, k 4 = Vi(k) + (1 - QI-&4 + p(s - x*)~.

Since k may attain only two values, and value 0 (no deficit) is better than 1 (deficit),
Lve may write

fi(k) = 1 - k.

In order to assess fi, expert information was used to estimate the risk aversion of the sys-
tem’s management. Assuming constant risk aversion, see Clemen (1991), to the amount
of water spilled, one cari take as utility function :

f2(m) = a + bexp(-cm), (3.12)

with b. c > 0, fi being nonincreasing. An expert provided the information necessary


to assess the values of parameters of the utility function, with standard assessment tech-
niques. The following values of parameters were obtained : X = .7’5, p = -10-l’,
6 = 1.08365,~ = -.07171,c = .0001415.
Finally, the expected utility function had to be maximized with respect to control
variables and subject to constraints on the controls (releases from the reservoir) : the

56
amount of water released has to be nonnegative and the amount of water released for
energy production is limited by the capacity of the turbines. The optimization problem
is thus given as :

max *(u)
.s.t. 0 < u1 5 m (3.23)
0 < 112

where q(u) is the expected utility.


The analysis of the results suggest the possibility of operating the reservoir at much
more efficient and secure levels than is currently done. A full description of the study
may be seen in Rios Insua and Salewicz (1995).

3.5. Conclusions

Though we started with a conceptual defense of the Bayesian approach, the ultimate argu-
ment for its support lies in successful applications. For this reason, we have concentrated
on describing some Bayesian tools that have enormous potential in hydrology.
We would like to stress that recent computational developments have opened the
road to dealing with much more complex models. These include, among others, the
possibility of analysing realistic graphical models, which form the basis of Bayesian expert
systems, see e.g. Spiegelhalter et al. (1996); highly nonlinear models, including neural
networks, see e.g. Muller and Rios Insua (1995); structured mixture models, which provide
an encompassing framework for models including non-linear? non-normal regression and
autoregression, see e.g. West, Muller and Escobar (1994); and nonparametric models,
based mainly on Dirichlet process priors, see Ferguson, Phadia and Tiwari (1992).
Al1 these, together with the development of tools for checking sensitivity to the
conclusions of a bayesian analysis to its inputs, see Berger (1994), provide the appropriate
computational and modelling approach for scientific and managerial activities involving
uncertainty. As advocated by Bernier, we hope that they Will soon become routine in
hydrology.

Acknowledgments This work was financed by grant DMS-9303556 from the National
Science Foundation and by a grant from the Iberdrola Foundation.

57
Bibliography

ALLAIS, M. (1953). ‘L e comportement de l’homme rational devant le risque : critique


des postulats et axiomes de l’école Américaine’. Econometrica, 21, p. 503-546.
BELISLE, C., ROMEIJN, H. E. and SMITH, R. (1993). ‘Hit-and-run algorithms for
generating multivariate distributions’. Mathematics of Operation Research, 18, p.
255-266.
BERGER, J. (1985). Statistical Decision Theory and Bnyesian Anulysis (2nd edition).
Springer-Verlag, NY.
BERGER, J. (1994). ‘A n overview of robust Bayesian analysis’. Test, 3, p. 5-124.
BERGER, J. and BERNARDO, J. (1992). ‘On the d evelopment of the reference prior
method’. In J. Bernardo, J. Berger, A. Dawid and A. F. M. Smith (editors),
Buyesiun Statistics 4, Oxford University Press, London.
BERGER, J. and CHEN, M. H. (1993). ‘D e t ermining retirement patterns: prediction for
a multinomial distribution with constrained parameter space’. The Statistician, 42,
p. 427-443.
BERGER, J. and DELAMPADY, M. (1987). ‘Testing precise hypotheses (with discus-
sion)‘. Statist. Science, 2, p. 317-352.
BERGER, J. and PERICCHI, L. (1996). ‘Th e in t rinsic Bayes factor for mode1 selection
and prediction’. J. Amer. Statist. ASSOC., 91, p. 109-122.
BERGER. J. and SELLKE, T. (1987). ‘Testing a point nul1 hypothesis: the irreconcil-
ability of P values and evidence’. .J. Amer. Statist. ASSOC., 82, p. 112-122.
BERNARDO, J. (1979). ‘R ef erence prior distributions for Bayesian inference’. J. Roy.
Statist. Soc. B, 41, p. 113-147.
BERNASCONI, M. (1992). ‘D i ff erent frames for the independence axiom: an experimen-
ta1 investigation in individual decision making under risk’. J. Risk and Uncert., r>,
p. 159-174.
BERMIER, J. (1991). ‘B a y esian analysis of robustness of models in water and environ-
mental sciences ‘. NATO AS1 on Risk and Reliability in Water Resources and En-
vironmental Engineering, Porto Karras, Greece, J. Ganoulis (Ed.), Springer-Verlag
Berlin Heidelberg, vol. G29, p. 203-229.
BERNIER, J. (1994a). ‘Statistical detection of changes in geophysical series’. In En$-
neering risk und reliubility in a changing physical environment. L. Duckstein and E.
Parent (Eds.), Kl uwer Academic Publishers, the Netherlands. NATO AS1 Series E:
Applied Sciences, vol. 275, p. 159-176.
BERNIER, J. (1994b). ‘Q uantitative analysis of uncertainties in water resources’. In

58
Engineering risk in nuturul resources munagcment with speciul references to hy-
drosystems under changes of physical or climatic environment. L. Du&stein and É.
Parent (Eds.), Kl uwer Academic Publishers, the Netherlands. NATO AS1 Series E:
Applied Sciences, vol. 27*5, p. 343-357.
BESAG. .J., GREEN, P.. HIGDON, D., and MENGERSEN, K. (1995). ‘Bayesian com-
putation and stochastic systems’. Statistical Science, 10, p. l-58
CAMERER. C. (1992). ‘R ecent tests of generalizations of Expected Utility Theory’, in
Edwards (ed) Utility Theories: ,2ieasurement und Applications, Kluwer
CHEN, M. H. and SCHMEISER, B. (1993). ‘P er f ormance of the Gibbs, hit-and-run.
and Metropolis samplers’. .Journal of Computational and Graphical Statistics, 2, p.
l-22.
CLEMEN, R. (1991). Muking Hard Devisions. Wadsworth: New York.
COWELL, R. G. (1992). ‘BAIES: A probabilistic expert system shell with qualitative
and quantitative learning’. In: Buyesiun Stutistics 4 (J. Bernardo, J. Berger, A.
Dawid and A. F. M. Smith, Eds.). Oxford University Press, Oxford.
DELAMPADY, M. and BERGER, .J. (1990). ‘L ower bounds on posterior probabilities
for multinomial and chi-squared tests’. Annals of Statistics, 18, p. 1295-1316.
DRAPER, D. (1995). ‘A ssessment and propogation of mode1 uncertainty’. .J. Roy. Statist.
Soc. B, 57, p. 45-98.
DUCKSTEIN, L. (1996). ‘Bayes and fuzzy logic modeling of engineering risk under
dynamic change’. In this volume.
EDWARDS, W. (1992). Utility Theories: Meusurement and Applications, Kluwer.
FERGUSON, T.S., PHADIA, E.G., and TIWARI, R.C. (1992) ‘Bayesian nonparametric
inference’, in Ghosh and Pathak (eds) C urrent Issues in Stutistical Inference: Essays
in Honor of D. Basu, IMS.
GELFAND, A. E. and A. F. M. SMITH (1990). ‘Sampling b ased approaches to calculating
marginal densities’. J. Amer. Statist. ASSOC., 85, p. 398-409.
GELMAN, A., CARLIN, J. B., STERN, H. S., and RIJBIN, D. B. (1995). Buyesian Data
Analysis. Chapman and Hall, London.
GELMAN, A. and RUBIN, D. B. (1992). ‘On the routine use of Markov Chains for
simulation’. In J. Bernardo, .J. Berger, A. Dawid, and A. F. M,. Smith (editors),
Buyesiun Statistics 4, Oxford University Press, London.
GEWEKE, J. (1989). ‘Bayesian inference in econometrics models using Monte Carlo
integration’. Econometrica, 57, p. 1317-1340.
GEYER, C. (1992). ‘P ractical Markov chain Monte Carlo’. Statistical Science, 7, p.
473-483.
GILKS, W. R. and P. WILD (1992). ‘Adaptive rejection sampling for Gibbs sampling’. In
J. Bernardo, J. Berger, A. Dawid, and A. F. M. Smith (editors), Buyesiun Stutistics
4. Oxford University Press, London.
GOEL. P. (1988). ‘Software for Bayesian analysis: current status and additional needs’.
In: Buyesian Stutistics 3, J. M. Bernardo, M. DeGroot, D. Lindley and A. Smith,
(Eds.). Oxford University Press, Oxford.
HARRISON, P. J. and STEVENS, C. F. (1976). ‘Bayesian forecasting’, J. Roy. Statist.
Soc. B, 38, p. 205-247.
HASTINGS, W. K. (1970). ‘Monte-Carlo sampling methods using Markov chains and
their applications’, Biometrika, 57, p. 97-109.
HEY, J. and ORME, C. (1994). ‘1 nvestigating generalizations of expectde utility theory
using experimental data’. Econometrica, 62, 1291-1326.

59
JEFFERYS. W. and BERGER, J. (1992). ‘Ockh am’s razor ancl Bayesian analysis’, Amer-
ican Scientist, 80, p. 64-72.
KASS, R. and RAFTERY, A. (1995). ‘Bayes factors and mode1 uncertainty’. J. Amer.
Statist. Assoc., 90, p. 77379<5.
ICXSS, R. and WASSERMAN, L. (199,5). ‘Th e selection of prior distributions by forma1
rules’. TO appear in J. Amer. Statist. ilssoc.
LELAND. .J. (1994). ‘C,eneralized similarity judgments : an alternative explanation for
choice anomalies’. *Jour. Risk Ifncer., 9, p. 151-171.
hIULLER. P.(1991). ‘A generic approach to posterior integration and Gibbs sampling’.
Technical Report 91-09, Department of Statistics, Purdue University.
MILLER, P. and RIOS INSUA, D. (199.5). ‘1 ssues in Bayesian analysis of neural network
models’. Discussion Paper, ISDS, Duke University.
MI;NIER, B. and PARENT, E. (1996). ‘Le développement récent des sciences de la
décision: un regard critique sur la statistique décisionnelle Bayesienne’. In this
volume.
MUSTER, H. and BARDOSSY, A. (1996). ‘P recipitation forecasts for flood management
in river basins’. In this volume.
NAYLOR, J. and SMITH, A. F. M. (1982). ‘Application of a method for the efficient
computation of posterior distributions’. Appl. Statist., 31, p. 214-225.
OH, M. S. and BERGER, .J. (1993). ‘Integration of multimodal functions by Monte Carlo
importance sampling’. J. Am. Statist. Assoc., 88, p. 450-456.
O’HAGAN, A. (1994). B a y esian Inference, Edward Arnold, London.
O’HAGAN, A. (1995). ‘F rat t ional Bayes factors for mode1 comparisons’. J. Roy. Statist.
Soc. B, 57, p. 99-138.
POLE, A., WEST, M., and HARRISON, J. (1994). Applied Bayesian Forecasting. Chap-
man and Hall: London.
PRESS, .J. (1989). B a y esian Statistics. Wiley, New York.
RAFTERY, A. (1992). ‘H ow many iterations in the Gibbs sampler?’ In J. Bernardo, J.
Berger, A. P. Dawid, and A. F. M. Smith (editors), Bayesian Statistics 4, Oxford
University Press.
RXSMUSSEN, P.F., BOBÉE, B. and BERNIER, .J. (1994). ‘Une méthodologie générale
de comparaison de modèles d’estimation règionale de crue’. Revue des Sciences de
l’Eau, 7, p. 23-41.
RIOS INSUA, D. (1994). ‘Ambiguity, imprecision and sensitivity in Decision Theory’, in
Puri and Vilaplana (eds) Nezu Progress in Probability and Statistics, SVP.
RIOS INSUA, D. and SALEWICZ, A. (1995). ‘Th e o p eration of Lake Kariba’, J. Multi-
criteria Decision Analysis, 4, 203-222.
RIOS, S., RIOS-INSUA, S., RIOS INSUA, D. and PACHON, J. (1994). ‘Experiments
in robust decision making’. in Rios (ed) Decision Theory and Decision Analysis:
Trends and Challenges, Kluwer.
RIOS INSUA, D., SALEWICZ, K., MUELLER, P., and BIELZA, C. (1996a). ‘Bayesian
methods in reservoir operations’. TO appear in French and Smith (eds.). Case
Studies in Bayesian Analysis, Arnold.
RIOS INSUA, D., BIELZA, C., MARTIN, J. and SALEWICZ, K. (1996b) ‘BAYRES: A
system for multiobjective stochastic reservoir operations’, Tech. Rep., Univ. Polit.
Madrid.
SMITH, A. (1991). ‘B a y esian computational methods’. Phil. Trans. Roy. SOC., 337, p.
369-386.

60
SXIITH. A. F. M. and GELFAND. A. E. (1992). ‘Bayesian statistics without tears: a
sampling-resampling perspective’. American Statistician, 46, p. 84-88.
SXIITH, A. F. M. and ROBERTS, G. 0. (1993). ‘B ayesian computation via the Gibbs
sampler and related >larkov chain Monte (‘arlo rnethods‘. .J. Roy. Statist. Soc. B,
55, :j-3:j.
SPIEGELHALTER. D., THOMAS, A., BEST, N. (1996) Gomputation on Bayesian graph-
ical rnoclels. in Bernardo et a1 (eds). Bayfsian Sfafistics .5. Oxford University Press.
TANNER, M. A. (1991). Tools for S’tatistical I7~ferfr~cc: Observed Data and Data Aug-
mentation Methods, Lecture Notes in Statistics 67, Springer Verlag. New York.
THOMAS, A., SPIEGELHALTER, D. J. and GILKS? W. (1992). ‘BUGS: A program
to perform Bayesian inference using Gibbs sampling’. In: Bayesian Statistics 4 (J.
Bernardo, .J. Berger, A. Dawid and A. F. M. Smith, Eds.). Oxford University Press,
Oxford.
TIERNEY, L. (1994). ‘M ar k ov chains for exploring posterior distributions’. Ann. Statist..
22, p. 1701-1762.
TIERNEY, L. (1990). Lisp-Stat, an Object-Oriented Environment for Statistical C’om-
puting and Dynamic Graphies. Wiley, New York.
TIERNEY, L., KASS, R. and KADANE, .J. (1989). ‘Fully exponential Laplace approx-
imations to expectations and variantes of non-positive functions’. J. Am. Statist.
ASSOC., 84, p. 710-716.
VARSHAVSKY, .J. (1996). ‘Intrinsic Bayes factors for mode1 selection with autoregressive
data’. In .J. Bernardo et. al. (editors), Bayesian Statistics 5. Oxford University
Press, London.
WEST, M. (1995). ‘Bayesian forecasting’. Discussion paper, ISDS, Duke University.
WEST, M., HARRISON, J. (1989). B a y esian Forecasting and Dynamic Models. Berlin:
Springer.
WEST, M., MULLER, P. and ESCOBAR, M. (1994). H ierarchical priors and mixture
models. with applications in regression and density estimation. In: Aspects oj
Uncertainty: A Tribute to D. V. Lindley (Smith and Freeman, eds.), Wiley, London.
WOLPERT, R. L. (1991). ‘1Monte Carlo importance sampling in Bayesian statistics’. In:
Statistical Multiple Integration (N. Flournoy and R. Tsutakawa, Eds.). Contempo-
rary :k!lathematics, Vol. 115.
VVOOFF. D. A. (1992). ‘[B/D] works’. In: Bayesian Statistics 4 (J. Bernardo, .J. Berger,
A. Dawid and A. F. M. Smith, Eds.). Oxford University Press, Oxford.

61
4. L’estimation de l’intensité d’un
processus de Poisson inhomogène par
une méthode Bayésienne

Irène ABI-ZEID
GRESE, Ecole Nationale du Génie Rural, des Eaux et des
Forêts
19 avenue du Maine, 75732 Paris CEDEX 15, France
(En congé de l’INRS-Eau, Québec, Canada)
Abstract

The estimation of an intensity function of a nonhomogeneous Poisson process is often


accomplished using the method of maximum likelihood. However, this parametric approach
requires the specification a priori, of the form of the intensity function. A Bayesiannon-parametric
method for estimating the intensity function is presentedin this paper. Under the hypothesis that
the dependencystructureof the averagediscretizedintensitiesis circular, the analytical expressions
for the estimators are developed. The performance of this method is analysed on a simulated
process.

Résumé

L’estimation de la fonction d’intensitéd’un processusde Poissoninhomogènese fait souventpar la


méthodedu maximum de vraisemblance.Cette demiérepn%entele désavantaged’être une méthode
paramétrique, nécessitant ainsi la définition a priori d’une forme paramétrée de la fonction
d’intensité.Une méthoded’estimationnon-paramétriqueBayésiennedont la structurede corrélation
est circulaire, est presentéedans cet article, et les expressionsanalytiques des estimateurs sont
développées.La performancede la méthodeest étudiéepour un processussimulé.

4.1. Introduction
Le processus de Poisson est bien connu et il est couramment utilisé en hydrologie pour la
modélisation des occurrences soit de crues soit d’étiages. Afin de tenir compte de la
saisonnalité, la fonction d’intensité de ce processus est une fonction du temps et le processus de
Poisson est alors inhomogène. L’estimation de cette fonction d’intensité par la méthode du
maximum de vraisemblance est souvent utilisée (North, 1981 ; Konecny et Nachnebel, 1985 ;
Nachtnebel et Konecny, 1987). Toutefois, cette méthode présente l’inconvénient que la forme
paramétrée de la fonction d’intensité doit être connue. Les différents auteurs supposent alors
que la fonction d’intensité a la forme suivante :

(4.1)
Or, d’après Bernier (1981), cette forme analytique de la fonction d’intensité à estimer
“n’est pas toujours réaliste, en hydrologie notamment”. Il propose alors d’estimer cette fonction
selon une approche Bayésienne non-paramétrique. Dans ce travail, nous présentons cette
méthode, et nous développons certains résultats analytiques obtenus lorsque la structure de
dépendance des intensités moyennes est supposée circulaire. Cette méthode est ensuite
appliquée à l’estimation de l’intensité d’un processus de Poisson inhomogène obtenu par
simulation, L’estimation de l’intensité se base sur la construction d’un processus superposé.

4.2. L’estimation de l’intensité du processus superposé


Supposons un processus observé pendant p périodes (années) et superposons les p flux de
durées Z( 1 an) sur un même intervalle de temps de durée T. Si le processus de base indépendant
est Poissonien d’intensité A(t), périodique de période r, alors le processus superposé sera
Poissonien avec une intensité yA( Si le processus de base n’est pas Poissonien, alors pour
p+= le processus résultant de la superposition sera quand même Poissonien (Cinlar, 1973 ;
Bemier, 198 1).
Considérons l’intervalle [0, zlx séparé en K intervalles disjoints d’amplitude A; tels que
ZAi= Z. Soit &=$JA( u )d u, où il(u) est l’intensité du processus de base. Soit Izi le nombre
’4
d’événements superposés sur Ai. Chaque ni suit indépendamment des autres nj une loi de
Poisson de paramètre px. telle que la vraisemblance conjointe des K intervalles s’écrive :

L(tz,A) =exp (4.2)

Posons 8, = LO&I&), et C une constante. Nous avons alors :

L(n,O)=Cexp -~,(oi)+~,~i (4.3)


c i=l i=l 1

Il s’agit alors d’estimer ei.

4.3. L’estimation Bayésienne de 8

L’estimation de 0 = (f3,, e,,..., 0,) se fera selon l’approche Bayésienne de Bernier (1981),
basée sur les travaux de Leonard (1973, 1978). La densité a priori de 0 est b(O) et sa densité a
posteriori est :

(4.4)

où la constante k(n) est choisie telle que /3,( f3)& = 1. Leonard (1973) propose d’estimer les 62:
I
8
2P w
par les valeurs modales de la distribution a posteriori /3, (0) définies par A=O,i=l...K.
dei

Supposons que la loi a priori de 0 soit N(p, V), C = V-l, alors :

64
exp(-+( @-p)TC( @-fi))
b( 0) = Cst (4.5)
@WI

Sous certaines conditions de dérivabilité de b(O) et de L(n, O), la loi a posteriori pn de 0


est approximativement N( Ô,[?(N)[‘), où les éléments (i, j) de î(n) sont

&z>=
[
- -gpg(L(n, 0))
1^
. Nous avons donc iG(ti) = exp(-ii), et iG(n) = 0, i f j.

Vemos’(1982) a utilisé ce;: méthode d’estimation pour estimer l’intensité d’un processus
d’occurrence de crue. Il a supposé que p était inconnue, distribuée selon une loi uniforme et
que la matrice de covariance V possédait la propriété :

V;i = v2pl.Fil, -1<p<1

Dans ce travail, nous développons la méthode d’estimation pour une matrice de


covariance V circulaire, et nous appliquons cette approche à l’estimation de l’intensité dans les
deux cas : p connue et p inconnue.

4.3.1. Le modèle de dépendance circulaire

Afin d’estimer les valeurs de @,la matrice V doit être spécifiée pour tenir compte de la structure
de dépendance des 0,. Pour l’application aux processus périodiques, une hypothèse naturelle
est de choisir circulaire la distribution des 62:.Un modèle compatible avec cette hypothèse de
dépendance circulaire pourrait être (Bemier, 198 1) :

cpi = a( ‘pi-, + cP,+l) + &i avec (pi = Oi -PL


(4.6)

où les K variables &j sont des variables aléatoires indépendantes normales d’espérance nulle et
de variante 2 constante. Posons h = l/a2, 0 = ((p1,(p2,..., qK), E = (E,E, ,..., Es). Il faut
alors estimer a et h afin de connaître 4.

4.3.2. La matrice de variante-covariance V du système (pi = a( ‘pi-1+ (Pi+l)+ Ei

Le système d’équations (4.6) implique que :

Var(cp,)=V, et que Cov (pl,(p(i+j),,dK =Vi Vi,i=l...K (4.7)


( 1
La matrice C = V“, est telle que C = h*A2 (voir l’annexe A) où :

65

- -
la2 +l -2a a2 0 0 . . 0 a2 -2a
-2a 2a2 +l -2a a2 0 . . . 0 a2
a2 -2a 2a2+1-2aa20 . . . 0
0 a2 -2a. ..O. . .
A2 = 0 0 a2 . . . . .
0 a2.... . .
4.8)
o.... . 0
0 . . .o... -2a a2
a2 0 . . . Oa2-2a2a2+1 -2a
-2a a2 0 . ..0a2 -2a 2a2+l Ll
Le déterminant de la matrice V est :

1
det(V) = L= (4.9)
detC hK(detA)2

où (voir l’annexe A) :

(W))-2a2fJ[l+20cos(~))] (4.10)

4.3.3. L’estimation de a, h, et 0, par la méthode des modes conjoints lorsque


p est connue

Avec le choix (4.5) de b(O), p connue, il s’agit d’estimer a, h, et 0. La densité conjointe


a priori &(a, h, 0) de a, h, et Oest :

b,(a,h,e)œ b(Ola,h)*b(cc)h)*b(h) (4.11)

et la densité a posteriori correspondante fi,&, h, 0) est :

&,(a,h, 0) = b(Ola, h)*b(alh)*b(h)*L@, 0) (4.12)

où b(O 1a, h) est la loi multinormale de moyenne p = (pul, p2... pK) connue et de matrice de
variance covariance V. Nous avons alors b( @ ‘la, h) - N(O, V) :

b( Ola, h) = Cst (4.13)


@@ï
Supposons que a et h soient indépendants et que leurs densités a priori soient non-
informatives, b(alh) = 1 et b(h) = l/h, nous avons alors :
exp(-gm4@))
&(ah,@)=
hJdet(V)
(4.15)

@,(u,h, @> =0, celle de h par la


L’estimation de a se fait par la solution modale de

@,,(ah, @) @,&A”
solution modale de =O,etcellede @par = 0. On utilise les résultats
dh ‘Vi

suivants (Vernos, 1982) : “La coordonnée en 8, du mode conjoint de (e,, e2) est égale à la
valeur du mode de la distribution conditionnelle de 0, pour e2 fixé égal à la valeur en e2 du
mode conjoint”.

(i) L’estimation de 0

Les valeurs modales ii pour a et h fixés (donc C fixé), sont les solutions du système
@$,k 0)
= 0 (Bernier, 198 1) ce qui correspond à :
‘(I?i

2’=n;-cqêj-pj) (4.16)
j=l

La solution itérative de (Eq. 4.16) peut être approximée linéairement par :

ev =ql+[ê;+‘-q] (4.17)

ce qui donne en reportant (Eq. 4.16) dans (Eq. 4.17) :

(e* +C$;+l +~~.Y~;+1


,e@(ê;-l)+,ii+~~.!pj (4.18)
jti j=l

Le système d’équations (4.18) doit alors être résolu itérativement afin d’estimer @, et
d’obtenir une estimation de la fonction d’intensité.

(ii) L’estimation de a et de h

Posons W = det (A), alors det (V) = KKWe2,nous avons alors :

où :

67
Posons P = (@C@)/h, nous avons alors :

(4.20)

Nous calculons ensuite les dérivées partielles de la loi conjointe a posteriori par rapport à
a et à h. L’estimation de h pour a et @fixés, où ‘pi correspond à ‘pj modK est donnée par :

a W= { -2aAk+nI;l( 1+2acos K
- (~y)-2âk+g(l+2âcos(g.

$?,,(â,h,
6)
= 0, et 6J # 0, h # 0 impliquent que :
dh

K-2
h= (4.22)

1
K
(2â2 +1)~~:-4âC~jBj+l +2â2C~jcj+2
j=l j=l j=l

L’estimation de a pour h et @fixés est donnée par :

@ ,(aA~) ap h+
aa = [ --(-?rxp( +)IV)]+[ ( hy eXP($]g)] (4q23)

l3P
où -= 4aC +j”-4C”j~j~l +4aC î)j+j+2
aa l j=l j=l j=l 1

@ ,(a,i,6)
= 0, et W z 0, h f 0 impliquent que :
f3a

-- i +Kaa -0 (4.24)
2 4a~G~-4~+j@j+l +4Ui+j$j+2
i j=l j=l j=l 1

Cette dernière équation doit être résolue pour u.

4.3.4 L’estimation de a, h, et 0, par la méthode des modes conjoints lorsque ).l


est inconnue

Dans le cas où /J est inconnue, on peut alors supposer que pi = ,uuo,où la loi a priori de b est
N(m, v2), nous avons alors :

68
b,(a,h.O.~o)~~(~~a~h,~~)*~(alh~~~)*~(hl~~)*~(~~) (4.25)
et la densité a posteriori correspondante P,,(a, h, 0,~~) est :

p,(a,h,O,CLo)Dcb(Ola,h,~,)*b(alh,~,)*b(h&o)*b(~‘) (4.26)

Les valeurs modales êi pour a, h, et p. fixés, sont les solutions du système


ap,(â&,, 0)
= 0 ce qui correspond à l’équation (4.16).
‘(Pi

L’estimateur de fi tel que donné par la solution modale de


est (Bernier, 198 1) :

A r+l = i=l
PO > où ci =~Cc,
6.: j=l i=l i=l j-1
(4.27)

En reportant l’équation (4.27) dans l’équation (4.18), on obtient pour l’estimateur de 0,


a, h et l.toétant fixés :

Les estimateurs de h et de a sont tels que donnés par les équations (4.22) et (4.24).

4.3.5 L’algorithme d’estimation

L’algorithme d’estimation de la fonction d’intensité est le suivant :

1 - Initialiser 0 (et y0 pour le cas où p est inconnue) ;

2 - A l’étape r, calculer @,r= @’-& ;

3 - resoudre’l’équation (4.24) pour obtenir â’ ;

4 - obtenir h’ par l’équation (4.22) ;

5 - obtenir cr par l’kquation (4.8) ;

6 - résoudre le système d’équations (4.18) (si p est connue) ou (4.28) (si /l est
inconnue) afïn d’obtenir @“’ ;

7 - estimer bt;+’pour le cas où p est inconnue par l’équation (4.27).

Répéter les étapes 2 à 7 jusqu’à ce que l’estimation soit jugée satisfaisante.

69
4.4. Application
La méthode d’estimation présentée ci-haut est appliquée à l’estimation de l’intensité d’un
processus de Poisson inhomogène généré par simulation selon l’algorithme de Ross (1990). La
comparaison est effecutée sur un processus simulé au lieu de données observées réelles car
nous sommes certains que les données simulées proviennent d’un processus de Poisson
inhomogène, ce qui n’est pas le cas pour un processus observé. La fonction d’intensité (Eq.
4.29) du processus de Poisson inhomogène simulé est présentée à la figure 1 :
n(t) =.Olexp[2sin(wt+l)], w =g (4.29)

0.08

0.06

0.03 -

0.02 -

0.01 -

0
0 50 100 150 200 250 300 350 400
t = jour

Fig. 4.1 : La fonction di’ntensité analytique

Le procesus de Poisson inhomogène est généré pour des périodes d’observation égales à
15 et à 55 ans, ce qui correspond à 130 et à 460 événements respectivement. Les algorithmes de
génération et d’estimation pour ,u connue et p inconnue sont programmés en MAPLE.

4.4.1. Cas où p est connue

Dans ce cas, 0, est initialisé au log du nombre moyen d’événements observés sur l’horizon de
génération du processus (15 ans ou 55 ans) ; pi est fixée égale à sa vraie valeur, c’est à dire que
Pi =ijn(t)dt, où k(t) est la fonction d’intensité réelle de l’équation (4.29), et où Ai
’ A,
correspond à la période i.

4.4.2. Cas où p est inconnue

Dans ce cas, 0; est initialisé au log du nombre d’événements observés sur la période i ; m, la
moyenne a priori de A, est posée égale au log du nombre moyen d’événements observés.

70
4.5. Résultats
Les figures (4.2) à (4.5) présentent la comparaison entre la fonction d’intensité réelle et la
fonction d’intensité estimée en utilisant une discrétisation de l’année en 12 et 26 périodes, et ce
à partir de 15 ans et de 55 ans d’observations, pour ,U connue, et fi inconnue.

Estimation de la Fonction Intensité, 15 ans, Moyenne Connue


0.11 I

+ 26 périodes
12 périodes

50 100 150 200 250 300 350 400


t = iour

Fig. 4.2 : Comparaison de la fonction d’intensité et des estimations, 15 ans, p connue

Estimation de la Fonction Intensité, 55 ans, Moyenne Connue

+ 26 périodes
* 12 périodes

t = jour

Fig. 4.3 : Comparaison de la fonction d’intensité et des estimations, 55 utls, fi cotmue


Estimation de la Fonction Intensité, 15 ans, Moyenne Inconnue
0.08

+ 26 périodes
* 12 périodes

0 50 100 150 200 250 300 350 400


t = jour

Fig. 4.4 : Comparaison de la fonction d’intensité et des estimations, 15 ans, /t inconnue

Estimation de la Fonction Intensité, 55 ans, Moyenne Inconnue


0.081
1

0 50 100 150 200 250 300 350 400


t = jour

Fig. 4.5 : Comparaison de la fonction d‘intensité et des estimations, 55 ans, p inconnue

4.5.1. Discussion

D’après les figures (4.2) à (4.5) qui présentent les résultats de l’estimation de la fonction
d’intensité avec interpolation linéaire entre les 4 estimés, il apparaît que la performance de cette
méthode est satisfaisante. En comparant les figures (4.2) et (4.4), on voit que l’estimation est
meilleure lorsque p est supposée connue. De plus, il n’est pas surprenant de constater que
l’estimation est meilleure lorsqu’on dispose de 55 ans d’observations plutôt que de 15 ans. NOS
travaux ont montré que les deux approches convergent après 4 à 5 itérations. De plus, nous
avons remarqué que les méthodes d’estimation sont peu sensibles aux valeurs initiales de p ($0,

72
pour p inconnue). Quant à la discrétisation, l’utilisation de 26 intervalles ne fournit pas
nécessairement une bien meilleure estimation qu’avec 12 intervalles, ce qui est probablement dû
au faible nombre d’événements par intervalle, lorsque l’année est divisée en 26 intervalles.
Il reste plusieurs questions auxquelles il serait intéressant de répondre : comment se
comporte cette méthode pour différentes formes de la fonction d’intensité ? Quelle forme de
dépendance des intensités moyennes @ serait la plus appropriée ? Comment se comporte cette
méthode sur des données réelles observées ?
L’avantage principal de cette approche Bayésienne, par rapport à la méthode du maximum
de vraisemblance, est qu’il n’est pas nécessaire de supposer, a priori, une forme paramétrée de
la fonction d’intensité. Par contre, cette approche présente le désavantage d’avoir à découper le
temps en intervalles, n’estimant ainsi que des valeurs moyennes d’intensité. Il existe toutefois
un pendant continu à cette méthode, présenté par Leonard (1978), qu’il serait intéressant
d’approfondir.

4.6. Conclusions
Nous avons présenté une méthode d’estimation Bayésienne de l’intensité d’un processus de
Poisson inhomogène. Nous avons développé les expressions analytiques des estimateurs de
variables décrivant la dépendance circulaire. Cette méthode, qui fut adaptée en hydrologie par
Bemier (1981), a l’avantage d’être une méthode non-paramétrique. Bien que nécessitant plus
d’investigation quant à son applicabilité aux problèmes d’hydrologie, elle s’avère toutefois
intéressante et les résultats obtenus par simulation sont probants et prometteurs.

73
Annexe A

La solution du système (4.6), telle que les critères de variantes égales et de covariances du
même ordre égales (Eq. 4.7) soient respectés s’écrit :

@=M*E (4.A. 1)
où :
k, k, k, . . . . . kKel k,
kK kl k, . . . . . k,-, k,-,
kK-l k, k, k2 . . . . . k,-,
kKe2 . . . . . . . . k,-,

M=

........

........

........

k2 k, ...... k, k,

Par ailleurs, le système d’équations (4.6) s’écrit :

@ =a*B*E (4.A.2)
où :
k,+k,+fa 4 + k3 kz+kd ki-,+ki+, kK-l + k,

k-1 +k, kK+kl+x k,+k, . ki-1 +k;+l k-2 +kK


kK-2 + kK kK-l +k, ~ k, +k, ~ 4-l + ki+,
B=

4 +k, k2 +k, . . k,-, +k, k, +k2 +x

B est une matrice symétrique et circulaire, chaque ligne est une permutation d’ordre 1 de
la ligne précédente. Or, (Eq. A.4.1) et (Eq. A.4.2) j a*B = M * A*K=E, où :

74
1 -a 0 0 0 . . . 0 -a
-a 1 -aO 0 . . . . 0
0 -a 1 -a 0 0 0 . . 0
0 -a 1 -a 0 . . . 0
. . 0 -a 1 -a 0 . . .
A=
. . . . -a 1 -a . . .
. . . . . -a 1 -a . 0
. . . . . . . . . 0
0 0 . . . . .-a 1 -a
-a 0 0 0 _ . " 0 -a 1 (4.A.3)

K=[k, k, . ..kK]. et E1 =[lO...O].

En utilisant l’équation A*K = El, il devient clair que Me1 = A, car M*A = 1.
L’indépendance des { Ei} implique que V, la matrice de variante-covariance de CD,est
v = (M*M*)*$.

C=V-’ Y+~*(M-~)~ *C=&A2 (4.A.4)



2a2 +l -2a a2 0 0 . . 0 a2 -2a
-2a 2a2 +1 -2a a2 0 . . . 0 a2
a2 -2a 2a2 +l -2a a2 0 . . . 0
0 a2 -2a . ..O. . ,
A2 = 0 0 a2
0 a'::11 Y Y
o.... . 0
0 . ~ .o... -2a a2
a2 0 . . _ Oa2-2a2a2+1 -2a
-2a a2 0 . ..Oa' -2a 2a2 +l

A étant une matrice régulière circulante, son déterminant est facile à calculer (Graybill,
1983) :
K K-l
det(A) = n ;1;, Ai étant les valeurs propres de A telles que : ai = Ca, * CO{, où les Wi sont les K
i=l j=O
racines (pas nécessairement distinctes) de : xK = l.a,,a l,. . .uK-, représentent les éléments de la
première ligne de la matrice A. Nous avons alors, compte tenu de la structure de A :

(4.A.5)

et det(A)=fi(l-aq -aof-' ). En développant, on peut aussi écrire le déterminant de A sous


i=l
la fonne :

det(a)= -2a +n ~+~COS K


{ k :-li (*iij)_?n7~(l+2cosi~))} (4*A*6)

75

_-
--
det(A) = -adet(BK~IXK-,)+a(-adetBK-2,K~2 +(-1)K+‘adetTK-2,K_,)
+(-l)K’l(-a)(-adetT,_,,K_, + (-l)K+‘udet BK-2xK-2)
CX

-a 1 -a 0 . 0 1 -a 0 0 . O-
0 -a 1 -a 0 . -a 1 -a 0 0 0
0 -a 1 -a 0 0 -a 1 -a . 0
TKxK = B KxK =
. . 0 . 1 -a . . -a 1 -a 0
. . . . . 1 . . . -a 1 -a
où :
0 0 0 0 O-a et L 0 0 0 0 -a 11
et l’on utilise le calcul du déterminant d’une matrice BKxK donné par Graybill, 1983 :

g ao+2dGGo(fi))
(4.A.7)

où a2, ao, et a, sont les 3 premiers éléments de la deuxième ligne de la matrice bande. Dans ce
cas-ci, a2 = a, = -a, et a0 = 1.

Remerciements
L’auteur désire remercier chaleureusement le Professeur Bernier pour ses précieux conseils,
son intérêt et son dévouement ainsi que Dr. Eric Parent pour son amitié et ses judicieux
commentaires.
Bibliographie

BERNIER, J. (198 1) ‘Le modèle de renouvellement non stationnaire’. ÉlectricitC de France,


Département Laboratoire National d’Hydraulique. No HE 40 8 1- 11.
CINLAR, E. (1973) ‘Superposition of point processes’. Stochastic Point Processes: Statistical
Analysis, Theory, and Applications, P.A. Lewis (ed.), pp. 549-606.
GRAYBILL, F. A. (1983) Matrices with Applications in Statistics. Wadsworth International
Group, 2nd edition, 461 pages.
LEONAF-Db8. (1973) ‘A Bayesian method for histograms’. Biometrika, vol. 60, no. 2, pp.

LEONARD, T. (1978) ‘Density estimation, stochastic processes and their prior information’.
Journal of the Royal Statistical Society, Series B, vol. 40, nO.2, pp. 113-146.
KONECNY F.; H. P. NACHTNEBEL (1985) ‘Extreme value processes and the evaluation of
risk in flood analysis’. Applied Mathematical Modelling, vol. 9, pp. 11-15.
NACHTNEBEL , H. P. ; F. KONECNY (1987) ‘Risk analysis and time-dependent flood
models’. Journal of Hydrology, vol. 91, pp. 295-3 18.
NORTH, M. (198 1) Processus Hydrologiques Intermittents, @udede Modélisations
Stochastiques et Applications. Thèse de doctorat no 419, Ecole Polytechnique Fédérale de
Lausanne.
ROSS, S. M. (1990) A Course in Simulation, Macmillan Publishing Company, 202 pages.
VERNOS, D. (1982) Application des Modèles StochastiquesDynamiques Linéaires à la
Description et à la Simulation des Processus des Débits des Rivières aux Echelles
Saisonnières et Journalières. Thèse de doctorat, Université Pierre et Marie Curie, Paris 6,
119 pages.

77
5. A bayesian approach to rainfall modelling

Ezio Todini
Università di Bologna
Dipartimento di Scienze della Terra
e Geologico Ambientali
Via Zamboni, 67
40126 Bologna - Italy
Mario di Bacco
Università di Bologna
Dipartimento di Scienze Statistiche
Via delle Belle Arti, 41
40126 Bologna - Italy

A new probabilistic intcrprcuttion of ;II site rainfall scqucnccs is introduccd for thc dcvelopment of
a stochastic modcl of min.
The mode1 which is bascd upon thc Baycsian dcrivation of the cxpcctcd probability density from a
mixture of dcnsitics, is dividcd into two sub modcls; thc first one describing thc total number of
rain spells during a window of timc is dcscribcd by a Polya process in order to better reproduce the
variable probability of min during storm cvcnts (duc to the prcscncc of different numbers of rain
cells), the second sub modcl, conditional on thc first one, describes the total quantity of rain in the
time window, given a number of rain spclls.
The probabilistic rainfall modcl, which hns shown intcresting propcrtics in reproducing observed
data, cari thcn bc used as thc basis for a numbçr of problcms ranging from the conditional
generator of short term future rninfall sccnarios to the derivation of thc extreme value distribution
for differcnt duration rainfalls.

On prkscntc un schCma probabilistc original pour Ic dkvcloppemcnt d’un modklc stochastique des
séquences dc pluie.
Le modele, qui est bas6 sur des mClangcs BayCsiens, est divisé cn deux sous-modklcs ; le premier
décrit, par un processus Polya, Ic nombre total d’intcrvollcs pluvieux dans une fenêtre de durée
fixée, le dcuxièmc dkrit Ics quantitk totales dc pluie conditionnellement au nombre total
d’intervalles pluvieux.
Le modèle probabiliste prCscnt a montrC d’intércssantcs proprietks de reproduction des lois de
probabilité des prCcipitations obscrvks ct peut Ctrc utilisS soit pour la génération stochastique des
scénarios dc pluie a court wmc finalis6 à la prkvision des d5bit.s de crue en temps récl, soit pour la
dérivation des lius des valeurs cxtrSmcs des totaux dc pluie sur des fcnêtrc dc durées croisscntes.

79
5.1. Introduction

Statistical modelling of at site rainfall sequences has always been a complex task. The usual
assumption of stationarity fails when one considers the different processes related to rain and
no rain conditions and the complexity of the storm cells distribution.
In order to interpret the observed precipitation time series several authors have used the
assumptions of Poisson arrivals of rain spells associated to a probability distribution on
rainfall quantities (Todorovic and Yevjevicl969; Gupta and Duckstein, 1975; Rodriguez
Iturbe et al., 1984), this implicitly assumes a stationary arriva1 process independently from the
rain quantities. Other models also use two stage processes to represent the different transition
probabilities between rain-rain, rain-no rain, no rain-rain and no rain-no rain conditions
(Smith and Karr,1983; Foufoula-Georgiou and Lettenmaier, 1987; Smith 1987) or are based
upon the Neyman-Scott (N-S) mode1 (Kavvas and Delleur, 1981; Rodriguez -1turbe et al,
1984; 1987a, b, c). For a detailed description of the point models see for instance Cox and
Isham (1980), Waymire and Gupta (1981 a, b, c), Rodriguez-Iturbe et a1 (1987a) and
Foufoula-Georgiou and Georgakakos (1991).
The mode1 here introduced was derived with the objective of obtaining a mode1 of
rainfall to be used as an estimator of future rainfall traces in relatively short time horizons (up
to 12 -24 hours), conditionally upon the last observations. It was the easyness in which one
cari derive the conditional probabilities by means of the Bayesian approach that motivated the
research. The mode1 is based upon the concept of a time window, that is a window of fixed
time length within which a number of time intervals cari be rainy or non rainy. The basic
assumption for the mode1 development is the independence, in each time inter-val, of two
meteorological factors such as the risk of rain and the rain intensity. The mode1 is thus
derived into two stages: the first one is the derivation of the probability distribution of the
number of rainy time intervals within the window; the second one is the derivation of the
probability distribution function of the total quantity of rain conditional upon the number of
rainy intervals.

5.2. The mode1 of rainy spells

Let us suppose to dispose of a sufficiently long record of rain and to divide this record into
samples of length II. For each sample let us compute the number of rainy time inter-vals d,
with 0 5 d I n. If the probability of no rain Po in one single interval does not remain constant
in time the following Binomial distribution:

Pr{dl rl> = ; Pp (1- Qd (5.1)


0
is not capable of reproducin g the observed frequency distribution of the number d of rain
spells in a window of length ~1,which invalidates the stationarity assumption which is implied
by the Poisson arrivals model.
Following the same logical approach described by Bernier (198 1) to mode1 the non-
stationary Poisson process, given the random variability of PO in time, it seemed reasonable
to define a new mode1 in which the Binomial mode1 is valid only conditionally upon Po, that
is when a known and fixed value for PO is given:

Pr{dl Po,n} = 1 P;-” (1- Pcj)d (5.2)


i)
and, at the same time, by assuming that, within the range of the window, the probability Po is
a random quantity distributed according to a Beta distribution between 0 and 1, that is:

80
r(r + 4 p;-l (I_ po)s-l
f Pol = (5.3)
W-) r(s)
These assurnptions allow for the derivation of the new mode1 as a Bayesian mixture of
the two distributions given by equations (5.2) and (5.3):

(5.4)

I r(r + s) l-(/2- d + r) T(d + s)


= d! (n”-d).’ r(r) r(s) r(n+r+hy)

which Will be a function of two parameters Y and s to be estimated from the observations. The
choice of the Beta distribution, a natural conjugate prior of the Binomial distribution, is not
really binding because it is formed by a very wide family of distributions and quite adequate
to reproduce the shape of a limited quantity such as a probability.
This model, which corresponds to observing an average process combination of an
infinite number of different Binomial processes owing to the variability of Po, is known in
the literature as the Polya process mode1 and has been used for representing the spread of
contagious diseases. The consistency of the hypotheses expressed and its accuracy have been
proven using several rainfall records observed in different parts of the world, from Italy to
China and to Australia.

5.3. Derivation of the mode1 of rainfall totals.


It is a common practice to assume that when sampling on sufficiently small time
intervals the rain quantity x is distributed according to a negative exponential distribution
with parameter 6 :

f(x) = 29e-79x vx > 0 (5.5)

A more complex problem is to estimate the probability of the rain total on a number of
rainy intervals varying from 1 lo 12.The probability of the rain total cari be derived only if a
probability density function of x conditional upon d, cari be expressed.
Several probability distributions conditional upon the sampling interval have been
proposed for the non-zero daily or hourly rainfall amounts. Todorovic and Woolhiser (1971)
and Richardson (1981) used in fr?ct an exponential distribution, but Skees and Shenton (1974)
and Mielke and Johnson (1974) suggested that the exponential distribution has a thinner tail
than the one observed in the daily amounts. The mixed exponential distribution was explored
by Smith and Schreiber (1973), Woolhiser and Pegram (1979), and Roldan and Woolhiser
(1982) among others.
The mode1 here proposed cari be viewed as a limiting case of mixture of Gamma
distributions which degenerates into a generalised Beta Distributions of the Second Kind,
similary to what was found by Mielke and Johnson (1974). TO obtain the probability density,
according to what is observed in precipitation records, equation (5.5) one cari derive the
probability disrribution of the rain total, once the number of rainy spells d and the value 6,
which represents the inverse of the average rain total in the time window, are known.

81
tid,d-l ,-19x
f (xl& d) = vx>0 (5.6)
r(d)

In other words, it is here assumed that conditionally upon the knowledge of the value
for 6, the rain quantities arriving in the different time intervals, provided that the total number
of rainy intervals is d, are independent and identically distributed: this hypothesis is known in
statistics as “exchangeability” (Berger, 1985).
The fact that the rainfall quantities in reality do not appear to be independent is here
expressed by the assumption (similar to what was done for the probability of the number of
rainy intervals) that what is really observed is the result of a mixture of different processes, a11
expressed by equation (5.6), but each with a different value of the parameter 6, which is now
taken as a random variable distributed according to a natural conjugate prior of the Gamma
distribution on x , that is another Gamma distribution on ~9:

&bab tib-l e-dYa?9


f(W)= (5.7)
m)
Equation (5.7) expresses the fact that the growth rate of the inverse of the average value
of 19(in other words the average value of-r) is a function of adr.
The actual distribution of the min totals is then derived as the expected value of these
different processes. For x > 0 the following expression is obtained:

00 &bab 7~b+d-l,d-I e
-(dya+x]iy
=
J0 WI 0)
dB
(5.8)
m(dya+x)h+d ,yb+d-l ;(dYa+x)’ d6
dti’abxd-’ r(b + d)
=
T(d) T(b)(dYa + x)b+d J O r(b + d)

T(b + d) dti’a”xd-,’
= r(b) r(d) (d Ya + x)b+d

The probabilistic mode1 of rain is rhen:

(5.9)
~(XI n) = &,dl IZ) =Tf(xj d) P+I n} x > 0
i d=l d=l

where 60 is the Dirac delta

82
Finally, by substituting for the probabilities given in equation (5.4) one gets the
following expressions, valid for x = 0 and x > 0 respectively:

r(r+.~) r(n+r)
f(Olil) = 60z-(r) z+ +r+Ly)
(5.10)
<
f-(r+s) r(n-d+r)I-(d+s) l-(b+d) d@ab xd-'
r(n+r+s) ww (d Y a+x)b'd
\
The probability distribution function of the precipitation totals conditional upon the
number of rainy spells is then:

(5.11)

while the probability distribution function of the rain totals in a window of length n At is then
easily derived as follows:

x = 0

(5.12)
x > 0

and substituting for the differenr probabilities given in equation (5.4) and (5.11) one finally
obtains:

rp+.q qn+r)
F(0),) =
rcr) qri+ Y+.s)

qr-t.q qt2 +Y) + " qr+.s) ro2-d+r) r(d+s)


F(xln) =
r(r) r(,l+r+.sj c
d=, r(r) r(s) qrz + r +s) (5.13)

for x = 0 and x > 0 respectively.

5.4. Parameter Estimation


The mode1 is based upon five parameters for each window of length ~1,two of them, Y and S,
are relevant to the mode1 of the probability of the number of rainy interval, two others, a and
b, are relevant to the conditional mode1 of rain totals, while the fifth 3: accounts for the

83
change of scale with the number of rain spells d within the window of length n..
In reality, by taking into account the noticeable scale dependency shown by the rainfall
records the number of parameters cari be dramatically reduced. In fact it has been proven that,
apart from 3: which Will vary according to tz, thus implying one value for each window length,
a11the other parameters cari be computed at a11scales as a function of five numbers: (i) two
parameters expressing the growth rate with II of the average value of d and of the rain totals
and (ii) three moments, i.e. the probability of precipitation as well as the first and second
order moments of the precipitation total, only estimated for window length n=l.
The results of parameter estimation based upon the method of moments have shown an
impressive degree of adequacy of the probability distribution, not only for the totals on
Windows of length n, but also at the different d scales within the window.

5.5. Conclusions
The precipitation mode1 developed does not take explicitly into consideration correlation,
nevertheless correlation is taken into account through the growth rate of the different
moments.
Apart from the capability of reproducin g the observed rain frequencies at a11scales, the
major advantage of the analytical mode1 presented, lies in the immediate possibility of
deriving conditional probability models at the different scales.
The mode1 cari then be used either for the calculation of the expected conditional
probabilities or for the generation of conditional traces of rain. In this last respect it should be
noted the major degree of statistical coherence of the mode1 for which, in order to proceed in
time only the probability, i.e. a unique random number, must be generated at each time
increment, as opposed to what is necessary several univariate rainfall models, such as for
instance the Nayman-Scott (Kavvas and Delleur, 198 l), where several random numbers must
be generated in order to preserve rhe interna1 structure of the time series.

84

--.
Bibliography

BERGER J.O. (1985) ‘Statisticd Decision Throry,’ Springer-Verlag, New York, (Second
Edition).
BERNIER, J. (1981) ‘Le modèle de renouvellement non stationnaire. Présentation et
méthodes d’estimation’. EDF, Bulletin de la DER, HE40( 1 1): 36 p.
COX, D.R. and V. ISHAM (1980) ‘Point Processes’, Chapman and Hall, London.
FOUFOULA-GEORGIOU, E. and K.P. GEORGAKAKOS (1991) ‘Hydrologie Advances in
Space-Time Precipitation Modeling and Forecasting’. In D.S. BOWLES and
P.E.O’CONNELL (eds.), Recent Advances in the Modeling of Hydrologie
Systems: 47-65.
FOUFOULA-GEORGIOU, E. and D.P. LETTENMAYER (1987) ‘A Markov Renewal
Mode1 for Rainfall Occurrences’. Water Resour. Res. 23(S): 875-884.
GUPTA,V.K. and L. DUCKSTEIN (197.5) ‘A Stochastic Analysis of Extreme Droughts’.
Water Resour. Res., 12(2): 221-228.
KAVVAS, M.L. and J.W. DELLEUR (1981) ‘A Stochastic Cluster Mode1 for Daily Rainfall
Sequences’. Water Resour. Res. 17(4): 1 15 1- 1 160.
MIELKE, P.W.Jr. and E.S. JOHNSON (1974) ‘Some Generalized Beta Distributions of the
Second Kind Having Desirable Application Features in Hydrology and Meteorology’.
Water Resour. Res. 1O(2): 223-236.
RICHARDSON, C.W. (1981) ‘Stochastic Models of Daily Precipitation, Temperature and
Solar Radiation’. Water Resour. Res. 17( 1): 182- 190.
RODRIGUEZ-ITURBE, 1.; V.K. GUPTA and E. WAYMIRE (1984) ‘Scale Considerations in
the Modeling of Temporal Rainfall’. Water Resour. Res. 20(1 1): 161 1-1619.
RODRIGUEZ-ITURBE, 1.; D.R. COX and V. ISHAM (1987a) ‘Some models for rainfall
based on stochastic point processes’. Pr-oc. R. Soc. London, A,410: 269-288.
RODRIGUEZ-ITURBE, 1.; B. FEBRES DE POWER and J.B. VALDES (1987b)
‘Rectangular Pulses Point Process models for Rainfall: Analysis of Empirical Data’.
Jour. of Geophys. Res. 92(D8): 96459656.
RODRIGUEZ-ITURBE, 1.; D.R. COX and V. ISHAM (1987~) ‘A Point Process Mode1 for
RainfaIl: further developments’. Proc. R. Soc. London, A.
ROLDAN, J. and D.A. WOOLHISER (1982) ‘Stochastic Daily Precipitation Models, 2, A
Comparison of Distribution Amounts’. Water Resour. Res. 25(7): 1667- 1675.
SKEES, P.M. and L.R. SHENTON (1974) ‘Comments on the Statistical Distribution of
Rainfall per Period Under Various Transformatioris’. Proc. of the Symp. on Statistical
Hydrology, Tucson, AZ, U.S. Dept. of Agr., Mise. Publ. N. 1275: 172- 196.
SMITH, J.A. and H.A. SCHREIBER (1973) ‘Point processes of Seasonal Thunderstorm
Rainfall, Parti, Distribution of Rainfall Events’. Water Resour. Res. g(4): 871-884.
SMITH, J.A. and A.F. KARR (1983) ‘A point Process Mode1 of Summer Season Rainfall
Occurrence’. Water Resour. Res. 19( 1): 95 103.
SMITH, J.A. (1987) ‘Statisrical Modelling of Daily kiinfdll Occurrences’. Water Resour. Res.
23(5): 855-893.
TODOROVIC, P. and V. YEVJEVIC (1969) ‘Stochastic Processes of Precipitation’. Colorado
State University, Hydro Paper 36: l-61.
TODOROVIC, P. and D.A. WOOLHISER (197 1) ‘Stochastic Mode1 of Daily Rainfall’. F%oc.
of the USDA-IASPS Symposium on Statist. Hydrology, Tucson, AZ.
WAYMIRE, E. and V.K. GUPTA (1981a) ‘The Mathematical Structure of Rainfall
Representations, 1, A Review of Stochastic Rainfall Models’. Water Resour. Res. 17(5):
1261-1272.
WAYMIRE, E. and V.K. GUPTA (19X1 b) ‘The Mathematical Structure of Rainfall

85
Representations, 2, A Review of the Theory of Point Processes’. Water Resour. Res.
17(5): 1273-1285.
WAYMIRE, E. and V.K. GUPTA (1981~) ‘The Mathematical Structure of Rainfall
Representations, 3, Some Applications of the Point Process Theory to Rainfall
Processes’. Water Resour. Res. 17(S): 1287- 1294
WOOLHISER, D.A. and G.G.S. PEGRAM (1979) ‘Maximum Likelihood Estimation of
Fourier Coefficients to Describe Seasonal Variations of Parameters in Stochastic Daily
Precipitation Models’. J. Appl. Meteorol. 8( 1): 34-42.
6. Modélisation de données hydrologiques
extrêmes de crues à l’aide des lois de
Halphen

Luc Perreault et Bernard Bobée


INRS-Eau
Université du Québec
Chaire Hydro-Québec/CRSNG en hydrologie statistique
2800 rue Einstein
Sainte-Foy (Québec), Canada
GlV 4C7

Abstract
Despite the number of distributions already in use in hydrology in the middle of the Century,the
French hydrologist E. Halphen felt the need to develop new density tûnctions (Halphen, 1941).
Past experiencehad convinced him that none of the traditional distributions used at that time had
shapesthat were globally appropriate for flood series in France. Consequently,Halphen (194 1)
developednew distributions (Halphen type A and B) and Morlat (1956) extended it to obtain the
Halphen family of distributions (type A, B and B-r).

Although the Halphen distributions are largely based on empirical justifications, they possess
interesting theoretical properties. However, due to the practical problems pertaining to the
estimation of the parameters,little attention has been paid to Halphen’s distributions since their
introduction ftfty years ago (Roche, 1963), and few theoretical developmentshave been made.
Halphen probability models have great potential applicability in statistical flood analysis.
Therefore, new light have been shededon their properties and new theoretical developmentshave
been made concerning the estimation of parametersand percentiles. The Halphen distributions
have also been applied to 186 seriesof flood data in Eastem Canada (Québec-Ontarioarea). This
application show how thesedistributions and their limited casescari well representthe series.

Résumé

Malgré le nombre important de distributions déjà utilisées en hydrologie au milieu du siècle,


l’hydrologue français E. Halphen a développéde nouvelles lois de probabilité (Halphen, 1941).
En effet, sa grande expérience en modélisation de données hydrologiques l’avait convaincu
qu’aucune distribution utilisée à cette époque n’était assez souple pour pouvoir ajuster
adéquatementl’ensembledes séries hydrologiquesobservéesen France. Ainsi, Halphen (194 1) a
propose des lois de probabilité à trois paramètres(lois de types A et B) et Morlat (1956) en a
présentéune extension pour obtenir la famille des lois de Halphen (types A, B et B-l).

87
Bien que ces distributions aient été construites en s’appuyantprincipalement sur desjustifications
empiriques, elles ont d’enviables propriétés statistiques. Toutefois, en raison de la complexité de
la forme analytique des trois fonctions de densité de probabilité, l’ajustement des lois de Halphen
nécessitedes calculs laborieux et elles n’ont pas retenu l’attention des praticiens (Roche, 1963). Il
en résulte donc que ces distributions ont été peu utilisées et ont fait l’objet d’assez peu de
développementsthéoriques. La famille des lois de Halphen est d’une grande richessethéorique et
constitue un outil statistique prometteur pour la modélisation des séries de données
hydrologiques. C’est pourquoi, les propriétés des lois de Halphen ont été approfondies et de
nouveaux développementsconcernant en particulier l’estimation des paramètres et l’estimation
des quantiles ont été effectués. Une application des lois de Halphen pour l’ajustement des débits
de crue à 186 stations du Canada (région Québec-Ontario) a été effectuée. On montre, en
particulier, comment les trois types de lois de Halphen (types A, B et B-l) et leurs cas limites
peuvent représenterl’ensembledes données.

6.1. Introduction
Les activités des grandes compagnies hydroélectriques dans le domaine de l’aménagement et de
la réfection des centrales hydroélectriques impliquent un grand nombre d’études concernant les
débits extrêmes de crue. Ces études sont requises pour la conception des évacuateurs, des
barrages et des dérivations provisoires. La planification et le dimensionnement de ces
ouvrages hydrauliques reposent donc sur une estimation adéquate des événements extrêmes de
crue. En effet, une surestimation des crues peut entraîner un sur-dimensionnement des
ouvrages hydrauliques et conduire à des coûts de construction supplémentaires. Une sous-
estimation des crues peut, par contre, causer des défaillances d’ouvrages conduisant, par
exemple, à des inondations qui se traduisent par des dégâts matériels importants et parfois par
des pertes en vies humaines.

Un des outils privilégié par les hydrologues pour estimer les débits extrêmes de crue est
l’analyse de fréquence des crues (flood frequency analysis). Cette approche a pour objectif
l’utilisation des mesures d’événements hydrologiques extrêmes passés pour estimer les
probabilités futures d’occurrence. On tente en particulier d’estimer l’événement extrême xr de
période de retour T. L’estimation XT de la valeur théorique du quantile inconnu xT peut être
obtenue en ajustant une loi de probabilité F(x; @) à un échantillon de débits maxima annuels
observés historiquement, où 8 désigne le vecteur de paramètres associé à la distribution F. Si
une série de n débits maxima annuels a été observée et que les données vérifient certaines
hypothèses de base (indépendamment et identiquement distribuées selon la loi F), les
paramètres e peuvent être estimés en ajustant la distribution F(x; (3) aux n observations. On
peut montrer que Pr(X 2 x,.) = l/T et que si F(x;@) désigne la fonction de répartition avec
les paramètres estimés 4, alors le quantile estimé de période de retour Test donné par :

2, =F-‘(1-l/T;$) (6.1)
Puisque la distribution théorique des débits maxima annuels est inconnue, les lois
utilisées en hydrologie sont considérées comme des modèles approximatifs empiriques de la
vraie population des débits. Ainsi, le choix d’une distribution en particulier est d’abord justifié
par la qualité de son adéquation aux données observées. Même si de nombreuses distributions
sont utilisées en hydrologie, très peu ont été spécifiquement développées pour représenter les
débits.

88
Alors qu’il oeuvrait à titre de statisticien à Électricité de France (EDF) au milieu du
siècle, Étienne Halphen avait comme tâche la modélisation des débits mensuels observés. Pour
ce faire, il a construit une famille de lois de probabilité à trois paramètres en s’appuyant
principalement sur sa connaissance des caractéristiques statistiques de séries de débits. Les
distributions de Halphen ont été présentées de manière globale, pour une première fois, par
Morlat (1956). C’est ensuite le professeur Jacques Bemier, lui aussi de I’EDF comme Morlat
et Halphen, qui nous a montré l’intérêt de ces lois et suggéré d’en faire une étude plus
approfondie en vue de leur application en hydrologie.

Même si les formes qu’admettent les lois de Halphen reposent particulièrement sur des
justifications empiriques, ces distributions possèdent néanmoins d’intéressantes propriétés
statistiques théoriques. En particulier, les lois de Halphen appartiennent à la classe des
distributions exponentielles et possèdent, pour cette raison, des statistiques exhaustives et
complètes pour chacun des paramètres. Cette propriété permet d’affirmer qu’il existe des
estimateurs non-biaisés de variante minimale pour chacun des paramètres et que ceux-ci sont
des fonctions des estimateurs du maximum de vraisemblance. Les lois de Halphen sont les
seules distributions à trois paramètres, utilisées en hydrologie, qui possèdent cette importante
propriété. Cependant, en raison de la complexité de la forme analytique des trois fonctions de
densité de probabilité, les lois de Halphen ont été peu utilisées en pratique et ont fait l’objet
d’assez peu de développements théoriques.

Quelques nouveaux développements concernant en particulier l’estimation des


paramètres sont présentés ici. Mais d’abord, nous donnons un bref historique du
développement des lois de Halphen et rappelons certaines propriétés qui ont été présentées par
Morlat (1956).

6.2. Note historique concernant les lois de Halphen


Malgré le nombre important de distributions déjà utilisées en hydrologie à cette époque (en
particulier, les lois normale, lognormale et les distributions de la famille de Pearson), Étienne
Halphen a jugé nécessaire de développer de nouvelles lois de probabilité (Halphen, 1941). En
effet, sa grande expérience en modélisation de données hydrologiques l’avait convaincu
qu’aucune distribution utilisée à cette époque n’était globalement adéquate pour pouvoir ajuster
convenablement l’ensemble des séries hydrologiques observées en France. Deux raisons
concernant la forme des densités ont d’abord motivé sa recherche :
l la décroissance inadéquate des extrémités de la fonction de densité de probabilité des
lois usuelles pour répondre aux besoins pratiques en hydrologie;
l les problèmes reliés au paramètre d’origine non nul apparaissant dans la plupart des lois
à trois paramètres utilisées à cette époque.

La rapidité de la décroissance de la fonction de densité de probabilité (f.d.p.) des lois


usuelles (en particulier, la loi lognormale fréquemment utilisée à cette époque), pour les très
grandes valeurs de la variable, s’avérait parfois en désaccord avec les constatations empiriques.
Il paraissait alors souhaitable de disposer de familles de courbes ayant une plus grande
souplesse dans les extrémités de façon à permettre une décroissance tantôt exponentielle,
tantôt algébrique.

89

- ---
Le problème d’estimation d’un paramètre d’origine non nul est bien connu et Halphen
voulait éviter l’emploi de f.d.p. possédant un tel paramètre. De plus, il jugeait très difficile
l’assignation dune borne inférieure non nulle à des variables aléatoires comme le débit dune
rivière. Il lui paraissait alors souhaitable d’avoir une borne inférieure nulle. Plus précisément,
les courbes devaient avoir un comportement qui permette d’attribuer une probabilité
pratiquement négligeable (mais pas rigoureusement nulle) à un intervalle considéré comme
hautement improbable au voisinage de zéro.

D’autre part, outre ces considérations mathématiques liées à la forme des fd.p., Halphen
imposa une condition concernant les propriétés statistiques des estimateurs des paramètres.
Ainsi, il fixa comme objectif que les distributions fassent partie de la classe des lois
exponentielles. Ceci assurait que l’estimation des paramètres soit effectuée en utilisant des
statistiques exhaustives et complètes.

Au départ, Halphen recherchait une loi à deux paramètres destinée à la représentation


des débits mensuels et vérifiant les conditions décrites précédemment. Par ailleurs, il avait jugé
commode de disposer de la symétrie logarithmique pour la f.d.p., c’est-à-dire, qu’à une
constante près, X et 1/X aient la même densité. Cette condition supplémentaire était
probablement motivée par le fait que la loi lognormale possède cette propriété. La f.d.p. la
plus simple répondant à ces diverses conditions correspondait à ce que Halphen a appelée “loi
harmonique”. Cette fonction de densité de probabilité s’écrit de la façon suivante :

“f(x) = l exp[-a(i+f)] , x>O (6.2)


2xK0(2a)

où m > 0 est un paramètre d’échelle et a > 0 est un paramètre de forme. La constante de K, (2 a)


est la fonction de Bessel modifiée de deuxième espèce d’ordre nul. Cette distribution, connue de
nos jours sous le nom de loi hyperbolique (BamdorfGNielsen et al., 1977), a été particulièrement
utile pour l’évaluation des probabilités attachées aux valeurs mensuelles des indices d’hydraulicité de
certaines régions de France. Toutefois, après de nombreuses applications à d’autres types de
données hydrologiques, la loi harmonique s’est avérée insuffisante pour représenter adéquatement
l’ensemble des données. Halphen explique ce problème par le fait que la loi harmonique ne possède
que deux paramètres. Pour obtenir une plus grande souplesse, Halphen a généralisé cette
distribution de la façon la plus simple en introduisant un paramètre de forme supplémentaire dans la
Ed.p. de la loi harmonique (Eq. 6.2). Cette distribution à trois paramètres a été appelée “loi de
Halphen Type A” et répond aux principales conditions imposées par Halphen. La loi de Type A
correspond, à une reparamétrisation près, à la distribution appelée de nos jours la loi gaussienne
inverse généraliséeconsidérée, en particulier, par BamdorENielsen et al. (1977) et étudiée en détail
par Jorgensen (1982). Good (1953) a brièvement fait mention de la loi gaussienne inverse
généralisée mais sans en approfondir l’étude. Seshadri (1993) dans un ouvrage consacré à la loi
gaussienneinverse, discute un peu de la loi de Type A.

La loi de Halphen Type A s’est montrée adéquate dans beaucoup de cas, mais un nombre
non négligeable de séries d’observations nécessitaient de nouvelles formes qui prolongeraient
les lois de Type A en présentant en particulier des comportements différents au voisinage de
l’origine. C’est ainsi que Halphen a introduit la loi de Type B. Les lois de types A et B
satisfaisaient alors à presque tous les besoins. Toutefois Morlat (1956) mentionne qu’il
subsistait certaines lacunes. C’est pourquoi, avec son collaborateur M. Larcher, il a présenté
une dernière extension pour obtenir la famille des trois lois de Halphen telle qu’on la connaît

90
maintenant. Il a alors introduit les lois de “Halphen Type B-l”. Les distributions du Type B et
B-l sont reliées aux fonctions d’Hermite et hypergéométriques confluentes et ne correspondent
à aucune loi de probabilité connue, contrairement au Type A.

La famille des lois de Halphen admet des fd.p. de formes très variées qui répondent à la
plupart des besoins des hydrologues statisticiens, Comme c’est le cas pour les lois de la famille
Pearson, on peut dire que les lois de Halphen forment un système complet. Elles sont reliées
entre elles par leurs cas limites que sont les lois gamma et gamma inverse. Ces distributions
jouent un rôle fort important dans la théorie des lois de Halphen. D’ailleurs, ces deux
distributions sont les seules lois du système Pearson utilisées pour représenter les données
hydrologiques (lois asymétriques) et ayant une borne inférieure non nulle (deuxième condition
de Halphen). Les f.d.p. des lois gamma et gamma inverses sont respectivement données par :

f,(x) =& x’-’ exp[-ax] , x>o (6.3)

et

“6, (4 = -(i)‘
r(n)+’ exp[-f ] , x>0 (6.4)

Notons que si X suit une loi de gamma (X = G), alors 1/X est distribuée selon une loi gamma
inverse (1/Xx GI).

Morlat (1956) mentionne que la famille des lois de Halphen est un outil dont la richesse
égale celle des lois de Pearson et qu’elle comble une lacune pour la représentation de
phénomènes naturels comme les débits et les précipitations. Nous verrons, dans les sections
qui suivent, comment ces trois lois se complètent harmonieusement.

6.3. Définitions et formes des fonctions de densité de probabilité des lois


de Halphen
Puisque que la loi harmonique (Eq. 6.2) ne contient que deux paramètres, sa dispersion
relative impose entièrement la forme de la fonction de densité de probabilité. Pour obtenir une plus
grande souplesse, Halphen (194 1) a donc généralisé cette loi de la façon la plus simple en
introduisant les fonctions de densité de probabilité à trois paramètres de Type A. Soit X une
variable aléatoire distribuée selon une loi de Halphen de Type A, notée F, (x; m, a, u), de
paramètres m, a et u. Alors sa fd.p. est donnée par :

L(x)=2m”K,l (2a) ’
‘-‘exJ-a[:+:)] , x>O

où m (> 0) est un paramètre d’échelle, a (> 0) et u E % sont des paramètres de forme. La


fonction K,(2a) est la fonction de Bessel modifiée du second type (Watson, 1966) et est définie
par:

(6.6)

91
Remarquons que si V=O dans l’équation (6.5), on retrouve l’expression de la fonction de
densité de probabilité de la loi harmonique (Eq. 6.2). On peut montrer que si X suit une loi
FA (x; m, a, U) alors kX , pour k positif, suit une loi FA (x; km, a, II). De plus, les lois gamma
(G) et gamma inverse (GI) sont des cas limites de la loi de Halphen Type A pour des valeurs
spécifiques des paramètres: si a + 0, X = G pour v > 0 et X = GI pour tu < 0 . Entre ces
deux distributions limites, la loi de Type A admet une grande variété de formes toutes
intéressantes pour représenter des données hydrologiques.

Comme nous l’avons mentionné à la section 6.2, suite à une étude intensive de
l’adéquation de la loi de Type A à de nombreuses séries d’observations, Halphen a jugé
nécessaire d’introduire une nouvelle loi ayant un comportement asymptotique différent au
voisinage de zéro. Cette distribution est la loi de Type B. Soit X une variable aléatoire
distribuée selon une loi de Halphen de Type B, notée FB (x; m, a, II), de paramètres m, a et U.
Alors sa fonction de densité de probabilité est donnée par :

f,(x)= 2 2u-’exp[--[:J +a[:)] , x>O (6.7)


m” ff, (a) ’

où m (> 0) est un paramètre d’échelle, a E % et 2) (> 0) sont des paramètres de forme. La


fonction efu( a), décrite en détail dans Halphen (1955), est appelée fonction exponentielle
factorielle et est définie de la façon suivante :
ef”(a) = 2r p-leb2 +4,
(6.8)
0

La fonction ef,(a) est liée aux polynômes d’Hermite ainsi qu’à la fonction hypergéométrique
confluente (Abramowitz et Stegun, 1972). On peut montrer que la loi de Type B possède
aussi comme cas limite, lorsque a + - 00, la loi gamma. De plus, si X suit une loi
FB (x; m, a, U) alors kX , pour k positif, suit une loi FB (x; km, a, u).

Enfin, faisant suite aux travaux de Halphen, M. Larcher (Morlat, 1956) a complété la
famille des lois de Halphen en introduisant la loi de Type B-j. Soit X une variable aléatoire
distribuée selon une loi de Halphen de Type B-r, notée FS-,(x; m, a, II), de paramètres m, a et 2>.
Alors sa fonction de densité de probabilité est donnée par :

(a) L2”-’exp[-(:J +0@J] , x>O (6.9)

où m (> 0) est un paramètre d’échelle, a E YI et v (> 0) sont des paramètres de forme. La


constante ef,(a) est la fonction exponentielle factorielle définie à l’équation (6.8). Cette
f.d.p. peut être déduite de celle la loi de Type B en remplaçant x/m par m/x dans (Eq. 6.7).
Ainsi, si X suit une loi de Type B, alors 1/X suit une loi de Type B-l. On peut montrer alors
que la loi de Type B-r possède comme cas limite, lorsquea + - 00, la loi gamma inverse et
que, si X suit une loi FB+ (x; m, a, U) alors kX , pour k positif, suit une loi FB., (x; km, a, u).

Pour illustrer la variété de formes qu’admettent la f.d.p. des lois de Halphen, les figures
6.1 à 6.3 présentent, pour certaines valeurs des paramètres a et U, les densités des lois de

92
types A, B et B-l respectivement. Le paramètre m a été choisi de sorte que la variante
théorique de chaque distribution soit égale à 1. Les fd.p. des lois de types A (Fig. 6.1) et B-1
(Fig. 6.3) sont toujours unimodales et à asymétrie positive. La variété des formes admises par
la loi de Halphen Type B (Fig. 6.2) est plus grande puisqu’on trouve parmi elles, outre des lois
unimodales, des lois en J, des lois en S et des lois tronquées.

6.4. Propriétés statistiques


Les moments non-centrés p; des lois de Halphen peuvent être aisément déterminés à l’aide de
la fonction caractéristique i(t). En effet, si cette fonction peut se développer en puissance de
t, ,u; est alors égal au coefficient de (it)r/r! dans le développement suivant :

(6.10)

Le tableau 6.1 donne pour les trois lois de Halphen la fonction caractéristique 4(t), le moment
non-centré d’ordre r ,u;, la moyenne E{ X} , la variante Var{ X} et la moyenne géométrique
notée ~0. Ce dernier paramètre joue un rôle important dans la théorie de ces distributions.

Tableau6.1. Quelquescaractéristiquesstatistiquesdes lois de Halphen

‘Me A Type B Type B-l


tif) * (it)“m”Ku+, a W” m”efo+,,, - (il)” mnefo-n,i
c*=Il n! y cn=. n! 6 cn=On! ef,
m’K,+, mrefu+ri2 mrefLl
K” ef, ef”

E(X) meSo+,,* mGt


ef” ef”

-$(4-,efo -efY,,,)
"

1%
i-
mexp 2ef” au 1 mexp{----&s}

Note : Pour simplifier la notation, les fonctions K,(2a) et efo(a) sont notéesrespectivementKo et ef”

On constate que la loi du Type A possède des moments de tous ordres r, négatifs ou
positifs. Toutefois, les moments des lois de Type B et Type B-l n’existent que lorsque r > -2u
et r < 2v respectivement.

93
f(x) f(x)
2
1.75I

0 1 2 3 4 5 6 0123456

f(x) f(x)
1.7: \
1.5 v= -0.5

X
0 1 2 3 4 5 6 0 1 2 3 4 5 6

f(x) f(x)
2 2
1.75 1.75
1.5/ v= 0.5 1.5 v= 2.0
1.25
1
0.75

0 1 2 3 4 5 6 0 1 2 3 4 5 6

2 Ugende
1.75
1.5 0=5.0 a = 0.25
1.25
azl.00 -----
0.7:
a=2.00 . . . . . . . . . . .
a = 5.00 -.-.-.a
0 1 2 3 4 5 6

Figure 6.1. Fonction de densitéde probabilité de la loi de Halphen TypeA


v= 0.25

0 1 2 3 4 5 6 0 1 2 3 4 5 6

0.8
0.7
0.6 / v= 0.75

0 1 2 3 4 5 6 0 1 2 3 4 5 6

f(x) f(x)
0.8r 0.8r
0.7 0.7
0.6 v= 1.0
0.6
0.5 0.5

0123456 0 1 2 3 4 5 6

Ugende
0.8.
0.7 a = -2.00
0.6 v=5.0
0.5 a=O.OO -----
a = 2.00 . . . . . . . . ...
a=3.00 -.-.-.-

0 1 2 3 4 5 6 a=4.00 ---

Figure 6.2. Fonction de densité de probabilité de la loi de Halphen Type B

95
1.75
1.5 v= 1.5
1.25

f(x) f(x)
1.75 1.75
1.5 v= 1.75 1.5 0=2.0
1.25 1.25

0 1 2 3 4 5 0 0.5 1 1.5 2 2.5 3 3.5

1.75 1.75
1.5 v= 2.5 1.5 v= 3.0
1.25 1.25
1 1

f(x)
Ugende
1.75
1.5 v=4.0 a=-2.00
1.25 -----
a = 0.00

azl.00 . ... .......

a = 2.00 -.-.-.-

a = 3.00 ---

Figure 6.3. Fonction de densité de probabilité de la loi de Halphen Type B-l

96

I 7- ------ ~- -
Comme on l’a mentionné précédemment, le développement des lois de Halphen avait
comme objectif particulier qu’un résumé exhaustif des observations, pour l’estimation des
paramètres, soit fourni par chaque type de loi. Après quelques manipulations algébriques
effectuées sur les fd.p. (Eq. 6.5, 6.7 et 6.9), on peut montrer que les lois de Halphen
appartiennent à la classe des fonctions de densité de probabilité exponentielles d’ordre 3
(Bobée et ul., 1994). Les trois distributions de la famille admettent donc un triplet de
statistiques exhaustives et complètes. Ces statistiques sont présentées au tableau 6.2 pour
chacune des lois de Halphen.

Tableau6.2. Statistiquesexhaustivespour chaqueloi

Type Statistiques exhaustives et complètes

Ces statistiques (IQ, H, G, A et Q) sont respectivement les moments non-centrés de


l’échantillon d’ordre -2, -1, 0, 1 et 2. Le moment d’ordre quasi-zéro (0) de l’échantillon
correspond à la moyenne géométrique G (Kendall et Stuart, 1977, pp. 35-37). Cette
statistique joue un rôle central pour les lois de Halphen puisqu’elle est exhaustive pour les trois
distributions. La moyenne géométrique est d’ailleurs également une statistique exhaustive pour
les cas limites des lois de Halphen que sont les distributions gamma et gamma inverse.

Morlat (1956) présente deux diagrammes des moments permettant de représenter les
diverses lois de Halphen par les points d’un plan. Les coordonnées sont des fonctions des
expressions théoriques (Tab. 6.1) correspondant à certains moments de l’échantillon du tableau
6.2 (statistiques exhaustives). La représentation graphique considérée ici (Fig. 6.4) consiste à
éliminer le paramètre d’échelle m en choisissant comme coordonnées les quantités
4 = ln(A/G) et S, = ln(G/H) . Il s’agit d’une opération analogue à la représentation classique
des lois de Pearson par les coefficients fl, et fl, (fonctions des coefficients d’asymétrie et
d’aplatissement). Ces coordonnées permettent de représenter dans une portion du graphique
toutes les lois de Type A. Toutefois, seules les lois de Types B admettant une moyenne
harmonique H finie ( u> 1/ 2), sont représentées. La même condition s’applique pour assurer
l’existence de la moyenne arithmétique A des lois de Type B-l. Ce diagramme (Fig. 6.4) met en
évidence la symétrie entre les lois de Types A selon le signe du paramètre o d’une part, et
d’autre part, entre les lois B et B-l. De plus, le rôle de transition que jouent les distributions
limites gamma (G) et gamma inverse (GI) entre les trois types de lois de Halphen, est bien
illustré dans cette représentation graphique.

97
2.5

.a.-.-- 1) I Harm+que
2 Type A
CU’ 0)

F igure 6.4. Les lois de Halphen dansle diagramme(4, 62)

L’existence de statistiques exhaustives et complètes implique que les estimateurs du


maximum de vraisemblance des paramètres existent et sont uniques. De plus, en vertu du
théorème de Lehman-Sheffe (Bickel et Doksum, 1977) des estimateurs non-biaisés de
variante m inimale existent pour chaque paramètre et sont des fonctions des estimateurs du
maximum de vraisemblance. Il n’est donc pas nécessaire d’effectuer de nombreuses études
empiriques pour comparer différentes méthodes d’estimation, comme c’est le cas pour la
plupart des distributions à trois paramètres (Pearson Type 3, log-Pearson Type 3, gamma
généralisée, par exemple). Parmi les distributions à trois paramètres utilisées en hydrologie, les
lois de Halphen sont les seules à posséder cette intéressante propriété statistique.

6.5. Estimation des paramètres


Rappelons, pour une loi de probabilité à 3 paramètres appartenant à la classe des lois
exponentielles et ayant comme statistiques exhaustives (?<X>JJX)JU)), que si le
système d’équations E,[ r(X)] = q(x), i = 1, 2, 3, possède une solution pour le vecteur des
paramètres fl= (0, , 0, y&), a1ors cette solution est unique et correspond aux estimateurs du
maximum de vraisemblance de e (Bickel and Doksum, 1977). Pour déterminer les estimateurs
des paramètres des lois de Halphen de chacun des trois types, il suffit donc de calculer
l’espérancemathématique des trois statistiques exhaustives (Tab. 6.2) et de résoudre le système
d’équations. Or, ce système d’équations (3 équations à 3 inconnues) est non linéaire et doit
être résolu à l’aide de procédures itératives. De plus, cette résolution nécessite l’évaluation de
la fonction de Bessel (Type A), de la fonction exponentielle factorielle (Type B et Type B-l) et
de leurs dérivées, toutes difficiles à manipuler. Les problèmes pratiques rencontrés lors de la
résolution du système d’équation du maximum de vraisemblance des lois de Halphen est
probablement la principale raison pour laquelle peu d’attention a été portée à ces distributions
depuis près de quarante ans.

Une approche en deux étapes est considérée ici pour résoudre ce type de système
d’équations non linéaires et pour déterminer les estimateurs du maximum de vraisemblance des
paramètres des lois de Halphen. D’abord, les paramètres a et m sont estimés numériquement,
v étant fixé. Ensuite, la fonction de vraisemblance logarithmique partielle log L( v; &,fi) est
maximisée afin de déterminer l’estimation de v. L’estimation des paramètres de la loi de
Halphen Type A est présentée brièvement dans ce qui suit pour illustrer cette technique.

On peut montrer que le système d’équations obtenu pour la loi de Type A est donné par :

98
m-2K
(6.11)
K
mexp

Le paramètre de forme v étant fixé, ces équations peuvent être réarrangées pour obtenir le
système de 2 d’équations à 2 inconnues suivant :

KV+,@a) L @a> A
D, (a, v> = (6.12)
K;(2a) =i?

K, bd
m = A K,+,(2a) (6.13)

Si ce système possède une solution, les estimateurs du maximum de vraisemblance i%et


h, pour v fixé, peuvent être déterminés en résolvant l’équation (6.12) pour a et en substituant
ensuite & dans l’équation (6.13). Les propriétés de la fonction D,(a, v) jouent un rôle
important dans la détermination des estimateurs. D, (a, v) est une fonction à valeurs
positives, strictement décroissante avec a quel que soit v. On peut montrer aussi, en utilisant
le développement limité des fonctions de Bessel, que :

Max{D,(cx,v)}=li~D,(cx,v) = (6.14)

La figure 6.5 illustre le comportement de la fonction II,< a, v) pour différentes valeurs


des paramètres a et v. La fonction DA (a, v) est une mesure de dispersion puisqu’elle est le
rapport de deux moyennes et est appelée ici “fonction de dispersion” (Perreault et al., 1997).
Les lois gamma et gamma inverse (cas limites de la loi du Type A lorsque a + 0) possèdent
donc la plus grande dispersion parmi les lois de Type A puisque D,(a, v) atteint son
maximum lorsque a * 0.

0
t
0 05 1 2

Figure 6.5. Fonction DA (a, V)

L’équation (6.14) et l’examen de la figure 6.5 permettent de déduire que l’équation (6.12)
n’admet de solution que si 14 I 1 ou si AH -’ < 1d/( 1VI - 1) . En posant U = AH -‘/(AH -’ - 1))

99
on a U > 1 car H 2 A, et ainsi, en vertu des propriétés de D,( a, v) , les estimateurs du
maximum de vraisemblance des paramètres a et m sont les solutions du système d’équations
(6.12, 6.13) si et seulement si Iv] < U . La statistique U, appelée ici “borne d’estimation”,
détermine donc l’intervalle de valeurs du paramètre v pour lesquelles le système (6.12, 6.13) a
une solution. Lorsque que la condition Iv] < U n’est pas vérifiée, les estimateurs du
maximum de vraisemblance correspondent à ceux des lois gamma (v > 1) ou gamma inverse
(v < - l), l’un des cas limites de la loi de Halphen Type A (a + 0). Ainsi, 1VI > U , c’est-à-dire
14 > 1 et AH-’ +/#+- 1> , rm
’ pl’1q ue q ue la dispersion des observations est trop grande et
qu’alors les estimateurs de a et m convergent, selon le signe de v, vers les estimateurs du
maximum de vraisemblance de ces distributions limites (lois possédant la plus grande
dispersion).

Après avoir obtenu les estimations â et fi des paramètres m et a, pour v quelconque


fixe, on doit déterminer 6. Pour ce faire, la fonction de vraisemblance logarithmique
partiellement maximisée est utilisée. Cette fonction, notée log L( v; â,&z), est obtenue en
substituant les estimateurs â and r& dans la fonction de vraisemblance logarithmique. Pour la
loi A, on peut déduire des équations (6.3), (6.4) et (6.5) (Perreault et al., 1997) que :

v ln[v/A] - In T(v) + (v - 1) In G - v, si V2UKniG)

logL(v;â,W1) 0~ si ]VI < u (LOIA) (6.15)

I-vln[-vH]-lnT(-v)+(v-l)lnG+v, si V I - U (LoiGI)

La fonction log L( v; â,&) est strictement concave et n’admet qu’un seul maximum si les
observations ne sont pas toutes identiques. En pratique, après avoir développé un programme
informatique permettant d’estimer les paramètres CI et m pour différentes valeurs de v (étape
l), 5 peut être facilement déterminé numériquement (étape 2), par exemple à l’aide d’une
simple tabulation de log L( v; â, A) . Mentionnons, que les dérivées de log L( v; &,A) par
rapport à v évaluée en U et -U peuvent être calculées aisément et sont indépendantes des
paramètres. Ces dérivées sont très utiles en pratiques puisqu’elles peuvent être utilisées avant
l’étape 1 afin de savoir si 6 est à l’intérieur de l’intervalle [-U, u] et donc si les estimateurs du
maximum de vraisemblance sont les solutions du système d’équations (6.12, 6.13) ou
correspondent plutôt à ceux des lois gamma ( v 2 U ) ou gamma inverse ( v I - U ).

Remarquons que la troisième équation du système (Eq. 6.11) n’est pas incluse
explicitement dans l’approche utilisée pour estimer les paramètres (l’égalité des moyennes
géométriques théorique et empirique). Toutefois, celle-ci est considérée implicitement lors de
l’étape de maximisation de la fonction de vraisemblance partiellement maximisée. On évite
ainsi l’emploi d’une méthode numérique, souvent imprécise, pour déterminer la dérivée de la
fonction de Bessel par rapport à v (celle-ci ne possède pas d’expression explicite).

L’approche permettant d’estimer les paramètres des lois de Halphen Type B et B-l est
tout à fait similaire à celle de la loi de Type A. En effet, le même genre de système
d’équations, une fonction de dispersion, une borne d’estimation, la vraisemblance
partiellement maximisée ainsi que sa dérivée sont utilisés. Le tableau 6.3 donne, pour chaque
loi, les caractéristiques nécessaires à l’estimation des paramètres.

100
Tableau 6.3. Caractéristiquesnécessairesà l’estimation des paramètresdes lois de Halphen

Type* TypeB Type B-l


Système K”,,b) K”_,b) A C+,(a) @X4 Q * &+1(a)
dl(a)= H *
d’équations
( v fixé)
K32a) =H 0
eL2+l,2(a) = A &+,,2b) (z 1
K” (2a)
m=H
m = A K,+,(2a) ef”(a)
Fonction de D (a “) = K”+lP) Y-*@4 D (a “) _ @‘+da) &ta)
dispersion A 2 B y
W4 &L(a)
Limite “>O
&nnD,(a,u)= l+&, V>O lim DB4(a,u) = l+&,
0*-m

Borne u = AH-‘/(AH” - 1) V=1/[2(Q”A-‘-l)] W= 1/[2(IL)-'H' -l)]


s d’estim. -u<v<u O<"<V O<"<W
et condition
Vrais..
Partielle
(” à ...)

-uln[-&Zj -lnT(-O)+(U-l)lnG+u, VS-U

Dérivée
vrais. part. +l(“;) -Y(“)], oru 2n~{2u9-'I'o], "2V 24429Y(24 "2W

(= à . ..)
+(-;;) + Y(-“)], “5 -u

Note : Pour la notation de IQ, H, G, A et Q, se reporter au tableau 6.2. La fonction Y( u) est la dérivée de lnT( u) .
Les propriétés asymptotiques des estimateurs du maximum de vraisemblance des paramètres
des lois de la famille exponentielle sont bien connues (Bickel et Doksum, 1977). En
particulier, le vecteur des paramètres estimés (fi, â, P) est distribué asymptotiquement selon
une loi normale multidimensionnelle N(O,Iy ) où 1, est la matrice d’information de Fisher
dont les éléments sont les espérances mathématiques des dérivées secondes de la fonction de
vraisemblance logarithmique. La matrice 1, , pour la loi de Type A, est donnée par :

-n
m

1, = (6- 16)

Le calcul des variantes et covariances asymptotiques des paramètres nécessite non seulement
l’évaluation de la fonction de Bessel K,(2a) mais aussi de ses dérivées premières et secondes.

6.6. Application des lois de Halphen aux débits maxima a.nnÜels


Les paramètres des lois de Halphen ont été estimés pour un ensemble de 186 séries de débits
maxima annuels de rivières canadiennes de la région Québec-Ontario (75 au Québec et 111 en
Ontario). Les stations hydrométriques retenues pour cette étude ont un régime hydrologique
naturel et possèdent au moins 20 années d’enregistrements continus de débits maxima annuels.
La figure 6.6 donne la localisation géographique des stations sélectionnées qui sont surtout
situées dans les zones habitées et dans le sud de chaque province.

350 km

Figure 6.6. Localisation géographiquedes stations sélectionnées

102
Une première répartition des 186 ajustements des trois lois de Halphen a été effectuée.
Les résultats des ajustements ont été classés suivant la validité de la solution du système
d’équations du maximum de vraisemblance correspondant, c’est-à-dire à partir des bornes
d’estimation (V, V et W) et des conditions sur v (Tab. 6.3). Le tableau 6.4 donne le nombre
de séries dont les estimateurs du maximum de vraisemblance correspondent respectivement à la
solution du système d’équations propre aux lois de Halphen et à ceux des lois limites (gamma,
gamma inverse).

Tableau6.4. Validité de la solution des systèmesd’kquations


Loi ajustée
A B B-1
Résultat de la Solution du système 103 81 30
condition Gamma 63 105
Gamma inverse 20 156

Ainsi, pour la loi de Type A, le système d’équations (6.12, 6.13) admet directement une
solution pour 103 ajustements (plus de 55% des séries). Toutefois, pour 83 échantillons, les
estimateurs du maximum de vraisemblance correspondent plutôt à ceux des distributions
limites gamma (63) et gamma inverse (20). D’autre part, les estimateurs du maximum de
vraisemblance des lois Type B et Type B-l sont solution du système d’équations pour 43% et
16% des séries respectivement. Cette répartition des résultats montre particulièrement que les
lois de types A et B semblent plus adéquates pour modéliser les débits maxima annuels des
rivières canadiennes que la loi de Type B-1.

Une répartition plus fine des résultats a été faite afin d’illustrer davantage comment les
lois de Halphen, et leurs cas limites, se complètent harmonieusement. Pour chaque loi,
l’ensemble des échantillons pour lesquels les estimateurs sont directement solutions du système
d’équations correspondant (première ligne du tableau 6.4) a été reclassé suivant les résultats
obtenus en leur ajustant les deux autres lois. Les tableaux de fréquences 6.5, 6.6 et 6.7
présentent les résultats de cette répartition, respectivement pour les lois A, B et B-l.

Tableau6.5. Échantillons dont les estimateursdes paramètresde la loi Type A sont solutions
du systèmed’équations
TYPE B
Solution Gamma Total
TYPE B-l Solution 0 11 11
Gamma inv. 22 70 92
Total 22 91 103

Tableau6.6. Échantillons dont les estimateursdes paramètresde la loi Type B sont solutions
du systèmed’équations
TYPE A
Solution Gamma Gamma inv. Total
TYPE B-l Solution 0 0 0 0
Gamma inv. 22 59 0 81
Total 22 59 0 81

103

-
Tableau 6.7. Échantillons dont les estimateursdes paramètresde la loi Type B-l sont solutions
du systèmed’équations
TPE A
Solution Gamma Gamma inv. Total
TYPE B Solution 0 0 0 0
Gamma 11 0 19 30
Total 11 0 19 30

Ainsi, pour la majorité des 103 échantillons dont le système d’équations du Type A
admet une solution directe (Tab. 6.5) on observe que l’ajustement des lois B et B-l fournit
alors comme estimateurs ceux de leur loi limite respective (70 séries). De plus, pour les séries
admettant une solution à la fois au système du Type A et du Type B (22 échantillons), les
estimateurs correspondant issus de l’ajustement du Type B-1 sont ceux de la loi gamma inverse
(Tab. 6.5 et 6.6). De façon analogue, si une solution du système est obtenue en même temps
pour les lois A et B-1 (11 échantillons), alors les estimateurs du Type B de ces mêmes séries
correspondent à ceux de la loi gamma (Tab. 6.7). On remarque enfin, que pour aucun des 186
échantillons, les systèmes d’équations des types B et B-l permettent en même temps une
solution directe.

Ces quelques remarques concernant les résultats présentés dans ces tableaux de
fréquences sont conformes à la partition de l’espace (q,&) du diagramme des moments
présentés à la figure 6.4. Ces résultats montrent le rôle de frontière que jouent, entre les lois
de Halphen, les distributions limites gamma et gamma inverse. Finalement, un examen
sommaire des formes typiques de f.d.p. des lois de Halphen rencontrées lors de l’ajustement des
débits aux 186 stations a été effectué. La figure 6.7 présente, pour chaque type de loi, un
histogramme bi-dimensionne1 des estimations obtenus des paramètres de forme â! et Û ainsi
que les f.d.p. associées aux deux classes de I’histogramme contenant le plus grand effectif (la
f.d.p. dont .les paramètres correspondent au point milieu (â, û) de la classe).

6.7. Conclusion
Quelques aspects théoriques de la famille des lois de Halphen ont été présentés. Ces
distributions sont difftciles à manipuler en pratique puisqu’elles nécessitent l’utilisation de
méthodes numériques en particulier pour l’évaluation des fonctions de Bessel et des fonctions
exponentielles factorielles. Toutefois, leurs propriétés statistiques (exhaustivité) et la grande
variété de formes qu’elles admettent justifient l’étude de cette famille de distributions.

Pour aider les praticiens, nous développons un logiciel (AJUSTE-L, Perreault et al.,
1994) permettant, entre autres, l’ajustement des lois de Halphen à des séries observées. Ce
logiciel permet non seulement d’estimer les paramètres, mais aussi de déterminer les quantiles
xr ainsi que leur variante asymptotique. Il a été, en particulier, utilisé pour l’application aux
186 stations canadiennes présentées dans cette étude.

Remerciements
Les auteurs tiennent à remercier le professeur Jacques Bernier qui leur a fait connaître les lois
de Halphen et qui les a incités à en faire une étude plus approfondie. Les auteurs remercient

104
également Hydro-Québec et le Conseil de Recherche en Sciences Naturelles et Génie du
Canada (CRSNG) qui ont financé ce projet de recherche.

TYPEA
f(x) a= 1.5 -----em
v=3.0

X
1 2 3 4 5 6

TYPEB

a=-2.0

1 2 3 4 5 6

I’YPE B-’
f(x)
a=3.0 -__--_
1.2 u= 4.5
1 ;\ a= -1.0
0.8 I ’\ OE1.5 ----
,
0.6 ’ ‘,
0.4 : ‘\
0.2 ; ‘,
I .
X
0 1 2 3 4 5 6 7

Figure 6.7. Distribution des valeurs â et fi obtenueslors des ajustementsetJd.p. typiques

105
Bibliographie

ABRAMOWIZ, M and IA. STEGUN (1972) Hundbook oj’hlathematical Functions. Dover, Inc.,
New York.
BARNDORFF-NEILSEN,0.; P. BLAESILD and C. HALGREEN (1977) ‘First hitting time models for
the generalised inverse gaussian distribution’. Stochastic Processes and their
Applications, Vol. 7, p.49-54.
BOBÉE, B.; P.F. RASMUSSEN, L. PERREAULT and F. ASHKAR (1994) ‘Risk analysis of
hydrologie data : Review and new developments concerning the Halphen distributions’.
NATO, AS1 series. L. Duckstein and E. Parent editors, Vol. 275, p. 177-190.
BICKEL, P.J. and K.A. DOKSUM (1977) Muthematicul Statistics. Holden-Day, Inc., California.
GOOD I.J. (1953) ‘The population frequencies of species and the estimation of population
parameters’. Biometrika, Vol. 40, p.237-260.
HALPHEN, E. (1941) ‘Sur un nouveau type de courbe de fréquence’. Compte rendus de
l’Académie des Sciences, Vol. 213, p.633-635.
HALPHEN, E. (1955) ‘Les fonctions factorielles’ Publication de l’Institut de Statistique de
l’Université de Paris, Vol. 4, p.21-39.
JORGENSEN B. (1982) Statistical properties of the generalized inverse gaussian distribution.
Lecture Notes in Statistics, no 9.
KENDALL, .S.M. and A. STUART (1977) The Advanced Theory of Statistics Vol. 1. Haphner
Pub. CO., New York.
MORLAT G. (1956) ‘Lois de probabilité de Halphen’. Revue de la Statistique Appliquée, Vol.
4, p. 21-43.
PERREAULT, L.; B. BOBÉE et P. LEGENDRE (1994) ‘Rapport Général du Logiciel AJUSTE-II :
Théorie et Application’. Rapport de Recherche R-42 1, INRS-Eau.
PERREAULT L., B. BOBÉE et P.F. RASMUSSEN (1997) ‘Les lois de Halphen’. Rapport de
Recherche R-498, INRS-Eau.
ROCHE, M. ( 1963) Hydrologie de Surface.
SESHADRI, V. (1993) The Inverse Gaussian Distribution. Clarendon Press, Oxford.
WATSON, G.N. (1966) A treatise on the theory of Bessel functions. Cambridge University
Press.

106

--
7. Dealing with uncertainty in simple scaling
modeling of flood processes

Joseph Ribeiro, Salvator Birikundavyi and Jean Rousselle


École Polytechnique of Montreal, Dept. of Civil Engineering
P.O. BOX 6079, STATION DOWNTOWN, MONTREAL,
QUEBEC, CANADA H3C 3A7

Abstract

Simple scaling theory explains the spatial variability of peak flows processes by their indexation on a
set of scale parameters, such as the size of drainage bassins. A drawback of the simple scaling
approach is that it assumes that the coefficients of variation (CV) of peak flows distributions are
identical. Although empirical data might display statistical properties which correspond to simple
scaling assumptions, the CV of flood peaks depends on drainage area. We discuss here the use of
empirical Bayes method to take into account this regional variation of the CV and enhance results of
simple scaling modeling. This is illustrated using a set of 109 flood series from the Province of
Ontario, Canada.

Résumé

Le modèle simple de similitude d’échelle pour la régionalisation des crues est basé sur l’hypothèse
d’une relation linéaire entre le logarithme des moments satistiques des débits et le logarithme de la
superficie des bassins versants. La pente de cette relation linéaire est elle-même proportionnelle à
l’ordre du moment statistique considéré. Implicitement, ce modèle fait ainsi l’hypothèse que le
coefficient de variation des débits maximums annuels est constant à l’échelle régionale. Toutefois, bien
que des séries de débits observés puissent montrer des propriétés statistiques qui correspondent à la
relation linéaire mentionnée ci-dessus, le coefficient de variation est toujours dépendant de la superficie
de drainage du bassin versant. Ainsi le modèle simple de similitude d’échelle n’effectue pas la
régionalisation du coefficient de variation des séries de débits maximums annuels. L’approche
Bayésienne empirique est proposée ici pour effectuer la régionalisation du coefficient de variation, suite
à l’application du modèle simple de similitude d’échelle. La pertinence d’une telle approche est illustrée
à l’aide d’un ensemble de 109 séries de débits maximums annuels provenant de la Province Ontario,
au Canada.

7.1 Introduction
Representation of spatial variability of flood processes in river basins is a key and difficult
issue in regional flood frequency analysis. An early attempt in this direction was made by
Dah-ymple (1960), who introduced the index flood method (IFM) for regional quantile

107
ftmction estimation. Specifically, the IFM assumption is that within a “homogeneous” flood
region, the peak flows processes are subjected only to scale magnification or scale reduction
across the differently sized drainage basins. The scale factor considered is the sample mean
of observed flood discharges.

The IFM premise and its various interpretations have been substantially discussed in
the literature. Dawdy (1961) showed that the assumed scaling invariance of quantile functions
with respect to rescaling by the sample mean was not supported by data in some regions of
the United States. This led the U.S. Geological Survey to opt for the quantile regression
method (Benson, 1962). More recently, Stedinger (1983) demonstrated the possible distortion
of the dimensionless flood frequency curve that results from an index flood analysis based
on small to moderate sample sizes. An important feature of the index flood approach is that
it basically assumes the constancy of the coefficient of variation (CV) of peak flows across
a region. This inherent assumption has been used as a criterion for defining hydrological
homogeneity . However, empirical observations show that the CV of annual maximum flows
varies with drainage area, though the variation trend might not be very strong (Gupta et al.,
1994; Smith 1992; Stedinger, 1983). Hence this homogeneity criterion is certainly
insufficient in that it is tantamount to restricting analysis on moderate ranges of drainage
areas. But despite these drawbacks, the IFM is at least equally popular to the quantile
regression method.

One way of refining an index flood analysis is to further analyze the candidate
components of the dimensionless flood frequency curve. In other words, one may consider
the variability of the CV across a region as a structured phenomenon, which has to be
modeled. Regionalization of the CV cari be performed consistently through the multiscaling
theory of flood peaks, which is a generalization of the simple scaling approach to spatial peak
flows analysis (Gupta and Waymire, 1990; Gupta et al., 1994). Our aim here is to discuss
and exemplify another approach for achieving the same objective, namely the empirical
Bayes methodology. The framework adopted here may be conceived in the general context
of mode1 uncertainty analysis as introduced by Bernier (1991). Bernier approach consists in
explaining the deviations from a reference mode1 through the use of extra-parameters related
to a larger class of models. Our reference here is some mode1 of annual maximum flows
fitted under simple scaling and log-normal distribution assumptions. We consider the larger
class of empirical Bayes models for log-normally distributed flood peaks.

In what follows, we give some background on scaling invariance analysis of peak


flows (section 2) and on empirical Bayes methodology applied to log-normal distribution
(section 3). Data sets from the Province of Ontario, Canada, are used to illustrate some
practical aspects of these approaches. We subsequently discuss the usemlness of using the
empirical Bayes methodology as a supplement to simple scaling modeling (section 4), before
concluding with some remarks.

7.2 Scaling invariance of flood peaks


Scale properties of flood peaks were analyzed and discussed by Gupta and Waymire (1990).
Using empirical tests they showed that flood peaks from mountainous regions (specifically,
the Appalachian, in eastem U.S.) display properties that depart from simple scaling
assumption. This led to the development of a multiscaling theory of flood peaks, which was
presented in a comprehensive way by Gupta et al. (1994). Some aspects of simple scaling

108
analysis are presented in this section. They are based on the framework introduced by Gupta
and his co-workers.

Consider the family of stochastic processes (Q(X)) indexed on a parameter set X.


They are said to be simple scaling if the following equality holds :

(7.1)

where X > 0 is a scale parameter, and 13is a scaling exponent; the equality is in the sense of
probability distribution. In the context of regional flood processes studies, the indexing
parameter X characterizes the statistical spatial structure of peak flows. According to Gupta
et al. (1994), X could be taken as representing the charme1 network. Equivalently , owing to
the fact that charme1 networks are more or less proportional to drainage areas, X might be
taken simply as the drainage area A. Parametrization of peak flows by the drainage areas may
seem insufficient but is justified by the important preponderance of basin size in explaining
variante of flood peaks discharges. T~US, over a range of basin sizes with generic drainage
area A, the simple scaling assumption is expressed as

(7.2)

where {Q(I)] represents the process of peak flows generated by an hypothetical basin with
unit drainage area. This relation is obtained from equation (7.1) by letting X = 1 and Xx =
A. equation (7.2) shows how the index flood assumption is closely related to simple scaling.
In fact, if one considers that the mean of peak flows is a deterministic function p=A’ of
drainage area, and that the process {Q(I)] corresponds to the dimensionless flood frequency
curve, the index flood assumption is equivalent to simple scaling. In this sense, simple
scaling generalizes the index flood approach.

The equality in distribution given by equation (7.2) is refered to as strict sense simple
scaling. If the assumption is weakened by restriction to equality in moments of distributions,
the simple scaling is said to hold in the wide sense, meaningly

E[Q;;h)1h = EIQ(l)lh (7.3)

where h is order of moments. Using log-transforms, wide sense simple scaling cari also be
expressed as
log(E[Q(A) 1)h = ehlog(A)+log(EIQ(l)])h (7.4)

The information contained in equation (7.4) is twofold. First, wide sense simple
scaling assumes a log-log linearity between statistical moments of flood peaks and basin
drainage area. Second, the slope of the linear relationship is proportional to the order of the
statistical moment considered. If the slope linearity with respect to the order of the statistical
moments is not required, the process is multiscaling (Gupta and Waymire, 1990; Smith,
1992).

109
Simple scaling properties are more suceptible to hold in regions in which flood
processes are generated mostly by snowmelt. Indeed in such cases, the preponderance of
basin scale is evident, since it is proportional to the amount of snow caver. In mountainous
regions, the rainfall rate varies significantly with elevation and the drainage area is no longer
sufficient for proper indexation of peak flows. We illustrate here some simple scaling
properties using sets of recorded annual maximum daily flows corresponding to 109 drainage
bassins in the Province of Ontario, Canada. The drainage areas of the bassins in the data set
vary from 13.9 to 50 000 square kilometers. Record length at the various sites vary from 20
to 76 years. Annual floods in Ontario are mostly generated by snowmelt.

Figure (7.1) displays the log-log plots of the first three moments of sample armual
maximum flows versus drainage area. The adequacy with simple scaling in this case is
striking. Indeed the slopes for the first three moments are respectively 0.6441, 1.2737 and
1.8904 which are quite exactly proportional to the corresponding moment orders. Although
these empirical results are limited only to the fust three moments, they clearly indicate that
a simple scaling approach could be adopted for flood peaks modeling in Ontario. Specifically
it means here that the standardized random variable defined as qii= Qo/Aio.641, where the
index j denotes a particular drainage basin and the index i some year, is identically
distributed across the different sites. The total information available regarding the variable
qii amounts to 3382 observations, which is the total number of observations for a11the 109
data sets used. In figure (7.2) a fitted log-normal cumulative distribution function is
compared to the empirical cumulative distribution function computed using Blom (1958)
plotting position formula. This plot shows that a log-normal mode1 could be used for the
variables qii.

Scale reduction of peak flows by a power of the drainage area does not affect the CV
of original flows. Hence the simple scaling mode1 described above assumes a constant CV
across the various drainage basins. However this is not corroborated by empirical
observations. Figure (7.3) displays the plot of CV of the annual maximum flows versus the
logarithm of drainage area. There is a slight decreasing trend which indicates that CV varies
inversely with drainage area. The slope corresponds to a correlation coefficient of -0.3 184
between the CV and the logarithm of the drainage area. Similar observations conceming
variability of the CV with drainage area were made, for instance, by Smith (1992) for large
basins (approximately larger than 26 km’). Smith also found that for smaller basins (i.e. with
drainage area inferior to 26 km2) the spatial variability of flood processes tends to increase
with basin scale, i.e. the CV increases with drainage area.

This double pattem of variation of the CV with drainage area was explained in the
context of multiscaling theory of flood peaks by Gupta et al. (1994). Our purpose here is to
exploit the regional variation of the CV (illustrated on figure (7.3)) in order to enhance the
results given by simple scaling modeling. Empirical Bayes approach to flood processes
modeling is used to achieve this goal.

110
10”

I
10”
% - pcIl&,t 2
B
2
10’

102

+
10° -
10’ 102 10” 10’ 105
Drainage area (square kilometers)

Figure 7.1 : Plot of the statistical momentsof jlood peaks (dischargesare in cubic metersper second) versus
drainage area, for the iO9 basinsfrom the Province of Ontario, Canada

0.9 -

0.8 -

0.7 -
2,
.;z
00.6 -

0.2 -

//heoretical
I I
0 0.5 1
Logarithm of standardizad flood peaks

Figure 7.2 : Fitted normal cumuiative distribution and empiricai cumulative distribution of standardizedand
logatithmically transfonnedflood peahx

111
0.8 - I 1 I

0.7 +

+
+

5 0.6 + +t+ +

v +

‘>S + +
+

EO.5
.fj

+
BO.4

+ +++
0.3 +
+ +
+

+
+++ +
+

0.2 . -1
I
9
L
.
1
d
10’ lO- 10’ 10’ 105
Drainage area (square kilometen)

Figure 7.3 : Variation of the coefficient of variation of jlood peaks with drainage area

7.3 Empirical Bayes approach


Bayesian methodology is characterized by the fact that the uncertainty of our knowledge
conceming the parameters of the distribution of some random variable is summarized through
a probability distribution. This distribution is designated as an a priori or prier distribution.
Parameters of this prior distribution are specified subjectively, on reliance to expert
knowledge. After realizations of the random variable under study become available, the a
priori distribution is updated in order to be more precise. This is made through the Bayes
theorem and results in an a posteriori distribution of the goveming parameters. Empirical
Bayes approach is based on this same procedure, but it offers a way of specifying the prior
distribution parameters more objectively. As a matter of fact, the prior or super-population
parameters are estimated using empirical observations. The family of prior distribution has
eventually to be specified in the case of parametric empirical Bayes, but only some moments
of the superpopulation need to be estimated in the case of linear empirical Bayes approach.
Empirical Bayes approach to flood modeling was first proposed by Kuczera (1982). The
general theory of empirical Bayes analysis was introduced by Robbins (1964).

The log-normal simple scaling mode1 presented in the previous section is equivalent
to assuming that the standardized flood peaks in the log-space are identically and normally
distributed at a11the sites to the region. Specifically, the distributional assumption is :

112

Y- --.-
(7.5)

where i=l ,..., ni, j=I ,..., k, and


p. = log(6) -o.510g(1+cv2)

2
00 = log (l+CV2) (7.6)

In equations (7.6), 6 is a regional constant and CV is the regional coefficient of


variation of flood peaks in real space. 6 is equal to the first moment of the dimensionless
flood frequency curve. A possible generalization of the mode1 described in equation (7.5)
and equations (7.6) is to consider that the parameters 6 and CV are site-specific. In other
words, we assume that the distribution of the standardized variables qii, j=1,. . . , k, belong
to the same family of distribution but are not identical. The spatial variation of the CV could
be modeled by considering a situation of known mean (i.e. the sample mean is assimilated
to the population mean). This was done by Kuczera (1982) who considered the linear
empirical Bayes regionalization of the log-space variante. We consider here the joint
estimation of the mean and variante of the population in the log-space.

Let the logarithm of flood peaks be normally distributed with unknown mean A4 and
unkown precision a2 (or equivalently of unknown variante $). The natural joint conjugate
prior of the mean and variante in this situation is then as follows (DeGroot, 1970) : the
conditional distribution of the mean A4 given the precision a2 is normal with mean p and
precision ra2 where r is some positive constant; and the marginal distribution of the
precision is gamma with shape parameter (Y and scale parameter fi. Using this prior, the
moments of the superpopulation cari be computed as a function of the four parameters CL,7,
a and 0. Using the method of moments, and denoting by X and Sz the sample mean and
sample variante respectively, the prior distribution parameters estimators cari be obtained
as follows :
,iij = E(%IA,) (7.7)

e., = ‘(S’IAj) (7.8)


1 Var(X(Aj)

[E(S2/Aj)12
aj = 2+ (7.9)
Var(S21Aj)

Bj = (âij-1) E(S21Aj) (7.10)

In equations (7.7)-(7.10) the moments of the sample mean and sample variante are
computed using a regression analysis on drainage area. For a newly observed sample
equations (7.7)-(7.10) summarize the available regional (prior) information. If the sample has

113
n observations, with sample mean x and sample variante 9, the posterior distribution of the
population mean M and precision ü2 cari be computed by combining the prior distibution and
likelihood function of x and s2 using Bayes theorem. The posterior distribution is of the same
family as the prior distribution, since a conjugate family of prior distributions was selected.
It could be found in DeGroot (1970; p. 169). Under quadratic loss the empirical Bayes
estirnators of the mean M and precision a2 correspond to the mean of their posterior
distribution. The following results are obtained for the mean A4 and the variante d! :
-
Ê(M(X,s2) = g (7.11)

Ê(fPlZ, s2) = (n-l)s2+2~+n~(x-~)2/(n+7) (7.12)


n+2&-2

where b, 7, â! and B are obtained using equations (7.7)-(7.10). Note that when the sample
size n becomes large, the at-site information is predominant and the expressions at the right
hand side of equations (7.11) and (7.12) tend respectiveiy to sample values !ï and s2.

7.4 Fitting comparison


In this section, we compare the simple scaling (SS) log-normal mode1 presented in section
7.2, to the simple scaling-empirical Bayes (SSEB) log-normal mode1 presented in section 7.3.
Our pur-pose is to see how the use of the empirical Bayes methodology enhances the
performance of the SS model. This comparison Will be based on the lOO-year flood
discharges computed using each of the two models and corresponding to the 109 drainage
basins of our data set. The regionally estimated lOO-year quantiles are compared to the lOO-
year flood discharges computed by at-site fitting of a log-Pearson type 3 mode1 by the direct
method of moments (Mathier et al., 1993). For the purpose of this study, these at-site
estimated quantiles are considered like the “truc” quantiles. It is reasonable to do SObecause
the log-Pearson 3 mode1 is a quite flexible distribution.

For the SS model, a11the 3382 standardized and logarithmically transformed flood
peaks, available from the 109 data sets, are pooled together. The regional mean computed
is 0.0073 and the regional standard deviation is 0.2942. For the SSEB model, the parameters
of the super-population of the standardized and log-transformed flood peaks are obtained as :
gj = -0.0103 (7.13)

(7.14)
7, = -o.0546*log(Aj) +1.067

Bj = 2+(-0.171*log(Aj)+3.341)2

(7.16)
Bj = (Sj-1) (-0.002861*10g(Aj)+0.0559)

114
Figure (7.4) shows the plot of the lOO-year flood discharges computed using either the SS
or SSEB model, against the lOO-year flood discharges obtained from at-site fitting of a log-
Pearson 3 model. Both the SS and the SSEB mode1 generally overestimate the lOO-year flood
computed at-site. However the “bias” in the case of the SSEB mode1 is clearly inferior to the
“bias” of the SS model. Also, the variante of the quantile estimates by the SSEB mode1 is
much less than the variante of estimates based on SS, for a11the range of drainage areas used
in this study. Thus figure (7.4) shows that the regional variation of the CV, illustrated in
figure (7.3), cari be adequately exploited using empirical Bayes method, in order to enhance
the performance of simple scaling analyses of flood peaks.

7.5 Conclusion
Simple scaling modeling of flood peaks is very attractive due to its simplicity and ease of
use. However, even when data display statistical properties that are in concordance with
simple scaling assumptions, quantile estimates cari be made more accurate by proper
modeling of the regional variation of the CV of flood peaks. This cari be consistently done
using the multiscaling theory of spatial variability of peak flows processes. But as shown in
this study, based on 109 flood peak data sets from the Province of Ontario, Canada,
empirical Bayes analysis represents a valuable alternative to achieve the same pur-pose.

10’

a
1 l-

+ simple scaling
o simple scaling and empirical Bayes
I I L
-lo” 10’ 10’ ld 10’
At-site estimate of Q 100 with log-Pearson 3 mode1

Figure 7.4 : Simple scaling and simple scaling - empirical Bayes regional estimates of lOO-yearflood discharges
versus at-site estimates (in cubic meters per second)

115
Bibliography

BENSON, M. A.( 1962) Factors influencing the occurrence of floods in a humid region of
diverse terrain. U.S. Geol. Surv., Water Supply Pap., 1580B, 62 pages.
BERNIER, J. (1991) ‘Bayesian analysis of robustness of models in water and environmental
sciences’, In Water Resources Engineering Risk Assessment - NATO Series G,
Springer Verlag .
BLOM, G. (1958) Statistical estimates and transfotmed beta variables. Wiley, New York.
DALRYMPLE, T. (1960) Flood frequency analyses. U. S. Geological Survey , Water supply
paper 1543-A, 80 pages.
DAWDY, D. R. (1961) Variation offlood ratios with size of drainage area. U.S. Geological
Survey, Prof. Paper, 424-C, paper C36.
DeGROOT, M. H. (1970) Optimal statistical decisions. McGraw Hill, 489 pages.
GUPTA, V.K. and E. WAYMIRE (1990) ‘Multiscaling properties of spatial rainfall and
river flow distributions’. Journal of Geophysical research, Vol. 95, no D3, p.
1999-2009.
GUPTA, V. K.; 0. J. MESA and D. R. DAWDY (1994) ‘Multiscaling theory of flood
peaks: Regional quantile analysis’ . Water Resources Research, Vol. 30, no 12, p.
3405-3421.
KUCZERA, G. (1982) ‘Combining site-specific and regional information: an empirical Bayes
approach’. Water Resources Research, Vol. 2, no 18, p. 306-314.
MATHIER, L. ; R. ROY; B. BOBÉE; H. PERRON and V. FORTIN (1993) Estimation
régionale des crues : description des banques de données hydrométriques,
météorologiques et physiographiques pour le Québec et 1‘Ontario. Rapport interne
1123, INRS-Eau, Ste-Foy, Québec, 79 pages.
ROBBINS, H. (1964) ‘The empirical Bayes approach to statistical decision problems’ . Annais
of Mathematical Statistics, Vol. 35, p. l-20.
SMITH, J. A. (1992) ‘Representation of basin scale in flood peak distributions’. Water
Resources Research, Vol. 28, no 11, p. 2993-2999.
STEDINGER, J. R. (1983) ‘Estimating a regional flood frequency distribution’. Water
Resources Research, Vol. 19, no 2, p. 503-510.

116
PARTIE III PART III

MÉTHODES D’HYDROLOGIE
STOCHASTIQUE
STOCHASTIC HYDROLOGY
METHODS

117
PARTIE III PART III
MÉTHODES D’HYDROLOGIE
STOCHASTIQUE
STOCHASTIC HYDROLOGY
METHODS
8. SUR LA PRISE EN COMPTE DES CRUES HISTORIQUES / DEALING
WITH HISTORICAL FLOODS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121-146
C. Thirriot

9. COMPARAISON DES MODES D’ÉCHANTILLONNAGES PAR


SÉLECTION DU MAXIMUM ANNUEL ET DES VALEURS SUPÉRIEURES
À UN SEUIL / COMPARISON OF SOME SAMPLING TECHNIQUES BY
PEAK OVER THRESHOLD AND MAXIMUM ANNUAL VALUE
SELECTION . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147-180
M. Lang

10 DIFFERENCES ET COMPLÉMENTARITÉS DE TROIS METHODES


D’ESTIMATION DES RISQUES DE CRUES : RENOUVELLEMENT,
GRADEX, AGREGEE / DIFFERENCES AND COMPLEMENTARITIES OF
SOME FLOOD RISK ESTIMATION TECHNIQUES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181-200
J. Miquel

11. UTILISATION DE L’ANALYSE STATISTIQUE


MULTIDIMENSIONNELLE
DANS LE CALCUL DES CARACTÉRISTIQUES HYDROLOGIQUES
CONJUGUÉES ET DANS LES PRÉVISIONS HYDROLOGIQUES /
MULTIDIMENSIONAL STATISTICAL ANALYSIS FOR ASSESSING
CONJUGATE CHARACTERISTICS IN HYDROLOGICAL FORECASTING . . . . . . . . .201-214
V. Stanescu

119
8. Sur la prise en compte des crues
historiques

C. Thirriot
Institut National Polytechnique de Toulouse
Institut de Mécanique des Fluides - Laboratoire 005
associé au CNRS - ENSEEIHT
2, rue C. Camichel31071 TOULOUSE Cédex
Abstract
The appreciation of hydrologie risks (for instance by the return times) is often scrupulous
and uncertain becausethe shortnessof the statistical seriesprovided by observationsqualified as
scientific. This appreciation is basedupon the extrapolation of the distribution function towards
the extreme zone of rare events.TO improve the information in this zone, one tries more and more
to incorporate historical data which cari extend on severalcenturies.First an integration processof
the historical events into the distribution function of the scientific serie is proposed. Then the
improvement of the dischargedistribution function in the Upperextreme zone is discussedabout
the examples of floods for Rhone and Garonne rivers. One tries also to incorporate boolean
variables such mention of old catastrophic events remenberedwithout indication about level or
discharge.Thesefloods are designedas memorable.

Résumé
L’appréciation des risques hydrologiquespar exemplepar la période de retour est souvent
délicate et incertaine vu la brièveté des séries statistiques liées aux observations qualifiées de
scientifiques. Cette appréciationest fondée sur l’extrapolation de la fonction de répartition dans la
zone extrême des événementsrares. Pour améliorer l’information dans cette zone, on cherche de
plus en plus à incorporer les informations historiques qui peuvent s’étendresur plusieurs siècles.
Après avoir proposéune méthodologied’intégrationdes événementshistoriquesdans la fonction de
répartition des observationsscientifiques,on fait la critique concrètede l’amélioration potentielle
de la fonction de répartition dans la zone extrêmeà partir de l’exemple des crues du Rhône et de la
Garonne. On essaieaussi d’intégrer les variables booléennesque sont les mentions d’événements
catastrophiquesde crues sansindications précisesde niveau (et bien sûr de débit), crues désignées
comme mémorables.

121
8.1 Introduction
L’hydrologue n’a jamais vraiment oublié son passé puisque les lits des rivières sont
les rides du temps hydrologique. Mais, tout de même, l’observation et la mesure des
phénomènes naturels sont un fait assez récent à l’échelle de temps géologique. Et la
versatilité climatique a très vite fait sentir à l’observateur la nécessité patiente de la durée
bien au-delà d’une génération humaine. Cette solidarité dans l’observation scientifique de
la nature au-delà des décennies et même du siècle devient peu à peu une préoccupation
commune. Avec la crainte de changement de climat d’origine anthropique, l’organisation
mondiale de la Météorologie, l’UNESCO et le Conseil International des Sociétés
Scientifiques (ICSU) ont stimulé la quête aux archives hydrologiques.
Un document récent produit par l’UNESCO (C. Dherent et G. Petit-Renaud, 1994)
tente de faire le point sur les ressources des archives européennes concernant l’histoire du
climat. Dans l’évaluation des risques dus aux crues, les événements extrêmes sont
déterminants, Or, très souvent, les séries de bonnes mesures de débits sont courtes et la
fonction de répartition des débits maximaux annuels est incertaine dans la zone des
grandes valeurs. Pour pallier l’insuffisance d’information dans la zone supérieure de la
fonction de répartition, on peut certes faire confiance à une extrapolation suivant une
formule analytique qui a donné satisfaction dans le cas de longues séries. Par exemple,
Américains et Canadiens préconisent la fonction Log Pearson III, les Français seraient
enclins à faire confiance à la fonction de Gumbel ou à celle de Fréchet. Bien sûr, il ne faut
pas dédaigner l’idée de similitude hydrologique sous-jacente au choix d’une fonnule mais
quand il s’agit de statistiques avant de parler de probabilités, il vaut mieux donner le crédit
aux chiffres. Pour les grands fleuves, il y a souvent dans les archives mention des
événements catastrophiques exceptionnels et rares, répertoriés sur plusieurs siècles. Bien
sûr, il est difficile de leur attacher une valeur précise du débit maximal qui a pu couler
mais on peut cependant en avoir une idée à partir des niveaux mentionnés. Certes, le débit
a changé au cours des siècles avec l’urbanisation et la morphologie du fleuve mais
l’imprécision sera du même ordre de grandeur que dans l’extrapolation d’une courbe de
tarage qui s’arrête aux crues moyennes.
Dans ce qui suit, nous allons examiner comment procéder pour intégrer les crues
historiques dans une série dite scientifiaue d’observations suivies, supposée de bonne
précision. Nous distinguerons les crues historiaues auxquelles on a pu attribuer une
estimation de débit ou au moins du niveau maximal d’avec les grandes catastrophes dites
mémorables dont on ne connaît que la date d’occurrence. L’essentiel de notre propos
portera sur la présentation d’exemples concrets concernant deux grands fleuves français,
la Garonne et le Rhône.
Nous n’insisterons pas sur la bibliographie. Cependant nous voudrions mentionner
la méthode très élaborée proposée par J. Bemier et J. Miquel (1979) fondée sur la théorie
de renouvellement et une hypothèse de fonction de répartition exponentielle traitées
habilement par le maximum de vraisemblance. Peut-être faudrait il aussi mentionner les
travaux de Hirsch et Stedinger (1987). Dans leur article, R. Hirsch et J. Stedinger (1987)
citent une abondante liste bibliographique remontant jusqu’en 1950 (M.A. Benson) qui
prouve qui l’utilisation des crues historiques n’est pas une préoccupation nouvelle. Les
auteurs Hirsch et Stedinger, eux font une étude critique séduisante, théorique mais
concrète, de la probabilité de dépassement d’une crue extrême de rang donné dans
l’échantillon donné des crues historiques associées à une série quasi continue récente.
L’approche menée de manière bayésienne conduit à l’estimation de l’espérance
mathématique et de la variante de la fréquence cumulée empirique. En gros, d’après les
résultats, on peut dire que la fréquence empirique bayésienne évolue entre la formule de
Weibull et la fonnule de Hazen.
Sans méconnaître le haut intérêt culturel d’un tel travail, nous nous en tiendrons
dans ce qui suit à une approche toute simple expérimentale.

122
8.2 L’insertion des crues historiques dans une série scientifique
La série scientifique est généralement récente. Nous désignerons sa durée en années
par D. Les crues historiques remontent jusqu’à une certaine date d qui par rapport à
aujourd’hui représente une durée D ‘. Sur la durée D ‘-II, on a répertorié N’ crues
historiques qui sont généralement supposées avoir conduit à un débit maximal supérieur à
QS. Souvent QS est tellement grand qu’on ne trouve pas dans la série scientifique de crues
de cette force. Mais il peut y avoir cependant, surtout si la série scientifique est longue,
une ou plusieurs crues “scientifiques” supérieures à QS, soit Ns leur nombre.
Du point de vue statistique, la situation se présente donc comme suit . La durée
totale minimale à considérer est D’ (on verra plus tard comment allonger cette durée).Sur
cette durée totale D’, on distingue un échantillon de crues scientifiques de débit maximal
inférieur à QS et de durée D - Ns. Sur cette durée totale, on a repéré N’+ Ns = NI crues
de débit maximal supérieur à QS. Sur cette base, on va proposer une première
construction de la fonction de répartition qu’on critiquera ensuite avant d’envisager
variantes et amélioration.
On va supposer que les N’ + Ns crues à Qmax > Q, sont représentatives de la
partie supérieure de la fonction de répartition correspondant à une fraction
1 - Fo = FI = (N’ + Ns)/D' et chacune aura par hypothèse d’équiprobabilité, une
probabilité de I/D' = AF 1. Les (D - Ns) crues “scientifiques” constituent un sous-
échantillon de crues annuelles. Posons : NO = D - Ns. On fait l’hypothèse d’homogénéité
sur toute la durée D’. Alors ce sous-échantillon est représentatif du sous-ensemble des
crues de débit inférieur à QS et qui couvre un nombre d’années égal à Do = D' - (N' +
Ns).
On peut donc considérer le débit Qi de chacune de ces crues scientifiques comme le
barycentre des crues avoisinantes de Qi sur une durée égale à ~DO = DolNo, ce qui
correspondra à une fréquence empirique élémentaire :

Bien entendu, c’est une lapalissade d’écrire :

No AFo+ NIAFI = 1 (8-2)

ou encore, en ne considérant que des périodes élémentaires d’un an

DoAFo+NIAFI=l

La fonction de répartition va donc être formée de deux parties :


- de 0 à Fo = DO / D' correspondant aux débits scientifiques inférieurs à QS
portés au milieu des pas successifs AFo,
- de Fo à I correspondant aux débits supérieurs à Qs (scientifiques et
historiques) portés au milieu des pas successifs AF’1.
Le rapport des intervalles AF0 /AFI peut être assez grand.

Exemple : D' = 500 ans D =25 ans N’= 10


Ns=O,No=D, Do=D'-N'
AF0 = (Dr-N')lAD' DF1 = IID'

AFo/AFl =y+ 19,6 w-4)

123
Dans tout ce qui précède, nous avons implicitement utilisé la formule de Hazen
généralisée pour calculer la fréquence empirique cumulée, c’est-à-dire qu’on a supposé
l’équiprobabilité des événements dans chaque sous-ensemble, le sous-ensemble Q < Qs et
le sous-ensemble Q > QS, et que les valeurs observées étaient l’espérance mathématique
sur la fréquence empirique élémentaire (AF0 OUAF]) avec alors l’hypothèse d’une loi de
probabilité uniforme sur cet intervalle (AF0 ou AF’l). En résumé, nous retiendrons :

PO~Q<QS
dF = D’-(N, + N’) 1
0 (8-5)
D’ ‘D-N,

pourQ 2 QS
AFI =+ G3-6)

8.3 Critique du choix de D’


Dans la première approche, nous avons pris D’ fixé par la date de la plus ancienne
crue “historique” signalée. Cette acception est évidemment la borne mineure empirique de
D’. La borne majeure serait celle afférente à la date de l’événement de crue monstrueux
(Q > QS) immédiatement antérieur dans le calendrier. Mais cet événement n’est pas
signalé. On peut essayer d’un compromis en augmentant D’ de la demi-période de retour
des crues à Q > QS.. Cette période de retour est donnée approximativement par :

D’
T, = (g-7)
N’+N, - 1

Par itération après avoir corrigé D’, on peut corriger Ts :

T;=D’(l+ ’ ) ’ W3)
2(N’+N, -1) N’+N,

Mais pour être cohérente la critique doit porter aussi sur l’intervalle (inconnu) entre
la dernière crue scientifique de débit supérieur à QS constatée et la prochaine.
Evidemment, on est en plein aléa. Ou bien le dernier événement à Q > QS est tout récent et
alors il est bon de prendre sa date et de lui rajouter un demi-intervalle Ts/2 pour obtenir
une durée D” convenable pour la palette des crues à débit supérieur à QS. Ou bien cette
crue ne s’est pas produite il y a plus de Ts années en arrière. Et alors, il n’y a rien à
ajouter. Bien sûr, si on est grisé par le jeu, on peut chercher la distribution des intervalles
entre crues de débit supérieur à QS. Mais nous ne pensons pas que la considération de
l’espérance mathématique de cet intervalle soit de première nécessité. Il y a tant d’autres
arbitraires et tant d’autres aléas. Il nous semble préférable de faire une discussion critique
de bon sens au cas par cas.

8.4 Fonction de répartition partielle des débits de crue maximaux annuels


Dans le fond, pour l’évaluation des risques, point n’est besoin d’une fonction de
répartition bien ajustée sur toute la distribution empirique, Ce qui importe, c’est une

121
bonne adéquation dans la zone des très forts débits. Alors on peut se contenter de lisser
les débits supérieurs à QS. Cela présente aussi l’avantage de la rapidité de l’opération
(encore qu’avec tous les logiciels qui existent et qui font l’ajustement avec tests en prime,
l’argument de la rapidité perd de sa séduction). Par contre, une précision meilleure de
l’ajustement dans la zone fort débit n’est pas à dédaigner. On lisse donc de Fo à 1, la
distribution Q (F) des débits équirépartis avec l’intervalle AFl. On peut même donner un
poids plus important aux débits “scientifiques” si on prend une méthode qui s’y prête
(méthodes des moments ou des moindres carrés). Mais on se rend bien compte qu’on
introduit ainsi de la subjectivité de manière pas forcément cohérente, car une erreur
supposée sur un débit historique peut entraîner un enjambement dans la distribution
empirique et donc la perturber de fond en comble.
Que choisir comme type de fonction de répartition ? Entiché par la formule de
Gumbel, on peut la considérer sous une forme plus générale (qui ferait aussi penser à la
formule de Weibull) :

(8-9)
avec comme il est habituel :
Q* paramètre de position
S paramètre d’échelle
k paramètre de forme

On sait que pour un argument très grand, la fonction de Gumbel devient :


Q-Q*
F-=1-e s (8-10)

Ici la forme asymptotique est :

-(G!+z) k
F-=1-e (8- 11)

L’anamorphose simple s’impose :

Log(l-F_)=-(“sL>*) k (8- 12)


et
Log(-Log(1 -FM)) = k[Log(Q -Q *) - LogS]
(8-13)
=kLog(Q-Q*)-a

Si on se fixe Q*, par lissage à vue, on détermine k et a.. Avec une série d’essais à
valeurs Q* différents, on peut tracer le graphe e cQ*,, e étant l’erreur quadratique sur Q
(F).. Et pour finir Q* peut être choisi pour que le raccordement avec le sous-ensemble
inférieur soit convenable.
Bien des variantes sont possibles mais l’idée forte reste de construire un ajustement
partiel concernant les valeurs extrêmes qui soit le plus proche possible des observations
supposées. Bien entendu, ce faisant, on n’évitera pas les cas difficiles comme celui où
deux valeurs Qi sont quasi confondues. Dans ce cas, nous proposons de placer la valeur
commune à la fréquence cumulée moyenne, ce qui revient à prendre localement un AF
double. Cela ne change pas grand chose au résultat final mais c’est tout de même plus
cohérent et plus satisfaisant pour l’esprit.

12s
8.5 Insertion des crues mémorables
Nous avons décidé d’appeler ainsi les crues qui sont restées dans la mémoire
seulement par leur date (mais peut-être trouverait-on quelques indices qualitatifs qui
permettraient de subodorer un ordre de grandeur du débit).
Que faire de cette information pauvre ? Pour la valoriser, il va falloir y aller de
quelques hypothèses. Par exemple, on va supposer que toutes ces crues ont un débit
maximal supérieur à QS. Alors les indications de dates permettent d’améliorer l’évaluation
de la période de retour afférente à QS.
Peut-on faire plus ? On peut recalculer AF0 et AF1 à partir des nouvelles valeurs de
D’ et de N’ que nous désignerons par D” et N”. Voyons dans quelles circonstances les
valeurs de AF0 sont les mêmes pour le premier agrégat crues scientifiques et crues
historiques et pour le second agrégat regroupant crues scientifiques, historiques et
mémorables.
D’-(N, + N’) D”-(NS + N”)
AF, = AF; si D’ = (8-14)
D”
soit :
N,+N’ N,+N”
D’ = D” (8-15)

Mais évidemment, comme il y a du flou sur D’ et D”, il ne peut s’agir que d’égalité
floue :
N” -N’
--D” 1 =- D”-D’ (8-16)
N,+N’ = D’ D’

Ceci définit une valeur critique N”c.


Si N” > N”c la nouvelle valeur de AF0 est plus petite.
Si N” < N”c la nouvelle valeur de AF0 est plus grande.
Dans le premier cas, le sous-échantillon des grosses crues prend plus d’importance
par rapport aux crues à Q < QS.. Comment insérer les crues mémorables dans la fonction
de répartition ? Comme on ne connaît pas la valeur des débits, un échappatoire est la
construction de scénarios.
Scénario 1

Les crues mémorables sont toutes plus fortes que les crues historiques. Au-delà de
la fréquence cumulée D ‘lD “, il n’y a plus de valeurs de débit indiquées, mais la
conséquence de ce scénario est d’élever la valeur du débit à forte période de retour.

Scénario 2

Hypothèse opposée à la précédente, mais peu vraisemblable, les crues mémorables


ont des débits juste inférieurs à la première valeur du débit des crues historiques
immédiatement supérieure à QS. Il y a donc un saut dans la fonction de répartition pour
QS. Mais rien n’est changé pour le débit QS. Pour les fortes périodes de retour, le débit
est amoindri.
Scénario 3

On mélange crues historiques et crues mémorables. Il y a un aspect bayésien dans


cette façon de faire subjective. Les combinaisons possibles sont très nombreuses (les
deux premiers scénarios sont d’ailleurs des réalisations de ces combinaisons). On peut
évidemment prendre concrètement quelques combinaisons. Mais il est intellectuellement
plus satisfaisant de prendre pour chaque débit historique l’espérance mathématique de la

126
fréquence cumulée correspondant à l’ensemble des combinaisons. C’est immédiat pour
les points extrêmes du sous-ensemble historique. Pour le point inférieur de la série
historique ou assimilée, c’est :

F(l) = F. + & (NI’ -N’ +l)

avec :
F. =l-N”t-NS (8-18)
D”
Pour le dernier point, c’est :

F(N’)
-
_ l _ N"-NI-1
(8- 19)
20”
Pour les points intermédiaires, on peut penser que le nombre de combinaisons sera
symétrique par rapport à la situation médiane qui peut alors être considérée comme
espérance mathématique.
Ainsi, la crue historique de rang k aurait comme espérance :

Fck)=Fo +s(N”-Nf)+I
20”
Cette formule fournit bien la valeur finale déjà exprimée F(N’).
Avec ce scénario 3, finalement, on a la même distribution relative des points du
sous-ensemble à Q > QS. La seule chose qui change, c’est l’intervalle 1 - Fo attribué à ce
sous-ensemble et qui va dépendre du couple D”-D’, N”-N’, c’est-à-dire de l’allongement
d’intervalle d’observation D”-D’ et de l’augmentation supposée N”-N’ du nombre de
crues de débits supérieurs à QS.. Pour N”c rien ne change. Rappelons que N”c est défini
par:

N’C -N’ Ns + N’
D”-D’ = D’ (8-21)

Bien entendu pour l’appréciation de D” nous rencontrons les mêmes scrupules que
pour l’évaluation de D’. On ne fait qu’y ajouter de la subjectivité.

8.6 Traitement académique des crues du Rhône à Beaucaire


Le premier exemple que nous examinerons sera celui des débits maximaux annuels
du Rhône à Beaucaire. On aurait pu, bien entendu, choisir une autre hypothèse pour
constituer la population. Par exemple, prendre tous les débits de crues considérés comme
indépendantes et supérieurs à une certaine valeur, mettons 4000 m3/s.
Les données dont je dispose n’épuisent certainement pas la richesse des
observations sur les colères du Rhône à Beaucaire. Elles sont dues pour l’essentiel à la
courtoisie du Service d’Hydrologie de la Compagnie Nationale du Rhône et elles
consistent en la liste des débits maximaux annuels de 1920 à 1994 (Tab. 8.1) et en un
graphe établi par la CNR pour la période 1845 1990 (Fig. 8.1) mais je ne dispose pas des
données numériques pour la période 1845- 19 19.

127
Tableau 8.1. Débit instantané maximal annuel du Rhône d Beaucaire de 1920 à 1993. Source
Compagnie Nationale du Rhône

Date QmYS Date Qm3/S


01/01/1920 4790 )1/03/1956 5470
01/05/1921 2120 11/03/1957 5980
14/04/1922 5640 22/12/1958 7920
02/12/1923 7000 12/12/1959 6400
06/10/1924 7600. 38/10/1960 7960
16/02/1925 6400 13/12/1961 4440
01/12/1926 7400 37/03/1962 4320
14/03/1927 5640 37/11/1963 7100
29/10/1928 7260 27/03/1964 5810
01/12/1929 3330 39/12/1965 4600
28/06/1930 6000 22/02/1966 4910
12/03/193 1 6000 13/03/1967 4300
09/05/1932 6000 25/02/1968 4760
21/1 y1931 7140 24/02/1969 4995
01/05/1934 4600 11/01/1970 5510
14/11/1935 9600 22/03/197 1 4470
03/01/193f 7820 19/02/1972 4880
24/03/1935 6520 25/12/1973 4790
01/12/193E 4650 29/11/1974 3840
01/11/193c 5300 16/09/1975 3930
18/11/194C 5980 1 1/11/1976 8690
11/06/1941 6250 24/10/1977 8125
01/11/194; 5470 27/02/1978 7800
01/10/194: 5550 28/10/1979 6680
29/11/194L 6880 07/02/198C 4520
0 1/02/194: 5260 19/12/1981 6110
01/09/194t 4600 09/11/1982 8025
08/03/194-t 5580 17/05/1981 6747
29/0 1/1941 6780 02/12/1984 5534
Ol/l y1945 5320 12/05/1985 4661
21/11/195( 5580 09/04/1986 6897
22/11/195: 9170 30/10/198, 6542
01/11/195: 4890 12/10/1981; 6877
01/10/195: 6060 27/04/198< 5230
11/12/195~ 7180 17/02/199( 5302
22/01/195t 7240 10/03/1991 5122
23/11/199; 5476

128
Fig 8.1. Graphe du débit de crue maximal annuel en fonction aè la période de retour suivant anamorphe
de la formule & GUMBEL pour la période de 1845 à 1990

Par contre, grâce à l’amabilité de la SHP, j’ai pu consulter le magnifique ouvrage de


Maurice Pardé “Le régime du Rhône” dont j’ai extrait le tableau des crues historiques
allant de 1801 à 1919 (Fig. 8.2).
Dans ce qui suit, je ne me poserai pas de question en ce qui conce
me l’homogénéité
des différentes séries de données mentionnées ci-dessus. Je vais simplement me livrer à
l’exercice pédagogique du mélange dune série courte scientifique et
czrues historiques.
d’
un ensemble de
La série dite scientifique sera la liste des débits maximaux annuels considérés sur
l’année calendaire et non l’année hydrologique sur 25 ans de 1970 à 1994 dernière année
disponible.
La série historique sera constituée de tous les débits annuels maximaux supérieurs à
8000 m3/s recueillis aussi bien dans le tableau de M. PARDE que dans la liste CNR allant
de 1920 à 1992, plus les débits de crues récentes d’octobre 1993 et de janvier 1994. Le
recensement donne ainsi 18 crues annuelles supérieures à 8000 m3/s (Tab. 8.2).

129
Maurice PARDE

3 Norrm. Il3C 1.3~ 6.0


II Ocr IBP 6.17 .I

9 oct. 183 6.00 .

3 No<. 1841 687 5

er oct 1841 ,%? O ,,

o.yo -1 -

~NO+. 104: l .,9


l .l 0 -l
,,

19 oct. 184( 6 4s ”

31 Mai 1t35t 79s ,I


6.70 -1 II

FB Oct. 1861 6.P 5


et oct. l8;rP 6.87 6.93
4 O;c 107e a.57 6.63
P9 Oct. 168E 6.60 6.P5
e7ocr. 1886 7.48 7.03
lt Ho< 18136 7. SS 7. I 0
1--cJrnr. 1889 6.81 6.4 I
73 S<pr 1'39C 6.04 5.89
23Ocr 1891 6.34 6.?&
e NO< 1096 7.00 7. l 0
3o&pt 1900 7.00 7 13
,r Ocr 1907 6. 68 6.83
18 oct 1907 6. 20 6.85
10 No<. r 907 6.83 6.98
e Dit 1910 6.63 6. 73
a Dec r910 7.02 7 IP
13 O;r 1910 6.36 6.46
4 h’or 1914 634 6.14
PI Ma 1917 6 56 6. 36
31 Ma’ 1917 6 OS 5.0s
-6.80 - 6 60 8000 1 a;.;‘..l.

Fig. 8.2. Reproduction du tableau présenté dans l’ouvrage de Maurice PARDE “le Régime du Rhône”
(1925) indiquant les crues de hauteur supérieure à 6 m à Beaucaire de 1801 à 1919

Tab. 8.2. Crues de débit maximal supérieur à 8000 m3lS à Beaucaire de 1801 à 1995

AM& Qd/S
1919 8000
1982 8025
1977 8125
1972 8430
1907 8440
1886 8470
1841 8500
1976 8690
1896 8760
1910 ; 8800
1900 8880
1843 9000
1951 9170
1935 9600
1993 9600
1994 11000
1956 12500
1840 13000
Le point de départ de la comparaison critique sera la fonction de répartition
construite pour la série dite scientifique des 25 crues annuelles de 1970 à 1994. Le graphe
obtenu Fig. 8.3 suivant l’anamorphose de Gumbel, est exceptionnellement seyant : sa
linéarité est quasi parfaite sur toute la plage, débits moyens et débits énormes. Ce fait du
hasard quasi miraculeux démobiliserait l’intérêt d’aller plus loin si l’on n’avait déjà
rencontré dans l’hydrologie statistique de tels trompe-l’oeil faussement sympathiques.
Cependant, je dois dire qu’un essai avec une série plus longue, 28 ans, de 1967 à 1994,
maintient cette excellente extrapolation linéaire dans la zone des très forts débits parce que
les valeurs ajoutées vont se mêler sans trop bousculer le lot dans la zone fortement tassée
des débits moyens.
Abordons maintenant l’intégration des valeurs “historiques”. On en recense treize
sur la période antérieure 1801-1969 et cinq sur la courte période 1970- 1994, dont les
deux crues catastrophiques de la dernière année hydrologique connue, à quatre mois
d’intervalle d’octobre 1993 à janvier 1994. Cela donne à penser sur l’homogénéité
hydrologique sur les deux siècles. Nous y reviendrons plus tard, mais là n’est pas notre
propos maintenant.

Crue du RHOME
0 BEAUCAIRE

llooa -
12mo -
Il.000 -
IO.ooo -
9.ceQ .
8Lx-=J-
7000 -
6.0~ _

Fig. 8.3. Graphe de la fonction de répartition du débit maximal annuel du Rhône d Beaucaire de
1970 à 1994 avec anamorphose de la fréquence suivant la formule de Gumbel

D’après nos définitions conventionnelles, nous obtenons les valeurs numériques


suivantes :
D = 25 ans D’= 194 ans N’= 13 Ns =5 NI = 18
DO =D’ - (N’ + Ns) = 176 ans NO = 20 ALIo = DolNo = 8,8 ans
AF0 = ADolD’ = 0,0454 AF1 = I/D’ = 0,00515
La fréquence empirique cumulée des débits annuels inférieurs à 8000 m3/s est
Fo = 1 - NI/D’ = 0,907. La Fig. 8.4 représente la fonction de répartition mixte obtenue
par association hybride de la série scientifique choisie et de la série historique. On serait
presque déçu d’avoir perdu la belle linéarité du graphe de la Fig. 8.3.

131

~-
i 7.

Fig 8.4, Graphe de la fonction de répartition & débit maximal annuel du Rtine à Beauaire de 1801 à
1994 par incorporation des valeurs historiques avec anamorphose & la fréquence suivant la formule de
Gumbel et échelle linéaire pour le débit

Au vu du nouveau graphe, on serait tenté de faire resurgir le mythe de double


population caractérisée par facilité par une loi bilinéaire, tentation assez fréquente des
hydrologues décontenancéspar les horsains extrêmes.
Crues du RUONE
0 6 E AUCAIRE
Q +/a
14.000.

L.-. ..1_. .,,._ i .


1 10 50 ao 94 35 39 33 9?5 999

Fig 85. Graphe de la fonction de répartition du débit maximal annuel du Rhône à Beaucaire de 1801 à
1994 par incorporation des valeurs historiques avec anamorphoses dkne part de la fréquence suivanl la
formule de Gwnbel et d’autre part du débit considéré par son logarithme

En fait, le choix d’autres anamorphosesmontre que l’on peut jouer assez aisément
sur J’allure graphique de la fonction de répartition. Nous avons choisi d’essayer le
changement de variable Qm. Si m + 0, on a l’anamorphose logarithmique (Fig. 8.5).
Avec m = 1/2, on obtient un graphe raisonnablement rectifié globalement (Fig. 8.6).
Quelques tâtonnements supplémentaires n’amélioreraient pas les choses de manière
sensible.

132
cr-uQS du RHOME
à BE AUCAIRE

Sértc
htdorrqu cz
teo/- (994
Q p 8000 -‘/a

Looo
1 .k <, [ , , , , , , c
, 40 00 m SO 98 99 s.3 Y+.7599.9 F -L

Fig. 8.6. Graphe de la fonction de répartition du débit maximal annuel du Rhône a Beaucaire de
1801 a 1994 par incorporation des valeurs historiques avec anamorphose dune part de la fréquence suivant
la formule du Gumbel et d’autre part du débit considérépar sa racine carrée

Après la comparaison visuelle des fonctions de répartition afférentes respectivement


à la courte série (25 ans) et à l’intégration des crues historiques sur 194 ans, quel critère
plus quantitatif pourrait être proposé ? Comme l’objectif est de mieux cerner la probabilité
des crues fortes extrêmes, nous avons choisi d’examiner les diverses estimations de la
crue de durée de retour 10.000 ans. Lorsque le graphe n’était pas résolument linéaire
globalement, nous avons aussi utilisé un lissage plutôt marqué par les fortes valeurs (cas
b).
Dans chaque cas, nous avons procédé à l’estimation des paramètres de position
(Qo, ou fi ou Log Qo) et gradex (S = AlQ, S’ = Al(m, S” = Al(Log Q).
L’indice 1 qui affecte A signifie qu’il s’agit d’un écart d’une unité sur la grandeur réduite
u du graphe de Gumbel.

Le tableau 8.3 rassemble les résultats y compris les formules de lissage.

Tab. 8.3. Synthèse des différents essais de lissage de la fonction de répartition du débit maximal
annuel du Rhône a Beaucaire de 1801 a 1994 avec distinction du lissage global sur toute la plage de débit
et lissage local privilégiant les débits extrêmes supérieurs

Anamor Lissage Formule Gralex Paramètrede Débit à


phose Qm global ou local m3/s position 10 000 ans
global 1 150 5 100 15 700
m=l Q-4600
1440 4 600 17 900
local F = ,-e- 1 440
global - - <Q-72 5 180 19 640
m= 1/2 1CZal (55)
F = e-e- 7,4

global F _ ~-(Q/5100)6’03 ? 5 100 23 300

local _ 3 5 550 22 100


F=e
série 1970- 1994 Q-5400
“scientifique” m = 1 F = .-e- 1 450 1420 5 400 18 500

133
Quelles conclusions induire dans cette approche plutôt subjective sur l’intérêt de
l’insertion des crues historiques ?
Le critère assez quantitatif sera l’estimation du débit de période de retour 10.000
ans. On sait bien que même avec une série de deux siècles, les hydrologues n’aiment pas
pronostiquer au-delà de 500 ans mais le débit décamillénaire est tout de même la référence
pour les évacuateurs des grands barrages. Ce débit Qlu.~ est évidemment sensible à la
plage de lissage global sur toute l’étendue des fréquences empiriques ou local associé plus
fortement aux crues historiques.
Pour lire cette influence du choix de pondération, la figure 8.7 rassemble les
quelques valeurs de Qlu.~ afférentes aux différentes valeurs de l’exposant m qui signent
la forme des fonctions de répartition. Un résultat est bien clair, l’étalement des estimations
de Qlu.ouu est nettement moindre dans le cas du lissage local. La réduction de dispersion
est de l’ordre de 40%. Par contre le paramètre de position qui varie peu d’une forme à
l’autre (autour de 5.100 m3/s) pour le lissage global, décroît nettement lorsque m
augmente dans le cas du lissage local “historique”.

Q ~0.000

0 'A 1 m
Fig. 8.7. Présentation graphique des estimation par extrapolation du débit décam’llénaire (d période
de retour de 10 000 ans) suivant les anamorphoses et les points de vue global ou local

Finalement, il faut bien remarquer que le lissage de la courte série “scientifique” de


base conduit à un gradex proche de celui du lissage local à m = 1, à un paramètre de
position proche de l’anamorphose logarithmique “locale” et à une estimation de Qlu.~
pas trop éloignée du lissage unique afférent à m = 1/2. De quoi alimenter le scepticisme si
fréquent en hydrologie statistique. Mais tout cela tient peut-être au fait que la période
1970-1994 est riche en crues ‘historiques”, puisqu’elle en compte 5.
Pourrait-on en conclure que le régime du Rhône en colère n’est pas stationnaire ?
Pour essayer de se faire une opinion, examinons la distribution sur les deux siècles des
crues de débit supérieur à 8000 m3/s. La fréquence empirique sur toute la période 1801-
1994 est :

FI = 1 - Fo = 0,093. Résultat classique, l’écart type associé à cette fréquence est :

OF, = d--FoFl =0,29 (8-22)

Découpons les deux siècles en tranches approximativement de même longueur


(24 ou 25 ans).

134

--
Tab. 8.4. Fréquences empiriques des débits de crues maxhaux annuels exceptionnels supérieurs d
8000 JIS pour difSérentes périodes successives de longueur 24 ou 25 ans

Période 1801- 1825- 1850- 1874- 1898- 1922- 1946- 1970-


1824 1849 1873 1897 1921 1945 1969 1994
Fréquence
empirique 0 0,08 0,04 0,08 0,17 0,04 0,04 0,20
0 > 8000m3/s

L’écart-type de la distribution de l’estimation de FI étant oF, /fi avec N = 24


ou 25, l’intervalle de confiance à 95% (dans l’hypothèse simplificatrice de distribution
gaussienne) est GI E (0 - 0,211. Au seuil de 95%, on ne peut donc rejeter aucune des
réalisations. C’est le libre jeu de l’aléa climatique. Bien sûr, pour une critique plus
sérieuse de la stationnarité du climat, il faudrait considérer toutes les crues indépendantes
et pas seulement une crue par année et utiliser la loi exacte de distribution de Bernoulli et
ne pas s’en tenir à l’écart-type avec distribution gaussienne.
Si on prend des périodes élémentaires plus larges de 48 ou 49 ans, l’écart-type
devient aFI / 7 = 0,041 et toutes les fréquences empiriques rentrent dans l’intervalle à
68% de confiance.

Tab. 8.5. Fréquencesempiriquesdes débits de cruesmaximaux annuelsexceptionnelssupérieursà


8000 m3/s pour différentespériodessuccessivesde longueur48 ou 49 ans

Période 1801-1849 1850-1897 1898-1946 1946-1994


Fréquence
.. 0,062 0,083 0,104 0,125

Sur le critère examiné, il n’y a donc pas lieu de remettre en cause la stationnarité
climatique.

8.7 Les crues de la Garonne à Toulouse


Les données utilisées proviennent :
- du Service Hydrologique Centralisateur (Service d’annonce des crues)
qui a fourni la liste des crues provoquant une montée au dessus de 2 m à
l’échelle du Pont Neuf (Tab. 8.6), liste homogénéisée sur la période,
- de la monographie de la Garonne établie surtout par G. Lalanne-
Berdouticq et R. Lambert, document où figurent en particulier, page 57, les
crues que nous avons appelées mémorables (Tab. 8.7).

8.7.1 Problème du choix de séries cohérentes

La question est posée par le fait qu’on ne dispose que de listes de crues remaniées
dans des conditions qui peu à peu deviennent plus difficiles à décoder compte tenu de la
multiplication des interventions de compilateurs.
La série du SHC par exemple : elle part de 1770. Il est question de crues
supérieures à 2 m au Pont Neuf mais les observations ont été faites successivement à
plusieurs échelles. Les niveaux maximaux annuels ne semblent d’abord avoir été mis en
archives qu’à partir de 1940 par lecture à l’échelle du Bazacle. La mesure systématique
semble avoir été déclenchée par la catastrophe de 1875 mais G. Lalanne-Berdouticq
propose un ajustement statistique des crues annuelles sur la période 1827-1986 en
précisant que pour obtenir une chronique continue, il a reconstitué de façon aléatoire les
crues de niveau inférieur à 2,00 m au Pont Neuf.

135
Tab 8.6. Chronique aès hauteurs mau’males annuelles de la Garonne à Toulouse de 1770 à 1992 - Source
Service d;drnnonce des Crues de la Direction Régionale de l’environnement

--

mte

04.1110
08.09.1772
HA”W”C
b-0
-----
6.00
6.65
J OMX
mJ/sr

4.700
5.150
Date

06.06.1881
30.04.1884
Harteor

3.50
2.55
IN

2.3M
1.300
05.1827 5.90 4.700 11.06.1885 3.21 1.970
02.1833 2.00 7M 06.03.1886 3.30 2.300
05.1e35 6.35 5.200 11.01.1887 3.12 2.570
01.1843 3.00 1.750 1888 < 2.00 c=J)
06.1855 6.10 4.900 12.06.1889 3.70 2.550
16.06.1856 4.92 3.700 12.05.1890 3.30 2.070
03.1958 3.2s (1) l.OM 22.01.1891 2.40 l.l.00
02.1859 3.92 (1) 1.85-Q 06.12.1892 2.82 1.570
12.1860 3.74 (1) 1.650 1893 < 2.00 (9(O)
06.1861 3.62 (11 1.470 16.03.1894 3.10 1.800
09.1862 1.90 (1) 1.820 12.06.1895 3.12 1.820
09.1866 2.30 1.120 1896 < 2.00 (93x
08.1872 4.00 2.m 20.10.1897 3.70 2.550
02.01.1873 3.20 (21 1.970 16.06.1898 3.00 1.6%
1014 < 2.00 810 03.01.1899 3.00 1.6SO
23.06.1875 3.32 7.000 05.06.1900 4.00 2.900
22.04.1816 1.74 (21 2.600 01.0a.1901 2.18 1.020
1877 < 2.00 BS0 24.05.1902 2.40 1.200
26.01.1878 2.32 (11 1.120 13.06.1903 2.40 1.260
17.02.1879 4.01 3.660 12.06.1904 2.79 1.600
08.03.1880 2.65 1.430 07.05.1905 4.24 3.cm
1881 < 2.00 870 17.12.1906 3.48 2.3M)
25.12.1882 2.48

--- 1.257 22.10.1907


21.12.1908
2.38
2.95
1.380
2.08)

l-
___----- _----

i
mt-2
H.¶“cC”C
IN s, Il Date II
xautauc
0-4

27.04.1909 2.67 1.680 26.04.1925 2.80 1.853


24.05.1910 3.63 2.900 04.05.1926 2.20 l.W
18.05.19ll 3.73 3.000 l.l.os.1927 2.48 1.483
22.11.1912 2.20 l.w 27.11.1928 3.00 2.120
18.05.1913 2.4a 1.500 14.11.1929 2.26 1.230
26.05.1914 2.85 1.900 13.03.1930 3.42 2.650
17.11.1915 2.90 1.950 29.11.1931 3.95 3.320
29.07.1916 2.20 1.150 13.07.1932 3.19 2.5M
20.12.1917 2.80 l.l3M 09.02.1933 2.00 960
08.Q5.1918 2.65 1.650 1934 < 2.00 (820)

!-
06.02.1919 3.50 2.1543 02.03.1935 3.00 2.L2c
02.01.1920 2.16 1.780 31.01.1936 2.96 2.100
27.05.1921 2.26 1.230 23.06.1936 3.22 2.400

Il
30.05.1922 2.41 1.400 1938 < 2.00 (8<5)
1 07.04.1923 2.60 1.600 09.04.1939 2.97 2.110
I 01.01.1924 2.38 1.380
-Ll---..-.-

T
R¶JG¶U
l FLyL¶x
ml
i I
-4 -
-
05.05.l3a 3.75 5.3 14.m.l96l

4.3
x.02.w 2.25 3.83 l.w
Lo.Ol.L942 2.iû 4.m u.u.l%s
L2.02.lW 2.x 4.c-l 07.12.1966
lB.O4.1% 1.3l 4.x lY67
9.01.19<5 2.47 3.9s l9.05.ws3
1%6 < 2.al w.ll.l%9
L9<7 < 2.M 30.01.1970
14.05.l.we 2.68 20.02.L971
La.Lo.1%9 2.lO n.oi.L92
n.04.193l 2.07 25.02.19n
U.OS.lYtl 2.35 05.04.l374
01.01.1952 4.n *.ch.l975
15% < 2.63 ll.05.1976
L5.*.19n 2.?c ‘.CS 9.05.l.977
2J.Ql.1555 1.ü ‘.ai 01.02.l378
14.05.1956 3.u) l.l.a.L979
14.06.1957 2.50 lo.u.wm

I
l5.01.19%3 2.55 4.2 L6.al.lP81
lB.M.l959 3.n 4.m 22.01.1982
4.lo.1960 2.cu 1.55 wa3
M.02.1961 2.27 3.m M.lrl.WM
Ol.M.l94i 3.3 4.75 ca.Ol.1985
-!. - (3. R.¶X
:, . <set,

136
Tab 8.6. (suite) Chronique des hauteurs maa’males annuelles de la Garonne à Toulouse de 1770 à 1992 -
Source Service d’Annonce des Crues de la Direction Régionale de l’Environnement

,. OCbit
rang par Cote hauteur Dtblt ds rptclflque
Ann60 ds Phtnomtne
ordre au droit du 6 I’6challa points de polnta
la cru0 gtnbrrtsur
d’lmportrncs Pont Neuf de TOUNIS (ml/r) (I/s/km~)

1~1112 3
12rnlRl 5
ll.G¶1772 4
lS.M.1811 2
3lM193 6
.061855 7
2Q?6l8?5 1 183 m min (d L
2m1%2 7uaaIuo , l@mmti3pn

Tab. 8.7 Liste des crues mémorables d’après R. Lambert et reporté par G. Lalanne-Berdouticq (1989).
Monagraphie a’escrues & la Garonne CACG.

-LESCRUES
DANSLESARCHIVES
ETLESM-ÉMO~RES
I 28 I : “P~U;~S de 72 heures”. Inondations carawophiques
14 30 : “Ruine de Ih6pital Saint-Jacques ”
1525 : “30 joun de pluie _ Pont Vieux emporté”
1537 : “Ruine du Moulin de Baracle”
1589 : “Plus grande inondation de mémore d’homme”
1709 : “Rupture de la chaussée du Ekacle”
17 12 : “Lou gran aigat de San Bamabb” ; “l’eau montant
jusqu’au toit du Bazacle.. . ”
1727 : “lwndation catastrophique : 939 tnaisons détruites”
1770 : “700 tisons d&ruites”
1772 : “EfTondrement de I’Hospicc Saint-Jacques : on ne voit
que le toit des maisons. SO mocts”
1827 : “L’eau passe au travers des trois lunettes du Pont de
Pierre”
1835 : “Nombreuses vict;mes et effondrement de 48 mai-
sons”
1855 : “DeMon du Pont Saint-Pierre”
1875 : “De sinistre mtmoi~. n’y revenons pas !”
19 30 : les d&gdts concernent surtout la moyenne vaWe de la
Garowie
l9S2 : Gue importante. similaire à celle de 1875 mais de
moindre ampleur
1982 : La c6te dalerte est dbpasske de pr+s de 2 mkres. Le
dkbti instantant atteint 2033 mjir
1993 : Au entemps. le d&ii instantan.? a atteint 2750 ml/s.
d Porte:-Sur-Garonne
En fait, à comparer de plus près les documents page A30, A31 et A32 de la
monographie des crues de la Garonne, on peut penser que les tirages au hasard ont bel et
bien introduit des crues de niveau supérieur à 2 m au Pont Neuf. Et séparé de son
contexte, le tableau de l’échantillon élargi de 1827 à 1986 de la page A32 risque de
devenir une référence pour des velléités d’études statistiques ultérieures.
Quand on aborde une longue série de données de crue, on n’en finirait pas de se
poser des questions sur la position des échelles, sur les conditions d’écoulement, sur les
effets des travaux effectués dans le fleuve ou sur ses abords immédiats. Le doute surgit à
tout moment, même sur des observations relativement récentes. Alors que dire des
mentions de catastrophes d’il y a quelques siècles ?
Qui a compulsé, comparé, critiqué des données diverses pour un même fleuve ne
pourra jamais plus mettre un troisième chiffre significatif dans l’affichage d’un débit. Des
données paraissent consolidées parce qu’elles sont citées par plusieurs auteurs. Mais
ceux-ci, le plus souvent, n’ont fait que reprendre les indications contenues dans les
travaux de leurs prédécesseurs. Une série homogénéisée est confortable parce qu’elle
évite la perplexité et l’effort de mise en ordre, mais elle est peut-être une bifurcation quasi
définitive d’avec la réalité.
Comment procéder alors de manière prudente ? Nous commencerons par reprendre
la série provenant d’observations récentes, certes, homogénéisée, mais sans risque de
distorsion sur la période 1940-1994. Puis en deuxième étape, nous y adjoindrons les
grandes crues antérieures réellement observées. En choisissant le seuil de 4 m équivalent
au Pont Neuf, nous pensons que peu de crues auront été oubliées dans la série SHC
remontant à 1770, ce qui fait une durée de 225 ans jusqu’à la crue de l’an dernier 1994.
Puis, docilement, nous essaierons d’utiliser la même période que la CACG, c’est-à-dire la
période 1827-1986 prolongée jusqu’en 1994 mais sans reconstituer les données
manquantes, en appliquant notre concept de crues historiques. Ce faisant, on perd les
deux grandes crues de 1770 et 1772 figurant dans la plus longue série. Sur cette série
1827-1994, nous examinons l’effet du seuil de coupure pris tantôt à 4,00 m tantôt à 3,50
m. Et là, intervient la subjectivité bayésienne, nous faisons un pari : quelle chance (ou
malchance) y a-t-il d’ignorer des crues qui n’auraient pas été archivées et d’autant plus
nombreuses qu’elles ont été moins dangereuses à seuil de coupure bas, et quelle perte
d’information sur la fonction de répartition provoque le relèvement du seuil de niveau de
coupure ?.
Nous n’avons pas la prétention d’arriver à une objectivité indéniable. Nous
essaierons seulement de vivre une expérience statistique le plus lucidement possible.

8.7.2 Lecture critique de la chronique séculaire

Sur la figure 8.8, nous avons rapporté ce qui correspondrait d’après le tableau SHC
(Tab. 8.6) à des années à niveaux maximaux inférieurs à 2 mètres au Pont Neuf. Une
crainte sur l’homogénéité naissait déjà à la lecture du tableau, elle devient panique au vu
de la figure 8.8.

Crues c3u Pont MeuF


à 7-ouLousE
Ann&s de monfe’e ,n&-leur-e à 2m

‘1 1 I/
~l,lIl i III1 I
r770 9300 50 39 00 50 2000

Fig. 8.8. Graphe des années de faibles crues de lu Garonne à Toulouse avec hauteur maximale
annuelle au Pont Neuf inférieure d 3m

138
Manifestement, ou bien on doit abandonner l’hypothèse de stationnarité
hydrologique sur les 19e et 20e siècles, ou bien on doit penser que des niveaux
supérieurs à 2 m ont été oubliés dans le tableau. Et pourtant en l’année 1833, il est bien
noté 2,00 mètres ! L’opération d’exploitation historique devient donc difficile et ambiguë.
1827 est bien l’année d’une grande crue (5,90 m) mais il y a bien des lacunes
jusqu’en 1875, date de la grande catastrophe. On est intrigué par l’échantillon rapporté
hérité de l’échelle du Pont Saint-Pierre montrant sur cinq années successives 1858-1962
des niveaux tous compris dans la gamme de 3 mètres à 4 mètres. Encore mieux, sur
quatre années successives de 1859 à 1862, les niveaux maximaux évoluent dans l’étroite
fourchette de 3,62 à 3,92 ! Trente centimètres, c’est presque l’incertitude du batillage à
très forte crue ! La probabilité d’une telle succession, certes non nulle, doit défier toute
prévision. Si p est la probabilité d’apparition entre 3,62 m et 3,92, la probabilité de la
succession extraordinaire est p 4. On verra plus loin que p est de l’ordre de 0,05 donc la
probabilité de la succession extraordinaire de niveaux similaires est de l’ordre de 6. 10s6.
C’est la preuve une nouvelle fois que l’improbable est possible en hydrologie et que tout
peut arriver et donc qu’il faut être extrêmement prudent et modeste.
A l’inverse, surprenante aussi la longue période de 1896 à 1933 où le niveau
maximal chaque année est supérieur à 2,00 m. Si 4 est la probabilité que le niveau soit
supérieur à 2,00 m au moins une fois par an, alors la probabilité de cette succession
humide serait 4 43. Bien sûr, 4 est difficile à estimer. Il dépend énormément de la période
d’observation. Admettons q = 0,86, alors la probabilité de la série “humide” de 1896 à
1933 est de l%o (soit 0,l %), c’est rare aussi !
8.7.3 La prise en compte des crues mémorables dans l’histoire de la
Garonne

Il y a deux opérations à faire : le partage des fréquences cumulées et l’insertion de


crues mémorables dont on ne connaît que la date d’occurrence.
Pour faciliter la présentation, nous transformerons la question. Nous supposerons
que les crues mémorables sont constituées de crues dont le niveau dépasse un certain seuil
Hz, que les crues historiques concernent des crues dépassant un seuil H1 < H2 et que la
série scientifique peut comprendre toutes les sortes de crues mais les crues énormes étant
en tout petit nombre.
La série scientifique a une durée Dl. La série historique relaie la série scientifique
sur la période allant de Dl à Dz. Enfin, les crues mémorables sont repérées au delà de 02
jusqu’à D3.
Pour fixer les idées, dans l’exercice sur la Garonne, nous ferons le pari que toutes
les crues mémorables étaient supérieures à 6 mètres et on constituera la série historique
avec des crues supérieures à 4 m (comme cela a déjà été fait dans la recherche d’une
première fonction de répartition). D’après le Professeur Lambert, grâce aux archives qui
remontent à 1120, on aurait pu déceler huit crues monstrueuses avant 1770, date à
laquelle commence ce que nous avons dénommé notre série historique, relayée à partir de
1940 par la série scientifique de mesure des maximums initiée à l’usine du Bazacle.
Ces indications et les symboles associés sont représentés sur la Fig. 8.9.

Fig. 8.9. Schéma de principe des décomptes des événements des trois classes d’amplitude de montée
de crue pour les trois séries ou échantillons (série scientifique, série historique et série mémorable)

139
Première étaE : la détermination des fréquences cumulées afférentes aux seuils.
Rappelons les conventions : il y a trois classes de crues :
a) les crues modérées (classe l), inférieures à 4 m, et qui ne sont
observées que de 1940 à 1994 (série 1, dite scientifique) ;
b) les fortes crues (classe 2) de 4 à 6 m, observées aussi bien dans la série
scientifique que dans la série historique (série 2), donc au total sur la période
1770- 1994 ;
c) les crues monstrueuses (classe 3), supérieures à 6 m, et que l’on peut
trouver dans les trois séries et tout particulièrement dans la série 3 des crues
mémorables.
Pour le décompte des crues, nous utiliserons deux indices i etj, i désignera la série
etj désignera la classe de hauteur. On supposera, ce qui est fortement critiquable, que la
fonction de répartition est stationnaire sur la période totale d’observation (1120- 1995). Et
l’on admettra donc que la probabilité pj d’une classe de hauteur est pérenne.
Reste à fixer ces probabilités. L’idée de base sera que le plus important est la sûreté
d’appréciation de la probabilité des événements rares et catastrophiques. On donnera donc
la priorité aux probabilités des classes 3 d’abord, puis 2, qui seront estimées par les
fréquences empiriques de ces classes. Il en découlera la fréquence pl de la classe 1 des
crues modérées puisque :
(8.23)

Si on considérait plus de trois classes le principe serait le même : la probabilité de la


classe la plus nombreuse serait déterminée comme complément à l’unité de la somme des
fréquences empiriques des autres classes. A partir du tableau de dénombrement des Nu, il
vient donc :

Ij2 = NI2 +N22 (8.24)


D2

Nl3 + N23 + N33 (8.25)


fi3 =
03

L’application à la Garonne conduit au tableau suivant :

Tab 8.8. Mulrice du décompte des événements de crue de la Garonne à Toulouse suivant le niveau
de montée et la série considérée (scientifique, historique, mémorable)

Hm

0 55 225 875 Nombre d’années

D’où :

140
a 13
-=0,01486
p3 = 87.5
* 7
-=0,03111
p2= 225

et par différence : fi1 = 0,9.540 alors que sur la série scientifique, la fréquence
empirique était : pie = 0,9636
Les intervalles de fréquence pour la construction de la fonction de répartition seront
donc :
AF1 =PI/N,, =0,954Ol53=0,0180 (8.26)

AF2 =y, I(N,, +N,,)= 11225 =0,00444 (8.27)

AF3 = j3 / (N,, + N,, + Ns3) = If 875 = 0,001143 (8.28)

ce qui amène à hacher très fin les intervalles dans la zone des débits extrêmes (que
malheureusement, on ne connaît pas dans le cas de la série “mémorable”).

Deuxième étaDe : la création de scénarios


Que dire des impressions suggérées par la contemplation du graphe des figures
8.10 à 8.14 faisant intervenir en creux les crues mémorables ?

Voyons quelques scénarios :


Scénario 1 - (Fig. 8.10) Toutes les crues mémorables sont entre les quatre crues
voisines de 6 m et la crue historique monstrueuse de 1875 à 8,32 m. Le graphe obtenu
n’est pas très seyant. La crue de 1875 est vraiment un horsain à période de retour
apparente de l’ordre de 2000 ans.

CRUES DE LA GARONNE A TOULOUSE

Fig. 8.10. Graphe de la fonction de distribution de la hauteur maximale de crue annuelle de la


Garonne au Ponf-Neuf à Toulouse sur la période 1120-1995 avec scénario no1 pour les crues mémorables

141
Scénario 2 - (Fig. 8.11) On place la crue de 1875 dans l’une des positions occupées
(à vide) par les crues mémorables. Des positions 4 à 6, on serait tenté de prendre un
graphe partiel. Passant à l’oeil des positions 1 à 9, on éprouve dune autre manière la
fugacité d’un quantile extrême. La crue de 1875 en 1 n’est plus alors qu’une crue de
période de retour de 110 ans environ.

CRUES DE LA GAROIYNE A TOULOUSE

Fig. 8.11. Graphe de la fonction de distribution de la hauteur maximale de crue annuelle de la


Garonne au Pont-Neuf fd Toulouse sur la période 1120-1995 avec scénario no2 pour les crues mémorables

Scénario 3 - (Fig. 8.12) On distribue à intervalle de trois AF3 les crues connues
supérieures à 6 m. Le gradex de la partie extrême du graphe diminue beaucoup. La crue
de 1875 reste dans ce cas bimillénaire.
Scénario 4 - (Fig. 8.13) L’intervalle entre les crues connues supérieures à 6 m est
de deux AF3. La crue de 1875 est ramenée en avant dernière position. Le graphe n’est pas
très joli, irrégulier et sinueux mais subjectivement, on peut tirer un gradex unique sur
l’ensemble des trois populations.

142
CRUES DE LA GARONNE ATOULOUSE
IntQrvQn&iOn dus e+vénemQnts

Fig 8.12. Graphe de la fonction de distribution aè la hauteur maximale de crue annuelle de la Garonne au
Pont-Neuf à Toulouse sur la période II 20-I 995 avec scénario n “3 pour les crues mémorables

CRUES DE LA GARONNE A TOULOUSE


Intervention dos e,vénemen/s
h, sl-or~qua(dopuzs 177-S)
etme’morobia(d~pui~ ft20)
.5drA continue f 940 - ,994

l-i [ml
8
8
t

Fig 8.13. Graphe de la fonction de distribution de la hauteur maximale décrue annuelle de la Garonne au
Pont-Neuf à Toulouse sur la période 1120-l 995 avec scénario n “4 pour les crues mémorables

143
Scénario 5 - (Fig. 8.14) Autre situation extrême, toutes les crues mémorables
lacunaires sont placées en dessous de 6 m - ce qui est permis par le saut qui existe dans la
série historique où n’apparaît aucune crue dans la plage des 5 m. Là encore, le graphe
empirique tortueux peut être rectifié grossièrement dans la partie haute au delà de 3 m.

00
. x
X

L -4
3

Fig. 8.14. Graphe de la fonction de distribution de la hauteur maximale de crue annuelle de la


Garonne au Pont-Neuf d Toulouse sur la période Il 20-1995 avec scénario n ‘5 pour les crues mémorables

On pourrait évidemment multiplier les scénarios de manière quasi infinie compte


tenu du nombre de combinaison possible (C:’ = 1287), mais les quelques coups de
sonde suffisent pour confirmer l’idée déjà bien enracinée qu’il est bien difficile et délicat
d’être péremptoire dans le choix dune fonction de répartition dans la zone des grandes
valeurs.
A titre de synthèse, le Tab. 8.9 rassemble les valeurs des échelles et exposants
obtenus en forme d’ersatz de gradex dans l’anamorphose logarithmique. Bien entendu,
on aurait pu jouer au même jeu en utilisant directement H au lieu de Log H. Bien entendu
aussi, on aurait pu prendre une plus longue série scientifique, peut-être depuis 1875.

144
Tab. 8.9. Synthèse des lissages des fonctions de répartition de la hauteur H maximale annuelle de
crue de la Garonne au Pont Neuf suivant ianamorphose sur H et le scénario choisi pour les crues
mémorables

Population utilisée Anamor- EchelleH* ExposantsS’ H


phose ou Origine G m
t”p
c ) GradoéxS*
1945 - 1994 H (;) ;= 2,45 (a) S* = 0,525 m 6,08 7,28
( ) & = 2,45 (b) S* = 0,510 m 5,97 7,15
1940 - 1994 H I-&,= 2,35 S* = 0,535 m 6,04 7,28

1940- 1994 H Ho = 0,43 S* = 1,28 m 9,26 12,22


+ 1770-1939(HAm) local
1940- 1994 H* = 2,32 S’= 0,216 10,3 16,96
1770-1939(H>4m) L0gH
1940- 1994 H* = 2,32 S’= 0,216 10,3 16,96
1827-1939(H>3,5m) Log H
Scénario1 LaH H” = 2,34 S’= 0,186 8,50 13,06
(global)
Scénario2 LogH H* = 1,283 S’= 0,353 14,7 33,l
Scénario3 LogH H* = 2,50 S’= 0,163 7,70 11,2
Scénario4 H* = 2.30 S’= 0,205 9,48 15,2
;yyfgfi~~j’
Garonnef+1 27-1986 HykHQ 1 Ho = 2,70 S* = 0,657 m 7,38 8,76

8.8 Conclusions

Quelle (s) conclusion (s) tirer à l’issue de cet exercice critique tout académique ?
La première conclusion, psychologique, est le renforcement de la modestie de
l’hydrologue dans ses estimations extrapolées. Avec la meilleure volonté du monde, on
ne connaît pas grand chose du côte du déluge. Autant s’en tenir à la crainte biblique. Et
encore, dans le doute méthodique, nous n’avons introduit ni l’incertitude de la mesure
(sur H elle n’est peut-être pas trop grande mais sur le débit...?), ni le risque de non
stationnarité. On parle beaucoup aujourd’hui de l’effet de serre. Au 17e siècle, il y a eu la
petite époque glaciaire. (Le Roy Ladurie, 1993) Faut-il signaler enfin l’artefact de la
formule d’estimations de la fréquence cumulée empirique ? Il faudrait reprendre l’exercice
avec des formules qui étalent les valeurs extrêmes comme la formule de Weibull ou celle
de Gringarten.
La deuxième conclusion pragmatique, modeste elle aussi, pourrait être la suivante.
Le mélange de série “scientifique” d’observations sûres pour tout niveau et de série
allongée “historique” permet de conserver les données brutes sans recourir au truchement
de remplissage par tirage de Monte Carlo comme le proposa G. Lalanne-Berdouticq. Bien
sûr, le recours à Monte Carlo est une idée intelligente mais il crée de la réalité virtuelle,
tout comme la méthode des scénarios appliquée aux crues mémorables fantômes du
passé. Et qui sait si, dans quelques années, avec l’évanescente humaine, on ne
considérera pas ces séries élargies comme la réalité naturelle. Cette réalité naturelle qui
donne déjà lieu à tellement de diversité de témoignages !
La troisième conclusion est l’intérêt de l’allongement de la période d’observation
pour les crues catastrophiques. Les crues modérées sont familières à la population
riveraine. Le risque ne commence vraiment qu’avec les crues peu probables qu’on cerne
tout de même mieux en fréquence en fouillant les archives.
La quatrième conclusion est une invitation à l’approfondissement de la critique : il
faudrait comparer la diversité des lissages (souvent à vue) avec l’étalement des intervalles
de confiance en faisant bien sûr intervenir une pondération suivant l’importance des crues
. . . ou l’importance qu’on leur donne.

145

7
La dernière conclusion est que finalement cet exercice académique reste un jeu qui
n’a pas la prétention d’encager la nature impétueuse et fantasque mais voudrait inciter à
aller compulser les vieux grimoires poussiéreux des archives paroissiales avant qu’ils ne
soient mangés par les souris... ou emportés par les crues.

Bibliographie

BENSON, MA (1950). Use of historical data in flood-frequency analysis Eos Trans. AGU,
31 (3) p. 419-424.
BERNIER, J.; MIQUEL, J. (1979). Incertitude de l’information et décisions en situation de
risque, cas de problème de protection contre les crues. La Houille Blanche , 4/5 p
251-258.
BERNIER, J.; MIQUEL, J. ; LEBOSSE, A.; GRIFFET, A. (1986). Use of additionna1
historical information for estimation and goodness of fit of flood frequency models.
Symposium on Flood frequency and risk analysis.
C.N.R (1992). Rapport sur le Rhône pour l’annee 1991.
DHERENT, C.; PETIT-RENAUD, G. (1994). Using archival resources for climate history
research. International Hydrological Programme, UNESCO Paris.
HIRSCH, R.; STEDINGER, J. (1987) Plotting positions for historical floods and their
précision. WRR, vol 25. no 4 p 715-727.
IMFT (1988). Etude statistique des crues de la Garonne à TOULOUSE. Syndicat Mixte des
Transports en commun de 1’Agglomeration toulousaine. Direction Départementale de
l’Equipement, rapport 439-4-7 juillet.
LALANNE-BERDOUTIQ, G. et LAMBERT, R. in CACG et al. (1989). Monographie des
crues de la Garonne. Syndicat Mixte d’Etude et de Programmation pour
l’amenagement de la Garonne.
LAMBERT, R. in C.U.1.E.T (1993). La vie au bord du fleuve. Imprimerie Municipale,
Mairie de Toulouse.
LE ROY LADURIE, E. (1993). Histoire du climat depuis l’an mil. Chapitre IV - Les
problèmes du “petit âge glaciaire”, p. 157-287. Editeur Champs-Flammarion.
PARDE, M. (1925). Le régime du Rhone. Etude hydrologique. Librairie Pierre MASSON,
Lyon et Faculte des Lettres de Lyon.
PARDE, M. (1935). Le regime de la Garonne. Revue de Geographie des Pyrénées et du
Sud-Ouest - tome 6.

146
9. Comparaison des modes d’échantillonna-
ges par sélection du maximum annuel et des
valeurs supérieures à un seuil

Michel LANG
Cemagref Lyon, Division Hydrologie-Hydraulique
3 bis quai Chauveau, 69336 Lyon cedex 09
FRANCE
Abstract

After a presentation of the general properties of several distributions used to describe processes of
events occurrence, a comparison of maximum values selection techniques shows that over-
threshold sampling is better than classical sampling by annual maximum values. A review gives
tests and methods usefull for the choice of process and over-threshold values distributions. A new
sampling technique is presented, which allows the selection of over-threshold values from
instantaneous time series. The extracted values cari be average discharge VCXd or threshold
discharge QCXd, of any kind of duration.

Résumé

Après une présentation des propriétés générales de quelques lois utilisées pour décrire les
processus d’occurrence d’événements, une comparaison des modes de sélection des valeurs
maxima d’une chronique montre que l’échantillonnage par valeurs supérieures à un seuil est
préférable à l’échantillonnage classique par valeurs maxima annuelles. Des critères de choix sont
proposés pour décrire le processus et les valeurs supérieures à un seuil. Enfin, des algorithmes sont
indiqués, permettant la sélection de valeurs supérieures à un seuil à partir de chroniques à valeurs
instantanées, pour les débits moyens VCXd et les débits seuils QCXd, sur une durée quelconque d.

9.1. Introduction
Une des branches des probabilités consiste à étudier le processus d’occurrence d’événements
en calculant par exemple la probabilité d’occurrence de k événements pendant une durée t ou
la période moyenne de retour d’un événement. Les premières applications de cette théorie, dite
des flux d’événements ou méthode du renouvellement, Feller (1966), dans le domaine de
l’hydrologie sont à mettre à l’actif de Borgman (1963), Shane et Lynn (1964) et Bernier
(1967).
Après avoir passé en revue quelques lois utilisées pour décrire les processus, nous
comparons deux modes d’échantillonnage : la sélection de valeurs maxima par épreuve ou
supérieures à un seuil. Nous donnons ensuite des éléments permettant d’aider à la description
du processus et des valeurs supérieures à un seuil. Enfin, nous indiquons les algorithmes

147

7--.
permettant de sélectionner les valeurs supérieures à un seuil, afin d’obtenir les débits moyens
maxima VCXd et les débits seuils maxima QCXd, sur une durée d quelconque.

9.2. Etude des processus

On considère un processus d’occurrence d’événements E, décrit soit par la durée 8 séparant


deux occurrences successives d’un événement, appelée durée de retour, soit par le nombre
d’événements m, survenus dans l’intervalle [O;t]. On associe à chaque variable une fonction de
répartition, une densité et éventuellement sa valeur moyenne :

- durée de retour 8 : F(d) = Prob[e c d] et flx).dx = Prob[x c 8 <x+dx]


On suppose que F(O) = 0 de façon à ce qu’il ne soit pas possible d’avoir simultanément
deux événements. On définit également la période de retour de l’événement par :
T = E(0) =+j=&f(O).df3
0
- nombre d’événements m, sur [O;t] : w, [O;t] = Prob[m, = k]
On définit également le nombre moyen d’événements N(t) sur [O;t] : N(t) = E(m,),
l’intensité du processus n(t) = dN(t)/dt, et un indice de dispersion I, = Var(m,) /E(m,).

9.2.1. Flux de Poisson

On suppose que le processus d’occurrence des événements respecte 4 hypothèses :

(i) homogénéité dans le temps des événements,


(ii) la probabilité d’avoir un événement pendant une courte durée dt est très faible, du même
ordre que dt,
(iii) la probabilité d’avoir plus d’un événement pendant une courte durée dt est infime,
négligeable devant dt,
(iv) indépendance successive des événements.

On peut montrer (Bass, 1974, p. 145 148) que ces hypothèses conduisent aux relations :

w, [O; t] = exp[-put]. (j.Lt)‘/k! (9.1)


F(d) = Prob[e c d] = 1 - exp[-,u.d] (9.2)

Ainsi, le nombre d’événements E pendant l’intervalle de temps [O;t] suit une loi de
Poisson, de moyenne N(t) = p. t et de variancé Var(m,) = pu.t (Eq. 9.1). L’intensité du processus
n(t) est dans ce cas constante et égale à p . La durée de retour 8 séparant deux événements suit
une loi exponentielle simple (Eq. 9.2), la période de retour T de l’événement vaut T = 1 /pu, et
l’indice de dispersion est égal à 1 (Z, = 1). Si on remplace le paramètre p de la loi de Poisson
par son estimation b = E(m, ) / t , on obtient les relations :

F(d) = 1- exp[-d / â] (9.3)


T = E(O) = â (9.4)
avec l/â=fi (9.5)

148
9.2.2. Flux de Poisson non stationnaire

On suppose dans ce cas qu’il n’y a plus homogénéité dans le temps des événements. On retient
seulement les trois dernières hypothèses du flux de Poisson. L’hypothèse (ii) s’écrit alors :
w,(t;t+dt] = p(t).&. Par un raisonnement analogue à celui du flux de Poisson (Ventsel, 1973.
p. 5 1O-5 1 1), on arrive aux relations :

w, [t ; t’] = e.xp[-N(t, t’)].(N(t, t’))%!


où N(t, t’) = i F(Z) ‘dz représente le nombre moyen d’événements pendant l’intervalle de

temps [f;t’].
F(d) = Proh[O(t) c d] = / - exp[-N(t, t+d)]

Le nombre d’événements E sur l’intervalle [t;t’] suit une loi de Poisson, de moyenne
N(t, t’). L’intensité du processus est fonction du temps :

lim N(t, t + At) / At = p(t)


Ll-10+

Borgman (1963) a traité plus en détail le cas du flux de Poisson non stationnaire avec
variations saisonnières. mais stabilité inter-annuelle. 11est possible alors de se ramener au flux
de Poisson simple, par l’intermédiaire d’un changement d’échelle sur le temps :

On a alors :

w, (t,;tJ = exp[-(<- 5 >]. (< - ;il>” / k!


(processus réduit de Poisson, avec p = 1),
7

Y= 1, soit : p(z)& = 1
I
0

9.2.3. Loi binomiale négative

Plusieurs auteurs, Cunnane (1979), Miquel (1984), Boiret (1987), Vukmirovic ( 1990), Bcn-
Zvi ( 199 1), proposent la loi binomiale négative pour décrire le processus d’occurrence :

cv, [O;t] = c;,+,-, 6F.(l - 6)A (9.6)

Le nombre 112,a pour valeur moyenne N(t) = F(I-@/& pour variante Vur (172,) =

y( l-6)/@ (Eq. 9.6). L’indice de dispersion est supérieur à 1 : Z, = 1/6 > 1.

On peut montrer (Lang et al., 1997) que la durée de retour a alors les propriétés
suivantes :

F(d) = Proh[B < d] = 1 - &@ (9.7)

149

7- 7
Si on remplace les paramètres y et 6 par leurs estimations 7 = jYl/ (î, - 1) et $ = 1 / î, ,
les équations (9.7) et (9.8) ont la même expression que les équations (9.3) et (9.4), avec :

1 / â = @. (Logî, / (Î, - 1)) (9.9)

Cette loi constitue une alternative au flux de Poisson, lorsque l’indice de dispersion est
plus grand que 1.

9.2.4. Loi binomiale

Vukmirovic (1990) propose également la loi binomiale :

w, [O;r]= c;, lsk.(1- w-” (9.10)

La moyenne et la variante du nombre m, sont respectivement, N(t) = p.6, et


Vur (m,) = y. 6.( l-6) (Eq. 9.10). L’indice de dispersion est inférieur à 1 : Z, = l-6 < 1.

On peut montrer (Lang et al., 1997) que la durée de retour a alors les propriétés
suivantes :

F(d) = Prob[e < d] = 1 - (1- 6)’ (9.1 1)

T=E(O) = S~-r.LoR(1-6).(1-6)“~.8.dB=-ll(~.Log(l-6j) (9.12)


0
Si on remplace les paramètres y et 6 par leurs estimations y = b / (1 - î, ) et 8 = 1 - î, ,
les équations (9.11) et (9.12) ont la même expression que les équations (9.3) et (9.4), avec la
même valeur du paramètre â (Eq. 9.9) que la loi binomiale négative.
Cette loi constitue une alternative au flux de Poisson, lorsque l’indice de dispersion est
plus petit que 1.

9.3. Echantillonnage par sélection de valeurs maxima par épreuve ou supérieu-


res à un seuil
Le mode d’échantillonnage le plus utilisé pour l’étude des risques de crues consiste à
sélectionner la crue la plus forte de chaque année. On trouvera dans Ashkar et al. (1994) une
revue des différents problèmes liés à ce type d’analyse : contrôles sur les échantillons, critères
de choix d’une distribution et d’une méthode d’estimation des paramètres, régionalisation . . .
Une alternative consiste à retenir toutes les valeurs supérieures à un seuil, en utilisant la
méthode du renouvellement pour décrire le processus d’occurrence des crues supérieures à un
seuil. Rasmussen (1991), Rosbjerg (1993), Rasmussen et al. (1994), puis Lang (1995a) ont
dressé un état de l’art des différents travaux effectués sur le sujet.
Nous présentons les caractéristiques principales de ces deux types d’échantillonnage,
puis nous donnons les relations permettant de passer d’un type à l’autre, et comparons les
distributions d’échantillonnage.

150
9.3.1. Echantillonnage par sélection de valeurs maxima sur une épreuve de durée fixe

(i) Sélection d’une valeur maximale par épreuve

Soient X, une variable aléatoire (V.A) quelconque, X* une V.A définie comme la valeur
maximale de X sur une épreuve (l’année, la saison, le mois . ..). La durée de l’épreuve sur
laquelle on extrait les valeurs de X* est notée t.

Les différents éléments associés à l’événement considéré sont :

. Evénement : X* , la valeur maximale sur l’épreuve de durée t, est supérieure à une valeur
donnée x
. Période de retour : TX(x) (l’indice x pour échantillonnage par maximum)
. Quantile : X(T), la valeur de X = x relative à la période de retour TX
. Probabilité de non-dépassement : Fr(x) = Prob[X* c x]

En supposant que le flux d’événements suit une loi de Poisson, on peut relier Fx(x) et
T(x) :
Prob[k événements en N épreuves] = Ci [F* (x)]~-~. [l - F, (x)lk

C’est une loi binomiale, de moyenne N.(I - FI(x)). Le nombre moyen d’événements sur
l’intervalle [O;t] vaut :

N(t) = t.[l - FL(x)]

Comme la période de retour d’un événement suivant un flux de Poisson vaut T = l/p, où
fi = dN(t)/dt, on a :

Fr(x) = 1 - t/7’jx) (9.13)

(ii) Sélection de k valeurs maxima par épreuve

Soient X une variable aléatoire, et Xk une des k plus fortes valeurs de X sur une épreuve de
durée t.

Les différents éléments associés à l’événement considéré sont :

. Evénement : ((X,),, (X, ),, . . . . (X,), ), les k plus fortes valeurs de X sur l’épreuve de durée t
sont toutes supérieures à une valeur donnée x
. Période de retour : T(x) (l’indice x pour échantillonnage par maximum)
. Quantile : X(TI), la valeur de X = x relative à la période de retour T
. Probabilité de non-dépassement : GLï (x) = Prob[X, < x]

On peut relier facilement Fr et G,, puis G, et TX:

Fr(x) = Prob[X*< x]
= Prob[ (X, ), e x et fX4)zex et... (X,),ex]
= &~X)I” (en supposant l’indépendance des k plus fortes valeurs)

151

--
c
ce qui donne :

G,Jxi = ( 1-tfTr(x))‘” (9.14)

L’équation (9.14) a été établie en supposant l’indépendance des valeurs X,, ce qui
conduit à rejeter, parmi les k plus fortes valeurs de chaque épreuve, celles qui sont supposées
appartenir au même événement. L’implantation d’un critère d’indépendance est souvent
difficile à réaliser, et on se contente en général d’un critère d’espacement (durée minimale
entre deux valeurs).
Ce type d’échantillonnage permet d’augmenter le nombre de valeurs de l’échantillon,
mais, comme le précédent, il présente l’inconvénient de prendre un nombre identique de
valeurs pour chaque épreuve, sans s’intéresser au processus d’occurrence des événements par
épreuve. Ainsi en hydrologie, où il existe des années “sèches” et des années “humides”, cet
échantillonnage fournit une population pas toujours homogène, avec des valeurs extrêmes peu
intéressantes pour les années “sèches” et la non-sélection de valeurs intéressantes pour les
années “humides”. C’est pour cette raison que nous préconisons l’échantillonnage suivant où
l’on sélectionne toutes les plus fortes valeurs sur l’ensemble de la chronique.

9.3.2. Echantillonnage par sélection de valeurs supérieures à un seuil

fi) Formulation générale

Soient X, une variable aléatoire (V.A) et X5, la V.A définie comme la valeur maximum de X
sur un épisode. L’épisode est relatif à une valeur seuil S : il commence quand X > S et finit
quand X e S.

Les différents éléments associés à l’événement considéré sont :

. Evénement : X,, la valeur maximum de l’épisode est supérieure à une valeur donnée x
. Période de retour : T,(x) (l’indice s pour échantillonnage par valeur sup-seuil)
. Quantile : X(T), la valeur de X = x relative à la période de retour TA
. Probabilité de non-dépassement : Gr(x) = Prob[X, < x]

On peut relier la loi de probabilité Fr avec w,(t) et GI :

Fix) = Prob[X* e x], où X* est la valeur maximum de X sur une épreuve


de durée t
w,(t) = Prob[k épisodes supérieurs au seuil S pendant t]
G,,(x) = Prob( X,r e x] où X,, est la valeur maximale de l’épisode

cr(X>= 2 Wk(t).[Gv
(x)]k (9.15)
k=O

(en supposant l’indépendance des maxima de chaque épisode).

Par rapport à ‘ia présentation sur les processus, il faut noter qu’il y a maintenant deux
sortes d’événements : l’événement “X supérieur au seuil Y, appelé dorénavant épisode sup-

152
seuil, auquel on rattache la loi de probabilité w,(t); et l’événement “X, supérieur à x”, appelé
événement, auquel on rattache la loi de probabilité Gr(x). L’introduction de la loi G, va
permettre d’extrapoler la distribution expérimentale vers des périodes de retour élevées, ce qui
n’était pas possible avec la méthode du renouvellement proprement dite. En effet, la période
de retour d’un événement E vaut T(E) = l/p, où p est le nombre moyen d’événements
observés par épreuve. Pour les événements rares. on ne dispose pas d’une estimation fiable de
P-
Nous reprenons les quatre processus les plus simples qui viennent d’être décrits, sachant
que d’autres lois sont disponibles (voir Lang, 1995a, p. 183).

(ii) Cas du flux de Poisson

Lorsque le processus suit une loi de Poisson, la combinaison des équations (9.1) et (9.15)
donne la correspondance, décrite pour la première fois par Shane et Lynn (1964) :

Ft(x) = expl-&.t.( l-G,(x)) 1 (9.16)


(où p> est le nombre moyen d’épisodes par épreuve de durée t)

La liaison entre la période de retour T;(x) d’un quantile x et sa probabilité au non-


dépassement G,?(x)s’obtient de la façon suivante :

Prob[k valeurs X, > x pendant t]


=
c Prob[ (k+i) valeurs X5 avec k valeurs supérieures à x pendant t
r=O
et i valeurs inférieures à x pendant t /
= 2 ck,, w,+,ft)-[Cl- G.7
(xl]“. [G,s(X>]i
r=O

m (k+i)! eXp[-~,~.t].(~.,.t)‘k’”
= -. .[~-GJx)]~.[G,Jx)]
c
i=. k!.i! (k+i)!
= exp[-A]. A’/k! ( avec A = & t. ( 1-G,(x)) )

On reconnaît une loi de Poisson, de moyenne A. Ainsi, le nombre moyen d’événements


sur la durée t vaut N(t) = ~,y.t.(l-G,y(x)). Comme T = l/& où /f = dN(t)/dt, il vient donc :

G<(x)= 1 - W.J,W (9.17)

La liaison entre la période de retour J(x) d’un quantile x et sa probabilité au non-


dépassement Fr(x) s’obtient en combinant les équations (9.16) et (9.17) :

Fr(x) = expl- t~$dl (9.18)

(iii) Cas du Jzux de Poisson non stationnaire

Ce cas a été développé en détail par North (1980) et Bernier (1981). On définit maintenant la
probabilité de non-dépassement des valeurs sup-seuil par rapport à un temps donné :
6,(x, t) = Prob[X< e x à un instant t]. On obtient :
F, (x, t) = exp[-j[l - G ,(x7z)]. P,,(2). dz1
0

N(t) = ~~,s(~~.[l-G~(x,~)].d?
0
Bernier (198 1) a montré que, si la loi Gr(x, t) conservait le même caractère au cours du
temps (par exemple toujours une exponentielle simple, mais avec des paramètres évoluant
avec le temps), il était possible de se ramener au cas du flux de Poisson, en estimant les
paramètres de la loi G,(x) à partir de tous les événements sup-seuil, ce qui revient à moyenner
les paramètres de la loi Gs(x,t) sur la période disponible. On obtient alors :

G%(x)= 1 - l/C f, (x))


T.(r)
Fi(x) = exp[-i / fy (x)] 1 avec T(x) = jp,y(r).dr
0

(iv) Cas de la loi binomiale négative

Ce cas, présenté comme alternative au flux de Poisson, a parfois été évoqué, mais jamais
développé complètement. En combinant les équations (9.6) et (9.15), on obtient la
correspondance, décrite par Vukmirovic et Petrovic (1995) :

Fx(x) = [ &‘(l-(l-6).Gr(x)) ]r (9.19)

qui donne, en remplacant yet 6par leurs estimations 7 et 5 :

F,(x) = [î, - (î, - 1) . C,(X)]~“‘(‘-~~) (9.20)

La liaison entre la période de retour T(x) d’un quantile x et sa probabilité au non-


dépassement Gl(x) est la suivante :

Prob[k valeurs X,y> x pendant t]


= c C;+iC;;;+y-, ~“~(1-6)k+‘~[1-G~(~)]k~[G~(x)]i
i=o
6” . (B _ 6)” . p+m .z c;+k+)r-,(1 - w. Bk+)r
= C;+)+l
i=o

f avec B = 1 - (1-6).G,T(~))
= c+p, (6 / B)” . (1 -S / B)k

On reconnaît une loi binomiale négative, de moyenne v.( 1- WB)/(&!B). Ainsi, le nombre
moyen d’événements sur la durée t vaut N(t) = p.(B-6)/6 = y.((l-fi)/@.(1 - Gr(x)). En utilisant
l’équation (9.18), on obtient :

G,(x) = ( 1 - &exp[l/(y.T,(x)] )/(1-S) (9.21)

qui devient :

154

-.--p-I--.- ~- --. .~ ._.-*~


G, (x) = (jr - exp[(f, - ll/ (fi. T (X))I) / Ci, - 1) (9.22)

En combinant les équations (9.19) et (9.21), on retrouve la même équation (9.18) que
pour le flux de Poisson.

(v) Cas de la loi binomiale

En combinant les équations (9.10) et (9.15), on obtient la correspondance,


décrite par
Vukmirovic et Petrovic (1995) :

Fr(x) = [ 1 - 6.(1 - G,(x)) lY (9.23)

qui donne, en remplacant yet 6 par leurs estimations, la même équation (9.20) que pour la loi
binomiale négative.

La liaison entre’ la période de retour T$(x) d’un quantile x et sa probabilité au non-


dépassement G,T(x)est la suivante :

Prob[k valeurs X,c> x pendant t]


= 2 Ci,, wk+i (t) . [l - G. (XI]~ . [G< (x)]
:=o
y-k
= c;+; c;+ifi k+i
c . (1 - 6)r-k-’ . [1 - GT(X)I~ . [GT (x)]i
i=o
v-k
= C; Dk . (1 - 6)‘-k . c Ckek[(a - D) / (1 - &Ii
r=O
(avecD= 6.(1 -G,(x)))
= C;Dk .(l-6)“-” .[l+(& D)l(1-6)]“-k
= C;D’ . (l- D)y-k

On reconnaît une loi binomiale, de moyenne V.O. Ainsi, le nombre moyen


d’événements sur la durée t vaut : N(t) = y.&.(1 - GS(x)). En utilisant l’équation (9.12), on
obtient :

G,(x) = 1 - ( 1 - exp[- l/( ~T,(X)] )/6 (9.24)

qui donne, en remplacant yet 6par leurs estimations, la même équation (9.22) que pour la loi
binomiale négative.
En combinant les équations (9.23) et (9.24), on retrouve la même expression (9.18) que
pour le flux de Poisson.

9.3.3. Comparaison des modes d’échantillonnage

(i) Correspondance entre les périodes de retour Ty et Tr

Dans l’absolu, les périodes de retour TJx) et Ty(x) ne sont pas comparables, puisqu’elles
correspondent à deux variables aléatoires différentes : X* et X,. Ainsi, on note une différence

155

_-~ 1 1
-
d’interprétation entre les deux périodes de retour, évoquée seulement par Naden et Bayliss
(1993) : la période de retour Tr est la durée moyenne séparant deux années successives ayant
leur maximum annuel supérieur à X(TJ, alors que la période de retour 7’, est la durée moyenne
séparant deux valeurs sup-seuil successives supérieures à X(T). La période de retour TX est
largement utilisée en hydrologie, du fait de l’emploi majoritaire de l’échantillonnage par
maximum annuel, alors qu’elle semble assez artificielle dans sa définition. Dans la majorité
des cas, l’usager est intéressé par l’estimation “d’un risque d’occurrence de tous les événements
successifs”, et donc par le quantile X(TJ. Le seul cas où l’usage de la période de retour Tr
serait pertinent serait celui d’un usager ne tolérant pas plus d’une occurrence de l’événement
par épreuve : ainsi une zone agricole avec des cultures annuelles où l’agriculteur devra
attendre l’année suivante pour replanter si une inondation vient à endommager son champ.
Ainsi, il semble préférable de présenter systématiquement les résultats avec la période de
retour T,, quel que soit le mode d’échantillonnage utilisé.
En combinant les équations (9.13) et (9.18) (obtenue dans le cas de la loi de Poisson, la
loi binomiale négative ou la loi binomiale), on obtient la formule de correspondance suivante,
déjà développée pour un flux de Poisson par Borgman (1963, eq. (47), p. 17) :

Tr/t = l/( 1 - exp[-tflJ) = (T, /t) + 112 +(tc,)/12 + o(tRJ2

Le tableau 9.1 montre que Tr tend rapidement vers T, + 1/2, et X(T) tend en général vers
X(T) à partir de Tr = 10 ans.

Tableau 9.1 : Correspondance entre les périodes de retour T, et T,

T/t 1 2 5 10 20 100

T/t 1.58 2.54 5.52 10.51 20.5 100.5

Ce tableau avait déjà été présenté par Langbein (1949), mais il avait été obtenu par une
méthode rudimentaire, sans aucune mention du processus d’occurrence des valeurs supérieures
à un seuil. Takeuchi (1984), par une approche analogue à celle de Borgman, a d’ailleurs
clairement mis en évidence ce dernier point.

(ii) Correspondance entre les distributions F, GLï et G,

L’estimation d’un quantile X(T) peut s’effectuer suivant deux modes d’échantillonnage :
sélection de k valeurs maxima par épreuve de durée fixe, ou sélection de la valeur maximale
de chaque épisode sup-seuil. D’une façon générale, nous préconisons le deuxième mode
d’échantillonnage, qui permet de sélectionner une population plus représentative du
phénomène étudié.

. Pour les événements rares (T > 10 ans), les deux modes d’échantillonnages aboutissent aux
mêmes résultats pour le calcul des quantiles.

. Pour les événements intermédiaires (1 e T e 20 ans), il est nécessaire d’utiliser une


correspondance entre les deux distributions. Nous résumons, dans le tableau 9.2, les formules
de correspondances, obtenues en supposant un processus suivant une loi de Poisson, une loi
binomiale négative ou une loi binomiale.

156
. Pour les événements fréquents (T < Z an), l’apport d’une loi de probabilité G, est assez
minime. La méthode du renouvellement donne directement une bonne estimation du quantile,
sans introduire de loi de probabilité sup-seuil. Comme G,(x) = Prob[X, < x], où X,, est la
valeur maximale d’un épisode où toutes les valeurs sont supérieures à S, on a Gi [S] = 0. On
obtient une estimation du quantile X(T$) avec 2 (T>) = S. où S est recherché par
approximations successives de façon à avoir b = lfl, (flux de Poisson), ou
(î, - 1) / (cl. Logî, ) = T, (loi binomiale négative ou loi binomiale).

Tableau 9.2 : Correspondance entre les distributions GkXand G,

Echantillonnage sur Distnbutlon G,, Distribution G,,


une épreuve de durée t
1 - 14 jj T,,, ) (a)

Période de retour T, (1 -t / 7-J”’ Ci, -ev[(î, --l)i(p~7;,2)])~(î; -1) (b)

exp(-t/k. T, ) 1 - l/( fi .T\) (a)

Période de retour T, ou : 1 - 1/( b.T,,, ) (î, -exp[(f, -l)/(~.T~)])/(~, -1) (b)

(a) Fiux de Poisson (b) Loi binomiale négative ou binomiale


TP,; = t/( 1 - exp(-r/r)) Te, = - r/Log( 1-r/rj ,Û = E(m,)/t ît = Var(m,)/E(m,)

(iii) Comparuison de la distribution d’échantillonnage des lois Gb et G,

. Rappel sur les résultats antérieurs

Cunnane (1973), Tavares et Da Silva (1983), Rosbjerg (1985) et Wang (1991) ont comparé la
variante d’échantillonnage des quantiles issus d’un échantillonnage par maximum annuel (FJ
ou par valeurs sup-seuil (G,). Ils ont trouvé un léger avantage de la loi Fr vis à vis de la loi GI
lorsque ,u, = 1; un avantage de la loi GI sur la loi F1 lorsque pT > 1.7, une similitude de
performances quand la période de retour devient élevée (T > 10 uns).

. Résultat de simulations

Nous avons voulu compléter les résultats existants par une analyse comparative des quantiles
issus de lois G,< et G,$(avec k = ,ur , variant de 1 à 5). Le critère de comparaison est Ecart
Quadratique Moyen des estimateurs des quantiles , avec EQM2 = b2 + dz! où b et d sont
respectivement le biais et la dispersion de l’estimateur :

b= E(k(T)]-X(T) ; d = (Vur[ 2 (T)])IR

Le principe de la simulation est le suivant :

(a) : on réalise NTZR tirages


pour chaque tirage :
- on a généré une chronique de base sur NA années (NA = 20 ou 100 ans);

157
- on extrait de la chronique un échantillon de valeurs X, (k = I à 5), les k plus fortes
valeurs de X de chaque année, et un échantillon de valeurs Xs (K = 1 à 5), les valeurs de
X supérieures à un seuil S associé à p,$;
- on estime les quantiles Jf(T<) pour TY= 0.25, 0.5, 1.0, 5.0, 10.0 et 100.0 uns.
(b) on calcule l’écart quadratique moyen des estimateurs X(rY ) , pour un échantillonnage GkF
ou G$.

La chronique de base a été générée, soit par tirage de valeurs aléatoires XkO
(avec k,, = 20, 30 ou 40 valeurs par un) dans une loi de Gumbel , soit par tirage de valeurs
aléatoires XI,, (avec p,s, = 20, 30 ou 40 valeurs par an en moyenne), avec le binôme
(Poisson, Exponentielle simple). Une étude de sensibilité sur le nombre de tirages (10, 100,
1000, 10000) a montré que les résultats ne variaient plus à partir de NTZR = 1000.

Le détail des simulations est donné par Lang (1995a, p. 195-200; 1995b). Les
conclusions principales sont :

. Premièrement, l’échantillonnage G, induit pratiquement toujours un écart quadratique moyen


EQM plus important que celui de GT, que l’on travaille sur une chronique générée par valeurs
sup-seuil ou par valeurs k-max, que l’on estime les paramètres des lois par la méthode du
maximum de vraisemblance ou celle des moments, quel que soit le nombre de valeurs extrait
par année, quelle que soit la taille de l’échantillon. Plus précisément, on observe pour le ratio
EQM(échantillonnage k-max) /EQM(échantillonnage sup-seuil), avec k = p,? et la même
méthode d’estimation des paramètres, des valeurs toujours supérieures à 1, en moyenne de 2 à
3. Le seul cas rencontré où l’échantillonnage Gkr donne un plus faible écart EQM que celui de
Gr est celui où k = pur= 1, avec un nombre d’années important (ici pour NA=100 ans).

. Deuxièmement, l’incertitude sur l’estimation des paramètres et des quantiles évolue de la


façon suivante :
- l’écart EQM diminue quand le nombre d’années augmente (la précision d’un estimateur
augmente quand on rajoute de l’information),
- l’écart EQM sur les quantiles augmente dès que l’on s’éloigne de la période de retour seuil
d’échantillonnage : si on sélectionne k crues par an, ou ,u~= k crues par an en moyenne,
l’écart EQM augmente quand la période de retour augmente (T > I/k); il augmente
également quand la période de retour diminue (T < Uk).
- l’écart EQM diminue quand on abaisse le seuil d’échantillonnage sup-seuil : pour les
simulations obtenues à partir de chroniques de base sup-seuil, ceci est vrai jusqu’au plus
bas seuil testé (lu, = 5); pour celles obtenues à partir de chroniques de base k-max, il
semble y avoir un plancher vers lu7= 2 à 3.
- l’écart EQM augmente quand on augmente le nombre de valeurs k de l’échantillonnage k-
max : cette tendance n’est pas uniforme pour les différentes simulations réalisées, mais
elle reste vraie globalement.

On trouve donc un net avantage à utiliser l’échantillonnage GI plutôt que


l’échantillonnage classique Fr. S’il y a un léger avantage de la loi Fï sur la loi Gs (avec pr = l),
il suffit de baisser le seuil pour améliorer les résultats de la loi GS,alors que l’augmentation du
nombre de valeurs de la loi GkVn’apporte globalement pas d’amélioration, en fait plutôt une
détérioration des résultats.

158
9.4. Critères de choix pour la description du processus et des valeurs
supérieures à un seuil

9.4.1. Choix de la loi décrivant le processus

(i) Loi de Poisson

Le test classique d’adéquation ou test du 2, pour vérifier la concordance de la distribution


empirique avec la loi choisie, n’est pas très adapté, car il est conseillé d’avoir au moins 5
classes, comprenant chacune au moins 7 ou 8 éléments. Il n’est souvent pas possible en
pratique de respecter ces conditions. Cunnane (1979) propose de tester la valeur de l’indice de
dispersion Z, = Vur(m,)/E(m,), en supposant que m, suit une loi normale :

d = 2 [(mi -E(m,))/ (Var(m,))“2] suit une loi du 2 à NEP degré de liberté.


1=l
d = 2 [(mi - 5, ) / z,]’ = (NEP - 1). i1 suit une loi du 2 à (NEP-1) degrés de liberté.
i=l

(où mi est le nombre d’événements de l’épreuve n’i, et NEP le nombre d’épreuves disponibles).

Si î, e [Z, (0.05) = x2 (0.05) / (NEP - 1) ; Z,(0.95) = x2 (0.95) / (NEP - l)] , on rejette


l’hypothèse d’un flux de Poisson, avec un risque d’erreur de 10%.

Ashkar et Rousselle (1983a) ont montré un résultat très intéressant : si le processus du


nombre d’occurrence d’événements par épreuve suit une loi de Poisson lorsqu’on s’intéresse
aux valeurs supérieures à un seuil S,, cette propriété est conservée pour tout seuil S, supérieur
à SO.

(ii) Loi binomiale négative et loi binomiale

Ces deux distributions peuvent être utilisées lorsque la loi de Poisson ne convient pas : la loi
binomiale négative si î, > Z,(O.95), la loi binomiale si î, < Z,(O.O5).Nous proposons de tester
l’adéquation de la loi de probabilité de la durée de retour 8 avec les observations. Comme la
loi théorique est dans les trois cas une loi exponentielle F(d) = Prob[e < d] = 1 - exp[-d/a],
où a est estimé par :

l/â= E(m,)lt pour la loi de Poisson (Eq. 9.5)


1 / & = (Logî, / (î, - 1)). E(m, ) / t pour la loi binomiale négative et
binomiale (Eq. 9.9)
on comparera la distribution expérimentale de la durée de retour 8 avec les lois exponentielles
obtenues à partir de la distribution expérimentale de m,.

(iii) Flux de Poisson non stationnaire

Bemier (1981) propose de vérifier le caractère Poissonnien du processus, simple ou non


stationnaire, en supposant connue son intensité p(t). Il utilise le fait que la variable

159

--
? = I ,&x). dx suit une distribution uniforme, de moyenne E(t) = (< + TN) / 2 et de variante
Var(t) = (t, - t;)” / 12, où (t , , . . ., ?, ) est l’échantillon des dates d’occurrences transformées.
On testera la variable normale centrée réduite u = (m’,(? ) - E(t ))/Var(t )ln , où
m’, (2>=(1/NJ$i; .
i=l

9.4.2. Choix de la loi décrivant les valeurs sup-seuil

(i) Correspondances binôme (Loi processus; Loi sup-seuil) avec la loi des maxima

Dans le cas d’un processus de Poisson, la relation Fr(x) = exp[-p,.(l-GS(x))] (Eq. 9.16) donne
les correspondances :

- (Loi de Poisson; Loi exponentielle simple) w Loi Gumbel

G,(x) = 1 - exp[-(x-x,)/a] et F$d = expt-& ed-(=,,Ydl


soit Fr(x) = exp[-exp[-(x-X,,)/AJ]

- (Loi de Poisson; Loi Pareto généralisée) H Loi des Valeurs extrêmes

G,,(x) = 1 - (1 -W4. f-=x,)) ‘n ( si k f 0 > et Fr(x) = exp[-p,u,.(1-(Wa).(x-x,,))‘B/


soit cl(x) = exp(-(1-(WA).(x-X,,)) ‘“1

Cette dernière correspondance est cohérente avec les considérations de Gumbel (1958)
et Pickands (1975), tendant respectivement à montrer que la loi des valeurs extrêmes est
adaptée au cas des échantillons de maxima annuels, et que la loi de Pareto généralisée est
recommandée pour les échantillons de valeurs supérieures à un seuil.

(ii) Critères de choix

Il n’y a pas de recommandations particulières, spécifiques aux échantillons sup-seuil, à


mentionner. On peut reprendre celles en usage pour le calage des paramètres d’une loi de
probabilité :

- examen préliminaire de l’échantillon : qualité des données, indépendance des valeurs de


l’échantillon, homogénéité-stationnarité de l’échantillon;
- choix d’une méthode d’estimation : méthodes des moments, du maximum de vraisemblance,
des moments pondérés;
- test d’adéquation de la loi avec la distribution empirique : analyse graphique (choix d’une
fréquence empirique), test du 2, test de Kolmogorov;
- définition des intervalles de confiance des quantiles et du domaine raisonnable
d’extrapolation;
- prise en compte d’informations complémentaires pour valider l’ajustement : variations
spatiales (régionalisation, Madsen et Rosbjerg (1994)), variations temporelles (ajustements à
réaliser sur des valeurs maxima calculées sur toute une gamme de durées, section (iii)
suivante), informations historiques (Miquel, 1984), croisement des informations pluies et

160
débits (méthode du GRADEX, Guillot et Duband, 1967; CFGB, 1994; modèle AGREGEE,
Margoum, 1992, Margoum et al., 1994).

Ashkar et Rousselle (1983a) et Wang (1991) ont utilisé chacun le même argument pour
vanter respectivement les mérites de l’utilisation d’une loi exponentielle simple ou d’une loi
Pareto généralisée pour les valeurs sup-seuil. On peut montrer facilement, pour chacune de
ces deux lois, que la loi G5 conserve le caractère exponentiel ou loi Pareto généralisée, quel
que soit le seuil S retenu :

F(x) = exph&, . (1- G ,v,WI = exp[-& . (1- Gy2(X>)I (S, ’ S,)


soit Gs2(xl = 1 - (P,, / P y>> *Cl- G,, (xl>

. loi exponentielle :

G, (x) = 1 - exp[-(x -x0) / a]


soit Gs2(xl = 1- WL,,/ p+ >.exp[-(x - x0>/ a]
= l-exp[-(x-x’,)/a’] (avec a’ = a)

. loi Par-et0généralisée :

G,,(x) = l-(l-(k/a).(x-xO)“L]
soit GS2C-4 = 1 - (p,, / p Tz> . Cl- 6 / 4.0 - x0 )‘lk
= l-(1-(k/a’).(x-x’,)“~]

Or, cet argument peut également être repris pour la loi mélange d’exponentielle :

Gs,(x) =l-e.exp[-(x-x,)/a,]-(1-8).exp[-(x-x,)/a,]
soit Gs, (x> = l- @,, / PS2> .(8*exp[-(x - x0> / a,]+ (l- 6) .exp[-(x - x0) / a,])
=l-e.exp[-(x-x’,)/a’,]-(l-@.exp[-(x-x’,)/a’,]
(avec a’, = a’; i = 1 ou 2)

En fait, cette propriété de conservation du caractère de la loi G,yavec le seuil serait plutôt
à mettre à l’actif de la loi de Poisson; on ne la retrouve d’ailleurs pas pour la loi binomiale
négative ou la loi binomiale.

(iii) Respect de l’hypothèse d’indépendance des événements et choix du seuil

. Conditions d’indépendance sur les événements

Plusieurs conditions ont été rajoutées pour garantir l’indépendance des événements, dans le
cas particulier des crues :

- Le Water Resources Council, USWRC (1976) donne une durée d’espacement minimum
entre deux crues successives, et impose une redescente du débit entre deux crues (Fig. 9.1) :

161
Fig. 9.1 : Conditions d’espacement entre deux crues sup-seuil

(Q,YJ,n’est pas retenu si :

At < 5 jours + Log(S) ou Qmin> (314). M in [tQJW,dQJW,l

où S est la superficie du bassin versant en miles* ; (QJX), est le débit journalier maximum de
l’épisode N”I, et (QJX), est le débit journalier maximum de l’épisode N”2.

- Cunnane (1979) donne d’autres critères :


(QJ2 n’est pas retenu si :

At c 3.Tm ou Q,,, > (2/3).(~~),

où Tm est le temps moyen de montée, calculé sur les 5 plus fortes crues disponibles.

- Miquel (1984) ne donne pas de valeur minimale pour At, mais propose de tester
l’autocorrélation de rang 1 et 2 des valeurs sup-seuil. Si l’hypothèse que le coefficient
d’autocorrélation est égal à zéro (indépendance des événements) est rejetée (à un niveau de
signification donné), il convient de sélectionner une nouvelle fois des événements sup-seuil,
avec une condition d’espacement plus stricte.

Ce type de conditions a été critiqué par Ashkar et Rousselle (1983b), qui proposent
l’application stricte de la loi de Poisson avec tous les événements supérieurs à un seuil. On
peut objecter que l’échantillonnage sup-seuil peut conduire à retenir des valeurs
manifestement liées, par exemple lors de pointes parasites en décrue (Fig. 9.2) :

Fig. 9.2 : Contre-exemple de décroissance du nombre de crues sup-seuil avec le seuil

162
En fait, ce problème d’indépendance des événements n’a pas de réponse tranchée, du
style application de formule générale, USWRC (1976) ou Cunnane (1979), ou application
“stricte” de la loi de Poisson, Ashkar et Rousselle (1983b). La position de Miquel (1984)
semble beaucoup plus pragmatique, surtout si l’on veut bien considérer la difficulté à
appréhender physiquement la dépendance entre deux événements. A partir de quel espacement
une crue à deux pointes doit-elle être séparée en deux événements, sachant que la dernière
pointe s’explique en partie par la saturation du bassin due à la première pointe ?

. Test sur 1‘indice de dispersion IJ

Ashkar et Rousselle (1987) proposent de choisir un seuil qui permet de respecter le caractère
Poissonnien du processus : ils reprennent le test développé par Cunnane (1979), exposé au
paragraphe 9.4.1. Les auteurs conseillent de choisir un seuil tel que l’indice de dispersion
expérimental î, soit compris dans l’intervalle de confiance à 90% [Z, (0.05); Z1(0.95)].

. Test sur le dépassement moyen au-dessus du seuil

Davison et Smith (1990), Naden et Bayliss (1993), Ben-Zvi (1994) proposent de choisir un
seuil qui permet de se situer dans la zone de stabilité du graphe x$ - S = f(S). Ce test revient
en fait à choisir un seuil S situé dans une zone de stabilité du domaine de variation des
paramètres de la loi Gs. C’est d’ailleurs ce que conseille Miquel (1984) : une analyse de
sensibilité de l’estimation des quantiles X(T) vis à vis du seuil conduit à retenir une valeur S
comprise dans la plage où les résultats restent concordants.

. Analyse multi-durées

L’approche pratiquée par le Cemagref consiste à vérifier que l’ajustement, obtenu pour un
seuil S et une durée d, s’inscrit correctement dans l’ensemble des ajustements “Variable
étudiée-durée-fréquence”. Ainsi, le graphe suivant (Fig. 9.3) :

Fig. 9.3 : Courbes Valeurs sup-seuil-Durée-Fréquence

montre que l’ajustement réalisé pour la variable x,, pour d = d3, pris isolément, conduit à des
valeurs xd3(T) incompatibles avec les valeurs xcn (T) . Ainsi, les ajustements réalisés pour les
différentes durées de la variable à étudier se valident mutuellement, puisqu’il ne peut y avoir
de “croisements” dans les ajustements.

163

-
9.4.3. Tests divers sur un échantillon

(i) Test de stationnarité-homogénéité

Miquel (1984) propose deux tests :

- un test sur la stationnarité de l’échantillon : on découpe chronologiquement l’échantillon en


deux parties égales, et on calcule pour chaque partie la moyenne (m, et m,) et l’écart-type (s, et
s2). La variable t = (m, - m2). 7 ZVl( s, + s2 ) suit une loi de Student à NI-1 degré de liberté
(N = 2.N’ est la taille de l’échantillon initial).

- un test sur la répartition uniforme des dates d’occurrence des crues : on classe
chronologiquement les crues et on reporte sur un graphe le numéro de la crue et sa date
(Fig. 9.4) :

N” crue

:,Y ~Date

Fig. 9.4 : Distribution de la date d’occurrence des valeurs sup-seuil

Si la courbe serpente autour de la première bissectrice, l’échantillon peut être considéré


comme stationnaire, sinon on fait un test statistique sur la variable aléatoire t “date
d’occurrence de la crue”. Pour un échantillon observé (t,, . . . . tJ on compare moyenne
théorique z et moyenne estimée t .

?=(I/N)& ; z = (tN + t,)R ; d =(t, - t$/12.


i=l

La variable u = (t - z) / 0 suit une loi normale centrée réduite.

Lang (1995a) a complété ce dernier test en associant à m, , le nombre de crues sur [O;t],
son intervalle de tolérance à 90% (Fig. 9.5).
Si on a observé NC crues sur [0 ; t,,], on a m, crues sur [0 ; t] ( 0 c t c tfin ), avec
0 5 m, I NC, soit :

-p.tlE, 5 NC-y.t (où tz, =m, -p.t)

164
borne supérieure
de l’intervalle
de tolérance

droite théorique
‘Et
2 mt=p.t

Fig. 9.5 : Variables utilisées pour la détermination de l’intervalle de tolérance du nombre de crues sup-seuil

Notons IV*, (t), la probabilité conditionnelle d’avoir k crues sur [0 ; t], sachant qu’il y en
a eu NC sur [0 ; t,J :

w*,(t) =Prob[m,=kI m,pn =NC]


= f Wk@)- q&j,-t) ) /y.&,“,
=C~c(tltpn)k.(l-tltfi,)NC-k

Comme w*,(t) = w* &tfin-t), l’intervalle de tolérance est symétrique par rapport au point
0 (t,,,L!; N02). On calculera l’intervalle de tolérance pour les NC,42 premiers points, puis on
déduira l’autre moitié par symétrie (Fig. 9.6) :

Fig. 9.6 : Symétrie de l’intervalle de confiance du nombre de crues sup-seuil

L’algorithme de recherche de l’intervalle de tolérance (à 90%, par exemple) sera le


suivant (Lang, 1995a, p. 216-217) :

- boucle sur les NU? premiers points : j = 1, NU2


Les bornes de l’intervalle seront recherchées de façon à avoir :

’~c~,(~/Nc)~.(~-~/Nc)N~-~ =0.05
k=O
et
/Lt,+e,(0.95)-I

Cc~,(j/~~)k.(l-jihiC)NC-k =0.95
k=O
- construction de la deuxième moitié de la courbe par symétrie : j = 1, NCR.

~,,~(0.05)= 430.95) et E,,,(O.95)= - E;(O.OS>

On peut montrer (Lang, 1995a, p. 217-218), que le test de stationnarité précédent est
identique, que l’on travaille sur la variable aléatoire m,, nombre de crues sur un intervalle de
temps, ou sur la variable aléatoire tj, date d’occurrence de lajo crue.

(ii) Caractère saisonnier

Ouarda et al. (1993) proposent une représentation continue du nombre total d’événements
N(t), observés pendant la période [0 ; t] de chaque année. Une saison est relative à une partie
du graphe où l’intensité dN(t)/dt est constante (Fig. 9.7) :
faible saison - saison
NU),, forte
seuil Sl
S1

seuil s2
S2

seuil s3
S3
seuil s4
S4

Sl <s2 <s3 <s4

I >t
>1
O’N’D’J ‘F ‘M’A’M’J ‘J ‘A S

Fig.9. 7 : Variation du nombre moyen de valeurs sup-seuil dans l’année

(iii) Prise en compte des lacunes

. Echantillonnage F-x

Cet échantillonnage consiste à retenir la plus forte valeur de chaque année : à l’aide de quel
critère faut-il décider d’éliminer une année en raison d’un nombre trop élevé d’informations
manquantes ? Il n’y a pas de solution vraiment satisfaisante. Certains fixent un pourcentage
minimum d’observations par année en-dessous duquel l’année est considérée globalement
comme non observée, et au-dessus duquel les lacunes sont ignorées. Il est possible de
contourner le problème en réduisant le nombre des lacunes. Au niveau global de la chronique,
il est possible de prendre en compte les lacunes en retenant pour le nombre d’années de la
chronique non pas le nombre d’années validées sans lacunes mais la durée exacte
d’observations.

. Echantillonnage GS, w,(t)

Les lacunes sont beaucoup plus faciles à gérer puisqu’elles ne concernent que les épisodes
sup-seuil. Il est toutefois recommandé d’essayer de combler les lacunes lorsque cela est
possible. L’échantillonnage GS est directement opérationnel, avec des valeurs XS moins
influencées par les lacunes que les valeurs X*, et une durée globale de mesure égale à la durée
exacte d’observations. L’échantillonnage w,(t) est moins influencé par les lacunes que

166
l’échantillonnage Fr, mais il nécessite également une clause de rejet des années où le
pourcentage d’observations est trop faible.

. Test de stationnarité et test sur la distribution de la durée de retour

Dans les deux cas, il est nécessaire de comptabiliser les durées en décomptant les périodes en
lacune. Pour le test de stationnarité, où l’on étudie m, en fonction de t, le temps t correspond à
la durée cumulée d’observations depuis le début de la chronique. Pour la durée de retour,
durée séparant deux événements, on décompte les lacunes éventuelles.

9.5. Techniques d’échantillonnage des valeurs sup-seuil

9.5.1. Application des tests précédents aux valeurs sup-seuil

Les différents tests vus aux paragraphes précédents ont été programmés, et donnent, pour la
station hydrométrique de Theil sur I’Orgeval [ 1962; 19911, les résultats indiqués aux figures
9.8 à 9.14.
La figure 9.8 montre que les crues ont été plus fréquentes sur la période [1978; 19801,
avec un nombre de crues sup-seuil qui sort juste de l’intervalle de tolérance à 90% de la
variable m,. La figure 9.9 indique qu’il y a une seule saison de crues, couvrant la période
comprise entre les mois de décembre et d’avril. La figure 9.10 est difficilement exploitable
pour le choix d’une loi modélisant le processus. La figure 9.11 est plus explicite et elle permet
de conclure à une meilleure adéquation de la loi de Poisson. Les figures 9.12 à 9.14
fournissent des éléments d’aide au choix du seuil, et conduisent à retenir la valeur S = 1 m3/s,
permettant d’avoir en moyenne un peu plus de deux épisodes sup-seuil par an, tout en
acceptant l’hypothèse d’un processus de Poisson.
L’ensemble de ces tests doit permettre d’optimiser la constitution des échantillons et
d’ajuster correctement les lois de probabilité sur les variables à étudier, le nombre de crues par
épreuve et les valeurs sup-seuil. Notons toutefois que ces procédures automatisées ne
dispensent pas I’hydrologue d’approfondir certaines étapes de vérification. Un test simple
consiste à mettre en vis à vis les chroniques de débit et les chroniques de précipitations du
bassin versant et à contrôler empiriquement la bonne cohérence de l’ensemble. Un autre test
consiste à faire une analyse de sensibilité des résultats recherchés à la variation de tel
paramètre (valeur du seuil, chronique de travail, choix du poste . ..) pour déterminer ce qui est
important et ce qui est accessoire.

9.5.2. Limitation des algorithmes actuels d’échantillonnage

La plupart des logiciels proposent l’extraction de valeurs supérieures à un seuil à partir de


fichiers de valeurs journalières. Les logiciels du Cemagref (QDF, CARACB, IDF, CARACP)
proposent l’extraction de valeurs sup-seuil centrées ou non centrées, pour n’importe quelle
durée de variable (de l’instantané à 30 jours) et deux types de variables (valeur moyenne ou
valeur seuil), à partir de fichiers à pas de temps variable ou de fichiers de valeurs journalières.
La limitation est d’ordre théorique : les procédures diffèrent suivant le fichier de travail (pas
de temps variable ou pas de temps fixe) et pour certaines ne sont pas exemptes de défauts.

167
Temps t (corrigb des lacunes)

Fig.9. 8 : Test sur la stationnarité du processus

I = 0. your

I= : & 2
6
s+
- - - -
- -

3-1
- -
P
2
z
10

0 - - -
9 10
- dl 12
0 1 2 3 4 5 6 7 8
No Mois

Fig. 9.9 : Test sur le caractère saisonnier du processus

168

~~ - 1
Seuil = 1 ,OOtWs ; d =lO.OOjour ; E(M) = 1.53 ; Var(M) = 2.19
Y
12.5

0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0
n

Fig. 9.10 : Choix de la loi du processus : distribution du nombre moyen de crues sup-seuil

3.5
LOI

3.0

1
2.54

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.6 0.9 1.0 1.1 1.2 1.3 1.4 1.5
Dur& de retour d -dO (an)

Fig. 9.1 I : Choix de la loi du processus : distribution de la durée de retour

169
0.0 ’ l”“““‘l”“““‘1”‘“““I’““““I’“‘““‘I”’”””I””””’I”””“‘I”‘““’
0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
Seuil S (m3k)

Fig. 9.12 : Choix du seuil : variation du dépassement moyen au-dessus du seuil en fonction du seuil

1
2.0

m
0
a
2 1.5
2
0
s
5
61.0
E
P
2
z
0.5

0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
Seuil S (m3/s)

Fig. 9.13 : Choix du seuil : variation du nombre moyen de crues sup-seuil en fonction du seuil

170

T--------- 1 - --
respect du ratb R=l de la Id de Poisson ; d =lO.OOjour
2.5
li

0.0 I”“““‘I”“““‘I”“““‘I”“““‘I”“““‘I””””’1””””’l””’i”‘l”“~‘~~~
0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
Seuil S (m3k)

Fig. 9.14 : Choix du seuil : variation de l’indice de dispersion 1, en fonction du seuil

On note deux défauts principaux :

- pour les débits moyens VCXd, le seuil S servant à définir l’épisode sup-seuil correspond à
une valeur instantanée, alors que la variable étudiée est définie comme une moyenne sur une
durée d : il n’y a pas cohérence entre la variable sup-seuil et le seuil d’extraction (Fig. 9.15).

Q Extraction VCXd Q Extraction QCXd

T (Déblt moyen maximum sur la aurée d)

T
(Déblt S~UI,déwsé sur la durée d)

épisode trop court

>t )t

Fig. 9.15 Modes classiques d’extraction des valeurs sup-seuil en VCXd et QCXd

La figure 9.16 montre le cas d’un épisode où aucune valeur ne serait sélectionnée avec la
procédure classique (car la durée de l’épisode est inférieure à la durée d), alors que le débit
VCXd est supérieur au seuil S :
- aucune contrainte n’est imposée pour la séparation des épisodes (durée minimale
d’espacement ou redescente du débit entre deux épisodes).

9.5.3. Décomposition du problème en deux étapes

Les algorithmes d’échantillonnage qui sont maintenant proposés ont pour objectif d’unifier la
procédure d’extraction des valeurs sup-seuil, quels que soient la durée d étudiée, le type du
fichier (pas de temps fixe ou pas de temps variable) et le type de la variable (valeur moyenne
OLI valeur seuil, sur une durée d).

La procédure sera systématiquement décomposée en deux étapes :

- transformation de la chronique de base en chronique de travail : chronique X(t) non


transformée pour l’extraction des valeurs instantanées Q1X, chronique Xd(t) de moyennes
mobiles pour l’extraction des valeurs moyennes maxima VCXd, ou chronique XN&t) de
minima mobiles pour l’extraction des valeurs seuils maxima QCXd.
- extraction des valeurs supérieures à un seuil S à partir de la chronique de travail : avec des
contraintes sur la redescente de la variable de travail entre deux épisodes et une durée
minimale d’espacement entre deux valeurs sup-seuil.

Les algorithmes de transformation d’une chronique X(t) à valeurs instantanées en


chronique Xd(t) à valeurs moyennes mobiles ou XN&t) à valeurs minima mobiles, où :

Ii-<//2
Xd(t) =+ /X(z).dz et XNd(t) = InfX(t) avec tE [t; t+dj
r-d/2

sont décrits par Lang (1995a, p. 239-241; 247-248).

L’algorithme d’extraction de la valeur maximum de chaque épisode est le suivant :

- étape 1 : extraction des valeurs X,$ supérieures au seuil S, vérifiant une condition de
redescente sur X entre deux épisodes et une condition sur la continuité des mesures.
Il est utile de définir (Fig. 9.17) un indicateur ZSEUZL(t) prenant les valeurs :

. ZSEUIL(t) = - 1, si une lacune antérieure n’a pas encore été suivie d’une période de mesure
avec (X(t) < S) et (X(t) < a.Xnzux);
. /SEUIL(t) = 0, si X(t) respecte les conditions (X(t) < S) et (X(t) < a.Xmux), où Xmax est
le dernier maximum repéré et a est le coefficient imposant une redescente sur X(t) entre
deux épisodes;
ISEUIL(t) = 1, si un épisode sup-seuil est en cours; un épisode débute si (X(t) > S) et
~ZSEUZL(tprec.) = 0) et finit lorsque (ZSEUZL(t) = 0) .
A chaque fois que l’indicateur ZSEUZL passe de la valeur 1 à 0, on stocke une nouvelle
valeur sup-seuil.

- étape 2 : rejet, parmi l’échantillon des valeurs XI des valeurs trop rapprochées.
On élimine la valeur la plus faible de tous les couples X$ successifs espacés d’une durée
inférieure à CI,,,,“.Lorqu’il existe une série de n valeurs successives ( XT(l), . . . . X,(n) j, séparées
chacune de moins de d,,,,, la procédure est la suivante :

. classer la série par valeurs décroissantes : X\(l) 2 X,(2) . . . 2 X\(n)


. pour i = 2 à IZ, ne garder la valeur X,(i) que si elle est éloignée de plus de d,,,,”chacune des
(i- 1) valeurs précédentes.

X ou Xd ou XNd

Fig. 9.17 : Mode d’extraction de la valeur maximale d’un épisode sup-seuil

9.5.4. Visualisation des chroniques hydrométriques

Les algorithmes d’échantillonnage ont été programmés et donnent, pour la station


hydrométrique de La Foulerie sur la Hoëne [ 1979; 19911, les résultats indiqués aux figures
9.18 à 9.2 1. La figure 9.18 présente la chronique de base et les deux chroniques transformées
qui vont être utilisées pour extraire les valeurs sup-seuil en débits VCXd et QCXd. Sur la
même période considérée, du jour 30 au jour 40 de l’année 1980, avec le même seuil
d’extraction S = 1 m3/s, la même procédure extrait 5 valeurs sup-seuil en débit instantané QZX
(Fig. 9.19), 2 valeurs sup-seuil en débit moyen maximum sur 24 heures VCX24h (Fig. 9.20) et
3 valeurs sup-seuil en débit-seuil maximum dépassé de façon continue sur 24 heures QCX24h
(Fig. 9.21).

173
COMPARABON DES CHRONIQUES POUR L’fiXTFlACTlON
des QIX(val.Q),des VCXd(val.Qd),des QCXd(val.QNd)

Fig. 9.18 : Visualisation de la chronique de base et des chroniques de moyennes et minimums mobiles

VALEURS SUPSEUIL EN DEBIT DE POINTE QIX


HOENE;S=1 m3/s;l930

Fig. 9.19 : Visualisation des valeurs sup-seuil en débits de pointe QlX

174

-
VALEURS SUP-SEUIL EN DEBIT MOYEN VCXd
HOEiNE;S=l mW~;d=ljf.wr; 1980

Fig. 9.20 : Visualisation des valeurs sup-seuil en débits moyens VCXd

VALEURS SUP-SEUIL EN DEBIT SEUIL QCXd


HOENE;S=l mWs;d=ljour; 1980
4.0

3.0: [-TjG&Gy

f’.“:
%2.0-
1 1.5- ;
I 1.0 f" Y
/ I I

0.5-

Fig. 9.21 : Visualisation des valeurs sup-seuil en débits seuils QCXd

175

-
9.6. CONCLUSION

La technique de l’échantillonnage par valeurs supérieures à un seuil a fait l’objet de


nombreuses publications. On notera l’apport particulier des hydrologues français, notamment
de J. Bernier, qui est l’un des premiers à avoir effectué des applications de la théorie du
renouvellement à l’hydrologie, et J. Miquel, qui a présenté très clairement dans son ouvrage
“Guide pratique d’estimation des probabilités de crues” les méthodes d’analyse statistique des
valeurs supérieures à un seuil.
Les éléments de cet article, qui synthétisent les travaux de Lang (1995a), et qui
concernent les algorithmes d’échantillonnage, la description du processus et le choix du seuil,
devraient favoriser l’utilisation de la méthode du renouvellement en hydrologie. Dans ce but,
un logiciel dédié à l’échantillonnage des valeurs supérieures à un seuil sera diffusé
prochainement par le Cemagref.
On notera enfin que le champ d’utilisation de la méthode du renouvellement reste très
vaste (Feller, 1966; Cox, 1966) et que de larges développements sont possibles, en particulier
à l’aide de toute la gamme de processus pouvant être décrits par cette méthode. On pourra se
référer à la synthèse de Rasmussen et al. (1994) ou à Lang (1995a) pour consulter un état de
l’art des différentes applications de cette méthode à l’étude statistique des crues.

176
Bibliographie

ASHKAR, F.; ROUSSELLE, J. (1983a) ‘Some remarks on the truncation used in partial flood
series models’. Wat. Res. Res., Vo1.9, n”2, 477-480, avril.
ASHKAR, F.; ROUSSELLE, J.( 1983b) ‘The effect of certain restrictions imposed on the
interarrival times of flood events on the Poisson distribution used for modeling flood
counts’. Wat. Res. Res., Vo1.9, n”2, 48 l-485, avril.
ASHKAR, F.; ROUSSELLE, J.(1987) ‘Partial duration series modeling under the assumption
of a poissonian flood Count’. J. of Hydrology, 90, 135-144.
ASHKAR, F.; BOBEE, B.; RASMUSSEN, P.; ROSBJERG, D. (1994) ‘A perspective on the
annual maximum flood approach to flood frequency analysis’. Stochastic and statistical
methods in hydrology and environmental engineering, Vol. 1, Extreme Values : floods
and droughts, Ed. by K.W Hipel, Water Science and Technology Library, 3- 14.
BASS, J. (1974) ‘Eléments de calcul des probabilités ‘. Ed. Masson et Cie, 3”ed., 275~.
BEN-ZVI, A. (1991) ‘Observed advantage for negative binomial over Poisson distribution in
partial duration series’. Stochastic Hydrology and Hydraulics, 5, 135- 146.
BEN-ZVI, A.( 1994) ‘Fit of probability distributions to Upper sub-samples of partial duration
series’. Stochastic and statistical methods in hydrology and environmental engineering,
Vol. 1, Extreme Values : floods and droughts, Ed. by K.W Hipel, Water Science and
Technology Library, 95- 107
BERNIER, J. (1967) ‘Sur la theorie du renouvellement et son application en hydrologie ‘.
Rapport EDF, HYD 67,N’ 10,22p.
BERNIER, J. (198 1) ‘Le modele de renouvellement non stutionnaire’. Rapport EDF, HE 40
81-l 1, 36~.
BOIRET, P. (1987) ‘Analyse des précipitations de 6 mn ù 24 h par une méthode du type
renouvellement’. Note de travail du service central d’exploitation de la météorologie,
N” 19, MELATT, Meteo Nationale, 34~.
BORGMAN, L.E (1963) ‘Risk criteria’. Proc. of A.S.C.E, Vol.89, N”WW3, l-35, août.
CFGB (1994) ‘Les crues de projet des barrages : méthode du GRADEX’. 18” congrès CIGB-
ICOLD n”2, nov., Bulletin du Comité Français des Grands Barrages, 96~.
COX, D.R. ( 1966) ‘Théorie du renouvellement’. Monographies Dunod, 186~.
CUNNANE, C. (1973) ‘A particular comparison of annual maxima and partial duration series
methods of flood frequency prediction’. J. of Hydrology, 18, 257-271.
CUNNANE, C. (1979) ‘A note on the Poisson assumption in partial duration series models’.
Wat. Res. Res., Vol. 15, N”2,489-494, avril.
DAVISON, A.C; SMITH, R.L (1990) ‘Mode]s for Exceedances over High Thresholds’. J. R.
Statist. Soc., B, 52, N”3, 393-442.
FELLER, W. (1966) ‘An introduction to Probability theory and its applications’. John Wiley
& Sons, Inc. New Jork, Vol.11.

177
GUILLOT, P.; DUBAND, D. (1967) ‘La méthode du GRADEX pour le calcul de la
probabilité des crues à partir des pluies’. Colloque International sur les crues et leur
évaluation, Leningrad, 15-22 Août, IASH, publication n”84, 560-569. Symposium
International d’Hydrologie, Fort Collins, sept.
GUMBEL, E. J. ( 1958) ‘Stutistics of extremes’. Columbia Univ. Press.
LANG, M. (1995a) ‘Les chroniques en hydrologie : Modélisation comparée pur un systkme
de gestion de bases de données relationnel et orienté-objet; Traitements de base et
intervalles de confiance des quantiles de crues; Techniques d’échuntillonnage pur lu
méthode du renouvellement’. Thèse de doctorat, Université Joseph Fourier Grenoble,
Cemagref Lyon, mai, 296~.
LANG, M. (1995b) ‘Techniques d’échantillonnage par la méthode du renouvellement’.
Séminaire inter-chercheurs “les modèles au Cemagref”, tome 1, Gif-sur-Yvette, ed.
Cemagref Antony, 89-98.
LANG, M.; RASMUSSEN, P.; OBERLIN, G.; BOBEE, B.( 1997) ‘Echantillonnage par
valeurs supérieures à un seuil : modélisation des occurrences par la méthode du
renouvellement’. Revue des Sciences de l’Eau, Vol. 3, 279-321.
LANGBEIN, W.B. (1949) ‘Annual floods and the partial duration flood series’. Transactions,
American Geophysical Union, Vo1.30, N”6, Dec., 879-88 1.
MADSEN, H.; ROSBJERG, D. (1994) ‘Application of the partial duration series approach on
a regional scale’. Nordic Hydrological Conference, Torshavn, NHP-report no 34, 379-
388.
MARGOUM, M. (1992) ‘Estimation des crues rares et extrêmes : le modèle AGREGEE.
Conceptions et premières validations’. Thèse de doctorat, Ecole des Mines de Paris,
Cemagref Lyon, GIS Hydrologie FRIEND-AMHY, 252~.
MARGOUM, M.; OBERLIN, G.; LANG, M.; WEINGARTNER, R. (1994) ‘Estimation des
crues rares et extrêmes : principes du modèle AGREGEE’. Hydrologie Continentale.
vol. 9 (1), 83-98.
MIQUEL, J. (1984) ‘Guide pratique d’estimation des probabilités de crue’. Ed. Eyrolles,
160~.
NADEN, P.S; BAYLISS, A.C (1993) ‘Flood estimation : peak-over-threshold techniques’.
MAFF Conference of River and Coastal Engineers, Univ. of Loughborough, 5-7 July,
9.1.1-9.1.18.
NORTH, M. (1980) ‘Time dependent stochastic mode1 of floods’. Proc. of the Amer. Soc. of
Civ. Eng., Vol. 106, HY5, 649-665.
OUARDA, T.B.M.; ASHKAR, F.; EL-JABI, N. (1993) ‘Peaks over threshold mode1 for
seasonal flood variations’. A.S.C.E Intern. Symp. of Engin. Hydrology, San Francisco.
California, 25-30 Juillet, 34 l-346.
PICKANDS, J. (1975) ‘Statistical inference using extreme order statistics’. The Annals of
Statistics, Vol.3, Nol, 119-131.
RASMUSSEN, P. ( 199 1) ‘The partial duration series upproach to jluod frequency unalysis’.
Inst. of Hydrodynamics and Hydraulic Engineering, thesis of the Technical University
of Denmark, Series Paper 55, ISVA, 138~
RASMUSSEN, P.; ASHKAR, F.; ROSBJERG, D.; BOBEE, B. (1994) ‘The POT method for
flood estimation : a review’. Stochustic and statistical methods in hydrology LUKI
environmental engineering, Vol.1, Extreme Values : jloods and droughts, Ed. by K.W
Hipel, Water Science and Technology Library, 15-26.
ROSBJERG, D. (1985) ‘Estimation in partial duration series with independent and dependent
peak values’. J. of Hydrology, 76, 183- 195.

178
ROSBJERG, D. (1993) ‘Partial dumtion series in water resources’. Inst. of Hydrodynamics
and Hydraulic Engineering, thesis of the Technical University of Denmark, 33~. + 13
notes.
SHANE, R.M.; LYNN, W.R (1964) ‘Mathematical mode1 for flood risk evaluation’. J of the
Hydraulics division, Proc. of the Amer. Soc. of Civ. Eng., HY6, l-20.
TAKEUCHI, K. ( 1984) ‘A nnual maximum series and partial duration series : evaluation of
Langsbein’s formula and Chow’s discussion’. J. of Hydrology, 68, 275-284.
TAVARES, L.V.; DA SILVA, J.E. (1983) ‘Partial duration series method revisited’. J. of
Hydrology, 64, 1- 14.
USWRC (1976) ‘Guide Zines for determining flood J!O~ frequency’. United States Water
Resources Council, Bull. 17, Hydrol. Comm. Washington, D.C, 73~.
VENTSEL, H. (1973) ‘Th éorie des probabilités’. Ed. Mir, Moscou, 563~.
VUKMIROVIC, V. (1990) ‘Analiza verovatnoce pojave hidroloskih velicina’ ( Analysis of
probability of occurrence of hydrological variables ; in serbian). Faculty of Civil Eng.
and “Naucna knjiga”, Belgrade, 173~.
VUKMIROVIC, V.; PETROVIC J. (1995) ‘Flood flow analysis using renewal processes’.
FRIEND-AMHY Annual Conference, Thessaloniki; 25-27 sept., 12~.
WANG, Q.J (199 1) ‘The POT mode1 described by the generalized Pareto distribution with
Poisson arriva1 rate’. J. of Hydrology, 129, 263-280.

179
10. Complémentarités et différences de
trois méthodes d’estimation des
probabilités des débits de crue :
Renouvellement, Gradex, Agregee

J. MIQUEL
Electricité de France DEPT DTG
Service Ressources en Eau
Abstract

There are many techniques for estimating the return periods of floods: for France alone, in addition to
traditional techniques like the probable maximum flood, three approaches are presently widely used:
the peak over thresholdlrenewal theory, and the Gradex and Agregee methods. One may wonder why
there are SOmany approaches and whether each technique actually fits to specific working conditions.
TO attempt to give an answer to that question, the three methods are briefly reviewed and we recall
the assumptions on which they are based, their limits and their conditions for operational application.
A new avenue of improvement Will be suggested with a new estimator for the renewal theory based
approach. Finally, these techniques are implemented and discussed for the example of the river Allier
at Veurdre.

Résumé

Les méthodes d’estimations des probabilités de crue sont nombreuses : rien qu’en France, en plus des
méthodes traditionnelles de type “Maxima annuels”, trois méthodes sont actuellement assez largement
utilisées : le RENOUVELLEMENT, le GRADEX et AGREGEE.
D’aucun peut se demander si elles sont redondantes, où bien si elles correspondent à des conditions
d’applications différentes.
Pour tenter de répondre à cette interrogation, nous examinerons ces trois méthodes, nous rappellerons
brièvement leurs principes, leurs conditions et limites d’utilisation. Nous suggérerons une piste de
progrès concernant l’une d’elle (estimateur RenGrad pour le RENOUVELLEMENT). Enfin nous
commenterons l’application de ces méthodes sur un exemple : l’Allier au Veurdre.

181
10.1. BREF RAPPEL DES PRINCIPES DES TROIS METHODES

10.1.1 La méthode du Renouvellement

La méthode du Renouvellement, initialement apparue avec les problèmes de fiabilité de


composants électroniques et de pannes de machine (COX, 1962), a été introduite en France
pour l’estimation des probabilités des crues par BERNIER en 1967, puis progressivement
développée et adaptée pour une utilisation de plus en plus large (BERNIER et MIQUEL,
1975 ; BERNIER, 1979 ; MIQUEL, 1984 ; LANG, 1995).
Cette méthode utilise les débits moyens journaliers ou instantannés comme information de
base pour estimer la probabilité annuelle du débit le plus fort. A la différence de la très
classique méthode des “Maxima Annuels”, elle retient comme échantillon de travail, non
pas le débit le plus fort de chaque année observé, mais l’ensemble des débits maxima de
toutes les crues qui ont dépassé une valeur seuil S, au cours de l’année. Le choix judicieux
de cette valeur seuil garantit de retenir toute l’information intéressante, et d’exclure les
débits qui ne correspondent pas à des crues significatives.
Dès lors, on distingue deux échantillons :
- le nombre de crues k ayant dépassé le seuil S au cours de l’année.
- l’amplitude en débit Q de chaque crue ayant dépassé le seuil.

En général une loi de Poisson P(k) de paramètre p modélise bien le premier échantillon, et
une loi de Weibull G(Q) de paramètres p et p le second :
k
P(k) = e-p.l-( (10-l)
k!
G(Q) = 1 - e- p (Q-s)P (10-2)
Il peut arriver qu’une loi double exponentielle de paramètres 0, p,, p2 convienne mieux :
-pl (Q-8 -p2 (Q-9
G(Q) = l-8. e - (l- 0) .e avec 8 < 1 (10-3)

Sous les hypothèses de stationnarité et d’indépendance, il est possible d’établir la


probabilité annuelle de ne pas dépasser un débit Q :
En appelant F [Q] = Prob [débit le plus fort de l’année < Q]
F [Q] = = 2 P(k).G(Q) (10-4)
k=O
Remarques :
-ILL~-G(Q)1
- Si P(k) est la loi de Poisson, F[Q] = e
- De plus lorsqu’on s’intéresse à des crues assez rares (Q > Q décennal), ce qui est le cas
général, alors G(Q) est proche de 1, et un développement limité permet d’obtenir
l’approximation suivante :
FtQl= 1- I-L[I-G(Q)1 (10-5)

182
L’utilisation de l’estimateur du maximum de vraisemblance, et de l’analyse bayesienne,
permettent d’estimer les paramètres p, p, p, les intervalles de confiance, et ceci en tenant
compte, le cas échéant, d’une information “historique” (les plus forts débits de crue pendant
une période complémentaire). La figure 10-1, extraite de (MIQUEL, 1984) illustre
l’application de cette méthode au cas de la Garonne au Mas d’Agenais (Bassin versant de
52.000 km*)

10.1.2 La Méthode du GRADEX

Publiée la première fois en 1967, (GUILLOT et DUBAND, 1967), cette méthode a été
perfectionnée à l’occasion d’applications à plus de 200 cas d’étude (BOUVARD et groupe
de travail CFGB, 1994), et parfois prolongée (OBERLIN et MARGOUM, 1993).
Cette méthode propose une estimation probabiliste des débits de crue en prenant en compte
non seulement l’information hydrométrique, mais également l’information pluviométrique.
Elle repose sur trois hypothèses fortes :
- Hypothèse 1 : la distribution G (Pz) des pluies P précipitées pendant une durée z (pouvant
varier de quelques heures à quelques jours) est à décroissance exponentielle simple de
coefficient aT (Gradex). Cette hypothèse entraîne que la distribution F (PJ des pluies
maximales annuelles est une loi de Gumbel :

PT - Po Pz- Po
G(PJ=1-e aZ etF(PJ=l -eee aZ (10-6)

- Hypothèse 2 : lorsque le sol est saturé, tout excédent de pluie pendant une durée t se
transforme en excédent de débit pendant la même durée t. Au cours d’un épisode très
important, le sol va progressivement se saturer, de sorte qu’à partir d’un certain moment
cette hypothèse sera pertinente. Elle permet d’affirmer que la distribution des débits a le
même comportement asymptotique que celle des pluies :

Q,(T) = Q,(To) + ar log (T/To) avec T> T,, (10-ï’)


Q,est égal au volume écoulé pendant la durée z, divisé par la surface du bassin, T est la
période de retour, et T,, est la période de retour de l’événement à partir duquel on considère
le sol saturé.

- Hypothèse 3 : la loi de probabilité des débits instantanés maxima se déduit de la loi des
débits moyens Q,par une affinité de rapport Y, constant, de sorte que :

Q(T) = Q(To) + a. log (T / TO) avec Q>Q,, et a = a,r, (10-S)

Q,, est le débit maximum instantané de l’événement, de période de retour T, à partir duquel
on considère le sol saturé. Par la suite le point [Q,, , T,,] sera appelé « point pivot » ou
« seuil d’extrapolation ».

183
MAS D’AGENAIS

%?“Il I 2500 m%
j.t II 2,36
P - 4000250
P . 1,167

,0,00025 (Q-2500)“‘67
T(Q) :
2.36

pour a > 5700 m’/s


En pratique, le choix de la durée z et du seuil Q,, relève de l’expérience du projeteur. La
durée T est en général prise aux alentours de la durée moyenne de l’hydrogramme de
ruissellement direct et le produit a,r,doit normalement être insensible au choix de z au
voisinage de cette valeur. D’autre part le seuil Qo, qui représente le débit au-delà duquel on
considère que le sol est saturé, est en général pris égal au débit décennal (calculé en
ajustant les débits maxima annuel à une loi de Gumbel). Si le sol est très perméable, et/ou
que la lame d’eau n’est pas homogène sur le bassin, la limite de saturation pourra être
reportée à une valeur de débit plus importante (correspondant aussi à une période de retour
plus importante comme 20 ans, voire 50 ans).
La figure 2, extraite de (BOUVARD et groupe de travail CFGB, 1994), illustre
l’application de cette méthode au cas de l’Allier au Veurdre (Bassin versant de 14.000
km*).

10.1.3 La méthode AGREGEE

Lorsque l’hypothèse de saturation de la méthode du GRADEX n’est pas vérifiée (bassin très
perméable par exemple), les estimations fournies par la méthode du GRADEX pourront
être jugées majorantes, sans que l’hypothèse de comportement asymptotique ne soit, elle,
remise en cause. 11 s’en suit qu’au lieu d’avoir deux domaines de formes différentes de la
distribution des débits (en dessous et au-dessus du débit de saturation), il apparaît
intéressant de distinguer 3 domaines :
- le domaine des crues observables, qui peut être appréhendé par les méthodes statistiques
appliquées aux séries de débits (Maxima Annuels, Renouvellement, etc...),
- le domaine des crues extrêmes, dont la méthode du GRADEX permet d’évaluer le
comportement asymptotique,
- un domaine intermédiaire de transition entre les deux domaines précédents, et dont une
analyse spécifique doit permettre de mieux préciser les événements de période de retour
100 à 1 000 ans.

185
(
100

90

80

7c , .

6C,

SCl

4(

3(

2(

1,

,
-2 -1 0 1 2 3 4 5 6 7
"St
7000

5ooc

400(

30013 .

200 O-

0 .

0
-2 -1 0 1

Fig. l O-2:Application du Grudex WI cm de I’Alliel- CY/IU


Ve~ttdre

186

1 -- ---
C’est à ce domaine là qu’AGREGEE apporte une contribution originale, même si l’outil
traite l’ensemble des trois domaines. En effet, à quelques variations près, la méthode
.AGREGEE s’appuie sur les méthodes du type RENOUVELLEMENT pour le domaine des
crues observables, sur la méthode du GRADEX, au moins asymptotiquement pour le
domaine des crues extrêmes, et propose un, et même plusieurs modèles pour le domaine
intermédiaire.
Sa seconde originalité est de ne pas limiter l’étude aux seuls débits maxima, mais de
l’étendre aux débits moyens sur différentes durées, et par cohérence d’en retirer des
informations en termes de formes d’hydrogrammes.
En ce qui concerne le domaine intermédiaire, l’approche d’AGREGEE consiste à exprimer
que le coefficient du « gradex » des pluies évolue progressivement entre une valeur a,JT,,)
et a quand la période de retour varie de T,, vers + 00, et de façon analogue entre no (T,,) et a
pour les débits. T,,correspond à la période de retour du « point pivot » du GRADEX. Ces
« gradex » transitoires sont appelés « pseudo gradex » . Cela suppose en particulier que la
loi suivie par les pluies est seulement asymptotiquement exponentielle.
Initialement trois modèles d’évolution étaient proposés :

- AGREGEE “Esthétique” : on considère que a,,(T) = a ~ T et


T+a
T T2
a, CT) = a,, CT) . ~ donc u(, (T) = u
T +CL’ (T + a) (T-t d)
(a et 6 sont des constantes calculées grâce à une condition de raccordement au domaine
observable).
Dès lors:

QV,= QV0) + (&-*(~Jog[=&log[~])~~ T>T,, (10-9)

- AGREGEE “Progressif” : en utilisant une forme a priori de fonction de rendement pluie-


débit, on obtient la formulation suivante :

a, CT) = II,, CT) [l - (g+g] (10-10)

(c et d sont des coefficients d’une fonction de rendement pluie-débit de type Soi1


Conservation Service)
- AGREGEE “Intégré” : la forme de variation de a,, est analogue à AGREGEE
“Esthétique”, mais le calage des constantes n’est pas fait sur la valeur limite du domaine
observable, mais sur d’autres caractéristiques statistiques (moyenne des débits entre autres).
Le modèle d’évolution considéré actuellement comme le plus opérationnel est AGREGEE
” Esthétique “.

La figure 10.3, extraite de (MARGOUM, 1992), illustre l’application de cette méthode au


cas de la Massane à Mas d’en Torrent (Bassin versant de 17 km’).
REPRESENTATION DE AGREGEE A LA MASSANE PDT = 0 500 JOUR
J
l l / l
250 -OI IDES R AJUSTEE SQMME13E 2 EXPOS 1
LOI IDES Q AJUSTEE ~01 EXRONEN:,ELEI
! I ; .”
i !
;’: ..i ’; ,i
Ii ; Y : i

5.10' 1'10' 5'10' 1.10' 5.10’ 1vo SlO’ l*lo’ 5‘10’ l’!O’ 5’10

Période de Retour ns)


AGREGEE à MAS d’en TORRENT sur la UkFsAN E, pdk0.S jour. GP est une
somme d’exponentieiks, et G, est une exponenrielk.

REPRESENTA TICIN DE AGREC ;EE E A LA MASSANE PDT = 0 500 JOUR

1
JUSTEE : ibk
w
,
/ I
DE 2 EXPOS
1
JUSTEE !$04ilME DE 2 EXPO5
l .’
,’
i

5.10‘ 1-10' 5.10' 1.10' 5.10' ,*10' 5-104 1’10’ 5.10’ 1’10’ 5” 0’

Période de Retour (Ts)


AGREGEE b AL.A.Sd’en TORRENT sur la MASSANE, pdt=O.S jour. Gp et G, sont
des somme d’exponentielles.

Fig. IO-3:Application de Agregee (ILL CU de la Massme à Mas d’en TOI-rent

188
10.2. CONDITIONS ET LIMITES D’UTILISATION DES TROIS
METHODES
Aucune des trois méthodes décrites précédemment ne peut prétendre répondre à tous les
besoins. Par contre il est rare qu’aucune d’entre elles ne puisse répondre à un problème
posé.
Les critères faisant pencher la balance vers l’une ou l’autre méthode sont :
- la taille du bassin versant et sa nature,
- l’information disponible : pluie et/ou débit, séries courtes ou longues, information
“historique” disponible ou non,
- l’objectif visé : estimation de crues de période de retour inférieure à 100 ans, entre 10 et
1000 ans, supérieure à 1000 ans.

10.2.1 La méthode du RENOUVELLEMENT

Cette méthode analysant directement le processus des débits, elle s’appliquera sans
difficulté pour estimer des crues dans le domaine des crues observées, et ceci quel que soit
le bassin versant, notamment de grande taille. Par exemple, si l’on dispose de quelques
dizaines d’années de débits, on peut espérer en général obtenir une estimation des crues
jusqu’au centennal, et parfois jusqu’au millenal si on dispose en plus d’information
historique. Dans ce dernier cas, il faudra toutefois être attentif au fait que la méthode du
RENOUVELLEMENT, comme toute analyse statistique d’un échantillon n’est pertinente
que si cet échantillon est homogène et représentatif de la diversité des phénomènes qui
produisent les débits.
Pour un grand bassin versant, sauf cas bien identifiables d’effets de concomitante entre
grands affluents qui obligent à une analyse de leur composition, les débits peuvent être
considérés comme résultant d’une multitude de causes, sans que l’une d’elle ne prenne le
dessus, et ceci dans la gamme des événements observés ou ” raisonnablement ” plus
importants. Dans le cas de petits à moyens bassins versants (10 000 km* et moins), le
mécanisme de saturation des sols, de même que l’arrosage relativement homogène du
bassin, même pour des épisodes soutenus peut faire craindre que certaines causes ne
deviennent prépondérantes lorsqu’un événement dépasse une certaine valeur : autrement
dit la population des événements ” courants ” n’est plus homogène avec celle des
événements violents.
A noter à son actif que cette méthode bénéficie de procédures d’estimations prenant bien
en compte les différents types d’information, et d’évaluation des incertitudes
d’échantillonnage.
Pour résumer, la méthode du Renouvellement donne les meilleurs résultats dans le
domaine de l’observable, ou faiblement extrapolé (période de retour 100 ans, 1000 ans
maximum), lorsqu’on dispose d’information suffisante en débits (30 ans plus de
l’information historique sur au moins un siècle) et que le bassin versant est assez grand (de
préférence S 2 10 000 km2).

189
10.2.2 La méthode du GRADEX

Si le comportement exponentiel de la distribution des pluies est le plus souvent vérifié, la


seconde hypothèse le sera d’autant mieux que la saturation des sols sera atteinte sur
l’ensemble du bassin, et ceci d’autant plus rapidement que celui-ci sera imperméable et de
taille limitée par rapport à la variabilité spatiale des précipitations. Et bien sûr aussi
d’autant plus que l’épisode est important. Tout concourt dans cette méthode pour que les
hypothèses soient d’autant mieux vérifiées que l’événement est extrême : d’où son intérêt
pour évaluer des événements de période de retour allant jusqu’au décamillénal. Pour des
événements plus ” modestes ” (du décennal au millénal) la procédure d’extrapolation à
partir d’un débit où la saturation est supposée atteinte peut conduire à une certaine
surestimation des quantiles dans le cas où cette saturation n’est pas atteinte dans la réalité.
Cette surestimation est jugée peu contraignante lorsqu’on s’intéresse à la sécurité
d’ouvrages, et donc à des crues de projet millenales ou décamillenales. En terme
d’information, alors qu’il est souvent assez rare de trouver de longues séries de débits sur
de petits bassins, le GRADEX permet d’exploiter des séries de précipitations en général
beaucoup plus nombreuses. Pour des bassins de taille supérieure, il est envisageable que
dans certains cas des découpages et des analyses par sous bassins puissent conduire à des
estimations enveloppes si la composition des sous bassins n’est pas trop complexe : ceci
est toutefois encore du domaine du développement.
Ainsi la méthode du GRADEX convient particulièrement bien lorsqu’il s’agit d’évaluer les
crues extrêmes (période de retour 1000 à 10 000 ans) générées sur un bassin versant de
taille modérée (inférieure à 10 000 km2), et lorsqu’une information en pluie et en débit est
disponible.

10.2.3 La méthode AGREGEE

La très forte parenté de la méthode AGREGEE avec celle du GRADEX conduit


naturellement à certaines conditions d’emploi analogues : bassin versant de taille modérée,
information en pluie et en débit.
Ce qui la différencie du GRADEX, c’est essentiellement le fait qu’elle propose une
estimation statistique adaptée aux événements de toute période de retour, et notamment de
100 à 10 000 ans : elle ne suppose plus que la saturation soit atteinte dès le débit décennal,
et cherche à éviter la surestimation éventuelle du GRADEX dans cette zone, ce qui est
important lorsqu’on s’intéresse à des dimensionnements qui ne requièrent pas des niveaux
de sécurité aussi draconiens que la construction d’un évacuateur de crue. Toutefois, ce gain
de précision dans les évaluations suppose que la distribution des pluies soit bien évaluée
quelle que soit la fréquence, et surtout que le modèle d’évolution entre le Gradex de
fréquences plus élevées vers celui des fréquences les plus faibles soit pertinent et bien
identifiable: c’est l’essentiel du travail réalisé récemment par les équipes qui développent
cette méthode.
L’autre apport important d’AGREGEE est de réaliser l’analyse précédente pour différent
pas de temps, et pas seulement le temps de ruissellement moyen. Dès lors, des
hydrogrammes synthétiques, respectant les distributions des “durées sur seuil”, peuvent
être établis et utilisés par les projeteurs en simulation.
Ainsi les domaines de prédilection d’AGREGEE correspondent aux cas où les bassins
versants sont de taille modérée (<lO.OOO km2), qu’une information en pluie et en débit est

190
disponible, qu’il s’agit d’évaluer aussi bien les crues intermédiaires (période de retour 100
à 1000 ans ) que observables ou extrêmes, et que l’on s’intéresse aux hydrogrammes et non
pas seulement à la valeur maximale des crues.

10.3. PERFECTIONNER LE RENOUVELLEMENT GRACE AU GRADEX

10.3.1 Le principe

Nous avons vu que pour les petits bassins versants la méthode du RENOUVELLEMENT
était rapidement limitée aux événements observables (périodes de retour inférieures à 100
ans) et celle du GRADEX plutôt aux événements extrêmes (périodes de retour supérieures
à 1000 ans). Or ces deux méthodes ont en commun une hypothèse de comportement
exponentiel. Pourquoi la loi double exponentielle utilisée pour le Renouvellement ne
pourrait elle pas être asymptotiquement la loi exponentielle du Gradex ?
Dès lors tous les domaines d’extrapolation (périodes de retour de 2 à 10 000 ans) seraient
représentés dans une même loi, dont les paramètres sont conjointement identifiés par le
comportement asymptotique (Gradex classique) et les débits observés, tout ceci sans
aucune hypothèse sur l’effet de la saturation plus ou moins complète, ni aucun modèle
complémentaire.
Comme AGREGEE, cette approche est une façon de résoudre le cas des crues rares, mais
cette fois en faisant l’hypothèse qu’une seule et unique distribution de probabilité,
accompagnée du mode traditionnel d’identification de ses paramètres, conviendra depuis le
domaine observable jusqu’à celui des crues extrêmes. L’avantage serait d’éviter de
combiner plusieurs lois reliées en un « point pivot », et de faire reposer davantage les
estimations des crues rares sur l’information historique.
Nous avons bien conscience que ce choix comporte ni plus, ni moins d’arbitraire que les
choix des autres méthodes : il présente seulement quelques commodités statistiques qui
auront un intérêt dans la mesure où l’utilisation pratique à des cas concrets s’avérerait
satisfaisante.

10.3.2 L’estimateur « RenGrad »

10.3.2.1 Renouvellement classique

Dans le cadre de la méthode du Renouvellement, lorsque la distribution des débits suit une
loi double exponentielle, la probabilité des crues maxima annuelle est donnée par
l’équation (10-4).
Si P(k), probabilité d’observer k crues supérieures au seuil S, peut être modélisée par une
loi de Poisson (Eq (lO- l)), ce qui est souvent le cas, alors :

Prob (Q) = zeep.’


k.G(Q)k
k, = e-p. ,PW) = e-/41-c@)l (10-l 1)
0

Si G(Q), la probabilité que le débit maximum instantané d’une crue supérieure au seuil
dépasse Q , est une loi exponentielle mélangée selon l’équation (lO-3), dans une première
approche les paramètres 1, 6, p, et p2 peuvent être estimés par l’estimateurs des moments :

191
p = NUNA (10-12)

où NC = nombre de crues et NA = nombre d’années


1
PI = (10-13)
l-8
m.[l +Jcvzr . -1
r- 20
1
PJ = (10-14)
1-O
n1.[1-JCVL-I. -1
Jr 28
fj=L-L u2
2 2 d4+u2
(10-15)

f(Q,-S-HZ)’
avec WL= I=l $= r=’
NC NC

cv?= 2 bP= i='


m2 NC
Y2
u= M”/m’-6CV2+4
6

10.3.2.2 Introduction de l’information Gradex

Si une analyse préalable par la méthode du Gradex a été effectuée, l’un des paramètres (p,)
est connu : il sera pris égal à l’inverse du « gradex ». Dès lors l’estimation des autres
paramètres s’effectue toujours par la méthode des moments mais cette fois avec les deux
premiers moments. On obtient finalement une première version très simple de l’estimateur
« RenGrad » :
p,= l/a, (10-16)

(a = estimation habituelle du « gradex P)


S2-V12
8=
2 4nz
s2-m2+2--
P’ P’

(10-18)

D’autres estimateurs pourraient être utilisés (Maximum de Vraisemblance, prise en compte


d’informations historique dans un cadre bayésien, critères d’écart comme le x2, etc.).
D’autre part 1’équation (10-17) peut être utilisée seule pour faire une analyse de sensibilité
sur 8.

,
192
10.4. DISCUSSION AUTOUR DE L’EXEMPLE DE L’ALLIER AU
VEURDRE

4.1 Présentation du cas


Nous utiliserons l’exemple cité dans (BOUVARD et groupe de travail CFGB, 1994), pages
46 à 53, pour lequel l’étude du Gradex avait déjà été menée. Il s’agit du bassin de l’Allier,
affluent rive gauche de la Loire, au Veurdre, dont la surface est de 14.000 km’.
Par souci d’homogénéité nous avons utilisé le catalogue des débits du Service
Hydrologique Centralisateur de 1852 à 1975, avec pour les grandes crues les débits
suivants :
1866 : 3650 m3/s
1856 : 3150 m3/s
1875 : 3000 m3/s

L’intérêt de cet exemple, est double :


- d’abord il existe une longue série de débits journaliers observés continûment depuis
1852 : ce qui permet de masquer certaines parties de l’échantillon et d’en déduire les
sensibilité des différentes méthodes.
- ensuite parce que 3 grandes crues historiques, dont au moins une probablement
largement plus importante que centennale, se sont produites en 1846, 1856 et 1866
(celle de 1846 n’apparaît toutefois pas dans l’échantillon continu qui commence en
1852).
On peut montrer qu’avec les critères classiques de test d’hypothèses au risque 95%, en
découpant l’échantillon total en quatre sous échantillons de 32 crues, la période 1852-1876
n’est stationnaire avec aucune autre, tandis que toutes les autres le sont entre elles.
A titre indicatif, le tableau 10.1 donne les moyennes et écarts types des divers sous
échantillons de 32 crues (débits en m’/s):

Tableau 10.1 - Moyennes et écarts types de sous échantillons de 32 crues et sur la période complète

1852-1975 1852-1876 1876-1908 1909-1928 1928-1970


moyenne 880 1071 794 827 828
écart type 433 762 185 213 257

10.4.2 les ajustements réalisés


Toujours par souci d’homogénéité les points représentatifs des crues observées ont été
calculés avec la fréquence empirique suivante :
i-O,5
A=,, où i = rang de l’observation et fi = fréquence empirique. (10-19)

Le GRADEX résulte directement de l’étude citée dans (BOUVARD et groupe de travail


CFGB, 1994). AGREGEE a été appliqué avec la variante « esthétique », a=O, et 6 calculé
selon la méthode indiquée page 97-98 de (MARGOUM, 1992). Le RENOUVELLEMENT

193
a été appliqué avec les indications mentionnées aux paragraphes 10.1 .l et 10.3.2, en
utilisant une loi exponentielle double.

Les ajustements sont visualisés figures 10.4 à 10.11. Le détail en est le suivant :

6500

6000

5 10 20 50 100 1000 10000


Périodes de retour (en années)

Fig. 10.4 : Application du RENOUVELLEMENT classique avec une double exponentielle, du GRADEX et
d’AGREGEE, sur l’échantillon complet (1852-1975).

Sur la figure (10.4), le GRADEX se situe bien par rapport à l’échantillon observé, en
constituant plutôt une enveloppe supérieure. AGREGEE s’ajuste bien à l’échantillon
observé des débits courants si la loi des débits est double exponentielle (courbe pointillée
inférieure), mais reste sensiblement au dessous des fortes crues, et inversement si la loi des
débits est simple exponentielle (courbe pointillée supérieure proche de l’estimation du
GRADEX). L’ajustement par le RENOUVELLEMENT (0=0,20) est intermédiaire : il
prend bien en compte les fortes crues du siècle dernier, mais reste néanmoins de qualité
moyenne.
Pour la figure (10.5), le gain de qualité du RENOUVELLEMENT avec la variante
RenGrad est net : l’ajustement se positionne bien par rapport à toutes les crues de
l’échantillon.
L’ analyse de sensibilité illustrée par la figure (10.6) montre les limites du paramètre 8 à
ne pas franchir sans que la qualité d’ajustement ne se dégrade exagérément. Dans le cas
présent cette plage est assez restreinte (0,05 à 0,15) et centrée sur la valeur (0,093) de
l’estimateur RenGrad.
La figure (10.7) souligne la forte divergence des méthodes : le GRADEX reste l’enveloppe
supérieure, AGREGEE se situe assez nettement en dessous du GRADEX, tandis que le
RENOUVELLEMENT s’ajuste bien à l’échantillon mais se place encore plus en dessous
des deux autres estimations. Malgré la qualité de ce dernier ajustement, cette estimation est

194
inacceptable quand on connaît l’existence des fortes crues, et qu’on considère les périodes
de retour attribuées à la crue de 1866 (200 ans pour le GRADEX, 500 ans pour
AGREGEE, et . ..plus de 10000 ans pour le RENOUVELLEMENT). Ceci dit, nous avions
vu que l’échantillon antérieur à 1876 est hétérogène par rapport à celui qui est postérieur :
ne sommes nous pas en présence d’un phénomène à mémoire longue du type de ceux
analysés par HURST et MANDELBROT ( BONAQUE 1978)? Quelle serait notre
appréciation si l’échantillon antérieur à 1876 ne nous était pas connu ? Que penser de la
moindre sensibilité d’AGREGEE à l’échantillon ? En tout cas ceci met bien en lumière, si
besoin était, l’importance des événements historiques pour le RENOUVELLEMENT, et sa
sensibilité à l’échantillonnage. D’autre part une trop forte différence entre le « gradex a » et

le premier moment observé rrz=f (@ - S) /NC doit inciter à la prudence.


i=l

TïiÏzÏq
,/ p&ËË-j
, -
,J
II
,
,
,
I
L / ,
,
, ,
i^ 5°oo l // I

Fig. 10.5 : Application du RENOUVELLEMENT variante RenGud, du GRADEX et d’AGREGEE, sur


l’échuntillon complet (1852-1975).
Fig. : 10. 6 : RENOUVELLEMENT: analyse de sensibilité du paramètre (3, sur l’échantillon complet (1852-
1975).

Fig. 10. 7 : Application du RENOUVELLEMENT variante RenGrad, du GRADEX et d’AGREGEE, sur


l’échantillon postérieur à 1876.

196
Fig. 10.8 : RENOUVELLEMENT, unnl~se de setuibilitk du purutnètre 0, sur I’e’chunCllon posférieur ù
1876.
En ce qui concerne la figure (lO.S), l’analyse de sensibilité analogue à la précédente montre
cette fois que le résultat peut dépendre de très faibles variations de 8 : l’ajustement avec
0=0,03 est presqu’aussi bon que l’initial et conduit à des résultats proches d’AGREGEE,
tandis qu’avec 8 =0,06, limite à ne pas dépasser, l’écart avec le GRADEX n’est que de
600m3/s...Nous appellerons RENOU-Max cette borne supérieure.

Fig. 10.0 : Applicntion du RENOUVELLEMENT variante RenGrcrd, du GRADEX et d’AGREGEE, sur


i’éclm~tillot~ atzkrieur ù 1876.

En présence d’informations historiques, et même si l’échantillon continu est court, toutes


les méthodes aboutissent pratiquement aux mêmes résultats (cf figure (10.9))...
Pour terminer cette comparaison, un bilan de l’effet des incertitudes d’échantillonnage, par
exemple sur la crue millénale, est donné au tableau 10.2:

Tableau 10.2 : Effet des incertitudes pour l’estimation de la crue millénale

méthode 1876-1975 échantillon Ecart


commet
GRADEX 5350 5500 150
AGREGEE 4300 4850 550
RENOU RenGrad 2100 5200 3100
RENOU-Max 4700 5750 1050

L’analyse des écarts montre une sensibilité très faible du GRADEX, ce qui ne surprend
pas. Les écarts d’AGREGEE sont relativement faibles (~15%) : cette méthode, de par sa
conception, conserve un comportement « sécuritaire ». Les écarts du-
RENOUVELLEMENT, nous l’avons déjà vu, sont importants du fait de son principe
d’adéquation à l’échantillon observé, effet qui ne peut être modifié que par de
l’information historique, ou par une analyse de sensibilité du paramètre 8.
Remarque : cette analyse des écarts serait différente si on avait considéré la période 1852-
1876. En effet toutes les méthodes paraissent être très sensibles à
l’échantillonnage. Comme elles aboutissent à des résultats proches pour la
période complète et presque identiques (environ 7000 m’/s) pour la période
1852-1876, les écarts par rapport à l’échantillon complet sont voisins et de
l’ordre de 30 à 40%. Mais ces fortes valeurs ont peu de sens si on fait observer
que la même crue de 1866 aurait avec l’échantillon antérieur à 1876 une
période de retour d’environ 40 ans...

198
5. CONCLUSIONS
Trois points principaux ont été mis en évidence dans cette recherche:
l il n’y a pas une seule et unique méthode d’estimation des probabilités de crues qui
couvre tous les cas de figure. Les trois méthodes RENOUVELLEMENT, GRADEX et
AGREGEE ont certes certains recouvrements dans leurs domaines d’application, mais elles
s’avèrent finalement complémentaires. Elles couvrent à elles trois presque tous les cas
comme l’indique le tableau 10.3 qui synthétise leurs domaines de prédilection :

Tableau 10.3: Domaines d’applications des trois méthodes

r 1Bassins Période de retour de l’événement à estimer


1
Versants 1
Méthode Crues observables Crues rares 1 Crues extrêmes (
lan <T< 100 ans 100ans <T<lOOO ans 1000ans<T<10000 ans
envisageable si adapté si impératifs de adapté
GRADEX impératifs de sécurité
Petits et sécurité
moyens adapté, plutôt adapté, adapté
bassins AGREGEE sécuritaire variante “esthétique” en général proche du
versants GRADEX
< 15000 km’ adapté adapté si information
RENOUVEL historique
LEMENT
variante “RenGrad” à
tester
Essais en cours pour
évaluer une enveloppe
supérieure si impératifs
de sécurité
Grands envisageable si
bassins information historique

adapté si information
historique

l un estimateur (RenGrad) est proposé dans le cadre du RENOUVELLEMENT : il


intègre l’estimation du GRADEX lorsqu’on veut estimer, pour de petits bassins versants,
des événements de période de retour supérieure à 100 ans, tout en s’appuyant au plus près
des événements observés. Un test sur un cas a montré une bonne adéquation lorsqu’on
dispose d’information historique. Il n’est pas sécuritaire dans le cas contraire. Cet
estimateur est une piste à explorer.
l une comparaison des méthodes a été faite sur un cas (l’Allier au Veurdre) où la taille du
bassin versant ( 14000km2) est limite des domaines d’application : les résultats de toutes les
méthodes convergent si l’échantillon complet des données est utilisé. Par contre, face à une
série de données non stationnaire les méthodes se comportent très différemment : le
GRADEX reste la méthode la plus sécuritaire et la moins sensible à l’échantillonnage.
AGREGEE dans sa version « esthétique » reste très proche du GRADEX et encore
sécuritaire. Le RENOUVELLEMENT, même complété par l’estimateur RenGrad, est très
dépendant des observations.

199
Bibliographie

COX Renewall theory . Wiley New York. 1962.


BERNIER J. Sur la théorie du RENOUVELLEMENT et son application en hydrologie
Rapport EDF HYD 67n” 10, 1967.
BERNIER J., MIQUEL J. Exemple d’application de la théorie de la décision statistique au
dimensionnement d’ouvrages hydrauliques : prise en compte de l’information
hétérogène . 17iè’necongrès de 1’AIRH, 1975.
BERNIER J. Sur la nature aléatoire du coût des dommages provoqués par les crues . La
Houille Blanche, 1979.
BONAQUE Le coefficient de Hurst et le modèle de Mandelbrot . Rapport EDF E40/78-05
1978.
BOUVARD et groupe de travail du CFGB. Les crues de projet des barrages : méthode du
GRADEX . 181èlne Congrès CIGB/ICOLD Durban 1994.
GUILLOT P., DUBAND D. La méthode du GRADEX pour le calcul des probabilités des
crues à partir des pluies . IASH, Publication n”84, 1967.
LANG M. Les chroniques en hydrologie : modélisation comparée par un système de
gestion de bases de données relationnel et orienté-objet ; traitement de base et
intervalles de confiance des quantiles de crue ; techniques d’échantillonnage par la
méthode du renouvellement. Thèse de Doctorat, Université Joseph Fourier, Grenoble
1995.
MARGOUM M. Estimation des crues rares et extrêmes : le modèle AGREGEE.
Conception et premières validations. Thèse Ecole des Mines 1992.
MARGOUM M., OBERLIN G., LANG M., WEINGARTNER R. Estimation des crues
rares et extrêmes. Principes du modèle AGREGEE. Hydrologie Continentale, Vol 9,
1994.
MIQUEL J. CRUE : un modèle d’estimation des probabilités des débits de crue . La
Houille Blanche, 1983.
MIQUEL J. Guide pratique d’estimation des probabilités de crue. Eyrolles Paris 1984.
OBERLIN G., MARGOUM M. Techniques for extrême rainfall and runoff estimation :
AGREGEE, a french flood design approach. Rapport FRIEND published by Institute
of Hydrology-Wallingford 1993.

200
11. Utilisation de YAnalyse Statistique
Multidimensionelle dans le calcul des
caractéristiques hydrologiques conjuguées
et dans les prévisions hydrologiques

V. Al. Stanescu
Institut National de Météorologie et Hydrologie
Bucarest, 7 1552 SOS.Bucuresti-Ploiesti 97
ROUMANIE

Abstract

The determination of the probability that a hydrological characteristic (or several) takes a lower or
higher and equal value to a given value conditioned by the value (or values) of the other
characteristics correlated with the fïrst ones, offers a much more “correct” information of the risk
occurrence than the consideration of each variable separately.
Examples are given in the work of correlated hydrological variables: maximum discharges -
volumes of the flood wave, maximum flood discharges at the confluence of two rivers, volumes of
flood waves recorded in various points of a river basin; minimum discharges - duration, monthly
discharges of the autumn season correlated with the discharge at the end of August and the
forecasted precipitation.
For a11the examples, the occurrence risk for these correlated hydrological variables is expressed
and the calculation relations of this one by the use of the multidimensional statistical analysis
method are given.

Résumé

La détermination de la probabilité qu’une caractéristique hydrologique (ou plusieurs


caractéristiques hydrologiques) prenne (prennent) une valeur plus basse ou plus haute et égale à
une valeur donnée, conditionnée par la valeur (les valeurs) des autres caractéristiques corrélées
avec les premières, offre une information beaucoup plus “correcte” du risque d’apparition que la
considération de chaque variable séparément.
Dans l’ouvrage on donne des exemples de variables hydrologiques corrélées (conjuguées): débits
maxima - volumes de l’onde de crue, débits maxima de crue à la confluence de deux rivières,
volumes des ondes de crue enregistrées en différents points d’un bassin versant, débits maxima -
durée, débits mensuels de la saison d’automne corrélés avec le débit à la fin du mois d’août et les
précipitations prévues,
Pour toutes ces exemples on exprime le risque de l’occurrence de ces variables hydrologiques
conjuguées et les relations de calcul de celui-ci par l’utilisation de la méthode d’analyse statistique
multidimensionnelle.

201
11.1. Introduction

Le projet d’un ouvrage hydrotechnique implique un calcul des dimensions de celui-ci. de sorte
que son fonctionnement satisfasse les nécessités d’assurance des ressources en eau demandées
et/ou sa sécurité en cas de crues.
Dans les calculs de projet, on utilise des valeurs synthétiques qui caractérisent le
régime hydrologique du cours d’eau, définies par leur fréquence moyenne d’occurrence ou par
probabilité. On convient de nommer ces valeurs “caractéristiques hydrologiques”.
Dans beaucoup de cas. pour faire un calcul des dimensions d’un ouvrage
hydrotechnique, il ne suffit pas à prendre en considération une seule caractéristique
hydrologique: mais une combinaison de plusieurs grandeurs identiques. Une première
catégorie de combinaisons se réfère à la liaison débit - durée ou aux variables synthétiques
complexes qui décrivent des régimes hydrologiques (caractéristiques hydrologiques liées au
facteur “temps”).
Une seconde catégorie de caractéristiques hydrologiques réfère au facteur “espace”
quand la projection a en vue un aménagement hydrotechnique complexe d’un bassin versant à
fins multiples. Dans ce cas, les caractéristiques hydrologiques de même nature en différents
points d’un bassin versant sont souvent liées très étroitement entre elles, à la suite de l’effet
d’intégration de l’écoulement d’amont vers aval (Bernier, 1971). On désignera ces
combinaisons par l’expression “caractéristiques hydrologiques conjuguées”.
Les caractéristiques hydrologiques conjuguées réfèrent donc à un événement
hydrologique défini par deux ou plusieurs caractéristiques synthétiques couplées,
conditionnées par la valeur (les valeurs) d’une autre (des autres).
La détermination de la probabilité qu’une caractéristique hydrologique (ou plusieurs
caractéristiques hydrologiques) prenne une valeur plus basse ou plus haute et égale à une
valeur donnée, conditionnée par la valeur (les valeurs) des autres caractéristiques corrélées
avec les premières, offre une image beaucoup plus correcte du risque d’apparition que la
considération de chaque variable séparément (Jacquet et Bernier, 1969) (Stanescu, 1972)
(Colin et. al. 1977) (Oberlin, 1992).
Aussi, dans le cas de l’élaboration d’une prévision hydrologique, apparaît le problème
de la détermination du risque d’apparition d’une combinaison de variables hydrologiques
conditionnées par les variables hydrométéorologiques.
La détermination du risque d’occurrence de l’événement défini par plusieurs
caractéristiques hydrologiques conjuguées implique l’utilisation de l’analyse statistique
multidimensionnelle.

11.2. Exemples de caractéristiques hydrologiques conjuguées

Pour illustrer l’importance de la détermination du risque de dépassement (ou de non-


dépassement) de certaines variables hydrologiques conjuguées, on donne quelques exemples
dans ce chapitre.

11.2.1. Le débit maximum et le volume de l’onde de crue

On connaît bien le fait que pour le calcul des dimensions d’un déversoir on considère l’onde de
crue synthétique (avec une certaine probabilité de dépassement) qui entre dans un réservoir,
est atténuée par celui-ci. La valeur du débit de pointe de la crue atténuée qui conduit à la
détermination des dimensions du déversoir est dépendante tant du débit maximum de la crue

202
( Q,,,, ) qui entre dans le réservoir, que de son volume (w).
Puisque ces deux variables sont fréquemment corrélées (variables dépendantes) pour
un débit maximum avec une probabilité donnée, il y aura une série de volumes maximaux et
vice versa.
La sélection d’une onde de crue de projet avec un débit maximum d’une probabilité
donnée et un volume “moyen” ne pourrait donc satisfaire intégralement la sécurité d’un
déversoir pendant la période de hautes eaux.
La détermination dune probabilité p de dépassement de la valeur du volume de la crue
W ’ conditionnée par débit maximum - la probabilité conditionnée - offre une information
supplémentaire beaucoup plus précieuse concernant le risque R d’occurrence du volume W*
pour un débit donné Q,,,, :

R = P(W2 W*~e,,,,,) (1 l-l)

Le risque assumé R peut dépendre de l’importance du point de vue économico-social et de la


protection de l’environnement, de la construction hydrotechnique, ainsi que de quelques
mesures possibles à prendre à la suite de la prévision hydrologique de la crue. Cette dernière
permet des mesures nécessaires de vidange partiel du réservoir avant l’occurrence de la crue,
et donc plus la précision de la prévision est grande, plus le risque R peut être assumé grand.

11.2.2. La décomposition d’une onde de crue

Un autre exemple réfère à la décomposition d’une onde de crue à l’exutoire d’un bassin, définie
par le débit maximum et le volume W en ondes composantes de volume W, (i = 1, n) dans
des différents points du bassin.
En considérant le schéma de la figure 11.1, et en projetant un endiguement du secteur
de rivière 0 - 0, la hauteur des digues sera faite pour un débit maximum qui résulterait de la
composition des ondes de crue issues de A et B, ainsi que de celle produite sur le reste du
bassin contenu entre A, B et l’exutoire.

Fig. Il. 1 Schéma de la décomposition d’une onde de crue en composantes

203

-
Les variables caractéristiques (volumes et débits maxima) des ondes de crue issues de A et B,
ainsi que de celle apparue sur le reste du bassin sont corrélées entre elles et dépendent aussi
des caractéristiques de l’onde de crue Q,, et W, de l’exutoire du bassin.
Une onde de crue de volume W, et débit maximum Q, peut être constituée par
différentes combinaisons des ondes composantes en A et B.
Plus les volumes de celles-ci WA et W,j seront grandes, plus l’atténuation en A et B et
donc l’efficacité des réservoirs seront petites.
Si, en général, dans un aménagement complexe d’un bassin, il y a n réservoirs, on peut
déterminer le risque R qu’une série de valeurs de volumes composants soit dépassée quand Q,
et W, sont données, donc :

R=prob.(W, 2 v,,W? 2. +..y, > v,,~Q,;WO))

Une application de ce problème est donnée dans un travail antérieur (Stanescu, 1994).

11.2.3. Débits maxima de crue à la confluence de deux rivières

Lors de la détermination de la hauteur des digues dans les zones proches de la confluence de
deux rivières, il faut tenir compte des débits maxima occurrents sur les deux rivières qui sont
parfois dépendantes l’une de l’autre.

I RIVIERE 8

I RIVIERE A
Fig. 11.2 L’influence réciproque des débits maxima à une confluence de deux rivières

En considérant le schéma de la figure 11.2, on peut constater :


i. Sur le secteur amont de la rivière A où les niveaux ne sont pas influencés par le remous
produit par les débits maxima occurrent sur la rivière B, la hauteur de la digue dépend
seulement du débit maximum sur la rivière A avec une probabilité de dépassement p.
ii. Sur le secteur aval de la rivière A, dans la proximité immédiate de la confluence, la hauteur
de la digue dépend du plus grand niveau produit soit par le débit maximum de la rivière A,
soit par le débit maximum sur la rivière B.
iii. Sur le secteur intermédiaire (la zone de remous) la hauteur de la digue dépend des niveaux
maxima réalisés par l’influence réciproque entre les débits maxima de la rivière A et ceux
de la rivière B.

204
Si dans les bassins des deux rivières les conditions physico-géographiques sont de telle
nature que les débits maxima Q,d et Q,] soient dépendants l’un de l’autre, alors il est
nécessaire de calculer le risque d’occurrence simultanée (ou quasi-simultanée).

R = P’.o@;, iQ,j) et R = prob.( Q,]IQ.,) (11-3)

Pour le problème posé pour que la hauteur des digues soient telles que la surface protégée par
celles-ci ne soient inondées qu’une fois toutes les T années, c’est à dire à une probabilité
p( Q .,U Q ,])= 5-T alorson a :

pie.4 UQ,]) = p(Q.,i + dQni- pie.4nQ,) (1 l-4)

En considérant que les variables Q,, et QR sont dépendantes, alors l’application d’une analyse
statistique bidimensionelle est nécessaire pour le calcul de p(P, n QA) .
Dans ce cas, on obtient des séries de valeurs Q,4 et Q,j. Le choix de la série la plus
appropriée est faite ensuite basé sur un calcul économique (Stanescu, 1973).

11.2.4. Débits minima - durée

On considère un seuil de débit plus bas qu’une valeur donnée QsIO (QsO%de la courbe de durée
des débits journaliers). La durée D des débits plus bas que ce seuil peut être couplée avec le
déficit de volume de la saison de sécheresse automnale (IX - XI) conditionnée par le débit de
la fin du mois d’août Q, et par un indice de sécheresse I (Thornthwaite, 1946): (Gustard et al.,
1989).
Dans ce cas. le risque R est donné par la relation (Stanescu et al., 1993) :

R = prob.(D 2 d> W > v~QO,1) (1 l-5)

11.2.5. La prévision à longue échéance des débits moyens mensuels

Avec l’application de l’analyse statistique multidimensionnelle, on fait aussi l’évaluation du


risque de la prévision hydrologique à longue échéance des débits moyens mensuels de la
saison d’automne.
Dans ce cas, le risque de non-dépassement des débits moyens mensuels prévus
pendant la période d’automne Q,x, Q., , Q,Y, conditionné par le débit initial de la fin du mois
d’août Q,,,, et par la quantité de précipitation P prévue pour la saison IX - XI est :

R = prob. (Q,.,, Q,,.- Q,v,IQtI(IyP) (1 l-6)

11.3. Méthode d’analyse statistique multidimensionnelle

En termes mathématiques, un ensemble de caractéristiques hydrologiques conjuguées peut


être considéré comme variable statistique multidimensionnelle conditionnée par une autre.
Le calcul du risque de dépassement (ou non-dépassement) des caractéristiques

205
conjuguées xk+,, xk+*.. . x, étant donné les variables conditionnantes x, , x2.. . xk est

R = prob.(xlrtl,~1,+2...~,~~,r~2...xk)
(11-7)
= . . . fx k+,‘Xk+Z...XIIX,,xZ...Xk &+, .-d--q
5 H >

où (Ionescu, 1958) (Kaczmarek, 1965) :

fCx k+l 3 'k+2 *** XklX,,X2...Xk >


=

(1 l-8)

est la fonction de distribution normale multidimensionnelle conditionnée.


Dans la relation (1 l-8) on a :
- la matrice des valeurs moyennes conditionnées :

X,* = m2 + M2, M,;‘(x, -m,), i = k + l...r (11-9)

où : x, = Ilx, Ii) i = l... k est la matrice des variables conditionnantes;


m, =11X,/1,i = l...k est 1a matrice des valeurs moyennes des variables conditionnantes;
m, = Ilx/, Il j=k+l...r e stl a matrice des valeurs moyennes des variables conditionnées.

La matrice A4,; est donnée par la relation :

M,~=A4,,-M2,M,~‘1M,,, i,j=k+l...r (1 l-10)

A4,, = l~r,o-,o,~l,i, j = l...k

Ml2 = I~r~oioj~l~ i=l...k, j= k+l...r


où : (11-11)
M21 = l~rijoioj~I~ i= k+l...r, j=l...k

M22 = ~~rgcri~,~~,
i, j = k + l...r
et : Oi, ~j sont les écarts type et rii les coefficients de corrélation.
Pour la fonction de distribution normale bidimensionnelle, la probabilité de
dépassement est déterminée soit par calcul numérique, soit avec la formule d’Owen
(Owen, 1956).
Conformément à la formule d’Owen, on a :

P(x;,x))=l-O.S[P(x))+P(x))]-T(x),al)-T(x>,az)-C (11-12)

où P(x;) et P( xi) sont les probabilités de non-dépassement des variables normalement

206
,
distribuées normalisées xi et xi et la fonction T(x,a) est donnée dans ‘les tableaux
(Owen, 1956).
Les valeurs a1 et a2 sont calculées avec les relations :

x, -i-ix, xi - rixi
a, = a, = (11-13)
xi J--l-ri* x) i--1-r;’

La constante C de (11-12) est :

C=0 si xix; 2 0
(11-14)
C = 0.5 si X]X) < 0

,
Les valeurs normalisées xi et xj sont calculées avec la relation :

-*
x-x
x’ =- (11-15)
CT*

Les valeurs x*: a* et ri; des relations (1 l-l 3) et (1 l-1 5) sont, respectivement, la moyenne
conditionnée donnée par (1 l-9), l’écart type conditionné et le coefficient de corrélation
calculés de la matrice variante - covariance:

(1 l-16)

Similairement, il y a une formule de calcul pour la détermination de la probabilité de


dépassement d’une variable tridimensionnelle (Steck, 1958).
Puisque la relation (1 l-8) est une fonction de distribution normale
multidimensionnelle, toutes les variables x1 . . .xk et X~+I.. . x, doivent avoir une distribution
normale unidimensionnelle.
On peut réaliser cela par un changement de variable :

x’ = log(X + A) (11-17)

où X est la variable hydrologique avec une certaine distribution et A est une constante
(Strupczewski, 1967).
Pour le calcul de la probabilité de dépassement d’une valeur x de la variable X
conditionnée par une valeur y de la variable Y et si celles-ci ont une distribution normale, on
utilise la fonction de distribution normale unidimensionnelle dont les paramètres sont X
(moyenne conditionnée) et 0: (écart type) calculées avec les relations :

-*
X =x-rq $’ Y-V 1 (1 l-18)

et

207
(11-19)
où : X, y sont les valeurs moyennes des variables (apportées à la distribution normale)
a, , oy sont l’écart type
r,.+ est le coefficient de corrélation.
Dans les relations (1 l-l 8) et (1 l-19) x et y représentent les transformations des
valeurs caractéristiques hydrologiques X et Y selon la relation (1 1- 17).

11.4. Etudes de cas

11.4.1. Le calcul du risque d’occurrence d’une paire de valeurs : débit maximum -


volume d’une onde de crue

On a considéré les stations hydrométriques Filiasi (F = 5212 km2) et Pesteana (F = 3079 km’)
situées sur la rivière Jiu en Roumanie.
L’onde de crue de référence avec une probabilité p % de la station de Filiasi peut être
définie de deux manières, à savoir : soit par le débit maximum (QF) avec probabilité de
dépassement p %, soit par son volume ( WF) avec la même probabilité.
Basées sur les calculs effectués pour la détermination des courbes de probabilité
conditionnées (Figure 11.3) en utilisant les relations (1 1- 18) et (1 1- 19) dans les tableaux 11.1
et 11.2, il y a les valeurs des volumes conditionnés par le débit avec probabilité de 1% à
Filiasi et respectivement les débits maxima conditionnés par le volume avec p = 1% à la
même station, ainsi que les valeurs du risque (p ( W, /QF‘“) etp(Q&$%),.

-
Ï
ul
m
-E
0
U-J
0
s

d””

1 5 10 20 LO 60 80 90 pKIF -1501W,l
1
Fig. 11.3 Les courbes de probabilité de dépassement conditionnées à la station Filiasi

Tableau 11.1 Q:.” = 2120 m3 1s


Wf7 (106m3) 790 690 590 480 440 400 330 285 252

0.1 0.4 0.8 1.7 2.3 3.2 6.5 10.0 14.0


Pi&) 64

208
p(WFIQ;%,) (%) 5 10 20 40 50 60 80 90 95

Tableau 11.2 W,,%=510x106 m3


QF (m3 1s) 2630 2400 2150 1840 1730 1630 1400 1260 1150

P(QF) (%) 0.30 0.50 0.95 2.10 2.80 4.00 7.50 11.00 15.80

5 10 20 40 50 60 80 90 95
p(Q&;%) (%)

Ensuite, basés sur les mêmes analyses, on présente dans le tableau 11.3 les risques
d’occurrence des volumes maxima à la station Pesteana (W,), conditionnés par des différentes
valeurs des volumes à la station Filiasi ( WF).

Tableau 11.3

790 690 590 480 440 405 335 285 252

W,, (106m3j
5% 10% 20% 40% 50% 60% 80% 90% 95%
p(wp> -..-\
152
20% 99.5 99.8 99.3 97.0 95.0 92.0 81.0 65.0 49.0
190
10% 99.4 98.2 95.0 86.0 79.0 70.0 49.0 32.0 19.0
230
5% 96.5 92.5 83.0 65.0 55.0 44.0 24.0 12.5 5.5
262
3% 91.0 83.0 68.0 45.0 36.0 26.0 11.5 5.0 2.0
290
2% 83.0 72.0 54.0 32.0 23.0 16.0 5.5 2.0 0.7
335
1% 74.0 58.0 46.0 20.0 14.0 9.0 2.6 0.9 0.3

Donc, dans l’hypothèse où l’onde de crue à la station de référence Filiasi est définie par une
série de volumes W, conditionnés par un débit maximum de probabilité 1 %, le risque R
d’occurrence des couples des volumes maxima W, et W, sur les deux stations, ressort du
tableau. Les valeurs considérées dans ces couples ont les probabilités unidimensionnelles de
dépassement p( W, ) dans le tableau 11.3 et p( WF) dans le tableau 11.1.
Dans le tableau 11.3 on peut sélectionner les couples de valeurs W, et W, de sorte que
le risque se trouve entre 2 limites. Si on choisit, par exemple, les valeurs du risque entre 20%
et 80%, alors un nombre réduit de 22 couples en résulte, avec lesquels on peut effectuer les
calculs de projet.
Si on choisit la combinaison la plus probable de volumes, alors le risque R a une
valeur d’environ 50 % et du tableau 11.3 résulte un nombre de 7 combinaisons seulement

209

-
(pour lesquelles R est entre 44 - 55 %).
On applique une procédure similaire pour le cas où l’onde de crue à la station Filiasi
est définie par son volume avec une probabilité de dépassement de 1 %.

11.4.2. Détermination du risque d’inondation d’une surface endiguée située à la


confluence de deux rivières

On a considéré la surface endiguée de la zone de confluence de la rivière Siret avec le fleuve


Danube.
En se basant sur les séries de débits maxima Q, de la rivière Siret et de ceux du fleuve
Danube Q,, on a calculé conformément à la méthodologie mentionnée ci-dessus les
probabilités d’intersection des événements QS n QD conformément à la relation (1 1- 12).
Ensuite, on a déterminé la probabilité de la réunion QS IJ QD selon l’équation (1 l-4) et
on a représenté la fonction p( QS U QD ) = f (p( QS ), p( QD 1).
Pour une valeur p( QS U QD) = 0.50/o c’est à dire pour un risque d’inondation de 1/20
ans, les paires de valeurs suivantes en ont résulté :

Tableau 11.4
QSCm’N 1400 1500 1650 1850 2000
QD (m’/s) 18000 16000 15000 14100 13600

Pour chacun de ces couples de débits, on fait le calcul des courbes des surfaces libres dans la
zone de confluence de la rivière Siret et on choisit la courbe enveloppe de celle-ci. Avec le
risque de 1/20 ans, les digues construites conformément à la courbe enveloppe assurent la
surface endiguée de son inondabilité.

11.4.3. Calcul du risque de dépassement d’un déficit de volume d’eau W pour une
période plus longue ou égale à une valeur D correspondant à un débit donné pendant la
saison septembre - novembre

L’application réfère à la station Contesti (F = 1193 km*) sur la rivière Dambovita, ayant à
proximité une prise d’eau pour la ville de Bucarest.
Le problème est de déterminer le risque qu’un déficit de volume W soit dépassé
pendant une période de temps plus longue qu’une valeur donnée D correspondant au débit
QjZO (Fig. 11.4). Le débit Q320 est défini par la durée de 320 jours de la courbe de durée
moyenne des débits journaliers.

Fig. 11.4. Schéma de prévision du débit de volume et de la durée dans la saison d’automne

210
Les variables aléatoires W et D sont dépendantes et aussi corrélées avec les conditions
climatiques antérieures à la saison d’automne et avec le débit de la fin du mois d’août Q, .
Les conditions climatiques antérieures sont exprimées par un “indice de sécheresse”
P
donné par la relation I = c cT CCP et CT re Présentent la somme des précipitations
/
respectivement la somme des températures de l’air pendant la période d’été juin - août).
Dans ce cas, le risque est donné par l’équation (1 l-5) et il est calculé conformément
aux relations (1 l-7) - (1 1- 16).
Le calcul de la probabilité bidimensionnelle conditionnée pour des différentes valeurs
Iet Q, est donné dans le tableau 11.5.

Tableau 11.5
D fiours) W (IO’ m’) I 3
Q cm ‘s) R =p(WnDII,QO) (%)
50 50 6 8 43.7
50 50 4 4 98.7
50 50 10 14 1.2
30 30 6 8 75.3
30 30 4 4 99.9
30 30 10 14 7.0
30 50 6 8 59.4
30 50 4 4 99.6
30 50 10 14 2.6
50 30 6 8 49.7
50 30 4 4 98.9
50 30 10 14 2.0

Dans le cas où on élabore une prévision hydrologique pour la saison de sécheresse, compte
tenu des valeurs enregistrées 1 et QO, alors avec le risque R du tableau 11.5 on choisit la
combinaison D, W pour laquelle les nécessités en eau doivent être assurées par les
accumulations d’amont ou par d’autres rivières voisines.
D’autres études de cas concernant les exemples donnés aux paragraphes 11.2.2 et
11.2.6 apparaissent en détail dans les travaux (Stanescu, 1994) et respectivement (Stanescu et
al., 1992).

11.5. Conclusions

* Le projet d’un ouvrage hydrotechnique ou l’aménagement intégral et complexe d’un bassin


versant implique le plus souvent la prise en considération d’un ensemble de caractéristiques
hydrologiques de même nature ou de natures différentes.
Ces ensembles caractérisent soit un régime hydrologique exprimé sen général par des
variables de natures différentes (débits, durées, volumes), soit une distribution spatiale sur la
surface d’un bassin versant de certaines caractéristiques de la même nature (volumesidébits
de pointe d’une crue synthétique).
* Le nombre de combinaisons entre les valeurs synthétiques des caractéristiques
hydrologiques qui participent à la réalisation d’un événement hydrologique complexe defini

211
par sa fréquence d’occurrence est, théoriquement, illimité. En conséquence, pour choisir un
nombre raisonnable de combinaisons sur lesquelles se base un calcul de projet, il faut
connaître le risque d’occurrence de celles-ci. La grandeur de ce risque est déterminée à l’aide
de l’analyse statistique multidimensionnelle.
* L’analyse statistique suppose l’utilisation d’une distribution multidimensionnelle. Le
changement de chaque variable pour qu’elle se soumette à une loi de distribution normale
par une transformation logarithmique est une condition nécessaire mais pas suffisante. Pour
vérifier si plusieurs variables transformées ont une distribution normale
multidimensionnelle, il est nécessaire d’avoir de très longues séries de données, condition
qui, le plus souvent, n’est pas accomplie. Pour cette raison, les résultats de l’application de
l’analyse statistique multidimensionnelle doivent être considérés comme approximatifs.
L’effciencé de l’application de cette analyse est aussi grande que la dépendance entre
diverses caractéristiques hydrologiques est grande (coefficients de corrélation grands) et que
leur variation est petite (écarts type petits).
* Pour l’application avec des résultats remarquables de l’analyse statistique
multidimensionnelle il est nécessaire que les données hydrologiques soient de bonne qualité.
Sinon, le risque calculé contiendra une composante qui reflétera l’incertitude des données
utilisées dans l’analyse.

212
Bibliographie

BERNIER, J. (1971) Ajustement des modèles probabilistes en hydrologie de surface. La


Houille Blanche no 2.
COLIN, E., C. MICHEL, G. OBERLIN (1977) Applications du calcul de la distribution d’une
fonction de deux variables à l’estimation des crues. Bulletin technique du Génie Rural,
no 120, CTGREF.
GUSTARD, A., L.A. ROALD, S. DEMUTH, H.S. LUMADJENG, R. GROSS (1989) Flow
Regimes from Experimental and Network Data (FREND). Institute of Hydrology,
Wallingford, U.K. - UNESCO.
IONESCU, H. (1958) Statistique mathématique (en roumain). Ed. Tehnica, Bucarest.
JACQUET, 1. , J. BERNIER (1969) Détermination du débit maximum de crue et de sa
probabilité de dépassement dans le cas d’information incomplète. Actes du colloque de
Leningrad sur les crues et leur évaluation, Vol.1, AISH - UNESCO - OMM.
KACZMAREK, Z. (1965) La prévision des ensembles des phénomènes aléatoires (en
polonais). Wiadomosci Sluj by Hydrologicznej i Meteorologicznej, no 3, Varsovie.
OBERLIN, G. (1992) Normalisation des variables dans les modèles hydrologiques descriptifs.
Informations Techniques du CEMAGREF, no 85, note 4.
OWEN, D. (1956) Tables for computing bivariate normal probabilities. An.Math.Statistics, no
27.
STANESCU, V.AL. (1972) Modèles mathématiques pour la détermination des ondes de crue
critiques (en roumain). Etudes d’hydrologie, Vol. 32, Bucarest.
STANESCU V.AL. (1973) Etudes statistiques de la coïncidence des ondes de crue aux points
de confluence des rivières (en roumain). Etudes d’hydrologie, Vol. 4 1, Bucarest.
STANESCU, V.AL. (1992) La prévision à longue échéance des débits mensuels pendant la
période d’automne (en allemand). Donaulander Vorhersagen und Hydrologischen
Wasserwirtschaftliche Grundlagen, Kelheim.
STANESCU, V.AL., Mary Jeanne ADLER, Valentina UNGUREANU (1993) The
parametrization of the low flow during the autumn season. Proceedings of the 2nd
FRIEND Conference, Braunschweig, IAHS Publ. no 221.
STANESCU, V.AL. (1994) Une méthode d’analyse statistique de la décomposition d’une
onde de crue en ondes composantes sur sous-bassins. 23ème Journée de YHydraulique,
Nîmes.
STECK, G. (1958) A table for computing tri-variate normal probabilities. An. Math.
Statistics, no 29.
STRUPCZEWSKI, W. (1967) Transformation de la distribution des variables
météorologiques et hydrologiques dans une distribution normale (en polonais).
Wiadomosci Sluj by Hydrologicznej i Meteorologicznej, Tom III.
THORNTHWAITE, C.W. (1946) An approach toward a rational classification of climate.
Trans. Amer. Geophys. Union, Vol. 27, no 1.

213
PARTIE IV PART IV

ANALYSE DES SÉRIES


TEMPORELLES
TIME SERIES ANALYSIS

215
PARTIE IV PART IV

ANALYSE DES SÉRIES


TEMPORELLES
TIME SERIES ANALYSIS
12. STATISTICAL PERSISTENCE IN HYDROCLIMATOLOGICAL SERIES /
PERSISTANCE STATISTIQUE DES SERIES HYDROCLIMATIQUES . . . . . . . . . . . . . . . . . . 219-234
A. Bardossy

13. A STOCHASTIC MODEL FOR SIMULATING OF DAILY FLOWS IN


HIGHGLY DEVELOPED BASIN / UN MODÈLE STOCHASTIQUE POUR
SIMULER LES APPORTS JOURNALIERS DANS UN BASSIN TRÈS
DÉVELOPPÉ.. , ._..... . . . . . , . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . , . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235-250
L. Kottegoda, L. Natale, E. Raiteri, 1. Saccardo

14. RIVER POLLUTION FROM URBAN STORMWATER RUNOFF / LA


POLLUTION DES RIVIÈRES DUE AUX ORAGES EN MILIEU URBAIN . . . . . . . . . . . . . 251-262
P. Schmitt-Heiderich, E. Plate

15. INDEPENDANCE D’ECHELLE DE LA DISTRIBUTION STATISTIQUE


DES PRECIPITATIONS EXTRÊMES / SCALE INDEPENDENCE OF
EXTREME RAINFALL PROBABILITY DISTRIBUTION . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263-268
P. Hubert, H. Benjoudi, D. Schertzer

217
12. Statistical persistence in
hydroclimat ological t ime series

A. Bkdossy
Institute for Hydraulic Engineering,
University of Stuttgart,
D-70550 Stuttgart, Germany

Abstract

Non-stationarity of hydroclimatological time series is usually investigated by testing mean


values and variantes for possible changes. Besides changes in the means, changes in spatial
and time persistence cari have a major influence on the hydrological cycle. The purpose of
this paper is to investigate persistence properties of hydroclimatological time series. Spatial
persistence of rainfall is linked to large-scale atmospheric features - here circulation patterns
(CI’). The time series of subjectively classified CP’s over western Europe is available for
the t,ime period 1881-1994. This series shows significant changes in the frequencies of zona1
circulation patterns in winter corresponding to precipitation events with large spatial extent.
Non-parametric test,s are used to asspess thc probability of change. Time persistence is
investigated using the duration of t,he patterns; an increase of the duration of the rain-
producing zona1 and the dry high pressure zones cari be detected. Permutation based tests
indicate high probabilities of change. In order t,o reduce the possibility that these changes
are due to the subjectivity of the classification the same investigation has been performed
for an objectively classified series. A fuzzy-rule based classification was used in order to
ensure the comparability with the subjective series. Using the sea surface pressure data
of the NCAR gridpoint data set, the daily time series of CP’s was obtained for the time
period 1947-1994. This series shows the same changes in the frequencies of the patterns as
the subjective series. The persistence of the series had to be investigated using a window
technique. Changes are similar to those of the subjective series. At selected locations with
long rainfall series the persistence of wet and dry periods was investigated and significant
changes were found.

Résumé

La non stationarité des séries temporelles hydro-climatiques est recherchée habituellement


en testant les changements possibles des valeurs moyennes ou des variantes. Outre les chan-
gements de moyennes, des changements dans la persistance spatiale et temporelle peuvent
avoir une influence majeure sur le cycle hydrologique. Le propos de cet article est de mener
quelques investigations sur les propriétés de persistance des séries hydro-climatologiques.
La persistance spatiale de la pluie est liée aux caractéristiques de 1 ‘atmosphère à grande
échelle, ici représentée par les modes de circulation. La série chronologique des modes de
circulation sur 1 ‘Europe de 1 ‘ouest est disponible pour la période 1881-1994 : les valeurs en
sont codées selon une classification de type subjectif. Cette série montre des changements
significatifs dans la fréquence des modes de circulation de type zona1 durant 1 ‘hiver, ce qui
correspond à des précipitations à forte extension spatiale. Des tests non paramétriques sont
utilisés pour calculer la probabilité de changement. La persistance temporelle est recherchée
par 1’6tude des durées des modes de circulat,ion. On peut détecter un accroissement de la
durée des zones de hautes pressions sèches et, de celles produisant de la pluie. Des tests de
permutation indiquent de fortes probabilités de changement. Afin de réduire les possibilités
que ces changements soient dûs au caractère subjectif de la classification, la même étude a
ét,é reconduite à partir de séries utilisant une classification objective. Une classification à
base de règles floues a été utilisée pour permettre la comparaison avec la série subjective.
Fondée sur 1 ‘ensemble des points de r)ression au niveau de la mer de la grille de mesure de

219
la NCAR, la série journalière des modes de circulation a été obtenue pour la période 1947-
1994. Cette série montre les mêmes changements dans les fréquences des modes de circulation
que la série subjective. La persistance des séries a été recherchée en utilisant une techni-
que de fenêtrage. Les changements sont similaires a ceux trouvés avec la série subjective.
En certains sites sélectionnés pour leurs longues séries pluviométriques, la persistance des
périodes sèches et humides a été étudiée et des changements significatifs ont été trouvés.

12.1. Introduction

Time series play a crucial role in hydrology and water resources : consider for example
the design and operation of a reservoir. Stochastic time series models are fitted to the
corresponding input variables such as river flows, precipitation and temperature. The
obtained models cari subsequently be used for the simulation of the operation of the
system. The performance of the system cari then be tested and the design cari be optimized
to match the requirements.
Mean values and variantes often give a good characterization of the phenomena
under study; however, these values do not reflect the interna1 properties of the investigated
time series. Time series models therefore try to reflect the specific properties of the natural
observations. Interesting examples of this are models for precipitation. Here the specific
properties such as intermittence and clustering play an important role. A typical example
for daily precipitation cari be found in Foufoula-Georgiou and Lettenmaier (1987) and for
short time precipitation in Rodriguez-Iturbe et al. (1987). Similar models have also been
developed for river flow (Konecny and Nachtnebel, 1985).
The basic assumption used in these models is the stationarity of the series. Recent
concerns about climate change and the increasing frequency of extremes have increased
the interest in testing hydrological time series for stationarity.
Besides the temporal change in the simple statistics, the spatial and temporal extent
of events also plays a very important role in hydrology. Long lasting rainy periods covering
wast areas are leading to floodings, long dry and hot periods cause severe droughts - even in
the case when the long term means do not change significantly. Furthermore, persistence
is important for small scale events.
In the last few years Germany has experienced several very large floods. The floods
on the river Rhine in 1993 and 1994-95 caused especially high damages. The discussi-
ons on possible causpes are still ongoing. The question of whether these were unfortunate
random events or part of a changing climate and related hydrological effects is still unans-
wered. The large spatial extent of these events clearly implies a strong link to large-scale
meteorological features ehich cari in turn be linked directly to atmospheric circulation.
The goal of this paper is to investigate spatial and time persistence properties of pre-
cipitation in connection to daily CP’s. For this purpose a subjectively classified daily
circulation pattern series available for a time period 1881-1994 is used. In order to reduce
the role of subjectivity an “objectively” classified series for the time period 1947-1994 is
also utilized. Precipitation data from a selected German catchment is used to asspess pos-
sible changes in the persistence properties. The paper is organized as follows : In section
(12.2), atmospheric circulation patterns are defined and their linkage to precipitation is
investigated; special emphasis is given to large scale precipitation occurance. In section
(12.3), persistence properties of CP time series are investigated. Non-parametric methods
are used to find break points in the time series. Permutation tests are used to asspess
the significance of break points of the series. A new concept “dominating duration” is
defined and time series of “objectively” classified CP series are investigated. Bootstrap
methods are used to find significance estimates of changes in these series. The duration

220
of wet periods at a selected location is then investigated using the samc non-parametric
met’hod. Finally, results arc discussed and conclusions are drawn.

12.2. Circulation patterns and precipitation

Baur et al. (1944) have defined a circulation pattern as a mean air pressure distribution
ov(‘r an area at least as large as Europe. Any given circulation type persists for several
days (generally at least 3 days) and during t)his time thc main features of weather remain
mostly constant across Europe. Xftor this a rapid transition to another circulation type
t,akes place. Figure (12.1) shows tho 500 hPa map corresponding to a west-cyclonic zona1
circulation.

Figure 12.1 : 500hPa m,up of a typical day with zona1 circulation (West cyclonic)

Atmospheric circulation pat’terns cari be obtained by the classification of the surface


airpressure at the 500 (700) hPa surfaces elevations. The classification has been done
subjectively on a daily basis.
The classification of Baur et a1 (1944) recognizes 3 groups of CP’s divided into 10
m>L,jor types, 29 subtypes and OIIC additional subtype for the undetermined caspes. Hess
and Brezowsky (1969) divide the 10 major types into subtypes primarily by adding the
lctter a or z at, the end of the abbreviat’ion of the major t,ypc to denote anticyclonic (a) or
cyclonic (z) circulation. Illustrations of CP types for Europe are given in Bardossy and
Caspary (1990).
There is a close relationship between circulation pattern and climat,ic variables.
Bürger (1958) studicd the relationship between thc atmospheric circulation patterns
and mean, maximum and minimum daily temperatures, precipitation amount,s and clou-
diness using the t,ime scries from 1890 to 1950 measured at four German cities (Berlin,
Bremen, Karlsruhe and hlunich). Ht> found a, good corrcspondence between clima,tic va-
riables and atmospheric circulation. Lamb (1977) st.ated that even the highly varying
prccipitation is strongly linkcd to t,hc atmospheric circulation.
(>nccx a CI’ classification bas been const,ructetl the link to precipit,ation has to be
establishcd. Table (12.1) 5c 1iows the prccipit,at,ion stat,istics for a fen: differcnt, CP’s at the

221

- --
station Essen. It cari be seen that there is a considerable difference in the precipitation
probabilities ranging from 13.18 % (CP HM = High over Central-Europe) to 86.62 % (CP
NWz = North-West cyclonic). Similar differences cari be observed in other statistics as
well.

Table 12.1 : Precipitation statistics for different circulation patterns at Essen (Germany) HH =
frequency of CP, pi = probability of precipitation, CT = contribution of CP to total rainfall, WI =
wetness index CT/HH, mi mean daily precipitation on wet days, Si standard deviation of precipitation
amount on wet days

Essen
(Winter)
CP HH P~(U> CT WI mi
[%] [%] [%] [-] [mm] [mm]
Wa 6.11 49.68 3.92 0.64 3.20 5.01
wz 17.82 85.62 39.19 2.20 6.38 6.19
swz 3.47 82.95 6.61 1.91 5.70 5.70
NWz 6.19 86.62 10.92 1.77 5.06 5.47
HM 5.08 13.18 0.94 0.18 3.46 4.03
HB 2.84 29.17 0.36 0.13 1.08 1.38
TrW 3.82 62.89 3.97 1.04 4.10 4.68

In Bardossy and Plate (1992) a mode1 was developed for the precipitation occurrence
at a selected site conditioned on the actual atmospheric circulation pattern. Similar
models have been developed by Wilson et al. (1992), Wilby (1994) and Bogardi et al.
(1994).
Large scale floods cari only be caused by rainfall of large spatial extent. In order
to investigate the spatial extent of rainfall conditioned on CP type, three precipitation
stations have been investigated : the Black Forest, the Mosel catchment and the Ruhr
catchment. The location of these stations which are several hundred kilometers apart
is shown in figure (12.2). Table (12.2) shows the rainfall exceedence frequencies for the
station in the Mosel catchment and for the mean of the three stations. It is clearly visible
that the zona1 circulations do not only cause heavy rainfall at a single location but heavy
precipitation over the large area covering these three stations. It is also known that the
recent floods on the Rhine river have a11 been occurring after a longer period of zona1
circulations.
Possible frequency changes in the time series of circulation patterns have been in-
vestigated in Bardossy and Caspary (1990) and Bardossy and Henze (1996). The last
5 years of CP’s strengthen the results reported in that paper. Figure (12.3) shows the
frequencies of zona1 circulations of the last 116 years in winter. For comparison the North
and East circulation patterns causing severe winter in Central-Europe are also shown.
Both series show highly non-stationary behavior.
The stationarity of these series was investigated using a non-parametric statistical
approach. For the atmospheric circulation pattern CV,let & denote the frequency of Q
within the tth year, where t = 1,2,. . . , T and T is the total number of years. 21,. . . ,Z,
are assumed to be independent random variables. The hypothesis Ho of homogeneity of
the time series (Zt) is that the distribution of 2, does not change with the time t which
means that a11 2, have the same distribution. As an alternative to Ho we consider the
existence of a possible unknown break point (changepoint) r such that Xi, . . . , X, have

222
the same distribution function Fr and X7+r,. . . , XT have the same distribution function
Fz, where Fr # F2.

GERMANY

Figure 12.2 : Location of the three precipitation stations

Table 12.2 : Frequency (%) of daily precipitation exceeding a given threshold for zona1 and non-zona1
circulation patterns for a selected station in the Mosel catchment and the mean of 3 stations in
respectively the Black Forest, the Mosel and the Ruhr catchment for the period 1978-1988
Location Threshold Zona1 Non-zona1
circulation circulation
15 mm 21.0 4.7
Mosel (1st.) 25 mm 9.1 1.7
30 mm 4.6 1.2
15 mm 13.7 1.7
Mean of 3 25 mm 1.8 0.1
30 mm 0.7 0.0

TO check the assumption of homogeneity a nonparametric statistical test suggested


by Pettitt (1979) is used. Let

Ut,~ = e 2 sgn(& - Zj) (12.1)


i=l j=t+1

denote the Mann-Whitney statistic that the two samples Zr, . . . , 2, and Ztfl, . . ,Z, have
the same distribution, and let

(12.2)

The time to is the most likely change point of the series (&) if

KT = I&,,Tl. (12.3)

223
20’------- , ,.I? , , / I
I , I I ’, \ / /
I / , / , \ I -. ,
I l 1 l I I
15 IIIIIIIIII/IIIIIIIIIIIII/IIII/IIIII~~II/IIIII/IIIlIIIII~I//I
1880 1900 1920 1940 1960 1980 2000
Figure 12.9 : Frequencies of zona1 circulation patterns (solid lines) und north+nortl~-east+east+south-
east circulation patterns (dashed lines) in wider (ten year moving averuye), subjective classification
(Hess-Brezowsky)

Cndcr the hypothesis Ho, an approximation to the probability of observing a value of KY,
at 1eaSt as large as k.T (i.e., the p-value associated with /@) is given by

(12.4)

Applying this formula t,o the frequencies of zona1 circulat,ion patterns in winter the pro-
bability it is found that p = 0.004. This indicates that the hypothesis of stationarity of
this series is extremely low. The most likely change point is 1972. Frequencies of other
patterns were also investigated but due to their lower hydrological relevance these results
are presented in another paper (Bardossy and Henze, 1996).
A&lother possibility to investigate changes in time series could be an application of
the Bayesian method for the detection of changes in time series as described in Bernier
(1994).

12.3. Duration of CP’s


The increased frequency of thc zona1 CP’s is a possible explanation of the increasing
number of large scale floods. However, up to now, only the increased probability of
precipitation for zona1 circulations and the large spatial extent of the cvents have been
investigated. Besides these the time extent of the precipitation events is also important.
-For this purpose the duration of the occurrence of daily circulation patterns is investigated.
Figure (12.4) shows the mean duration of zona1 circulations as a function of time: it
appears that, this mean duration is increasing. The st,atistical significance of the change
is based on the empirical frequency distribution of the durations. For this purpose a
technique based on random permutations has been developed in which the frequencies of
the different durat>ions arc calculated for two k year windows :

224
--- L----L-___L_-__L___-L_-_-L___-L____L___ I
I I I I I
l I I I I
I I I I I
I I I I I
--L----L_-__L____L____L____L____L___-L----L----L- -_I
I I I I I
I I I I /
I I I I I
I I I I I i U/t
-- L----L- -L----l
I ’ 7J I I
I I l
I : I I I
I I
-L----I

5.5

5.0
#
Figure 12.4 : Mean duration of zona1 circulation patterns (ten year moving average)

As a first step 1 rlasspes of possible durations are defined. This step is necessary, as
some short’ or very long durations (> 10 days) are very rare and statistical comparisons
should be based on rare events. Let fi(t) be the frequency of the occurrence of a period in
the i-th duration class of a selected circulation pattern cv within the time period t, t + At.
For a given time (year) t, we introduce the Chi-square type statistic

1 (fi@ - nt> - fi(t))2


K2(t) = c (12.5)
i=l fi@ - nt>

which is defined for each t = At + 1, . . . , T - &. Here, T is the total length of the time
series.
The hypothesis of homogeneity of the durations of the selected circulation pattern is
rejected for large values of the test statistic

(12.6)

The time t. with a maximal K(t) value is a candidate for the time of a change
in persistence. TO asspess the statistical significance of an observed value for K:~~, an
approximate permutation test was performed.
This method consists in generating a random permutation as (1), . . . , a,(T) of the
indices (years) (1, . . , T) and then calculating a selected statistic tî,kaa: for frequencies
from the randomly permuted time series. This step is repeated S times yielding values

For a given S (under the hypothesis Ho) an approximation to the probabil~ty of ,


observing a value at least as large as K* for the statistic K:,, is given by the relative
frequency of those values nkaz(s), 1 < s 5 S, exceeding K*.
Figure (12.5) shows the frequencies of the different duration classpes for circulation
patterns “‘High over central-Europe”‘, for the time periods 1962-1976 and 1977-1992. This

225
is a CP with very low probability of precipitation and low precipitation amounts. Days
with this CP exhibit less then 20% of the mean daily precipitation amount. Figure (12.6)
shows the frequencies of the different duration classpes for zona1 circulation patterns for
the time periods 1962-1976 and 1977-1992. As described above these are the patterns with
high probability of precipitation and high precipitation amounts with large areal extent.
For both dry and wet patterns one cari clearly see t,he decrease of the short durations and
the strong increase of the long durations.
Table (12.3) s h ows the results of the statistic /&as for the duration of sorne selected
circulation patterns. The values were calculated using &=lO, 12 and 15 years. Thus the
ranges of the change points and p-values are given in that table. Note that the results
strongly indicate a change of the distribution of duration of these selected patterns in the
seventies.

~ 1962-1976

-------- - 1977-1992

l-2 3-4 5-6 7-8 9-10 lO<


Duration (days)
Figure 12.5 : Distribution of the duration of zona1 circulation patterns for (1962-1976) and 1977-1992
(subjective classification)

Table 12.3 : Break point statistics of the duration of different circulation patterns, based on the subjective
Hess-Brezowsky classification for the period 1900-1993
Circulation Break point Probability (%)
Zona1 (winter) 1977-78 97-98
Zona1 (year) 1976-77 97-98
High CE (winter) 1973-78 95-99
High CE (year) 1974-78 95-99

12.4. Objectively classified CP’s


The weakness of the above CP’s time series may reside in the subjective nature of the
classification. Even though the patterns are defined with German accuracy the classi-
fications constructed by two experts might be different. Therefore an investigation of

226
the persistence properties of “objectively” or automatically classified CP’s could strengt-
hen the results of the previous section. There are several automated or semi-automated
classification methods including :
l k-means clustering

l principal component analysis (PCA)

l fuzzy rule based classification

l neural net based classification


In the present investigation the fuzzy rule-based approach as described in Bardossy
et al. (1995) 1s used. The reason for this choice is that the fuzzy rules are based on the
definitions of the subjective classification SO that a comparison cari be made. The main
difference is, however, that the classification is repeatable and not expert dependent. The
investigation of the duration distributions of CP’s gives no ‘useful results. The actual
CP durations are usually much shorter than those found in the subjective classification.
This may be explained by the procedure used for the subjective classification which con-
siders the previous and subsequent days pressure conditions. Thus days with less concise
patterns might be classified according to their neighbors and not only on the basis of
that day’s pressure conditions. Consequently, instead of using the pattern duration, a
different statistic is used. Within a given period of subsequent n days the number of
days with the selected pattern is calculated. For example from the ten day long series
(CPO1,CPO1,CPXX,CPXX,CPO1,CPXX,CPO1,CPO1,CPXX,CPOl) the pattern CPOl has
a frequency of 6. This procedure is done moving the n-day window over the selected pe-
riod. [t, t + At], the frequencies pi(t) are calculated as follows :
N(t)
pi@> = N(t) (12.7)

where (letting A(T) denote the CP at time 7)


Ni(t) = j{O; [{T : A(T) = CI ; 8 5 T < B + n}l = i ; t < 0 < t + at} IW.8)
and
N(t) = c Ni(t). (12.9)
i>o
Thus N,(t) is the number of caspes in the At long time period for which pattern Q occurred
exactly i days within a period of n consecutive days.
Based on these pi(t) values, we form the d(t) statistic as in (Eq. 12.5) with fi re-
placed by pi and then the 6kaz statistic as in (Eq. 12.6). The statistical significance of an
observed value for ~~~~ is asspessed as described above for the durations by performing
an approximate permutation test.

The above defined replacement of the durationis called dominating duration subse-
quently. Table(12.4) shows the results of the statistic KS&, for the dominating duration of
selected circulation patterns using the subjective classification. Note that the significance
of a change decreaspes compared to the duration frequencies. The East circulations do
not show any change in their dominating duration. Table (12.5) shows the results of
the statistic &ELaZfor the dominating duration of selected CP’s using the objective clas-
sification. Despite the short time series there is strong evidence of a persistence change
of the zona1 circulations. Figure (12.7) shows the results of the statistic t&az for zona1
circulation patterns in winter.

227
~ 1959-1974
_---
1975-1990
0.30 -----
I /
I I
I I

0.20

ii i,i i,i i; ____,


0.10 ’rl-----
I I ’ I I ----l
I
’I I 1 I I 11: lJ I
I
I !I i1 iI I t I
1I
1l I l I I I’ I
I ’I
1I I 1 I I Il I , I
0.00 I
l-2 3-4 5-6 7-8 9-10 lO<
Duration (days)
Figure 12.6 : Distribution of the duration circulation
of patterns with high pressure over Central-Europe
for 1959-1974 and 1975-1990 (subjective classification)

I
----

Figure 12.7: Break point statistics K(t) for the dominating duration series for zona1 circulations

Table 12.4 : Break point statistics of the dominating duration of different circulation patterns, based
on the subjective Hess-Brezowsky classification for the period 1900-1994
Circulation Break point Probability (%)
Zona1 (winter) 1976 90-98
Zona1 (year) 1974-78 90-96
High CE (winter) 1958-59 95-99
High CE (year) 1974-77 91-94

228
Table 12.5 : Break point statistics of the dominating duration of different circulation patterns, based
on the fuzzy rule-based classification fer the period (1947-1993
Circulation Break point Probability (%)
Zona1 (winter) 1973-76 98-99
Zona1 (year) 1974-76 94-99
High CE (winter) 1958-59 95-99
High CE (year) 1974-77 91-94

12.5. Precipitation
As shown above CP’s are closely linked to precipitation. Therefore at a selected location
the persistence of wet and dry days is investigated using the same methods as above.
Both the duration of the wet and dry periods, and the persistence as defined below have
been investigated. The analysis has been performed for both single stations and the areal
precipitation calculated using 28 stations in the catchment. Table (12.6) shows the results.
The variation in the precipitation series conform with that in the CP series.

Table 12.6 : Break point statistics of the duration and of w-et periods for 2 selected stations and areal
precipitation based on 28 stations (Aller catchment, Germany) using daily observations in winter for the
period (1947-1993)

Location Break point Probability (%)


Gottingen 1976 89
Herzberg 1976 94
Aller catchment 1979 89

Another possibility for investigating the persistence of a precipitation series especi-


ally for runoff production is to use a wetness index which cari be defined and calculated
as :

w(7) = 5 cPh(T- m) (12.10)


m=l

where h,(r) is the daily precipitation amount on day t, 0 < (u < 1 is a weighting coefficient
and M is the number of preceding days. The higher is the wetness index the more
likely the catchment is to produce runoff. The annual and winter extreme values of the
wetness index were investigat!ed. The mean value of ~(7) is proportional to the mean
precipitation in the selected time period, therefore it does not give any insight into the
persist,ence properties. On the contrary the high variante of ‘w(r) means that high and
low values occur in the series, indicating persistent dry and wet periods. Thus an increase
of the variante of the wetness index indicates an increase of persistence.
Figure (12.8) shows the times series of the maximal and figure (12.9), that of the
variante of ‘11)for the areal precipitation in the Aller catchment. The parameters used for
the calculation of w in (Eq. 12.10) were Q = 0.85 and M = 15 days. These series indicate
a possible break point. Statistical tjests similar to those used for the CP frequencies were
also used to test the stationarity of these series. Additionally to the method described
in equations (12.1-12.4) a permutation test on E(T was also performed, and a modified

229
version of KT as suggested by Sen and Srivastava (1975) was used to detect a break point
in the series :

K& = max l”t,Tl


l<tlT dm
1(-q _____;-_____ ;------; ---- --,-- ----; ______,

Figure 12.8 : Maximal winter wetness index for the Aller catchment in winter (19471993)

I
I

200 ----\--i ---- --


1 I
I
I
I

,-c--I

Figure 12.9 : Variante of ,the wetness index for the Aller catchment in winter (1947-1993)

Significance of the results was asspessed using again the permutation test. Table
(12.7) summarizes the results of these calculat’ions. Note that for most of these series
the hypothesis of stationarity has to be rejected with high probability. Results of this
investigations are similar to those obtained for the CP duration. This inicates that the
trace of a large scale persistence change is visible at a much lower catchment scale.

230
Table 12.7 : Break point statistics for the maximal wetness index w,,, and the variante of the wetness
index Var(w) for 2 selected stations and areal precipitation based on 28 stations (Aller catchment,
Germany) using daily observations in winter for the period 1947-1993

P(1) = KT (Pettitt) with equation (12.4)


P(2) = KT (Pettitt) with random permutations
S-S = K& (Sen and Srivastava) with random permutations

Location Variable Break P(l) pc4 Break s-s


point Probability Probability point Probability
(%o) (%> cv
Gottingen wmax 1977 92.6 95.9 1985 97.4
Var(w) 1981 87.7 91.5 1985 98.7
Herzberg Wmax 1975 98.4 99.4 1985 97.4
Var(w) 1975 88.1 94.1 1985 98.7
Aller catchment Wmax 1981 83.9 89.4 1985 97.0
Var(w) 1981 87.7 92.5 1985 95.6

12.6. Conclusions
In this paper the spatial and temporal extension of precipitation events has been investi-
gated. It is shown that the spatial extent of precipitation is closely linked to daily CP
type. Further the time series of circulation patterns has been investigated. The frequency
of several types of circulation patterns shows non-stationary behavior. Besides the pat-
terns frequencies their duration also appears to have changed during the last few years -
leading to much more persistent weather. The findings based on 115 years of subjectively
classified daily CP series cari be supported by similar results for the objectively classified
CP series for 1947-1993. TO investigate the persistence of the objectively defined CP’s
instead of the length of the patterns, a different statistic based on the number of days
within a given time interval is defined here. Non-parametric statistical tests based on
Man-Whitney statistics have been applied to test the significance of the frequency chan-
ges and permutation-based methods, to investigate the changes in persistence. There are
several significant changes, among which the increase of the frequency and the persistence
of the zona1 circulations is hydrologically the most important. Investigation of a long pre-
cipitation time series shows that the persistence of wet-dry periods has also changed. The
change in persistence has important hydrological implications for floods, droughts and
water supply. These implications might be considerably more important than changes in
the mean values. Further investigation of other hydrological time series is necessary.

231
Bibliography

BAAR.DOSSY. ;1\. and H.J. CASP.4RY. (1990): ‘Detection of chmate change III Europe
b!r analyzing European circulation patterns frorn 1881 to 1989’. Theoretacnl nnd
Applkd Clirnatology, 42, pp 155-167.

BARDOSSYA.; L. DCCKSTEIN and 1. BOGAR.DI. (1995): ‘Fuzzy rulc-based classifi-


cation of atmospheric circulation patterns’. Internutional Journal of Clirnatology ,
15, pp 1087-1097.

BA4RDOSSY: A. and H. HESZE. (1996): ‘Statistical investigation of time series of cir-


culation patterns’. Worlcing Paper, University of Stuttgart, l-23.

BAARDOSSY, &A. and E.J. PLATE. (1992): ‘Space-t’ime hIode for Daily Rainfall using
IZtmospheric Circulation Patterns’. Water Reso~ces Research, 28:1247-1259.

B-AUR, F.; P. HESS and H. XXGEL. (1944): ‘Kalender der Gro@wetterlagert, Europas
1881-1939’. Bad Homburg.

BERSIER, J. (1994): ‘Statistical detection of changes in geophysical series’. NATO Ad-


vnnced Study Institute: Eng. Engineering Ri& in Natural Resources Management,
L. Duckstein and E. Parent (eds.), Kluwer: Dordrecht: pp 195-205.

BOG-kRD1. 1.: 1. I\lATA4YASO\‘SZKY~ .L\. BAR,DOSSY and L. DUCKSTEIN. (1994):


‘Estimation of local climatic factors under clirnat,e change’. NATO Advanced Study
Institute: Eng. Engineering Risk in Naturnl Resources Management, L. Duckstein
and E. Parent (eds.): Kluwer, Dordrecht, pp 195-205.

BÜR.GER, K. (1958): ‘Zur Klimatologie der GroBwetterlagen’. Berichte des Deutschen


Wetterdienstes Nr. 45? Bd. 6: Offenbach a. nlain, Selbstverlag des Deutschen
iVetterdienstes.

FOUFOULA4-GEORGIOC, E. and D.P. LETTENAMER. (1987): ‘A4 Markov renewal


mode1 for rainfall occurrences’. Wu,ter Resowces Reseuwh, 23: 8X-884.

HESS, I’. md H. BREZOWSKY. (1969): ‘Kat,alog der GroBwetterlagen Europas’. L3-


Bwichte des Deutschen Wetterdienstes Nr. 1i,S, Bd. 15, 2. neu bearbcitete und
erganzte zqufl., Offenbach a. Alain, Sclbstverlag des Deutschen Wetterdienstes.

KONECNY, F. and H.P. NACHTNEBEL. (1985): ‘Ext,reme value process md the eva-
luation of risk in flood analysis’. Applied Mnthematicul Modelhg, 9, 11-15.

Lrli\lB, H.H. (1977): ‘Climat,e. present., past and future‘. Climutzc hstoryp and thc
&tlLrc.,\ol. 2 1 London, hlethuen 1y: CO Ltd, 835 pp.

232
RODRIGUEZ-ITURBE, 1.; D.R. COX and V. ISHAM. (1987): ‘Some models for rainfall
based on stochastic point processpes’. Proceedings of the Royal Society, London, A
410: 269-288.

PETTITT, A.N. (1979): ‘A non-parametric approach to the change point problem’.


Journal of the Royal Statistical Society (Series C) Applied Statistics, 28, pp. 126-
135.

SEN, A. and M.S. SRIVASTAVA. (1975): ‘On tests for detecting changes in mean’. The
Annals of Statistics, 3, pp. 98108.

WILBY, R.L. (1994): ‘Stochastic weather type simulation for regional climate change
impact asspessment’. Water Resources Research, 30: 3395-3403.

WILSON: L.L.; D.P. LETTENMAIER and E. SKYLLINGSTAD. (1992): A hierarchical


stochastic mode1 of large scale atmospheric circulation patterns and multiple station
daily rainfall, Journal of Geophysical Research, 97, ND3: 2791-2809.

233
13. A stochastic mode1 for simulating daily
flows in a highly developed basin

N. T. Kottegoda, L. Natale, E. Raiteri


Hydraulic and Environmental Engineering Department
University of Pavia
via Ferrata, 1
27100 - Pavia, Italy

1. Saccardo
ENEL - CRIS UIGI, C.so del Popolo, 245
30172 - Mestre, Italy
Abstract

Daily flows are modelled using a Markov chain process for wet and dry runs of the appropriate
order. This generates starting times of high and low flows. A log normal generator is used for the
magnitudes of low flows which are dependent on the lengths of recession but have low serial
correlation. A non-normal ARIMA process is adopted for simulating a recession backwards in
time from a low flow to the time of the previous high flow. Transformation to stationarity is by
means of a step-ratio which is the difference between the antecedent and the current value divided
by the current value. The rising limb of the hydrograph is simulated using a ranked uniform
random number generator. Application was made to the Po basin in Northern Italy.

Résumé

On modélise les débits journaliers pour une chaîne de Markov d’ordre approprié pour les “runs”
secs et humides. On génère ainsi les dates des débuts des débits localement les plus hauts et les
plus bas. Un générateur log normal donne les amplitudes des bas débits qui sont dépendants des
longueurs de récessions, mais n’ont qu’un faible niveau d’intercorrélation temporelle. Un
processus ARIMA non normal est adopté pour simuler récursivement la récession, à partir d’un
niveau minimum local de débit en remontant le temps de facon rétrograde jusqu’au maximum
local qui le précède. La série est rendue stationnaire par la transformation des débits en leurs
accroissements relatifs. La montée de l’hydrogramme est simulée au moyen d’un échantillon
ordonné obtenu à partir d’un générateur de loi uniforme. Ce modèle a été appliqué sur le bassin
du Po en Italie du Nord.

13.1. Introduction

Information on low flows is important to engineers, farmers and water managers for various

235
purposes such as resetvoir design and operation, water quality control, irrigation or water
abstraction for domestic and industrial supplies, navigation and fisheries. The relative
magnitudes of such events vary from one climatic zone to another.
The literature on the study of low river flows seems to be rather short compared to the
extensive publications on flood estimation. The American Society of Civil Engineers (US Ta&
Committee, 1980) appointed a task committee to report on low flows in the 1970s and the
interest has since been maintained. In the United Kingdom, Gustard et al. (1992) reported on
low flows and provided design techniques for the estimation of low flows at ungauged sites.
Droughts, which are associated with low flows, have received increased attention over
the past few two decades, particularly in parts of U.S.A (see, for example, Yevjevich (1967),
Millan (1972) and Tase, 1976), and in Southern Europe. Droughts have had a special effect on
some cultivated areas with economic consequences. In the regions around the Mediterranean
extensive irrigation has been adopted for cultivating a variety of crops. These areas have
suffered from frequent droughts in the past. This effect has been seen, for instance, in the Po
basin in Northen Italy, where the major use of water is for irrigation.
Deterministic catchment models provide a means of studying low flows; when associated
with random inputs which mode1 the variations of rainfall and catchment properties such as soi1
moisture deficits this should provide perhaps the best approach. Quite often, however, the
scarcity of representative data for distributed models, which are required because of the large
areas usually involved, necessitates the use of stochastic models.
Simulation of daily flows through stochastic models provides a study of the response of
water resource systems to computer generated data. The sphere of activity has a history of
about three decades and is termed “operational hydrology”.
Stochastic methods of simulating daily flows were initially based on autoregressive types
of models adopted to preserve autocorrelation and seasonality (Beard, 1967; Quimpo, 1968).
These Markov type of models ignore the recession properties of hydrographs. Payne et al.
(1969), however, re-arranged the hydrographs within each month after using Markov models
to produce some of the characteristics of historic data. In addition to the diffïculties in
modelling of recessions, daily flows usually have highly non-normal distributions; other
problems are that extreme values and crossing properties are not maintained in the
autoregressive type of models.
For preserving the time-irreversible characteristics of daily flow hydrographs, Bernier
(1970) suggested the filtered Poisson process which is discussed, for example, by Parzen
(1962). The type of mode1 was known as a shot-noise model; this had been used originally to
analyse the quantum effect of fluctuations of electric current in vacuum tubes. The shot-noise
mode1 was applied in hydrology by Weiss (1977). Some shortcomings were evident such as
unrealistic fluctuations in the recessions with faster decay rates and excessive carry-over effects
between months. A different type of transfer function mode1 was proposed by Treiber and
Plate (1975), based on a Markov chain which produces wet and dry days. A pulse is generated
by an autoregressive mode1 with a modified exponential component. Identification of the pulses
in historical data and fitting polynomials to calculate the transfer function are of course not
devoid of errors. Besides, negative pulses are generated. Kottegoda and Horder (1980)
developed a probability mode1 for the process of daily rainfall considering first and second
order Markov chains. Then a rainfall-runoff mode1 was derived using pulses and a transfer
function. The mode1 was extended to multisites by the evaluation of joint probabilities of
rainfall runs at different sites. However, relationship between mode1 parameters and catchment
characteristics are not always satisfactory. Sargent (1979) suggested a simplified procedure
based on a first order Markov chain for wet and dry t-uns occurring in daily streamflows,
generation of pulse heights and deterministic recessions based on historical data; the Harms
and Campbell’s ( 1967) approach was used for disaggregation.

236
13.2. Objectives and outline of work

The main objective is to formulate a daily flow mode1 which cari be used to simulate low flows
in a highly developed basin subject to irrigation and other influences. Because estimates of
water diversions and return flows from irrigation are usually prone to large errors, diffïculties
arise in transforming an observed series of river flow to a naturalized series. This is in addition
to problems caused by the shortness of available historical data series.
De-regulation of a basin like the Po is not an easy task on account of diversions, return
flows and other factors. An attempt was made by Kottegoda and Natale (1994) to account for
the effects of irrigation and simulate natural low flows. Further work is at hand.
The approach considered here is based on the use of historical sequences of daily
discharges of the Po measured at the main gauging stations of the river for the development
and calibration of a stochastic model. This should enable a detailed study of low flows to be
made at different locations on the river.
This study consists of four parts :
(1) - generation of consecutive wet and dry sequences,
(2) - generation of low flows,
(3) - simulation of recession curves and
(4) - simulation of rising limbs of hydrographs.
The Markov chain mode1 simulates wet and dry sequences. At the end of each dry
sequence a low flow is generated. Then the recession is simulated backwards in time over the
length of the dry t-un. Finally the rising limb is simulated to span the interval from the previous
low flow to the peak.

13.3. Theoretical aspects

13.3.1. Wet and dry sequences

The occurrence of wet and dry days is simulated through first and second order Markov
chains; extension cari be easily made to third and higher order Markov chains. An extensive
study of these aspects of daily rainfall was made by Stern and Coe (1984).
Denote the rainfall process by x, , t = 1,2,...; with xt = w if the day t is wet and x, = d if
day t is dry.
For a first order Markov chain, the matrix of transition probability takes the form :

day t
W d
day t - 1 w
d r

where 0 I a 5 1; 0 5 p I 1. In the matrix of transition probabilities the ith row of the jth
column is Pr( Xr=j I Xt.l=i ).
For a second-order Markov chain the transition matrix is of the form :

day t, day t - 1
ww dw wd dd
WV a I-a 0 0
dayt-1, & 0 0 1-P P
day t - 2 wd 1-Y Y 0 0
dd 0 0 l-6 6

237
where 0 I a, p, 7, S I 1. For example, an entry in the & column corresponds to the event (x,
= d, x,.1 = w). Also an entry in the wd row corresponds to the event (xt., = w, xle2 = 6). This
give the links between rows and columns which are zero in cases where the transition is not
possible.
This Markov process cari be formally expressed as follows. In general, if R(t)=0 denotes
that day t is dry for t = 1, 2, . . . . . 365 and R(t)=1 if day t has rain and if we assume, say, a
second order Markov chain :

Pr[R(t) = lIR(t-l),R(t-2),R(t-3),....]=
(13.1)
Pr[R(t) = lIR(t-l),R(t-2)]

Fitting the second order Markov chain over an annual cycle involves estimation of 4 x
365 parameters :

ej (t> = Pr[R(t) = l/R(t - 1) = j, R(t - 2) = i] (13.2)

for t=l, 2,..., 365. The Pu(t) are estimated by counting the number of transitions say for wdd
(i.e. current day is wet and 2 antecedent days are dry) that is for i=j=O and dividing by the
total number of transitions for ddd and wdd; sirnilarly, estimates are obtained for other values
of i and j.
If the assumption of stationarity is made :

cj (t) = PII (13.3)

The number of parameters required for a kth - order stationary Markov chain is 2k. A
second method which cari be adopted to mode1 wet and dry r-uns is an altemating renewal
process in which distributions such as the truncated negative binomial and log series
distribution are used to fit the distributions of wet intervals and dry intervals (see, for example,
Buishand 1977).

13.3.2. Generation of low flows

From previous experience on the Po river (see Kottegoda and Natale, 1994) the log-normal
distribution was chosen to mode1 the low flows. This is given as follows in the three-parameter
form to generate the logarithms of low flows :

fW= i exp -[(lnx-E)-ltp /2cJ2] (13.4)


(X-E)d% 1

where E, ~1and CJare three parameters.


However, as an alternative, the three parameters gamma function was also considered :

f(x)= A{ yy-’ exp{-[ y]] (13.5)

where E, a and 0 are three parameters.

238
The above equations give the marginal distributions of the low flows. In practice these
are conditional to the lengths of recessions.

13.3.3. Simulation of recessions

Recession behaviour cari generally be represented by one or more exponential functions, as


seen and tested on different types of hydrographs of river flows from various geographic
regions of the world. This property makes it feasible to adopt a particular type of stochastic
mode1 based on the autocorrelation function to suit a river basin.
Because of the inherent nonstationary features of hydrographs, the ARIMA(p,d,q) type
of mode1 was considered to mode1 the recession :

(13.6)

where B is a backshift operator, V” is the dh order difference operator and p and CJare
numbers of seasonal autoregressive and moving average parameters. Also E(rh) = E(L$) = 0,
Var(&) = 1 and E(rl~~~-1)= 0.
For example, if hi,, = 0.8, ôi,, = 0.6 and d =l in an ARIMA(l,l,l) model, the
generating equation is of the form :

(13.7)

where cr = (xt - ~L)/‘O; lt and (J are mean and standard deviation of xr appropriate for the
period.
In this model, the original non-stationary ct series is transformed to a stationary series by
taking the first difference :

(13.8)

to change equation (13.6) into the for-m : ap( B)ty f = 0, (B)q, , that is an ARMA( 1,l) model.
An innovation is proposed by the ratio :

(13.9)

The advantage of this transformation is that it induces stationarity more effectively than
the conventional differencing methods of the first, second and other types. In the above
equation, vt is measured backwards in time; that is, one goes from a low flow to the previous
peak in the hydrograph, in daily steps.
Non-normality in the random component ri, is a common feature in daily flo)vs.
Therefore studies should incorporate procedures for dealing with this characteristic.

13.4. Procedure / results


It seemed important to study the behaviour of low flows in the Po, since the probability
distribution of low flows at various gauging stations on the river is currently of considerable
local importance for the management and rational distribution of water in the basin. The results
should be of interest in other rivers which have similar characteristics. Details of the study area
and river gauging stations are given in table (13.1).

239
Table 13.1 - Details of main gauging stations on the Po.
Catchment Area Length of record Annual iow flows
Station (km’> (years) (m3s-‘)
I-1 (J
Pontelagoscuro 70,09 1 72 535 165
Borgoforte 62,450 62 482 144
Boretto 55,183 41 414 122
Piacenza 42,030 68 338 93
Meirano 4,885 43 20 6

Applications were initiated for the Pontelagoscuro station which has the longest record.
It was found that a first order autoregressive is an appropriate choice of mode1 for the
annual flows in the Po at Pontelagoscuro. Accordingly, a 72 year series of annual flows were
generated. Subsequently generated daily flows were scaled on an annual basis to be compatible
with the simulated annual flows.
Because representative rainfall data are not available on a daily basis, the wet and dry
runs were estimated from the behaviour of the daily flow series. This is justifiable because of
the sensitive nature of the response in the Po basin; that is to say, a sufficiently wet day causes
a rise in the level of the river.
TO apply a first order Markov chain, for example, the numbers of sequences WV in
January, say, as per notation in Section (13.3), were computed and divided by the total number
of sequences for that month. This gives the probability of a wet wet transition. The other
transitions are similarly calculated.
From a study of historical wet and dry sequences at various locations Markov chain
models from zero to third order were used to simulate the wet and dry t-uns. The parameters
were estimated on a monthly basis (that is 12 sets of parameters) and also on an annual basis.
It was found that the first order Markov mode1 was sufficient to mode1 the wet and dry
runs at Pontelagoscuro and Piacenza which have the longest records for which daily data are
available. The distribution of the simulated wet and dry sequences using the mode1 and
parameters are shown to be close to the distribution of the historical wet and dry sequences.
This is confirmed by results shown in figure (13.1) for Markov chains of different order. An
objective statistical test for this put-pose is the Bayesian information criterion (see, for example,
Katz, 1981).

240

-----r-----.- -._-- .- -... -~ .--


0.80

0.60

0.50

0.40

0.30

0.20

0.10

0 20 40 60
length of recession (days)
Fig. 13.1. Probability distributions of lengths of recession of historical data and data generated using Markov
chains of diflerent order

Also it was found that constant parameters for the Markov chain cari be maintained for
the year without significantly changing the distribution of run lengths. The Markov chains are
simulated using a uniform random number generator.
W ith regard to low flows, the simulation is made firstly by applying a bivariate gamma
autoregressive mode1 and secondly by using a bivariate log-normal model. Both types are
suitable candidates on the basis of chi-squared tests. The distributions have two and three
parameters; these parameters are evaluated from the historical daily flow data for each month.
A tim e series was formed using the magnitudes of the low flows i.e., if x,-i 2 x, < x,+~, xf
is a low flow. The marginal probability density function of the lognormal mode1 is given by :

f(xlZ)= exp{-[(lnx-E)-C1]2 /20”) (13.10)


(x-&

where 1 is the length of the recession associated with each low flow. The recession lengths are
divided into 5 groups as follows : 0 I 12 4, 5 I Z 59, 10 II I 14, 15 I 1 I 19, 12 20.
Figure (13.2) shows the variation of the low flows with the length of recession. It is seen
that longer recessions are associatedwith lower low flows, Because of the above relationship it
was decided to mode1 the low flows conditional to the length of recessions. For this pur-pose5
lengths of recessions were introduced in increments of 5 days.

241
0 20 40 60
ICI?& ofreçess,on (&Lys)

Fig. 13.2. Variation of lowflows with lengths of recession ut Pontelagoscuro.

Some flows produced by the gamma mode1 were found to be too low. For this reason
and because of improvements to the fit to the left tail of the distribution it was decided to use
only the lognormal for the low flows.
The parameters of the lognormal distribution were evaluated using the maximum
likelihood procedure. Peaks are obtained as the last values in the generation of flows in the
recessions made backwards in time from low flows.
The rising limb of the hydrograph, between a low flow and the subsequent peak flow, is
formulated using a ranked uniform random number generator for the simulation of the daily
increments.
The simulation of a recession curve, commencing from a generated low flow and
terminating at the previous peak, is based on the simulated length of a dry run using a log-
normal ARIMA mode1 or, as an alternative, a gamma autoregressive model. The parameters of
the stochastic mode1 are also evaluated from the historical daily flow data on a monthly basis.
The mode1 is based on a choice of differencing as given by d in equation ( 13.6) or the
ratio of equation ( 13.9).
Based on 7 recessions longer than 32 days the first and second differences are shown in
figures (13.3) and (13.4). Figure (13.5) shows the corresponding ratios. It is seen that the
adoption of the ratios leads to a series which is much more stationary. In fact for the shorter
recessions the ratios are quite stable; therefore the ratio method was adopted.
+

+‘$-:
+

++
4 +

++
i+t
+*
c

++
+
1+*
time in days from maximum flow

Fig. 13.3. First diflerences from the seven longest recessions at Pontelagoscuro

-1wo , ( , , , , , , , , , / , , / , , , , , , , , , , , / , , , , , , , , / , , , , , , , , ,

0 10 20 30 40 SO
time in days from maximum flow

Fig. 13.4. Second differences of the seven longest recessions ut Pontelagoscuro

243
0 10 20 30 40 xl
time in days from maximum flow

Fig. 13.5. Ratios of the seven longest recessions in Pontelagoscuro

Figure (13.6) shows serial correlogram of the ratios (Eq. 13.9) to which a first order
autoregressive mode1 was applied. Figure (13.7) shows the partial autocorrelogram. These
diagrams support the use of a first order model.

0.1- + *
t
+ * +
0.0 I I I I I I I i I
0 1 2 3 4 5 6 7 8 Y 10

1%

Fig. 13.6. Serial correlogram of ratios formedfiom daily $ows in recession

244
1.0

0.Y

0.x

0.7

0.6

0.5

0.4

0.3

0.2

0. k

0.0

-0.1

-0.2

0 1 2 3 4 5 6 7 R Y 10
1%
Fig. 13.7. Partial autocorrelogram of ratios

The annual minimum flows generated are shown in figure (13.8) on Gumbel probability
paper. It is found that in general there is close agreement in the distributions of historical and
simulated low flows.
6.00 ,

* histoncal minima

- minima generated with lognomml mod

0 100 200 34m 4M) 500 M)O 700 800 9CXl lax, 11’33
discharge (mc/sec)
Fig. 13.8. Minimum flows plotted on Gumbel probability paper

In figure (13.9) a comparison is made between the annual maximum flows in the
historical data and those in the simulated data.
The simulation takes account of the effect of the levees. These impose an Upper limit to
the high flood flows because of consequent ovefflowing over the levees.

245
6.00

4.00

z.oQ

0.00

-2.00
* histmicalmaxima

-4.00

looo 2000 3000 4000 5000 6000 7000 8WO 9000 1ooo0
discharge (mclsec)
Fig. 13.9. Maximum flows plotted on Gumbel probability paper

The linkages between the parts of the hydrographs described above lead to a stochastic
mode1 which cari simulate daily flows; the results obtained show compatibilities between
historical and simulated series.
Figure (13.10) shows a simulated hydrograph superimposed on a similar historical
hydrograph. Compatible properties are shown by the two hydrographs.
10000
- typid hystorical

8000

6000

0 25 50 75 100 125 150 175 200 225 250 275 300 325 350 375
days
Fig. 13.10 - Comparison of patterns of historical and simulated hydrographs

246
13.5. Conclusions and further work

The realistic simulation of daily flows has been found to be a difficult task. There seem to be
inevitable shortcomings. This study has provided an alternative procedure for simulating daily-
flows with particular reference to extreme low events. This approach cari be adapted to suit
conditions in other basins.
The advantages of this study are that : (a) - wet and dry sequences are modelled as
closely as possible; (b) - low flows are modelled realistically; (c) - recession behaviour is
simulated using characteristics of observed recessions and also superimposed random effects
caused by various input and output processes.
Further work which is being incorporated includes practical methods of disaggregation
which maintains annual periodic characteristics and long term behaviour. Also the bivariate
relationship of the low flows with lengths of recession and magnitudes of previous low flows is
studied. Additional studies of recessions have shown that they are of three types which cari be
represented on semi-logaritmic plots by one, two or more (complex) components. These are
modelled appropriately.
Another extension of the current study on low flows is to mode1 the effects of irrigation
diversions and return flows by means of intervention analysis (Box and Tiao, 1975). Such a
mode1 cari be based on the non-stationary process :

where s represents the annual cycle in the time units adopted.


If the intervention is represented by p and if i, takes a zero or one depending on the dates
of irrigation, than the series after possible intervention at time t is given by :

E, =Pi, +!v (13.12)

where the series St takes account of the local and seasonal dependence and others effects.

247
Bibliography

BERNIER, J., (1970). Inventaire des modèles des processus stochastiques applicables à la
description des débits journaliers des rivières. Rev. Dt. Statist. Inst., 38, pp. 49-61.
BEARD, L. R., 1967. Simulation of daily stream flows. Proceedings of the 1st. International
Hydrology Symposium, Fort Collins, Colorado, paper 78, pp. 624-632.
BOX, G.E.P., and G. C. TIAO, 1975. Intervention analysis with applications to economic and
environmental problems. J. Am. Stat. Assoc. (Theory and Methods Section), 70, pp. 70.
BUISHAND, T.A., 1977. Stochastic modelling of daily rainfall sequences, Commun. Agric.
University Wageningen, Wageningen, nu. 77-3.
GUSTARD, A., BULLOCK, A., and DIXON, J.M., 1992. Low flow estimation in the United
Kingdom, Report no. 108, Institute of Hydrology, Wallingford, Oxford.
HARMS, A.A., CAMPBELL, T.H., 1967. An extension to the Thomas-Fiering mode1 for the
sequential generation of streamflow, Water Resour. Res., 3 (3), pp; 653-661.
KATZ, R. W., 1981. On some criteria for estimating the order of a Markov chain,
Technometrics, 23, pp. 243-249.
KOTTEGODA, N.T., HORDER, M.A., 1980. Daily flow mode1 based on rainfall occurrences
using pulses and a transfer function, Journal of Hydrology, 47, pp. 215-234.
KOTTEGODA, N.T., NATALE, L., 1994. Two log- normal distribution of irrigation -affected
low flows, Journal of Hydrology, 158, pp. 187-199.
MILLAN, J., 1972. Drought impact on regional economy, Hydrol. Pap. 55, Colorado State
University, Fort Collins.
PAYNE, K., NEUMAN, W. R., KERRI, K.D., 1969. Daily Streamflow Simulation, Jour.
Hydraulics Div., ASCE, HY4, pp.1163-1179.
PARZEN, E., 1962. Stochastic processes. Holden Day, San Francisco, California.
QUIMPO, R.G., 1968. Stochastic analysis of daily river flows, Journal Hydraulics Div.,
ASCE, HY 1, pp. 43-57.
SARGENT, D.M., 1979. A simplified mode1 for the generation of daily stream flows.
Hydrological Science Bulletin, 24 (4), pp. 509-527.
STERN, R.D., COE, R., 1984. A mode1 fitting analysis of daily rainfall data, U.K. Statistical
Society, 147, Part 1, pp. l-34.
TASE N., 1976. Area-deficit-intensity characteristics of drought, Hydrology Paper, no. 87.
Colorado State University, Fort Collins, Colorado.
TREIBER, B., PLATE, E. J., 1975. A stochastic mode1 for the simulation of daily flows.
Proceedings of the International Symposium an,d Workshop on the Application of
Mathematical Models in Hydrology and Water Resource Systems, International
Association of Scientific Hydrology, Bratislava, preprints.

248
U.S. TASK COMMITTEE, 1980. Characteristics of low flows, Jour. Hydraulics Div., ASCE,
HY5, pp. 7 15-73 1.
WEISS, G., 1977. Shot noise models for the generation of synthetic streamflow data, Water
Resource Res.,l3 (l), pp. 101-108.
YEVJEVICH, V., 1967. An objective approach to the definitions and investigations of
continental hydrologie droughts. Hydrol. Pap. 23, Colorado State University, Fort
Collins, Colorado.

249
14. River pollution from urban
stormwater runoff

Peter Schmitt-Heiderich
Erich J. Plate
Institute for Hydrology and Water Resources Planning
Karlsruhe University
76128 KARLSRUHE
GERMANY
Abstract

Non-point pollution is generated by rainfall events which wash off pollutants that have accumula-
ted during dry periods. This water is often collected in retention basins, whose size is dependent on
limited available space inside the sewer system of a City. When the basin cannot hold the storm ru-
noff, it overflows and discharges into receiving waters, in our case into a river. Pollution exceeding
a critical level has to be avoided in the river, but since pollutant loads and discharge of receiving
waters are random variables, a given probability has to be accepted that critical loads are exceeded.
This probability is determined in this paper for a given size of a retention basin and a given combi-
nation of urban and rural catchment.

Résumé

La pollution diffuse est engendrée par des événements de pluies qui lessivent les polluants qui se
sont accumulés durant les saisons sèches. Cette eau est souvent collectée dans des bassins de
rétention, dont la taille dépend de l’espace limité disponible dans le système d’assainissement de la
ville. Quand le bassin ne peut contenir le ruissellement d’un orage, il déborde et se vide dans le
milieu récepteur, une rivière en ce qui nous concerne ici. La pollution dépassant un niveau critique
doit être évitée, mais comme la charge en polluants et le débit des eaux du système collecteur sont
des variables aléatoires, on doit accepter une certaine probabilité de dépassement des charges criti-
ques. Pour une taille donnée du bassin de rétention et une combinaison fixée de bassins versants
rural et urbain, cet article en détermine la probabilité.

14.1. Introduction

The problem of non-point pollution in w-ban areas

In Germany, sanitary engineers have made tremendous efforts and cities have invested huge
amounts (several billions of DM/year) into sewage disposa1 plants, which have reached a de-
gree of such perfection that most of the time more than 95% of the BOD (Biochemical Oxy-
gen Demand) generated in a (West-German) city as domestic sewage is removed in the plants.
It is now realized that further cleaning has to concentrate on two issues : the cleaning of indu-

251
stria1 sewage - which is not a concem of this paper - and the direct pollution of rivers from
non-point sources. Prominent among non-point sources is the pollution of rivers caused by
surface deposits on streets and roofs that collected in cities during dry weather, which during
rainy weather is washed into the sanitary system as storm runoff. In order to clean the storm
runoff, the common practice is to retain the storm runoff in a retention basin, where it is kept
back for some time until the sewage disposa1 plant is ready to have this retained volume pass
through it. The retention basins are very expensive, since they usually have to be built under-
ground in an existing sewer system, and thus the desire is to have basins which are only as
large as necessary for pollution control of the river, and to provide a stormwater overflow,
through which an acceptable quantity of the polluted urban storm runoff is discharged directly
into the river. The practical problem which we face is to define what is meant by “an ac-
ceptable quantity”. We are of the opinion that this quantity should be govemed by the pollu-
tion control capacity of the river. The control capacity of the river is dictated by the amount of
pollutant (i.e. BOD) which cari be handled by the river without depletion of its oxygen below
a certain critical level.
The situation to be studied is shown in figure (14.1). A city exists near a river. The river
obtains most of its water from a rural catchment upstream from the City. Into the river, storm
water runoff from the urban area is discharged, either through the sewage disposa1 plant, or di-
rectly through the ovefflow from the sewage canais.

urban area

H forest
q Gngards
l disposa1 plant
- retention basin

Fig. 14.1. Typical map of ut-ban and rural area


For a given discharge Q in the river, the river cari carry a pollutant load M per unit time,
which consists of three parts : the pollutant load carried downstream from the Upper reaches
of the river, the pollutant load injected from the overflow of the retention basin, and the BOD
released by the sewage disposa1 plant, as shown schematically in figure (14.2).

~ Sewerag; System J

copvt
I
Overflow Storm-Water
Tank
Süe: B
\

C()>V

Q(t), VA C
4::.::::.~iijiiii.:::.
..,..,,,.
:s::.....:< ..,_,,,,.. .,.:::::::::::::::
...::.:::ii::::~::/// :..:::: ~:::::::::::::::~.:::~,::::::::::~,:::,::,:.~:::::::~
........~........~~~::~~~~~~~~::/// i. ..,...,,,,...,....... _
::a:.:.::::,.
:::::i’::.:::::::
., ,,,,,,,,,,,,
:,:...:...::.:::,,:
~~~~ <................,....,.... ii::
iii:: :,.::::
iiiiii ~:::::,:i:iiii,,:::,......
:;;;;;;:.::
,,.....,,,,,,,,,,,,,,,,,.,.
:::,,,,,,,,....,. ,:::,,::::::
///:::
.:.:::::::::::::.::.::
...... .. ..... ...~~ iiii,i,iii
.. ..../.... .../~::.:::::: .::::
.,,,
........_......../
.::::::::::l~~-~~:::::i::i
. ::::::ll:l;:l::ll;l;~~~~~~ ~//_:,
il’
:i’lliliiil!~~~~~~~~~~~~::~~~:~~~~~~~~~~~~~~~~~?~~~~~~~~~~~~~~~~~~~~.
‘“‘::‘:iiilii:li:i~:~::~~~~~~~~~~~~~~~~~~~~~:~~~~~~~~~~~~~~~~~!~~::~::::::::::~~~:~!:::::.........
. ,::::::::::::::::::i:
:i ::.::::.:::::::::::i::::::.,:::::~:::::.::::i~~~~

Fig. 14.2. C ‘on,figuration of the urban area

In this paper, we shall assume that only the discharge from the stormwater overflow is
polluted. What the river sees is not this load itself, but the concentration c resulting from the
dilution of the load with the river discharge Q(t). This concentration is the demand of oxygen,
which depletes the oxygen concentration available in the river. Both actual and maximum de-
mand concentration in the river are usually expressed as deficits : c is the demand, defined as
the difference between potential (saturation) oxygen concentration and actual oxygen concen-
tration and C,rit is the maximum permissible oxygen deficit. This maximum permissible oxy-
gen deficit depends on the hydraulic properties of the river, which are discharge Q(t) and cross
sectional geometry, expressed by cross sectional area and surface width. When the oxygen de-
ficit increases above a critical condition C,,it the river is said to be in failure state. The critical
condition is that condition at which the river is no longer capable of providing the oxygen re-

253
quired for keeping the most sensitive fauna or flora in the river alive.
River discharge Q and pollutant input co.V are stochastic variables. On the one hand,
stochastic results from the natural variability or randomness of the processes. We have to ac-
cept this variability, because we are unable to change it. Uncertainty, on the other hand, is a
stochastic aspect to be controlled (theoretically). Uncertainties are generated by our present
inability to perfectly describe the processes and to precisely estimate its characteristics due to
the lack of information. Thus, uncertainties are reducible with further data (i.e. Bernier 1994).
In this paper, we do not distinguish between natural variability and uncertainty as the results
of both are probability distributions. Therefore, river discharge Q and pollutant input co.V cari
only be described by probability distributions. Consequently, c is also a random variable SO
that the condition c>C,rit is associated with a probability P{c>C,,t 1. The design problem is
then to find the size of a retention basin within a given sewage disposa1 system that retains
enough of the pollutant load to have a PlC>C,~i, 1 which is smaller than a certain acceptable
‘cril.
In this paper, we are concemed with the determination of PJC>C,,iS, considering both
urban and rural runoff. Both the urban runoff, which carries the urban pollutant, and part of
the discharge in the river depend on the same rainfall conditions. The input mass of pollutant
load in the stormwater runoff is equal to C;V, where c, is the concentration of pollutant that
is washed into the river and V is the specific overflow volume (overflow volume per unit pa-
ved urban area Ared; [cbm/ha]) (Fig. 14.2). The concentration c0 is in our case the oxygen de-
ficit caused by the BOD. It is a random variable, as it depends on the season, the dry periods
between rainfalls and other uncertain factors. The dry period before a rainfall is the time du-
ring which the pollutant accumulates on the surfaces of streets and in the sewers, and during
which the river discharge gradually recedes. This sets the initial conditions for a rainfall-runo-
ff event and implies that the process of flow recession and pollutant accumulation must be
considered in parallel. This is done by introducing the time of accumulation Z, as an additio-
na1 random variable into the process. As is easily seen, this accumulation period is not corre-
lated with the rainfall event that ends it. At the time of the rainfall, both pollutant load and di-
scharge star-t to increase, and it is frequently observed that the pollutant load reaches a peak
much more rapidly than the discharge in the sewer system, because the pollutant is washed off
the surface during the earlier part of a large rainfall. We assume that due to mixing in sewer
system and retention basin the concentration of pollutant is fully mixed in the sewage runoff
volume and then also in the river. However, if the basin is of sufficient size, none of the pol-
luted water Will reach the river directly through the overflow. Therefore, the size of the reten-
tion (determined by sewage system and retention basin) sets a lower limit on the rainfall
events that have to be considered in a stochastic approach to the design problem.

14.2. Problem solution

The general problem outlined above Will be approached through a probabilistic analysis. It in-
volves two different processes which combine to produce the water quality condition of the ri-
ver. They are process of BOD generation on the surface of the urban area, and the process of
storm runoff generation. Both processes are assumed to be stochastically independent.
The BOD generation process is not considered in detail here. The random variable for
this process is the deficit cg. As Will be evident later, it is convenient to use the random varia-
ble 77= fccrit - Co)/ccrit to describe the variability of cg. From an in-depth simulation study
of the conditions of figure 14.2 with a critical deficit Cc+l = 20 mg/1 it is found that a good
approximation of the pdf of 77is the log-normal distribution, with mean value un = 5.36 and

254
standard deviation CJ~= 3.36 (valid for cg > ccrit).
The runoff generation mode1 is solved by assuming that the hydrological modeling cari
be simplified as shown in figure (14.3). Input into the system is a rainfall of constant intensity
r [m3/(min.ha)] and duration T [min]. The determination of the appropriate probability distri-
butions is a difficult problem, as one has to define an effective duration of rain, and a suitable
in-between time (za) distribution. Rainfall events of longer duration are usually not conti-
nuous, but are interrupted by shorter or longer spells of dry weather. Therefore, a careful ana-
lysis has been made to determine the significant statistical sample for Y and T, as Will be de-
scribed by Schmitt-Heiderich (1996). The resulting sets of both Y and T are exponentially di-
stributed random variables, as stated i.e. in Eagleson (1972), Howard (1976) and Adams et al.
(1986) and confirmed by the authors’ own investigations. The probability density functions are
given as :
f,(r) = p *8.’ with: p =& (14-1)

&(T) = ;l.e-“‘T with: A =I (14-2)


W-1

input

l I t
T
rural area

urban area

rW
-------------+ r
Vt-B 1 rab
r,p’ t

Fig. 14.3. Rainfall runoff relations in rural and urban area

255
For the rural area, the rainfall Y is converted into an effective block rainfall of the same
duration T by using a constant runoff coefficient cp = 0.3. The effective rainfall for the rural
area is folded with a unit hydrograph, which has a time to peak tA . The urban area is taken as
a typical area existing in Germany, and the unit hydrograph is an average hydrograph as used
in the flood calculations of the Institute (as described in Plate et al. 1988). The resulting storm
runoff for the rural area is added to a typical base flow component Q, to yield the runoff in
the river. The integral of the river runoff Q(t) over the time TO divided by the paved area A,,
of the city is the specific volume V’, [cbm/ha]. TO is the time, in which the ovefflow from the
urban area occurs. For the urban area, a typical urban drainage mode1 has been employed by
assuming an area of 30 ha, of which 15 ha were assumed to be impermeable. The urban rain-
fa11fills the retention basin only if Y exceeds a minimum value rab , which is the rainfall in-
tensity that cari be carried by the sewer system (Fig. 14.3). This quantity is also a random va-
riable depending on the waste water flow. It is assumed to be uniformly distributed with mean
value &, and a range &, + Ar.
The size of the retention basin is given as B. It is expressed in specific volume based on
urban area : B has the dimension cubic meters per hectare (mj/ha), and typical values ranging
from 0 to 40 (mj/ha) have been considered in this study.
For calculating the dilution, it is assumed that the input from the urban area occurs only
via the retention basin, during the time TO, and simultaneous with the rainfall period. This is a
justified assumption when the rural area is large in comparison with the urban area. Therefore,
the overflow volume V, per unit urban area, is the water volume V, that ovefflows the sewage
canal system reduced by the amount of water B, that is kept back in the retention basin. It cari
easily be seen from figure 14.3 that V = V, - B = rw.TO. This volume is mixed with VA and it is
assumed that the concentration is averaged for the volume V,. If the volume V is not negligi-
ble compared to V,, then the concentration is given as :

C=c .- V (14-3)
lJ v,+v

and the failure probability P{c 2 c,,(} 1s


’ g iven, when the variable V, /(q.V) is less than 1, as
cari be seen in equation (14-4).

(14-4)

Equation (14-4) cari also be formulated in terms of reliability theory. This leads to
equation (14-5), in which the left hand side represents the load and the right hand side the re-
sistance. The failure of the system occurs,, when the load is greater than the resistance. This
equation cari be solved using a Monte Carlo simulation or the second moment analysis (Ang
and Tang 1984, Plate 1993) for example. For simplicity we chose equation (14-4), because it
cari be solved analytically using certain assumption, as Will be shown later.

V
$2 -L (14-5)
Zoad v
resistance

256
14.2.1 Calculating the pdf for the rain input

The calculation of the pdf proceeds by steps. We first look at the probability density distribu-
tion (pdf)fdNj of N = r.T which is the volume of rainwater that falls during time T. Here, the
rainfall r is given in [mV(minha)], and T in [min] (If r is given in the usual units of [I/(sba)],
and T in [min], then the right hand side has to be multiplied by a factor of 0.06 to obtain the
units of N in [mj/ha]). The functionfN(N) is calculated from equation (14-6) and (14-7). Since
both r and T are exponentially distributed and uncorrelated, the product N = r.T has a joint
probability density distribution (jpdf) obtained from the formula :

(14-6)

which yields :

(14-7)

This integral cari be expressed by means of Bessel functions. According to Prudnikov et


al. (1986) the following expression is valid :

(14-8)

where Kor is the modified Bessel function of the second kind and of order a. If equation (14-
7) is brought into the form of equation (14-8) one obtains the pdf of N :

(14-9)

The integration of equation (14-9) with the substitution x=23/~,


a = 2.dm and dN =xedx/(2.B.Â) yields :

I
x “J.K,(~).dx=2”.T(a+1)-a”+‘.~,+,(a) (14-10)
0

which cari be solved according to Erdelyi et al. (1954), to obtain the cdf :

F,(NI) = jx.K,[x].dx = 1-2.,/m.K,[2.,/m] (14-11)


0

where K, is the Bessel function of second kind and first order. Equation (14- 11) was also used
by Adams et al. (1986). The function is shown in figure (14.4), and is compared with the
empirically determined pdf. Also shown is the exponential distribution which has been fitted

257
to the data (as was done by Plate, 1991). It is evident from this figure, that an equally
satisfactory fit to the data could have been obtained from the exponential distribution.

0.3 1 n - empirical pdf


- exponential pdf
: ------- bessel pdf
:
0.2

x
x
0.1

0.0

rainf a11 amount (mm)


Fig. 14.4. Probability density function of the rainfall amount

14.2.2. Determination of the pdf of the flow volume into the retention basin

The flow volume from the urban runoff retained in the retention basin is that part that over-
flows in the sewage canal system. The part kept back is rab, which is assumed to have a con-
stant pdf within a range j;abf Ar . Consequently, the effective rainfall intensity reaching the re-
tention basin is :

r, = r - rub (14-12)

where r has an exponential and rab a constant pdf. We obtain the pdf of rw (with r-,2 0) :

-p.r
e
ZZZ .p.e w (14-13)
2Ar.J

which is approximately equal to :

,e-cdJ .p -e -bw (14-14)


f ï-w ( ‘w 1

with Yabthe expected value of rab . The factor e -p’& is smaller than one and is equal to the
probability P{r, < O}. By combining rw with T, we obtain the flood volume V, = r, . T ente-
ring the retention basin. Its cdf F(V,) cari be calculated in the same manner as equation (14-
11). We obtain :

F(y)= l-eeP.Gh +e-p.gb .(,-2.,/~.K,[,Z~~~]} (14-15)

258
This is the probability function of the flow into the retention basin for a given rainfall
event, Le. it is actually a conditional probability.

14.2.3. Pdf of overflow from the retention basin into the river

For calculating the probability distribution of the overflow into the river, it is necessary that
the volume V, is reduced by the volume retained in the basin, which has a specific volume B
(again assumed to be the basin content divided by the size of the urban area). The random va-
riable to be considered is V = r,+,.T- B. Since B is a constant, the pdf of V is the truncated pdf
of V,. For convenience, we wish to approximate this conditional pdf by a log-normal distribu-
tion, which is fitted by using the first two moments of the conditional pdf. V has a mean value
given by (a = 0.Â) :

.2.a4,[2+7]d~
E{V}=B _ =PuV (14-16)
j2.aX0[2$Z+I~
B

and a variante :

j(y - B- E{V})‘.2.a.K,[2.~~].d~
Var{ V} = B =0; (14-17)
j2.a.Ko[2.~].d~
B

The integrals equation ( 14- 16) and ( 14- 17) have been solved numerically, and for diffe-
rent specific basin sizes B gave rise to the values listed in table (14.1). They yield mean values
and variantes for the logarithmic variables y = In V :

with C, = 3 (14-18)
PV

Table 14.1. Statistical parameters of the overflow volume V into the river

B PV w WV lnq7
[cbm/ha] [cbrnka] [cbm/ha]
0 63.3 106.4 3.477 1.158
10 77.3 117.9 3.746 1.096
20 86.0 125.6 3.884 1.069
30 93.0 131.9 3.982 1.05
40 99.1 137.4 4.06 1.036

259
With these values, the pdf of y cari be determined from standard tables of the Normal
distribution. An example of the fitting is shown in figure (14.5). It is evident that for small va-
lues of V the log-normal distribution does not fit the theoretical curve very well. However, the
small specific volumes are probably not too critical, because one cari assume that the base
flow of the river Will be a substantial part of the total discharge in the river SO that the pol-
lutant concentration stays well below critical. For large volumes the fit is excellent.

0.02 - 1.0 -
- bessel pdf
- lognormal pdf

- bessel probability f.
- lognorm. probab. f.

0.0 I , I , I , I ,
0 50 100 150 200 0 50 100 150 200
V (cbm/ha) V (cbm/ha)
ïg. 14.5. pdf and cdf of the overjlow volume Vfor a retention basin B = 20 cbdha

14.2.4. Determination of the conditional failure probability of the river quality

We now have to make an assumption conceming the pdf of the river flow volume. For the ca-
se considered, the base flow was set at a constant initial value, contributing a specific flood
volume V, (again obtained by dividing the total baseflow volume QB.T by the size of the ur-
ban area). Superimposed on this is the flow volume generated by the rainfall event under
consideration. Although much of the storm runoff in the rural catchment and in the urban area
are correlated, the baseflow is not. Also, the rural catchment has an infiltration capacity which
is dependent on the rainfall and on antecedent moisture conditions, and also, the runoff de-
pends on the translation and retention of the rural area. Therefore, the runoff during time T0 is
not uniquely dependent on the rainfall, and we have assumed that the specific volumes V and
VA are correlated with correlation coefficients of about 0.8. This correlation coefficient was
found from simulation runs with the rainfall - runoff mode1 which was used for the rural area.
We have now to find if the condition is satisfied, that the failure probability P, is lower
than a given probability Pcrit. The failure condition was already given in conjunction with
equation (14-4), wich leads to :

(14-19)

Al1 three random variables are log-normal distributed, with ZnV and ZnVA correlated.
Consequently we cari calculate the failure probability P,. It depends on the time to peak of the

260
unit hydrograph, which must be short SOthat the maximum dilution takes place with the flow
near the peak of the hydrograph. When the pollutant input occurs during the rising limb of the
unitgraph, the concentration c is higher, because VA is smaller, and thus critical conditions are
reached earlier. It is evident that many factors contribute to the dilution of c in the river, and a
systematic study of the parameter involved is necessary and is at present underway.
Figure (14.6) demonstrates the influences of time to peak tA and the size of the retention
basin B on the failure probability. The curves in figure (14.6) were determined for a critical
concentration of 20 mg/1 in the receiving water (Eq. 14-4). The difference between the curves
reflects the the characteristic of the runoff of the rural catchment areas. Consider for example,
P,,, is equal to 0.1, which means that 10 % of the rainfall events would cause a concentration
of more than 20 mg/1 in the receiving water. It becomes evident from figure 14.6, that a quick
reacting catchment area (tA = 2 hrs) requires a specific tank volume of 10 cbm/ha, whereas a
slow reacting catchment area (tA = 8 hrs) requires a specific tank volume of 30 cbm/ha.

t* = 2h
----- t,=%h
0.3

0.0 I I I I I I I l I I
ccjC
0 10 40
if”( cbrn~ha)
Fig. 14.6. Failure probability PF as a finction of specific basin volume B

As a final point, it is necessary to point out that the procedure of calculating the proba-
bilites developed up to now is conditional on the occurrence of a rainfall event : it is the pro-
bability, that during any rainfall event a pollution concentration exceeding the critical value
Will occur. When long-term statistics are required, the results Will have to be augmented by an
analysis of the number of rainfall events.

14.3. Conclusions

It was shown that the probability distribution for river pollution due to non-point pollution
from urban sources cari be calculated, although a number of assumptions had to be made
which require further study. The method permits to include uncertainties into the design by
allowing the essential parameters to be random variables with distributions that are well
known from applied probability theory. The work on which this study is based has been fun-
ded by the German Science Association under Grant No IHlO.

261
Bibliography

ADAMS, B. J., H. G. FRASER, CH. D. D. HOWARD and S. M. HANAFY (1986) ‘Meteorological


Data Analysis for Drainage System Designs’. Journal of Enviromental Engineering, Vol.
112, no 5, p. 827-848.

ANG, ALFREDO H-S. and WILSON H. TANG (1984) Probability Concepts In Engineering Plan-
ning And Design. Vol. 2: Decision, Risk, and Reliability, Wiley & Sons, Inc.

BERNIER, J. (1994) ‘Qantitative analysis of uncertainties in water resources’. In Engineering


risk in natural resources management with special references to hydrosystems under
changes of physical or climatic environment. L.DUCKSTE%Nand É. PARENT (Eds.), Klu-
wer Academic Publishers, the Netherlands, NATO AS1 Series E, Vol. 275, p. 343-357

EAGLESON, P. S. (1972) ‘Dynamics of Flood Frequency’. Water Resources Research, Vol. 8,


no 4, p. 878-898.

ERDELYI, A., W. MAGNUS, F. OBERHEITINGER, and F. G. TRICOMI (1954) Tables of Zntegral


Transforms. Vol. II, McGraw-Hi11 Book Company, 367 p.

HOWARD, CHARLES D.D. (1976) ‘Theory of storage and Treatment-plant Overflows’. Journal
of Environmental Eng. Division, Vol. 102, no EE4, p. 709-723.

PLATE, E.J. (1991): ‘Probabilistic Modelling of Water Quality in Rivers’. NATO AS1 on Risk
and Reliability in Water Resources and Environmental Engineering, Porto Karras,
Greece, J. GANOULIS (Ed.), Springer-Verlag Berlin Heidelberg, Vol. G 29, p. 137-166

PLATE, E.J. (1993) Statistik und angewandte Wahrscheinlichkeitslehre jïir Bauingenieure.


Ernst und Sohn Verlag für Architektur und technische Wissenschaften, Berlin.

PLATE, E.J., J.&IRINGER and W. LUTZ (1988) ‘Operational models for flood calculations’. J. of
Hydrology, Vol. 100, no 1/3, p. 489.

PRUDNIKOV, A.P., Y. BRYCHKOV and 0.1. MARICHEV (1986) Zntegrals and Series. Volume 1,
Gordon and Breach Science Publishers, 344 p.

SCHM~-HEIDERICH, P. (1996) VorjZuterbeZastung aus stüdtischen Einzugsgebieten unter Be-


rücksichtigung von Unsicherheiten. Institut für Hydrologie und Wasserwirtschaft,
Universitat Karlsruhe, Mitteilungen Heft 54

262
15. Indépendance d’échelle de la
distribution statistique des précipitations
extrêmes

Pierre HUBERT
UMR-CNRS Sisyphe
Ecole des Mines de Paris, Fontainebleau, France

Hocine BENDJOUDI
Laboratoire de Géologie Appliquée
Université P. & M. Curie, Paris, France

Daniel SCHERTZER
Laboratoire de Météorologie Dynamique
Université P. & M. Curie, Paris, France
Abstract

Statistical analysis of rainfall series is of great importance in theoretical and applied hydrology. Indeed
rainfall is the unique input to natural and man made catchments, and plays the main part in the genesis of
runoff. Starting from a multifractal framework borrowed from hydrodynamic turbulence studies, we
derived what should be the statistical behavior of extreme rainfalls. It appeared that this behavior should
be hyperbolic rather than exponential as it is generally stated. Moreover the exponent characterizing the
algebraic probability fallout of extreme rainfall should be scale independent. These theoretical results
have been collated to a 45 year long rainfall series from West Africa. The scale independant hyperbolic
behavior of extreme rainfalls seemed to be acceptable in front of the empirical data. Such a result gives a
new light to rare and extreme rainfall events and cari be of major concern for hydrology and climatoloy.
The practical outcomes in terms of hydraulic work design cari also be especially important.

Résumé

L’analyse statistique des séries chronologiques des précipitations est particulièrement importante en
hydrologie fondamentale ou appliquée. La pluie est en effet le principal apport aux bassins naturels ou
anthropisés et c’est elle qui engendre les écoulements. A partir d ‘un formalisme multifractal emprunté à
l’étude de la turbulence hydrodynamique, nous avons déterminé au plan théorique les caractéristiques
principales que devraient présenter les lois statistiques régissant le comportement des pluies extrêmes. II
apparaît que ces lois devraient être asymptotiquement hyperboliques et non exponentielles comme on
l’admet généralement. Au delà, l’exposant caractérisant la décroissance hyperbolique de la probabilité au
dépassement devrait être indépendant de l’échelle d’observation. Ces résultats théoriques ont 616
confrontés à une série chronologique de pluies journalières longue de 45 ans recueillie en Afrique dc
l’Ouest. L’hypothese d’un comportement hyperbolique des pluies extrêmes semble acceptable. Un tel
rcsultat cclaire d’un jour nouveau l’étude des pluies rares et extrêmes et devrait ouvrir de nouvelles

263
perspectives en hydrologie et en climatologie. Ses conséquences en ce qui concerne la conception des
ouvrages devraient également être particulièrement importantes.

15.1 Introduction, fractals et multifractals


La géométrie fractale (Mandelbrot, 1982) a renouvelé les approches de nombreux domaines
des sciences de la nature en y introduisant explicitement la notion d’échelle. Les divers
champs (piézométrie, pluviométrie, etc.) qui intéressent l’hydrologue ne peuvent cependant
pas être réduits à des êtres géométriques caractérisés par la présence ou l’absence d’un
phénomène ce qui conduirait à négliger la distribution dans l’espace et/ou le temps de
l’intensité des phénomènes étudiés. L’approche multifractale vise à une prise en compte
simultanée des échelles et des intensités (Schertzer et Lovejoy, 1987a). Les multifractals se
sont déja révélés très utiles en vue de modéliser de nombreux processus en cascade où
l’énergie, l’eau ou d’autres flux se concentrent dans des domaines spatiaux et/ou temporels de
plus en plus ténus.

Les multifractals dont nous parlerons ici ont d’abord été développés comme modèles
phénoménologiques de cascades turbulentes. Ils ont été conçus pour reproduire les propriétés
fondamentales (invariance d’échelle, conservation d’un flux et dynamique locale) des
équations non linéaires (Navier et Stokes) régissant la turbulence (Schertzer et Lovejoy,
1987b, 1991). Ces multifractals devraient se révéler utiles dans l’étude des phénomènes
atmosphériques en général et l’étude des pluies en particulier car, même si les équations aux
dérivées partielles régissant ces phénomènes sont inconnues, elles partagent
vraisemblablement les propriétés fondamentales de celles de la turbulence.

En termes de probabilité, l’équation fondamentale des multifractals peut-s’écrire (Schertzer et


Lovejoy, 199 1) :

(15-l)

où &Lest le flux courant à l’échelle A (rapport de l’échelle externe à l’échelle d’intérêt), yest
un ordre de singularité et C(y) est une fonction de codimension caractérisant la probabilité
d’occurence des singularités d’ordre supérieur à y

De façon équivalente, cette équation peut être réécrite en termes de moments:

K(q) (152)

où q est un ordre de moment et K(q) une fonction de structure.

Les fonctions C et K peuvent se déduire l’une de l’autre par une transformation de Legendre.

Ccy)=mux(qy-WY)) (15-3)
Y

qui établit également une correspondance entre ordre de moment et ordre de singularité.

264
dUY) dK(d
q=-
Y= (15-4)
dY &

15.2 Transition de phase et divergence des moments


Les mesures que nous pouvons réaliser sont des propriétés dites habillées car elles
correspondent à l’intégration, à une certaine échelle d’observation, d’une cascade entièrement
développée jusqu’à une échelle d’homogénéité beaucoup plus fine que l’échelle
d’observation. Les propriétés nues sont au contraire, à une certaine échelle, celles d’une
cascade dont la construction a été arrétée à cette échelle. Il est essentiel de distinguer les
propriétés nues et les propriétés habillées d’un processus multifractal. En effet, alors que les
propriétés nues présentent toujours un comportement calme, les propriétés habillées peuvent
présenter un comportement qualifié de dur en ce qu’il implique une divergence des moments
statistiques d’ordre suffisamment élevé. On démontre que ce dernier comportement, s’il
existe, survient pour des moments d’ordre supérieur ou égal à un moment critique y,, défini
par l’équation:

K(qD)=D(qD -]> ( 15-5)

où D est la dimension euclidienne de l’espace où se déroule le phénomène étudié.

Un ordre de singularité critique “I;, correspond à l’ordre critique q,, relatif aux moments et on
démontre que pour les valeurs de y supérieures à x,, la fonction de codimension C(y) devient
linéaire, sa pente étant égale à q,), Des analogies thermodynamiques ont conduit à qualifier de
transition de phase le passage au delà de l’ordre de singularité critique x, (Schertzer et
Lovejoy, 1992).

C(y) =qB(Y-Yo)+cw SiYVD (15-6)

Dans ces conditions, pour des valeurs suffisamment grandes de x la distribution de probabilité
du flux Ehpeut se réécrire :

(15-7)

Si nous définissons un seuil s = A’! il vient alors :

Pr oh[E, 2 s] c- s-~” (15-8)

Cette équation signifie que, quelle que soit l’échelle considérée, la probabilité au dépassement
d’un seuil suffisamment grand est une fonction algébrique décroissante de ce seuil, et il est
important de souligner que l’exposant de cette relation algébrique est indépendant de l’échelle
considérée. Nous noterons également que l’une des principales caractéristiques des
distributions hyperboliques est que les moments d’ordre supérieur ou égal à q,, ne sont pas
définis (Mandelbrot, 1974; Schertzer et Lovejoy, 1987b) ce qui implique tout un cortège de
difficultés en matière d’échantillonnage et d’estimation des paramètres.

265

--
15.3 Application à la série pluviométrique de Dédougou

En nous servant de l’équation (15-S) de façon heuristique, nous avons étudié une série
chronologique banale de pluies journalières du Burkina Faso (CIEH-ORSTOM, 1977)
recueillie à Dédougou (3”29’ de longitude Ouest, 12”28’ de latitude Nord), série qui avait déjà
été étudiée dans une perspective fractale (Hubert et Carbonnel, 1989). La longueur de cette
série est de 45 ans (1922-1966) et elle ne présente pas de lacune. La météorologie de la zone
Soudano-Sahélienne où se trouve située la station de Dédougou est relativement simple,
l’essentiel des précipitations étant du à des lignes de grains se déplaçant grosso modo d’Est en
Ouest (Dhonneur, 1981). Sur un même diagramme log-log nous avons tracé les points
représentatifs de la probabilité empirique au dépassement d’un seuil estimée par la formule de
Weibull (Haan, 1977) en fonction de ce seuil pour les données journalières originelles mais
aussi pour les cumuls mensuels et annuels que l’on peut en déduire (figure 15.1). Dans les
trois cas on peut observer sur la courbe des probabilités au dépassement une sorte de cassure
que nous interpréterons comme la trace de la transition de phase évoquée plus haut et que, au
delà de cette cassure, les points sont raisonnablement bien alignés selon des droites dont les
pentes sont voisines (respectivement 3.77, 3.42 et 3.42 calculées à partir de 3, 6 et 1.5 points
pour les courbes annuelle, mensuelle et journalière). L’hypothèse d’un comportement
algébrique (hyperbolique) de la probabilité au dépassement pour des seuils suffisamment
grands, comportement algébrique dont l’exposant serait indépendant de l’échelle
d’observation apparaît donc raisonnable au vu de données empiriques. Il est par ailleurs
intéressant de noter que les valeurs estimées de l’exposant sont comparables à celle (3.OkO.2)
estimée dans le cadre d’une étude multifractale (Ladoy et al, 1993) de la série chronologique
des précipitations de Nîmes (France, à proximité de la Méditerranée).

Dedougou(BF) 1922-1966

Log [Pr H >h

J urs
0. OOOOP
1000. 10000. 100000.
Log h

266
15.4 Conclusions et perspectives

Les implications théoriques et pratiques de ces premiers résultats sont considérables. Le


comportement hyperbolique de la distribution statistique des pluies rares et extrêmes semble
recevable et l’exposant caractérisant ce comportement semble bien indépendant de l’échelle
d’observation, comme le suggérait la théorie qui s’appuie sur les vraisemblables analogies des
équations (inconnues) gouvernant les processus atmosphériques et de celles gouvernant la
turbulence hydrodynamique. Jusqu’à présent c’est uniquement sur la qualité des ajustements
graphiques, qui font la part belle aux nombreux événements ordinaires aux dépens des
événements rares et extrêmes par nature peu nombreux, que s’est fondé le choix des lois
décrivant la distribution statistique des précipitations. Ces lois purement empiriques n’ont
aucune base physique et ignorent en particulier totalement la notion d’échelle. Le plus souvent
ces lois empiriques sont de nature exponentielle. Sur le plan pratique la différence entre les
lois exponentielles et les lois hyperboliques est particulièrement significative en particulier en
ce qui concerne l’estimation de la probabilité et du temps de retour d’événements non
observés (extrapolation). Grossièrement on peut dire qu’un événement qualifié de millennal à
partir d’un modèle exponentiel ne sera que centennal dans le cadre d’un modèle hyperbolique.
On peut facilement imaginer les conséquences d’une telle différence au niveau de l’analyse du
risque hydrologique ou du coût des ouvrages de génie civil. Il sera bien sûr nécessaire. afin de
confirmer ces premiers résultats, d’analyser de nombreuses séries chronologiques de
précipitations issues de contextes climatiques variés, ces séries étant aussi longues que
possible afin d’explorer les événements de faible probabilité. Si ces résultats devaient être
confirmés il faudrait en particulier s’intéresser aux limites de ce comportement invariant
d’échelle. Un nouveau regard est cependant d’ores et déjà posé sur l’analyse des événements
pluviométriques rares et extrêmes qui constituent, à juste titre, une importante préoccupation
scientifique et sociale.

267
Bibliographie

CIEH-ORSTOM (1977) République de Haute Volta; précipitations journalières de l’origine à nos jours,
Ministère de la Coopération et ORSTOM service hydrologique, 686 p.

DHONNEUR G. (198 1) Les amas nuageux mobiles, principale composante de la météorologie au Sahel, La
Météorologie, 6(27), pp 75-82.

HAAN C.T. (1977) Statistical Methods in Hydrology, The Iowa State University Press, 378 p,

HUBERT P., CARBONNEL J.P. (1989) Dimensions fractales de I’occurence de pluie en climat soudano-
sahélien, Hydrologie Continentale, Paris, 4, pp 3- 10.

MANDELBROT B.B. (1974) Intermittent turbulence in self-similar cascades : divergence of high moments and
dimension of the carrier, J. Fluid Mech., 62, pp 33 I-350.

MANDELBROT B.B. (1982) The fractal geometry of nature, Freeman, San Francisco, 460 p,

LADOY P., SCHMITT F., SCHERTZER D., LOVEJOY S. (1993) Analyse multifractale de la variabilité
pluviométriques à Nîmes, C.R.A.S. Paris, Série II, 3 17, pp 775-782.

SCHERTZER D. ET LOVEJOY S. (1987a) Physically based rain and cloud modeling by anisotropic scaling of
multiplicative processes, Journal of Geophysical Research D, 92, pp 9693-9714.

SCHERTZER D. ET LOVEJOY S. (1987b) Singularités anisotropes et divergences des moments en turbulence,


Ann. SC. Math. du Québec, 1 1, pp 139- 18 1.

SCHERTZER D. ET LOVEJOY S. ( 199 1) Scaling nonlinear variability in geodynamics: Multiple singularities,


observables, universality classes; Non-linear variability in Geophysics, Scaling and fractals. D. Schertzei
and S. Lovejoy eds, Kluwer, pp 4 I-82.

SCHERTZER D., LOVEJOY S. (1992) Hard and soft multifractal processes, Physica A, 195, pp I87- 194.

268
PARTIE V PART V

REGIONALISATION
REGIONALIZATION

269
PARTIE V PART V

REGIONALISATION
REGIONALIZATION
16. REGIONALIZATION AND MULTIVARIATE ANALYSIS : THE
CANONICAL CORRELATION APPROACH / ANALYSE MULTIVARIÉE
ET RÉGIONALISATION : APPROCHE PAR CORRELATIONS
CANONIQUES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273-284
G. Cavadias

17. REGIONAL FLOOD FREQUENCY ANALYSIS : SOME LESS


FREQUENTED CORNERS / ANALYSE FRÉQUENTIELLE RÉGIONALE
DES CRUES : UNE VISITE DE QUELQUES ENDROITS PEU
FRÉQUENTÉS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285298
M. Beran

18. TOTAL PROBABILITY METHODS FOR PROBLEMS IN FLOOD


FREQUENCY ESTIMATION / LES METHODES DE PROBABILITÉS
TOTALES POUR L’ESTIMATION DES FRÉQUENCES DE CRUES . . . . . . . . . . . . . . . . . . . . . . . 299-326
R. Durrans

19. A REGIONAL BAYESIAN METHOD FOR ESTIMATION OF EXTREME


STREAMFLOW DROUGHTS / UNE MÉTHODE BAYESIENNE
D’ESTIMATION RÉGIONALE P~UR LE CALCUL DES DÉBITS
EXTREMES EN PÉRIODE DE SÉCHERESSE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 327-340
H. Madsen, D. Rosbjerg

20. FLOOD FREQUENCY STUDIES USING REGIONAL METHODS / LES


MÉTHODES RÉGIONALES POUR L’ÉTUDE DES FRÉQUENCES DE
CRUES . . . . . , . . . . . . . . , . . . . . . . . , . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . , . . . . . . . , . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 341-356
J. Stutcliffe, F.A.K. Farquharson

271

---
16. Regionalization and multivariate
analysis. The canonical correlation
approach

G.S. Cavadias
Invited Professor at INRS-Eau
21 Alopekis, Athens 106 75
Greece
Abstract

The purpose of this paper is to present a method of regionalization of flood flows. The paper starts
with a comparison of various concepts of homogeneous regions (geographically or hydrologically
defined and à priori defined or basin-centered) and goes on to describe the canonical correlation
method as applied to the delineation of basin-centered homogeneous regions and the estimation of
flood characteristics of ungauged basins. The proposed method enables the user to study the relations
between the basin-related and flood-related variables in an intuitive way and, as such, it is a step
towards the physical modelling of the flood phenomenon.

Résumé

Cet article présente une discussion du concept des régions homogènes et propose une méthode
d’estimation régionale des débits de crue. La première partie de l’article donne une comparaison de
différentes définitions des régions homogènes (géographiques, hydrologiques, a priori ou centrées sur
le bassin étudié). La deuxième partie présente une description de la méthode de corrélation canonique
appliquée à la détermination de la région homogène ayant comme centre le bassin étudié et appliquée
aussi à l’estimation des caractéristiques de crue de bassins non jaugés. La méthode proposée donne la
possibilité d’étudier les relations entre les variables météorologiques du bassin considéré et ses
caractéristiques de crue, et par conséquent, elle peut être considérée comme un pas vers la
modélisation physique du phénomène.

16.1. Introductory remarks


The problem of estimating floods with small exceedance probabilities is inherently fraught
with difficulties. Even where long records at the site do exist, they are frequently not
sufficiently long to estimate the floods required for the design of water resources projects;
moreover, large floods may belong to a population other than that of the recorded floods.
Strictly speaking, the flood estimation problem cari be described as follows : assuming that
river flow is a multivariate, non-stationary, seasonal stochastic process in which the variables
are the components of the hydrologie cycle we want to estimate the value of the peak
discharge q~ that Will be exceeded with probability (I/7’) and to determine the probabilities of
exceedance of other components of the flood hydrograph (volume, duration, starting date, etc)
taking into account that the floods at different sites of a region are dependent and should really

273
be analyzed together. It is apparent that, thus formulated, the flood estimation problem is
intractable.
Currently used methodologies are based on simplifying assumptions which do not
adequately reflect the complexity of the phenomenon.
In the case of stations with long records, the usual approach is to Select a probability
distribution, to use the available maximum annual flood data for estimating its parameters and
to compute the flood magnitudes corresponding to specified return periods. In addition to
sampling uncertainties, the estimation of flood magnitudes beyond the range of observed
floods is also subject to mode1 uncertainties.
In the case of ungauged basins, the flood characteristics are estimated using the known
geographical, physiographical and meteorological data of the basin of interest along with the
corresponding data of basins with «similar» characteristics which have long flow records. This
creates the need for determining «homogeneous» regions the basins of which behave similarly
with respect to maximum annual floods.

16.2. The concept of «homogeneous region»


The partition of a large area (continent, country, province, state, etc) into homogeneous
regions for a given purpose [Grigg (1976), Lvovich (1973), Falkenmark (1976), WMO
(1986)], is a standard tool in the geophysical sciences. It must be noted, however, that the
mapping of hydrological variables in the form of isolines or homogeneous regions becomes
less feasible for smaller areas and shorter time periods over which the variables are averaged.
While in tue case of maximum floods, geographically defined homogeneous regions are
convenient for the design engineer, this definition has the disadvantage that geographically
contiguous basins may not be hydrologically similar [Linsley (1982), Cunnane (1986),
Wiltshire (1986), U.S. Water Resources Council (1977)]. This difficulty led a number of
researchers [Mosley (198 l), Gottschalk (1985), Wiltshire (1986)] to define homogeneous
regions in the space of flood-related variables e.g. specific mean annual flood, coefficient of
variation, coefficient of skew, etc, using multivariate analysis methods with particular
emphasis on cluster analysis. Cluster analysis is used to discover «natural» clusters [Dillon
and Goldstein (1984)] and is based on the assumption that such clusters exist; however, the
existence of natural clusters cannot be taken for granted without prior testing [Rogers (1974),
Dubes and Zeng (1987)]. If such clusters do not exist, the final set of «homogeneous regions»
depends on the clustering method and the initial partitioning of the space. In addition, if the
«regions» are defined in the space of flood-related variables, it is difficult to relate the pattern
of homogeneous regions to the topographical, physiographical and meteorological conditions
of the area. TO overcome this difficulty, some proponents of this approach seek to relate
empirically the homogeneous regions in the space of flood-related variables to the
geographical coordinates [Mosley (198 l), Gottschalk (1985), Wiltshire (1986)]. Because the
assignment of a basin to a region presents some problems, particularly near the boundaries,
some researchers [Wiltshire (1986)] have introduced the concept of fractional membership.
Another way of defining homogeneous regions is to consider each basin as having its own
region [Acreman and Wiltshire (1989), Burn (1990a), Cavadias (1990)]. In summary, the
determination of homogeneous regions cari be made in the spaces of geographical,
physiographical, or hydrological variables and the basin of interest may be assigned to a
region or be the centre of its own region. A comparison of different types of homogeneous
regions is presented in tables (16.1) and (16.2), which show that each type of region has
advantages and disadvantages. Consequently it is in the interest of the design engineer to
investigate the homogeneous regions in a11relevant spaces.

274
Table 16.1. Comparison of geographically and hydrologically defined homogeneous regions

Advantages Disadvantages
Geographically 1) Commonly used in climatology and 1) Neighboring basins may not be
defined regions meteorology. hydrologically similar.
2) Easy to understand and to relate to 2) Not applicable to small areas.
geographical, physiographical and
meteorological factors.
3) Facilitates the standardization of flood
estimation procedures
Hydrologically 1) Definition of homogeneous regions is based 1) Delineation of homogeneous regions
defined regions on variables relevant to the flood estimation by cluster analysis which presupposes
problem. the existence of clusters.
2) Possibility of defining homogeneous regions 2) Difficult to relate to physical causative
centered on the basin of interest. factors.

Table 16.2. Comparison of a priori defined and basin centered homogeneous regions (neighborhoods)

Advantages Disadvantages
A priori defined Usually defined by government services and Number and boundaries of regions depend
homogeneous easy to use by the design engineer. on the algorithm, particularly in the
regions absence of «natural» clusters.
Basin -centered Elimination of the problem of assignment (or Delineation by the design engineer
homogeneous fractional assignment) of the basin of interest in depends on his experience.
regions a homogeneous region.
(neighborhoods)

16.3. The canonical correlation method


It is the purpose of this paper to show that the multivariate method of canonical correlation
[Hotelling (1936)] which deals with the relations between two or more groups of variables i.e.
variables belonging to different spaces, is the appropriate tool for accomplishing this complex
task [Cavadias (1989, 1990), Ribeiro-Correa et al. (19941. The flood estimation of an
ungauged basin cari be subdivided into two stages :
a) The delineation of homogenous regions.
b) The estimation of the maximum annual floods using the data of the basins in the
homogeneous region.
The canonical correlation method cari be used for both stages but, once the
homogeneous region has been delineated by canonical correlation, any of the other available
methods may be used to estimate the maximum flood. A brief description of the canonical
correlation method in the context of flood estimation is given in the appendix. The application
of canonical correlation to flood estimation is carried out in two stages :

Stage 1. Analysis of gauged basins


1.1. Selection of the geographical physiographical, and meteorological basin variables
(XI>‘..>x,,) and the flood-related variables (q,, . . .. q,,J where usually m -<p.
The inclusion of the three types of variables in the set (XI, . . .. x,,) enables the user to
determine the relative importance of each type of causative variable of the flood phenomenon
and choose the appropriate spaces for the homogeneous regions.
1.2. Calculation of the two sets of canonical variables (VI, . . .. v,) and (WI, . . .. w,).
1.3. Estimation of the flood-related canonical variables (%,, . . .. klnI) from the
corresponding basin-related canonical variables using equation (16.13) of the appendix.
1.4. Estimation of the flood-related variables (QI, . . . . Q,,,)using the regressions Qj =~(VI,
. ..> v,) on the canonical basin variables. It is important to note that the regression equation Qj
= f(w1, ..*, w,) is equivalent to the regression equation Qj = f (xl, . . .. x,J. Thus, the canonical

275
variables achieve a conditional reduction of the dimensionality of the space of basin variables
from p to m, based on their relations with the flood variables. In practical terms, this means
that the number of flood-related variables that cari be estimated using the linear regressions on
the basin variables is equal to the number of significant canonical correlations, which is less
than or equal to m.
1.5. Examination of the patterns of points in the scatterplots of the pairs of canonical
variables (VI, vz), (WI, ~2) etc with the purpose of determining :
a) the existence of «natural» clusters in these spaces
b) the existence, number and locations of outliers
c) the degree of similarity of point-patterns in the spaces (VI, vz), and (WI, ~2).
1.6. Analysis of the relative importance of various groups of explanatory variables
(geographical, physiographical, meteorological). This analysis cari be accomplished using the
matrices R,, and R,, of the coi-relation coefficients between the original and the canonical
variables (Equations 16.11 and 16.12 of the appendix).
1.7. Study of the estimation errors of the canonical variables (WI, . . .. w,) for the gauged
stations. This is achieved by calculating the residual vectors (wi-Dvi), i = 1, 2, . . . . 12for each
gauged basin in the m-dimensional space (w,, . . .. w,). Given the properties of canonical
variables, the components of the residual vectors are uncorrelated and independent of the
location of the points in the space of the canonical variables (WI, wj, .,. w,). Consequently, the
scatter diagrams (w, , wz), (w, , wj), etc cari serve to verify the independence of the error
vectors, and the existence of outliers. The study of the error vectors described above should be
suplemented by a corresponding analysis in the space of the original flood-related variables.
For example, if the flood-related variables are the 2-year flood (qz) and the ratio (qiao /q2) of
the lOO-year flood to the 2-year flood, the canonical spaces (v, , ~2) and (WI , WZ) are two-
dimensional. In this case, we cari also plot the scatter diagram (q2 , 4100 /‘qz) and include the
estimated points (QI, 8100&) and the corresponding residual vectors. This scatter diagram has
the advantage of being directly interpretable and is a useful complement to the (WI , ~2)
diagram.

Stage 2. Estimation of the floods of an ungauged basin z


2.1. Calculation of the canonical variables VI (z), . . .. vm (z) from equation (16.1) of the
appendix, using the basin variables xl (z), . . .. x,, (z). This calculation is based on the
assumption that the coefficients of equation (16.1) are valid for the ungauged basin z.
2.2. Estimation of the flood-related canonical variables {af, (z), . . . . km (z)/ from the
regression equations : %j (z) = rj vj (z) (Eq. 16.13 of the Appendix).
2.3. Estimation of the (l-a) - neighborhood of the basin z in the space (WI , . . .. w,,) using
equation (16.14) or (16.15) of the Appendix. The choice of the level (1-a) is the result of a
compromise between the number and the degree of homogeneity of the basins in the
neighborhood [Ribeiro-Correa et al. (1995)].
2.4. Estimation of the flood-related variables of basin z, using the basins of its
neighborhood by canonical correlation or any other regional flood estimation method (Index
flood, regression etc).
Regional flood estimates cari also be used for basins with long flow records as a
complement to single-station estimates because they help clarify the relations between the
floods and their causative factors. It is also possible to combine locally obtained and regional
estimates using a bayesian approach. Professor Jacques Bernier contributed substantially to
the introduction of bayesian methods to hydrology and water resources problems [Bernier
(1967, 1981)]. In the case of combination of regional and local flood estimates the empirical
bayesian approach is used [Vicens et al. (1975), Kuczera (1982), Bernier (1992)]. It is
important to note that the variante of the combined estimate does not exceed the smaller of
the variantes of the two components [Granger and Newbold (1977)]. This result may

276
contribute to a wider use of regional analysis and empirical bayesian methodologies for flood
estimation of both gauged and ungauged sites.

16.4. Application
The canonical correlation method described above is applied to the estimation of the
maximum annual floods of the province of Newfoundland in Canada. This case is discussed
in detail in Cavadias (1989).
Figure (16.1) shows a map of the province of Newfoundland on which the locations of
21 drainage basins are indicated. The flood -related variables selected are based on the fitted
three-parameter log-normal distribution and are :
= the two-year quantile of the distribution
yi,oo /qz) = the ratio of the hundred-year to the two-year quantile of the distribution.
(This variable is a measure of the dispersion of the distribution). Based on a preliminary
analysis, the following basin variables are selected :
XI = log [Drainage Area (Km * )]
x2 = PLS = log (P er cent of drainage area controlled by lakes and swamps)
~3 = MAR = log (mean annual runoff mm).
Given that in this case m = 2, there are two pairs of canonical variables (VI , VZ), (WI ,
w2). The values of the canonical correlation coefficients are rI = 0.989 and Q = 0.76 and both
are significant at the 5 per cent level. Consequently the basin variables are significantly related
to both the median and the dispersion of the distribution of maximum annual floods.

Fig. 16.1. Map of Newfoundland

277
!
1.5 -’
1.5 F .L
lF : lI
1 1 -’ : .*N’
Q
0.5 .J ‘H _
0.5 - ‘G ‘F.
0
.E eA. . . H --
.c o-.- j .- ?.c _
.T
-0.5
%l ‘P) .S
b
lT lp l h
-1 t “1
-0.5-
%l
.B
-0.5 , - -1 -’
.A
-21 _ Floou : ‘0 -
-1.5 -
-2.5 i.
I ls
-21. ..I i
-21:
-3 -2 -1 0 1 2 -3 -2 -1 0 1

Fig. 16.2. (v, , vz) - Diagram for a11 basins Fig. 16.3. (w,, wJ) - Diagramfor a11 basins

Figures (16.2) and (16.3) show the scatter diagrams of the canonical variables (Y, ,
11~)and (w, , w2) where a1121 basins have been used in the computation. An examination
of these figures shows that the point-patterns in the two scatter diagrams are similar. The
next step is to examine the stability of these patterns by excluding each basin in turn and
plotting the two scatter diagrams, including the estimated point for the omitted basin.

1.5 1.5 .L
1 lF
1 .*.N
0.5 Q
0.5 .J 06 OK lH -
0 00
0 lC
0.5
1 .T ‘P ‘E
-0.5
0.5
lU -1
2 1
-1.5
2.5 l h! i
3 -I -2
3 2 1 0 1 2

Fig. 16.4. (II,, v?) - Diagram without bnsin G Fig. 16.5. (w,, w,) - Diagram without basin G

Figures (16.4) and (16.5) show the(v, , vz) and (w, , w2) diagrams resulting from
the computation without basin G. The coordinates of this basin in the diagram (w, , w2)
are computed using equation ( 16.13) of the appendix. The omission of basin G does not
change the point-patterns appreciably.

278

- -----7 --I
2-
1.5

1 t
0.5
L
0
4 2.5
-0.5 1
4
-1 T

-1.5
M
-2 3

43 00 4/0«
Fig. 10.6. Diagranz of (2, ,i?>j. CM’,, w3-j Fig. 16.7. Diagrarn of (@?,-). (CI2t-)
42 42

Figure (16.6) shows the {(a, , fi?), (w, , IV~)} scatter plot including the error
vectors for each basin. An examination of this plot reveals that :
a) As expected. the vertical components of the error vectors are generally larger
than the horizontal components.
b) There are some basins (e.g. L. M, R) with large error vectors (This may be
explained by the small drainage areas of the basins L and R and the location of basin
M). Figure (16.6) is complemented by the intuitively interpretable figure (16.7) which is a
scatter diagram of { (QJ, (@,oo/~I), (si, (qlol,/q2) } including the error vectors.
Before proceeding to the determination of the homogenous region (neighborhood)
of an ungauged basin (e.g. basin G) it is useful to examine the importance of each
esplanatory variable by studying the diagram (Fig. 16.8) of squared correlations between
the basin, canonical and flood variables derived from the matrices IX,,, and RR,,.of the
appendix (Eq. 16.11 and 16.12). This diagram includes only the squared correlations that
are signifkant at the 5 per cent level.

279
log (drainage area)

bl
(% area controlled
by lakes)

,og

(mean annual
run off)

Fig. 16.8. Diagranz of squared correlation coefficients

This diagram shows that :


a) As expected, the variable log q2 is highly correlated with the first canonical variable
WI which, in turn, is correlated with VI and the basin variable log (drainage area).
b) The variable (q,oo /qz) is highly negatively correlated with w2 which is in turn
correlated with the canonical variable ~2. This variable is negatively correlated with the
variable log (mean annual runoff) and positively correlated with the variable log (per cent of
area controlled by lakes and swamps).
The neighborhood of the ungauged basin G is defined by equation (16.15) of the
appendix. Using (1-a) = 0.75 an elliptical contour is obtained containing the basins (F, Q, K,
E). At this point it is also interesting to determine the corresponding 75 per cent neighborhood
in the space (VI , VI). This neighborhood consists of the basins (F, Q, K, 0, E) i.e. it includes
the additional basin 0. An examination of figure (16.1) shows that the geographical locations
and the other basin variables of these basins are reasonably close to those of the ungauged
basin G.

Table 16.3. Flood variable estimation ungauged basin G, Neighborhood (F, Q, K, 0, E)

BASIN DRAINAGE PLS MAR QICO


AREA
Km* per cent mm m”/sec m’kec
?Y ..-......................
..-..........................
... ............................................................................ 9.4 .................... 7ftT.....................
.!56 _....................... !.!.3.
Q 764 .........................
..-...................................-
................................................................................. 91..-............ 1024. ............................
................ 376
240 _..............................
!2?! ._......................
..-........................
.... ........................................................................... 92 .................... ‘74 ...................
.E8 _...................... .296
!.!70 .-......................
..-........................
... ........................................................................... 96 .................. 2x.. ..................
!.!!G -..................... .3.67..
E 470 -...........................
- ...................................
................................................................................... 1162_............................
100_............................ 183
86.3 _..............................
OVERALL RANGE 3.90 - 2640 60 - 100
......................
..-...................................-
................................................................................. ._____ 788 - 1364
............................2.94 - 590.0
. ............................. 5.37 - 760
.............................
RANGE IN NEIGHBORHOOD 391- 1290..-.........................
-.................................
................................................................................... 91 -100..~.......................... 74 - 240 .............................
8546 -1082..-............................~ 118-376 _
MEAN IN NEIGHBORHOOD ..-...........................
-.................................
................................................................................... 105.7
..-.............................
_.......................... 183.4
.............................
OBSERVED FOR BASIN G 529 95 984 91.3 164

280
Given the small number of basins in the (w, , PV?)- neighborhood and that basin 0 is near the
boundary of this neighborhood, we may estimate the flood characteristics of basin G using the
(VI , ~2) - neighborhood (F, Q, K, 0, E). A rough approximation of the variables q2 (G) and
( Y/OOKWqdW cari be obtained using the means of the corresponding variables of the basins
in the neighborhood (Tab. 16.3).
The above application shows that the canonical correlation method gives an insight into
the relations of the flood-related variables with the geographical, physiographical and
hydrological characteristics of the basin and thus brings the user closer to bridging the gap
between the statistical mode1 used for the estimation and the physically based mode1 of the
flood phenomenon which is not feasible at the present time.

Appendix

Given YEbasins, p standardized basin-related variables Xj and nz standardized flood-related


variables qi (e.g. quantiles of a fitted probability distribution), where usually p-> m, we seek
HZpairs of standardized canonical variables vj and wj given by the equations :
Vj = Uj/ Xl + Uj~X~ + . . . + UjpXp (16.1)
WJ= bji qj + b/2~2 + ... + bjmq,u ( 16.2)
j = 1, 2, ..., nz
which have the following properties :
1) r (uj , Vk) = 0 (16.3)
1, (Wj , W/o = 0 ( 16.4)
r (Vj , Vk) = 0 ( 16.5)
for,j f k
i.e. the canonical variables with different indices are uncorrelated.
2) The first pair of canonical variables (VI, w,) has the largest correlation coefficient 1-1
(II,, IV,) of a11linear combinations of the sets of variables (XI, . . .. x,,) and (q,, . . . . q,,,).
3) The second pair of canonical variables (~2, ~2) has the largest correlation coefficient
rz (vZ, w2 ) of a11linear combinations of the sets of variables (xl, . . . . x,,) and (y,, . . . . y,,! ) which
are uncorrelated with the canonical variables (VI, WI ) etc.
The canonical variables are calculated as follows :
1) We form the nxp matrix X= [xg] and the (nxm) matrix Q = (q;j] where
i = 1, 2, . . . . IZ and find the m eigenvalues and m eigenvectors of the (mxm) matrix :

F = R,; RC,, L-k, (16.6)

where R is the partitioned correlation matrix of the two sets of variables.

R= (16.7)

2) We use the (nzxrn) diagonal matrix Ë of the eigenvalues ël 2 ë2 2 . . . > ë,,, and the
(17~x11~)matrix B of the eigenvectors of the matrix F. In addition, we compute the
matrix :
%
’R,,, BË
A = R.v,,: (16.8)
3) The columns of the matrices A and B are the coefficients of the canonical variables v,
and V?irespectively given by equations ( 16.1) and ( 16.2) or in a matrix form :

281

-
V = [vu] = XA (16.9)
W = [wtj] = QB (16.10)
The square roots of the eigenvalues (c,, cJ, . . .. c,,,) are the correlation coefficients I; of
the corresponding pairs of canonical variables (v,, . . . . v,,,) and (w,, . . . . w,,,). The matrices of the
correlation coefficients of the original and canonical variables are given by the equations :
R,v,.= R,, A (16.1 1)
R,,w = R,, B (16.12)
These equations, along with the canonical correlations, help to determine the
contributions of each of the original basin variables to the flood variables and therefore to the
similarity of point patterns in the diagrams (vi, vk) and (wj, wk).
The canonical variables (w,, . . . . \Vi, . . . . cv,,,)cari also be estimated using the canonical
variables of the first set from the equation :
i$=˔v (16.13)
Given an estimated point ?Y= (%,, a)?, . . . . %j, ‘AJ,,,)in the m-dimensional space of the
canonical variables and under the normality assumption, the (l-u) per cent confidence region
for the point % = (%, , . . . . k,,,) is given by the equation :
( w-^w,i (I,,, - ËJ’( w-?v) 5x’ (u, m) (16.14)
In the special case of 172=2 the (l-a) elliptical confidence region is given by the
equation :
(w, - tbJ2 (w-, - hz) r y (a, 2)
+ (16.15)
1 - r,’ 1 - i-2’
If CUis a point representing a basin for which the flood-related variables (@,, . . . . @,,,)are
estimated from the basin-related variables (x,, . . .. x,,), this confidence interval cari be
interpreted as the (1-a) per cent neighborhood of the point W (Ribeiro-Correa et al. 1994).
The differences (wj -‘i%J,,i=l, . . . . 112are the residuals of the regressions of the canonical
variables W, on the corresponding variables vj (Eq. 16.13).
It must be noted that the determination of the neighborhoods using weighted distances
(Burn, 1990 a and b) or Mahalanobis metrics (Formula 16.14) are only approximations to the
hydrologie neighborhood of the basin.
Computer programs for canonical correlation usually plot diagrams of (v,, NJ,), (VA W)
etc., i.e. the pairs of canonical variables having maximum correlation coefficients. Given the
difficulties in interpreting the canonical variables (e.g. Kendall and (Stuart, 1968), it is
preferable to plot the uncorrelated pairs of canonical variables (v,, vz), (v,,vj) . . . (vj, v,J etc.,
where jf k along with the corresponding scatter diagrams (w,, w2) . . . (wj, wk) of uncorrelated
flood-related canonical variables. The pairs of canonical variables (v,, ~2) (w,, WZ) etc.
respectively define the spaces of linearly transformed basin- and flood-related variables in
which the points represent individual basins. If the basin variables are good predictors of the
flood-related variables, the patterns of points in the corresponding scatter diagrams are
similar.

282
Bibliography

ACREMAN, M.C. and S.E. WILTSHIRE. (1989) ’The regions are dead: long live the
regions. Methods of identifying and dispensing with regions for flood frequency
analysis ’. IAHS Pub]. no. 187, 175-1988.
BERNIER, J. (1967) ’Les méthodes bayesiennes en hydrologie statistique ’. (Essai de
reconciliation de l’hydrologie et du statisticien). First International Hydrology
Symposium, Fort Collins: 46 I-470.
BERNIER, J. (198 1) ’Eléments de statistique bayesienne ’. EDF Report HE 40/8 1.06.
BERNIER, J. (1992) ’Modèle regional à deux niveaux d’aléas ’. Interim Report NSERC
Strategic Grant No STR 0118482, 11 p.p.
BURN, D.H. (1990a) ’An appraisal of the «region of influence» approach to flood frequency
analysis ’. Hydrological Sciences, Journal, 35 (2) 149-165.
BURN, D.H. (1990b) ’Evaluation of regional flood frequency analysis with a region of
influence approach ’. Water Resources Research 26 (10) 2257-2265.
CAVADIAS, G.S. (1989) ’Regional flood estimation by canonical correlation ’. Paper
presented to the 1989 Annual Conference of the Canadian Society of Civil Engineering,
St. John’s Newfoundland.
CAVADIAS, G.S. (1990) ’The canonical correlation approach to regional flood estimation ’.
Regionalization in Hydrology. Proc. of the Ljubljana Symposium, IAHS. Publ. No.
191:171-178.
CUNNANE, C. (1986) ’Review of statistical models for flood frequency estimation ’.
Keynote paper in: International Symposium on Flood Frequency and Risk Analysis
(Baton Rouge, May 1986). Reidel.
DILLON, W.E. and M. GOLDSTEIN. (1984) Multivuriute Analysis, p. 139. John Wiley.
DUBES, R. and G. ZENG. (1987) ’A test for spatial homogeneity in cluster analysis.
Classification 4, 33-56.
FALKENMARK, M. (1976) Wuter in a S&wing World. Westview press, Boulder, Colorado.
GOTTSCHALK, L. (1985) ’Hydrological regionalization in Sweden ’. Hydrol. Sci. J. 30 (1).
GRANGER, C.W. J. and P. NEWBOLD. ( 1977) Forecasting Economie Time Series,
Academic Press.
GRIGG, D. (1976) ’Regions Mode]s and Classes in Intergrated Models in Geogruphy ’ (ed.
by R.J. Chorley) Methuen, London.
HOTELLING, H. (1936) ’Relations between two sets of variates ’. Biometrica 28: 32 I-377.
KENDALL, M.G. and STUART A. (1968) The udvunced Theory of Stutistics, Vol 3.2nd ed.
Charles Griffin & CO. London.
KUCZERA, G. (1982) ’Combining site - specific and regional information: an empirical
Bayes’ approach ’. Water Resour. Res. Vol. 8, No. 2 pp. 306-314.
LINSLEY, R.K. (1982) I Flood estimates. How good are they? ’ Wat. Resour. Res. 22 (9).
LVOVICH, M.I. (1973) The World’s Wuter. Mir Publishers, MOSCOW.
MOSLEY, M.P. (198 1) ’Delimitation of New Zealand hydrological regions ’. J. Hydrol. 49,
173- 192.

283
RIBEIRO-CORREA, B.; G.S., CAVADIAS; B. CLEMENT and J. ROUSELLE. (1994)
’Identification of hydrological neighborhoods using canonical correlation analysis ’.
Journal of Hydrology 173 (1995) 7 l-89.
ROGERS, A. (1974) Statistical Anulysis of Spatial Dispersion. Pion Ltd.
UNITED STATES WATER RESOURCES COUNCIL. (1977) Guidelinesfor Determining
Flow Frequency. USWRC, 2 120 Long Island NW, Washington, DC.
VICENS, G.J.; 1. RODRIGUEZ-ITURBE and J.C. Jr. SCHAAKE. (1975) ’A Bayesian
framework for the use of regional information in hydrology ’. Water Resources Res. Vol
11, No. 3 p.p. 405-414.
WILTSHIRE, S.E. (1986) ’Regional flood analysis II: multivariate classification of drainage
basins in Britain ’. Hydrol. Sci. J. 3 1 (3).
WORD METEOROLOGICAL ORGANIZATION. (1986) ’Water resource assessment in
different hydrological regions ’. Paper presented by WMO and UNESCO to the
Workshop on Comparative Hydrology, Budapest, 112-212 July 1986.

284
17. Regional flood frequency analysis
- some less frequented corners

Max Beran
Institute of Hydrology
WALLINGFORD, OXON, UK

Abstract

The United Kingdom Flood Studiesbetween 1970 and 1975 owed much to prior researchin France.
The work of JacquesBemier in placing peak over threshold analysis on a solid theoretical footing and
on quantifying risk were major inspirations. Other important work in France which greatly informed
our British studies included France tieing the probability distribution of river flood to that of the
causative rainfall, and the global synthesesof flood peak maxima. This paper describesfour “niche”
areasarising from these issues.

1. An examination of probabilistic connection between storm rainfall, antecedent conditions and


consequentpeak discharge leading to prior estimatesof regressioncoefficients and limiting values of
explainablevariante.
2. Multisite analysis of flood peaksand plotting positions taking intersite correlation into account.
3. The evaluation of very frequent eventsis important for economicanalyses.
4. An example of a risk analysis in which floods which occur close together in time have more
seriousconsequencesthan when eventsof the samemagnitude are separatedin time.

Résumé

Les études de crues au Royaume Uni entre 1970 et 1975 se sont principalement basées sur les
recherches effectuées en France dans ce domaine. Les travaux de Jacques Bemier, avec
l’établissementd’une basethéorique solide d’analysestatistique des crues dépassantune valeur de seuil
et la quantification du risque, ont été une sourced’inspiration importante. Un autre travail important
en France qui a influencé les étudesBritanniques porte sur la combinaison statistique des distributions
de probabilité des crues et de pluies maximales et sur les estimations des débits instantanésmaxima.
Cet article décrit quatre points issus de ces travaux:

1. Etude des relations probabilistes entre les épisodesde pluie, les conditions antécédanteset les
débits de pointe résultant, pour estimer les coefficients de régression et les valeurs limites de la
variante expliquable;
2. Analyse des débits maximum relatifs à différents sites et leur placement dans un graphique de
distribution de fréquenceen prenant en compte les correlations qui existent entre ces différents sites;
3. Estimation d’événementstrès fréquents,très importants pour les analyseséconomiques;
4. Exemple d’analysede risque où l’on montre que les crues qui se succèdentdans un court laps de
temps ont des conséquencesplus gravesque les événementsde même amplitude mais qui seraientplus
espacésdans le temps.

285
17.1. Introduction
1s statistics servant or master to hydrology? It is true that the laws of probability are
inviolate because they flow directly from those of logic. But “statistics”is not “probability”.
Statistics is a branch of applied mathematics and cari therefore be bent to the problems
thrown up by the real world. This is not to give carte blanche to sloppy thinking or bad
maths; but it is to say that the needs of the user and the requirements of the problem
determine the rules of battle.
What are the consequences of this line of thinking? First and foremost, it means that
it is not for statisticians to say that a problem cannot be solved or is poorly posed, or to
complain that the data fail to conform to constraints imposed by analytical ideals. What
does matter is that the hydrologist needs an answer - the thousand year drought, the
level of flood protection that balances risk against cost, even an estimate of the smallest
flood that cari’‘’happen - and, more often than not, at a locality with deficient data.
It is in this spirit that 1 believe Jacques Bernier has always approached his subject.
His analytical capabilities are matched by very few, certainly not by this writer; but he
knows that an answer to a problem is the bottom line. One of his roles has been to place
on a solid footing the hazy ideas of hopeful empiricists whose analytical skills do not
match their aspirations to apply statistics to hydrological problems. 1 hope he cari spare
time to restore respectability to the selection of statistical applications presented below.

17.2. Outline
The United Kingdom Flood Studies Report (FSR) is probably the largest single flood
analysis project ever conducted; certainly prior to 1975, when it was published, maybe
since. It owed much to antecedent research in France and the United States. In France
the work of Jacques Bernier in placing peak-over-threshold analysis on a solid theoretical
footing was one major inspiration and led to a continuing link between himself and
members of the Flood Studies team. Other important work in France which greatly
informed our British studies included those of the Grenoble group at EZectticitéde France
tying the probability distribution of river flood to that of the causative rainfall, and
ORSTOM’s global synthesis of flood peak maxima.
In the following sections 1 revisit some less frequented aspects of flood frequency
analysis. Some arose from the needs of the FSR with its central objective of deriving
procedures that are applicable at ungauged locations; others emerged later when
applying the FSR to special circumstances :
0 Making regression respectable
0 Correlated data and regional flood analysis
l Frequent flooding
0 Hydrological and financial risk.

17.3. Making regression respectable


17.3.1. Need for regionalization

Gauging station sites are generally selected for accuracy of measurement and relevance
to water resources assessment.Hydrologists need flood estimates at localities where there
is a need to protect against inundation. This mismatch of criteria means that the flood
analyst frequently has to transfer information from gauged sites to the ungauged location

286
at risk of flooding. The FSR procedures for transferring information from gauged to
ungauged rivers included regressing the mean annual flood on catchment characteristics,
an approach previously pioneered by the Geological Survey in the United States. Twenty
years on, the procedure is commonplace, though not always applied with as much insight
or caution as in the FSR.
Unfortunately a regression equation cari yield nonsense predictions, a danger which
arises from extrinsic and intrinsic causes :
0 data deficiencies and mismatch between the calibration and the
prediction set
0 the unconstrained nature of mode1 building by regression.
TO elaborate a little on the latter intrinsic cause, there is no (hydro)logical basis for
assuming a linear form of relationship, no “common currency” for a summarizing flood
index across different catchments, no reason to expect any particular level of explained
variante, indeed no a priori reason to expect a stable formula at all.

17.3.2. Strategy for safe flood estimation

A two-pronged approach to model-building was adopted in the FSR. At the same time
as building the best predictive mode1 on statistical criteria, we also attempted to address
some of the fundamental issues about regression analysis expressed above. The former
task was achieved with linear regression on the logarithms of variables. The assumed
“common currency” was the mean armual flood, though estimated in a variety of ways
including arithmetic averaging, data extension, graphical interpolation, and armual
maximum and peak-over-threshold analyses.
Mapping the regression residuals from the analysis of the pooled data revealed a
patchwork of regions with consistent positive and negative departures. This suggeststhat
the mean armual flood does not provide the holy grail of a common currency. An
ANOVA on pre-defined regional subsets gave a family of equations which explained
about 90 per cent of the variante, with a factorial standard error of estimate between 1.4
and 1.5.
TO help minimise concerns that a regression equation may throw up spurious flood
estimates, the FSR recommends a second and independent flood estimation procedure
based on a rainfall-runoff model. This type of flood estimate complements the regression
approach in that it is hydrologically well-constrained, yielding flood peaks that are
conformable to the type of catchment and storm event. On the other hand the rainfall
: runoff approach is statistically only weakly constrained because there is no a priori
reason for any given combination of storm and catchment condition to generate a flood
peak of a predetermined frequency of exceedance.

17.3.3. Simulating regression

We have emphasized the practical advantages for combining flood prediction techniques
to take advantage of this complementarity of properties, giving confidence beyond what
either approach - statistical and rainfall : runoff - is individually capable of. More to the
point in the current context is the opportunity for putting regression on a hydrologically
more secure foundation.
The FSR reported the first ever application of simulation for bridging the statistical
and the rainfall:runoff approaches in the context of flood estimation. The basic mode1
is driven by four input variables :
l storm rainfall depth
0 storm rainfall duration
0 storm intensity profile within its duration
a catchment wetness prior to the storm ,
and by sampling from across the probability densities of each input variable it was
possible to generate the full flood frequency distribution of output flood peaks. The
primary use of this was to identify stable combinations of inputs that would yield flood
peaks of required return periods on output, again an FSR “first”.
This simulation was applied to 80 gauged catchments and provided a large data set
of simulated and recorded flood statistics. The properties of the simulated frequencies
reinforced the superiority of a heavy-tailed distribution such as EV2, over Gumbel, and
it supported the regional trend in “tail heaviness”. Turning to measures of central
tendency, correlation was high between recorded and simulated mean armual flood, 0.98
(0.96 in log space). Overall the simulated mean annual flood (MAF) underestimated the
recorded value by 10 per cent, largely caused by underestimates of a few large rivers, and
no longer apparent in the log domain. The same regional pattern of residuals seen for
the regional regression on M A F (Section 17.3.2) was observed when comparing recorded
and simulated M A F confirm ing that this is no artefact; a given set of catchment
characteristics accompanies a considerably larger M A F in the south-west than in the east
of the country.
Table 17.1 compares the results of regressing simulated mean and 10 year floods on
catchment characteristics with recorded values.

TABLE 17.1 Comparison of logarithmic regressionson recorded and simulated mean annuel flood

Dependent Regression coefficient R2 fsee


variable AREA RSMD SOIL SLOPE

Recorded 1.01 1.47 1.39 0.28 0.91 1.51


Simulated 0.99 1.15 1.02 0.26 0.96 1.29

Notes : AREA is catchment area; RSMD is the 5 year return period effective rainfall;
SOIL is an index of the soil’s rainfall acceptance; SLOPE is a chantre1 slope. R2 is the
coefficient of multiple determ ination, fsee is the factorial standard error of estimate.

A number of points emerge from the comparisons of M A F regressions. The


regression coefficients for simulated M A F approach unity and suggest an underlying
“round-number” form of relationship :

Q = comt AREA.RAIN.SOIL.SLOPE’14 (17.1)

for which there may be some underlying rationale. Because SOIL is close to a
standardized runoff coefficient, the first three terms represent net rainfall on the
catchment. SLOPE114is rem iniscent of catchment response time relations where unit
hydrograph time to peak, TP, was proportional to SLOPE-“4, SOby setting

288
j= RAIN/TP, equation (17.1) becomes :

Q =cAi (17.2)

the well-known rational formula!


The improvement in explained sum of squares from 91 to 96 per cent indicates that
about half of the original unexplained sum of squares is due to error in the dependent
variable and inappropriate form of model. Alternatively it may be said that regression
is incapable of explaining more than around 95 per cent of variante in mean annual
flood no matter how accurate the data or complete the list of independent variables.

17.4. Correlated data and regional flood analysis


17.4.1. Regional flood frequency curves

Typical gauging station records, say of 20 years duration, are far too short to estimate
the 100 year flood. In almost a11design circumstances, the FSR recommends that a
regional flood frequency curve is to be preferred to the locally derived one, both for
gauged and ungauged locations. The derivation of the regional curves, which express
flood magnitude dimensionlessly as a multiple of the mean armual flood, combined the
index-flood and the station-year methods applied within a framework of graphical flood
frequency analysis.
In its simplest form, the station year approach regards m years of record at each of
k stations as equivalent to a single sample of mk independent data points. Strictly this
holds only if the annual maxima are uncorrelated, both through time and between
stations. The truth of the converse is very evident if one considers the extreme case of
inadvertent duplication of one station’s record. Perfect correlation between a pair of the
k stations would reduce the value to at most m x (k-1) station years worth of data. The
FSR attempted to side-step the effect of correlation by forming station-year samples
from dissimilar and geographically remote stations. While subsequent studies by Hosking
(1987) and by Reed and Stewart (1994) have approached the issue, few have considered
the implications to the classic graphical approach and order statistics with their intuitive
appeal.

17.46. Plotting positions for dependent data

The graphical treatment of an at-site flood record involves plotting the ordered flood
magnitudes q(i) qt2).“...qCrn),against corresponding plotting positions, y(‘), Y(~)....Y(~).The
plotting positions, y(‘), are derived from the sampling distribution of order statistics of the
standardized form of the fitted distribution, F(y).

g(y’=‘) dy= In F(Y) (*-l) [l-F(y)] '"-"f(y) dy (17.3)


( 1

In the case of the largest flood in a sample of size m, JC(~)would be plotted against
E(ytm)), the expected value of equation (17.3) for n =r=m. In the uncorrelated station-
year case this is simply extended to the sample size n = mk, SOthe plotting position
associated with the largest flood peak in the region would be evaluated from E(‘ycmk)).

289
TO understand the adjustment necessary to deal with correlated data, it helps to
visualise sampling distributions such as equation (17.3) as the outcome of a simulation
experiment in which a drawing is made at random from a parent population. For station-
year data, the parent population is defined in a mk-dimensional space with identical
marginal distributions, f(y). Every point in the hyperspace represents a single set of
station-year data. In the uncorrelated case there is no tendency for any value along one
axis to predispose the value along another and the relative frequency of a given sample
is the product of the marginal frequencies. The positively correlated case is represented
by local increases in density reflecting a tendency for a value on one axis to accompany
a more restricted range of values along another axis.
One envisages a simulation experiment in which samples are drawn repeatedly from
the hyperspace. The samples are treated as if they were station-year data, first ordering,
then assembling histograms and evaluating moments of ranked data.

17.4.3. Correlated station-year data

Station-year data give rise to a blocked correlation structure as illustrated in figure


(17.1). Identical blocks down the leading diagonal emerge from within-year, inter-station
correlation. The zero values elsewhere arise from an absence of between-year
correlation. Of course, where such serial correlation is present, as in drought analysis, it
cari be included in the correlation structure. The structure cari also be modified to allow
for unequal record lengths, ie mi c > mj.

0 \

1 .5 .5 .5
.5 1 .5 .5
.5 .5 1 .5
.5 .5 .5 1

1 .5 .5
.5 1 .5
.5 .5 1
.5 .5 .5

Fig. 17.1: Correlation matrix for 80 station years - 4 stations and 20years with common interstation correlation
of 0.5. Van.ableinter-station correlations would replace “0.5”values

Visualising a system is one matter, obtaining solutions is quite another. In fact


analytical results are available only for a very restricted class of correlation structure,
most notably for the equi-correlated, Normal distribution. Most distributions cari be
transformed to approximate Normal$ SOthis is not a serious limitation, and despite
these restrictions, powerful approximations have been obtained (Stevens, pers comm).

290
For example the expectation of order statistics for the equi-correlated case (correlation
matrix R with a11off-diagonal elements, p) cari be obtained from the uncorrelated case
as

Jw (“k);R) = (l-p)‘/2 E(Y’“~);~) (17.4)

Equation (17.4) shows that probability plots Will still be linear even if correlation is
neglected, but the slope Will be biassed by the factor ( 1-p)‘j2 thus overestimating return
periods. Equation (17.4) has been extended to the block correlation (station-year)
structure by setting p in equation (17.4) to the average correlation across the entire
matrix (Rawlings, 1976), (m-lj/@zk-I)p,,, where p,, is the average within-block (inter-
station) correlation. As a rule of thumb, SOlong as this average is less than 0.02 the error
in return period is less than 10 per cent. We also examined the effect of variability in the
correlation structure, postulating a further adjustment c(l-p)ii2 in equation (17.4)
suggested by the theory underpinning equation (17.4). Table (17.2) shows the
relationship between c and the standard deviation among the elements of R This led to
a second rule of thumb that equation (17.4) cari be used without serious error SOlong
as m » 20pw

TABLE (17.2) Bias in equation (17.4) due to variability among inter-station correlations

st dev (p) 0 0.1 0.2 0.3 0.4 0.5


C 1 0.99 0.965 0.915 0.845 0.70

TO exemplify these findings consider a regional dataset comprising k = 20 stations with


m = 10 years of record each, and with an average inter-station correlation of 0.5. The
plotting position of the largest value from an independent sample of 200 is 2.746.
Allowing for the effect of correlation using equation (17.4) the plotting position is
reduced to 2.68, corresponding to an independent sample of 165. For this combination
of m and p one ought to make the further adjustment based upon the standard deviation
of correlation coefficients, which reduces the effective sample size to 142. The net effect
therefore is to reduce the information content of the sample from the 10 nominal years
down to about 7 years per station.

17.5. Frequent flood events


17.5.1. Background to frequent flood estimation

The evaluation of rare floods is the “glamorous” end of flood hydrology, SO,mututis
mutandis, estimating very frequent events must be the unglamorous end. Yet when we
evaluate the economics of many flood protection schemes, it is the elimination of just
these frequent flood events that contributes most to the post-project benefit stream.
Events in this category may include multiyear occurrences such as the flood exceeded two
or three times per year.

In this range the concept of return period has to be carefully handled. While return
period is always defined as the average recurrence interval between events, the event in

291
question differs according to the data collected. In the case of annual maximum data, the
event is “a year which contains a flood”. The corresponding return period is therefore the
average inter-val between years containing a flood of at least the given magnitude. This
distribution is bounded at one year and capable only of assuming integer values. On the
face of it then, armual maximum analysis is inappropriate for treating multiyear events.
On the other hand, peak-over-threshold (Bernier, 1967) or POT analysis is designed to
tope with multiyear events. In this formulation it is legitimate to talk of a six month
return period flood.

17.52. The Langbein approximation

Notwithstanding these conceptual problems, AM data are often used for the entire range
of flood frequencies primarily because they are much easier to extract than POT data.
TO overcome the restriction on return period hydrologists employ a theoretical
relationship due to Langbein (Langbein, 1949) to infer POT return periods from AM
frequency analysis :

(17.5)

SO if an estimate is required of the flood which occurs twice a year (TPOT=0.5), it is


usual to fit a distribution to the annual maxima and estimate Q(TPOT=.5) from
WAM =1.d
In his original paper, Langbein (1949) makes use of an asymptotic expression for the
exponential function :

(I-E/n)” = emE

to derive equation (17.5). He warns that the formula holds only when wz where
notionally n is the number of occurrences above a low threshold, and E the number of
occurrences above the threshold of interest. In practice it is seldom possible to extract
more than five events per year except for very flashy small catchments because of the
difficulty of discerning independent events. As we have seen, flood design may concern
thresholds corresponding to g as low as two or three per year; a combination that
certainly invalidates equation (17.6).
These concerns led Beran and Nozdryn-Plotnicki (1977) to investigate the Langbein
relationship empirically. They compared AM and POT data from 40 UK gauging
stations. Table (17.3) presents results for the region that departed most markedly from
the relationship; a11other data showed better agreement. Even SOthe departure is barely
significant in practical terms - estimates based on equation (17.6) could underestimate
the true flood by up to 13 per cent. However it was intriguing that the formula could
provide this degree of accuracy where the conditions for the approximation are SOclearly
not met, and this led to a theoretical examination of the derivation of equation (17.6).

292
TABLE (17.3) Relationship between TAM and T,, for one UK region

T POT T AM - years
years Empirical Iangbein approximation

0.2 1.06 1.01


0.5 1.36 1.16
1.0 1.90 1.58
2.0 2.89 2.54
5.0 5.53 5.52

Note : Data are shown for the “worst fitting” region. Other areas gave equivalences for Ta
doser to equation (17.5).

17.5.3. Theoretical derivation of TAM : Tm relationship

Consider a base threshold, Q,, exceeded on average n times per year; also a higher
variable threshold, Q, exceeded E times per year. Over the course of N years there are
Nn exceedances of Q, and the probability that an exceedance of Q, Will also exceed Q
is N.$Nn = ~/n. TO calculate the probability that the armual maximum
flood exceeds Q, it is necessary to consider k = 0,1,2,3 etc exceedances of Q, per year,
and SOdetermine the probability that the maximum of the k exceedances also exceeds
Q
Assume that Q, exceedances form a Poisson process SOthat the armual number of
exceedances, k, is distributed as :

P(k) = emnn”/ k! ; k = 0,1,2,3... (17.7)

For a given value of k, the probability that the maximum of the k exceedances exceeds
Q is :

PAM(Q (k) = I - [l- E/nlk (17.8)


Since :
P*(Q) = s/,dQ bP(k) (17.9)

=c {I-(1- E/n) k}e-nnk/k! (17.10)

= l-emE (17.11)

which, since TAM= W’/.odQ,and TpOT= l/~, reduces to equation (17.6). The significance
of equation (17.8) through equation (17.11) is the demonstration that the Langbein
relation follows exactly from the Poisson assumption. It involves no approximation SO
agreement as close as Table (17.3) is therefore unsurprising. Departures arise because
of the inadequacy of the Poisson assumption, for example a tendency for exceedances
to cluster in time or for peak magnitudes to be serially correlated (Beran and Nozdryn-
Plotnicki, 1977).

293
17.6. Financial risk of flood inundation
17.6.1. Background

The fourth and final unfrequented area again relates closely to one of Jacques Bernier’s
interests - risk evaluation (Bernier, 1987; Ulrno and Bernier, 1973). Risk is sometimes
understood as the combination of a probability of a hazardous event and the magnitude
of the hazard (Royal Society Study Group, 1992). Other definitions express risk as the
total probability of exposure to a hazard over a design lifetime.
A feature of most hydrological applications of risk theory is that the contribution to
risk of a hazardous event, like a flood, does not depend on the point in time when it
occurs. The applicationto be described here is unusual in that the position in time of the
hydrological event is highly significant : floods which occur close together in time have
more serious consequences than the same magnitudes of events separated in time, and
floods which occur early in the life of a scheme are riskier than those which occur later
on. An additional point of interest is the prospect for using the concept to quant@
perceived risk in an objective fashion, SO building a bridge between hydrology and
psychology.

17.6.2. Design of offstream storage

Offstream storages have become increasingly popular for the protection of urban areas
from river flooding. An area of bankside land is bunded in order to confine the
inundation within a designated flood zone, and equipped with inlet and outlet structures.
The storage is filled by diverting flood water into it according to an operating rule that
contains downstream discharge below a critical value. The storage is emptied when the
discharge drops below the critical value. There are several operational advantages of
providing flood detention storage close to the protected area and, particularly important
in the UK context, they avoid the need for permanent reservoirs in the headwaters.
Another important advantage is that the land remains available for use for recreation or
agriculture.
However they also carry some disadvantages. The valley geometry means that the
storage generally cannot be deep, SOland-take is likely to be higher than in a headwater
reservoir. A second issue is that landowners need to be paid for the use of their land.
The crux of this risk analysis is the need to find an equitable basis for compensating
occupants for the dirninished value of their land.
In a recent application, the storage-area occupied farmland which had originally been
part of the floodplain, but, thanks to past flood protection projects, was nowadays seldom
flooded. Because of this protection, and the high fertility, the land developed into highly
productive agriculture and horticulture. ‘I?re river through the urban area downstream
was capable of passing the 10 year flood within bank, SOthe operating rule for the flood
storage was that it was brought into use at the 10 year return period level. Larger floods
would inundate successively larger areas of the detention storage, and it was designed
to fill, ie inundate the total designated flood area, at the 100 year level.

17.6.3. Flood fund concept

A fair system of compensation was sought for farmers occupying the affected land. In a
conventional risk analysis, compensation is based on the present value (Pu) of future

294
losses :

PV = 100 D/Tr (17.12)

where D is the average damage due to inundation, T is the return period of flooding, and
r is the discount rate. Because PV is inversely proportional to the frequency of flooding,
farmer A, occupying land in the lowest portion of the inundated area, would experience
10~s ten times as frequently as his upslope neighbour, B, an occupant of land in the
highest area, and SO receive ten times as much compensation. This ratio does not
conform to the perception of flood plain occupants who a11share some sense of blight,
and was rejected. There is also an important distinction between benefits and costs in
this evaluation. Benefits are considered to accrue to society at large whereas costs fa11
on particular individuals.
A revised formulation was based on the flood fund concept. In this the farmer’s
compensation is regarded as the starting capital of a “flood fighting fund”. The relevant
expression of risk then shifts from the hydrological event to the financial one - is the
flood fund sufficient to fight the losses due to flooding? TO evaluate this risk it is
necessary to assume that the fund is treated independently of the working capital of the
farm and invested for the sole pur-pose of paying for lost production when the land is
deliberately inundated. A natural measure of risk then becomes the financial one of the
probability that the fund becomes extinct - a variant on “gambler’s ruin” on stochastic
process theory.
We cari then focus on the performance of the fund through time as it earns real
interest of r per cent per annum and is sporadically drawn upon for payment of losses.
This calculation has some similarities with actuarial calculations carried out by insurers
where prerniums are paid into a fund which is drawn on to pay for claims (Beard et al,
1984). It cari be appreciated that calls on the fund during the early years, before it bas
had the opportun@ to accrue interest, are more serious than later occurrences. A r-un
of events is also disproportionately damaging to the ftmd than the same total number
well separated in time.
Though the basic concept appears simple it turns out that the combination of
geometric growth through the compound interest formula

F(i + I) = F(i)(l +r/lOO) (17.13)

and even a rectangular distribution of losses, L, is not algebraically tractable. It cari be


seen that the time series, F(i), has absorbing boundaries at zero, when the fund is
extinguished, and at IOOF/r > L,,, at which point the interest exceeds the maximum
possible withdrawal. Between times the probability density of F behaves in a non-
stationary fashion gradually migrating towards one or other modes.
In practice the computation is further complicated by the fact that the lost production
consequent on an inundation varies greatly with the time of year, and hence there is a
need to consider the relative probability of inundation month by month. In land used for
agriculture, losses are heaviest following summer flooding, and drop sharply after harvest
and prior to land preparation. One must also consider the effect of more than one
inundation in a year, though this may be simplified by the likelihood that no more than
one reseeding is possible,

295

---
17.6.4. Results

A simulation program was written to mimic the performance of a range of compensation


levels for return period zones within the flood storage area. The random element
consisted of Bernoulli trials of flood events conditioned by the return period of flooding,
with a further random drawing for month of flooding, based on the empirical data of the
region. The output from the program displayed histograms of the state of the fund after
a specified elapsed time. These included ten years, which was thought to be the planning
horizon for a landowner, and 30 years which was designated as the period at which the
flood protection authority was due to re-evaluate the compensation.
In inspecting the results of the simulations with r=5 per cent, the tria1 discount rate
for public sector schemes, special attention was paid to the viability of the fund after 10
years. The starting point was the behaviour of the fund capitalized with PV. This
displayed a variable pattern of extinction from less than 10 per cent to more than 20 per
cent within the 10 years. Such risk levels were regarded as too high and also the variation
from zone to zone was undesirable. After studying sensitivity to interest rate and
balancing profitability after 30 years against risk of extinction within 10 years, it was felt
that a 5 per cent risk of extinction within 10 years provided an equitable basis. Table
(17.4) shows the results which provided a more acceptable basis for acceptance by the
land occupants.

TABLE (17.4) Consequences


of compensation
in flood zones

Return period Present Capitalisation Profit after 30 years


zone value for 5% risk Probability Expectation
years &/ha £/ha £/ha

10 - 15 1255 1630 0.71 1600


15 - 30 664 1090 0.79 1600
30 - 50 363 700 0.76 1200
50 - 70 239 620 0.83 1300
70 - 100 168 510 0.85 1200

17.7. Concluding remarks and apologia


This paper, dedicated to Jacques Bernier, has been a tour through several disparate
regions of flood hydrology. They share very little, other than each is an attempt to bend
statistics to a mould whose shape was determined by a real hydrological problem. While
some of the applications are admittedly not recent, subsequent advances in hydrology
bave passed by some of the issues. Perhaps the most notable exception is the issue of
regional correlation. But even here modern solutions tend to approach the issue in an
analytical fashion that does not lend itself to an intuitive grasp of the factors controlling
10~s of information due to correlation. However for a11its popularity as a working tool
no one seems to ask fundamental questions about regression analysis as a regionalization
tool or the link between statistical and rainfall : runoff approaches to flood estimation.
The question of a stable dependent variable for statistical analysis and standardization

296
ought to be a “hot topic”.
1 am also aware that the mathematical treatment presented in Section (17.5) is
standard for deriving distributions of maxima for a wide class of generating processes.
Nevertheless it merited a mention here because it had not been applied in the context
of frequent flooding, nor to explore the generality of Langbein’s relationship between
return periods.
The application of which 1 am proudest is that in Section (17.6). The reason is not
the mathematical content; the need to simulate precluded much analysis. It is that it
epitomizes the central point that the issue determines the approach. Also 1 have a feeling
that, by expressing risk in a way that affects the pocket of the exposed group, one may
obtain a more honest than usual appraisal of our tolerance to flooding. While the context
was one of deliberate flooding it may provide salutory insight into protection levels in
more conventional circumstances. Instead of asking “how much would you like society
to spend on protecting you from flooding”, the alternative question could be posed, “how
much would you accept as a one-off payment for society not to protect you from
flooding”.

297
Bibliography

BEARD, R.E., T. PENTIKAINEN, and E. PESONEN (1984) Risk theory : the


stochastic basis of insurance. 3rd ed. Chapman and Hall, London. 408~.
BERAN, M.A. (1987) Financial risk. In V.P.Singh. Hydrologie frequency modeling.
Reidel, Dordrecht. 281~. pp 55-57.
BERAN, M.A. and M. J. NOZDRYN-PLOTNICKI (1977) The estimation of low
return period floods. Hyd Sci Bull 22(3) 275-282.
BERNIER, J.M. (1967 Sur la théorie du renouvellement et son application en
hydrologie. Electricité de France, HYD67, 10.
BERNIER, J.M. (1987 Elements of Bayesian analysis of uncertainty in hydrological
reliability and risk models. In L. Duckstein and E J Plate (eds). Engineering
reliability and risk in water resources. Nijhoff, Dordrecht. pp 405-422.
HOSKING, J.R.M. (1987) Cor-relation and dependence between annual maximum
flood series. Institute of Hydrology, open file report No 9. 39p.
LANGBEIN, W.B. (1949) Annual floods and the partial duration flood series.
Transactions Amer Geophys Union, 30, 879-88 1.
RAWLINGS, J.O. (1976) Order statistics for a special class of unequally correlated
multimormal variates. Biometrics, 32, 875-887.
REED, D.W. and E.J. STEWART (1994) Inter-site and inter-duration dependence on
rainfall extremes. In V. Barnett and K Feridun Turkman. Statistics for the
Environment, 2: Water related issues. Wiley. pp 125-143.
ROYAL SOCIETY STUDY GROUP. (1992) Risk: analysis, perception and
management. Royal Society, London. 201 p.
STEVENS, M. J. (1975) An approximation for general multivariate integrals, using the
density fùnction for equi-correlated variates. Unpublished report, Institute of
Hydrology.
ULMO, J. and J.M BERNIER. (1973) Éléments de décision statistique. Presses
universitaires de France, Paris. 330~.

298

---
18. Total probability methods for
problems in flood frequency estimation

S. Rocky Durrans
Department of Civil and Environmental Engineering
The University of Alabama, Tuscaloosa, Alabama
U.S.A.
Abstract

The theorem of total probability, when applied in concert with deterministic methods of flood routing,
yields an integrated deterministic-stochastic tool which may be employed to salve some difficult
problems in flood frequency estimation. Most notably, the integrated modeling approach cari be
employed for flood frequency estimation at regulated sites, and it cari also be employed to study the
suitabilities of implied structures in schemes that have been proposed for regional flood frequency
analysis. Because the method involves a deterministic comportent, it cari also be used in a predictive,
and even predscriptive, fashion. It is the put-pose of this paper to present the integrated modeling
approacb, and to illustrate its application. N&s and opportunities for additional research are also
identifkd.

RQumC

Le th&xbme des probabilit& totales, lorsqu’on l’applique de concert’des mathodes d6terministes de


transfert de crues, donne un outil intkgr6 d6terministe et stochastique qui peut étre employ6 pour
rbsoudre quelques problémes difficiles pour l’estimation des fn?quences de crues. Plus
particulibrement, l’approche de modt5lisation intCg& peut être employ& pour l’estimation des
f%quences de cmea sur des sites r@ul& et elle peut Ure aussi appliqut?e pour &udier I’ad6quation des
structures impliqu6es dans les schbmas propos& pour l’analyse rbgionale des frQuences de crues.
Puisque la m&hode cornprt& une composante dkterministe, elle peut aussi are utiliske sous un mode
prtiictif et m&me prescriptif. L’objectif de ce papier est de prbsenter l’approche de modélisation
intCgr& et d’en ilhrstrer l’application. Les besoins et les pistes de recherches additionelles sont aussi
indentif%s.

18.1 Introduction

18.1.1 General

It is a great pleasure and honor for me to have had the opportunity to visit Paris for the
purpose of attending and presenting my work at the Tntemational Conference on Statistical and
Bayesian Methods in Hydrology, which conference was held in honor of Professor Jacques
Bemier. 1 fïrst met Professor Bernier at the conference which was held at the University of

299
11 I I I l I I I l
1900 1910 1920 1930 1940 1950 1960 1970 1980
YEAR

Figure 18.1 fiktoricd trend in aruruul V.S. losses (1983 dollars) due tojbod damage
Source: Nationul Weatlrer Service

Waterloo in Ontario, Canada,in the summerof 1993, and 1 have corne to know several of bis
colleaguesand fîiends (most notably the group at INRS-Eau in Québec City) rather well since
that time. Unfortunately, however, 1 have not had the opportunity to collaborate Jirectly with
Prof. Bemier himself. 1 am certainly aware of his signifïcant contributions to statistical
hydrology, and especially to Bayesian methods, and 1 am greatly impressed by bath their
quality and by their depth and breadth. It is my hope that the work presented in the following
pages W ill be interpreted as being logically connected to Prof. Bemier’s efforts (through the
well-known and fundamental connection between the theorem of total probability and Bayes’
theorem ). It is the intent of this presentation to establish and lay down the framework for an
integrateddeterm inistic-stochasticapproachto flood frequency analysis, with the hope that the
inclusion of a determ insticcomportentin a problem which has historically been treated usually
in only a statistical way W ill increase the credibility of flood quantile estimates deriving
therefrom .
The problem of estimation of the magnitudes and corresponding probabilities of floods
is one of considerable importance. Despite efforts to control the effects of floods by means
of bath structural and nonstructuralmeasures,statisticson their effects in the U.S. demonstrate
that they are exacting a continually increasingeconomicand flnancial drain on society. Figure
18.1 shows the historical trend in annual U.S. lossesdue to flood damage, and indicates that
over the time period from 1900 to 1980 annual damageshave increased by over an order of
magnitude. Hoyt and Langbein (1955) have suggestedthat the lion’s share of the increase is
due to increasedproperty values, as well as the continued development of flood-prone lands.
Improved flood loss reporting, as well as possible climatic changes, may have some effect as
well. The cost of flooding in terms of loss of life is also of significant concem. When
compared to the population-adjusted death rates caused by three other natural hazards
(lightning, tomadoes, and tropical cyclones), that due to flooding has shown that little real
progressbas been made. Figure 18.2 demonstratesthat death rates in the U.S. due to the three
compared lnuards bave either dropped dramatically or remained nearly constant over time
whereasthat due to flooding appearsto be slightly increasing. Other effects of flooding relate

300
2.8 r

2.6 R
\
3, Lighlnmg
2.4
0
i= 2.2
a i \

01 l I I I I l 1
1941 1946 1951 1956 1961 1966 1971 1976
to 10 10 10 10 10 10 to
1945 1950 1955 1960 1965 1970 1975 1980

Figure 18.2 Population-a&sted deatll rates in the V.S. from four stom irazardr
Source: National Chatic Data Center

to riparian ecosystems and geological processes. The nutrients in sediments which are
naturally deposited by floods are essential for biological production and habitat regeneration
in the riparian zone. The selective degradation and aggradation of river reaches has far-
reaching effects in terms of changes to landforms and river meander pattems.
As already noted, the objective of this paper is to present an integrated deterministic-
stochasticapproachwhich has been devisedas a consistent framework for approaching various
problems in flood frequency analysis. A key component of the approach consists of an
application of the theorem of total probability, which is a comerstone of Bayesian theory The
motivation behind the development of this framework is that of providing a consistent and
physically meaningful basis for flood frequency estimation.

18.2 Total probability applications

The theorem of total probability is an elementary result of an application of the classical


axioms of probability (Stuart and Ord, 1987) to a set of mutually eurlusive and collectively
exhaustiveevents. Despite the intrinsic merit of the theorem, however, some would argue that
little has corne of it. This is evidently due to the difficulty, in some applications, of evaluation
of both the mixture coefficients (the probabilities of the collectively exhaustive and mutually
exclusive events) and the conditional probability distributions in an objective and meaningful
way.
Within the field of flood frequencyanalysis, there have been several types of applications
of the total probability idea. By far the most common of these is that in which flood events
are viewed as arising from differing causal mechanisms. That is, flood events are viewed as
being causedby rainfall events, or by snowmelt, or by other similar effects. Mixture models

301
are built as a weighted combination of probability distributions, each of which is descriptive
of flood events arising from a single causative mechanism. Examples of this application are
widespread,examplesof which are given by Hazen (1930), Singh and Sinclair (1972), Waylen
and Woo (1982), Jarrett and Costa (1982), Hirschboeck (1985,1986), and Diehl and Potter
(1986).
Another widespreadapplication of mixture modelsto flood frequency analysis arises when
one must consider ephemeral streams, where there is a finite probability that an annual
streamflow maximum Will be equal to zero. In such casesthe mixture mode1Will consist of
a combination of both a discrete probability distribution (to represent the single spike of
probability massat zero), and at least one continuous distribution to represent the probability
density for peak discharges greater than zero. Examples of this application are given by
Jennings and Benson (1969) and Haan (1977).
A third area in which total probability ideas have been applied in flood frequency analysis
is that in which they are embeddedin applicationsof Bayesiantheory. This type of application
is not nearly as widespread as the others that have been mentioned above, primarily because
of the generalinability to objectively specify a prior distribution. An area in which there has
been some work done, however, is that of developing bias correctors for estimators of the
coefficient of skewness. Lall and Beard (1982) and Durrans (1994) are two examples of this.
In this paper it is intended to demonstrate how the theorem of total probability cari be
coupled with deterministic simulation tools to develop consistent and physically meaningful
solutions to two classesof problems in flood analysis. The flrst problem lypc considcred is
that of development of flood frequency curves for regulated sites, such as cioLvIlstrcarnof
dams. The second application concems the regionalization of flood frequency information.

18.1.3 Outline of paper

Methods of estimating flood frequencies have a long history which dates to at least the early
part of the 20th Century. Section 18.2 of this paper provides a very brief summary of the
various types of methodsthat have been developed, and also contains a detailed discussion of
some of the fundamental statistical properties of regulated flood peaks. The formal
developmentof an integrated deterministic-stochastic approach to flood frequency analysis is
presented in Section 18.3, as is an application of the method for the development of a
regulated flood frequency curve. Section 18.4 presents remarks on the way in which the
integratedapproachmay be applied to regionalize flood frequency information. In particular,
it is shown how it may be employed to validate (or invalidate) the very rigid and rather ad hoc
assumptionsthat are intrinsic to current regionalization schemes,most notably the index flood
method. Conclusionsand additional research needs are presentedin the closing Section 18.5
of this paper.

18.2 Flood Frequency Analysis

18.2.1 Overview

Flood frequencyanalysisinvolves the estimation of exceedanceprobabilities corresponding to


flood peaksof various magnitudes,or vice-versa. Data used to support the estimation process
usually consistof the maximum instantaneousdischarge rates from each water year of record
(an annual series), which is sometimes approximated by the annual maximum average daily
discharge. Other data types of interest may consist of flood volumes, maximum stages, or of

302
a11flood discharge peaks which are greater than some threshold. The peaks-over-threshold
(POT), or partial duration series, approachis basedon the recognition that the second- or even
third-largest peaks in some years may be greater than the largest peaks in other years. The
brief reviews presentedin the following Sections 18.2.2 and 18.2.3, as well as the techniques
that are presentedlater in Sections 18.3 and 18.4, relate to the annual series approach, though
the modeling approachcould be applied to distributions developed from partial duration series.

18.2.2 Statistical methods

Early approachesto flood frequency analysiswere all statistical in nature. That is to say, they
involved the fitting of a probability distribution to an observed series of flood peak data.
Statistical methods of flood frequency analysis cari be classified into at-site estimation
techniquesand into regionahzationtechniques. They cari also be classified as to whether they
are parametricor nonparametric. The discussionsin the bulk of this paper are focused on the
problem of at-site estimation; a discussion of issuesassociatedwith regionalization is delayed
until Section 18.4.
The parametric approach to statistical flood frequency estimation is the classical one and
is undoubtedly the most widely applied. In this approach, one must Select a probability
distribution for modeling of the data, and one must also choose a procedure for estimation of
the pamrnetersof the distribution. Integration of the fïtted density may then be accomplished
to estimate the various quantiles of interest.
The need to Selectboth a distribution and a parameter estimation method in parametric
methodsof flood frequency analysis leads to a certain amount of subjectivity in the resulting
quantile estimates. In the tails in particular, where little if any data are available, the choice
of one probability mode1over another cari have a significant impact on the resulting quantile
estimates. Most models perform quite compambly to one another in their mid-ranges, and this
tends to make it very diffïcult to discriminate one from another. The concept of robustness
(Kuczera, 1982) is a way in which some of these selection difficulties may be overcome, but
a demonstrationof robustnesscari often involve a time-consumingand costly simulation study.
An application of a pasametricmethod of flood frequency analysis involves making some
assumptionspertaining to the statistical properties of the data being described. In particular,
the data should be random, independent, homogeneous, and stationary. A number of tests
have been presentedin the literature for judging the quality of data in terms of these attributes.
A description of a number of these tests are provided by Kite (1977); Loucks, Stedinger and
Haith (1981); and Bob& and Ashkar (1991).
Even before the widespreaduse of parametric methods of flood frequency analysis, there
was a good deal of use of’nonparametric methods. The early nonparamehic approaches
involved primarily the use of plotting position formulas and probability paper, followed by the
sketching of a frequency curve to smooth the trend of the data. The subjectivity of the
sketching, as well as the diffrculty of extrapolating a sketched curve, are what ultimately led
to the demise of this method, and it was replaced by the more objective methods involving
estimation of the parameters of a parametric distribution.
As noted in the previous subsection,however, the parametric approach to flood frequency
estimationis not entirely objective either. A measureof subjectivity is introduced by the need
to choose the distribution and estimation method. Partly because of the difficulties and
uncertaintiesthat are inherent to these choices, but also becauseof the growing belief that no
one parametric distribution is adequateto represent all cases(or even the full range of flood
values at a single site), there has been a surge of interest in the past decade on nonparametric

303
‘methodsof density estimation (Adamowski, 1985). These methods of density estimation are
typically basedon a superposition, or convolution, of kemel functions, and cari provide very
good fits to observed data samples, though they do experience problems when one must
extrapolate beyond the range of the data sample.
The nonparametric approach to estimation, like the parametric one, also requires that
somechoicesbe made. First one must choosea kemel type that is desired to be used, and one
must then decide on how best to estimate the kemel bandwidth. These problems are directly
analogousto the choicesthat must be made in the parametric approach, but Silverman (1986)
bas indicated that there is really very little to choose between the various kemels, at least on
the basisof the integratedmean squareerror. Adamowski and Feluch (1990) have considered
the use of a skewed kemel (the Gumbel kemel) in an attempt to reduce the bias of quantile
estimatesin extrapolation, but found that little was to be gained by this. Moon and Lall (1994)
have adopted a different approach, and have employed SO-calledkemel quantile estimators.
Estimation of the kemel bandwidth-in nonparametric density estimation has usually been
accomplishedby minimizing the integratedmean square error (IMSE) ofthe density estimator
over the full range of the ‘distribution. It is argued here that one should instead focus on
minimization of either the mean square et-roc(MSE) or the bias of estimators for particular
quantiles. This, of course, is motivated by the observation that the interest in flood analysis
is the prediction of quantiles, not density functions, and the fact that minimization of the IMSE
does not imply that MSEs and/or biases of quantile estimators are also minimized.
A signifïcant aspect of nonparametric methods of density estimation when compared to
parametric methods is that the observations do not necessarily need to be homogencous.
Because of the flexibility that is inherent to kemel-based estimators, they cari exhibit the
unusual, and sometimes multimodal, density shapesthat arise when mixtures of populations
are’present. With respect to the qualities of randomness, independence, and stationarity,
however, nonparametric methods are subject to the same limitations as are parametric
methods.
An additional advantage of nonparametric estimators arises when one must consider
multivariate modeling. In flood frequency analysis, this would occur if one were interested
in both flood peaks and volumes simultaneously. Parametric modeling using multivariate
densitiesis tractableonly in the few caseswhere multivariate distributions are known, or when
the variablesare statisticallyindependentof one another. The multivariate normal distribution
bas been widely used, but it cari be very difficult to put multivariate flood data into this form,
even through the use of normalizing transformations, and this has become a major stumbling
block in attempts to mode1 more than one random variable at a time. Multivariate kemel-
baseddensity estimators,like their univariate counterparts, are very flexible and cari describe
the joint behavior of variables in a nonrestrictive way. Some applications are described by
Lall and Bosworth (1994) and Silverman (1986). Silverman also indicates that kemel-based
multivariate densities cari be estimated with much less data than cari multivariate histograms
or other characterizations of the joint behavior; this is particularly attractive in hydrologie
applications where there is often a paucity of data available.

18.2.3 Runoff modeling methods

The runoff modeling approach to flood frequency estimation has developed primarily as a
consequenceof the continueddevelopmentof computers and hydrologie simulation codes. TO
some degree, however, estimatesof flood quantiles were available through the use of runoff
models long before these modem accomplishments. A case in point is that of the use of the

304
rational method for peak runoff estimation. A fundamental assumption in that case is that the
rainfall and nmoff rates have the same frequency of occurrence. It is known that this is not
generally truc, but the mtional method continuesto be one of the most widely applied methods
in day-to-day engineering practice.
Analytical solutions for the derivation of flood frequency distributions from rainfall
distributions have also been applied. Eagleson(1972) was the pioneer in this area. A number
of other investigatorshave followed this path, but Moughamian, McLaughlin and Bras (1987)
have concludedthat these methods do not perform very well. They suggest that fundamental
improvements are needed before any confidence cari be assignedto these methods.
Rainfall-runoff simulation models may be classifïed as being either event-based or
continuous. For the purposeof simulating flood frequency relationships, however, models of
the continuous type are the most widely applied. This is due to the diffculty in practice of
specifying appropriate antecedentconditions for event-basedmodels. Inputs to continuous
simulation models may consist of historical records if they are available and of sufficient
length, but they are probably more frequently obtained as the output of stochastic simulation
models. Peaks in the continuous streamflow hydrograph which are generatedby the runoff
simulation mode1are subjectedto statisticalanalysesas describedin Section 18.2.2. Examples
of this approach are provided by Bras et al. (1985); and Franz, Kraeger and Linsley (1986).
An attractive aspect of the runoff modeling approach to flood frequency estimation, like
other approaches such as those afforded by the geomorphic instantaneousunit hydrograph
(Rodrfguez-Rurbeand Valdes, 1979), is that it representsan attempt to understand and mimic
the physical processesthat are important in the transformationof rainfall to runoff. It has bcen
suggestedby the National ResearchCouncil (NRC, 1988, p. 56) that runoff models might be
useful for regionalization of flood frequency behavior, the thought being that differences in
flood frequency curves from one site to another are due only to differences in the catchments,
and not in the meteorology. That is, if meteorological variables could be regionalized, then
runoff models could be used to account for the runoff response differences due to the
catchment properties.
The goal of obtaining flood frequency estimates which are physically based is certainly
a laudable one, but it appears as though the runoff modeling approach is simply unable to
achieve the desired performance. The complexity of the runoff generation processes,
combined with the spatial and temporal heterogeneitiesand variabilities in the forcing and
catchmentsystemvariables, conspire to yield a runoff responsebehavior which is beyond the
abilities of models to reproduce. Indeed, when flood frequency curves developed using
rainfall-runoff models are compared with those based on actual historical data, the
inadequaciesof models becomequite apparent. Figures 18.3 and 18.4 present results obtained
by Thomas (1982) and Muzik (1994), and demonstrate that distributions generated from the
outptit of rainfall-runoff models display a variante that is smaller than that exhibited by
historical data. Thomas referred to this as a “10s~of variante” problem; it is analogous to a
s’imilarproblem in time seriessynthesisand forecasting where highs and lows are consistently
under- and over-predicted.
Given the problems with runoff modeling and derived distribution methods that have been
highlighted above, and the objective of the present work to develop a physically meaningful
approach to some problems in flood frequency analysis, one is left to question what is being
offered here that would surmount the diffïculties discussed. The answer lies in the use of the
derived distribution concept, but to derive flood frequency curves from other flood frequency
curves rather than from precipitation frequency curves. The physical linkage between the
streamflow discharges at different points along a river or stream is much better understood,

305
Figure 18.3 Observed and simulated (Qhetic)fiood frequency curves
Source: Thomas (1982)

1.003 1.05 1.25 2 5 10 50 100 500


RECURRENCE INTERVAL (years)

Figure 18.4 Comparison of observed and syntheticfloodfrequency curves for tlle Link Red Deer River
Source: hfuzik (1994)

and is subjectto much less intrinsic variability due to antecedentconditions and the like, than
is the linkage between precipitation and the resulting storm runoff. In other words, the
transformationof dischargefrom one site to anotheralong a stream is much more determ inistic

306
than is the transformation from rainfall to runoff, at least in terms of our current abilities to
describetheseprocesses. Early work by Laurenson (1973,1974) along the same lines as that
presented here demonstratesthe promise of this ides.

18.2.4 Effects of regulation

Whereasone of the applicationsof the total probability methodsthat are presentedin this paper
is directed to the determination of flood frequency curves at locations downstream of
regulating structures, it is appropriate before proceeding to review some of the statistical
characteristics of regulated flood peak sequences. Of particular interest are the qualities of
randomness, independence, homogeneity, and stationarity. The observations that are made
with respectto thesequalities are employed in Section 18.3 to develop a modeling framework
which is consistent with them.
The first quality of concem is that of randomness. In a hydrologie context, it is generally
acceptedthat randomnessmeansessentiallythat the fluctuations of the variable of interest arise
from natural causes. It is therefore generally considered by hydrologists that flood flows
which have been appreciablyaltered by the operation of a regulating structure are not random.
It is argued here, however, that this is not truc. Becauseflood events occur randomly in time
(even though they tend to occur in particular seasons), and because of the randomness
associated with the stage (and other conditions) of a regulating reservoir when flood events
occur (due to the randomnessof antecedentconditions), the regulated flood events downstream
of the regulating structure must also be random. This is truc becausea function of a random
variable is also a random variable, and it must be truc even if the reservoir were operated in
exactly the same way every time a flood event occurred (which is not very likely).
The property of independence, in the context of the at-site approach to flood frequency
analysis, relates to whether the annual flood event in year t has any predictive ability with
respect to flood events in years t+ 1, t+2, and SOon. That is, it refers to the lack of serial
cor-relation. In regional analyses,the effects of spatial cor-relation must be considered as well.
It is generally true in flood frequency analysis, especially when annual as opposed to partial
duration seriesare being modeled, that sequential flood events are independent of one another
in time. Exceptions to this may occur in caseswhere this is a significant amount of storage
present upstream of the location of interest. Lye (persona1 communication, 1993) has
considered such problems for Canadian rivers. It is assumedin the sequel that annual flood
events cari be considered to be independent of one another; additional work is needed to
generalize the results that are presented.
Becauseof the effect of initial reservoir conditions when flood events occur, as well as
the effects of operating the reservoir in different ways, regulated flood events cannot be
consideredto be homogeneous. That is, regulatedflood peaks derive from different population
distributions, which may be indexed by the initial and boundary conditions pertinent to the
reservoir when flood events occur. A graphical depiction of this is provided by figure 18.5,
which shows conditional regulated flood frequency distributions downstream of a reservoir.
That figure was generatedfor the samehypotheticalreservoir discussedin Section 18.3.3 using
a Monte Carlo procedure. The dotted curve represents the unregulated flood frequency
distribution upstream of the regulating facility, and the solid curves show some of the
conditional distributions that result. The first of the two numbers shown for each conditional
distribution representsthe (dimensionless)initial stage of the reservoir (0 = empty, 1 = full),
and the second represents the (dimensionless) outlet gate opening amount (0 = closed, 1 =
fully open). It bas been assumedthat the gate opening amount is held constant throughout the

307

~._ .“. -. ..
95 90 80

Exceedance probability, percent


Figure 18.5 Unregulated (dotted curve) and conditional regulated (solid curves) flood freqrretlcy
distributions bared on sinrulation of a hypothetical reset-voir

duration of the flood event; this would be true for an unattended reservoir. In other words,
the curve with the label (0.9;O) representsthe regulatedflood frequency distribution that would
arise if, every time a flood event were to occur, the reservoir had an initial dimensionless stage
of 0.9 and a zero outlet gate opening amount. Of course, real reservoirs, because of the
effects of antecedentconditions and operating policies, have initial and boundary conditions
(gate openings) that vary from one time to another. For any possible combination of initial
and boundary conditions, there is a regulated flood frequency distribution that is conditional
on that combination.
It is clearly evident in figure 18.5 that the population distribution from which a regulated
flood event derives is very much dependent on the conditions of the reservoir when the flood
event occurs. This observation is the basis for the use of the total probability theorem in the
integrateddeterm inistic-stochasticapproach presented in Section 18.3.2. A point which may
also be noted from figure 18.5, however, is that it tends to yield rather nonsensicalresults on
the left-hand-sideof the diagram ; i.e. when the exceedanceprobability is large. In particular,
it indicates flood magnitudes of zero over considerable portions of some of the conditional
distributions, pa.rticularly those in which the initial reservoir stage is considerably below the
crest of the emergency spillway. This behavior is apparent because the Monte Carlo
simulation was accomplished in an event-basedrather than continuous manner. The results
make sense from a conservation of mass viewpoint, but they do not make sense from a
flooding viewpoint. This is true becauseeven low-flow releasesmade during the year would
be greater than zero.
Regardlessof the behavior of the left-hand-side of figure 18.5, the right-hand-side does
make senseand it is in that region that one is primarily interested anyway. The problems in
the’left-hand-side are therefore not believed to be of any significant concem, and this is
reinforced by the fact that the nonsensicalresults arise only when the initial reservoir stage is

308
very low. Since the likelihood of this occurring in real reservoirs is usually very small, except
perhapsin extremely arid regions, the limitations are not believed to be of too much concem.
The net consequence of ail of this is that there Will be an implicit assumption in the
developments to follow that annual floods upstream of the regulating reservoir cause annual
floods downstream of the regulating reservoir. This is certainly true for the most extreme
events, and such is evident in figure 18.5. A POT, or partial duration series, approach to the
problem may be able to be applied to lift this assumption, and future work should address this
possibility.
The final statisticalcharacteristicof interest is that of stationarity. In the present context,
flood sequencesWill be taken to be stationary if the reservoir operating policy is stable. A
stableoperating policy, according to Loucks et al. (1981), is one in which the operating rules
are consistent from one year to the next, even though there are within-year variations due to
the annual streamflow cycle. Nonstationaryregulatedflood peak sequencesarise when a stable
operatingpolicy is not in effet; i.e., when there have been changes made in the way in which
the reservoir is operated.
In summary, regulatedflood sequencesmay be considered to be random but they are not
homogeneous. Whether they are independent or stationary dcpends on the circumstances of
individual cases. For the purpose of this presentation, however, it Will be assumedthat they
are both independentandstationary. The issue of independenceis an area in which additional
work is needed. Where flood sequencesare nonstationarydue to operational changes, the total
flood sequenceshould be subdivided into subsequenceswhich are intemally stntinnary. This
cari be accomplished on the basis of recorded changes in the operating policy.

18.3 Frequency estimation for regulated sites

18.3.1 Overview

Section 18.2.4 provided an exposé of the fundamental statistical characteristics of regulated


flood peak sequences. It is the purpose of the next Section 18.3.2 to present a generalized
flood frequency modeling framework that is consistent with those characteristics, and which
preservesthe physical linkage that must exist betweenflood frequency relationships at different
locations along a stream. Section 18.3.3 then provides a detailed example of an application
of the developed method, and Section 18.3.4 discussesSO~Cof its inherent attributes.
The same integrated deterministic-stochastic modeling framework that is presented in
Section 18.3.2 for treatment of regulated flood frequency problems cari also be applied for
problems in regionalization. Discourse on this latter application area is contained in Section
18.4.

18.3.2 Integrated modeling framework

There are a number of previous investigators who have presented methods for estimation of
regulatedflood fîequency relationships. What is believed to be a fairly comprehensive list is
Langbein (1958); Laurenson (1973,1974); Sanders et al. (1990), and Bradley and Potter
(1992). Al1 of these approaches have involved the theorem of total probability, though in
different sorts of ways. Other methodswhich may be used for regulated frequency estimation
derive from the theory of storage (Moran, 1959), as well as from the application of various
types of mathematical programming techniques (Loucks et al., 1981). These latter methods
yield the probability distributions of releasevolumes instead of peaks,‘however, and they are

309

-
~- ---
therefore not as useful as methodsthat cari yield the distribution of peaks directly. The method
presented by Bradley and Potter (1992) is also fundamentally based on modeling of flood
volumes, and obtains peakson the basisof an observedrelationship between the two variables.
As the title of this paper suggests, the theorem of total probability is also used here to
permit the modeling of regulatedflood frequency behavior. The approach used here is rather
unique in comparison with the previous approaches,however, and it tends to emphasize the
physical propertiesof the regulating reservoir that are important determinants of the regulated
flood frequencybehavior. An introduction to thesephysical effects, and the way in which they
induce heterogeneity into regulated flood sequences,was presentedin Section 18..2.4.
In addition to the theorem of total probability (the stochastic component), the integrated
modeling approach presented here also involves a deterministic component. It is becauseof
the presence of this deterministic component, of course, that the modeling approach enjoys
some physical meaning, and it is also becauseof this component that the physical linkages
between flood frequency relationships are able to be preserved. In application, the
deterministic component amounts to no more than a hydrologie (or hydraulic) routing
algorithm.
The framework and example presentedin this and the subsequentsection are intended to
establish the regulated flood frequency relationship immediately downstream of a regulating
reservoir, basedon knowledge of the unregulatedflood frequency relationship upstream of the
reservoir. If the flood frequency relationship is needed some distance downstrcam of the
regulating reservoir, then the techniquespresentedin this section must be combincd with those
presented in Section 18.4. As already noted, there are also several assumptions that are
intrinsic to the framework that is presented. Recapping, these assumptionsare:

(1) regulated annual floods downstream of a dam are causedby the unregulated annual
floods occurring upstream of the dam;
(2) regulated floods are independent events; and
(3) the reservoir operating policy is stable.

Because of the need to route flood hydrographs through the regulating reservoir, which
involves volume as well as peak dischargeconsiderations,it is necessaryto treat flood analysis
in this work in a multivariate way. This need also arises becauseof the several different but
interrelated variables that must be considered in order to quantify the initial and boundary
conditions pertinent to the reservoir itself. Becauseof the need to work with multivariate
distributions, and becauseof the complications and inadequaciesthat arise with multivariate
normal modeling, the use of nonparametric methods is believed to be called for.
In the following, let x = [xi x, .-lT denote a random vector of unregulated flood
characteristics. Also let y = bl yZ -.]r denote a corresponding random vector of regulated
flood characteristics. The individual elements ‘ii and yi of these vectors represent the
instantaneouspeak flow, the flood volume, and possibly other but more difficult to quantify
hydrograph characteristics such as hydrograph shape (multi-peakedness, etc.). Defme FAX)
= Pr(X, <x,, X*<x*, -*) as the joint distribution function of the unregulated flood
characteristics, and define F,,(y) analogously as the desired unconditional joint distribution
function of regulated flood characteristics. In actuality, F’Jy) is dependenton the operating
policy that is in effect for the reservoir, but as long as the operating policy is stable that
distribution may be viewed as an unconditional one.
The random vectors x and y pertain to the flood variables of interest. TO account for the
reservoir, one also needs to introduce a random vector A = [A1 A2 -.]’ and corresponding

310
density yA(l) of initial and boundary conditions relevant to the reservoir. The individual
elements li of this vector represent the initial reservoir stage (at the beginning of a flood
event), outlet gate opening amounts, and possibly other variables as well such as the rate of
change of outlet gate openings during the passageof a flood event.
It is necessaryin applications to quantify the distributions of the random vectors x and A,
and to judge whether they are correlated with one another. That is, one is required to develop
estimators for F.&) and fA(L) as well as the ‘correlation matrix between x and 1. If the
correlations are judged to be suffrciently large that a hypothesis of independencecannot be
supported, then one should develop an estimator for the joint distribution of x and A, which
Will be denoted as F,(x,l).
The deterministic component of the integrated procedure involves routing of flood
hydrographs through the regulating reservoir to develop a distribution function F,,,,,QlA) of
regulated flood characteristics conditioned on a particular combination A of reservoir
conditions. This deterministic component of the procedure cari be summarized in a general
form as

&&l~) = WXWI (18.la)

for the case where x and A are independent, or as

FY,*cylv= GVL(~, 91 (18.lb)

for the casewhere x and A are correlated. In theseexpressions,G, and G, are functions which
map the unregulated flood frequency relationship into a conditional regulated one. Actual
performanceof this mapping must be accomplished using a Monte Carlo method. It is clear
from theseexpressionsthat the conditional regulated flood frequency distribution is a derived
distribution, but that it has been derived from another flood distribution rather than from a
rainfall distribution as is done by Eagleson (1972) and others.
The theorem of total probability permits determination of the unconditional distribution
F,(y) of regulated flood characteristics as
c
w9 = FY,AYlwL(oQ (18.2)
I
where the integration is performed over the complete space of feasible reservoir conditions.
A discrete analogue of this application of total probability may be written in the form

fXY) = aIF,@) -t- azF2Cy)+ ... + a.F,,(y) (18.3)

where {ai) is a set of weighting factors that sum to unity, and where ~ioI> may be regarded as
a component distribution. In other words, a; is the probability of the reservoir conditions
being in the i-th of a total of n discrete states, and Fio) is the conditional regulated flood
distribution corresponding to that reset-voir state.
The dimensionalitiesof the vectors x, y and I is an issue that is certainly of some concem
in applications. Clearly, the smaller are these dimensionalities, the easier Will it be to
determine the regulated flood frequency relationship. However, the unjustifkd use of
dimensionalities that are too small Will obscure some of the important physical determinants
of the regulatedflood frequency behavior and Will lead to a result which may not accord with
reality. It is suggestedthat the minimum dimension of the vectors x and y be equal to 2, with

311
the elements representing the instantaneouspeak and the flood volume. With respect to the
reservoir conditions, the required dimensionalityof the vector I Will depend on the particulars
of each application. In the case of a reservoir with an uncontrolled outlet, only the initial
reservoir stage would need to be considered. In the case of a reservoir with a controllable
outlet, but in which the outlet gate settings are not adjusted during the passageof a flood (an
unattended reservoir), two dimensions.would be necessary (see the discussion in Section
18.2.4). More complex reservoirs with multiple outlets and in which gate settings may be
modifîed during the passageof a flood Will require correspondingly greater dimensionalities
in the vector 1. A goal in practice should be to make the vector dimensionalities as small as
possible for computational reasons without adversely affecting the net result. This cari be
accomplishedin an iterative way by successivelyadding to the dimensionalities of the vectors
and checking to seewhether the derived unconditional flood distribution appreciably changes,

18.3.3 Example application

An example application of the integrated modeling framework to develop a regulated flood


frequency curve downstream of a hypothetical reservoir is illustrated in this section. For
simplicity of presentation, the reservoir is assumedto have a controllable outlet gate, but the
gate settings are not modified during the passageof flood events; that is, the reservoir is an
unattendedone. It is also assumedin this example that the vectors x and A are independent.
It is not the intent of this section to solve an actual real-world r:oblem, but ratfli:r to
demonstratehow the proceduremay in fact be implemented, and to illustrate the various types
of information that are required. The overall procedure is presented in a number of
subsections,each of which de& with a specific aspect of the problem.

(i) Marginal distribution of unregulatedjlood peaks

It may be observed that the integrated deterministic-stochastic framework permitting the


estimation of regulated flood frequency curves that was described in Section 18.3.2 is
nonparametricin nature. That is, there are no assumptionsmade with respect to the forms of
either the unregulatedor regulatedflood frequencydistributions, nor are there any assumptions
made as to the form of the distribution of reservoir conditions. For the purpose of this
illustrative example, however, it is assumedthat the marginal distribution of unregulated flood
peaks is the Gumbel, or extreme value Type 1 (EVl) distribution. This assumption is an
expedient only, as it is a simple matter to draw random samples from that distribution using
methods of simulation. The EV1 distribution is also widely regarded as being reasonably
flood-like.
Denoting unregulated annuel flood peaks by the random variable X,, and expressing the
EV1 distribution function in inverse form, i.e. as a quantile function, one cari generate
synthetic unregulated flood peaks for simulation purposes as

Xl = rn - Q In(-ln u) (18.4)

where u is a uniformly distributed random variable on the interval (0,l) and a and m,
respectively, are scale and location parametersof the EV1 distribution.
In the present example, E(X,) = 300 m3S’and the coefficient of variation of X, is 0.3.
The parametersa and M in equation (18.4) are therefore equal to 70.2 and 260, respectively.
Theseassumptionsmake the probability of generationof negativevalues of x, extremely small.

312
Negative values, if and when generated in the simulations, were discarded and replaced by a
subsequently generated positive value.
In mal-world applications, estimation of the unregulatedflood frequency distribution must
be accomplished using streamflow data observed upstream of the reservoir. If a gaging site
is some distanceupstream of the reservoir, then the procedures discussedin Section 18.4 cari
be employed. In other cases, it may be possible to use data for the reservoir itself, such as
stagesand releases,to derive the reservoir inflow hydrograph and hence the unregulated flood
frequency distribution as well.

(ii) Conditional distriblttion of unregulatedjlood volumes

Denote the random variable representativeof unregulated flood volumes by X,, and condition
the distribution of flood volumes on the magnitude of flood peaks. Rogers (1980,1982),
Rogersand Zia (1982), Mimikou (1983), and Singh and Aminian (1986) have concluded that
a relationship between flood peaks and volumes cari be expressedby

h21, (Qpm = b + r log,, V (18.5)

where Qp = x,/A is the peak discharge rate per unit area, V = x,/A is the runoff volume per
unit area, and A is the area of the drainagebasin. Singh and Aminian (1986) considered x, and
x, as the peak and volume of the direct runoff hydrograph. Base flow needs to be ndded
separately, and has been assumed to be a constant 20 rn’s-’in this illustrative example.
Equation (18.5) was originally established by means of a linear regression of log(Q,,#)
on log V. Bradley and Potter (1992) have also used simulation and the nonparametric
LOWESS smoother (Cleveland, 1979) to develop a relationship between flood peak and
volume. The intent of these previous studies has been to predict flood peaks from flood
volumes. In the present example it is intended to do the opposite; that is, it is intended to
predict flood volumes from flood peaks. Becauseof the analytic form of equation (18.5), as
well as the desire to keep the example relatively simple, that expressionWill be employed here.
Shictly speaking, a relationship developed by regressing a variable y on another variable
x should not be inverted to develop a predictor for x as a function of y. This is SObecause
there is not in general a “reverse causality”, and also becausethe parametcrs in the functional
relationship Will in general be different for the inverse relationship than for the forward one.
Equation (18.5), however, does not imply a causal relationship (flood peaks are not causedby
flood volumes); it is simply the consequenceof an empirical observation. The linearity of the
logarithmic plot of the data would have been present regardless of which of the variables had
been taken as the predictor. It is for this reason that it is assumedhere that equation (18.5)
cari be ïnverted and rearranged, and that the resulting expression given as follows cari be
interpreted as the expected value of log,, Vgiven log,, Qp:

al%lo v) = c(lcgY = (log,, Q, - W(r + 2)

It is also assumed for the present example that the conditional distribution of log,, V given
log,, Qp is normal with a standarddeviation of ab, v = 0.1, that the drainage basin has an area
ofA = 1300 km’, and that the values of the parameters in equation (18.6) are b -= -1.75 and
r = -1. These values, basedon the work of Singh and Aminian (1986), are reasonable, even
though their original relationship has been inverted.

313
Under the foregoing assumptions, an unregulated flood volume x1 may be generated for
simulation pur-posesas

x2 = A antilog(p, V + tar, J (18.7)

where z is a standard normal variate with zero mean and unit variante. Note that becauseof
the log transformation, it is not possible to generate negative flood volumes using this
relationship.
The unregulatedflood peaksx1 and flood volumes x2 determined based on the procedures
discussed in this and the previous subsection are used in this example to quantify reservoir
inflow hydrographs. For pur-posesof illustration, some rather analytical expressions have been
used for thesevariables, but this should not be construed to imply that the assumptions made
to achieve those expressions are necessary. In actual applications, it may be preferable to
mode1 the joint distribution of xi and x2 using nonparametric multivariate kemel methods.
Silverman (1986) and Lall and Bosworth (1994) provide examples of this technique.

(iii) Reservoir inflow hydrographs

Basedon the values of x, and x2 generatedas described in the previous subsections, one must
construct a synthetic direct runoff hydrograph. This hydrograph, when combined with the
base flow, may then be routed through the reservoir to obtain the outflow hydrograph
properties. Naturally, the outflow hydrograph properties Will be conditional, based on the
initial and boundary conditions pertaining to the reservoir.
As an expedient, the U.S. Soi1 Conservation Service (SCS) dimension& triangular
l:\Pdrograph (SCS, 1969) is used in this example as a standard shape to represent the direct
runoff component of the reservoir inflow hydrograph. The triangular hydrograph is
characterizedby linear rising and recedinglimbs, with a hydrograph base time Tb equal to 2.67
times the time to peak TP. Since the peak of the direct runoff hydrograph is equal to x,, and
since the volume of the direct runoff hydrograph must be equal to x2, the direct runoff
hydrograph base time is Tb = 2x2/x, and its time to peak is TP = 3x2/4x,.
Use of the SCS triangular hydrograph in this way implies that flood hydrographs Will
always have only a single peak. Should it be desired to permit the possibility of multiple
peaks, a greater dimensionality would need to be considered for the random vector x.

(iv) Reset-voirinitial and boundary conditions

The reservoir considered in this example is of a very simple nature, but is adequate to serve
the demonstration purposes of this presentation. The reservoir is considered to have vertical
sides, a single outlet gate whose opening is controllable, and an emergency overflow spillway
which is modeled as a weir. For ease of presentation, the outlet gate opening amount is
assumedto be fixed throughout the passageof a flood event through the reservoir. As noted
earlier, this is not a limitation of the method described in this paper as additional reservoir
variables could be included to account for the rates and/or times of change of gate opening
amounts.
For the caseof this simple reservoir, the reservoir variables comprising the vector 1 are
the initial reservoir depth (an initial condition), denotedby 1,, and the outlet gate opening area
(a boundary condition), denoted by AZ. Modeling of the distributions of these variables is
accomplishedby defining a dimensionlessinitial reservoir depth D. and a dimensionless gate

314
opening area A. defined by

D. = &lD, (18.8)

and

A. = 12/A, (18.9)

The terms D, and A, in these expressionsdenote, respectively, the full reservoir depth (to the
crest of the emergencyspillway), and the full gate opening area. Reservoir depth is measured
with respect to the outlet gate opening, whose hydraulic behavior is modeled as an orifice.
Whereas both of the variables D. and A. are defined only on the inter-val [O,l], they are
modeledarbitrarily in this example using the beta distribution. For illustrative pur-poses,the
marginal density of the dimensionless depth is taken to be

fD(D.) = 30.2 (18.10)

It is clear from this definition of the marginal density that a full reservoir is the most probable
initial condition of the reservoir when a flood event occurs.
The distribution of the dimensionless gate opening amount is assumedin this example to
dependonly on the dimensionless depth. Its conditional density function is assumedto have
the form

&,(A. ID.) = A.=-‘( 1-A.)‘-?(a + p)/lr(a)r(p)] (18.11)

where

a = 1+ 9D. (18.12)

P = 10 - 9D. (18.13)

This specitïcation of the conditional distribution of outlet gate opening amounts states that
when the reservoir is empty, a zero gate opening amount is the most probable situation. When
the reset-voir is full; a full gate opening amount is the most probable situation, and when the
reset-voir is half full, the most probable gate opening amount is also one-half of the full
amount. Figure 18.6 is an illustration of a histogram that is representative of the joint
distribution of D. and A. as defined by equations (18.10) through (18.13). The heights of the
columns; i.e. the (ai) values for use in equation (18.3), were determined by numerical
integration. Modeling of the joint distribution of D. and A. in this way is again only an
expedientthat has been employed for this illustrative example. In applications it would likely
be preferable to mode1the joint distribution using a nonparametric kemel method.
It is clear that the distributions of the random variables D. and A., and hence of the
variables )Li and A,, Will depend on the operating policy in effect for the reservoir. Changes
in the operatingpolicy, if and when they occur, Will result in changesin these distributions and
hencein changesin the downstreamregulatedflood frequency relationship. Where actual data
relevant to reset-voir conditions are not available to permit the estimation of the joint
distribution of reservoir conditions, or in caseswhere one might be interested in predicting the
effects that would occur as a consequenceof operational changes, one cari resort to methods

315

-. -
0 41

Figure 18.6 Joinf dett.siry&rtction of A. and D. for example probkm

of simulation to derive the necessary data. Note, however, that the inabilities of simulators
to accurately depict the whole range of streamflow responses is not an issue in this case. This
is SObecause reservoir conditions at the beginning of flood events are c3ntrolled by antecedent
conditions, and these in tum tend to be dominated by relatively average streamflow conditions.
Hydrologie simulators are quite good at being able to reproduce system behaviors in such
situations.
The discharge from an orifice with an opening area 1, and a discharge coefficient C, when
the head on the orifice, i.e. the reservoir depth, is equal to h is

QO= C,A,J(2gh) (18.14)

The discharge from a rectangular weir of length L with a weir coefficient C, and a head h, is

Q, = C,&h;12 (18.15)

For the purposes of this example, C,, = 0.6 is used in the orifice equation (18.14) for a
representation of the reservoir’s principal spillway (a conduit type of spillway), and the weir
equation (18.15) with C, = 3 and L = 50 m is used for the overflow spillway. Weir flow is
assumed to occur only if the reservoir is surcharged during a flood event such that the depth
h becomes greater than the full depth DP In such cases the head on the weir is taken to be h,
= h’- D,. Other variables pertinent to the reservoir used in the simulations are presented in
table 18.1.

316
Tahle 18.1 Reset-voir propoerties for example problem

Property Symbol Value employed

Full reset-voir depth Dl 60 m


Full gate opening area 4 5 m’
Reset-voir surface area A, 1.05 x 10’ m’
Overflow weir length L 50 m
Orifice discharge coefficient c, 0.6
Weir coefficient cw 3.0

(Y) Simulation procedure

The simulation procedure that should be employed to compute the regulated flood frequency
curve for a given reservoir operating policy depends on whether the random vectors x and I
are independentor correlated. Since it has been assumedthroughout this example application
that they are independent,that procedureWill be given first. The procedure for the case where
they are correlated Will then be given.
A step-by-step procedure which may be followed for the case where the independence
of x and A is true is as follows:

(1) Develop an estimator of the distribution FAX) of the upstream unregulated floods.
Also develop an estimator of the density fA(A) of reservoir initial and boundary
conditions. These estimators may be developed using either parametric or
nonparametric techniques.
(2) Randomly sample values of x, and x2 from the distribution of unregulated flood
characteristics. Construct the direct runoff componentof a synthetic reservoir inflow
hydrograph using these two values, and add base flow to obtain the total synthetic
inflow hydrograph.
(3) Randomly sample values of D. and A. from the distribution of dimensionless
reservoir conditions, and compute values of A1 and A2 using equations (18.8) and
(18.9).
(4) Route the inflow hydrograph through the resexvoir using the continuity equation

dhldt = [I(t) - Q(h)]/A, (18.16)

where h is the reservoir depth at time t, I(t) is the synthetic inflow hydrograph
developedin step (2), Q(h) is the depth-dependentreservoir outflow rate, and A, is
the reservoir surfacearea. Integration of equation (18.16) was accomplished for this
example using a predictor-corrector, or Heun, method (Chapra and Canale, 1988)
with a time step of At = TJlO.
(5) Repeat steps (2) through (4) many times (say N times) to obtain N outflow
hydrograph peaks. Rank and assign plotting positions to these values and use them
to empirically define the regulated flood frequency distribution Fyo1). The value of
Nshould be chosen sufficiently large that the empirical distribution is not sensitive
to small variations in N; it is suggestedthat N should be at least several thousand.

When performing steps (2) through (4) in the above procedure, one could also obtain N
regulatedflood hydrograph volumes as well. One would then have the necessaryinformation

317
to empirically quantify the joint distribution of both regulated flood peaks and volumes.
It may be noted that this procedure applies the theorem of total probability in a rather
implicit sort of way. An alternative and more explicit application of the theorem may be
accomplished through discretization of the joint density of reservoir conditions in a manner
similar to that shown in figure 18.6, and use of equation (18.3). This alternative procedure
was used to generate figure 18.5 as it yields the conditional distributions, which may be of
interest in some applications, as well as the final unconditional distribution.
The simulation procedure that should be used when the random vectors x and A are
correlated is essentially the same as !!tat given above for the independent case. The primary
difference is that one would first develop an estimator for the joint distribution F,(x,À) of
both flood characteristicsand reservoir conditions. The values of xi, xz, Ii, and AZwould then
all be sampledfrom that distribution. The remaining stepsof the procedure would be the same
as for the independent case.

18.3.4 Discussion

The result of the application of the step-by-stepprocedure discussedin the previous subsection
is shown in figure 18.7. The dotted curve shown there is the marginal distribution of
unregulated flood peaks upstream of the reservoir, and the solid curve is the marginal
distribution of regulated flood peaks immediately downstream of the reset-voir. For reasons
discussed in Section 18.2.4, it is not clear that the regulated flood distribution shown is
sensicalin the left-hand portion of the figure. However, the right-hand portion of tlrc ti~urc,
which is the region of prime interest in applications, does make sense. Indeed, it may be
observed that the two frequency curves Will converge to one another as the flood magnitude
increases, i.e. as the exceedanceprobability decreases. This must be SObecause of the
diminishing effect of a reservoir in flood peak attenuation as the flood magnitude increases.
The fact that this consistencyis attainedis made possible only becauseof the integrated nature
of the approach. In effect, the integratedapproachis able to preserve the physical linkage that
must exist between the two flood frequency relationships.
An additional point worthy of note is that the simulation procedures described above are
very well suited to implementation in parallel processing environments. This is clearly
desirablebecauseof the computationalintensivenessof the required Monte Carlo simulations.

18.4 Regionalization of Frequency Information


18.4.1 Overview

Regionalization techniques in the field of flood frequency analysis are motivated by the
recognition that quantile estimates based only on at-site data, because of the shortness of
streamflow records and the need to extrapolateto long recurrence inter-vals, have large degrees
of variability, and hence uncertainty, becauseof sampling variations. The use of historical
data cari be employed to. ameliorate these problems to some degree, but the practice of
regionalizing flood fmquency behavior is likely the more common approach. Where possible,
the use of both historical data and regionalization should be employed.
TO a certain degree, the use in hydrology of the term regionalization has corne to refer to
two different but related techniques. This is rather unfortunate, and it has likely led to some
confusion among practitioners. In the first type of regionalization, one is interested in
predicting flood quantilesat ungagedsites. While this cari be accomplished using rainfall and

318
3 20 10 5 2 1

Exceedanco probability, percent

Figure 18.7 Regulated (solid) and unregulated (dotted) jloodji-equency distributions

runoff modeling methods (see Section 18.2.3), the term regionalization usually refcrs to the
use of multivariate regression models (Benson, 1962). The U.S. Geological Survey has
devoted a considerableamount of effort to develop such models for use throughout the United
States. The second type of regionalization, which is the more prominent one in the recent
flood frequency literature that has appeared in the archiva1 joumals, involves the use of
information at gaging sites remote from the one of primary interest to improve the statistical
properties of quantile estimators. The focus here is on improving estimates at gaged sites,
though it is recognized that this should ultimately enable improved estimates at ungaged sites
to be obtained as well. There are a number of methods that have been proposed for
accomplishmentof this second type of regionalization. The most prominent among them are
the index flood method (DaQmple, 1960) and regionalization of distributional parameters
(Houghton, 1978a,b) and statistics(namely skewness)(Hardison, 1974; Tasker, 1978), though
this latter method may be counterproductive (Landwehr, Matalas and Wallis, 1978).
It is the objective of this section of this paper to show how the integrated modeling
framework developed in Section 18.3.2 may be employed for regionalization. The issues
motivating this additional application area are discussedin the following Section 18.4.2, and
Section 18.4.3 provides an overview of the extension of the approach to the problem of
regionalization. It is noted here at the outset that the regionalization method suggestedhere
cari be employed for both types of regionalization problems mentioned above. That is to say,
it cari be employed for the estimation of flood frequency relationships at ungaged sites, and
it cari also be employed to improve the estimates at gaged sites. Section 18.4.4 remarks on
the statistical estimation gains which may be realized in the latter type of regionalization.

18.4.2 Motivation

There are two primary issues that are motivating the extension of the integrated modeling
framework to permit it to be employed in a regionalization context as well. The first issue

319

_-~~-
7. -- ------
motivating this discussion stems from the recognition made in Section 18.3.4 that the
integratedmodeling approach cari preserve the physical linkage that must exist between flood
frequency relationships at different spatial locations (in that case, at locations upstream and
downstream of a regulating reservoir). This leads one immediately to ponder whether the
same approach might be useful for regionalization of flood frequency information. It is
maintained by this author that the answer to this must be in the affirmative, and that the
integrated modeling framework which has been devised is essentially a “comprehensive
statistical model” as called for by the National Research Council (NRC, 1988).
The second motivating issue stems from some perceived shortcomings in the currently
applied regionalization procedures, most notably in the index flood method. This method is
purely statistical and makes use of some very rigid and ud hoc assumptions which tend to be
very difficult to rationalize and validate based on physical and hydrologie reasoning. In
particular, the index flood method presumesthat the flood frequency distributions at all sites
in a homogeneousregion are identical except for scale. In other words, it is assumedthat all
sites in the region have the same coefficients of variation and skewness. Other statistical
methodsof regionalization involve similar assumptionsas to the spatial stationarity of one or
more statisticalcharacteristics. Lettenmaier, Wallis and Wood (1987) and Hosking and Wallis
(1988) have shown that the index flood method is reasonably robust to departures from truly
homogeneousregions, but this is still not very comforting in view of the lack of any physical
or hydrologie reasoning to support it. In fact, it is argued shortly that physical reasoning
implies that the index flood method is not suitable for flood frequency regionalization, despite
the fact that it sometimes seemsto work reasonably well.
An additionaI issueconfounding statisticalmethodsof regionalization, and one of the most
difficult to overcomein practice, is that of the need to identify homogeneousregions of gaging
sites. A number of methodshave been presented in the literature for accomplishing this task,
but they again tend to be purely statistical in character. Most frequently, the pooling of sites
into homogeneousregions is basedon whether significant differences cari be discemed between
like statistics computed for different sites. Unfortunately, the statistics of interest in this
respectare usually the moment or L-moment ratios of relatively high order, and these tend to
have sufficiently large sampling variantes that any tests for discrimination which might be
devisedare necessarily not very powerful. In effect, subtle differences in statistics from one
,site to another cari be very difficult to detect. Such methods of pooling sites into regions are
basedentirely on statisticalconsiderations,and take no account of the physics of flood events.
The only ways in which the most common assumptionsused in regionalization cari be justified
are basedon statisticalarguments,and thesemust be consideredto be weak becauseof the lack
of power of discriminating tests.
TO illustrate the type of problem that cari arise, consider a gaging site for which the
random variable representingannual flood peaks is denoted as X. Consider also an additional
site downstrearnand along the same stream, and denote the same random variable there as Y.
Becausethesetwo sites are along the same stream, and therefore are nearly identical in terms
of their flood frequency behavior, most would agree that these two sites should be ‘pooled
together into thesame homogeneousregion. Inde& it is difficult to imagine a case where two
sites would be considered more homogeneous. Now, if the random variable Y at the
downstreamsite is a simple linear function of the random variable X at the upstream site, i.e.
if Y = cX, where c is a constant, then it is easy to show that the coefficients of variation and
skewness for the two sites are identical. In this case the common index flood assumption
would be justifiable, at least on statistical grounds. If, on the other hand, however, the
physical linkage that must exist between the two sites indicates that the relationship is more

320
likely nonlinear, such as Y = axb, b # 0,1, then the index flood assumption would be invalid;
Given that the hydrologie and hydraulic behaviors of real rivers and streams are generally
nonlinear, this observation casts some serious doubt on the suitability of the index flood
method.

18.4.3 Extension of integrated modeling

As already noted in the previous section, the recognition of the ability of the integrated
deterministic-stochasticmodeling framework to preservethe physical linkage between different
sites leads one to ponder its potential application for regionalization as well. In the present
section is considered an approach which may be employed for development of a flood
frequencyrelationship for an ungagedsite. This is the first of the two types of regionalization
that were discussedin Section 18.4.1.
TO accomplish this estimation at an ungaged site, it Will be necessary(at least initially)
to consider sites only on streams on which there is also a gaged site. Denote the gaged
location as site X, and denote the flood frequency distribution which may be estimated from
the records for that site,asFAX). Denote the ungagedlocation as site Y, and denote the desired
flood frequency distribution at that site as Fr@). Denote the joint density of initial and
boundary conditions relevant to the stream reach between the two sites asfA(
It is clear that this notation is virtually identical to that which was employed for
developmentof regulatedflood frequency curvesin Section 18.3. The elements of the random
vectors x and y will again refer to instantaneousflood peaks, flood volumes, and possibly other
flood hydrograph characteristics. In the present regionalization case, however, the elements
of the vector A of initial and boundary conditionswill have somewhatdifferent meanings. One
of the elements in this vector Will be the initial stage or discharge in the river reach at the
beginning of flood events, and the remaining elements Will correspond to both boundary
conditions and forcing relevant to the streammach behveenthe two sites. Boundary conditions
may exist within the reach or may exist somewhereoutside of the reach, but they should be
chosen such that they do in fact have an effect on the hydraulic behavior of the reach. An
example of a boundary condition outside of the reach would be one in which the stream
dischargesinto a large Me, and in which the lake causesa backwater effect within the stream
reach of interest. Forcing that would be relevant to the reach would consist of lateral inflows
and/or outflows to and from the reach. These could be accounted for using a runoff model.
The procedure for deriving the desired flood frequency distribution E’Jy) in this
regionalization, or information transfer, application would be essentially the same as that used
to derive a regulated flood frequency distribution in Section 18.3. The only real difference
is that channel routing would be used instead of reservoir routing. One could also choose
betweenhydrologie and hydraulic routing schemes(this is true as well for the reservoir case,
but there one would almost always choose a simple hydrologie router). If the ungaged site
were upstream of the gaged site, then inverse flood routing would need to be accomplished.
An extension of this information transfer idea for ungaged sites could also be extended
to ungaged sites at other locations within a drainage network. That is, it is not absolutely
necessarythat the ungagedsite be on the same link in the overall network as is the gaged site.
This type of an application would, however, require the consideration of the complicating
factors at confluencesof streams. As shown by Dyhouse (1985), however, this is yet another
area in which the theorem of total probability finds application. In effect, the theorem of total
probabihty, when used in conjunction with other, deterministic hydrologie and hydraulic tools,
cari be employeclto facilitate the prediction of the flood frequency behavior almost anywhere

321
in a streamnetwork basedon knowledge of the behavior at one or more other locations in the
network. This modeling framework is therefore extremely powerful, but its potential is
currently limited by the loss of variante problem associatedwith the runoff modeling tools that
would be necessaryto account for lateral inflows and outflows.

18.4.4 Variante reduction through optimal interpolation

The problems that arise in the regionabzation, or information transfer, problem as a


consequence of the need to use runoff models cari be overcome by considering gaged sites
only. That is, rather than employing one gaged site and one ungaged site in the modeling
effort, one cari employ two gaged sites.
Without loss of generality, consider two sites X and Y on the same stream link, and
assume that site X is upstream of site Y. Because both sites are gaged and hence have
streamflow records that have been collected for some period of time, one cari estimate their
respective flood frequency distributions F&) and FJy) using standard methods of statistical
analysis. One cari also, becauseof the records available, quantify the joint densityf,(A) of
streamflow conditions and incrementalflows between the two sites. This would require some
use of a routing mode1to account for peak attenuation within the reach, but it would obviate
the requirement of a runoff simulation model.
Now, given the flood frequency distribution F&) and the joint densityf,(l), one could
again employ the integrated modeling framework to develop a flood frequency distribution at
site Y. Since this derived distribution Will be different from the distribution determined from
the records at site Y, it will be denotedhere as FAz). The net result of this exercise is that one
will have two estimatorsfor the flood frequency distribution at site Y. That is, one Will have
redundantestimators for various flood quantiles. Based on the ideas of optimal interpolation
(Gelb, 1989), one could then combine the redundant estimators for any desired quantile in a
linear fashion SOas to develop a quantile estimator with a smaller variante than that possessed
by either of the two original estimators. The improved flood frequency distribution at site Y
might then be employed with a reverse application of modeling to improve the distribution at
site X. This might then be used again to improve the estimator at site Y, and SOon in an
iterative way.
The net result of this application is that one cari accomplish the most fundamental
objective of regionalization, namely that of improving the statistical properties of quantile
estimatorsby permitting information at sitesremote fi-om the one of immediate interest to have
some bearing on the estimation process. In contrast to purely statistical methods of
regionalization, however, the integrated modeling approach accomplishes the task in a
meaningful way.

18.5 Summary
It bas been argued in this paper that an integrateddeterministic-stochasticmodeling framework
may be employed to consistently and effectively approach some of the more difficult and
elusive problems in the field of flood frequency analysis. In particular, it cari be employed to
develop flood frequency curves at regulated sites downstream of dams and reservoirs, and it
cari also be used for the transfer of information from one spatial location to another. It
combines the best features of both statistical and deterministic modeling tools, and moulds
them into a new tool whose power is arguably greater than that of the sum of its component
parts. In effect, it establishesa framework for a “comprehensive statistical model” (NRC,

322
1988) which car-tbe employed to resolve the differences between the statistical and runoff
modeling approachesto flood frequency analysis.
It is important to recognizethat the developmentalaspectsof the integrated modeling tool
are by no means complete. Several assumptions have been made in the discussionsin this
paper, and more work is necessary to generalize the method even further. Of particular
relevance in this respect are the issue of independenceof regulated armual floods, as well as
the treatmentof partial duration series. Additional work related to regionalization (information
transfer) should also be given a high priority.
Flood frequency modeling with the integrated tool involves the use of multivariate
probability distributions. Thesedistributions are considerably more difficult to work with than
are univariate models, and are therefore more exacting in terms of the educational background
requirements on the part of mode1users. Multivariate modeling is also more demanding in
terms of data requirements(the amount of data needed), and this is certainly a cause for some
concem, particularly in an application area such as flood frequency analysis where there never
seemsto be enough data. Planet Earth Will continue to tum, however, and data Will continue
to be collected. At the same time, more and more rivers and streams Will become regulated,
and the need to be able to estimate regulated flood frequency relationships Will become more
acute. But what are the most important types and quantities of data that Will be needed to
accomplishthis estimation? The integrated modeling approach presented here is a tool which
cari be applied in a systematicway to answer this question. Use of this modeling approach cari
thereforebe employed as a guide to point the way in future data collection and archival efforts.

323

.-
Bibliography

Adamowski, K. (1985) Nonparametric kemel estimation of flood frequencies. Water Resour.


Res., 21, 18851890.
Adamowski, K., and W. Feluch. (1990) Nonparametric flood-frequency analysis with
historical information. ASCE Jour. Hydr. Engr., 116, 10351047.
Benson, M. A. (1962) Evolution of methodsfor evaluaring the occurrence of jloods. U.S.
Geological Survey Water Supply Paper 1580-A, Washington, D.C.
Bob& B., and F. Ashkar. (1991) The gammafamily ami derived distributions in hydrology.
Water ResourcesPublications, Littleton, Colorado.
Bradley, A.A., and K.W. Potter. (1992) Flood frequency analysis of simulated flows. Water
Resour. Res., 28, 23752385.
Bras, R.L., D.R. Gaboury, D.S. Grossman,and G.J. Vicens. (1985) Spatially varying rainfall
and floodrisk analysis. ASCE Jour. Hydr. Engr., 111, 754-773.
Chapra, S.C., and R.P. Canale. (1988) Numerical methodsfor engineers. 2nd ed. McGraw-
Hill, New York.
Cleveland, W.S. (1979) Robust locally-weighted regression and smoothing scatterplots. Jour.
Amer. Stat. ASSOC.,74, 829-836.
Dalrymple, T. (1960) Floodfiequency analyses. U.S. Geological Survey Water Supply Paper
1543-A, Washington, D.C.
Diehl, T., and K.W. Potter. (1986) Mixed flood distributions in Wisconsin, paper presented
at the International Symposiumon Flood Frequency ami Risk Analysis, Louisiana State
University, Baton Rouge, Louisiana.
Durrans, S.R. (1994) Bayesian approach to skewness bias correction for Pearson Type 3
populations. Jour. Hydrol., 161, 155-168.
Dyhouse, G.R. (1985) Stage-frequencyanalysis at a major river junction. ASCE Jour. Hydr.
Engr., 111, 565-583.
Eagleson, P.S. (1972) Dynamics of flood frequency. Water Resour. Res., 8, 878-898.
Franz, D.D., B.A. Kraeger, and R.K. Linsley. (1986) A system for generating Iong
streamflow records for study of floods of long retum period, paper presented at the
International Symposium on Flood Frequency ami Risk Analysis, Louisiana State
University, Baton Rouge, Louisiana.
Gelb, A. (ed.) (1989) Applied optimal estimation. The MIT Press, Cambridge, Mass.
Haan, CT. (1977) Statistical methodr in hydrology. Iowa State University Press, Ames.
Hardison, CH. (1974) Generalizedskew coefficients of annual floods in the United States and
their application. Water Resour. Res., 10, 745.
Hazq A. (1930) Floodflows: A study offiequencies and magnitudes. John Wiley and Sons,
New York.

324

--~ -..
Hirschboeck, K.K. (1985) Hydroclimatology offlow eventsin the Gila River basin, central and
southem Arizona, Ph.D. Dissertation, University of Arizona, Tucson, Arizona.
Hirschboeck, K.K. (1986) Hydroclimatically-defined mixed distributions in partial duration
flood series,paper presentedat the International Symposiumon Flood and Risk Analysis,
Louisiana State University, Baton Rouge, Louisiana.
Hosking, J.R.M., and J.R. Wallis. (1988) The effect of intersite dependenceon regional flood
frequency analysis. Water Resour. Res., 24, 588-600.
Houghton, J.C. (1978a) Birth of a parent: The wakeby distribution for modeling flood
flows. Water Resour. Res., 14, 1105-l 110.
Houghton, J.C. (1978b) The incomplete means estimation procedure applied to flood
frequency analysis. Water Resour. Res., 14, 111l-l 115.
Hoyt, W.G., and W.B. Langbein. (1955) Floods. Princeton University Press, New Jersey.
Jarrett, R.D., and J.E. Costa. (1982) Multi-disciplinary approach to the flood hydrology of
foothill streams in Colorado, in International Symposium on Hydrometeorology, AI.
Johnson and D.A. Clark (eds.), 565-569, Amer. Water Resour. Assoc., Bethesda,
Maryland.
Jennings,M.E., and M.A. Benson. (1969) Frequency curves for annual series with some zero
events or incomplete data. Water Resour. Res., 5, 276-280.
Kite, G.W. (1977) Frequency and risk analyses in hydrology. Water ResourcesPublications,
Littleton, Colorado.
Kuczera, G. (1982) Robust flood frequency models. Water Resour. Res., 18, 315-324.
Lall, U., and L.R. Beard. (1982) Estimation of PearsonType 3 moments. Water Resour. Res.,
18, 1563-1569.
Lall, U., and K. Bosworth. (1994) Mutivariate kemel estimation of functions of space and
time, in T%e SeriesAnalysis in Hydrology and Environmental Engineering, K. W. Hipel,
A.I. McLeod, U.S. Panu, and V.P. Singh (eds.), 301-315, Kluwer Academic Publishers,
Dordrecht, The Netherlands.
Landwehr, J.M., N.C. Matalas, and J.R. Wallis. (1978) Some comparisons of flood statistics
in real and log space. Water Resour. Res., 14, 902.
Langbein, W.B. (1958) Queuing theory and water storage.Jour. Hydr. Div., ASCE, 84, 181l-
1 to 1811-24.
Laurenson,E.M. (1973) Effect of dams on flood frequency. Proc., International Symposium
on River Mechanics, 9-12 January, Bangkok, Thailand, International Association for
Hydraulic Research.
Laurenson, E.M. (1974) Modeling of stochastic-deterministic hydrologie systems. Water
Resour. Res., 10, 955-961.
Lettenmaier, D.P., J.R. Wallis, and E.F. Wood. (1987) Effect of regional heterogeneity on
flood frequency estimation. Water Resorrr. Res., 23, 3 13-323.
Loucks, D.P., J.R. Stedinger, and D.A. Haith. (1981) Water Resource SystemsPlanning and
Analysis. Prentice Hall, Englewood Cliffs, New Jersey.
Mimikou, M. (1983) A study of drainage basin linearity and nonlinearity. Jour. Hydrol., 64,
113-134.
Moon, Y-.-I., and U. Lall. (1994) Kernel quantile function estimator for flood frequency
analysis. Water Resour. Res., 30, 3095-3 103.
Moran, P.A.P. (1959) The theory of storage. Methuen, London.
Moughamian, M.S., D.B. McIaughlin, and R.L. Bras. (1987) Estimation of flood frequency:
an evalualion of two derived distribution procedures. Water Resour Res., 23, 1309-1319.

325
Muzik, 1. (1994) Understandingflood probabilities, in atreme Values: Floods and Droughts,
K.W. Hipel (ed.), 199-207, Kluwer Academic Publishers, Dordrecht, The Netherlands.
NEK (1988) Estimatingprobabilities of extremefloods: methods and recommendedresearch.
National Research Council, Washington, D.C.
Rodriguez-Iturbe, I., and J.B. Valdés. (1979) The geomorphologic structure of hydrologie
response. Water Resour. Res., 15, 1409-1420.
Rogers, W.F. (1980) A practical mode1for liiear and nonlinear runoff. Jour. Hydrol., 46, 5 l-
78.
Rogers, W.F. (1982) Some characteristics and implications of drainage basin linearity and
nonlinearity . Jour. Hydrol., 55, 247-265.
Rogers, W.F., and H.A. Zia. (1982) Linear and nonlinear runoff from large drainage basins.
Jour. Hydrol., 55, 267-278.
Sanders,CL., Jr., H.E. Kubik, J.T. Hoke, Jr., and W.H. Kirby. (1990) Floodfrequency of
the SavannahRiver at Augusta, Georgia. U.S. Geological Survey Water Resour. Invest.
Rpt. 90-4024.
SCS (1969) National Engineering Handbook, Section 4, Hydrology. U.S. Soi1 Conservation
Service, Washington, D.C.
Silverman, B.W. (1986) Density estimationfor stafisticsand data anai’ysis.Chapman and Hall,
New York.
Singh, K.P., and R.A. Sinclair. (1972) Two-distribution method for flood-frequency analysis.
ASCE Jour. Hydr. Engr., 98, 29-45.
Singh, V.P., and H. Amin&. (1986) An empirical relation between volume and peak of
direct runoff. Water Resour. Bull., 22, 725-730.
Stuart, A., and J.K. Ord. (1987) Kendall’s advanced theory of statistics. Oxford University
Press, New York. ,
Tasker, G.D. (1978) Flood frequency analysis with a generalized skew coefficient. Water
Resour. Res., 14, 373.
Thomas, W.O., Jr. (1982) An evaluationof flood frequency estimatesbased on rainfall/runoff
modeling. Water Resour. Bull., 18, 22 l-230.
Waylen, P., and M.-K. Woo. (1982) Prediction of annual floods generated by mixed
processes. Water Resour. Res., 18, 1283-1286.

326
19. A regional Bayesian method for
estimation of extreme streamflow droughts

Henrik Madsen and Dan Rosbjerg


Department of Hydrodynamics and Water Resources
Technical University of Denmark
Building 115
DK-2800 Lyngby
DENMARK
Abstract

A method for regional estimation of extreme streamflow droughts is presented. The at-site
modelling is based on the partial duration series method with a Poisson distributed number of
drought events and generalized exponential distributed drought durations and deficit volumes. The
mode1 parameters are related to catchment characteristics using a generalized least squares
regression technique that accounts for sampling errors and intersite dependence. The regional
properties of the mode1 parameters are used as prior information in a Bayesian procedure that
makes T-year event estimation possible at ungauged sites. At gauged sites the Bayesian approach
provides an updating scheme to combine prior and site-specific information. Some preliminary
results from an application of the mode1 to Danish streamflow records are presented.

Résumé

Une méthode de l’estimation régional de débits des sécheresses extrêmes est présentée. En un site
donné, le modèle est basé sur la méthode du renouvellement, où le nombre d’événements secs est
distribué selon une loi de Poisson, tandis que les durées des sécheresses et les volumes du déficit
hydrique sont distribués selon des lois exponentielles généralisées. Les paramètres du modèle sont
reliés aux caractéristiques des réserves d’eau en utilisant une technique généralisée de régression
au sens des moindres carrés qui tient compte des erreurs d’échantillonnage et de la dépendance des
sites. Les propriétés régionales des paramètres du modèle sont utilisées comme information a priori
dans une procédure bayésienne qui rend possible une estimation de l’événement de période de
retour T années sur les sites non mesurés. Sur les sites mesurés, l’approche bayésienne fournit un
schéma de mise à jour pour combiner les informations préalables avec celles spécifiques au site.
Quelques résultats préliminaires d’après une application du modèle des historiques de débits des
rivières danoises sont présentés.

19.1. Introduction

Frequency analysis of extreme streamflow droughts is an important element in the design of


water resources systems. Traditionally, modelling of the smallest annual n-day average
discharge is used in low flow studies. This method, however, only considers one measure of

327
a drought - the drought magnitude - which may be inappropriate in some applications. A
method that simultaneously characterizes droughts in terms of both duration and magnitude
(or deficit volume) is the truncation level method presented by Yevjevich (1967). In this
method droughts are defined as periods during which the discharge is below a certain
truncation level. The definition by Yevjevich (1967) was originally based on the statistical
theory of t-uns and used for analysing time series with a time resolution not less than one
month. The definition, however, has also been used in the analysis of streamflow droughts
from a daily recorded hydrograph (Zelenhasic and Salvai, 1987).
In this paper the partial duration series (PDS) method presented by Zelenhasic and Salvai
(1987) is adopted in the modelling of site-specific streamflow droughts. It is assumed that the
occurrence of droughts cari be described by a Poisson process with one-year periodic intensity.
The simple exponential distribution assumption for the magnitudes of drought duration D and
deficit volume S (Zelenhasic and Salvai, 1987) is here extended by assuming that the
magnitudes follow the generalized exponential distribution (Madsen et al., 1994). Hereby the
sufficient information from the at-site analysis becomes the estimates of, respectively, (i) the
Poisson parameter, and (ii) the scale and the shape parameter in the generalized exponential
distribution for D and S.
A regional Bayesian procedure is introduced that makes it possible to estimate the
distribution of T-year events of D and S at both gauged and ungauged sites. The regional prior
information is obtained from regression analyses that relates PDS-parameters to physiographic,
meteorological and other catchment characteristics. In order to take sampling errors and
intersite dependence into account a generalized least squares regression technique (Stedinger
and Tasker, 1985) is adopted. The outlined methodology is finally applied to Danish
streamflow records.
The regional method presented herein is an extension of the Bayesian PDS mode1
introduced by Madsen et al. (1994) and applied to Danish rainfall records. Although the
extended method is related to streamflow drought analysis, the basic procedure is, with only
minor modifications, also applicable in flood frequency studies and related problems.

19.2. At-site modelling

19.2.1. Drought definition

Consider a time series of daily runoff values qi. By introducing a truncation level q. in the
series and considering only situations where qi < q. a series of dry spells is obtained. The
fundamental characteristics are (i) the drought duration D which is the distance between a
downcross and a following upcross of the truncation level, and (ii) the deficit volume S (often
termed drought severity) which is the sum of daily deficits within the dry spell period. A third
characteristic, the drought magnitude M, cari be defined from the other two as M = S/D.
A major problem in the approach concerns the clustering of dry spells. During a
prolonged dry period it is often observed that the discharge exceeds the truncation level in a
short period of time, thus dividing a large drought into a number of mutually dependent
droughts. Since short periods of time with insignificant excess volumes do not reduce the
impacts from the drought (measured as a single drought) significantly, one should rather treat
the dry period as a single drought. A consistent definition of a drought expressed in terms of
the interevent time and the corresponding excess volume was introduced by Madsen and
Rosbjerg (1995). In this case two dry spells with characteristics (d,,~,) and (d,,s2), respectively,
are assumed to be dependent if (i) the interevent time t, is less than a critical value t,., and (ii)
the ratio between the interevent excess volume v, and the deficit volume s, is less than a
critical ratio p,. The two dry spells are then pooled into a single drought with the

328
characteristics dpc,o,= d,+d,+t, and s~(,(,~
= s,+s,-v,.
Another problem with the above definition is related to the definition of the extreme
value region. It is often observed that the abstraction procedure, despite the pooling of
dependent droughts, produces a bunch of minor droughts, and inclusion of these droughts may
introduce bias in the extreme value modelling. Zelenhasic and Salvai (1987) defined minor
droughts as droughts with deficit volumes less than 0.5-I % of the maximum observed deficit
volume, and these events were then excluded from the analysis. This approach, however, is
very sensitive to outliers and, in addition, it only defines “minor” in terms of the deficit
volume. A more consistent approach may be defined in terms of predefined percentages rd and
y, of the mean values E(D} and E{S} of D and S, respectively. In this case droughts with
characteristics di < rdE{D} or sj < r,,E{S} are excluded prior to the at-site modelling.

19.2.2. The partial duration series mode1

The modelling of D and S (in the following denoted in a single term by X) is based on partial
duration series (PDS) theory. The forma1 development of the PDS method in hydrology is
mainly due to Shane and Lynn (1964), Bernier (1967) and Todorovic and Zelenhasic (1970).
It is assumed that the occurrence of droughts cari be described by a Poisson process with
constant or one-year periodic intensity. Hence, the number N of drought events in t years is
Poisson distributed with probability function

PUV=nl = yexp(-Al) , n = 0,1,2 ,... (19.1)

where h equals the expected number of drought events per year. The drought magnitudes Xi
are assumed to be independent and identically distributed following the generalized
exponential distribution (GED) which is a reparameterization of the generalized Pareto
distribution (Madsen et al., 1994). The probability density function of the GED with the scale
parameter a and the shape parameter K reads

Leqj -X , K=O
a ( a1 (19.2)
1 A: ‘-1
l- K
K
,lcZO
a(l+K) i a(1 + K) 1

with mean and variante given by

a2 (19.3)
E{XI=a , Var{X> = ~
1 +2rc

For K = 0 the GED yields the exponential distribution as a special case. When K I 0 the GED
is defined in the interval 0 5 x < 00, whereas an Upper bound exists for K > 0 : 0 I x I
a( 1+K)/K. The reparameterization of the generalized Pareto distribution is mathematically
convenient in a Bayesian context because the scale parameter is preserved in the generalization
of the exponential distribution to the GED (Madsen et al., 1994).
The T-year event, i.e. the event which on the average is exceeded once in T years, is
defined as the (1- l/hY”)-quantile in the distribution of X, i.e.

329
Replacing h, a and K
K 1 ( 11
XT = 41 + K) 1 _ 1 K
AT

in (Eq.19.4) with the moment estimators


(19.4)

(19.5)

where jî and 6’ are, respectively, the estimated mean value and the estimated variante of X,
the T-year event estimator X, is obtained. The sampling error variantes of the estimated PDS-
parameters are given by (Madsen et al., 1994)

Vfdâ> = Â-
t

(19.6)
N NI +2K

Var IRI = $1.03 + 0.036 K + 0.73 2 + 2.12?)2

Var{ R} is based on a polynomial approximation to Monte Carlo simulated values valid in the
range 25 I NI 200. The variante of the T-year event estimator cari be obtained from a Taylor
series expansion of (Eq. 19.4) by using (Eq. 19.6) and the expression of the covariance between
61 and R

,K<O
(19.7)
(1 - K)(l + 2K)
,K20
1 +3K
For K 2 0 the expression in (Eq. 19.7) is based on asymptotic theory, whereas for K c 0 a
polynomial approximation to Monte Carlo simulated values is used. The parameters a and b
depend on the number of observations N and cari be approximated by

a = 1.20 + 0.013N - 5.4~10-~N~


(19.8)
b = -0.95 - 0.017 N
for N in the range 25 5 N I 200.

19.3. Regional modelling of PDS-parameters

19.3.1. Regression mode1

Consider a region of A4 sites, each with ti, i = 1, 2,.., A4 years of record. If a truncation level
qo,; is introduced in the series, PDS samples of drought ,duration dii and deficit volume sij, i =
1, 2 >..) M, j = 1, 2 )..) Ni are derived at each site using the above abstraction procedure. The
at-site PDS-parameters hi and (a,,~~) for D and S, respectively, are estimated from (Eq.19.5).
The idea of the regional analysis is then to combine the information from the M sites

330
quantified in terms of estimated PDS-parameters in order to improve at-site T-year event
estimates and to make inferences possible at ungauged sites.
Let Clidenote a PDS-parameter at station no. i. The estimator ei is subjected to a random
sampling error E,, i.e.

8, = ei + Ei , i = 1,2,..,M (19.9)

where

i =j
Oii >
E{&i}=O , CovIEi,&jJ =
(19.10)
‘ci ‘cjP,ij , i * .i
l

In (Eq.19.10) CJ~:is the at-site sampling error variante of gi calculated from (Eq.19.6), and
peii is the sampling error correlation coefficient due to concurrent observations (intersite
correlation). It is assumed that ei cari be determined from physiographic, meteorological or
other characteristics (hereafter denoted in a single term as catchment characteristics) by the
following linear relationship

tIi = & + 5 ,OkAik + cJi , i = 1, 2,.., M (19.11)


k=l

where Aik, k = 1, 2,.., p are the considered catchment characteristics (or functions thereof), and
si is the error term owing to lack of fit of the regression model. The properties of & read
2 . .
mi1 = 0 , cov{di,6jl = u6 ’ l = J (19.12)
i 0 ,i+j

where oT8*is the mode1 error variante. The mode1 errors are assumed uncorrelated.
TO estimate the parameters in (Eq. 19.11) and the associated mode1 et-r-or variante by
taking sampling errors and intersite dependence into accou,nt Stedinger and Tasker (1985)
introduced the generalized least squares (GLS) regression procedure. In matrix notation the
system of equations cari be written as : 0 = Xp + rl where

(19.13)

and rlli = ei+si. The covariance matrix of the errors qi reads

A = cJ& + .qEi) (19.14)

where 1, is the MxM identity matrix, and Z(E~ is the covariance matrix of the sampling errors
with elements given by (Eq. 19.10). The GLS estimators of the mode1 parameters p are
determined by solving
[xTn-‘X] p = xTn-’ 0 (19.15)

where os*, using the method of moments estimation, is obtained from the solution of

331
(0 - xp)TA-‘(o - xp) = M -p - 1 (19.16)
The solution of the equations (19.15)-( 19.16) requires an iterative scheme. In some cases one
may find that no positive value of os2 cari satisfy (Eqs. 19.15-19.16). In these instances the
sampling errors C(EJ more than account for the difference between 0 and Xp, and CJ&*is then
taken to be zero. Having estimated the mode1 parameters and the mode1 error variante the
estimated mean and variante of gi cari be determined

j.î, = XiT p1 ) CT;= XiT Z(fi) xi + â’o (19.17)

where xjr is the i’th row in X, and Z((s) = [XTA-lX]-’ is the covariance matrix of the estimated
mode1 parameters.
An important special case of the above mode], the regional mean model, arises when
only the intercept p0 is included in (Eq. 19.11). In the case of almost equal sampling error
variantes and covariances, an approximate explicit solution of (Eqs. 19.15- 19.16) exists (e.g.
Madsen et al., 1994)

(19.18)

,2 -
ZZZs2 -
+Cl -P,>ij uti 3
s2 zz
A$ Cêi - po>’
(19.19)
ud
i=l t-l

where & is the average intersite correlation coefficient. Stedinger and Tasker (1986)
determined the estimator of ‘T,? in (Eq.19.19) as a bias correction for the ordinary least
squares estimator 6,* = s*. In general, the estimator 0, obtained from the GLS procedure
(Eqs.19.15-19.16) is not equal to the simple average Cg/M because the GLS algorithm
weights the estimated parameters according to the covariance matrix A of the errors. Estimates
of the regional mean value and the regional variante are obtained from (Eq. 19.17)
M
/je = bo , (19.20)
i=l

In (Eq.19.20) the first term of B,* cari be inferred as the variability due to regional
heterogeneity (Madsen et al., 1994). If the region is homogeneous, o.s2= 0 and the estimator
of the regional variante in (Eq.19.20) reduces to the estimator given by Stedinger (1983)
obtained by pooling the data and correcting for intersite dependence. Note that if regional
heterogeneity and intersite dependence in the regional analysis are disregarded, then the
regional variante may be significantly underestimated. For a thorough discussion of this aspect
the reader is referred to Madsen and Rosbjerg (1994) and Rosbjerg and Madsen (1996).
Recently Mikkelsen et al. (1996) have extended the regional mean mode1 by including
geostatistical correlation, i.e. C~V{ Si,&,} = 062ps,j,i # j in (Eq.19.12), where the coi-relation
coefficients psi, are estimated by variogram analysis corrected for sampling errors and intersite
dependence.

19.3.2. Estimation of the correlation structure

Application of the regional regression mode1 requires estimation of the intersite correlation
structure of the PDS-parameters h, a and K. Since h is the mean annual number of

332
observations, the correlation coefficient between estimated h-values cari simply be calculated
as the correlation coefficient between the number of observations in concurrent years.
Calculation of the correlation structure of a and K is, however, more complicated because
drought events occur at irregularly times. An estimation procedure that deals with this problem
is described in the following.
Consider two stations A and B with observations XAi, i = 1, 2,.., NA and XBj, j = 1, 2,..,
NB, respectively. The occurrence of a drought is given by the time interval [t,,;t,] where I,~and
t, are the dates of, respectively, the onset and the termination of the drought. At the two
stations the samples of drought occurrences read

A : {[fsl;tellA,[ts2;te21d,.....,[tsN
A;t,&f IA} A

B: {[fl;t,lls,[f2;t,zls,.....>[tsNs;t,N BIJ

Now, if a time interval of a drought occurrence at station A overlaps with a time interval at
station B, the pair of observations is said to be concurrent. Thus, the sample of concurrent
observations is given by

(x,4i>xBi>’
lIt~iit~ilAi-l iIt,iitej]B + 0
(19.22)
i = 1,2 ,..., NA , j=1,2 >**‘,N B
If more than one pair of observations fulfil (Eq.19.22), the pair with the largest temporal
overlap is defined as being concurrent.
Based on the sample defined in (Eq.19.22) the covariance conditioned on concurrent
observations cari be calculated. By defining a variable U that is equal to 1 in case of
concurrent observations and equal to 0 otherwise the following expression of the unconditional
covariance is obtained

Cov&&J = CovIE(X,~UJ,ELY,~UJl + EiCOdxA,xBjuH

= P[~=$[U= 1) -E{XA})(E{X,(U= 1) -E{X,})]


(19.23)
+ (1 -p)[(E{X,lU=O} -E{X/&(E{X,IU=O} -E{X,})]

+ pcov~xA,xB~u= l]

where the conditional mean values are estimated on the basis of the NAB concurrent
observations (U = 1) and (NoA, N,,) non-concurrent observations (U = 0) at A and B,
respectively. The parameter p = P{U = 1) is the probability of concurrent observations and
is estimated as 6 = 2N,J(N,+N,). Finally, the unconditional correlation coefficient pAB
between the observations at A and B is determined by dividing the unconditional covariance
with the sample estimates of the standard deviations of X, and X,.
Having quantified the correlation between observations the correlation structure of the
estimated parameters â and R cari be determined. Since a is a mean value, the correlation
coefficient paABbetween â+, and âB is equal to the correlation coefficient pABbetween X, and
X,. For multivariate normal distributed variables Stedinger (1983) showed that the correlation
between higher order moments depends on the order of the moment. Thus, in this case it is
reasonable to assume that the correlation coefficient ptiB between t& and R, is : pKAB= pAB2.

333

-
19.4. Bayesian estimation procedure

The regional properties of the PDS-parameters derived in the previous section form the basis
for inclusion of regional information in the estimation of T-year events at both gauged and
ungauged sites. The regional variability of h, a and K is here used as prior information in a
Bayesian estimation procedure. Describing the prior knowledge of the PDS-parameters by
probability distributions a prior distribution of the T-year event cari be deduced, and this
distribution is then used for T-year event estimation at ungauged sites. If sample information
is available at the site being considered, the Bayesian procedure provides an updating scheme
where posterior distributions of the PDS-parameters are obtained using Bayes’ theorem. Based
on the posterior parameter distributions a posterior T-year event distribution cari be calculated,
and this distribution is used for T-year event estimation at the gauged site.
The regional variation of h, a and K is described by, respectively, a gamma, an inverse
gamma and a beta distribution (Madsen et al., 1994)

f,(Q)= -(Jr)“-‘
q;) exp(-Qz)

f,(a) = --&)($+lexP(-;) (19.25)

fKN) = ;; ;;) (k + 0.5)(-l (0.5 - k)‘)-] (19.26)

The variation of K is restricted to the interval -0.5 < K c 0.5. Since the variante of the GED
tends to infinity for K + -0.5, cf. (Eq.19.3), and the GED yields the triangular distribution for
K = 0.5, it seems only relevant to consider the GED in the prescribed interval of K. The prior
parameters W, P,r,{,q> cari be estimated using the method of moments where the prior
moments are given by (Eq. 19.17).
The prior distribution of the T-year event xT is deduced by a change of variables of the
joint prior distribution of h, a and K. It is here assumed that any prior knowledge about a
does not affect the prior information of K, i.e. a and K are independent a priori. Furthermore,
if a regional standardized procedure is used to determine the truncation levels a priori, it is
reasonable to assume that the property of the drought triggering process is independent of the
properties of the distribution of the drought magnitudes, i.e. h is independent of both a and
K. The prior probability density function of xT is then found to be

dg
I Il dP dk
dx a=g(x)
(19.27)

where the transformation

is obtained from (Eq. 19.4). The integral in (Eq. 19.27) has to be solved numerically. The prior
distribution of xT is used to make inferences at ungauged sites which includes a point
estimation and an assessment of the prediction uncertainty. These may be quantified as,

334
respectively, the mean value and the variante in the prior distribution, i.e.

E {x,} = [omx~$x)dx , Var Lx+.1= /om(x - E Lx,})2&$x) ~5 (19.29)

where the integrations again have to be carried out numerically.


For estimation at gauged sites prior and site-specific information of the PDS-parameters
are combined using Bayes’ theorem. For the h-parameter application of Bayes’ theorem
implies a gamma distribution as the posterior distribution fL’(@), cf. (Eq.19.24), but with
updated parameters v, = v+N and 2, = r+t. The posterior distribution of the a and the K-
parameter using Bayes’ theorem reads

(19.30)

where

&@,Q
=fiizl ’ 1-k a(1xi+ k)
a(1 +k)
is the sample likelihood function of (a,K). For k > 0 the GED has an Upper bound, and hence
Z,,(a,k) is given by (Eq. 19.3 1) only if vxi : xi 5 a( l+k)/k. Otherwise Z,,,(a,k) is equal to zero.
Finally, by substituting f,(l) with f;(P) andf,(a)f,(k) withf’&u,k) in (Eq.19.27) the posterior
distribution of xT is obtained. A point estimator and the associated variante cari then again be
calculated from (Eq. 19.29).
It should be noted that the Bayesian procedure allows the use of a so-called non-
informative prior when no prior knowledge about the parameter is available. Non-informative
priors of the h and the a-parameter are, respectively, f,(t) = l/(h) and f,(u) = llu (Berger,
1980). For instance, use of a non-informative prior of a in (Eq. 19.30) corresponds to an index-
flood procedure where the mean value is estimated from at-site data only.

19.5. Application

The regional drought mode1 has been applied to 11 Danish streamflow records with
observation periods ranging from 60 to 77 years. The truncation levels qo,i were taken as the
90%-quantiles of the daily flow duration curves, i.e. the levels which are exceeded 90% of the
time. A preliminary sensitivity analysis of the definition of drought events with respect to
pooling of mutually dependent droughts and exclusion of minor droughts was performed. The
analysis showed that a consistent definition of independence was obtained by pooling droughts
with (i) interevent times less than or equal to t, = 6 days, and (ii) ratios of the interevent
excess volume and the preceding deficit volume less than p, = 0.1. The exclusion of minor
droughts is closely related to the choice of a parent distribution. The distribution of the
drought duration seems to be well described by the GED at a11stations without excluding any
minor droughts. The distribution of the deficit volume, however, has a very long tailed
behaviour at a significant number of the stations, and a large part of the droughts have to be
excluded to obtain a proper fit of the GED. Thus, we have to balance the bias due to lack of
fit to the GED against the sampling uncertainty due to abstraction of a small sample. As a
compromise it was decided to exclude droughts with durations less than 0. lE{D} or deficit
volumes less than O.lE{S}. Hereby drought samples were obtained with a mean annual
number of observations ranging from 1.0 to 2.3. At some stations the compromise implied a

335
lack of fit to the GED for deficit volumes with large return periods, and at this point further
research is needed. Probably a regional mode1 that is based on an alternative, more elaborate,
parent distribution should be formulated.

Table 19.1. Regional properties of the PDS-parameters

Duration Deficit volume


h a K cx K

Regional mean rlîe 1.54 23.3 -0.165 0.889 -0.337


Regional var. s2 0.141 37.8 0.0126 0.197 3.77.10.’
Sampling error var. co,$i4 0.0211 8.45 0.0100 0.0307 9.75*1o--î
Average corr. coef. & 0.0974 0.399 0.159 0.418 0.175
Mode1 error var. d,z 0.122 32.7 4.20.10-3 0.179 0

Based on the at-site samples of D and S estimates of the PDS-parameters and the
associated sampling error variantes were calculated from, respectively, (Eq. 19.5) and
(Eq.19.6). The regional properties of the PDS-parameters are shown in table (19.1). TO
facilitate a comparison between catchments the deficit volume has been standardized by the
mean flow, i.e. S has the dimension of days. The intersite cor-relation is seen to be pronounced
for the magnitudes of D and S implying that severe droughts have a large areal coverage in
Denmark. The small intersite cor-relation between the annual number of drought events, ph,
originates from the combination of a small h-value (only few events per year) and the fact that
the number of events cari take on only integer values.
For a preliminary examination of the regional variability of the PDS-parameters, the
approximate mode1 error variante of the regional mean mode1 was calculated (see table
(19.1)). Application of (Eqs. 19.1% 19.19) for the K-parameter of S provides a negative mode1
error variante implying that the sampling errors more than account for the regional variability,
and hence no regional variability of K is likely to be present. For the other parameters the
results suggest that regression with catchment characteristics may provide better prior
estimates of the regional properties. For large quantile estimation, however, the variability of
the h-parameter has only a small impact on the uncertainty of the T-year event estimate, and
hence no attempt was made to describe the regional variability of h from catchment
characteristics.
For the a and the K-parameter of D and the a-parameter of S regional regression
analyses were performed. The available catchment characteristics are given in table (19.2). The
GLS regression procedure was applied including a11combinations of the explanatory variables.
The final choice of regression mode1 was made by using the prediction error variante, cf.
(Eq.19.17), as a performance index, i.e. the mode1 that produced the lowest value of C&:/M
was generally chosen. However, due to the principle of parameter parsimony, if only a minor
improvement was obtained by including an additional catchment characteristic, that
characteristic was not included. Further, since the prior information of a and K are assumed
to be independent, inclusion of the same catchment characteristic in the regression equations
for a and K was avoided. The results from the GLS regression analyses are shown in table
(19.3). For the K-parameter of S the GLS estimated parameters in the regional mean mode1
are also shown in table (19.3). Note that the GLS estimate of the regional mean differs slightly
from the simple regional average, cf. table (19.1), since the at-site parameters are weighted
according to the sampling errors.

336
Table 19.2. Catchment characteristics

Catchment characteristic Notation

Catchment area [km21 AREA


Main stream length [km] MSL
Stream slope [%] SLOPE
Stream frequency [no. of second order streams] STMFRQ
Soi1 index’ SOIL
Average annual rainfall [mm] AAR
Fraction of catchment that is urbanized [%] URBAN
Fraction of catchment covered by forest [%] FOREST

’ The soi1 index ranges from 0 to 6 where a low value indicates soils predominated by sand and grave1 and a high
value indicates soils predominated by clay.

Table 19.3. Results from the GLS regressions

Variable Regression equation Mode1 error Average prior


var. var.

D a = 28.7 - 50.1 SLOPE 13.3 19.5


K = 0.227 - 9.55.10-4AREA - 0.111 SOIL 8.70.10-’ 3.53.10-3
S 01 = 2.14 - 0.455 SOIL - 0.0152 FOREST 8.75.10-” 2.31 .lO-*
K = -0.362 0 1.74*10e3

Based on the regional properties of the PDS-parameters a prior distribution of the T-year
event cari be calculated using the Bayesian estimation procedure. Thus, in this case the
extreme drought characteristics at an ungauged site are estimated on the basis of the catchment
characteristics SLOPE, AREA, SOIL, and FOREST. In addition, to transform the deficit
volume from dimension of days to m3 an estimate of the mean flow is required, and this is
in general readily obtained from catchment characteristics. Since droughts are defined
relatively to the 90%-quantile of the flow duration curve, the method requires no estimate of
the truncation level at the ungauged site. However, if needed, an estimate of a quantile of the
flow duration curve cari be obtained using catchment characteristics (Fennessey and Vogel,
1990).
At the gauged site the prior information is combined with the sample information using
the Bayesian updating scheme. For two stations in the region prior and posterior estimates of
the 50-year drought duration and deficit volume and the corresponding standard deviations are
shown in table (19.4). For comparison, estimates based on at-site data only are also shown in
table (19.4). The difference between the standard deviations of, respectively, the at-site
estimate and the posterior estimate is a measure of the gain in using regional information. At
both stations the gain is seen to be pronounced, especially for deficit volume where the
posterior standard deviations are, respectively, 65% (station no. 14.01) and 49% (station no.
59.01) smaller than the at-site standard deviations.

337
Table 19.4. Estimates of the 50-year drought duration D and defïcit volume S, &,, and the associated standard
deviations, S{&,), at station nos. 14.01 (sample size N = 106) and 59.01 (N = 102)

Station Variable At-site Prior Posterior


n 1 1
x50 w501 x50 SI-f,“} x50 S{%ol
14.01 D lWs1 131.3 27.4 110.0 24.5 117.0 14.5
S [%SI 9.27 2.49 7.39 1.60 7.08 0.88
59.01 D [Wsl 124.3 21.6 107.3 26.9 135.6 17.8
S [daysl 3.72 0.87 2.83 0.96 3.08 0.44

19.6. Conclusions

A regional mode1 for estimation of extreme streamflow drought duration and deficit volume
has been presented. The site-specific characterization of droughts is based on the PDS mode1
with GED distributed magnitudes. The regional variability of the PDS-parameters is used as
prior information in a Bayesian estimation procedure that makes inferences possible at
ungauged sites. If streamflow observations are available at the site being considered, the
Bayesian procedure provides an updating scheme in which prior and sample information are
combined.
TO describe the regional variability of the PDS-parameters a regional regression mode1
that relates the parameters to catchment characteristics has been applied. In order to take
sampling errors and intersite dependence into account GLS regression is used to estimate the
parameters of the regression equation and the associated mode1 error variante. For calculation
of the intersite cor-relation structure a method based on conditional probability theory has been
presented.
The regional method has been applied to Danish streamflow records. For drought
duration the GED provides a proper fit, whereas a lack of fit is observed in the tail of the
distribution for deficit volume at a significant number of the stations. At this point further
research is needed. However, some preliminary conclusions from the application cari be drawn.
The intersite correlation is relatively large implying that a severe drought has a large areal
coverage in Denmark. For a11GED parameters, except the shape parameter of the deficit
volume, regional regression equations have been formulated. For the shape parameter of the
deficit volume a regional mean mode1 that implies the shape parameter to be constant in the
region was found adequate. A comparison between T-year event estimation procedures
revealed that the regional Bayesian approach is superior to estimation based solely on at-site
data. In addition, the Bayesian approach provides an estimation procedure at ungauged sites
which is very important for a general assessment of regional droughts.
Bibliography

BERGER, J.O. (1980) Statistical decision theory, foundations, concepts and methods,
Springer-Verlag, New York Inc.
BERNIER, J. (1967) ‘Sur la théorie du renouvellement et son application en hydrologie’,
Electricité de France, Hyd. 67(10), 32 pp.
FENNESSEY, N. and R.M. VOGEL (1990) ‘Regional flow-duration curves for ungauged sites
in Massachusetts’, J. Water Resour. Plann. Manage., ASCE, 116(4), 530-549.
MADSEN, H. and D. ROSBJERG (1994) ‘Application of the partial duration series approach
on a regional scale’, Proceedings of Nordic Hydrological Conference, Torshavn, NHP-
report no. 34, 379-388.
MADSEN, H. and D. ROSBJERG (1995) ‘On the modelling of extreme droughts’, Modelling
and Management of Sustainable Basin-scale Water Resources Systems (Proceedings of
a Boulder Symposium, July 1995), IAHS Publ. No. 231, 377-385.
MADSEN, H., D. ROSBJERG and P. HARREMOËS (1994) ‘PDS-modelling and regional
Bayesian estimation of extreme rainfalls’, Nordic Hydrol., 25(4), 279-300.
MIKKELSEN, P.S., H. MADSEN, D. ROSBJERG and P. HARREMOËS. (1996) ‘Properties
of extreme point rainfall III : Identification of spatial inter-site correlation structure’,
Atmos. Res., 40, 77-98.
ROSBJERG, D. and H. MADSEN (1996) ‘The role of regional information in estimation of
extreme point rainfalls’, Atmos. Res., 42, 113-122.
SHANE, R.M. and W.R. LYNN (1964) ‘Mathematical mode1 for flood risk evaluation’, J.
Hydraul. Div. ASCE, 90(HY6), l-20.
STEDINGER, J.R. (1983) ‘Estimating a regional flood frequency distribution’, Water Resour.
Res., 19(2), 503-510.
STEDINGER, J.R. and G.D. TASKER (1985) ‘Regional hydrologie analysis, 1. Ordinary,
weighted and generalized least squares compared’, Water Resour. Res., 21(9), 1421-
1432. Correction, Water Resour. Res., 22(5), 844, 1986.
STEDINGER, J.R. and G.D. TASKER (1986) ‘Regional hydrologie analysis, 2. Mode1 error
estimates, estimation of sigma, and log Pearson Type 3 distribution’, Water Resour.
Res., 22( lO), 1487-1499.
TODOROVIC, P. and E. ZELENHASIC (1970) ‘A stochastic mode1 for flood analysis’, Water
Resour. Res., 6(6), 1641-1648.
YEVJEVICH, V. (1967) An objective approach to definitions and investigations of continental
hydrologie droughts, Colorado State University, Hydrology Paper No. 23, Fort Collins,
Colorado, USA.
ZELENHASIC, E. and A. SALVAI (1987) ‘A method of streamflow drought analysis’, Water
Resour. Res., 23(l), 156-168.

339
20. Flood frequency studies using
regional methods

J.V. Sutcliffe
Heath Barton, Manor Road, Goring on Thames, RGS 9EH,
UK
F.A.K. Farquharson
Institute of Hydrology, Wallingford, 0X10 8BB, UK
Abstract

The paper describesa number of regional flood frequency studies which have been carried out at the
Institute of Hydrology during and following the investigations leading to the Flood Studies Report.
These studies have been based on flood records from a number of countries throughout the world.
Because the results of these studies have been published in various forms as they progressed, the
opportunity has been taken to summarise some of the results of earlier studies and to bring them
together in a form which enables comparisons to be made with recent findings. The estimation of
floods may require the use of relations betweenmean annual flood and basin characteristicswhile the
use of regional dimensionlessfrequency curvesprovides a meansof extrapolation beyond the period of
a single record. Examples show that the form of thesecurves varies widely between different climates,
and it is suggestedthat the date of occurrenceof annual maxima could be a useful index. The role of
historical evidenceis discussedbriefly.

Résumé

Cet article décrit un certain nombre d’étudesrégionalesde fréquencede crues qui ont été effectuéespar
l’Institut d’Hydrologie pendantet aprèsles étudesmenéespour le UK Flood StudiesReport. Ces études
se sont baséessur les archives des crues pour un certain nombre de pays à travers le monde. Comme
les résultats de ces étudesont été publiés au fur et à mesuresousdes formes variées, c’est ici l’occasion
de réunir certains des résultats des premièresétudeset de les présentersous une forme permettant la
comparaison avec de plus récentes. L’estimation des crues demandel’utilisation de relations entre la
moyennedes crues annuelleset les caractéristiquesdu bassinversant,tandis que l’utilisation de courbes
de fréquencenon dimensionnéespermet l’extrapolationau-delàde la période couverte sur le site par un
simple enregistrement. Des exemples montrent que la forme de ces courbes varie énormémentd’un
climat à l’autre, et on suggèreque la date d’occurrencedes maxima annuelspeut être un indice explicatif
utile. Le rôle de l’information historique est discutebrièvement.

341
20.1. Introduction
This paper describes a series of flood frequency studies which have been canied out using
regional methods of analysis, with not only the practical aim of suggesting methods of estimating
flood magnitudes but also the wider ambition of leading towards an understanding of the ways in
which floods vary with climate and other factors between different regions of the world. A number
of the regional studies on which the paper is based have been published in various forms, and the
basic data have either been included or summarised in these publications. In general the flood
records were instantaneous peak flows derived from various sources, but daily flows have been
included where the size of the basin allowed the assumption of equivalence. The statistical
assumptions and findings are in general also confined to these publications, but some key
references are included in this paper.

20.2. Need for flood estimation


In most cases efficient flood risk management requires a knowledge of relations between
flood magnitude and frequency of occurrence. Although the estimated maximum flood is usually
required for dam spillway design where heavy loss of life is threatened by underdesign, the flood
flow expected to be exceeded with a given frequency may be specified by codes of practice for
small dams in sparsely populated areas. In other engineering examples the appropriate design
frequency may be deduced by optimising the balance between expected damage and the cost of
damage reduction by flood control. This requires estimates of the flood frequency relation and the
extent of potential damage.
The benefits of flood control may be assessed from analyses of potential damage as a
function of river level or flow (Penning-Rowsell & Chatterton, 1977). These studies of damage
may be based on sampling the types of buildings present on the floodplain and relating damage to
flooding level, and on similar studies of agricultural land within the floodplain. Financial estimates
of damage provide one side of the cost : benefit analysis once the river levels have been related to
frequency through flood assessments.
Having set out the context in which flood estimates are required, this paper concentrates on
the role of statistical hydrology in providing these estimates. The relation between flood magnitude
and frequency of occurrence is required at the project site which may have a long period of flow
records but often has a short or no record nearby. In order to take account of a11 available
information it is desirable to make use of relations between floods and basin characteristics and to
combine regional sources of information, including historical flood records, with any records at the
site (Dalrymple, 1960).

20.3. Flood studies of the British Isles


The application of these principles to flood frequency estimation in the British Isles was
illustrated by the studies leading to the Flood Studies Report (NERC, 1975). These studies
included the collation of flood records, paying attention to the reliability of the calibration curve at
high flows, the extraction of both annual maximum (AM) flows and peaks over threshold (POT)
series from microfilmed records, and the derivation of estimates of the mean annual flood from
both AM and POT series. It was shown by Bernier (1967) that the combination of a Poisson
process for the incidence of flood events and an exponential distribution for their magnitude was
equivalent to an extreme value Type 1 (EVl) distribution of the AM series, and thus the mean
annual flood (MAF) may readily be derived from either the AM or POT series, with a relative
precision which depends on the number of years of record (Cunnane, 1973).
The estimates of MAF at a11gauged sites (532 in all, with average duration of 13.5 years)
were compared with basin characteristics in a multivariate regression analysis in order to provide
estimates at ungauged sites. The characteristics selected for this comparison were intended to

342
sample all the factors which give rise to flood events :

“basin size giving scale (AREA, kn?),

‘net daily rainfall (gross rainfall less mean soi1 moisture deficit) of an arbitrary .5-year
retum period to index runoff volume (RSMD, mm),

“soi1 index of rapid runoff under standard conditions (SOIL),

Ochannel slope and stream frequency to indicate response time and tbus hydrograph
shape (SlOSS, m.km-l and STMFRQ), and
“indices of lake control and urban development (LAKE and URBAN) .
The variability of conditions within the British Isles meant that although the equation linking
MAF (in m?s-1) to these characteristics, eg :

MAF=0.0201 AREAO~~4STh4FRQO~~?U0850~1~SOIL1~2~RSMDl~O~ (l+LAKE)-“.85 (20.1)

explained 92% of the variante, the factorial standard error of estimate (fsee) of the prediction was
0.168 in (base 10) logarithmic terms or times 1.47 or 0.679 in multiplicative terms. Comparisons
of results obtained from sets of records of different durations suggest that about half the residual
error is accounted for by sampling error (NERC, 1975, p.I.327). It was encouraging to note that as
further flood-producing factors were included in the regression, the exponents of the two factors
area and short-term net rainfall tended towards the physically reasonable values of unity.
Nevertheless the predictive power of the equation was worth only about one year’s actual record at
the site, SO that the preferred method of estimating MAF was from either AM or POT series of
measured flows.
The fitting of a curve to a set of flood records implies the choice of a suitable statistical
distribution. Gumbel (1940, 1941) first applied the extreme value distribution, for which there is
some theoretical justification, to flood records while working in France. Bernier (Morlat et al.,
1956; Bernier, 1956) pointed out that other forms of the extreme value distribution may be used for
floods, and applied the Fréchet distribution which is related to the Gumbel distribution by a
logarithmic transformation. Jenkinson (1955) combined the three forms of the extreme value
distribution into the General Extreme Value (GEV) distribution, defined by :

F(x) = exp {-[1 -k(x-U)t@]-llk}. (20.2)

This distribution was chosen for the Flood Studies Report because of its flexibility and its
ability to fit the records of storm rainfall and flood peaks in practice.
Flood frequency may be related to the estimated MAF by a dimensionless frequency curve.
This may be based on the records at a single site but as individual records are generally too short to
sample the full variability of storms and floods it should be more reliable to use a11the records of a
reasonably homogeneous region to increase the sample. A separate exercise led to regional
grouping of flood records and the derivation of regional dimensionless flood frequency curves.
Although the initial groups were selected geographically by major basin boundaries for convenience
of definition, it was realised that the reasons for differences between regions were largely climatic.
The slope and curvature of the regional frequency curves based on these samples were both found
to increase as the rainfall decreased. It was noted during the study that the growth curves of the
different regions were consistent with the regional growth curves of the net rainfall, which were
deduced from the growth curve corresponding to the average rainfall of each region by subtracting
the effective mean soi1 moisture deficit, which was found to be independent of return period (Beran
& Sutcliffe, 1972).
As historical records of major floods cari extend the sampling period where these exist, a

343
search was made for such information during the course of the study (NERC, 1975, pp.IV.73-88).
Where physical flood marks could be related to the calibration curve at a nearby flow station, or
where newspaper accounts gave sufficient information to deduce the flows on specific dates, these
records were used to extend the effective record period. Techniques were developed to include such
records in single station analysis by maximum likelihood methods, but in order to include them in
the regional frequency curves graphical methods of curve extension were used.

20.4. Choice of regions


The regional approach depends on dimensionless frequency curves derived from a number of
basins which may be regarded as reasonably homogeneous. Problems associated with the regional
approach are on the one hand those of basin heterogeneity and on the other hand those of regional
dependence (Hosking & Wallis, 1988). Because the basis of the regional approach is that
frequency curves reflect floods which might occur at a given site but may not have been sampled in
the relatively short measured record, a degree of variability of record is desirable SO that, for
example, severe convective storms which have been observed at some sites are reflected in the
distribution at other sites. On the other hand, it is desirable that single widespread floods should not
have undue influence (Reed & Stewart, 1991). A variety of approaches have been advocated in
selecting regions. In some cases, like those leading to the Flood Studies Report, geographical
regions were selected using groups of river basins, and differences in regional curves were noted to
correspond with climatic and topographie factors.
Other studies (eg Wiltshire, 1986b) have used site flood statistics to test these groupings and
shown that the groups were heterogeneous. When alternative groupings are derived directly from
the records by linking those sites with similar specific floods (MAFIAREA) and coefficients of
variation (CV), the groups are naturally found to be more homogeneous and the regional curves
more distinct. However, this approach makes it more difficult to allocate an ungauged site to a
specific group, and it is necessary to relate the groupings to basin characteristics and derive the
probabilities of the ungauged site being in one of the groups defined by records. It could be argued
that this is not dissimilar to using geographical regions. It appears desirable to test the effect of
grouping sites by basin characteristics other than position, but this requires the availability of the
relevant characteristics for a11sites.
In most of the studies described in this paper, a more empirical approach has been used. It
has generally been found that the variability of floods, whether expressed as CV or as a regional
curve, is related mainly to climate factors, as measured by short-term rainfall and soi1 moisture
deficit or even by mean annual rainfall. Although there was no apparent link between basin size and
variability in the British Isles, it could be argued that size is important, because extreme convective
storms are more effective on small basins while large basins are less liable to extreme storms over
their whole extent. Other basin characteristics are more likely to affect the whole range of storms
and floods in a similar way, SOare less likely to be significant in regionalisation. In fact basin size
and average rainfall are in many cases the only characteristics which are generally available. It is
hoped that the evidence from a very wide range of conditions Will provide a contribution to the
debate on effective regionalisation.

20.5. Extension of studies


Since the publication of the Flood Studies Report, the techniques developed have been
applied to flow records from a number of other countries. In some cases the flood rating curves
were checked during the investigations but in other cases the records were accepted as published.
The main features of these studies have been the use of annual maximum series, the general
extreme value (GEV) distribution for the regional growth curve and the estimation of its parameters
using the method of probability weighted moments (PWM) (Hosking et af., 1984). Regressions
between MAF estimates and basin characteristics were also carried out but the range of
characteristics was often limited by the need to derive these for all the records from available maps.

344
The results of these studies have been published in a variety of forms but the purpose of this paper
is to attempt to draw more general conclusions, particularly on the form of the regional growth
curves.

20.6. Studies in western Europe


In the context of collaborative studies of flow regimes in northwestern Europe (Gustard et
af., 1989), annual maximum flood records from some 1600 stations with an average record of 17
years were analysed. The dominant dates of occurrence of these floods were used to classify flood
regimes into glacier and mountain regimes, with summer maxima derived largely from snowmelt,
maritime regimes with high winter floods from frontal rain, and inland regions with lower average
floods but with occasional heavy storms increasing variability. Regional growth curves were
derived for each of the 12 countries contributing data, and show growth curves which are flat in
Ireland and the Scandinavian countries and rise towards the centre of Europe. However, these
groups were found to be highly heterogeneous using tests for regional homogeneity suggested by
Wiltshire (1986a). When all the stations were regrouped from their records according to their
specific floods and the CVs of annual maxima, the results were naturally more homogeneous and
more distinctive in terms of growth curves, but the distribution of the basins was less clearcut, with
one of the flatter groups associated with hilly areas near western toasts and a group with steep
distributions mostly in lowland areas in the east and south with their highest floods from summer
storms. An attempt to group stations over the whole area according to selected basin characteristics
(Acreman & Sinclair, 1986) failed to produce distinct regional subsets. This study illustrates the
choice between geographical regions which are distinct but not homogeneous and regions defined
by flow data or by basin characteristics, which tend to be more homogeneous but less easy to
define in terms of ungauged basins.

20.7. Studies in other parts of the world


Following initial trials and a suggestion that more studies could prove fruitful (Sutcliffe,
1980), regional statistical studies have been carried out in different parts of the world, some by
national bodies and others as part of a continuing research programme at the Institute of
Hydrology, largely funded by the Overseas Development Administration. These studies have
covered a wide variety of countries and climates, for which the necessary flood data were readily
available. Sources of records included a number of areas for which investigations had been carried
out. Other records were deduced from national yearbooks or from international publications such as
UNESCO (1976) and IAHS (Rodier & Roche, 1984) which provided annual maximum series for
selected stations from a number of countries. In these studies the estimation of MAF from basin
characteristics has been to a large extent limited by the lack of available detailed maps, particularly
for characteristics whose estimation requires thematic maps like soi1 type which proved to be an
important variable in the British Isles. The lack of large scale mapping made consistent derivation
of such variables as stream frequency or even channel slope impossible in most cases, SOthat the
two variables generally available for comparison were limited to basin area and mean annual rainfall
(AAR).
Fortunately these are the two variables which appear to be most important in controlling the
regional growth curve, SO that it is the dimensionless frequency curves which provide the most
useful comparisons within and between areas of study. It is in these curves that the effect of climate
has been most clearly evident, and it is to a large extent the seasonal distribution of the rainfall
which has proved to be as important as its annual total. For example, the limited records readily
available (Farquharson et al., 1987) from areas where snowmelt is the dominant cause of flooding
show that regional growth curves are extremely flat and unskewed; examples of such records
include NW USA and Canada and N Russia where very similar examples of growth curves are
listed in table (20.1) and illustrated in figure (20.1).

345
Table 20.1. Summary of snowmelt region frequency curves

Retum period (T), years


No. of Stns u a k 5 10 25 50 100 200 500
Region
Q( T)IMAF
NW USA & Canada 15 ,857 .254 .016 1.23 1.42 1.65 1.82 1.98 2.15 2.36
N Russia 12 ,849 .254 -.018 1.24 1.43 1.69 1.88 2.07 2.26 2.52

After : Farquharsonet aL(1987)

3
T N Russia

Gumbel reduced tariate. v

Fig. 20.1. Regional growth curves for sample snowmelt areas

At the other extreme, analysis of 162 stations from arid areas (AAR < 6OOmm) provide
(Farquharson et ai., 1992) very steep and skewed curves deriving from areas as far apart as SW
USA, Saudi Arabia, Botswana and South Africa, and SW Queensland. Although relations between
MAF and basin characteristics :

MAF = 0.172 AREA0.572 AARO.416 (R2 = 0.57) (20.3)

are imprecise and variable in these areas, partly because of the problems of measurement and
extreme sampling errors, the regional growth curves are in several cases indistinguishable from
each other or from the curve derived from the total set (table (20.2) and figure (20.2)).

Table 20.2. Summary of arid region frequency curves

Returnperiod (T), years


Region No. of u a k 5 10 25 50 100 200 500
Stns
Q(T)IMAF
S Africa & Botswana 42 .450 .429 -.422 1.35 2.06 3.36 4.70 6.51 8.95 13.4

Ensland 24
30 .586
.426 .396
.492 -.326
-.378 1.35
1.42 2.17
1.90 2.82
3.49 4.82
3.70 4.81
6.53 6.21
8.77 8.57
12.8
Saudi Arabia & Yemen 30 .428 .460 -.408 1.38 2.12 3.46 4.84 6.66 9.10 13.5
Total region 162 .476 .428 -.400 1.36 2.04 3.25 4.51 6.15 8.32 12.3
After : Farquharsonet a1.(1992)
Fig. 20.2. Regional growth curvesfor sample arid areas

Another area where a large body of data had been published and which could be used for
detailed analysis (Farquharson et al., 1993) was West Africa, where a number of yearbooks
provide annual maximum flows for 224 stations in 12 countries. Basin areas ranged from 56 to
400,000 km2 and AAR from 740 to 3600 mm. Although relations betwen MAF and AREA and
AAR were derived for different ranges of area and rainfall, it was found that the most reasonable
groupings were by ranges of latitude and longitude. For deriving growth curves, however, it was
found by tria1 and error that grouping by rainfall provided the most consistent criterion; the wetter
areas provided the flatter curves, with the exception of the driest group, which was dominated by
the largest rivers like the lower Senegal stations. There was also some tendency for smaller basins
to have steeper curves and large basins the flatter curves. Examples of these curves are given in
table (20.3) and illustrated in figure (20.3).

Table 20.3. Summary of West African frequency curves

1 , ye=-
m (mm) No. of u a k 5 10 25 50 100 200 500
Stns
Q(T)IMAF
<lOOO 23 .84 1 .370 .174 1.33 1.53 1.75 1.89 2.01 2.12 2.25
1001-1250 53 .806 .424 .136 1.38 1.63 1.91 2.09 2.26 2.41 2.59
1251-1500 51 .813 .390 .llO 1.35 1.59 1.87 2.05 2.22 2.38 2.57
1501-1750 70 .881 .234 .076 1.21 1.37 1.55 1.67 1.79 1.90 2.04
>- 1750 27 .908 .219 .183 1.20 1.31 1.44 1.52 1.59 1.65 1.72
After : Farquharsonet al. (1993)

347
Gum bel reduced variate, y

Fig. 20.3. Regional growth cuves for rainfall zones in West Africa

The peculiarity of this area is that in general floods are derived from the accumulated volume
of surplus rainfall over a single monsoon season, and in this sense it appears that this area has
similarities to the snowmelt region. It has been shown (Sutcliffe & Piper, 1986) that annual runoff
cari be estimated from seasonal net rainfall, or accumulated rainfall less potential transpiration, after
soi1 moisture recharge has refilled the soi1 storage at the beginning of the rainfall season. Thus, by
comparison with most other areas, the regional growth curves in a11cases are extremely flat and the
k values are positive, implying a finite maximum flood.

20.8. Evidence from other areas

There appear to be at least three distinct areas with contrasting growth curves :

%nowmelt areaswhere the curves are flat;

“arid regions where the growth curves are extremely steep and concave upwards and
where they are very similar in areas as far apart as Botswana, Saudi Arabia and
Queensland;

“areas covering wide parts of tropical Africa from Senegal to the Blue Nile basin where
the curves are not only flat but concave downwards.

These three sets of curves may be compared with the three types of Gumbel curve which are
respectively linear, concave upwards and concave downwards. Before attempting to speculate on
the features which might cause these contrasts, it is appropriate to review the evidence from other
areas.
The flood curves derived for NW Europe (Gustard et al., 1989) cari be extended towards the
east by considering the less complete information available for a number of countries of eastern
Europe (Farquharson et al., 1987). These data, taken from UNESCO and IAHS publications, are
included in table (20.4) and suggest that the increases in slope and curvature which were a feature
of NW Europe continue farther east as illustrated by the curves of figure (20.4) from different
countries (the small selection of stations from Belgium is considered atypical.) The grouping by
countries is arbitray but illustrates the apparent increase in flood vatiability as the climate becomes
less maritime and more continental.

- .--
i
2 3 4 5 6 I

Gum bel reduced varlate. Y

Fig. 20.4. Regional growth curvesfor selected European countries

Table 20.4. Summary of European frequency curves

Returnperiod (T), years


Country No. of u a k 5 10 25 50 100 200 500
Stns
Q(T)IMAF
UK 401 .796 .320 -.058 1.30 1.57 1.92 2.20 2.49 2.78 3.19
Ireland 71 .868 .230 .OOl 1.21 1.38 1.60 1.76 1.92 2.08 2.29
France 266 .794 .346 -.017 1.32 1.59 1.93 2.19 2.45 2.71 3.06
FR Germany 326 .755 .372 -.077 1.35 1.67 2.10 2.45 2.81 3.19 3.72
Belgium II .710 .357 -.194 1.33 1.72 2.29 2.79 3.36 4.02 5.01
Netherlands 3 .795 .368 .022 1.34 1.60 1.93 2.17 2.40 2.64 2.93
Switzerland 83 .786 .297 -.127 1.28 1.56 1.96 2.29 2.64 3.03 3.59
Norway 89 .833 .281 -.015 1.26 1.48 1.75 1.96 2.17 2.38 2.66
Sweden 36 .817 .319 .OOl 1.29 1.53 1.84 2.06 2.28 2.50 2.79
Finland 36 .787 .337 -.053 1.31 1.59 1.96 2.25 2.54 2.85 3.27
Bulgaria 5 .667 .390 -.220 1.36 1.80 2.48 3.08 3.78 4.58 5.84
Czechoslovakia 16 .717 .356 -.182 1.33 1.71 2.26 2.74 3.28 3.89 4.82
Denmark 62 .814 .302 -.037 1.28 1.52 1.84 2.08 2.33 2.58 2.92
Hungary/Yugo. 12 .793 .281 -.139 1.26 1.54 1.93 2.25 2.61 2.99 3.56
Poland 11 .734 .373 -. 120 1.35 1.70 2.19 2.59 3.03 3.50 4.17
Romania 13 .669 .336 -.296 1.30 1.74 2.46 3.14 3.97 4.98 6.67
After : Gustardet ai. (1989) and Farquharsonet al. (1987)

There are anomalous areas where monsoon climates apparently not dissimilar to West Africa
give rise to relatively steep and skewed growth curves. These include Kenya, and particularly Sri
Lanka, where the growth curves are extremely steep in spite of the heavy rainfall. A detailed study
of the flood regimes of Sri Lanka was carried out as part of a review of dam safety, and the flood
records of a11 72 stations with adequate periods of record and calibration were collated. The
correlation of MAF with AREA and AAR gave an equation:
MAF = 7.17.5”10-3 AREAO.7176 AARO.8215 (R2 = 0.82) (20.4)
This equation explained 82% of the variante but still had a fsee of 1.45 in multiplicative
terms. However, the growth curves gave valuable evidence of the variability of annual floods by
comparison with the variability of the climate. Table (20.5) and figure (20.5) show the curves
derived from grouping the stations into regions N, SW and SE of the central massif (C).

Table 20.5. Summary offrequency curves for Sri Lanka

Return period (T), years


Region No. of u a k 5 10 25 50 100 200 500
Stns
Q(T)IMAF
North 18 .540 .374 -.403 1.31 1.91 2.98 4.08 5.53 7.44 11.0
South west 32 .773 .319 -.121 1.30 1.60 2.02 2.36 2.73 3.14 3.73
South east 7 .670 .445 -.143 1.41 1.85 2.48 3.00 3.57 4.20 5.12
Central 15 .686 .322 -.290 1.29 1.71 2.38 3.02 3.79 4.73 6.30
Al1 data 72 .687 .343 -.257 1.31 1.73 2.39 2.99 3.70 4.55 5.94

10
/

8 i

7
Ï

Fig. 20.5. Regional growth cuves for Sri Lanka

The steepness of the curves generally reflects the relative wetness of the different areas,
where the average annual rainfall for the different groups ranges from 1720 to 3400 mm. However,
the curves are extremely steep by comparison with say the West African set. The likely cause of
this is the seasonal variability of the climate, which is dominated by the SW and NE monsoons
providing rainfall during the periods May-September and December-February, with smaller
amounts of rainfall of either convective or cyclonic origin during the inter-monsoon periods.
Although the high and steep central massif divides the island into areas of dominant rainfall in
different seasons, an inspection of the dates of the annual maximum floods shows that in most
different seasons, an inspection of the dates of the annual maximum floods shows that in most
cases there is a wide variety of dates of occurrence over the periods of record. This is illustrated by
figure (20.6), where the recorded dates of annual maxima for typical rivers in central Sri Lanka,
West Africa and NW Canada are compared. Whereas in West Africa there is a dominant date when
the flood is caused by accumulated rainfall over the concentrated season giving rise to saturated
conditions, the floods in Sri Lanka are liable to occur over a wide range of dates. This hypothesis is
supported by evidence from Kenya, where the growth curves are steeper than would be expected
from rainfall alone; there are two distinct wet seasons and there is evidence that although the main
rain season is in April/June, the second season in November/December has been responsible for
exceptional floods as in 1961. This contrast is mirrored by the examples of a snowmelt river in NW
Canada, where the flood date varies little, and an arid wadi in Jordan where a range of dates is
found.
- 1

Fig. 20.6. Month of occurrence of annual maxima for selected stations

Thus there appears to be a distinction between those tropical areas where two monsoon
seasons, and perhaps other storm regimes, give rise to variable flood dates, and those areas where
a single monsoon season results in predictable flood dates; in the latter case it is to an extent the
accumulation of rainfall over the season that gives rise to floods, as illustrated by a typical annual
hydrograph. The same reasoning explains the relatively flat curves for snowmelt flooding and even
the winter flooding of maritime basins in Europe, where the date of flood events has been found to
be predictable near the western toasts and more variable as the variety of flood events increases to

351

- .~- -~
the east. Other influences clearly play a part, for instance the basin size. In West Afiica, as noted,
the slope of the growth curve has been found to decrease on average as the basin size increases.
Indeed, if the group of ver-y large basins from a11parts of the world is considered, the growth
curves are extremely flat (Acreman & Farquharson, 1992). Nevertheless, the climate appears to be
the dominant factor in determining the shape of the regional frequency curve. The extreme contrast
between different climate zones is illustrated by figure (20.7), where the British curve is included
for reference.

12
Arid zone

11

10

9
i

8
1

UK

0 1 2 3 4 5 6 f

Gumbel reduced variate, y

Fig. 20.7. Regional growth curvesfor varions regions

20.9. Historical flood evidence


Historical flood evidence is a potentially useful source of information on regional flood
frequencies. In many areas there is evidence of the levels of floods before the start of scient& river
flow measurement. This may take the form of flood marks in ancient city sites or along
well-populated river valleys. Examples (Sutcliffe, 1987) are flood marks in York or Nottingham in
B&ain, which cari provide evidence of floods spanning several centuries, or the rock-tut marks
along the Yangtze which provide evidence of high floods as far back as the 12th century. In some
cases the stability of the rating curve may make it difficult to interpret early evidence in terms of
flow. Although the Yangtze gorge is relatively stable, SOthat recent flood frequency curves may be
adjusted using early evidence, it is difficult to use the long Roda Nilometer record in Cairo, where
annual maximum and minimum levels have been recorded more or less continuously since 622 AD,
since the site has been subject to aggradation. Even longer periods of floods may be covered by
prehistoric or geological evidence. For example, there is evidence from a cave near the outfall of
Lake Victoria that the recent highest lake level following the rise of 1961-64 had not been exceeded
over nearly 4000 years. Palaeoflood evidence (Baker, 1987) from sediments deposited by past
floods may provide further evidence of the potential of a river basin.
The incorporation of historical evidence in single station analyses has been developed by
maximum likelihood methods (NERC, 1975, p.I.215), where the historic evidence may be treated
as a period of censored record, on the assumption that all floods above a threshold indicated by the
existing flood marks would have been recorded. This evidence has also been included in regional
analysis in Britain by graphical methods, using appropriate plotting positions for each flood.
Studies have shown (Tasker & Stedinger, 1987) that the inclusion of historical information cari
significantly improve estimates of regional regression mode1 parameters. There is a need to extend
the PWM approach to provide formal ways of incorporating historical flood evidence in regional
growth curves, taking note that the ubiquity of large floods might be exaggerated by assuming that
those sites with such records are typical.

20.10. Discussion and conclusions


It is recommended that the estimation of the flood frequency relation at a site be approached in
two stages. The mean annual flood may be estimated from records at or near the site from the
arithmetic mean of annual maxima if the record is adequate, or from the POT series using the
Bemier hypothesis where the record is short. When no flood records are available at the site, it may
be necessary initially to estimate the mean annual flood from basin characteristics. Although
regional relations between mean annual flood and generally available factors like basin area and
rainfall cari give a preliminary estimate, it is desirable to include other basin factors like soi1
permeability, channel slope and network, and perhaps land use, in a more detailed study of flood
records. An example of such a study where local knowledge cari be incorporated is that of Rodier
(1993) for West Africa.
Because the length of record at a single project site is insufficient to estimate the shape of the
frequency curve, in particular the slope and skewness, the dimensionless regional frequency curve
presents a valuable method of converting the estimated mean annual flood to estimates for other
return periods (Cunnane, 1988). The derivation of these frequency curves for reasonably
homogeneous regions is a method of overcoming the problem of limited lengths of record at
individual sites. There is also need for methods of incorporating historical evidence in regional
frequency curves. The intelligent use of geographical areas to delimit appropriate regions should
take account of the apparent dominante of rainfall depth and its seasonal distribution in determining
the shape of frequency curves in a wide variety of climates. Because the purpose of combining
records from a variety of sites is to sample as far as possible the different storm events which could
occur over any one basin, the evidence of position and basin characteristics with an emphasis on
rainfall incidence is preferable in delimiting boundaries than an emphasis on short flow records at
individual sites.

353
Bibliography

ACREMAN, M.C. and F.A.K. FARQUHARSON. (1992) Flood frequency of the world’s largest
catchments. Proc. 3rd Intern. Conf. on Floods and Flood Management. Florence, Kluwer
Academic Publishers, 145156.
ACREMAN, M.C. and C.D. SINCLAIR. (1986) Classification of drainage basins according to their
physical characteristics : An application for flood frequency analysis in Scotland. J. Hydrol. 87,
365-380.
BAKER, V.R. (1987) Paleoflood hydrology and extraordinary flood events. J. Hydrol. 96, 79-99.
BERAN, M.A. and J.V. SUTCLIFFE. (1972) An index of flood-producing rainfall based on rainfall
and soi1 moisture deficit. J. Hydrol. 17, 229-236.
BERNIER, J. (1956) Sur l’application des diverses lois limites des valeurs extrêmes au problème des
débits de crue. La Houille Blanche, ll(5) 718-.
BERNIER, J. (1967) Sur la theorie du renouvellement et son application en hydrologie. Electricité de
France, HYD67, 10.
CUNNANE, C. (1973) A particular comparison of annual maxima and partial duration series methods
of flood frequency prediction. J. Hydrol. 18, 257-271.
CUNNANE, C. (1988) Methods and merits of regional flood frequency analysis. J. Hydrol. 100, 269-
280.
DALRYMPLE, T. (1960) Flood-frequency analyses. US Geol. Survey Water-Supply Paper 1543-A,
80~~.
FARQUHARSON, F.A.K., C.S. GREEN, J.R. MEIGH and J.V. SUTCLIFFE. (1987) Comparison of
flood frequency curves for many regions of the world, in : Singh,VP (ed) Regional Flood
Frequency Analysis, Reidel, Dortrecht, 223-256.
FARQUHARSON, F.A.K., J.R. MEIGH and J.V. SUTCLIFFE. (1992) Regional flood frequency
analysis in arid and semi-arid areas. J. Hydrol. 138, 487-501.
FARQUHARSON, F.A.K., J.V. SUTCLIFFE and J.R. MEIGH. (1993) Caracteristiques statistiques de
la crue régionale en Afrique de l’Ouest. Hydrol. Continent. 8, 3-16.
GUMBEL, E.J. (1940) Les Crues du RhGne.Annales de l’Université de Lyon 3, 39.
GUMBEL, E.J. (1941) Probability interpretation of the observed retum period of floods. Trans.
Amer. Geophys. Union, 836-850.
GUSTARD, A., L.A. ROALD, S. DEMUTH, H.S. LUMADJENG and R. GROSS. (1989) Flow
Regimes from Experimental and Network Data (FREND). Institute of Hydrology, Wallingford,
xvii+344pp.
HOSKING, J.R.M. and J.R. WALLIS. (1988) The effect of inter-site dependence on regional flood
frequency analysis. Water Resour. Res. 24, 588-600.
HOSKING, J.R.M., J.R. WALLIS and E.F. WOOD. (1984) Estimation of the generalized extreme
value distribution by the method of probability weighted moments. Technometrics 27, 251-261.
JENKINSON, A.F. (1955) The frequency distribution of the annual maximum (or minimum) values
of meteorological elements. Quart. J. R. Met. Soc. 87, 158.
MORLAT, G., A. BILLIET and J. BERNIER. (1956) Les crues de la Haute Durance et la théorie
statistique des valeurs extrêmes. Intern. Assoc. Hydrol. Sci., Publ. No. 42, Symposia Darcy
(Dijon), 99- 114.

354
NATURAL ENVIRONMENT RESEARCH COUNCIL (NERC). (1975) Flood Studies Report, 5
volumes.
PENNING-ROWSELL, E.C. and J.B. CHATTERTON. (1977) The Benefits of Flood Alleviafion : A
Manual of Assessment Techniques. Saxon House, Famborough, x+297 pp.
REED, D.W. and E.J. STEWART. (1991) Discussion of dam safety : an evaluation of some
procedures for design flood estimation. Hydrol. Sci. J. 36, 487-490.
RODIER, J.A. (1993) Paramètrescaracteristiques des fortes crues dans les régions tropicales sèches.
Premiere partie. Coefficient de ruissellement. Hydrol. Continent. 8, 139-160.
RODIER, J.A. and M. ROCHE. (1984) World Catalogue of Maximum Observed Floods. Inter. Assoc.
Hydrol. Sci., Publ. No.143, 354 pp.
SUTCLIFFE, J.V. (1980) Use of the Flood Studies Report Overseas.Znst. Civ. Engrs Conf., Flood
Studies Report- five years on, Manchester, 7-10.
SUTCLIFFE, J.V. and BS. PIPER. (1986) Bilan hydrologique en Guinée et Togo-Bénin. Hydrol.
Continent. 1, 51-61.
SUTCLIFFE, J.V. (1987) The use of historical records in flood frequency analysis. J. Hydrol. 96,
159-171.
TASKER, G.D. and J.R. STEDINGER. (1987) Regional regression of flood characteristics employing
historical information. J. Hydrol. 96, 255-264.
UNESCO. (1976) World Catalogue of Very Large Floods, UNESCO Press, Paris.
WILTSHIRE, S.E. (1986a) Regional flood frequency analysis 1 : Homogeneity statistics. Hydrol.
Sci.J. 31, 321-333.
WILTSHIRE, S.E. (1986b) Regional flood frequency analysis II : Multivariate classification of
drainage basins in B&ain. Hydrol. Sci. J. 31, 335-346.
PARTIE VI PART VI

THÉORIE STATISTIQUE DE LA
DÉCISION ET PRÉVISION
STATISTICAL DECISION THEORY
AND FORECASTING
PARTIE VI PART VI

THÉORIE STATISTIQUE DE LA
DÉCISION ET PRÉVISION
STATISTICAL DECISION THEORY
AND FORECASTING
2 1. LE DÉVELOPPEMENT RÉCENT DES SCIENCES DE LA DÉCISION : UN
REGARD CRITIQUE SUR LA STATISTIQUE DÉCISIONNELLE
BAYESIENNE / THE RECENT ADVANCE OF DECISION SCIENCES : A
CRITICAL VIEW AT BAYESIAN STATISTICAL DECISION THEORY . . . . . . . . . . . . . . . . 361-398
B. Munier, E. Parent

22. UTILISATION DES TECHNIQUES D’ANALOGUES POUR LA


PRÉVISION QUANTITATIVE DES PRÉCIPITATIONS JOURNALIERES /
QUANTITATIVE FORECASTING OF DAILY PRECIPITATIONS USING
ANALOG TECHNIQUES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 399-414
S. Guilbaud, J.Y. Rodriguez, C. Obled

23.RAINFALL FORECASTS FOR FLOOD MANAGEMENT IN RIVER


BASINS / LA PRÉVISION DES PLUIES POUR LA GESTION DES CRUES . . . . . . . . . . 415-436
H. Muster, A. Bardossy

24. PONDÉRATION BAYÉSIENNE DE PRÉVISIONS : UNE APPLICATION


OPÉRATIONNELLE À LA PREVISION DES CRUES / BAYESIAN
WEIGHTING OF FORECASTS : AN OPERATIONAL APPLICATION TO
FLOOD FORECASTING . . . . .., . . . . . . . . . , . . . . . . . . . . . . . , . . ,.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 437-446
P.A. Roche
21. Le développement récent des sciences de
la décision : un regard critique sur la
statistique décisionnelle bayésienne

Bertrand Munier
GRID, URA CNRS 1419,
École Normale Supérieure
61, Avenue du Président Wilson
94230 - CACHAN - FRANCE
Éric Parent
GRESE - ENGREF,
19, Avenue du Maine
75015 - PARIS -FRANCE
Abstract

Statistical decision theory is based on the principle that decision makers are expected utility
maximizers in risky situations and that his state of knowledge cari by described by the means of a
random variable. Bayes formula is a simple fact of probability theory, independant of the expected
utility theory. Its interpretation as an information processor to update subjective knowledge of
uncertain events is consistent with this expected utility framework. During more than two
centuries of arguments and rivalries between “Classical” and “Bayesian” statisticians, one main
point advocated by Bayesians has been that their statistical techniques allowed to determine the
optimal decision rule with regards to economic viewpoints and that they could incorporate
information coming both from sampling and from subjective knowledge. During the last forty
years, experiments on behavior under risk have exhibited a series of “paradoxes”, mostly linked to
discrepancies between observable rationality of a decision maker under risk and the expected
utility maximization principle. New models of behavior have been developed, trying to take into
account these other types of rationality under risk. This paper draws attention on the
incompatibility of the Bayes formula to update knowledge by information with the framework of
the new decision models. An example based on the Rank Dependent or Dichotomie Mode1 is
presented.
Key-words : Bayes, Statistical decision theory, Decision theory.

Résumé

La théorie statistique décisionnelle suppose que le décideur maximise un critère d’utilité espérée
en situation de risque et qu’un état de connaissance plus ou moins certain peut être décrit par une
variable aléatoire. La formule de Bayes n’est qu’un simple résultat bien établi de la théorie
mathématique des probabilités, indépendant de la théorie de l’utilité espérée. Son interprétation en
tant que processeur d’informations pour mettre à jour les probabilités subjectives d’événements
incertains ajoute de la cohérence à ce cadre normatif. Au cours de deux siècles de débats et de
rivalités avec les statisticiens dits “classiques”, les tenants de l’approche statistique bayésienne ont
souvent mis en avant que leurs techniques permettaient de déterminer la décision optimale d’un
point de vue économique et intégraient aussi bien les informations issues d’un échantillonnage que

361

--
celles provenant de connaissances subjectives du phénomène étudié. Durant les quarante dernières
années, des expériences sur le comportement en situation de risque ont mis en évidence une série
de paradoxes liés à divers types d’incohérences entre la rationalité du décideur en situation de
risque et celle prévue par le principe de maximisation de l’utilité espérée. De nouveaux modèles de
comportements ont été proposés pour rendre compte de ces autres attitudes rationnelles face au
risque. On attire en conséquence ici l’attention sur le caractère incompatible entre l’utilisation de la
formule de Bayes comme processeur d’information et la représentation des choix d’un décideur en
situation risquée dans le cadre des nouveaux modèles de décision. On prend l’exemple du Modèle
Dichotomique, ou à Dépendance des Rangs.
Mots-clés : Bayes, Statistique décisionnelle, Théorie de la décision.

2 1.1. Introduction
L’école de statistique classique apparente la démarche d’inférence à un raisonnement par
l’absurde : le statisticien construit une ligne de déduction à partir d’une hypothèse de base, en
principe établie après discussion avec le décideur, puis accepte ou refuse cette hypothèse en
jugeant de l’écart entre les résultats mesurés et ceux plausibles selon l’hypothèse ayant étayé
sa construction intellectuelle. Ce point de vue est difficile à faire passer dans la pratique
industrielle et spécifiquement en ingénierie des sciences de l’eau, car le statisticien classique a
séparé le problème statistique des enjeux décisionnels. Ceci explique notamment que la tâche
d’obtenir du décideur les valeurs des risques de première et de seconde espèces soit si âpre et
si ardue car, de façon peu explicite, elle nécessite de retourner au contexte opérationnel du
problème statistique. De plus, il faut dans ce cas faire partager un point de vue qui critique la
réalité tangible donnée par les résultats de mesures en fonction de la référence absolue et
cachée d’un modèle, sans aucune référence à un enjeu décisionnel.
L’ambition opérationnelle de l’ingénierie est strictement inverse : il faut mieux cerner
les paramètres inconnus d’un phénomène étudié en fonction d’études ou d’expériences
apportant des informations nouvelles ou collectant des informations passées ; l’action de
l’ingénieur permet ainsi de rendre plus efficace le choix d’une décision. C’est pourquoi
l’approche statistique bayésienne - qui répond à l’attente précédente par l’emploi de la formule
de Bayes (1763) et la prise en compte des conséquences associées aux décisions - offre une
alternative très intéressante et a commencé à se développer, notamment pour traiter des
problèmes d’ingénierie de l’eau (Duckstein et al., 1987).
L’approche bayésienne se rattache au courant de développement général des méthodes
statistiques et de leurs applications aux domaines de l’eau et de l’environnement depuis un
demi-siècle. Sur le plan général, Abraham Wald (1950) introduisit en statistique les concepts
décisionnels en relation avec les expressions quantifiées des conséquences des actes du
décideur. A cette occasion, il présente les notions de probabilités a priori des hypothèses et
paramètres (états de la nature) et il utilise la formule de Bayes comme un simple outil
mathématique de déconditionnement probabiliste. De ce point de vue sont issus deux
courants de pensée :

- le premier continue dans la ligne de Wald en ne remettant pas en cause la


notion de probabilité, limite de fréquences observées, et la probabilité a priori
n’est qu’un outil mathématique commode, notamment pour la construction
d’estimations statistiques performantes (Stein, 1955 ; Lehmann, 1983 ; Ferguson,
1967 ; etc...)

- le courant dit bayésien exploite, quant à lui, les idées de De Finetti (1937)
et Savage (1954) et associe la probabilité a priori à une quantification du degré de
croyance subjectif, éventuellement mis à jour par l’information recueillie par
utilisation de la formule de Bayes interprétée comme la reconstruction “des
probabilités des causes”. Ces probabilités sont ensuite reliées aux conséquences
pour déterminer des décisions “optimales” ,(Berger, 1985 ; Robert, 1992). Weber
(1973) a retracé le long débat à propos de l’interprétation de cette grandeur
aléatoire, liée à la nature subjective des probabilités associées quantifiant la
connaissance partielle relative à un événement et non la fréquence possible de son
occurrence matérielle.

362
Dans ce courant bayésien, Lindley (197 l), Box et Tiao (1973) ont une place à part :
quoique utilisant un cadre bayésien, leur démarche statistique veut se limiter à la partie
inférentielle (tests, estimations, intervalles de crédibilité, etc...) sans référence explicite aux
enjeux décisionnels et aux croyances a priori. Les travaux de Dempster (1968), Shafer (1976),
Waley (1989) traitent du problème important de l’information disponible limitée, problème
mal résolu par l’approche bayésienne.
D’un autre côté, et souvent sans lien avec le domaine purement statistique, se sont
développées les actions entreprises par de nombreux économistes depuis Von Neumann et
Morgenstern (1944) pour élaborer des expressions quantifiées des préférences et des
multiples conséquences des actes des décideurs. Ces expressions sont utilisables dans
l’analyse des incertitudes et de leurs effets indispensables à l’élaboration complète d’une
démarche de statistique. Dans le domaine de l’eau, Krzysztofowicz (1994a) a contribue aux
avancées actuelles de l’école classique de “l’utilité espérée”, tandis que d’autres modèles de
comportements rationnels face aux incertitudes ont été proposés et développés par Quiggin
(1982) et Machina (1982), suite à la mise en évidence expérimentale de comportements
ordinaires face au risque ne répondant pas aux normes de la théorie (Munier, 1995), souvent
appelés “paradoxes” en sciences de la décision : effets de certitude (Allais, 1953), effets de
proportionnalité (Allais et Hagen, 1995a), effets de réflection, d’isolement, de surpondération
des faibles probabilités (Kahneman et Tversky, 1979), d’encodage, etc.. . Une synthèse est
proposée dans (Munier, 1989).
Pour ce qui concerne les applications à la gestion de l’eau, les travaux issus du courant
de la statistique traditionnelle sont trop nombreux et ne seront ici cités que quelques points de
repère importants tels Yevyevitch et Obeysekera (1984), Wallis et Wood (1985) et Bobée et
al. ( 1994) dans le domaine des crues. Malgré les travaux précurseurs d’Halphen (1945, 1946)
sur les plans d’équipement EDF et ceux de Massé (1946) et de Morlat (195 1) sur la gestion
des réservoirs, la littérature d’hydrologie statistique ne reconnaît généralement que Thomas et
Revelle (1966), Maass et al. (1962) et les auteurs de l’école de Harvard comme les seuls et
uniques contributeurs authentiques de 1’ introduction du point de vue décisionnel et
économique aux sciences de l’eau. 11est vrai que ces travaux ont, de fait, initié par la suite la
mise en oeuvre de nombreuses analyses du type Risque-Coût, notamment dans les agences
fédérales américaines (nombreux rapports de 1’US Corps of Eng. ; Louks et al., 1975).
L’application des méthodes bayésiennes en hydrologie est relativement peu développée.
On peut citer Bernier (1967), Davis et al. (1972) Musy et Duckstein (1976) Davis et Nnaji
(1982), et des études concernant les seuls aspects inférentiels (Kuczera, 1983). Ce n’est que
plus récemment que des approches intégrées avec des aspects économiques ont été présentées
par Krzysztofowicz (1994b).
Le premier point notable de ce court aperçu historique est qu’un manque d’expérience
persiste pour tirer un enseignement complet de ces avancées méthodologiques aux
applications et développements dans les domaines des sciences de l’eau et au projets
d’ingéniérie (Tribus, 1969). Néanmoins, des travaux de recherche récents et soutenus ont
développé en parallèle, depuis le milieu du siècle, des théories économiques et statistiques de
l’analyse des situations de risque qui peuvent s’appliquer avec pertinence en hydrologie
statistique : en effet, les incertitudes et aléas de l’environnement et les enjeux décisionnels
constituent sans nul doute le trait majeur de cette discipline.
L’autre conclusion de cette revue bibliographique est que, si l’approche bayésienne rend,
certes, l’interface décisionnelle plus explicite en intégrant directement les conséquences de
nature économique dans l’élaboration de la stratégie de gestion ainsi que les expériences
passées, elle repose explicitement sur les deux théories (d’ailleurs quasiment “duales” l’une de
l’autre) que sont la théorie de la probabilité subjective (Savage, 1954) et la théorie de l’utilité
(von Neumann et Morgenstern, 1944). A la différence de l’approche statistique classique, la
statistique bayésienne est donc, par nature, contingente à un modèle normatif de décision.
Quelle est la solidité de ses liens avec le modèle de l’utilité espérée ? Peut-on conserver la
formule de Bayes comme processeur d’informations si l’on cherche à adopter des modèle de
décision différents ? Telles sont les questions soulevées par cette communication.
En rappelant les éléments essentiels de la démarche statistique décisionnelle, nous
montrerons d’abord si du point de vue de la théorie des probabilités, la formule de Bayes
n’est pas discutable en tant que processeur de conditionnement/déconditionnement, son
l’utilisation opérationnelle en prescription d’ingénierie dépend étroitement du modèle de

363
décision normatif très particulier de l’utilité espérée. Dans une seconde partie, nous
exposerons les critiques du principe de rationalité fondé sur l’utilité espérée, en présentant les
principaux “paradoxes ” de la littérature de la théorie de la décision. La dernière partie de
l’exposé traite des nouveaux schémas de modélisation des comportements décisionnels en
avenir risqué et étudie comment ils intègrent des informations nouvelles, levant partiellement
les incertitudes. Le problème d’ingénierie classique de la construction d’un ouvrage de lutte
contre le débordement d’une rivière, déjà décrit dans Bernier et Miquel (1979), Bernier
(1987a et 1987b) est ici simplifié et utilisé en vue de l’illustration et de l’examen critique des
concepts développés

21.2. La démarche normative de la décision statistique


Les incertitudes de l’environnement de tout décideur doivent être prises en compte dans
l’analyse de toute situation de risque. Du point de vue décisionnel, il importe d’ailleurs de
distinguer, d’une part, les incertitudes modifiables par l’action (notamment l’action de collecte
d’informations complémentaires) et, d’autre part, les incertitudes inaccessibles à l’action,
souvent qualifiées d’aléas “naturels”. Cette distinction, si elle peut être quelquefois arbitraire
quand elle résulte d’un choix de modélisation, est cependant essentielle dans le contexte
décisionnel. L’approche bayésienne normative repose sur un modèle, c’est à dire une
représentation simplifiée, conceptuellement explicative et adaptable aux données. Au cours
de la construction de ce modèle, une part importante de subjectivité s’introduit dans la
représentation formelle des incertitudes, des aléas, des coûts et des décisions, mais on peut
juger de l’intérêt de la méthode en raison du niveau d’explicitation et de contrôle de cette
subjectivité qu’elle permet.

21.2.1. Ensemble des états de la nature

Il s’agit de l’ensemble 0 des valeurs possibles de paramètres descriptifs de l’état inconnu de la


nature, notés ici 8. En d’autres termes, Odéfinit le contexte de l’environnement. Selon les
problèmes, il peut s’agir de paramètre de la pollution diffuse de l’eau par les nitrates, d’un taux
de débordement par unité de temps pour une rivière, de la fiabilité inconnue d’un système
(Bernier, 1985). . . Définir l’ensemble 0 est une opération importante du modélisateur qui
limite ainsi le champ des incertitudes qu’il va décrire : il va sans dire que cette première
opération pèsera sur toute la suite de l’analyse statistique et décisionnelle.
En statistique classique, les états inconnus du système sont généralement considérés
comme des grandeurs ayant un caractère déterministe certain. Par opposition, la démarche
bayésienne consiste pour l’essentiel à employer une variable aléatoire pour décrire
l’incertitude relative aux valeurs des paramètres caractéristiques d’un modèle - à l’aide d’une
loi de probabilité subjective X(O), dite “loi a priori”, réputée construite selon la théorie de
Savage (1954) - et à en conditionner les distributions aux résultats de l’échantillonnage - la loi
de probabilité conditionnelle aux informations sur 8 est alors dénommée “loi a posteriori”.

21.2.2. Ensemble des actions

Un jugement sur 8 n’est pas le but opérationnel de l’ingénieur : quand on construit un modèle
statistique pour représenter le fonctionnement d’un système réel, quand on collecte des
informations sur ce système, l’ambition finale est d’arriver à prescrire des décisions mieux
fondées. Dans le cadre normatif, on limite l’ensemble des décisions aux éléments d’un
ensemble A., encore appelé ensemble des actions ou des alternatives. Par exemple, la décision
terminant une étude d’ingénierie peut être de recommander la hauteur h d’un ouvrage de
protection contre les crues. L’ensemble A est alors assimilable à la droite réelle positive. Il est
bien sûr possible de concevoir des problèmes où l’ensemble des décisions est plus ou moins
riche et, comme pour les états du système, la délimitation de l’ensemble des actions
potentielles constitue une étape majeure, voire le premier parti pris de l’homme d’études dans
une démarche de modélisation. Une condition importante de la modélisation Bayesienne

364
stipule de plus que les ensembles A et 0 doivent être indépendants dans le sens où une
décision ne doit pas générer ou conditionner un état de la nature pris en compte dans 0.

21.2.3. Fonction de perte

La fonction de perte (ou de coût) W associe à chaque action et à chaque état de la nature une
évaluation numérique des pertes occasionnées par l’action ( Ulmo et Bernier, 1973). C’est
donc à travers cette fonction qu’est exprimée la solidarité entre la partie statistique du modèle
(où interviennent les états du système) et la partie décisionnelle (nécessitant la description des
alternatives d’actions possibles).

(21-1)

Les conséquences des décisions ne sont généralement pas exprimables en termes de


coût mais plutôt en terme d’utilité, intégrant les dimensions multiples des effets d’une action.
Si la théorie mathématique de l’utilité (Von Neumann et Morgenstern, 1944) permet
théoriquement de disposer des outils conceptuels pour quantifier les conséquences d’une
décision dans un état du système donné, l’estimation des utilités peut être très difficile en
pratique. Dans cette quantification peut s’introduire une part d’arbitraire selon le point de vue
adopté (comportement spécifique d’un décideur unique ou intérêt public de la collectivité, ou
encore objectifs limités d’un groupe d’intervenants.. .) que doit assumer le modélisateur.

21.2.4. Informations

L’information x apportée par une expérience prend généralement la forme d’un échantillon de
taille n, répétition de y1 réalisations d’une variable aléatoire X représentant le phénomène
aléatoire naturel auquel est soumis le système à étudier (débordement d’une rivière, incident
de pollution, défaillance d’un système.. .). L’art du statisticien est de construire un modèle
statistique, permettant d’associer à chaque valeur 8 possible de l’état de la nature, la loi de X
sachant f3,pour évaluer la probabilité conditionnelle P(xl0).

8 E 0 -+ Modèle statistique (X, P, ) (21-2)

21.2.5. Règles de décisions et risque bayésien

Une règle est définie comme une application Sde l’ensemble des informations (ou résultats
d’expérience) dans l’ensemble des actions.

6: x H 6(x) E A (21-3)

Une règle décrit l’attitude d’un décideur comme une fonction des informations apportées
par une expérience : ainsi par exemple, au vu de x débordements observés sur les n années
précédentes, un ingénieur recommandera ou non la construction d’un ouvrage de protection
contre les crues. La règle de décision représente en quelque sorte la boucle anthropique de
fermeture d’un système naturel sur lequel on veut agir pour minimiser un critère de coût, ou
plutôt de désutilité. On peut alors évaluer le risque associé à une règle 6 et à l’état de la nature
8 par:
R(6.8) = E,,,(W(G(X), 0) = c W@(x), r?).Prob(xle) (21-4)
Ce risque représente le coût ou plutôt la désutilité moyenne du point de vue des agents
ou usagers concernés des conséquences économiques de la décision, évaluée sur tous les

365
résultats x possibles de l’expérience. L’équation (21-4) ne peut pas servir de base pour choisir
une règle de décision, mais elle permet d’éliminer les règles non admissibles, c’est à dire
uniformément dominées en 8. Une règle 6 est dite dominée (ou non admissible) si :
36',~e,R(6',8)~~(6,8)

21.2.6. Règles de décisions bayésiennes

Pour une règle quelconque 6, on définit le risque bayésien en pondérant les valeurs du risque
par la distribution des probabilités a priori pour les valeurs correspondantes de 8.

(21-5)
&A~) = E,~,&,WWf), 0) = 1 c W@(X),
e)prob(xle)~(e)de
En d’autres termes, l’équation (21-5) évalue une espérance de désutilité calculée sur
toutes les trajectoires du système en considérant à la fois tous les aléas du phénomène
aléatoire naturel et l’incertitude de l’état de la nature. C’est ce critère, prenant en compte à la
fois des considérations de risque de variabilité de l’échantillonnage et de sensibilité aux
incertitudes, qui est adopté par l’approche bayésienne.
La règle de décision bayésienne 6*est celle qui minimise le risque bayésien R,(a). Telle
quelle, l’équation (21-5) n’est pas facile à résoudre puisqu’on recherche une application de
l’ensemble des informations possibles dans celui des décisions ; la section suivante montre
comment la formule de Bayes
connaissances

Modélisation des
odélisation statistique
comportements d’un décideu

A%..’
Synthèse: recherche de la règle de décision optimale
Fig. 21-1 : Schéma conceptuel de la démarche bayésienne

La liaison entre la modélisation statistique et la modélisation du comportement du


décideur est illustrée par la figure (2 1- 1).

366
1-E

Fig. 21-2 : Exemple simplifié de la démarche bayésienne

La figure (21-2), quant à elle, représente sous forme d’arbre le problème simplifié
suivant.
Pour savoir s’il faut réaliser ou non un aménagement de protection contre les
débordement sur une rivière dont on connaît peu les caractéristiques hydrauliques et
hydrologiques, on recueille de l’information sur son régime des années précédentes : on
appelle E l’information signifiant qu’il y a eu dans le passé des débordements notables et E
l’information complémentaire. D’autre part, on fait l’hypothèse que la rivière est dans un état
d’hydraulicité, soit faible (état 1) menant à des crues peu fréquentes, soit forte (état 2), ce qui
entraîne plus fréquemment des débordements. On note x la probabilité subjective que l’état de
la rivière soit l’état 1 et on admet que les techniques d’ingénierie de l’eau permettent d’évaluer
la probabilité p* que la rivière déborde si l’on se trouve pour ce calcul dans l’état 1 et p*
quand on raisonne à partir de l’état 2. On cote les conséquences économiques sous forme de
grandeurs O*, IV,, D*, W* décrivant les utilités respectives des actions, compte tenu de l’état
réel inconnu de la rivière. On sait que p+ < p*, et si l’on suppose que, pour une rivière dans
l’état 1 (faible propension à sortir de son lit), les dépenses de construction surpassent les
bénéfices procurés par l’ouvrage, on admet la relation D* < W, < II, < W*.

La figure (21-3) détaille les 4 stratégies d’utilisation de l’information qui s’offrent au


chef de projet.
l INFORMATION
On a observé une crue x= E
Règle de décision
)
ACTION
Construire ou
ou non x= Ë 1ne pas construire

” { ,?ZYtTe Protection

E-b Digue

Ë-b Pas de Protection

O3 1 :b :Te Protection

‘4 {ix rzl Protection


Fig. 21-3 : Énumération des règles de décision pour l’exemple simplifié

L’équation (21-5) ci-dessus permet d’évaluer chacune de ces stratégies selon le critère
du risque bayésien. On obtient les quatre quantités suivantes à comparer :

R,(6,) = zp,w, + x(1- p,)D, + (1 - n)p*W* + Cl- xX1 - P*)D*

R,(S,) = nD, + (1 - ~C)D*


ï?&) = zp,D, + x(1 - p,)W, + (1 - r)p*D* + Cl- X)(l - P*)W*
(21-6)

Avec la condition D* < W, < D, < W*, on voit sur ces relations que si p* < 1/2 et p* < 1/2,
alors la stratégie d’action 6, est toujours abandonnée au profit de 6,.

21.2.7. La formule de Bayes : un “processeur d’information” compatible avec un


critère de coût moyen.

Les conditions techniques très larges du théorème de Fubini permettent de changer l’ordre
d’intégration pour le calcul du risque bayésien de l’équation (21-5) et donc d’écrire :

(21-7)

368
Cette inversion d’intégration fait apparaître la loi conjointe de x et
0, Prob(x /f3) n(O), SOUS la forme &X)~C (01x ) , où g(x) est la loi marginale de x , donnée par :

g(x)= 1Prob(xlepqe)de (21-8)


BE@
Fortin et al. (1997) a montré que cette loi g(x), encore appelée loi prédictive, est un outil
puissant pour interpréter les techniques de simulation et de Boostrap.
L’autre terme fait intervenir la formule de Bayes (1763) pour calculer la loi a posteriori
de 8, c’est à dire la distribution du paramètre 8 après avoir eu connaissance du résultat x de
l’échantillonnage :
n’(elx)=
Pr0b(xJe)n(e) (21-9)
jprob(xle)7qe)de
BE@
Cette formule est dite encore formule des causes car elle interprète la loi de la “cause” 0
paramètre incertain descriptif de la nature cachée du système en fonction de :
- z(e), connaissance subjective a priori sur le système,
- P(x/@, connaissance de l’ingénierie du système, c’est à dire du mécanisme
par lequel, si on connaissait exactement son état 8, on pourrait connaître son
comportement extérieur mesuré par x,
- 0, en supposant qu’il est concevable de délimiter exactement le domaine
de tous les états possibles de la nature.
La distribution de 8 a posteriori joue donc ici un rôle central pour la construction de la
règle de décision optimisant le risque de Bayes.
Dans l’équation (21-7), les termes g(x) étant tous positifs ou nuls, il suffit que la règle
de décision réalise pour tout x le minimum de En.(BtO,XI(W( 6(x)), 8 E O), appelé encore perte
espérée a posteriori. A x fixé, il suffit donc de connaître la loi a posteriori de l’état de la nature
8 donnée par l’équation (21-9) pour effectuer cette opération. En d’autres termes, la formule
de Bayes est la technique de révision des probabilités subjectives de l’état du système par
apport d’information qui est cohérente avec le cadre normatif d’un comportement décisionnel
cherchant à maximiser l’utilité espérée.
En conséquence, cette propriété permet de réécrire toute la chaîne de déduction :
états du système a observations 3 décisions
sous forme d’un arbre de construction d’inférence :
réalité observée =+ états possibles du système * décisions adaptées
La figure (21-4) schématise cette réécriture du problème, initialement envisagé sous la
représentation exposée à la figure (21-2).
La figure (21-4) souligne qu’en fait, pour l’exemple simplifié développé précédemment,
il suffit de considérer les probabilités a posteriori :

7r, = d(e=IIE)= np*


np* +Cl- z>p*
(21-10)
nE = n’(e = iIË) = nu - P*I
r(l-p*)+(l-@(l-p*)
et de réaliser la stratégie d’action selon la règle:
6(E)telqueOp+@W,,&9 + (1- &VW,,&EN}
(21-11)
6(Ë) tel que opt{n,w(e,,6(Ëj)+(l
- nE)w(e,,6(E))}

369
8=1 Faible hydraulicité et digue

8=2 Forte hydraulicité et digue


9=1 Faible hydraulicité sans digue

D” 8=2 Forte hydraulicité sans digue

8=1 Faible hydraulicité et digue

8=2 Forte hydraulicité et digue


8=1 Faible hydraulicité sans digue

D* 8=2 Forte hydraulicité sans digue

Figure 21-4 : Vision bayésienne de l’exemple simplifié

21.2.8. Quelques avantages du cadre normatif décisionnel bayésien

(9 La séparabilité de l’arbre de décision

Dans la pratique, l’équation (21-9) est utilisée de façon itérative pour remettre à jour la
connaissance de l’état de la nature au fur et à mesure qu’arrivent les résultats de mesures et
d’expériences. On peut donc comprendre l’application séquentielle de la formule de Bayes
comme un véritable processeur de l’information, permettant de préciser progressivement notre
connaissance de l’état du système et donc de recommander des décisions plus adaptées. Ceci a
permis en statistique le développement des techniques du filtrage et en analyse d’arbre de
décision de réduire de proche en proche la complexité des branches de l’arbre : à chaque
noeud de hasard, on calcule une espérance (conditionnelle aux informations obtenues depuis
sa racine), et on remplace un nœ ud de décision par la valeur optimale des espérances
ultérieures d’utilité qu’il engendre.

(ii) Une “valeur de l’information” dans le cadre dynamique

Plus généralement et selon la terminologie de Tribus (1969), l’amélioration moyenne EVSl(n)


procurée par des observations provenant d’un échantillonnage de taille n (Expected Value of
Sample Information) est la somme des utilités pondérées par la probabilité qu’elles se
réalisent. En notant x une réalisation de la variable aléatoire jY influençant le système, do la
décision optimale prise a priori, W(d’,O) la perte associée et S* la règle bayésienne après
informations x fournies par le n-échantillon, on peut écrire la valeur moyenne de
l’information apportée par l’échantillonnage sous la forme :

EVSI(n)
= Cg(x)
x
ig*(,)#dc,
En’(Wx)
(w(s*(x),e)- w(d”,e)) (21-12)

On observe que la courbe n + EV,SZ(n) est en général monotone croissante et


marginalement décroissante, quoiqu’à la connaissance des auteurs, aucune propriété de
convexité concernant la valeur attendue de l’information apportée par échantillonnage n’ait été
démontrée dans la littérature pour le cas général : une interprétation économique, bien que

370

-- ..~..
l-_-
séduisante, ne peut donc pas toujours être avancée pour poser le principe de correspondance
entre “plus” d’information et une “meilleure” règle de décision.

(iii) Des règles de décisions avec un bon comportement statistique

De plus, sous des conditions techniques larges (Ferguson, 1967 ; Berger, 1985 ; Robert,
1992), l’ensemble des règles de décisions bayésiennes (avec leurs limites), obtenu par
variation de lois a priori dont le support n’exclut aucune valeur, est identique à l’ensemble des
règles non dominées. Par conséquent, même pour un statisticien classique ne se préoccupant
pas des enjeux décisionnels, les règles obtenues par approche bayésienne répondent par
construction aux exigences minimales indispensables à un bon comportement statistique.

04 Des règles de décisions de forme simple

Enfin, si l’on utilise le cadre précédent dans des fonctions de perte convexes et des modèles
statistiques admettant des résumés exhaustifs de l’information (ce qui est le cas pour la plupart
des lois utilisées en pratique), on peut montrer (cf. théorème de Rao-Cramer-Blackwell dans
Ulmo et Bernier, 1973) que les règles de décisions bayesiennes seront fonction uniquement
des statistiques exhaustives, c’est à dire qu’elles utiliseront comme sources des décisions à
prendre des quantités concentrant de la façon la plus efficace toute l’information apportée par
les résultats de mesure.

21.2.9. Premières conclusions et discussions

Dans la pratique, on estime souvent de façon moindre que la règle de Bayes ne le préconise la
portée de l’information. Ainsi en témoigne l’expérience suivante réalisée auprès d’ingénieurs
élèves en troisième cycle, familiers depuis longtemps avec la notion de probabilité.
L’expérimentateur pose la question suivante aux étudiants : “Dans une pièce se trouvent deux
urnes sans signe distinctif, l’une, l’urne A, contient une proportion de 7/10 de boules blanches
et de 3/10 boules noires ; l’autre, l’urne B, contient une proportion de 300 de boules blanches
et de 7/10 boules noires. On prend au hasard une urne et l’on tire 10 boules. On observe 7
noires et 3 blanches. Pensez-vous que les chances que l’on ait choisi l’urne B soient comprises
entre 0,5 et 0,6, 0,6 et 0,7, . . . 0,9 et 1 ?” Les réponses des 17 étudiants interrogés sont
représentées sur l’histogramme de la figure (2 l-5).

075 096 017 03 099 1


Fig. 21-S : Réponses à la question sur la probabilité a posteriori

La valeur donnée par la formule de Bayes (avec un a priori equiprobable pour chaque
urne) est de 0,9674. On constate donc une moindre pondération de l’information additionnelle
que celle annoncée par la formule bayésienne.
D’une telle comparaison, et d’autres expériences réalisées dans des conditions mieux
contrôlées, on peut logiquement déduire deux raisonnements contradictoires:

371
1) soit considérer que les résultats de l’expérience illustrent la difficulté pour des
individus d’apprécier directement la valeur de l’information, ce qui souligne la nécessité de
disposer d’un cadre théorique pour les aider. C’est ainsi que Palmarini (1996) soutient que
l’homme n’en est qu’à un stade très primitif de son évolution en matière de “rationalité
cognitive” et prétend que nous allons encore évoluer pour nous rapprocher peu à peu d’un
comportement exactement régi par les lois de la théorie des probabilités, et donc cohérent
avec un cadre statistique inférentiel d’apprentissage par “la formule des probabilités des
causes” due à Bayes (1763). Cet objectif très utopique d’aide à la décision est d’ailleurs une
ambition de la statistique en général et plus spécifiquement de la statistique bayesienne.
2) soit priviligier une réalité observable et changer complétement le cadre conceptuel.
Le souci d’un ingénieur entreprenant une modélisation n’est il pas aussi d’être en accord avec
la réalité observable? Si l’on constate d’autres comportements décisionnels que celui décrit
par la rationalité de la maximisation de l’utilité espérée, ne convient-il pas de changer de
cadre conceptuel ? Et, dans un cadre conceptuel différent, y-a-t-il encore un rôle quelconque
pour la formule de Bayes ? La troisième partie de ce document fait état de comportements
décisionnels en désaccord manifeste et profond avec le principe de l’utilité espérée. La
quatrième partie donne un aperçu d’un cadre conceptuel plus général de la représentation
formelle des aléas, des incertitudes, des décisions et des enjeux et examine quelques
conséquences à en tirer pour l’ingénierie de l’eau.

21.3. Résultats expérimentaux en science de la décision


La méthode expérimentale s’est imposée dans les sciences de la décision en l’espace de
quarante années. Cette période a été caractérisée, comme c’est naturel lorsqu’une méthode
nouvelle vient à être employée dans un domaine d’investigation scientifique, par deux étapes
principales :

- de 1952 au milieu des années 1980 environ, soit pendant trente-cinq


années approximativement, on a développé ce que l’on pourrait appeler des
contrexemples expérimentaux à la théorie de l’utilité espérée, que l’on a appelés de
façon très excessive des “paradoxes”. C’est le “Paradoxe d’Allais” qui a ouvert
cette voie de recherche ;

- depuis le milieu des années 1980 jusqu’à nos jours, les chercheurs se sont
attachés à tester les nouveaux modèles de décision proposés pour répondre au défi
des résultats expérimentaux précédents, de façon à établir si l’un ou l’autre de ces
modèles pouvait être considéré comme surclassant les autres ou au moins une
partie des autres, de façon à comparer, plus particulièrement, ces nouveaux
modèles au modèle d’utilité espérée. C’est en effet pour répondre aux
“insuffisances” de ce dernier que ces modèles ont été produits.

Synthétiser ces travaux serait très long si l’on ne disposait de représentations graphiques
commodes, et en particulier de la figure que l’on appelle le triangle de Marschak-Machina,
proposée pour la première fois en 1950 par J. Marchak mais dont l’usage n’a été développé et
répandu qu’au début des années 1980 par M. Machina.

21.3.1. Le triangle de Marschak-Machina

Cette figure est destinée à représenter toutes les loteries à support ternaire discret et à valeurs
fixes x1, x2, x3, notées conventionnellement de façon que x,< x2 < x3. Ces valeurs sont
quelconques : il peut s’agir de gains, ou de pertes, ou pour partie de gain(s) et de perte(s). Par
conséquent, seules les probabilités associées, notées respectivement pl, p2 , p3, varient.

372
. c Courbe d’utilité espérée constante
**
.’
\ -* ee4
espéré

zecroissante

Fig. 21-6 : Construction du triangle de Marschak-Machina

On représente la probabilité associée au gain le plus faible (ou à la perte la plus élevée),
soit pl, en abcisse, et la probabilité associée au gain le plus élevé (ou à la perte la plus faible),
soit p3, en ordonnée. On obtient l’hypoténuse du triangle en reliant les points (1,O) et (0, 1) du
quadrant (fig. 2 l-6).
Il résulte de ces conventions quatre propriétés importantes.

(4 Toutes les loteries possibles sont représentées dans le triangle (pour x,,
x2, x3 donnés)

On lit en effet en tout point P du triangle (fig. 25-6) p1 en abscisse, p3 en ordonnée et p2


comme la longueur du segment de droite horizontal (ou vertical) séparant P de l’hypoténuse.
Les loteries “dégénérées” (c’est-à-dire donnant l’un des résultats avec probabilité 1) sont
représentéespar les sommets du triangle.

(ii) Les loteries dans la suflace hachurée dominent stochastiquement au


premier ordre (D.S.P.O.) la loterie P

Dans cette dernière zone, on a ou une augmentation de p3 avec p1 constant, ou une diminution
de p1 avec p3 constant, ou une combinaison des deux : dans tous les cas de figure, on fait
glisser des masses de probabilités vers les résultats les plus appréciés.
Il s’ensuit que le sens de préférence croissante est celui indiqué par la flèche sur la
figure (2 l-6).

373

~. I
(iii) La pente de la tangente locale à un lieu d’indifférence a pour valeur
l’attitude par rapport au risque de l’individu

Pour établir ce résultat en toute généralité, on trace les droites de gain espéré constant (ou
lieux géométriques de loteries à même valeur actuarielle), d’équation
pIx, + p2x2 + p3x3 = k ou encore p,x, + (1 - ps - p3)x2 + p3x3 = k. Il est facile d’établir qu’il
s’agit de droites parallèles, de pente :

dp,--- X2 - Xl (21-13)
dP, x3 -x2

Ces droites sont représentées en trait continu sur la figure (25-l).


Supposons que les lieux d’indifférence soient dérivables partout dans le triangle et que
la dominante stochastique du premier ordre (D.S.P.O.) est vérifiée.
Considérons alors celles de ces droites qui passe par le point P. En s’éloignant vers le
Nord-Est sur cette droite, l’espérance de gain reste constante mais des masses de probabilité
sont déplacées du support x2 vers les deux autres, c’est-à-dire du centre vers les extrémités de
la distribution. Ce glissement équivaut donc à un “écartement” (de la distribution) “préservant
la moyenne” qui, par définition (Rothschild et Stiglitz, 1970 ; 1971) produit une distribution
moins appréciée de ceux qui n’aiment pas le risque.
Il en résulte que pour ceux qui n’aiment pas le risque, les courbes d’indifférence sont de
moins en moins appréciées au fur et à mesure qu’on s’éloigne de P vers le N-E sur la droite de
gain espéré constant. Ceci implique que les pentes des tangentes à ces courbes d’indifférence
le long de la droite de gain espéré constant sont plus élevées que la pente de la droite de gain
espéré constant.
La conclusion contraire suit, pour les pentes des tangentes aux lieux d’indifférence, des
individus qui sont enclins au risque.
De façon générale, la pente de la tangente locale d’un lieu d’indifférence représente
l’aversion au risque de l’individu. Plus élevée que l’équation (21-13), elle caractérise un
individu ayant de l’aversion au risque, moins élevée, un individu ayant de l’inclination au
risque.
Il est important de noter que ce résultat ne dépend pas de la rationalité de l’individu (en
particulier, il ne dépend pas de savoir si l’individu se conforme à un comportement de
maximisation de l’utilité espérée), sous réserve que la rationalité de l’individu vérifie la
D.S.P.O.

(iv) Pour un individu dont la rationalité est précisément l’utilité espérée, les
lieux d’indiflérence (U. E. constante) sont des droites parallèles, de pente

-dp, _- u(x2) - u(xl)


dp, +,) - u(%)

Ce résultat s’obtient comme en (ii) ci-dessus. Il est cependant intéressant de noter qu’il
peut aussi s’écrire :

--4, _ [~(~3)-~(~2)]-[~(~2)-~(~~)] +1
(21-14)
dP, u(x3) - U(X2)

L’équation (21-14) est un analogue discret du coefficient d’Arrow-Pratt d’aversion au


ce qui confirme le résultat précédent dans le cas spécifique de l’utilité
espérée.

374
21.3.2. Quelques-uns des principaux “paradoxes”

Bornons-nous ici à quelques résultats expérimentaux obtenus par Allais (1953), par Allais et
Hagen (1979), par Kahneman et Tversky (1979) pour rester à l’essentiel.

(9 Paradoxe d’AHais

Allais avait souhaité se dégager de toute question d’interprétation de l’utilité et a donc proposé
un test, longtemps ignoré par les uns, décrié par les autres pour diverses raisons qui, au fil du
temps et des vérifications patiemment effectuées, se sont toutes révélées fausses ou gratuites.
Le test a été par ailleurs proposé par de nombreux autres expérimentateurs à des sujets de
caractéristiques diverses et a presque toujours produit des résultats similaires.
Il s’agit de choisir entre deux paires de loteries successivement, Al et A2 d’une part, Bt
et B2 d’autre part. Cette expérience d’Allais figure parmi de nombreuses autres dans le
protocole élaboré par cet auteur au début des années 19.50. On a pris l’habitude de la désigner
sous le nom de “Paradoxe d’Allais” (Allais, 1953 ; 1979). Elle a consisté à poser xl = 0, x2 =
100 x 106 Francs 1953, x3 = 500 x 106 Francs (Francs courants de 1953). On demande alors
au sujet de faire un choix entre :

A,:& = 0, p-2=L P3 = 0)

et A,:(p, = O,Ol, & =O,g9, P3 =O,lo)

d’une part ; et d’autre part entre :

B,:(p, = 0,89 p* =O,lL h =O>


et B,:(p, = 0,90, p2 = 0, p3 = O,lO)

L’expérimentateur sait, lui, que dans le triangle, les loteries A,, A2, B,, B,, sont disposées
selon un parallélogramme. Si les lieux d’indifférence étaient bien des droites parallèles,
comme l’implique l’hypothèse d’utilité espérée, on devrait avoir :

ou bien : A, >A, gt B, + B2

ou bien : 4 >-Al gt B2 F B,

où * est mis pour (strictement) “préféré à”.

Or, entre 65 et 75% des sujets environ choisissent A, >A, et ensuite B2 +B, (Allais, 1953
; Kahneman et Tversky, 1979).
Ce comportement, incompatible avec la règle d’utilité espérée, implique que les lieux
d’indifférence sont de pente plus élevée au voisinage de A, qu’au voisinage de B,. Au
voisinage de A,, explique Allais, p2 est proche de l’unité, et une très faible augmentation de p2
est plus vivement appréciée qu’au voisinage de B,, contrairement à ce que l’hypothèse d’utilité
espérée pose. Cet attrait pour la sécurité au voisinage d’un gain certain est appelé “effet de
certitude” (fig. 21-7). Cet effet s’oppose directement et explicitement à l’axiome
d’indépendance (qui résulte directement de l’axiomatique de von Neumann et Morgenstern
(1944).
D’autres auteurs (Machina, 1984) ont voulu généraliser le résultat en l’interprétant
comme un “effet de conséquence commune” : il y a en effet entre A, et A2 d’une part, entre B,
et B2 d’autre part, une conséquence commune pour un même événement ayant 89% de chance
de se réaliser. Mais cette conséquence commune n’est pas la même dans les deux cas. Le
résultat, présenté sous cet angle, s’oppose explicitement et directement au “postulat de la
chose sûre” de Savage (1954). On sait, en effet, que ce dernier axiome est très proche du
postulat d’indépendance. Mais cette interprétation est rejetée par Allais lui-même. Les

375

-
résultats expérimentaux plus récents d’Abdellaoui et Munier (1994a) donnent raison à
l’interprétation d’Allais.

Fig. 21-7 : Paradoxe d’AUais

(ii) Paradoxe de Bergen

Des résultats semblables concernant la disposition admissible des lieux d’indifférence peuvent
être tirées de “l’effet de proportionnalité”. On demande aux sujets de comparer deux
nouvelles paires de loteries définies comme suit (fig. 21-8) :

A,:(p, = 0, PT = 1, P3 = 0)
et A,:(p, = 0,2, p2 = 0, ~3 =078)

puis :

B,:(p, = 0,75, p2 = 0,25, P3 = 0)


et B,:(p, = 0,80, pz = 0, PJ = 62)

en spécifiant cette fois-ci x1 = 0, x2 = 3 000, et x3 = 4 000.


Comme B1 est construit en divisant p2 par quatre dans A,, et B2 similairement en
divisant p3 par quatre dans A2, il est facile de voir que l’hypothèse d’utilité espérée, emportant
parallélisme des droites d’indifférence, devrait entraîner :

ou bien : A, + A, CJ B, + B2

ou bien : A, + A, - B, F B,

376
Bl
Fig. 21-8 : Effet de proportionnalité (Parudoxe de Bergen)

Or, rapportent Kahneman et Tversky (1979), 80 % des sujet préfèrent A, à A, mais 65 %


B2 à B,. Dans le triangle de Marschak-Machina (fig. 21-6) les triangles ayant pour sommet
commun le sommet Sud-Est du triangle et pour côté opposé respectivement AlA et BIB2 sont
semblables. Mais la courbe d’indifférence qui sépare A, de A, doit être plus pentue que celle
qui sépare B, de B2. Des résultats similaires figuraient déjà dans l’expérience d’Allais de 1952.
Le “Paradoxe de Bergen” développé dans Allais et Hagen (1979) donne à nouveau ce type de
résultats.

(iii) Effet de loterie (‘Surévaluation” des faibles probabilités)

Des résultats expérimentaux convergents aussi montrent que nous semblons “surévaluer
l’espérance des gains à faible probabilité” (Kahneman et Tversky, 1979). Cet “effet de loterie”
peut se traduire graphiquement par une pente plus faible que l’hypothèse d’U.E. ne le
laisserait prévoir dans les zones de faible probabilité p3 et par une pente plus forte dans les
zones de probabilité p1 faible (fig. 21-9).
On pouvait toutefois se demander, d’une part, s’il n’y a pas de discontinuité des
préférences dans ces dernières zones ; et d’autre part si, dans les zones intermédiaires, les
lieux d’indifférence sont malgré tout linéaires.
Cohen et Jaffray, d’une part ; de Neufville et Delquié, d’autre part, (in : Munier, 1988,
pp. 173-187 et pp. 189-205 respectivement) concluaient dans des sens opposés sur le dernier
point. Mais la première étude n’établissait que des linéarités locales dans les zones de
probabilités 0,5 et dans celle des probabilités 0,9. Munier et Abdellaoui (199 1) ont montré
que ces linéarités locales existaient en des points divers de l’intervalle [0, l] mais qu’il est
statistiquement non significatif de faire l’hypothèse d’une linéarité d’ensemble. L’hypothèse de
“distorsion des probabilités” semble ainsi la plus fréquemment admissible dans l’intérieur du
triangle, conformément aux conclusions de de Neufville et Delquié. Les résultats plus récents
d’Abdellaoui et Munier (1994a) relativisent et précisent en même temps ce point (cf. ci-
dessous, 9 21.3.4. (ii)).
Sur le premier point, on renvoie également aux résultats de la même étude et de
nombreuses autres (cf. ci-dessous, 9 2 1.3.4. (i) et 2 1.3.4. (ii)), qui convergent sur ce point.

377
Pl
Fig. 21-9 : “Surévaluation”des faibles probabilités (effet de loterie)

64 Tentative de synthèse : 1’efSetd’éventail

Dans un article “classique” de 1982, Machina fit remarquer de façon extrêmement


intéressante que les résultats obtenus lors d’expériences pourtant indépendantes et différentes
les unes des autres par leurs méthodes, leurs auteurs, les sujets testés et par les objectifs
poursuivis, pouvaient être représentés dans le triangle de façon en large partie commune.
Cette remarque a été d’une extrême importance pour la suite du développement des idées dans
le domaine, car elle faisait passer de constatation somme toute négative concernant l’utilité
espérée à l’idée qu’il y avait peut-être un modèle plus pertinent de comportement face au
risque de portée générale , qui restait bien entendu à découvrir.
Il suffit, argumenta Machina, de concevoir les courbes d’indifférence entre perspectives
aléatoires comme non parallèles, non linéaires, disposées comme les baguettes d’un éventail
dont le point de rivure pourrait se situer au sud-ouest du triangle, en général à l’extérieur du
triangle lui-même (fig. 21- 10). C’est ce que l’on appellera la définition générale de “l’effet
d’éventail”.
Sur la figure (21-lO), les points ABCD correspondent au résultat du “Paradoxe d’Allais”,
les points aP$ illustrent le “Paradoxe de Bergen”, l’effet “de surévaluation des faibles
probabilités” est représenté egalement, et d’autres - que l’on n’évoque pas ici - peuvent l’être
aussi : la disposition en éventail des courbes d’indifférence apparaît comme une explication
générale des résultats particuliers obtenus.
Machina avait lui-même donné une définition plus précise de cet “effet d’éventail”
(hypothèse dite “hypothèse II” de Machina (1982)), q ui consistait à poser que l’attitude par
rapport au risque est toujours plus élevée pour une loterie P’ dominant stochastiquement au
premier ordre une loterie P que pour cette loterie P (fig. 21-10). Mais cette formulation est
rapidement apparue trop rigide pour correspondre aux divers résultats expérimentaux obtenus
(cf. par ex. Allais, in : Munier (1988) pp. 345-403 et bien d’autres, par ex. Abdellaoui et
Munier (1994a, b)).
Il reste que le grand mérite de Machina est d’avoir, notamment au travers de cette
remarque, inspiré nombre d’auteurs de modèles alternatifs à l’utilité espérée.

378
Fig. 21-10 : Synthèse inspirée de Machina (1982) (effet d’éventail)

21.3.3. Exemples de modèles alternatifs à l’utilité espérée

On se bornera ici à donner quelques exemples de tels modèles : le modèle de “regret” de


Loomes et Sugden (1982 ; 1987), le modèle SSB de Fishburn (1984 ; 1988), la famille des
modèles “séparables”, tandis que l’on se concentrera dans la quatrième partie de cet exposé
sur le modèle que l’on peut appeler “dichotomique” ou encore “à dépendance des rangs” (il en
existe plusieurs variantes, dues à Quiggin (1982), Allais (1988) et Sega1(1989) notamment.

(9 Théorie du “regret” de Loomes et Sugden (1982 ;1987)

Loomes et Sugden ont été fortement influencés par des résultats expérimentaux que nous ne
rapportons pas ici et que l’on appelle le “renversement des préférences”. Ces expériences sont
rapportées dans Lichtenstein et Slovic (1971), Grether et Plott (1979), et dans une littérature
considérable depuis lors (cf. Munier, (1989 ; 1995a), pour de brefs aperçus et de nombreuses
références).
Leur théorie du “regret” n’a qu’un lointain rapport avec la contribution “classique” de
Savage des années 1950. Elle consiste à “réécrire” la fonction d’utilité en posant que
l’évaluation d’un acte (d’une stratégie) ne peut se faire que par rapport à un autre acte. Ainsi,
l’évaluation de l’acte A, en regard de l’acte A! s’écrira :

‘fpj[u(xi) + R[U(~~) - ~(y~)]] , et devra se comparer a :


i=l

TClj[“(xj) + R[U(Ui)-U(xi)]] ’
évaluation de l’acte A, en regard de
I=I
l’acte A,.

379
Le choix d’une action reviendra donc pour le décideur, d’après Loomes et Sugden, à
minimiser son “regret” (potentiel), ou encore à maximiser l’utilité “de choisirA, par rapport à
AY plutôt que A,, par rapport à A,“, soit :

Max!Fd Y4 Piqj”( Xir Yj)

Ce modèle est l’un de ceux qui ont été le plus vigoureusement développés ces dernières
années. Sa caractéristique majeure est de dispenser de l’axiome de transitivité entre les actes
(ou entre les loteries, puisqu’il s’agit ici de la même chose). Cependant, sa manipulation n’est
pas simple ; il était sujet (dans la version ci-dessus) à des restrictions sur les distributions de
probabilités qui étaient dirimantes ; ses auteurs ont donc dû en proposer une extension à n
actes qui le rend certes plus général, mais encore moins simple.
Notons qu’il n’y a pas à proprement parler de “lieux d’indifférence” au sens habituel du
terme dans ce modèle, mais si l’on en étend le sens, ceux que l’on détermine alors sont
éventuellement sécants, ce qui illustre l’absence de transitivité entre les actes.

(ii) Théorie SSB de Fishburn

Plutôt que de reprendre les idées de Fishburn dans leur intégralité, remarquons que si, à la
suite du modèle de “regret” précédent, on pose :

s(x,,y,)= M(-Yl,Yj) - M(YiJJ

choisir entre A, et A,. reviendra à s’interroger sur le signe de :

La fonction “d’utilité” S(., a) possède une propriété de symétrie barycentrique et se


trouve être (du fait d’axiomes propres à Fishburn) bi-linéaire, en pi et qj respectivement, ce
qui lui confère son nom et ses initiales en Anglais (skew-symmetric bilinear -, ou SSB-theov)

Si l’on ajoute aux axiomes nécessaires pour obtenir cette dernière formulation, un
axiome de transitivité (qui n’y est pas nécessairement), l’expression ci-dessus se décompose
alors (théorème de Fishburn) en :

~,~,Pj~~S(x~~Y~)~~P;U(x~)~~jW(x~)~~~~U(x~)CP,W~x~>
i j I .i i i

Si la fonctionnelle de pondération IV(.) est constante, on retrouve comme cas particulier


la fonctionnelle d’utilité espérée Neumannienne.

(iii) Modèles “séparables”

On peut qualifier de “séparables” une série de fonctionnelles de préférence qui ont été
proposées par divers auteurs et qui ont pour caractéristique commune de pouvoir s’écrire
tantôt sous la forme C”(pi). ( x ,) tantôt sous la forme c h( p,) . U(x,), où la fonction h(.) dite
de “transformation des probabilités” est non-linéaire (sinon, on retrouve 1’U.E.) et où U(x,)
est interprétée diversement selon les auteurs. A l’inverse des précédents, ces modèles sont
simples à manipuler et à mettre en œ uvre, mais ils présentent un inconvénient majeur : ils
violent nécessairement la D.S.P.O. (Munier, 1989).

380
L’exemple le plus célèbre est celui de la Prospect Theory de Kahneman et Tversky
(1979), bien que ce ne soit pas, et de loin, le premier d’un point de vue historique (cf. par ex.
Bernard, 1964).
La famille des modèles “dichotomiques” ou “à dépendance de rangs” a des avantages
voisins sans présenter cet encombrant inconvénient, d’où le succès de ces modèles (cf. partie
2 1.4. ci-dessous).

21.3.4. Comment tester les modèles de décision alternatifs ?

La question de savoir comment “départager” ces divers modèles s’est bien entendu
rapidement posée. Deux familles de méthodes ont été utilisées à cet égard dans le domaine de
l’économie expérimentale : celle de tests globaux et portant sur des loteries déterminées à
l’avance, celle des “profils d’indifférence” admissibles selon les structures de risque
concernées.

(9 Tests globaux sur loteries prédéfinies

Dans cette famille de méthodes, on procède comme dans les “paradoxes” rappelés ci-dessus
et l’on propose aux sujets de l’expérience des paires de loteries, définies à l’avance. On
observe leur préférence pour chaque paire de loteries. On peut alors rapprocher deux types de
classements :

- l’ensemble des classements que le modèle testé est susceptible d’accepter


(par exemple, dans les Paradoxes d’Allais ou de Bergen, il y avait deux
classements admissibles au total) : on parle de classements “cohérents avec” le
modèle testé,

- l’ensemble des classements opérés par les sujets à travers leurs choix lors
de l’expérimentation.

La proportion parmi ces derniers choix de ceux qui sont cohérents avec le modèle
(“taux de cohérence”) peut alors être prise comme indice de performance du modèle
considéré, en première approximation.
Mais on a fait observer, à juste titre, qu’il faut tenir compte des choix qui auraient pu
être effectués au hasard et se trouver cependant en cohérence avec le modèle testé.
Par exemple, pour 3 paires de loteries données (donc 23 = 8 ordres possibles), si le
modèle de l’utilité espérée a atteint, lors de l’expérience, un taux de cohérence de 50%, alors
qu’il admet 2 profils de choix comme “cohérents” (cela dépend des loteries, bien entendu) sur
les 8 possibles (soit 25%), tandis qu’un modèle à effet d’éventail atteint un taux de cohérence
de 89% alors qu’il admet 4 profils de choix comme “cohérents” sur 8 (soit 50%) on peut
établir la z-statistique, zU pour l’utilité espérée et z,, pour les modèles à effet d’éventail, soit :

0,5 - 0,25 = 3,l (p <O,OOl)


“‘= [(0,25)(0,75)/28]“’
et z,, = 0,89 - 0,50 = 4,2 @ < 0,001)
[(0,50) (0,50)/28]“*

Les résultats de l’ensemble de ces types de tests peuvent être reportés sur un graphique
du type de celui reproduit sur la figure (21- 11).
On porte en ordonnées les “taux de cohérence” observés pour les différents modèles
testés lors d’une expérience.
On porte en abscisse les nombres de profils de préférence exprimés par les sujets de
l’échantillon sur les paires de loteries proposées, par ordre décroissant de fréquence. La
première bissectrice reflète la partie de la performance des divers modèles susceptible d’être
due à des choix au hasard.
La courbe Ow est la “frontière” des modèles idéalement performants sur cet échantillon
de sujets et pour les loteries proposées.

381
Cette frontière est obtenue comme suit : si le profil de préférence le plus fréquemment
choisi par les sujets de l’échantillon l’est par x% desdits sujets et si le deuxième plus fréquent
profil est choisi par y% des mêmes sujets, le meilleur modèle imaginable ne permettant qu’un
profil de préférence ne pourrait dépasser un taux de choix cohérents de x%, le meilleur
modèle autorisant deux profils ne pourrait dépasser un taux de choix cohérents de (~+y)%,
etc... Cette courbe est évidemment issue de l’origine, concave, et coupe la première bissectrice
pour une abscisse égale au nombre total n* de profils de préférence exprimés par les sujets de
l’échantillon.

Proportion
profils de
préférence
cohérents

Profils de préférence’observk par


ordre de fréquences décroissantes,
en nombre n*

Fig. 21-11 : Tests des modèles de décision par la méthode de la proportion de choix cohérents

Graphiquement, z est la distance du point caractéristique d’un modèle donné à la droite


de hasard sur la figure (25-l 1) : d’où un biais en faveur desmodèles à faible - ou à très grand -
nombre de profils admissibles, si l’on retient l’index z.
Mais le problème ne se limite pas à z, il est général !
En effet, quel est le “bon” critère pour juger d’un modèle ? Tous sont “biaisés” dans un
sens ou dans un autre. Tout indicateur unique le sera (y compris la valeur du maximum de
vraisemblance obtenue par ajustement économétrique). Rechercher “le bon” indicateur de
performance prédictive d’un modèle de décision est-il d’ailleurs une question vraiment
intéressante ?

(ii) Structures de risque et tests par profils d’indiflérence

L’interprétation “correcte” du paradoxe d’Allais donne en effet à penser que ce qui est vrai au
voisinage de la certitude ne le sera pas pour une autre “structure de risque”, donc pour une
autre “zone” du triangle de Marschak-Machina. En généralisant ce résultat, on peut avoir
l’intuition que certains modèles “marcheront” mieux dans certaines zones du triangle que dans
d’autres (pour certaines “structures de risque” que pour d’autres). Mais alors, l’information
intéressante à avoir est-elle un “taux de performance” global ou l’indication des “structures de
risque” pour lesquelles tel modèle est pertinent, tel autre pas ?
C’est sur cette intuition que les travaux conduits au GRID (URA CNRS 1419) ont
conduit à mettre au point la méthode des “resserrements progressifs” (Abdellaoui et Munier,

382
1994), destinée à établir directement les lieux d’indifférence de sujets soumis à des protocoles
expérimentaux. La figure (21-12) donne une idée de la méthode utilisée.

Fig. 21-12 : Méthode du resserrement progressif d’Abdellaoui et Munier

L’important dans cette démarche est qu’elle ne s’appuie, en toute rigueur, que sur trois
hypothèses, d’une part ; et que ces trois hypothèses de travail peuvent être contrôlées a
posteriori, d’autre part.
Les trois hypothèses sur lesquelles on s’appuie sont les suivantes :

- chaque sujet est supposé respecter la dominante stochastique du premier


ordre,

- les fonctionnelles de préférences sont supposées continues dans le triangle,

- l’indifférence est supposée être une propriété transitive.

Le programme permet de tracer, à partir des données individuelles obtenues, des


approximations par segments de droite des courbes d’indifférence de chaque sujet.
Les résultats sont ensuite convertis en pentes des segments en question, ce qui permet
alors de tester dans diverses parties du triangle :

- la “linéarité” des courbes d’indifférence (“betweenness”),

- le parallélisme entre les courbes entières ou entre parties de courbes,

- la concavité ou la convexité des courbes.

Une analyse inter-individuelle, utilisant un appareil statistique faisant appel aux tests
d’analyse de variante et à des comparaisons paires par paires de pentes (tests de Student ou de
Scheffé) permet de conduire une analyse relativement fine, et surtout de tester l’impact de la
“structure de risque” (i.e., ici, de la “zone” du triangle de Marschak-Machina) à laquelle
l’individu fait face sur la nature de la fonctionnelle de préférence adaptée à la description de
ses préférences.
Les résultats sont frappants (Abdellaoui et Munier, 1994b). Cinq zones apparaissent
nettement dans le triangle, correspondant à quatre types de fonctionnelles de préférence
respectivement pour quatre d’entre elles, la cinquième étant une zone de turbulences où aucun
type de fonctionnelle n’apparaît clairement correspondre aux comportements

383
expérimentalement observables. La figure (2 1- 13) fournit une stylisation des résultats
obtenus.

Effet d’éventail et concavité des courbes d’indifférence

Courbes d’indifférence parallèles

IIml Courbes d’indifférence en ligne droite

El Absence de caractérisation (effets de bord)

Fig. 21-13 : Résultats stylisés d’Abdellaoui-Munier (1994)

On peut voir par exemple - dans la mesure où la carte obtenue pour les gains n’est pas
trop différente que celle que l’on peut obtenir pour les pertes - que les problèmes
d’environnement ont une structure de risque qui les classent dans la zone à concavité et effet
d’éventail : le modèle d’utilité espérée ne décrit donc pas les comportements dans ce cas. En
revanche, le modèle dichotomique semble bien adapté à ce type d’application.

2 1.4. Le modèle dichotomique de décision face au risque


On présente ici quelques-uns des principaux aspects du modèle dichotomique. Après un
rappel sur l’utilité Neumannienne, on introduit l’idée de la dichotomie dans le traitement du
risque. On précise ensuite ce qu’est l’évaluation dichotomique dune loterie avant d’en venir à
l’aversion au risque dans le cadre de ce modèle. Il reste alors à montrer que l’on peut, dans le
nouveau cadre, concilier utilité marginale croissante du revenu et aversion globale au risque.
Les relations du modèle avec les modèles flous sont ensuite rapidement examinées, ainsi que
les limites du modèle et les questions de méthodes auxquelles il conduit pour prescrire des
stratégies optimales.

21.4.1. Rappel sur l’utilité Neumannienne

Rappelons simplement ici le rôle de l’axiome d’indépendance dans la théorie de l’utilité


Neumannienne.

384

-
P9
U(x)

/
n; ,
,
U(C) - --a /
I ,’ ’I
I ,
I , I
,
/- I / I
I /- I
I , I
,
/ I I I

l
I I
’ /’

,Y
, I
’ I
,
, I
, I

Conséquences x
Cl C~+E(X)
Fig. 21-14 : La fonction d’utilité Neumannienne traduit deux concepts à la fois

Axiome d’indépendance

Étant donné trois loteriesl,,!,,J, EL

e,=e, -2, +(l-A)!,&,+(14)!,

C’est cet axiome d’indépendance qui permet de transformer la relation binaire postulée
par Von Neumann et Morgenstern sur les loteries L non seulement en une fonction d’utilité
U(!) mais en une expression de U( !) valant kpj .u(x,), où u(e) est mis pour U(*, l), avec
i=l
(x, 1) loterie dégénérée donnant x avec probabilité 1.
Dans ces conditions, le prix du risque, caractéristique de l’aversion au risque du
décideur, vaut :
iT=-&. o’(x)

On obtient donc l’enchaînement : concavité 0 aversion au risque, convexité 0 goût pour


le risque, etc..
b fonction d’utilité Neumannienne est donc conduite par l’axiome d’indépendance à
représenter deux réalités en une seule. Elle traduit en effet ou l’aversion au risque et la ,
décroissance de l’utilité marginale du revenu, OU l’inclination au risque et la croissance de
l’utilité marginale du revenu.
En bonne épistémologie, ceci ne peut être accepté : deux concepts indépendants ne
peuvent être traités par un seul et même être mathématique.
C’est là l’explication de la mauvaise performance des modèles d’utilité espérée de type
Neumannien-Bayésien.
Il faudrait donc pouvoir séparer, “dichotomiser”, aversion au risque et utilité marginale
du revenu ou de la richesse. Le paragraphe suivant donne l’idée de base et indique une
solution pour atteindre cet objectif.

385
21.4.2. Idée de dichotomie des concepts en théorie du risque

L’idée de dichotomie pourrait conduire à des modèles très lourds à manipuler. Il faut donc
simplifier et renoncer à tout saisir, sans toutefois accepter de ne rien saisir de ce que l’on
souhaite, ce qui est le cas de l’utilité Neumannienne. Comment saisir la notion de “structure
de risque”, si importante (cf. ci-dessus), sans conduire à des formules d’une trop grande
lourdeur ?
Le triangle de Machina nous fournira encore l’idée de base : pour caractériser la
structure de risque, nous nous contenterons de Zordre des paiements et de leur distribution
cumulée. C’est une simplification, mais qui va rendre le problème traitable.
Si l’on note F(x) la fonction de répartition ou distribution cumulée de X, et
G(x) = 1 - F(x) la distribution “décumulée” de x, on peut en effet noter que l’espérance de x
s’écrit :
x,.1
+[x*-X,](P2 +P3+”
*+Pn>
+[xy -X*](P3+I%+-*+Pn) (21-16)
+...
+[x,,-43- l](Pn>
expression discrète de l’intégrale simple :

I()
Gx dx (21-17)

Dans cette version “incrémentale” de l’espérance de gain, le décideur raisonne d’abord


sur ce qu’il est certain d’obtenir, soit x1, qu’il pondère par la probabilité 1, puis ajoute les
incréments qu’il est susceptible d’obtenir avec des probabilités de plus en plus faibles.
On peut remarquer que l’introduction d’une utilité au 18ème siècle a consisté à modifier
la métrique du support de dixtribution, x devenant U(X). Du fait de l’axiome d’indépendance,
l’utilité Neumannienne s’est ramené au même type de calcul, postulant simplement que la
modification de métrique “tenait compte du risque”, postulat qui, dans les applications tout au
moins, est resté un postulat de principe sans aucun effet pratique. L’intégrale (Eq. 21-17)
devient donc simplement :

JG[441du (21-18)

ou encore, sous forme discrète :

U(n1 )*’
+[L(x,)- +,)](Pz+ P?+-+IL)
+[u(x3)-+*)](P3 +nt+-*+PJ (21-19)
+ .. .
+[@a)- 4% - l)](PJ

386
1 -F(x) Gain espéré
t
1
Pascal-Fermat (XVIIème)

gains x

1 -F(x) Utilité espérée


Daniel Bernoulli (1738)

Utilité anticipée
(modèle dichotomique)

Figure 21-15 : Stylisation des transformations de métrique(s) à introduire en théorie de la décision

387
Si l’on veut “dichotomiser” le traitement du risque, introduire deux êtres mathématiques
indépendants pour traiter deux concepts indépendants, il faut introduire deux modifications de
métriques indépendantes, une le long de l’axe des abcisses, l’autre le long de l’axe des
ordonnées. C’est exactement ce que va faire le modèle “dichotomique”, comme le suggère le
troisième graphique sur la figure (2 1- 15).

21.4.3. Évaluation “dichotomique” d’une loterie

Partant d’un comportement d’utilité espérée (intégrale de Bernoulli ci-dessus), l’idée de base
va donc consister à “transformer” la distribution (dé)cumulative de probabilité dans
l’intégrale.
Utilisons pour cette “transformation” une fonction e(a) comme suit :

u(x,).eu>
+[U(n*)-u(xJe(P2 + Pl+*..+PJ

+[u(q) - u(x?)]e(P? + P4+*.+Pn) (2 l-20)


...
:,.<x;.> - U(% - @(PJ

ce que l’on peut encore mettre sous la forme continue :

Je [+4x)]] du(x) (21-21)

On peut ainsi donner une interprétation “incrémentale” affinée de la rationalité du


décideur : on comptabilise d’abord le résultat minimum certain, puis on ajoute les incréments
de résultats mais en les pondérant par des probabilités cumulées “transformées” pour tenir
compte de la structure de risque à laquelle on fait face et d’une “attitude par rapport au
risque” spécifique à cette structure de risque. On peut observer que cette façon de voir
implique que e( 1) = 1 et e(O) = 0. On peut remarquer aussi, par l’intuition aussi bien que par
le calcul, que la préservation de la D.S.P.O. implique que I?I(.)soit monotone croissante, donc
ey) > 0.
L’expression ci-dessus peut être mise sous la forme :

kh;.u(xi) (21-22)
I=I
en posant :
hi = 6(pi +p;+,+...+P,)-8(P,+I + P;+++Pn) (21-23)

ce qui permet une comparaison aisée avec l’expression de l’espérance d’utilité.


Plusieurs commentaires méritent d’être présentés ici :

1) L’expression des hi est une façon de tenir compte de façon simplifiée, à


travers l’ordre des paiements seulement, de la “structure de risque” à laquelle on
se trouve confronté.

2) On voit qu’avec e(-) monotone croissant, e(i) = 1, e(o) = 0, toute


fonction 1 - F(.) DSPO une fonction 1 - F’(.) sera “transformée” en une fonction 8
[ 1 - F(.)] DSPO 8 [ 1 - F’(.)] . Ainsi, le modèle dichotomique a comme propriété
importante de “respecter la D.S.P.O.“.

388
Incidemment, les propriétés de e(.) assurent : Vi, hi 2 0 et2 hi = 1.
i=l

3) Pour e(.) non linéaire, les hi sont non additifs. Compte tenu des
propriétés énoncées en fin de 2) ci-dessus, ce sont donc des “Capacités” de
Choquet (dites aussi “probabilités non additives”), par définition.
En revanche, pour e(.) linéaire, on retrouve l’utilité espérée. Les hi sont
alors les probabilités pi à une constante multiplicative près, ce qui donne le même
ordre à l’espérance d’utilité, la fonction d’utilité Neumannienne étant définie à une
transformation affine positive près. On retrouve le cas Bayésien comme cas
particulier.

4) Enfin, u’(.) reflète l’évaluation marginale du revenu ou du patrimoine. La


forme de cette fonction u’(e) implique certes une attitude par rapport au risque,
mais :
a) l’évaluation du revenu préexiste à cette propriété ou, en d’autres termes,
ce n’est pas la considération de l’attitude par rapport au risque qui dicte la
forme de la fonction, mais seulement l’évaluation marginale du revenu,
b) elle ne reflète pas toute l’attitude par rapport au risque, puisque la
fonction e(.) y ajoute une attitude “probabilistique” par rapport au risque,
spécifique à la “structure de risque” ou encore à la nature de la distribution
de probabilité. C’est cette dernière partie de l’attitude par rapport au risque
qui est, du fait de l’axiome d’indépendance (ou du postulat de la “chose
sûre”), négligée par la théorie Neumannienne-Savagienne et le
Bayésianisme...

Contrairement à ce qu’entraîne l’acceptation par la théorie Neumannienne-Bayésienne


de l’axiome d’indépendance, l’attitude par rapport au risque n’est pas donnée une fois pour
toute pour un individu donné (doté d’un patrimoine donné) mais elle varie - pour la partie
emportée par e(e) - selon l’ensemble des caractéristiques de la distribution de probabilité
considérée (sous réserve de la seule considération du rang des paiements, par simplification,
comme on l’a déjà mentionné).
On observe régulièrement, lors des tests expérimentaux, que l’attitude par rapport au
risque Neumannien n’a pas une valeur stable. La source de la piètre performance descriptive
du modèle d’espérance d’utilité trouve ici sa source essentielle. Le modèle dichotomique
permet de résoudre de façon plus satisfaisante le problème. Mais deux fonctions sont
maintenant à estimer au lieu d’une...

21.4.4. Estimer les paramètres du modèle dichotomique

Diverses méthodes sont possibles, qui consistent à généraliser la méthode des “loteries de
référence” de Savage. On peut toutefois remarquer que si l’on parvient à estimer la fonction
de transformation de probabilité, on se ramène au problème précédent, sous réserve de
remplacer les probabilités par leurs valeurs transformées respectives.
Aussi une méthode possible consiste-t-elle à procéder en deux temps, en commençant
par la fonction de transformation des probabilités. Abdellaoui et Munier (1995) ont proposé la
méthode dite “des jumeaux”, inspirée des “mondes parallèles” de J.C. Vansnick, sur un
logiciel développé au GRID par M. Abdellaoui. L’application pratique de la méthode dans le
cas de risque d’irradiation lors d’intervention de maintenance en centrale nucléaire a été faite
(ibid.). La figure (21- 16) donne un exemple des résultats que l’on peut obtenir.

389
Fig. 21-16 : Estimation d’une courbe de transformation de probabilité dans une centrale nucléaire (risque
d’irradiation lors d‘opérations de maintenance)

Il reste bien entendu, si l’on souhaite obtenir une fonction analytique pour un usage plus
commode, à “estimer” la fonction par l’une des méthodes disponibles dans les progiciels du
commerce. La figure (21-17) donne une illustration de la fonction obtenue sur les résultats
précédents en utilisant la forme analytique proposée par Quiggin (1982) puis par Tversky et
Kahneman (1992), soit :

e(p)=
[pY
+fil pY)r
Sur la figure (21-17), la valeur obtenue pour y est y =2,34.

CG?-
OB-
07 -
as-
>wi-
04 -
0.3-
02-

WI 0.1 02 03 0.4 QS cl.0 Q? OB 0.9 10

Fig. 21-l 7 : Ajustement d’une courbe sur les points obtenus précédemment (fig. 21-16)

Utilité marginale croissante et aversion au risque réconciliées

Comme son nom l’indique, le modèle dichotomique permet de séparer utilité marginale du
revenu et attitude par rapport au risque. Deux théorèmes permettent à cet égard de préciser
les rapports entre ces deux paramètres de comportement.

390
Théorème de Karni-Safra

Ce théorème précise les conditions auxquelles un décideur fait preuve d’aversion au risque au
sens où sa fonctionnelle dichotomique de préférence est diminuée par un écartement à
moyenne constante (aversion au risque au sens fort). Il peut s’énoncer comme suit (Karni et
Safra, 1988):
Un décideur à comportement dichotomique fait preuve d’aversion forte au risque si et
seulement si sa fonction u(s) est concave et sa fonction 0(e) est convexe.
Il en résulte que pour une fonction u concave et une fonction 8 concave, l’individu sera
enclin au risque et aura simultanément une utilité marginale décroissante du revenu.
Observons que cette condition est à la fois nécessaire et suffisante.

Théorème de Chateauneuf-Cohen

Ce théorème est relatif à la notion la plus courante de l’aversion au risque (aversion faible au
risque ou prix de vente d’une loterie plus faible que sa valeur actuarielle). Il ne donne
malheureusement que des conditions suffisantes.
Un décideur à comportement dichotomique doté d’une fonction u telle que :

3 h 2 1 tel que u’(y) S h 44 - U(Y) Oly<xll


x-y ’

fait preuve d’inclination faible au risque si sa fonction 8 satisfait :

8(p) 2 I- (1- p)” Vp E [O,l] (optimiste)

Un décideur à comportement dichotomique doté d’une fonction u telle que :

3 k 2 1 tel que u’(y) I k 44 - U(Y) o<y<xa1


x-y ’

fait preuve d’iaversion faible au risque si sa fonction 8 satisfait :

e(p) 5 pk Vp E [0, I] (pessimiste)

En d’autres termes, un décideur dont l’utilité marginale du revenu n’est pas croissante
peut faire preuve d’inclination faible au risque, pourvu que sa fonction o(.) de transformation
des probabilités soit “suffisamment” concave, c’est-à-dire pourvu qu’il soit suffisamment
“optimiste”. Un décideur dont l’utilité marginale du revenu n’est pas décroissante peut faire
preuve d’aversion faible au risque, pourvu que sa fonction o(. transformation des
probabilités soit “suffisamment” convexe, c’est-à-dire pourvu qu’il soit suffisamment
“pessimiste”.
Il n’est donc plus nécessaire d’identifier évaluation marginale décroissante du revenu et
aversion au risque et inversement. Le problème que l’on cherchait à résoudre trouve donc ici
une solution.

21.4.6. Limites du modèle dichotomique

La “cohérence dynamique” ne peut être assurée conjointement à l’hypothèse de “séparabilité”


de l’arbre de décision (Machina, 1989). “L’induction arrière” (ou “réduction des arbres de
décision”) n’est donc en général pas possible. Il faut prendre une décision en considérant
l’ensemble de l’arbre de décision.

391
En effet, considérons l’exemple de la digue (figures 21-2 à 21-4) avec les données
numériques suivantes :

- une fonction 8 avec un exposant 2,34 (figure 21-17)

- une fonction de désutilité traduisant les dommages de telle sorte que celle
ci prenne la valeur zéro avec une digue si l’hydraulicité de la rivière est forte, alors
que sans digue de protection, on suppose que, à hydraulicité faible, le dommage
est de 1 (les riverains acceptent de subir de temps un temps un aléa). D’autre part,
on fait l’hypothèse qu’une digue construite pour une hydraulicité faible est une
construction inutile (dommage égal à 2) et que le dégât des eaux (pas de digue,
hydraulicité forte) entraîne une désutilité valant 3.

- un modèle de comnortement hvdrauliaue tel aue la probabilité d’une crue


sachant que l’hydraulicité est faible vaut O,l, alors que la probabilité d’une crue
sachant que l’hydraulicité est forte atteint 0,7.
On peut faire varier entre 0 et 1 la probabilité subjective n (a priori) que la rivière est
dans un état d’hydraulicité faible. La première partie de la figure (21-18) résume ces données
pour X = 0,94.
En recherchant quelles sont les stratégies optimales (figure 21-3) selon les critères du
risque bayésien ou de l’utilité anticipée, on observe que le modèle dichotomique ou le modèle
bayésien se comportent globalement de façon semblable pour préconiser des règles de
décisions.
Pour n peu important (jusqu’aux alentours de 0,49 avec les données choisies), elles
recommandent la stratégie 1 (toujours construire quel que soit l’événement observé). Pour ?r
plus important (une gamme entre 0,49 et 0,94), elles préconisent la stratégie 2 (agir selon le
signal reçu). Pour x au delà de 0,94 (quasi certitude que la rivière est dans un état de faible
hydraulicité), on passe à la stratégie 3 (ne pas construire de protection quelle que soit
l’information reçue).

Il faut également noter que :

1) pour les deux méthodes, la stratégie “idiote” 4 n’est jamais optimale (agir
à l’encontre du signal reçu). Les deux critères éliminent les stratégies dominées ;

2) lorsqu’on augmente progressivement les valeurs de X, le modèle


dichotomique change de stratégie, avec la spécification retenue ici à titre
d’exemple, légèrement en retard par rapport au modèle bayésien (2 à 3 points sur
les valeurs de p dans le cas présent) ;

3) le modèle dichotomique peut ne pas être en cohérence avec la révision


bayésienne des croyances. Ainsi quand on considère la valeur z = 0,94, le calcul
des désutilités anticipées sur tout l’arbre fournit une stratégie de type 3 (figure 21-
18), tandis que si l’on cherche les décisions optimales conditionnellement à
l’événement observé en utilisant les probabilités révisée selon la formule de Bayes
pour l’utilité anticipée, on construit (figure 21-19) une règle différente (stratégie
de type 2).

392
8=2 Forte
hydraulicité

DISUTILITES ANTICIPEES

RISQUES BAYESIENS
1.8800 1.0880 1.1200 1.9120

Fig. 21-18: Modèle dichotomique pour le calcul des stratégies optimales au sens de l’utilité anticipée sur un
exemple numérique

Cet exemple simple, voire simpliste, illustre néanmoins le fait que la propriété de
commutativité de l’arbre (cf. partie 2) n’est donc en général pas assurée et qu’on ne peut
utiliser une “information” pour “réviser” ses croyances (les probabilités) à l’aide de la règle de
Bayes tout en conservant la cohérence du choix de la stratégie optimale par un critère d’utilité
anticipée (modèle dichotomique). On peut également montrer que la “valeur de l’information”
(mesurée en terme d’utilité anticipée moyenne) peut devenir négative... Mais la “valeur de
l’information” est une notion bayésienne, qui n’a de sens que dans le cadre d’un modèle fondé
sur un critère d’utilité espérée.
En changeant le modèle décisionnel classique pour mieux représenter le comportement
effectif du décideur par le modèle dichotomique, on perd l’interprétation opérationnelle de
révision des probabilités de la règle de Bayes. A la connaissance des auteurs, malgré diverses
règles alternatives de révision des croyances (Walliser, 1994), il n’existe pas de règle de
révision toujours compatible avec le modèle dichotomique qui permette de réduire les arbres
de décision. Une façon de voir cette limite importante du modèle dichotomique consiste à
refuser de réduire l’arbre de décision, en arguant du fait que le passé compte toujours et qu’on
ne peut concentrer toute la mémoire des phénomènes observés dans une simple probabilité a

393
posteriori sans imaginer modifier l’attitude décisionnelle, comme on le suppose dans le cas du
critère de l’utilité espérée.

Faible hydraulicité
et digue
0.69 / *
Forte hydraulicité
et digue
~:LU , Faible hydraulicité sans
digue
. . . . . . .
ETTJw ’ Forte hydraulicité
n Pl.4 m3 sans digue
V.J I
protection 2 Faible hydraulicité
et digue
Forte hydraulicité
et digue
Faible hydraulicité
sans digue

Forte hydraulicité
sans digue

/m&qgiqm

Fig. 21-19: Disutilités anticipées avec révision bayésienne des probabilités


2 1S. Conclusions
L’objet de cette communication a consisté principalement à attirer l’attention sur les
conditions restrictives dans lesquelles les techniques bayésiennes sont d’un usage
scientifiquement assuré.
Pour être plus précis, on souhaite souligner les cinq points suivants.

1) Les techniques bayésiennes reposent sur les mêmes conditions


d’application que la théorie Neumannienne du risque, dont l’applicabilité n’est pas
générale. On doit néanmoins distinguer entre ces techniques dans leur état actuel
- soumises à des hypothèses restrictives, en effet - et la phiZosophie d’ensemble,
qui consiste à allier deux sortes d’informations, personnelle et “objective”, qui,
elle, ne souffre pas de telles restrictions... mais cette perspective exige alors que
l’on change de techniques.

2) En particulier, les “structures de risque” que présentent les problèmes


d’environnement sont bien spécifiques (forte incertitude, très faible probabilité de
dommages considérables, voire énormes) et font, pour ces raisons, de l’utilité
espérée, et donc de la technique bayésienne courante, des techniques peu
indiquées dans de tels cas (cf. notamment les résultats d’Abdellaoui et Munier,
1994a). Ceci mérite une sérieuse réflexion.

3) Le modélisateur qui, pour mieux représenter le comportement effectif du


décideur face aux situations risquées, décide d’abandonner le modèle décisionnel
“classique” et d’adopter le modèle dichotomique, ne doit plus utiliser la règle de
Bayes pour représenter la révision des croyances de façon “dynamiquement
cohérente”.

4) On a donc besoin de développer des techniques alternatives à celles


qu’autorise la règle de Bayes et qui soient appuyées sur l’analyse plus générale que
propose le modèle dichotomique.
La maîtrise théorique du modèle est maintenant suffisamment bonne pour
que l’on puisse espérer voir émerger des techniques d’application simples, au prix
d’un effort de recherche complémentaire dans ce domaine.

5) Les applications potentielles de ces nouveaux modèles de décision sont


très larges. Elles contiennent notamment le domaine de la prévention des
catastrophes naturelles et celui de la prévention des risques industriels, catégories
jadis considérées comme “risques non assurables”. En particulier, tout le
“management des risques” dans l’entreprise, tant financier qu’industriel, les
questions de maintenance notamment, sont justiciables de tels modèles et de telles
techniques.

REMERCIEMENTS
Les auteurs remercient J. Bernier et R. Krzyztofowicz pour leurs critiques et suggestions.

395

T_-- --
BIBLIOGRAPHIE

ABDELLAOUI, M. and B. MUNIER (1994a) ‘The “closing in” method : an experimental


tool to investigate individual choice patterns under risk’. In : B. Munier and M.J.
Machina (eds) Morlels and experiments in risk and ration&-. Dordrecht/Boston,
Kluwer Academic Publishers.
ABDELLAOUI, M. and B. MUNIER (1994b) ‘The fundamental risk-structure dependence of
individual preferences under risk, an experimental investigation’. Note de Recherche,
GRID 94-07
ABDELLAOUI, M. and B. MUNIER (1995) ‘Transformation subjective des probabilités face
au risque d’exposition au rayonnement ionisants : Etude expérimentale préliminaire’ .
Rapport intermédiare pour le CEPN. Mimeo; GRID.
ALLAIS, M. (1953) ‘Le comportement de l’homme rationnel devant le risque : critique des
postulats et axiomes de l’école américaine’. Econometrica, 2 l(4).
ALLAIS, M. (1979) ‘The so-called Allais paradox and rational decisions under uncertainty’ in
Allais, M and 0. Hagen (eds), Expected utility hypotheses and the Allais paradox .
Dordrecht/Boston, Reidel, pp. 437, 68 1.
ALLAIS (1988) “The general theory of random choices in relation to the invariant cardinal
utility function and the specific probability function, the (U,o) mode1 : a general
overview’ in Munier B. (edr.), Risk, decision and rationality,. Dordrecht/Boston, Reidel,
pp. 231,289.
ALLAIS, M. and HAGEN (1979) Expected utility hypotheses and the Allais paradox .
Dordrecht/Boston, Reidel.
BAYES, T. (1763) ‘An essay towards solving a problem in the doctrine of chances’. Phil.
Trans. Roy. Soc., 53.
BERGER, J.O. (1985) Statistical decision theory and bayes& analysis. 2nd Ed, New York,
Springer Verlag.
BERNARD G. (1964) ‘On utility functions’. Theory and Decision, Vol 5, pp. 205,242.
BERNIER, J. (1967) ‘Les méthodes bayésiennes en hydrologie statistique’. Intern. Hydrol.
Symp., Fort Collins.
BERNIER, J. and J. MIQUEL (1979) ‘Incertitudes de l’information et décision en situation de
risque. Cas des problèmes de protection contre les crues’. La Houille Blanche, 4(5).
BERNIER, J. (1985) ‘Prise en compte des incertitudes d’information et des objectifs dans
l’estimation des modèles hydrologiques’. Rev. Int. des Sciencesde l’Eau, l(4).
BERNIER, J. (1987a) ‘Elements of bayesian analysis of uncertainties in hydrological
reliability and risk models’. In : Duckstein, L. and E. Plate (eds) Engineering reliability
and risk in nIater resources. NATO AS1 series, Den Hagen, Martinus Nijhoff
Publishers.
BERNIER, J. (1987b) ‘Bayesian analysis : further advances and applications’. In : Duckstein,
L. and E. Plate (eds) Engineering reliabilio and risk in water resources. NATO AS1
series, Den Hagen, Martinus Nijhoff Publishers.
BERNIER, J. (1993) Simulation, Bayes et bootstrap en hydrologie statistique. Note interne de
recherche, Québec, INRS-Eau.
BOBEE, B. ; P. RASMUSSEN ; L. PERREAULT and F. ASHKAR (1994) ‘Risk analysis of
hydrologie data : review and new developments concerning the Halphen distributions’.
In : Duckstein, L. and E. Parent (eds) Engineering risk in natural resources
management. NATO AS1 series, DordrechtBoston, Kluwer Academic Publishers.

396

-
BOX, G.E.P. and G.C. TIAO (1973) Bayesian inference in stutistical analysis. Reading,
Mass., Addison-Wesley.
DAVIS, D. and S. NNAJI (1982) ‘The information needed to evaluate the worth of uncertain
information, prediction and forecasts’. J. of Applied Meteorology, 20(4). American
Meteorological Society.
DAVIS, D. ; C.C. KISIEL and L. DUCKSTEIN (1972) ‘Bayesian decision theory applied to
design in hydrology’. Water Resources Research, 8( 1).
DE FINETTI B. (1937) La P révision, ses lois logiques, ses sources subjectives. Paris,
Herman .
DEMPSTER, A.P. (1968,) ‘A generalization of Bayesian inference’ J. Roy. Statis. Soc., B-30
pp. 205-248.
DUCKSTEIN, L. ; B. BOBEE and 1. BOGARDI (1987) Buyesianforecasting of hydrological
variables under changing climatology, proceedings. International Assoc. of
Hydrological Sciences, Vancouver B.C., August.
FERGUSON, T.S. (1967) Mathematical statistics : a decision-theoretic approach. New-
York, Academic Press.
FISHBURN (1984) ‘Dominante in SSB utility theory’, Journal of economic theory, Vol. 34,
pp. 130, 148.
FISHBURN (1988) ‘Expected Utility : an anniversary and a new era’, Journal of risk and
uncertainty, Vol. 1, n”3, pp. 267, 283.
FORTIN V., BERNIER J. and B. BOBEE (1997) ’ Simulation, Bayes and bootstrap in
statistical hydrology’. Water Resources Research, 33(3), pp.439,448.
GRETHER D.M. and C.R. PLOTT (1979) ‘Economie theory of choice and the Preference
Reversa1 phenomenon’, American economic review, 64,4, pp. 623, 638.
HALPHEN, E. (1946) Sur la valeur industrielle d’une chute d’eau’, Annuaire hydrologique de
la France, pp. 5,28.
HALPHEN, E. (1945) ‘Problème du développement de la production d’énergie electrique’,
Annuaire hydrologique de la France, pp. 5, 33.
KAHNEMAN, A. and D. TVERSTY (1979) ‘Prospect theory : an analysis of decision under
risk’, Econometrica, 47, pp. 263, 29 1.
KARNI E. and Z. SAFRA (1988) ‘Preference reversa1 and the theory of decision making
under risk’ in Munier B. (ed.) in Risk, decision and rntionality. Dordrecht/Boston. Reidel,
pp. 163, 172.
KRZYSTOFOWICZ, R. (1994a) ‘Generic utility theory : explanatory model, behavioral
hypotheses, empirical evidence’. In : Allais, M. and 0. Hagen (eds) Curdinalism, a
fundamental upproach. Boston/Dordrecht, Kluwer Academic Publishers.
KRZYSTOFOWICZ, R. (1994b) ‘Strategic decisions under non stationary conditions : a
stopping-control paradigm’. In : Duckstein L. and E. Parent (eds) Engineering risk in
natural resources nzanagenaent.NATO AS1 series, Boston/Dordrecht, Kluwer Academic
Publishers.
KUCZERA, G. (1983) ‘Improved parameter inference in catchment models : 1. Evaluating
parameter uncertainly’. Water ResourcesResearch, 19(5).
LEHMANN, E.L. (1983) Theory of point estimation. New-York, Wiley.
LICHTENSTEIN and SLOVIC (197 1) ‘Reversals of preference between bids and choice in
gambling decisions’. Journal of experimental psychology. Vol. 89, pp. 46-55.
LINDLEY, D.V. (197 1) ‘Bayesian statistics, a review’. SIAM J. of Statistics.
LOOMES and SUGDEN (1982) ‘Regret theory : an alternative theory of rational choice
under uncertainty’, The economic journal; Vol. 92, no 6, pp. 805, 824.
LOOMES and SUGDEN (1987) ‘Some implications of a more general form of regret theory’,
Journal of economic theory, Vol.4 1, pp. 270, 287.
LOUKS, D.P. ; J.R. STEDINGER and D.A. HAITH (1975) Wuter resources systems
planning and analysis. Englewoods Cliffs, N. J., Prentice-Hall.
MAASS, A. ; M.M. HURSCHMIDT. ; R. DORFMAN ; H.A. THOMAS ; S.A. MARGLIN
and G.M. FAIR (1962) Design qf water resources systems. Cambridge, Harvard
University Press.
MASSE, P. (1946). Les réserves et la régz/lrztionde l’uvenir. Herrman.
MACHINA, M.J. (1982) ‘Expected utility without the independence axiom’. Econometrica, 50.

397
MACHINA, M.J. (1984) ‘Temporal risk and the nature of induced preferences’. Journal of
economic theory. Vol . 33, pp. 192, 23 1.
MACHINA, M.J. (1989) ‘Dynamic consistency and non-expected utility models of choice
under uncertainty’. Journal of Economie Literature, XXVII, 4, pp. 1622- 1668.
MORLAT, G. (195 1) ‘Sur 1a consigne d’exploitation optimum des réservoirs saisonniers’. La
Houille Blanche, pp. 497, 510.
MUNIER, B. (1988) (ed) Risk, d ecision and rationality. Dordrecht, Reidel Publishing
Company.
MUNIE,R, B. (1989) ‘Calcul économique et révision de la théorie en avenir risqué’. Rev.
d’Economie Politique, 99(2).
MUNIER, B. (1995a) ‘Entre rationalités instrumentale et cognitive : contributions de la
dernière décennie à la théorie du risque’. Revue d’Économie Politique, 105 (1). pp. l-67.
MUNIER, B. (1995b) ‘Méthodes expérimentales d’évaluation des théories du risque’. Revue
Economique, 46( 3).
MUNIER, B. ( 1995~) ‘H ammond’s consequentialism : a qualification’. In K.J. Arrow, E.
Colopmbatto, M. Perlman and C. Schmidt (eds) Rationul foundutions of economic
behuviour, London, Macmillan (à paraître).
MUNIER and ABDELLAOUI (1991) ’ Expected utility violations : an appropriate and
intercultural experiment’ , in CHICAN A. (ed.) Progress in decision, utility und risk
theory. Dordrecht/Boston/Tokyo, Kluwer Academic Publishers,pp. 175, 182.
MUSY, A. and L. DUCKSTEIN (1976) ‘Bayesian approach to tile drain design’. J. h-r. Drain.
Div. Amer. Soc. Civil Eng., 102(3).
QUIGGIN (1982) ‘A theory of anticipated utility’ , Journal of economic behavior and
organization, 3, pp. 323, 343.
ROBERT, C. (1992) L ‘unulyse statistique bayésienne. Paris, Economica.
ROTHSCHILD and STIGLITZ (1970) ‘Increasing risk : 1. A definition’, Journal of economic
theory. Vol. 2, pp. 225, 243.
ROTHSCHILD and STIGLITZ (1971) ‘Increasing risk : 1. A Its economic consequences,
Journal of economic theory. Vol. 3, pp. 68, 84.
SAVAGE, L.J. (1954) The foundutions of stutistics. New-York, Wiley.
SEGAL (1989) ’ Anticipated utility : A measure representation approach’, Annals of
operations research. Vol. 19, pp. 359, 373.
SHAFER, G. (1976) A muthemuticul theory of evidence. Princeton University Press,
Princeton.
STEIN, C. (1955) ‘Inadmissibility of the usual estimation for the mean of a multivariate
normal distribution’. Proc. Third Berkeley Symp. Math. Statist. and Prob. University
California Press.
THOMAS, A. and R. REVELLE (1966,) ‘On the efficient use of high aswan dam for
hydropower and irrigation’. Management Science, 8(4).
TRIBUS, M. (1969) Ration& descriptions, decisions und design. New York, Pergamon Press
Inc.
TVERSKY and KAHNEMAN (1992) ’ Advances in prospect theory : cumulative
representation of uncertainty’, Journal of risk and uncertainty. Vol. 5, pp. 1039, 323.
ULMO, J., and J. BERNIER (1973) Eléments de décision statistique. Paris, Presses
Universitaires de France.
VON NEUMANN, J. and 0. MORGENSTERN (1944) Theory of gumes und economic
behuvior. (3rd ed. 1953), Princeton University Press, Princeton.
WALD, A. (1950) Stutisticul decisionfunctions. New-York, Wiley.
WALEY, J. (1989) Testing stutisticul hypotheses. New-York, Wiley.
WALLIS J.R. and E.F. WOOD (1985) ‘Relative accuracy of log-Pearson type III procedures’.
J. of Hydraulic Engineering , 11 l(7).
WALLISER (1994) L’intelligence de 1’Economie. Paris Odile jacob.
WEBER, J.D. (1973) ‘Historical aspects of the bayesian controversy with comprehensive
bibliography’. Researchnote. College of Business and Public Administration. University
of Arizona ; Tucson : University of Arizona.
YEVYEVITCH, V. and J.T.B. OBEYSEKERA ( 1984) ‘Estimation of skewness of hydrologie
variables’. Water ResourcesResearch,20(7).

398
22. Utilisation de techniques d’analogues
pour la prévision quantitative des
précipitations journalières

Sophie Guilbaud”), Charles Obled”‘,


Javier Yves Rodriguez(‘),
(l) LTHE (Laboratoire d’étude des Transferts en Hydrologie
et Environnement)
UMR (CNRS, lNPG, UJF) 5564
BP 53 - 38 041 GRENOBLE Cedex 9
FRANCE
(2) Ste Ressources en Eau - EDF-DTG
37 rue Diderot
38 040 GRENOBLE Cedex
FRANCE
Abstract

The Water RessourcesDepartment of Electricité de France - Division Technique Générale- has


elaborated,about 20 years ago, a daily quantitative precipitation forecast mode1for mountainous
catchmentsin the South part of France.
The forecasting technique is based upon the selection of analogous situations to the current
meteorological situation, in an historical data file. The most similar days are selected by an
appropriate criterion of distance, applied on the 700 and 1000 geopotential fields. Then, a
probabilistic rainfall prediction is calculated by using the empirical cumulated distribution
fnnction of the analogues’amount of precipitation.
TO improve the forecasting capacities of the model, different approaches,using the only avaible
data fïelds, have been explored. And especiallythe introduction of new variables (time-variations
of the geopotential fïelds) has retïned the analogue selection, becauseit takes into account the
dynamic of the phenomenon. A better data set condensation, with Empirical Orthogonal
Functions, seemsalso to be interesting, as the fact of giving more weight to the data close to the
study area. Weighting the variables used in the analogueselection has given some improvements
too.
Finally, perspectivesfor further works Will be exposed.

Résumé

Le service Ressourcesen Eau de la Division Technique Générale(DTG) de EDF a mis au point,


depuis une vingtaine d’années,un modèle de prévision quantitative des précipitations journalières
sur les massifs montagneuxdu Sud de la France.
Ce modèleest base sur une technique de recherchede situations analoguesdans le passe.Grâce à
un critère de distanceapproprié, les journées qui ressemblentle plus à la situation météorologique

399
du jour - du point de vue des champs de géopotentiel700 et 1000 mb sur l’Europe et l’Atlantique -
sont sélectionnées.Puis une prévision probabiliste de pluie est déterminée grâce à la distribution
empirique cum&e des précipitations de chacunedesjournées retenuescomme analogue.
Quelquestentatives d’amélioration de cette méthode sont présentées,tentatives utilisant les seuls
champs déjà disponibles. On montre l’intérêt d’introduire de nouvelles variables d’évolution
temporelle; cela permet d’afhner la sélection des analogues et de mieux prendre en compte la
dynamique du phénomène.Il apparaît aussi intéressantde mieux condenserles donnéesde départ
(champs de géopotentiels)par une Analyse en ComposantesPrincipales de Processus,et de les
pondérer en donnant plus de poids aux variables proches de la zone d’étude.
Enfin, difIérentes perspectivesde rechercheseront exposées.

22.1. Introduction
Depuis que les mouvements de circulation de l’atmosphère sont connus, il a été mis en
évidence d’une part, que des situations semblables à meso-échelle (plusieurs millions de km2)
peuvent produire à une échelle plus locale (quelques milliers de km2) des conséquences
semblables en terme de température, précipitation, , et d’autre part, que certaines situations
locales ne peuvent avoir lieu que sous des régimes bien particuliers. Ainsi, les fortes
précipitations sur le pourtour méditerranéen ne peuvent pas découler d’un régime de Nord.
Dans ce sens, Lorenz (1956, 1969) propose le premier d’utiliser différentes équations de
régression pour la prévision de variables météorologiques locales selon la typologie des flux de
circulation de l’atmosphère à meso-échelle. Par la suite, des descriptions de typologie de la
circulation de l’atmosphère se sont développées, basées essentiellement sur des techniques
d’Analyse en Composantes Principales (ACP) sur des champs de géopotentiels (cf. par
exemple Peagle et Kierulff, 1974; utilisant le champ de géopotentiels à 500 mb), qui ont été
suivies par des modélisations, toujours établies à partir d’équations de régression, de
l’occurrence de pluie/non pluie (Peagle, 1974).
La méthode de sélection d’«analogues», qui recherche des situations semblables à une
journée test dans le passé, a été formalisée par Bamett et Preisendorfer (1978) dans le but de
prévoir l’évolution du climat au pas mensuel. Une version opérationnelle de cette approche au
pas «saisonnien) (3 mois) a été proposée par Livezey et Bamston (1988) pour la prévision des
températures. Dans les deux cas, la méthode utilise une décomposition en ACP d’un vecteur
d’état qui contient plusieurs champs (géopotentiels à différents niveaux, températures de la
mer, . ..).
Des concepts similaires ont été développés au pas journalier. Ils introduisent soit des méthodes
de sélection différentes comme 1’Analyse Discriminante et les Nuées dynamiques (Der
Megreditchian et al., 1981a) ou le critère combiné des moindres distances et corrélation sur
différents champs de géopotentiels (Duband, 1980); soit des champs plus adaptés à la prévision
des précipitations journalières : advection du tourbillon absolu et vitesse verticale (Der
Megreditchian et al., 1981b).
Quelques développements, dans le but de prévoir quantitativement la précipitation
attendue à partir d’une sélection de situations analogues à grande échelle ont été faits en
France : Duband (198 1) a rendu opérationnelle une méthode ciblant la précipitation à l’échelle
du bassin versant (quelques milliers de km2), Der Megreditchian et al. (1981b) à l’échelle du
département administratif (quelques dizaines de milliers de km2) et plus récemment Vermot-
Desroches (1987) a travaillé sur les reliefs à l’échelle du massif, ce qui montre que cette
méthode utilisée de façon opérationnelle est toujours d’actualité.
Cet article rappelle quelques concepts de la méthode de prévision quantitative de
précipitations journalières proposée par Duband dès 1970 (Duband, 1970) puis élaborée en
1974 pour atteindre sa forme actuelle dans les années 80 (Duband, 1980 et 198 1) et qui est
utilisée opérationnellement par le Service Ressources en Eau de la Division Technique
Générale d’EDF depuis bientôt 15 ans. Elle permet de prévoir la quantité de précipitation qui

400
tombera dans les 72 heures par tranches de 24 heures, sur des bassins versants (de 500 à 3000
km2) équipés d’aménagements hydroélectriques. C’est la nécessité de fournir aux exploitants
cette information S~USforme numérique et graduée en probabilité qui a conduit EDF dès 1970
à mettre au point cette méthode.
Quelques résultats opérationnels obtenus durant l’automne 1994 illustreront les capacités
actuelles du modèle. Par la suite, quelques tentatives d’amélioration utilisant les seuls champs
de géopotentiels seront présentées. Enfin, les perspectives de développement en cours, rendues
possibles par l’augmentation de la puissance des calculateurs et l’enrichissement constant des
banques de données météorologiques, seront tracées.

22.2. Présentation de la méthode


Elle consiste à sélectionner, à partir d’un fichier historique de données météorologiques et
climatologiques, un ensemble de situations analogues ou similaires à une journée test T, au sens
de la circulation générale.
A cette journée test T sont ensuite associées les hauteurs de précipitation des journées
retenues comme analogues. Puis, la fonction de distribution empirique cumulée permet de
déterminer une prévision probabiliste des précipitations.

22.2.1. Les données disponibles

Comme nous l’avons mentionné précédemment, les données utilisées sont de deux types :
- celles nécessaires à la sélection des analogues : les données journalières des champs
de géopotentiels 700 et 1000 mb à OOTU, collectées en 37 stations de radiosondage réparties
sur l’Europe Centrale et l’Europe de l’Ouest (Fig. 22.1).
Le choix de ces données a été déterminé en fonction de l’objectif à atteindre - effectuer une
prévision numérique des précipitations localisées pour les 3 jours à venir - et par le souci d’être
opérationnel en limitant la collecte des informations à des données facilement et rapidement
accessibles. Ainsi, le niveau de la surface 700 mb (ou géopotentiel 700 mb) à 0 h a été choisi
pour caractériser les grandes lignes de la circulation atmosphérique. Quant à la surface 1000
mb (géopotentiel 1000 mb) à 0 h, cette variable et sa variation semblent être déterminantes
pour l’intensité de la précipitation à situations atmosphériques comparables au niveau 700 mb
(Duband, 1974).
Cette information a été tout d’abord complétée par les données journalières de l’épaisseur de la
couche 700/1000 mb puis condensée par une Analyse en Composantes Principales (ACP).

- celles nécessaires à E‘élaboration de la prévision probabiliste : les relevés quotidiens


de pluie sur 173 postes pluviométriques répartis autour et dans les massifs montagneux du sud
de la France, moyennés sur 33 groupements pluviométriques (Fig. 22.2).

Finalement, les deux types d’information sont organisés en 3 fichiers historiques, un pour
chaque saison (été, du 16/04 au 14/10, automne, du 01/09 au 30/11 et hiver, du 16/10 au
14/04). Ils contiennent, pour chaque jour de 1953 à 1993 :
- les 8 premières Composantes Principales (CP) du champ de géopotentiel 700 mb : Zl à
-%
- les 8 premières CP du champ de géopotentiel 1000 mb : Sl à Sa,
- les 8 premières CP de l’épaisseur de la couche 700/1000 mb : El à ES,
- les valeurs de pluie sur les 33 groupements.
Par la suite, seules les 6 premières CP des champs seront utilisées car elles expliquent assez de
variante pour reconstituer l’information,

401
Fig. 22.1 : Position des stations de radiosondage

402
Définition des groupements:

1 : CREUSE-CHER 12 : DOUBS 23 : Haute DURANCE


2 : VEZERE-VIENNE-THAURION 13 : AIN-VALSERINE 24 : DURANCE moyenne
3 : DORDOGNE 14 : ARVE-FIER 25 : MONT CENIS
4 : CERE-MARONNE 15 : ISERE-DORON 26 : CHASSEZAC
5 : TRUYERE-LOT inférieur 16 : ISERE moyenne 27 : LOIRE supérieure
6 : Haut TARN-Haut LOT 17 : ROMANCHE-ARC inférieur 28 : DOUX-EYRIEUX
7 : AGOUT-TARN 18 : DRAC 29 : GARD-CEZE
8 : PYRENEES EST 19 : BUECH-DROME 30 : LOIRE moyenne
9 : ARIEGE-VICDESSOS 20 : VERDON 31: ALLIER
10 : PIQUE-GARONNE 21 : B.V.I. VERDON 32 : SIOULE
11 : GAVES 22 : VAR-TINEE-ROYA 33 : CURE

Fig. 22.2 : Position des 33 groupements pluviométriques

403
La saison d’automne a été rajoutée ultérieurement afin de mieux cibler les épisodes
particulièrement violents dans le sud-est de la France pendant cette période.

22.2.2. La sélection des analogues

Elle se fait en 2 temps. Après avoir sélectionné les analogues les plus proches dans l’espace
(critère de proximité), les journées trop différentes au niveau de leur forme sont éliminées
(critère de corrélation).

fi) Critère de proximité

Il est basé sur une distance euclidienne dans l’espace des CP du champ de géopotentiel 700
mb. Les journées J trop éloignées, au sens de cette distance euclidienne, de la situation du jour
test T sont éliminées. Seules les journées J situées à l’intérieur d’une sphère ou «boule de
proximité» de rayon &,, centrée au point représentatif de la journée test T, sont conservées
(Fig. 22.3) :

D* = c(Zd -Z,,)’ I R, (22.1)

où Zd est la valeur de la ième CP du champ 700 mb pour la journée J.


CPj 700 mb

Jl

4
J2

b CPi 700 mb

Fig. 22.3 : Boule de proximité

Le rayon Rbr
(22.2)

est fonction de la distance à l’origine d, de la journée test T : plus la journée test est loin de
l’origine (do grand), plus Rb est grand. En effet, les journées du fichier historique (1953-1990)
constituant un nuage de points plus dense à l’origine, plus la journée test est éloignée de
l’origine, plus ses voisins sont distants au sens euclidien. Donc, comme le nombre d’analogues
souhaité est compris entre 10 et 50 (seuils empiriques), RL,va être ajusté afin de se trouver dans

404
cette fourchette. Inversement, si la journée test T est proche de l’origine (do petit), le nombre
de voisins va être plus élevé et le rayon Ra pourra être diminué.
Cependant, c’e critère n’utilise que la seule variable Z et les analogues sélectionnés ne
sont pas assez discriminants. Aussi, un deuxième critère mettant en jeu le champ de
géopotentiel 1000 mb et l’épaisseur de la couche 700/1000 mb a été construit.

(ii) Critère de corrélation (Duband, 1981)


2
u2 z-5, et RzBO.1 (22.3)
R2
où R est le coefficient de corrélation entre la journée test T et une situation J pour un ensemble
de 13 CP (Z, à Z6, S, à S6, E,) et e la distance calculée en (22.1).
Avec ce deuxième critère, seules les journées proches de la situation du jour test T au
sens quadratique mais aussi de la forme sont conservées.

22.2.3. La prévision des pluies

Pour les 33 groupements de pluie la moyenne et l’écart-type des pluies des analogues sont
calculés afin de se faire une première idée des précipitations possibles.
Si le nombre d’analogues retenus est suffisamment important (seuil empirique fixé à 5) des
prévisions stochastiques sont effectuées : la distribution empirique des précipitations est tracée
pour chacun des 33 groupements et les quantiles empiriques de précipitation 20, 60 et 90% qui
serviront de prévision sont calculés par interpolation.

22.3. Le modèle opérationnel et ses performances

22.3.1. Le fonctionnement du modèle

Chaque matin, EDF reçoit de la Météorologie Nationale par ligne téléphonique les valeurs des
géopotentiels 700 et 1000 mb à OOTU aux 3 7 points de radiosondage ainsi que leurs prévisions
à 24, 48 et 72h. Cette dernière les a préalablement reconstituées par interpolation à partir des
100 points de la grille à mailles régulières PANAL.
Ces données, directement implantées dans la mémoire centrale de l’ordinateur,
permettent de calculer les CP pour le jour même à l’aide des champs reconstitués à partir de
l’observation, et pour les 3 jours à venir à l’aide des champs reconstitués à partir de la
prévision.
Vers 6h un bulletin est émis. Il dorme pour le jour même et les 3 à venir :
- les 8 premières CP des 3 champs (700 mb, 1000 mb et épaisseur de la couche 700/1000
mb),
- le nombre d’analogues retenus et les 10 meilleurs avec leur date, coefficient de
corrélation R, distance @ et les quantités de précipitation sur les 33 groupements,
- la quantité de pluie prévue à 20, 60 et 90% en mm sur les 33 bassins.

22.3.2. Exemples et performances

La méthode donne d’assez bons résultats dans l’ensemble, surtout pour les groupements du
Nord. Cependant, il existe encore trop de cas où des jours peu pluvieux sortent comme
analogues à des journées très pluvieuses et vice-versa (cas des fausses alertes), en particulier
lors des épisodes cévenols d’automne. C’est pourquoi nous nous sommes focalisés sur cette
saison, l’automne, et sur les groupements des Cévennes.

405

--- /
Quelques graphes (Fig. 22.4), mettant en regard pour l’automne 1994 la pluie journalière
et les prévisions à 20, 60 et 90%, nous donnent une idée qualitative des performances du
modèle. Nous avons rajouté la prévision climatologique à 90%, les 2 autres (20 et 60%) étant
nulles.
CHASSEZAC
sept-oct 94
méthode de référence et climatologie

250

100

0 I!i
23 25 27 29 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31

sept-oct 94

CHASSEZAC
nov 94
méthode de référence et climatologie
180
1

160 i

r=pl"~e Chassed
/ -x-quanlde ZO",
/- t quantile 60%
/--quantile 90% ~

40

20

0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

nov 94

Fig. 22.4 : Exemples de prévision pour 1 ‘automne 1994 et pour le groupement des Cévennes, Chassezac

406
22.4. Tentatives d’amélioration sur la seule base des géopotentiels
Avec comme seule; données les données des champs de géopotentiels déjà disponibles, nous
avons essayé différentes pistes dans le but d’améliorer la prévision des précipitations sur les
Cévennes en automne, tout en vérifiant que cela n’entraînait pas une détérioration par ailleurs.
Le but de cette étude préliminaire n’est pas d’approfondir les voies qui semblent apporter un
gain apparent, mais plutôt de les hiérarchiser.

22.4.1. Méthodologie

La méthode qui fonctionne en opérationnel tous les jours à EDF sera notre méthode référence.
Pour la tester sur le plus grand nombre de journées possibles, nous avons, pour toutes les
journées du fichier historique d’automne (1953-1993), recherché les analogues dans ce même
fichier historique en éliminant toutefois l’année en cours de calcul (validation croisée). La
prévision de pluie obtenue a ensuite été comparée à l’observation et différents critères
d’évaluation (Guilbaud, 1994) des performances du modèle ont été calculés comme le score de
Brier (Brier, 1950) ou le coefficient de corrélation entre la pluie observée et la pluie prévue à
60%. Ils nous ont servi de référence.

22.4.2. Pondération des 37 points de mesure pour effectuer I’ACP

Actuellement, L’ACP des données de 1953 à 1993 permettant la constitution du fichier


historique est effectuée directement sur 37 variables constituées par les valeurs des 37 points
de radiosondage à 700 et 1000 mb. Or, ces points sont très mal répartis géographiquement. De
plus, il est très possible que certains soient plus porteurs d’information concernant la pluie que
d’autres pour la région de notre étude.
Aussi avons-nous délimité l’espace contenant les 37 points de mesure en 4 zones
concentriques, centrées sur la région d’étude (Fig. 22.5). Nous avons ensuite affecté un poids
hT, à chaque zone i et nous avons répété Ni fois chacun des points de la zone i. Ainsi I’ACP a
été effectuée sur NlXl+ N,$&+ N&+ NJ4 points au lieu de 37.
La méthodologie décrite au 22.4.1. a alors été appliquée sur les nouveaux champs
obtenus.
Plusieurs essais de pondérations ont été effectués et il apparaît que ceux donnant
davantage de poids à la zone la plus proche de la région étudiée et peu, voire pas du tout, aux
zones les plus éloignées, fournissent une amélioration significative sur les groupements des
Cévennes (7,5% de variante expliquée en plus en moyenne pour la prévision à 60%) sans
toutefois modifier notablement les performances sur les autres bassins.
Il pourrait donc être intéressant de continuer dans cette voie de manière plus
systématique en cherchant pour tous les groupements la pondération optimale de chacun des
radiosondages. Pour cela, l’utilisation de techniques d’analyse des données telles que 1’Analyse
en Correspondance semble pouvoir offrir une qualification, en fonction de chaque groupement,
des radiosondages disponibles. Cette approche, en cours de test, rendrait cependant
l’application un peu plus complexe car elle nécessiterait un fichier historique de composantes
propre à chaque groupement.

22.4.3. Pondération des pluies des analogues

Si toute l’information recueillie dans les champs de géopotentiels 700 et 1000 mb était
suffisante pour effectuer une prévision exacte, l’utilisation du seul champ le plus analogue à la
journée test devrait fournir de meilleurs résultats. Cette hypothèse n’étant pas vérifiée, il serait

407
intéressant d’analyser les prévisions effectuées lorsque l’on donne plus de poids aux analogues
les plus proches. ~

Fig. 22.5 : Les 4 zones d ‘éloignement


Plusieurs pondérations ont été testées (Guilbaud, 1994) mais aucun gain en performance
n’a été obtenu ainsi. La forte ressemblance au sens de la circulation générale ne suffit donc pas
à effectuer des prékions de précipitation systématiquement plus proches de la réalité.

22.4.4. Introduction de variables d’évolution temporelle des champs de géopotentiel

Le but ici est d’introduire dans la sélection des situations analogues non seulement une
ressemblance de forme des champs de geopotentiel mais aussi une similitude dans leur
évolution temporelle, la seule similitude de l’évolution temporelle ne suffisant pas (Guilbaud,
1994).
Pour nos premiers essais, une méthode à 2 niveaux a été choisie : tout d’abord les
analogues au sens des champs de géopotentiel sont sélectionnés, puis un deuxième tri est
effectué pour ne garder que ceux avec une évolution temporelle similaire à celle du jour test.
Pour que cette méthode soit applicable, il faut qu’après la première sélection il y ait un
nombre suffisant d’analogues retenus afin de pouvoir en éliminer encore quelques-uns. Or
actuellement, avec la méthode de référence, 20 analogues en moyenne sont retenus par jour, ce
qui était trop peu pour faire une deuxième sélection.
Cependant, ce nombre est volontairement restreint par la « boule de proximité» de rayon
Ri, (Fig. 22.3). Et en l’agrandissant de “bonnes” situations analogues apparaissent sans
toutefois introduire un trop grand nombre de “mauvaises”. D’ailleurs, différents essais ont
montré que si on augmentait cette boule, cela influait peu sur les performances du modèle tout
en augmentant de manière sensible le nombre de situations analogues par jour. Finalement, si
on l’enlève complètement, la sélection se faisant alors uniquement sur le critère mixte de
distance et de corrélation (Eq. 22.3) le modèle donne des résultats équivalents avec 80
analogues par jour en moyenne (méthode de réjërence 2). On peut donc en déduire que c’est
ce critère qui traduit le mieux la similitude entre 2 champs,
De nouvelles variables traduisant l’évolution temporelle des champs de géopotentiel ont
donc été construites : les CP des différences premières (CPD) et les différences premières des
CP (DCP) des 3 champs. Et deux façons différentes de sélectionner les analogues ont été
testées : après la première sélection avec la méthode de référence 2, une deuxième a été
effectuée soit avec les variables DCP, soit avec les variables CPD.
Le critère utilisé pour la sélection avec les nouvelles variables est le critère de proximité
(Eq. 22.1) calculé avec ces nouvelles variables, le critère mixte de forme (Eq. 22.3) n’étant pas
applicable à ces nouvelles variables. En effet, en effectuant une différence première, les champs
se décorrèlent fortement et il devient pratiquement impossible de trouver deux évolutions de
champ identiques sur l’ensemble de la surface étudiée.
Le seuil du critère de proximité (& dans la méthode de référence) a été choisi constant et
fixé afin de trouver un compromis entre, d’une part le nombre d’analogues par jour qui ne doit
pas être trop grand, et d’autre part le nombre de jours sans analogue qui doit être le plus petit
possible.
Finalement, l’utilisation conjointe de l’information sur les champs et leur évolution
temporelle apporte un gain par rapport à la méthode de référence (Guilbaud, 1994) surtout
pour la prévision à 60%. Un exemple de comparaison est donné dans la figure (22.6) pour
l’automne 1953 et le groupement des Cévennes. Néanmoins, se pose le problème du nombre de
jours sans analogue : une trentaine pour les essais basés sur l’utilisation conjointe de la
similitude des champs et de leur évolution temporelle contre 1 pour la méthode référence.
CHASSEZAC - Automne 1953
Méthode avec évolution temporelle ~ cnzc.
20,
-- COI
----< 90,

0
SEPiMBRE 51 OC’IDERE 53 tKv/EHtlRE 51
b
CHASSEZAC - Automne 1953
Méthode de référence -
,..-..-•
CR26.
20,
- 60,
L---s go<

Fig. 22.6 : Comparaison méthode de référence et méthode avec évolution temporelle pour l’automne 1953 et
pour le groupement des Cévennes, Chasseme

410

-.
22.4.5. Conclusion

D’après les résultats obtenus une ressemblance accrue à grande échelle ne suffit pas pour
obtenir des précipitations locales et il semble plus intéressant de réduire l’échelle de la zone
géographique considérée du moins pour l’échéance à 24h. De plus, les analogues utilisant non
seulement la similitude de l’atmosphère mais aussi celle de son évolution temporelle donnent
des résultats globalement positifs.
Cela nous conforte dans l’idée qu’un apport d’information complémentaire, peut-être
plus locale, doit être recherché, sans toutefois écarter l’analogie à grande échelle.

22.5. Travaux engagés et perspectives

22.5.1. Reconsidération des critères d’analogie

Dans un premier temps la condensation de l’information a été améliorée : une ACP de


Processus (Braud, 1990) par triangularisation a remplacée I’ACP classique. Cette approche a
l’avantage de prendre explicitement en compte la forme du domaine étudié et la typologie du
réseau de mesure par l’intermédiaire de pondérations différentes si les stations sont
irrégulièrement réparties, ce qui est notre cas.
Puis la distance & utilisée dans la sélection des analogues va être optimisée en ne
conservant que les variables pertinentes avec des poids appropriés, car il n’y a aucune raison
que toutes les CP soient utiles (et avec le même poids) pour expliquer une variable exogène
comme la pluie. Cette optimisation se fera sur un grand nombre de CP (on ne se limitera pas à
6 comme actuellement et on introduira de nouvelles variables) et pour chacun des 33 bassins.
Très combinatoire, elle est coûteuse en temps de calcul et une optimisation du programme
utilisé est nécessaire.
Nous commencerons donc par travailler en prévision catégorique pluie / non pluie, plus
rapide à mettre en oeuvre car l’évaluation des performances de la méthode se fait de manière
simple à partir du rapport entre le nombre de bonnes prévisions et le nombre total de prévisions
effectuées. Dans un deuxième temps, nous passerons à une prévision probabiliste en classes.
Un score pour mesurer les qualités de la méthode sera donc nécessaire. On pourra celui de
Brier (Brier, 1950), le score de probabilité, ou celui d’Epstein (Epstein, 1969) le « Ranked
Probability Score », tous les deux comparant le vecteur des probabilités prévues pour chaque
classe à celui de l’observation (probabilité de 1 à la classe observée et 0 aux autres) mais aussi
des scores comparant la classe observée et la classe la plus probable. L’affectation de la
prévision à une seule classe pourra se faire à partir des probabilités de toutes les classes avec la
règle bayésienne (Bemier, 1967) qui tient compte des probabilités a priori de chacune des
classes. Et des fonctions de coût pourront aussi être utilisées (Bernier, 1987).

22.5.2. Augmentation du nombre de variables descriptives

Il serait intéressant d’inclure de nouvelles variables indépendantes des champs de géopotentiel


700 et 1000 mb comme :
- les champs d’humidité à différents niveaux,
- un index de vorticité, indicateur de la dynamique horizontale des masses d’air,
ainsi que leur évolution temporelle.
Cependant, ces données ne sont pas archivées sur les 40 années du fichier historique mais
sur une dizaine d’années (1982-1993). Leur utilisation nous oblige donc à réduire de manière
notable la période de recherche des analogues et il est possible que le gain potentiel obtenu par
l’introduction de ces nouvelles données en pâtisse.

411
D’autres informations, à caractère plus local, pourraient aussi être utilisées comme les données
du radiosondage de‘Nîmes.

22.5.3. Sélection à plusieurs niveaux

Si l’analogie à grande échelle, comme sur la circulation générale, reste essentielle dans un
premier temps, l’introduction d’une variable plus locale par une sélection de deuxième niveau
peut être envisagée.

22.6. Conclusion
Finalement, les résultats obtenus ont montré que la similitude à grande échelle, nécessaire à la
prévision des précipitations, se devait d’être complétée par une similitude plus locale. Dans
cette optique, une base de données est en cours d’élaboration à partir de radiosondages proches
de la zone d’étude.

De plus, les études exploratoires ont mis à jour le fait que les géopotentiels utilisés n’ont
pas nécessairement tous le même pouvoir explicatif quant à la prévision quantitative des
précipitations, à une échelle locale. Dans le même ordre d’idée, les différentes CP retenues pour
la sélection des analogues peuvent elles aussi ne pas avoir la même influence (Thalamy, 1981).
Aussi des méthodes d’analyse descendante et ascendante séquentielle sont en cours de test afin
de hiérarchiser les CP à retenir dans la sélection des analogues, les critères actuels n’utilisant
que 13 CP des champs de géopotentiels.

412
Bibliographie

BARNETT, T.P. and R.W. PREISENDORFER (1978) ‘Multifield analog prediction of short-
ter-m climate fluctuations using a climate state vector’. J. of Atmospheric Sciences, Vol.
35, n”10, pp. 1771-1787.
BERNIER J. (1967) Les méthodes bayésiennes en hydrologie statistique. Intern - Hydrol.
Symp. - Fort Collins.
BERNIER J. (1987) ‘Elements of bayesian analysis of uncertainty in reliability and risk models.
In Engineering reliability and risk in water resources’. L. Duckstein and E.J. Plate (Eds.),
Martinus Nijhoff Publishers, NATO AS1 Series E: Applied Sciences, no 124, pp. 405
422.
BRAUD 1. (1990) Etude méthodologique de l’analyse en composantes principales de
processus bidimensionnels, Effs des approximations numériques et de
I ‘échantillonnage et utilisation pour la simulation de champs aléatoires. Thèse de 3 ème
cycle de l’Institut National Polytechnique de Grenoble.
BRIER G.W. (1950) ‘Verification of forecasts expressed in terms of probability’. Mon. Wea.
Rev., 78, l-3.
DER MEGREDITCHIAN G.; G. LEGENDRE and M. PASQUIER (1981a) ‘Typisation des
situations météorologiques par classification automatique en vue de la prévision locale’.
La Houille Blanche, no 7/8, pp. 5 19-528.
DER MEGREDITCHIAN G., M. NURET ; M.C. RULLIERE and R. SANGRET (1981b) ‘La
prévision statistique du champ de précipitations’. La Houille Blanche, no 7/8, pp.487-
495.
DUBAND D. (1970) Reconnaissance dynamique de la forme, des situations météorologiques.
Application à la prévision quantitative des précipitations. Thèse de 3ème cycle de la
Faculté des Sciences de Paris.
DUBAND D. (1974) ‘Reconnaissance dynamique de la forme des situations météorologiques,
application à la prévision numérique des précipitations journalières’. Société
Hydrotechnique de France, XIIIèmes journées de I’Hydraulique, PARIS, 8 pp.
DUBAND D. (1980) ‘Dynamic selection of analogue flow patterns to produce quantitative
precipitation forecast’. WMO Symposium on probabilistic and statistical methods in
weather forecasting, Nice, 8- 12/09/80.
DUBAND D. (1981) ‘Prévision spatiale des hauteurs de précipitations journalières’. La
Houille Blanche, no 7/8, pp. 497-5 12.
EPSTEIN E. S. (1969) ‘ A scoring system for probability forecasts of ranked categories’ J. of
Applied Meteorology, Vol. 8, pp. 985-987.
GUILBAUD S. (1994) Développements de la méthode de prévision quantitative des
précipitations SENALOG: exploitation des champs 700 et 1000 mb et utilisation de
1 ‘analyse discriminante. Rapport de DEA, Université Joseph Fourier, Grenoble.
LIVEZEY R.E. and A.G. BARNSTON (1988) ‘An operational multifield analog/antianalog
prediction system for United States seasonal temperatures. 1, system Design and Winter
Experiments’. J. of Geophysical Research, Vol. 93, no D9, pp. 10953-10974.

413
LORENZ E.N. (1956) ‘Empirical orthogonal functions and statistical weather prediction’. SC.
Rept. n”l, Statistical Forecasting Project, Contract no AF19(604) 1566, Dept. of
Meteorology?vI.I.T., 49 pp.
LORENZ E.N. (1969) ‘Atmospheric predictability as revelated by naturally occuring
analogues’. J. of Atmospheric Sciences, Vol. 26, pp. 636-646.
PEAGLE J.N. (1974) ‘Prediction precipitation probability based on 500-mb flow types’. J. of
Applied Meteorology, Vol. 13, pp. 213-220.
PEAGLE J.N. and L.P. KIERULFF (1974) ‘Synoptic climatology of 500-mb flow types’. J. of
Applied Meteorology, Vol. 13, pp. 205-212.
THALAMY J. (1981) Etude de quelques situations météorologiques ayant provoqué des
crues sur les Cévennes. Prévision de durée d ‘insolation par la méthode des plus proches
voisins. Rapport de stage de fin d’études de 1’Ecole de la Météorologie Nationale.
VERMOT-DESROCHES B. (1987) Modèle de reconnaissance des situations
météorologiques pour la prévision quantitative des précipitations. Note de travail du
Centre d’Etude de la neige, MétéoFrance, 12 1 pp.

414
23. Rainfall forecasts for flood management
in river basins

Holger Muster
Universittit Karlsruhe (TH)
Kaiserstr. 12
D-761 28 Karlsruhe, FRG

Andras Bardossy
Universittit Stuttgart
Pfaffenwaldring 6 1
D-70550 Stuttgart, FRG

Abstract

Sometimes a situation arises, where in small- or medium size rural catchments runoff forecasts are
requested with a lead time of a few days. Since in this situation the size of the catchment is small
with respect to the lead time required, rainfall forecasts have to be applied for reliable runoff fo-
recasts. With regard to the lead time required, a physically based rainfall forecast mode1 is reque-
sted. A forecast system is presented that yields the k-dimensional probability density function (pdf)
of the mean areal rainfall from k subcatchments. It is based on a rainfall forecast from the physi-
cally based deterministic Europa-Mode11 (meso-cr scale, grid size about 55 km) from the German
Weather Service. By a Bayesian approach, these deterministic forecasts are to derive pdf of the
true but unknown future rainfall at a daily time step. Based on this pdf and defining an appropriate
multivariate loss function, optimal decisions are given with respect to the rainfall forecast. These
decisions might be used in forecasting runoff using a deterministic rainfall-runoff model. The fo-
recast system is applied to data from the Lenne-catchment, Germany (1353 km2), developing
06-30 hour and 30-54 hour forecasts. Rainfall forecasts are compared to measured rainfall. The
pdfs of rainfall forecast are shown to describe the state. Optimal decisions are exemplarily given.
The methodology is discussed and conclusions are drawn.

Résumé

Il y a parfois des situations où, pour de petits ou moyens bassins versant ruraux, les prévisions de
crues sont demandées avec un délai de plusieurs jours. Etant donné que la taille du bassin versant
est petite, et afin de respecter le délai requis, les prévisions de crues ne peuvent être appliquées que
sur la base des prévisions de pluies. En regard du délai de prévision souhaîté, un modèle de prévi-

415
sion des pluies à base physique est nécessaire. Un système prévisionnel est ainsi présenté, utilisant
la fonction de densité de probabilité (fdp) de dimension k pour les pluies moyennes du bassin, et
donc pour k sous-bassins versant. Ce système est basé sur la prévision des pluies du modèle
déterministe à base physique Europa-Mode11 (échelle méso-(2, maillage d’environ 55 km) du Ser-
vice Météorologique Allemand (DWD). Les courbes fdp, de la vraie mais inconnue future précipi-
tation, sont dérivées de ces prévisions déterministes par l’emploi de la méthode de Bayes sur un pas
de temps journalier. Basées sur ces fdp et définissant une fonction de dommage multivariable ap-
propriée, les décisions optimales peuvent être données en regard des prévisions de pluies. Ces
décisions devraient être utilisées pour la prévision des crues en utilisant un modèle déterministe de
simulation pluies-débits. Ce sy%tèmeprévisionnel a été appliqué aux données du bassin versant de
Lenne en Allemagne (1353 km ) dont les prévisions de 06-30 heures et 30-54 heures ont été mis à
disposition. Les prévisions des pluies ont été comparées aux précipitations mesurées et les courbes
fdp de prévisions des pluies ont ainsi été présentées afin de décrire la situation. Les décisions opti-
males sont données à titre d’exemple. Finalement un commentaire sur la méthodologie a été ef-
fectué et les conclusions ont ainsi pu être tirées.

23.1. Introduction

Flood management in river basins, especially flood forecast, may be improved by rainfall fo-
recast because it cari increase the lead time of reliable river stage forecasts. Sometimes rainfall
forecasts are requested with a lead time of a few days. The principal inputs into most hydro-
logical models are subcatchment areal average rainfalls, consequently a rainfall forecast
should be given as a set of areal average rainfalls for subcatchments. Since in the following
lead times of several days are of interest, the forecast system presented below includes rainfall
forecasts of the physically based deterministic Europa mode1 of the German Weather Service
(DWD), which is a meso-a scale mode1 with a grid size of about 55 km. As a result from the
deterministic approach, forecasts from the Europa mode1 are given as single values. Thus the
natural randomness of the rainfall process as well as the uncertainties (Bernier, 1994) in per-
fectly describing this process are ignored. Even if the natural randomness of rainfall, which
Will not be reduced by the availability of present or future data, is neglected, the existence of
uncertainty in describing the rainfall process is of no question. Measurement uncertainties,
sampling uncertainties, modeling uncertainties as well as uncertainties of representativeness
clearly exist although these uncertainties in principle cari be reduced. Taking into account ran-
domness and uncertainty, the rainfall forecasts are given as probability density functions
(pdf’s). Using a Bayesian approach and based on the deterministic forecasts, for each
subcatchment a pdf of areal average rainfall forecast is given each day. The pdf is based on
24-hour totals of rainfall. Using the correlation structure of the historical data, a
k-dimensional pdf for k subcatchments is presented. By defining appropriate loss functions,
the application is underlined and one obtain optimal decisions from the k-dimensional pdf of
rainfall forecast. The forecast system is conditioned on atmospheric circulation patterns
because they accurately describe regional areal rainfall patterns.
In Sec. 23.2 the methodology is presented. First some general aspects and then within
the Bayesian framework prior-, likelihood-, posterior- and decision modeling are described. In
Sec. 23.3, the forecast system is applied. First, based on one year of measured rainfall, diffe-
rent rainfall forecasts are compared. Second, based on a single flood event decision modeling
is exemplarily applied. Sec. 23.4 summarizes and concludes the paper.

416
23.2. Methodology

In the following the general methodology to mode1 mean areal rainfall as a stochastic process
is first presented. Then the forecasting by combining the actual deterministic forecast and hi-
storical information using a Bayesian approach is described.

23.2.1. General rainfall modeling

As stated above the forecast system forecasts mean areal rainfall whereas historical measured
and deterministical forecasted rainfalls are given as point rainfalls. Thus a methodology is
presented to calculate mean areal rainfall from point precipitations taking into account that
rainfall cari not be viewed as a stationary random function. Modeling any variable statistically,
effort is made to maximize the deterministical description of the variable just to reduce the
unexplained variability of this variable as much as possible. Atmospheric circulation pattems
are introduced because they explain regional rainfall characteristics to a large degree. Statisti-
cal modeling, especially multivariate modeling as in the forecast system where k subcatch-
ment areal precipitations have to be forecasted, is always relatively simple in the normal scale
compared to non-normal modeling. Thus a methodology is presented to transform mean areal
rainfall into the normal scale.

(i) Mean areal rainfall

The ver-y first working step is to calculate mean areal rainfall by first interpolating from point
rainfall and second averaging the interpolated rainfall, both for measured and forecasted valu-
es. Extemal drift kriging (Ahmed and de Marsily, 1987) is used as the interpolation method. It
is a method which cari be used very effectively for non-stationary random functions such as
rainfall. Let u E U be an arbitrary unmeasured point in the catchment U. Let Ui, i= i..,Z, be the
observation points and z(ui) be the given rainfall (measured or forecasted) at these points. Let
h(u) be the orographie height at point U. The conditional expectation of Z(U) is assumed to be
a linear function of h(u) :

E[z(u)~/z(u)] = a + b h(u) (23.1)

where a and b are (unknown) constants. The linear estimator :

(23.2)

has to be unbiased for any values of a and b . The weights hi that minimize the estimation va-
riante under the unbiased condition and also fulfill (Eq. 23.1) cari be found by solving a linear
equation system.

(ii) Atmospheric circulation patterns

The forecast system is conditioned on (classified) atmospheric circulation pattems (cp’s). Al1
the mode1 parameters of the forecast system are conditioned on cp’s because it has been

417

-.
shown (Muster and Bardossy, 1992) that cp’s, in general, significantly influence areal rainfall
characteristics. Following Baur et al. (1944) cp’s consisting of continent-size pressure con-
tours (at sea level, 700 hPA or 500 hPa) are described only in terms of three large scale featu-
res, namely :
1. The location of sea level semipermanent pressure centers, such as Azores high or Iceland
low.
2. The position and path of frontal zones.
3. The existence of cyclonic and anticyclonic circulation types.
CP classification techniques may be grouped into subjective and objective procedures.
Baur et al. (1944) have developed a subjective classification of cp’s for European conditions;
Hess and Brezowsky (1969) have used this classification to construct a catalogue of European
daily cp’s from 1881 to 1966 which have a persistence of at least two or three days. This cata-
logue is extended by the German Weather Service up to the current day. Bardossy et al. (1994)
present a knowledge based classification of cp’s which stands between subjective and ob-
jective procedures. This technique cari be used for an automatic classification of forecasted
air-pressure maps.

(iii) Normalizing transformation of precipitation

Multivariate probability distributions must be considered because the forecast system fo-
recasts a k-dimensional probability distribution of areal rainfall for k subcatchments. This is
not a problem having multivariate normal distributions. But rainfall is obviously not normally
distributed (no negative values, positive skewed). Thus rainfall is transformed to be normally
distributed. A second reason for this transformation is that it is known from the concept of
conjugate family of distributions (Raiffa and Schlaifer, 1961) within the Bayesian framework,
that the posterior is normal and cari easily be determined if the likelihood function is propor-
tional to a normal pdf and the prior is normal.
IA qz2, . . . be a sequence of independent and identically distributed (iid) real random
variables taking nonnegative values. Zj stands for the mean areal rainfall of an arbitrary
subcatchment during a randomly chosen day j, given an arbitrary cp. Zj is based either on
measured or on deterministically forecasted point rainfall. Let q(t) and @(t) denote the
density function resp. the cumulative distribution function of the standard normal distribution
and Write N(,u,~) for the normal distribution with expectation /J and variante &. Let’s as-
sume there is a three-dimensional parameter 6 = (,u, a,P) such that :

0 if W, 5 0
zi = (23.3)
Wi” if Wi > 0

for some iid sequence q, W,, . . . of N(p,d) distributed random variables (Bardossy and
Plate, 1992). Thus a normalizing transformation of the rainfall process is given.
Now the parameters of the transformed normal process have to be estimated : the cumu-
lative distribution density function F,(z) = P(Zj I z) of Zj is given by :

418
(23.4)

with parameter space 0 = (6 = (ci, CJ,pj: - 00 < ~1< w; CJ,p > O}. Write P*:= dF, for the
probability measure corresponding to F,, let 6, denote a unit mass at zero (Dirac measure)
and let 1 be a Lebesgue measure. Then v : = 8, + ;1 is a sigma-finite measure on !JI, and a Ra-
don-Nikodym density f fi = -de9 of Pfi with respect to v is given by (Henze and Klar, 1993) :
dv

fJz) = @ 2 I{z=ol; P q P - P I{z>o} (23.5)


( 01 BO i 0 1
where IiA1 is the indicator function of an event A which is 1 or 0 depending on whether A
does or does not occur. Note the first part in (Eq. 23.5) is a probability mass function at the
point ~0. The maximum likelihood estimation for 29= (p, o,p) is given by maximizing the
log-likelihood function L( fi; z, . ..z,) which is given by :

L(l?;z,,...z,)

j=l
=(n-r)Zog@
; +,;.o.+,
(-“) c log[G q[ “lJ;‘l- ‘)] (23.6)

where z(,) 5.. .I z(,) is the ordered sample of z,,, . . . , z,,, and r = Ci=[n Iv4 . Differentiating L
with respect to the parameters yields the maximum likelihood estimating equations. TO obtain
the estimates it would be necessary to solve three equations simultaneously. Although it cari
be shown that it is possible to reduce the problem to the solution of a system of two equations
with two unknowns, it is preferred to search the maximum of (Eq. 23.6) numerically. Trans-
formation cari be carried out for the whole series or for rainfalls corresponding to groups of
cp’s.

23.2.2 Forecasting rainfall

In the present section, first a survey of the rainfall forecast system is given. The forecast sy-
stem is then presented within the Bayesian framework by the description of the prior-, likeli-
hood-, posterior- and decision modeling. Prior modeling consists of calculating the parameters
of the prior probability density functions based on historical data. In addition cor-relation
coefficients between historical time series of areal rainfall have to be calculated, taking into
account that rainfall yields only non-negative values. Different likelihood functions mode1 in
the transformed normal scale the dependence of the deterministic rainfall forecasts upon the

419
measured values. Again it has to be taken into account that rainfall yields only non-negative
values meaning that the transformed normal proccess is truncated. Within the description of
the posterior modeling the parameters of the posterior probability density functions are given
analytically. Finally a multivariate probabilty density function of forecasted areal subcatch-
ment precipitations is given. With respect to this probability distribution optimal decisions of
forecasted subcatchment areal precipitations are presented by defining a multivariate loss
function and searching its minimal expectation. Defining an appropriate multivariate loss
function the trouble of dimensionality as well as the present application is taken into account.

(i) General concept

Figure 23.1 shows that the forecast system consists of (i) a set of modules each combining
data and data processing tools and (ii) information channels which link the modules.

prior and
likelihood
likelihood

modeling

Mg;!;.$’
l forecast mode1

~ ! external mode1

Fig. 23.1: Rainfall forecast system

The whole system may be described as a Bayesian information processor (Krzysztofowicz,


1983). Based on historical records of rain gauge measurements, prior information on the areal
rainfall is modeled. Based on a joint data set of recent rain gauge measurements and forecasts
of the physically based deterministic Europa-Mode1 from the German Weather Service
(DWD) (Majewski, 1992), the likelihood functions describe the areal rainfall of subcatch-
ments, given a DWD-forecast. Prior information, the likelihood functions and the actual
DWD-forecast are combined using the Bayesian theorem resulting in statistical distributions
of areal rainfall forecasts, given the DWD-forecast. Based on these distributions and defining
an appropriate loss function with respect to flood management, single forecast values are se-
lected for each of the subcatchments which are the optimal decisions with respect to the given
forecast uncertainties and the loss function.

420

--. -~~T-~--~~--------_
In the following, X denotes the random variable of a normal transformed daily mean
areal subcatchment rainfall according to Sec. 23.2.1. It is based on measured point rainfall.
The pdf of X isf(x) which is called the prior (pdf). Y denotes the random variable of a normal
transformed daily mean areal subcatchment rainfall based on point forecasts from the deter-
ministic forecast model. The random variable (XI Y) has a pdf denoted by f(x I y) which is
called the posterior (pdf). Let W denote the state of the normal transformed daily mean areal
subcatchment rainfall at an arbitrary day t. Now @: = (XI Y)can be viewed as an estimation
of W. Since Y is based on actual information it is a forecast of W. Since Y is a forecast of W,
(XI Y) too is a forecast. In contrast, X which is not based on actual information, might be
called a prediction of W. Transforming W and l@ back into the original space, Zis an estima-
tion of 2. Note however, even on day t+Z there is just one realization z of Z available. Testing
the hypothesis HO: Z = Z, in Sec. 23.3, this fact has to be taken into account.
Modeling k subcatchments, x = (X,, . . . , X,,’ is a random k-vector of the normal trans-
formed daily mean areal subcatchment rainfalls based on measured point rainfall. Using the
parameters from the k posteriors and the correlation structure of x, a conditioned random
k-vector (XI
-- Y) is constructed and its pdf f(x I y) might be viewed as an approximation of a
multivariate posterior. Defining a multivariate loss function L(a, x) where x is described by
f(x I y), an optimal decision a* is given, which is a realization of (XI-- Y). The optimal deci-
sion a* is transformed back into the original space and cari then be used as input in a deter-
ministic rainfall-runoff mode1 to forecast runoff based on a rainfall forecast.

(ii) Prior modeling

According to Sec. 23.2.1 (i), for each subcatchment, a time series of mean areal precipitation
is calculated based on the historical records of daily amounts of measured point precipitation.
With respect to regional precipitation characteristics, classified cp’s according to Sec.
23.2.1 (ii) are grouped together. For each such group, daily values of subcatchment areal pre-
cipitations are selected out of the time series and are transformed in accordance with Sec.
23.2.1 (iii), resulting in normal distributed probability density functions (pdf) f(x) which are
called within the Bayesian framework prior pdf’s. Taking into account the seasonality of the
process, mean and variante of X are modeled as first harmonies of Fourier series with a
one-year periodic.
After the transformation (in the normal space) a discrete-continous process results,
because for each single precipitation of zero mm (before transformation; in the real space), its
exact value in the normal space is not known only that it is less than or equal zero. When
calculating the correlation, this fact must be taken into consideration. Thus indica-
tor-correlation is used to calculate the autocorrelation, lag one, and the crosscorrelation, lag
zero and lag one. Let Q(t) denote the cumulative distribution function of the standard normal
distribution and Write pi and a, for mean and standard deviation of normalized precipitation Xi
of subcatchment i. Let il, i2 be two subcatchments and let 4 be a step value (probability bet-
ween zero and one) given by :

(23.7)

421
According to (Eq. 23.7), different values of 4 may be chosen. In the present application 4 was
choosen to be the minimal possible value. Given an arbitrary q according to (23.7), an indica-
tor time series for subcatchment i and day t is given by :

1 if@ 4,; - l-4 2 q

l
t Oi 1
P(t, i) = (23.8)
Oif@ xt81-pi <q
t 0; 1

The indicator time series in the original and in the normal space are the same. The indicator
correlation r,(i, 4) between subcatchment il, and i2 is calculated based on the two series
Zy (t,i, ) and Z”(t,&) . The correlation r(i,, 4 ) of the un-truncated sample is now given by
(Abramowitz and Stegun, 1962) :

ArcSi~l (r(q,iz))
1 exp
(23.9)
27Q(l-q)

In nearly the same way as described above the autocorrelation for lag 1 is calculated. Instead of
the time series of a second subcatchment i2 the first time series is used again, just shifted by a
time step 1. In contrast to mean and variante, the correlation matrices are assumed not to have
an annual cycle.
Let x( t ) a random k-vector describing the prior information for k subcatchments at day
t. The mean vector p(t) and the variante vector d(t) of x(t) are moded as first harmonies
of a Fourier series. If a lead time later than the forecast time is the same cp-group, x(t) is mo-
deled as a multivariate autoregressive process (Bras and Rodrigues-Iturbe, 1985). Let x(t) be
the standardized process X(t). Based on & t) , the autoregressive process yields to :

“(t) = A&t - 1) + BE(t) (23.10)

E(t) in (Eq. 23.10) is an independent and mutually independent multivariate standard normal
process. A and B in (Eq. 23.10) are parameter matrices. The well known estimation procedure
of A and B is based on lag-one and lag-zero correlation matrices because x(t) is standardi-
zed. Note, since the correlation matrices has been shown to be stationary, A and B have to be
calculated just one time. With (Eq. 23.10), for each lead time 1, the conditional expectation of
z(t), given &t - Z), E[x(t)l &t - Z)], and the conditional variante matrix of x(t), given
&t - l), V[g(t) I &t - Z)], cari be derived. In the present application 1={1,2/. The expecta-
tions are shown as :

E[&t)(g(t - 1)] = A&t - 1) (23.11)

and :

422

----T-----~-- ..---
(23.12)

and the variante matrices are given as :

V[&t)i”(t - II] = BBT (23.13)

and :

v[&t&t - 24 = (AB)(AB)~ + ~137 (23.14)

Based on (Eq. 23.11) - (Eq. 23.14), the conditional expectations, variantes and correlation
matrices of x(t) cari be given.

(iii) Likelihood modeling

The likelihood modeling consists of two parts. In the first part, the parameters of the likeli-
hood function are constant. A normal linear Bayesian Processor of Forecast (Krzystofowicz,
1983) is modified because of the present normal truncated process. The joint sample of physi-
cally based rainfall forecast and historical measurements is small. In addition the develope-
ment of the physically based forecast mode1 is an ongoing process. For this reason, the para-
meters of the likelihood function are modeled dynamically by stepwise updating in a second
part . This modeling is based on a Bayesian-normal, univariate, dynamical linear regression
approach (West and Harrison, 1989).
The constant likelihood modeling is explained in figure 23.2.

I
y=a+bx+r, E- NfO,o:ij

Fig. 23.2: Constant likelilzood rnodeling

423
Constant modeling is based on a linear regression of Y on X. Y is truncated normal, because no
single values of Y are given with a deterministic forecast of 0 [mm] daily mean areal
subcatchment rainfall. This is a result of the transformation in (Eq. 23.3). Consequently,
f(y I x) is approximately given, and hence the likelihood function Z(x) in the first quadrant.
As X is truncated normal too, the regression line has to be extrapolated into the second qua-
drant to mode1 the likelihood function if Yca is given. In figure 23.2 & and c$ are parameters
of f(x I y = 0). Thus for every possible y from the deterministic forecast, the likelihood fun-
ction Z(x) according to figure 23.2 is defined.
The dynamic likelihood modeling updates the parameters of the likelihood function of
the first quadrant in figure 23.2. updating the parameters of the linear regression there. The re-
gression parameters are modeled as a multivariate random walk process 0, describing the sy-
Stern. The observations are fitted by a linear regression. The actual parameter vector is given
as mean of the posterior pdf of 0, which is the prior mean plus the actual proportional re-
gression error. The proportion is given by the ratio of the actual system variante and the ob-
servation variante.

(iv) Posterior modeling

If the prior is normal distributed, X - N(,u,,, c$), with mean p. and variante c$ and
l(x) oc N(&, $), then the posterior is normal too, (XIY) - N(/L,c?) (Box and Tiao, 1973),
and the parameters are given by :

P = o2 J d-2 (oo2Po
+ o;-2L4)
0 (23.15)
d = ( iq2 + CT-‘)-’ .

It cari be shown that p is between pu, and /.L; and that $ is between 0 and the minimum of C$
and 4’. Further, /L is linear dependent from y. Since according to figure 23.2 the likelihood
function is approximately proportional a normal distribution the posterior is approximately
normal too. In Sec. 23.3 it is shown, that the above given aproximations fit the measured data.
Even if a lead time later than forecast time the cp is assumed to be the same as actual
and hence the parameters of the priors are based on multivariate autoregressive modeling,
prior-, likelihood- and posterior modeling yields daily mean areal rainfall forecasts for each
subcatchment seperately. According to Sec. 23.2.2 (i), the following decision modeling ends
in a multivariate optimal decision with respect to the rainfall forecasts for k subcatchments.

(v) Decision modeling

Having the posterior pdff(xly) and a loss function L(x, a), defining the loss of a decision a to
be taken out of possible x’s, an optimal Bayesian decision a= a*called Bayesian action is gi-
ven by :

E[ L(x, cr*,] = mi,” @[L(x, a)]) = nzz ~L(X, a)f(xly)dx (23.16)


-cc

424

--.- --
where the integral in (Eq. 23.16) may be denoted as g( f( xl y), CX), the posterior expected loss
function. Taking into account the present application, for each subcatchment a loss function
has to be defined, representing the relative importance of under- and overestimation with re-
spect to flood management respectively. With respect to k subcatchments, a multivariate fo-
recast distribution is defined based on the k posteriors. In accordance with this multivariate fo-
recast distribution, a multivariate loss function has to be defined, which first is useful in the
non-transformed scale and second which enables after transformation integration over k di-
mensions. In the following an appropriate univariate loss function is first developed. Then this
loss function is extended to be multivariate and the multivariate Bayesian action is calculated.

l Univariate loss function

With respect to the developement of a multivariate loss function, from numerical reasons uni-
variate loss functions are needed which are differentiable over the whole domain. Let a con-
tinous univariate loss function for subcatchment i, i=l,...k, be given by :

The shift by one in (Eq. 23.17) is given with respect to the multivariate loss function and is
explained below. TO ensure, that the only real minimum of the polynomial in (Eq. 23.17) is
given at xi = ai the roots of the first derivate of (Eq. 23.17) have to be calculated. With
uji 2 ,/m, a11roots besides xi = a; are imaginary. Further it has to be ensured that
the polynomial has no saddle or tuming point. With u3, I dP(24 / 9)azi a11roots of the second
derivate are imaginary. Thus a factor of symmetry c,, 01 c, Il is established and
a3; = c;dm is set. With c, = 0, a full symmetric loss function is given, with c, = 1,
the function is maximal non-symmetric. In the following, let the parameters in (Eq. 23.17) be
fixed as ugi = 10 and c, = 1 for each subcatchment.
If the parameters of the loss function given above are fixed, because of the non-linear
transformation according to (Eq. 23.3) different loss functions are given with different states
in the original space. For illustration, figure 23.3 is given. In figure 23.3, the “normalized”
graph represents the loss function with respect to (Eq. 23.17) with fixed parameters as given
above. According to this graph, an understimation of a normalized state by 2 means a loss of
97 whereas as overestimation by 2 means a loss of 15. Given the transformation parameter
p=1,667 in (Eq. 23.3) and assuming a state of 50 [mm], the same losses are given if the state
is underestimated by 16.9 [mm] resp. overestimated by 14.9 [mm]. Assuming a state of 20
[mm], the same losses result from understimating by 9.7 [mm] resp. from overestimating by
6.9 [mm]. With regard to the state of 10 [mm], these results are given by
c$,, = (lO’@ f 2jP[mm].
From figure 23.3 it is obvious, that a constant loss function with respect to transformed
arguments results in variable loss functions with respect to non-transformed arguments and
vice versa. A further discussion is given in Sec. 23.3.

425
state=50m

~ state=lOmm

normalized

10 15
state - decision
Fig. 23.3: Different loss functions

l Multivariate decision modeling

According to Sec. 23.2.2 (i), a multivariate normal distributed forecast distribution f(x I y) is
given based on the correlation structure of x and on means and variantes of the k posterior
pdfs f(x l y) for k subcatchments. The posterior expected loss function in (Eq. 23.16) has
now to be expanded to be multivariate. With x = (x,...x,)~, y = (y,...~~)~ and
a = (a,-. a, )r, the multivariate posterior expected loss function is given by :

g(f(xly ), a) = r-.sL<x, a) f(x)y) dx,. . . dx, (23.18)


-ca -m

It cari be shown that given an additive multivariate loss function the multivariate expected loss
function is just an addition of the univariate expected loss functions regardless of the correla-
tion structure of (XI
-- Y). TO include this correlation structure a multivariate loss function with
a multiplicative term of the univariate loss functions has to be defined. The multivariate loss
function L(x, a) for k subcatchments is then given by :

L(x, a) = (LJX,, a,)+-.+LJx,, cc,N2 (23.19)

where the univariate loss function for subcatchment i, i=l,...k, is given by (Eq. 23.17). The
univariate loss function is shifted by one to ensure the effect of the multiplicative term even if
one or more of the k one dimensional loss functions return a minimal 10s~.
Now the multivariate minimum a* of the posterior expected loss function based on (Eq.
23.18) and (Eq. 23.19) has to be found. Let C = E[(XIl’)(XIY)T] be the covariance matrix of

426
(& 11). (xl J’) cari be transformed to a k-dimensional independent normal distributed ran-
dom variable E of zero mean vector and identity covariance matrix by :

(XIY)=BE + E[@il’)] (23.20)

where B is given by :

BB’=C (23.21)

TO calculate B from the positive-definite matrix C, Cholesky-decomposition (Bras and Rodri-


guez-Iturbe, 1985) is used. The transformation (Eq. 23.20) is used in (Eq. 23.18). Conse-
quently, f(x I y) in (Eq. 23.18) has to be replaced by :

f(x I y)dx, e.. dx, = cp(e,)... q(e,)de,-..de, (23.22)

where (ï, is the pdf of the standard normal distribution. Note that -E was defined to be inde-
pendent. With (Eq. 23.20) and (Eq. 23.22) in (Eq. 23.18) instead of a multidimensional inte-
gral over k dimensions, k one-dimensional integrals are given. (Eq. 23.18) is further expanded
and the only integrals yielded are moments up to order eight of the standard normal distribu-
tion (the moments are up to order eight because the one dimensional loss function is a po-
lynomial of order four and the k dimensional loss function is a polynomial of order two of the
one dimensional loss functions). The moments mxq of order 9 of the standard normal distri-
bution (Plate, 1993) are given by :

dq C.,W>
rn*q= (23.23)
7 duy w=.

with j = fi and with C, the characteristic function of normal distribution with zero mean
and unit variante, given by :

Thus (Eq. 23.18) which has to be minimized is reduced without any numerical integration to a
polynomial of order eight p(a)of the decisions a = (cc, ... a, JT. Figure 23.4 shows the functi-
on to be minimized with k=2, X, and X2 are normal distributed with zero mean and variante 4
and correlation coefficient r=O. 9.
From figure 23.4 it is obvious that the maximum expected loss is found if both decisions
underestimate the state x1,=x2=0. Generally, the minimum of the objective function is nume-
rically found using a gradient search method. The minimum of the objective function of figure
23.4 is given by a* = (a; = 1,21; ai = 1, 21) underlining the non-symmetrical loss function.
In principle it is possible to find analytically the minimum of (Eq. 23.18) which has be-
en reduced to a polynomial p(a) of order eight of the decisions. TO find the minimum we ha-
ve to calculate the system of partial derivatives and set it equal to zero :

427

-
T
Ii
Pc+,, ***> a,) = 0
.. ..
. . (23.25)
Pc@,,‘**7 a,) = 0

Fig. 23.4: Expected loss as a function of a two-dimensional decision

Note that pai(a,, 1.1, ak) is a polynomial of order seven with respect to the action ai. For
k 2 2 a solution of (Eq. 23.25) cari be found by a recursive Euler elimination using a Silvester
resultant (van der Waerden, 1971). TO describe the method it W ill be first described for k=2
and then to describe the method for higher dimensions it W ill be extended for the example
k=3. Let :

P (II = 0 = c, ,a:+-.+c, ($x, + c, 7


(23.26)
{ P (Y2 = 0 = c2,p; +-*. +c2,6a, + c-2,,

be two polynomials in a, where c,,~, . . . , cz , are polynomials of a2. The solution of the system
(Eqs. 23.26) has to fulfill the condition :

... ... *.. ..* ...


Cl.7

c,,.... ......... ... ...


Cl,,
... ... ... 57
(23.27)

C 2,0 ... ... ... ... ... ...


‘2,7

428

-----------y-
In (Eq. 23.27), the empty spaces are filled with zeros. The determinant & is called the resul-
tant of the polynomials par, and pa2. It consists of 14 columns and rows respectively. Solving
(Eq. 23.27) means finding the (real) roots of a polynomial in a, (where a, is eliminated).
These roots are inserted in pal of (Eq. 23.26) and then the (real) roots of pal are calculated
(where now a2 is eliminated). TO find the absolute minimum the eigenvalues of the Hesse-
matrix H given by :

(23.28)

are calculated where (a, O,a,,,)is an arbitrary real root. For those roots, where a11eigenvalues
are positive, at least local minima are given. Al1 minima are inserted in the objective function
and that one with the minimal loss is the choosen absolute minimum.
For k=3 (and greater), the method described above cari be used in a recursive way. Let
the system of partial derivatives be :

P al = 0 = c,,,a:+-.+c, ,a, + Cl7


Pa2 = 0 = C2,0a~+~~~+c*,cx,+ c2 7 (23.29)
P0r.l = 0 = c30a:+-* +c3(p, + c,,,

The roots of a, Will be determined as described in figure 23.5 and then these roots Will be in-
serted in p,, and pa2 of (Eq. 23.29). Then the method as described above is used for k=Z.

Fig. 23.5: Euler elirninution with Silvester resultant for three variables

Using a Silvester resultant means (in the present application) to calculate the roots of a po-
lynomial of order 7k. It appears that for k>2 the analytical solution is not pratical. For this the
approach was just used for k=2 to verify the numerical solution with the above given loss
function. In addition this approach was also used to show that a multivariate loss function for
k=2, given by L = c + ,$ + JC,&, results in an implausible absolute minimum of the objective
function with respect to the application.
It has to be considered that after having found the Bayesian action a”, it has to be re-
transformed into the original scale according to (Eq. 23.3). Notice if the Bayesian decision
mode1 is not applied means of the univariate posteriors cari be used as forecast. The mean m
of the pdf in the original scale (Eq. 23.5) for an arbitrary subcatchment is not simply given by
re-transforming according to (Eq. 23.3) from the mean ,LLof the pdf in the normal scale but it
is given by :

429
(23.30)

Note m in (Eq. 23.30) is unconditioned in that it includes events with no rainfall.

23.3. Application

In the following the forecast system is applied using data of the Lenne-catchment, Germany.
First one year of daily rainfall forecasts resulting from univariate posterior pdfs and from the
deterministic forecast mode1 are compared with measured data. Second decision modeling is
applied to a single rainfall event and resulting forecasts are compared. The results from both
applications are discussed.

23.3.1. One year time series

Prior information in the Bayesian mode1 has been modeled using data of the Lenne catchment
from 1977 to 1992. Besides dynamic updating of the likelihood modeling, data from the year
1993 and 1994 for calibrating the likelihood mode1 were used. The year 1995 was used for fo-
recasting daily precipitations. With respect to the Bayesian mode1 applied, cp’s are not assu-
med to be known. The cp at the forecast time is asumed to be the same as “yesterday”. In fact,
when statistically analyzing a time series of forecasted precipitation, the performance measu-
res differ very little whether or not cp’s are assumed to be known because of the persistance of
cp’s. Moreover no decision modeling is applied meaning the means of the univariate posterior
pdf’s are re-transformed according to (Eq. 23.30). The re-transformed means are then used as
Bayesian forecasts. DWD- and Bayesian forecasting are analyzed given that the cp at the fo-
recast day belongs to the group west-cyclonic, south-west cyclonic or north-west cyclonic
which are known to be the cp’s most responsible for floods in the catchment. Results are gi-
ven for daily areal precipitation of a 204 km2 subcatchment in the Lenne catchment. Table
23.1 presents some performance measures. Lag 0 means forecasting (at the morning) the rain-
fa11of the actual day, while lag 1 means forecasting (at the morning of the actual day) the rain-
fa11of tomorrow. The errors are given as “measured - forecasted”.

Table 23.1 Performance measures of one year forecasting


lag0 lag 1
mean error stand. error corr. coeff. mean error stand. error corr. coeff.
[mm1 [mm1 L-1 [mm1 [mm1 L-1
DWD 1.33 5.08 0.77 0.93 5.12 0.78
Bayesian -0.45 5.26 0.77 1.24 5.51 0.74

From table 23.1 it is seen that the performance measures from the Bayesian forecasts and from
the dererministic DWD forecasts are more or less similar. The performance measures of table
23.1 do not consider the more important aspect of the Bayesian forecasting, namely that pdf’s
of forecasted areal rainfalls are given.

430
The following example shows, that the daily given univariate posteriors agree with the
true but at forecast time unknown state. The posteriors represent daily mean areal subcatch-
ment rainfall. According to Sec. 23.2.1 (i) each day t a posterior i@(t) - N(p,, 4) is given as
forecast which estimates the unknown state W(t). The corresponding re-transformed random
variables are given as k(t) and Z(t). The hypothesis H,: i(t)=Z(t) is tested using the Kolmo-
gorov-Smirnov test. Note there is only one realization z(t) and hence w(t) given from Z(t) and
W(t). Based on a sample z(t), t=l,..., n, w(t) cari be standardized using parameters lu, and 4
from l@(t). Taking into account (Eq. 23.3), the standardized sample has to be a truncated
standard normal distribution. Figure 23.6 shows an example of such a standardized truncated
sample, together with the cumulative density function of the standard normal distribution.

F (WI
1-

0.8

f@- I -~ theoretical cdf

l empirical cdf

t ’ w
-3 -2 -1 1 2 3
Fig. 23.6: Truncated standardized measured rainfall according to posterior pdfs

The truncated standardized sample is tested against the theoretical cdf using the Kolmogo-
rov-Smirnov test. Samples had been conditioned on different cp groups, on different modeled
subcatchments, on different lead times and on the assumption concerning the knowledge of
the cp group at the forecast day. Using a11these different samples, in no single case the hypo-
thesis of equal distributions could be rejected on a 5%-significance level. Thus it is assumed
that the statistical rainfall forecasts given by the univariate posteriors agree with the state,
which is unknown at forecast time.

23.3.2. A flood event

In the sequel a flood event is considered which took place in the Lenne catchment between
December 26th, 1994, and January 5th, 1995. With respect to the Bayesian model, cp’s are
again not assumed to be known. During most of the days, especially the day where significant
rainfall is measured, a cp west-cyclonic is given. The Bayesian mode1 was used in three versi-
ons namely (i) using decision modeling with a factor of symmetry c=l for a11subcatchments
(Vl), (ii) using decision modeling with a factor of symmetry c=O for a11subcatchments (V2)
and (iii) no decision modeling but retransforming the means of the posterior pdf’s according
to (Eq. 23.30) (V3j. The different forecasts are analyzed with respect to the areal rainfalls of

431
the 204 km2 subcatchment. Figure 23.7 and 23.8 show the time series of the different fo-
recasted rainfalls for lag zero and one resp.
n measured
lag zero

q
w dwd

60 n bayes (vl)
Q bayes (~2)
50 n bayes (~3)
m 40
s
li 30
9:

E 20

10

0
1 2 3 4 5 6 7 8 10 11
days starting dec., 26th 1994

Fig. 23.7: Forecasting rainfall (lag 0) during aflood event

n measured
lag one
ïH dwd

60
n bayes (vl)
q bayes (~2)
50 Imbayes(v3)l

s 40
9
ifi 30
e.
E 20

10

0
1 2 3 4 5 6 7 8 10 11
days starting dec., 27th 1994

Fig. 23.8: Forecasting rainfall (lag 1) during aflood event

From figures 23.7 and 23.8 it is seen that, using the decision mode1 and different loss functi-
ons, Bayesian forecasting results in a wide range of overestimating (in order to be conserva-
tive) the measured precipitation whereas the deterministic forecast is in general underestima-
ting the measured precipitation. Especially on December, 27th, both lag 0 and lag 1 forecast
from the deterministic mode1 strongly underestimate the measured data. On these days even
the Bayesian forecasts with the non-symmetrical loss function cari not compensate this unde-
restimation. Bayesian forecasts V2 and V3 are not the same because V2 takes into account the
correlation structure of the multivariate pdf whereas V3 does it not. Since already the
“deterministic” forecasts are strongly correlated, V2 and V3 differ from each other little.
Figure 23.7 and 23.8 indicates the sensitivity of the statistical rainfall forecasts on the
loss function. SO much the more the parameters of the loss function have to be fixed. Ultima-
tely it is wanted to use the rainfall forecast system to improve the results of flood forecast.
Hence a non-symetrical loss function as modeled in section 23.2 (v) is useful. Two problems
are rising. First, because of the non-linear transformation (Eq. 23.3), the loss function in the
original space is not constant. Second, rainfall forecasts are used for flood forecast, thus the

432
loss function should be defined with respect to resulting floods. From a practical point of vie-
w, both problems were considered to be fundamental. Consequentely, ongoing research
(Muster, 1996) was to provide univariate pdfs of discharge peak based on multivariate pdfs
of rainfall forecasts. Defining a loss function with respect to a pdf of flood forecast is much
easier then with respect to rainfall. First it is univariate, second no non-linear transformation
has to be taken into account and third and most important, not rainfall but floods causes losses
consequentely it is much easier to define the loss function with respect to floods.

23.4. Summary and conclusions

The methodology of a multivariate rainfall forecast system for daily amounts of mean areal
precipitation is presented. Using a Bayesian approach deterministic forecasts from a meso-a
scale physically based numerical weather forecast mode1 which has a longer lead time of
reliable forecasts than purely stochastical approaches cari be included. Outputs of the rainfall
forecast system are given as probability density functions expressing the degree of belief in
the actual forecast. Defining a multivariate loss function (keeping in mind the application)
single forecast values are drawn out of the probability density functions which are in a Baye-
sian sense optimal decisions.
A time series of one year of Bayesian- and deterministic rainfall 6-30 hour and 30-54
hour forecasts has been compared. Bayesian forecasts based on the means of daily posterior
pdfs are similar to the deterministic forecasts. The daily provided pdfs of rainfall forecasts
from the forecast system fit the measured data. Using Bayesian- and deterministic rainfall fo-
recasts during a single flood event, by different loss functions significant underestimation of
the deterministic rainfall forecast (and hence the resulting flow forecast) cari be corrected to a
large degree. From a practical point of view, the definition of a loss function with respect to a
multivariate pdf of rainfall forecast is discussed and continuing reference is given.
It is concluded that a rainfall forecast system has been presented which fits hydrological
requirements, namely the need of multivariate probability density functions of daily areal rain-
fa11forecasts with a lead time of a few days. A non-symmetrical multivariate loss function is
presented which is mathematically straigthforward. For the present application, namely runoff
forecast based on rainfall forecast, it is concluded that providing a univariate pdf of runoff fo-
recast based on a multivariate pdf of rainfall forecast is more promising then further research
torwards the definition of a loss function with respect to a multivariate pdf of rainfall forecast.

Acknowledgements

We thank’prof. N. Henze and B.Klar, Inst. für Wissenschaftliches Rechen, Univ. Karlsruhe
(TH), for providing the Fortran code of the maximum-likelihood estimation. We thank Dr.
habil. G. Morgenschweis, Ruhrverband Essen, for providing precipitation data. The research
presented has been funded by the Deutsche Forschungsgemeinschaft, PL 60/5 1- 1.

433

-1- - --
Bibliography

ABRAMOWIIZ, M. and STEGUN, 1. (1962) Hundbook of mathematical functions. Dover


Publ., 1046 pp.
AHMED, S. and de MARSILY, G. (1987) ‘Comparison of Geostatistical Methods for Esti-
mating Transmissivity Using Data on Transmissivity and Specific Capacity’.Water Re-
sources Research, Vol. 23, No 9, 1717-1737.
BARDOSSY, A. and PLATE, E:J. (1992) ‘Space-time Mode1 for Daily Rainfall Using Atmo-
spheric Circulation Patterns’. Water Resources Research, Vo1.28, NO.~, 1247-1259.
BARDOSSY, A.; MUSTER, H.; DUCKSTEIN, L. and BOGARDI, 1. (1994) ‘Knowledge Ba-
sed Classification of Circulation Patterns for Stochastic Precipitation Modeling’. In:
K.W.Hipel et al. (eds.), Stochastic and Statistical Methods in Hydrology and Environ-
mental Engineering. Vol. 3, 19-32, Kluwer Academic Publishers, Netherlands.
BAUR, F.; HESS, P. and NAGEL, H. (1944) Kulender der Gropwetterlagen Europas 1881-
1939. Bad Homburg, FRG.
BERNIER, J. (1994): ‘Quantitative analysis ,of uncertainties in water resources. Application
for predicting the effects of changing’. in: Duckstein. L and Parent,E. (ed.): Enginiee-
ring risk in natural resources Management, NATO-AS1 Series E, Vol. 275, ~~473,
Kluwer Academic Publishers, Netherlands.
BOX, G.E.P. and TIAO, G.C. (1973) Bayesian Znference in Stutistical Analysis. Addsion-
Weslley, 588pp.
BRAS, R.L: and RODRIGUEZ-ITURBE, 1. (1985) Random Functions and Hydrology. Ad-
dison-Wesley, 559~~.
HENZE, N. and KLAR, B. (1993) ‘Goodness-of-Fit Testing for a Space-Time Mode1 for
Daily Rainfall’. pre print 93/6, Institut fiir Wissenschaftliches Rechnen und Mathemati-
sche Modellbildung, Universitat Karlsruhe.
HESS, P. and BREZOWSKY, H. (1969) Katalog der Grosswetterlagen Europas. Berichte des
Deutschen Wetterdienstes Nr. 1 13, Bd. 15, 2.ed., Deutscher Wetterdienst, Offen-
bach/M, FRG
KRZYSZTOFOWICZ, R. (1983) Why should a Forecaster and a Decision Maker Use Baye-
sian Theorem’. Water Resources Research, Vol. 19, NO.~, 327-336.
MAJEWSKI, D. (1992) Short Description of the Europa-Mode11 (EM) of the Deutscher Wet-
terdienst (DWD) as ut October 1992. Deutscher Wetterdienst, OffenbachM, FRG.
MUSTER, H. and BARDOSSY, A. (1992) ‘Areal Rainfall Estimation Uncertainty Depending
On Atmospheric Circulation Patterns, Number and Distribution of Rain Gauges’. Proc.
4th European Junior Scientist Course-Assessment of modeling uncertainties and measu-
rements errors in hydrology, Saint-Victor sur Loire (Saint Etienne), France, 9-12 April
1992.

434
MUSTER, H. (1996): ‘Rainfall and runoff forecasts for small and medium size rural catch-
ments with a lead time of a few days’. proceedings, Int. conference on water resources &
environment research: torwards the 21th Century, October 29-3 1, 1996, Kyoto, Japan.
PLATE, E.J. (1993) Statistik und angewandte Wahrscheinlichkeitslehre für Bauingenieure.
Ernst&Sohn, Berlin, 685~~.
RAJFFA, H. and SCHLAJFER, R. (196 1) Applied Statistical Decision Theory. MIT Press,
Cambridge, 356~~.
WAERDEN van der B.L. (197 1) Algebru 1. Springer, Berlin, 272~~.
WEST, M. and HARRISON, J. (1989) Bayesian Forecasting and Dynamic Models. Springer
series in statistics, Springer, New York, 617~~.
24. Pondération bayésienne de prévisions :
une application opérationnelle à la
prévision des crues

Pierre-Alain Roche
Ministère de YEquipement, du Logement, des Transports et
du Tourisme
Directeur de 1’Equipementde Picardie
Cité administrative, 56 rue Jules Barni
80040 AMIENS Cedex 1 - FRANCE

The describedmethodfor real time flood forecastingis derivedfrom a bayesiandecisionadaptive


processfor weighting the resultsof variousforecasts.The interestof this approachis contkned
even if undesignedperturbationaffect the forecastingsystemin real-time. Operational results
concemingthe UpperGaronnein Franceare presented.

Résumé

Cet article décrit une procédurede décisionen tempsréel, dérivéed’une approchebayésienne,de


pondérationen temps réel des résultatsde différentsmodélesde prévisionde crnes.L’intérêt de
cette démarcheest confîrmé mêmedans le cas où des erreursaccidentellesinterviennentsur le
systèmede prévisionen tempsréel. Des résultatsopérationnelsconcernantla GaronneSupérieure
en Francesont présentés.

24.1 Introduction

La prévision des crues bénéficie aujourd’hui de progrès effectués sur les systèmes de collecte
de données ainsi que des améliorations apportées aux méthodes de prévision, même si en
temps réel, le prévisionniste n’a que peu de temps pour analyser une situation, traiter les
informations et mettre en œ uvre les modèles.

De nombreuses procédures automatiques de traitement d’erreur ont été développées pour


lui venir en aide. Ces procédures, très performantes lorsqu’il s’agit de corriger des erreurs
persistantes et régulières, sont souvent mises en défaut pour des erreurs accidentelles, comme
l’absence de données, les erreurs de mesure ou la prise en compte d’une situation hydrologique
particulière. Le prévisionniste est donc conduit à effectuer lui-même des corrections en temps
réel, souvent guidé par sa seule expérience. Pour essayer de prendre en compte ces erreurs
accidentelles, différentes approches ont été proposées.

Kitanidis et Bras (1980) ont élaboré une procédure de branchement et de débranchement


d’un filtrage de Kalman pour éviter les perturbations exceptionnelles. Lebossé et Miquel (1985)

437
ont présenté une procédure empirique fondée sur une démarche hiérarchique et sur une
décision automatique de changement de modèle. Dans un autre domaine que la prévision,
Vernos (1982) a développé une approche bayésienne pour passer d’un modèle à l’autre et
Cavadias et Morin (1985) ont cherché la meilleure combinaison linéaire de modèles.

Cet article présente une procédure de décision mieux adaptée aux contraintes du temps
réel. Elle s’appuie sur une combinaison de plusieurs modèles de prévision en attribuant un poids
différent à chaque modèle. Les poids évoluent en fonction de l’état du système de prévision et
des performances récentes des modèles.

Cette procédure a été développée au CERGRENE et testée sur le bassin de la Vézère


(Roche et Tamin, 1987) puis a été transposée et implantée depuis 1989 dans le système de
prévision en temps réel db bassin supérieur de la Garonne. Ces développements ont bénéficié
des conseils éclairés du Professeur Bernier.

24.2 Principe de la méthode de pondération bayésienne multimodèle

Soit y la variable hydrologique à prévoir.


La méthode de pondération (ou combinaison) de modèles repose sur :

- l’identification d’un ensemble d’états de la nature d’un système de prévision, que l’on
appelle pour simplifier ici configurations du système (Hi,i=l,...n). La probabilité d’être dans
une configuration Hi est dénotée pi. On note P=(pi, i= 1,. . . n).

- un ensemble de méthodes de prévision M=(M~k=l,...,m), qui utilisent différentes


informations, et fournissent des prévisions Y=(yk,k=l,...,m) de y indépendantes de la
configuration Hi. Les erreurs de ces différentes prévisions sont des écarts (eki) dépendants de
la configuration Hi de fonctionnement du système. On suppose les prévisions npn biaisées et
les écarts normaux et de covariance 5 dans la configuration Hi. On note Ai=(a’kl) la matrice
y-‘.

La prévision de y que l’on recherche est une décision d(y), qui estime y en minimisant un
critère de proximité. On prend ici la distance :

GWY = MY - KV2) (24.1)

La décision optimale recherchée est alors :

(24.2)

L’application du théorème de Bayes (Winkler, 1981, Roche et Tamin, 1986) permet de


déterminer la loi de probabilité conditionnelle de y connaissant Y et P. On obtient en
particulier:

dopt= Cpi u’..Y (24.3)


d./z.U
avec z.i:(I,...,Ij

438

--.-
Ainsi la décision optimale, en supposant connues les probabilités des configurations, est
une combinaison linéaire des prévisions émises par chaque modèle. Le poids wk de la prévision
yk dans cette pondération est :

(24.4)

où wki est le poids qu’aurait la prévisionyk dans la configuration Hi :

(24.5)

Ces coefficients ne sont pas bornés et sont relativement instables à de faibles variations
des corrélations entre les erreurs de prévision des modèles.

On a pu montrer (Roche et Tamin, 1987) que l’on évitait ces instabilités, sans perte
sensible de performance, en adoptant la décision sous-optimale obtenue en limitant les matrices
de covariances à leurs termes diagonaux. Dans ce cas, les coefficients de pondération sont tous
compris entre 0 et 1, et la dispersion reste inférieure à celle du meilleur modèle.

24.3 Procédure simplifiée : la “pondération évolutive”

La détermination des probabilités P, l’identification exhaustive des configurations Hi et


l’estimation des matrices de covariance est un exercice lourd et délicat. 11a pu être mené à bien
dans un cas particulier (bassin de Vézère) sur la base d’un travail approfondi sur les types de
perturbations susceptibles d’affecter un système de prévision (Roche et Tamin, 1986).

II n’est cependant pas question de procéder de cette façon pour une application
généralisée de la méthode. Ceci a conduit à rechercher des procédures empiriques permettant
d’estimer de façon récursive les poids accordés aux différentes prévisions, sur la base des
travaux de Newbold et Granger (1974) et Makridakis et Winkler (1983).

Ces procédures sont basées sur une estimation de la covariance des écarts des modèles
durant les derniers pas de temps de façon à réduire au fur et à mesure les poids des modèles
dont la qualité se dégrade. Le poids w,$) du modèle Mk à la date t prend alors l’expression
suivante, en limitant la matrice de covariance à ses termes diagonaux :

f-l
( C (ekW2)-’
w,(t)= ms=t;:, (24.6)
C ( C (eJW2)-’
J=i S=I-”

avec e,@): erreur du modèle A4k à la date s


et
v : durée prise en compte pour analyser les écarts de prévision précédents.
Ainsi le poids de chaque modèle est inversement proportionnel à sa variante d’erreurs,
estimée sur les derniers pas de temps (les poids sont normés, leur somme est égale à 1). Le
poids évolue donc bien en fonction de la performance observée sur le modèle, diminuant
lorsque cette performance se dégrade. Pour éviter une trop grande sensibilité des poids, qui
serait préjudiciable à la continuité de la prévision, l’expression suivante a été proposée par
Newbold et Granger (1974) pour réactualiser un poids “évolutif” v,# :

“k(l)= bWk(t -l)+(l-@+,(t -1) (24.7)

avec p : pourcentage accordé aux poids trouvés au pas de temps précédent.

Nous avons finalement retenu une formulation un peu différente :

‘k(l)= P’wk(o)+(l-p)‘wk(t) (24.8)

avec wk(f$ : poids stationnaire (état normal)


wk(t) : poids immédiat (état observé sur les derniers pas de temps,
nécessairement différent du premier)
/3 : constante
vk(t) : poids évolutif

Cela revient à identifier deux états de système, le premier où tout fonctionne


correctement (état normal), qui a servi au calage des modèles, et le deuxième (état observé)
qui correspond à un état observé de façon “quasi-instantanée”, c’est-à-dire identifié à partir des
derniers pas de temps connus. Cette identification se base uniquement sur la performance des
modèles et non sur une analyse spécifique de configurations du système.

Cette relation diffère de l’équation (24.7) dans la mesure où les poids de chaque prévision
se recalent sur les poids initiaux, même si l’on accepte que l’influence des données récentes
écarte temporairement les poids de leurs valeurs normales, si les performances relatives des
divers modèles viennent à différer sensiblement de la situation normale.

Pour stabiliser le calcul du poids évolutif, un lissage de l’ensemble des erreurs antérieures
et de l’erreur au pas de temps t a été effectué :

ok(t>= Ct-O2,(t -l)+(l-a).ek(t) (24.9)

avec 02k(t) : variante lissée des erreurs du modèle ki’k au temps t


cz~ constante

Des valeurs moyennes de a et p ont été adoptées (QI et p = 0.5), après des analyses
montrant que la prévision est peu influencée par la variation de ces valeurs (Roche et Tamin,
1986), (Loumagne et al, 1990). La prévision finale est ainsi issue de la meilleure combinaison
possible des modèles confrontés aussi bien à une information historique que récente.

440

--.
Par rapport à la procédure complète il y a eu non seulement simplification de la
procédure de calcul (matrice de covariance 1’ supposée diagonale....), mais également
adaptation empirique des principes initiaux, Au lieu de considérer des poids fixes
correspondant à des configurations dont la probabilité évolue dans le temps, on considère un
poids évolutif pour l’une des configurations (état observé) et cm poids fixe pour une
configuration de référence ayant service au calage des modèles (état normal).

La démarche simplifiée a les avantages suivants (Roche et Torterotot, 1988) : elle utilise
des modèles de structures variées sans intervenir sur leurs structures, elle produit une
performawe supérieure à celle de chacun des modèles et elle possède un potentiel de réaction
à tout type de perturbation instantanée.

24.4 Quelques exemples de résultats


Les principaux résultats otitenus lors de la mise au point de la méthode sur le bassin de la
Vénère o111 dé publiés antéricuremet~t (Roche et Tamill, 1987). Cette procédure a été installée
et utiliske CII situation opératiowelle i la DIREN de Bassin Midi-Pyrennées, chargée de la
prévision des crues sur le bassin de la Garonne (fig. 24.1).

TN

Figure 24.1 : le hnssin anronf de In Gnronne / the Upper Gnronne cakhent

Pour le calage de la prévision des débits à Toulouse, un échantillon de 15 crues a été


utilisé, après une étude de critique et de correction des données (Roche et Torterotot, 1987).

441

-
Les modèles utilisés ont été choisis particulièrement simples (Tassery, 1988). II s’agit de
régressions linéaires, utilisant diflérentes combinaisons de hauteurs d’eau, ou de variations de
hauteurs d’eau d’une dizaine dc stations amont de la Garonne (fig. 24.2) avec des décalages de
temps fixes.

Nous présentons ici un exemple des résultats obtenus postérieurement sur 4 crues de
1990 à 1992 en mode opérationnel (Loumagne et al., 1990 et Loumagne et al., 1995). La
pondération a eftèctivement privilégié les modèles les plus performants: le poids des plus
mauvais est presque nul (fig. 24.4). Les résultats obtenus sur l’ensemble de ces crues sont
présentés en figure 24.3.

_-- modéle 1

---a-- modble 2
--+-- modkle 3
-*- modble 4
--+-- -.- modhie 5

---o-- modble 6

- -.‘--- modble 7

-X- Pondération

Mai-91 Jun-92 Oct-92 Nov-92


Crue de test

Figrwe 24.3 : rhrtlints de In porrd~ra(ion èvoktive pour 4 crues /r&rrltsJor 4Joods by adaptoting weigltting

442
Fig. 24.4 b : modèle 1

OI_ -...--.- --..- --------. ---_I-..-.


“~Raso8e8u~~~$J~88
t-v
IrmW Urne( h) trmpd Urne( h)

Fig. 24.4 c : nrodèle 2 Fig 24.4 d : modèle 5

Fig. 24.4 e : modèle G Fig. 24.4 f: urodèle 7

cale observde - - - - cote ykvue yoidr weight


waler level forecasl

Figure 24.4 : résrtltots JJOWin crue d’octobre 1992 / rcsults for the oct. 92Jood

443

.i-----
On constate que les résultats obtenus sont dans l’ensemble meilleurs que ceux de chaque
modèle.

Pour la crue d’octobre 1992, le poids accordé au modèle 5 (fig. 24.4 d) de bonne qualité
générale chute dès que l’on se trouve en montée de crue, parce que le modèle 7 (fig. 24.4 f)
devient plus performant dans cette circonstance. Le modèle 1 (fig 24.4 b) présente un décalage
important dès le début de crue. Au bout de 4 heures de montée de crue, le constat des écarts
répétés fait diminuer le poids de ce modèle.

Enfin, certains des modèles, les n”2, 6, 7 (fig. 24.4 c, e, f) utilisent des données de la
station de Cazères, et présentent des oscillations dans la phase de décrue, liées à des
manoeuvres de barrages en amont de cette station, qui n’ont d’influente que localement. La
pondération privilégie alors les modèles 1 et 5 (fig. 24.4 b et d) qui n’utilisent pas cette
information, bien qu’ils soient habituellement moins performants.

Des tests complémentaires ont pu être réalisés sur ces mêmes crues en simulant a
posteriori d’autres types de perturbations habituelles, mais qui ne sont pas produites en réalité
durant ces crues : blocages de capteurs, décalages de cotes liés à des embâcles, etc. . . . Dans
chaque situation, la procédure réagit en quelques pas de temps, en éliminant provisoirement
de la pondération les modèles utilisant les données perturbées. Les résultats sont présentés en
détail dans Loumagne et al. 1994.

24.5 Conclusion

Plutôt que de s’engager dans des procédures de recalibrage en temps réel des paramètres de
modèles de prévision particuliers, il apparaît à la fois plus simple et plus pertinent au plan
théorique d’utiliser le bénéfice de la multiplicité des informations collectées en temps réel, qui
peuvent être exploitées différemment par différents modèles, par une pondération évolutive des
résultats de ceux-ci.

On évite ainsi des oscillations mal contrôlées, chaque modèle garde sa structure et ses
résultats propres restent interprétables. Issue d’une analyse bayésienne, la procédure de
pondération évolutive, interprétée comme la confiance accordée à chaque méthode, est
compréhensible par le prévisionniste à qui elle sert d’aide à la décision. Elle lui évite de perdre
du temps en situation de crise, en assurant une qualité minimale, régularisée autant qu’il est
possible de le faire, compte-tenu des perturbations qui affectent en permanence le réseau.

Une telle démarche apparaît comme un développement minimal sur un réseau de


prévision de crues de taille significative. Bien entendu, des techniques beaucoup plus élaborées
sont sans doute adaptées pour résoudre ce type de questions: les systèmes experts et les
systèmes d’apprentissage, en particulier, connaissent des développements prometteurs.
Cependant, il conviendra de vérifier à l’expérience que le très important investissement
méthodologique qu’ils nécessitent pour une mise au point sur chaque bassin apportent un gain
effectif pour le prévisionniste par rapport à cette simple méthode de pondération évolutive. La
limite des possibilités d’amélioration est en effet vite atteinte, car aucune démarche n’est en
mesure de se substituer aux défauts de représentation de la complexité du système physique
modélisé. Une démarche d’analyse bayésienne apparaît ainsi une fois de plus comme un guide
fructueux qui permet, souvent avec des simplifications, de trouver des procédures de décision
qui se révèlent efficaces, parce qu’elles sont correctement construites, et pas uniquement
guidées par la recherche empirique de règles de décision arbitraires.

444
Bibliographie

CAVADIAS G. et G. MORIN (1985) Amélioration des performances des modèles


hydrologiquespar combinaison des dbbits sirnul&‘. Revue Internationale des Sciences
de l’Eau, vol. 1, no 1/4, 29-35.
KITANIDIS P.K. et R.L. BRAS (1980) Ydaptntivefiltering through detection of isolated
transient errors in rainfall-runoff models’. Wat. Res. Res., Vol. 16, 4, pp. 740-748.
LEBOSSE A. et J. MIQUEL (1985) ‘Annonce des crues du Cher. Mise au point des formules
de prévision’. Rapport EDF. E43184.37.
LOUMAGNE C., R.LEONETT, C.MICHEL, J.J. VIDAL et C. FELIU (1990) ‘Mise en
oeuvre opérationnelle ditne prévision multi-modèle de crue ‘. Rapport CERGRENE,
SHC GARONNE 58 pp.
LOUMAGNE C., J.J.VIDAL, C FELIU, J.P. TORTEROTOT et P.A.ROCHE (1994)
‘Procédure de dkcision multi-modèle pour une pWvision des crues en temps réel.
Application au Bassin Supkrieur de la Garonne’. Note CERGRENE, 20 p.
LOUMAGNE C., J.J VIDAL, C. FELIU, J.P. TORTEROTOT et P.A ROCHE (1995)
‘Procédure de décision multimodèle pour une prévision des crues en temps réel.
Application au bassin supkrieur de la Garonne’. Rev.Sci.Eau 8 (1995), 539-56 1
MAKRIDAKIS S. et R.L. WINKLER (1983) ‘The combination offorecasts’. J.R. Statist. soc.
A. 146, Part 2, pp. 150.157.
NEWBOLD P. et C, W. J. GRANGER (1974) ‘Experience with forecasting univariate time
series and the combination offorecasts! J.R. Statist. soc. A. 13 1-165.
ROCHE P.A. et R.TAMIN (1986) ‘Procédure de décision multi-modèle applicable à la
prévision des crues en temps réel’. CERGRENE, ENPC; Noisy-le-Grand, 85 p.
ROCHE P.A. et R.TAMIN (1987) ‘La combinaison de modèles : un moyen de limiter l’impact
desperturbations en prévision des crues’. Rev. Inter. Sci. Eau, Vol. 3, no 2, pp. 57-65.
ROCHE P.A. et J.P.TORTEROTOT (1987) ‘Prévision des crues sur la Garonne supérieure :
conception d’une procédure multi-modèle! CEKGRENE, ENPC, Noisy-le-Grand, 67~.
TASSERY A. (1988) ‘Modèles linéaires pour la prévision des crues de la Garonne ‘.
CERGRENE, ENPC, Noisy-le-Grand, 35 p.
VERNOS D, (1982) ‘Application des modèles stochastiques dynamiques linéaires à la
description et à la simulation des processus de débits des rivières aux échelles
saisonnières et journalières. Etude de leur utilisation en prévision de la gestion des
ressources eR eau! Thèse de Docteur 3ème cycle, Université PARIS VI, Paris.
WINKLER R.L. ( 198 1) ‘Combining probability distribution from dependent information
sources’. Management Sciences, N” 27, pp. 479-488

445
PARTIE VII PART VII

MÉTHODES NOUVELLES
D’ÉVALUATION ET GESTION DU
RISQUE

NEW DEVELOPMENTS FOR RISK


ASSESMENT AND MANAGEMENT

447
PARTIE VII PART VII

MÉTHODES NOUVELLES
D’ÉVALUATION ET GESTION DU
RISQUE

NEW DEVELOPMENTS FOR RISK


ASSESMENT AND MANAGEMENT

25. BAYES AND FUZZY LOGIC MODELING OF ENGINEERING RISK


UNDER DYNAMIC CHANGE / MODÉLISATIONS FLOUE ET
BAYÉSIENNE DU RISQUE EN SITUATION DE CHANGEMENT
DYNAMIQUE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 451-464
L. Duckstein

26. NON-PRECISE INFORMATION IN BAYESIAN INFERENCE /


L’INFORMATION IMPRÉCISE POUR L’INFÉRENCE BAYÉSIENNE . . . . . . . . . . . . . . . . . . . . 465-478
R. Viertl

27. RÉGIONALISATION FLOUE DES DÉBITS DE CRUE À L’AIDE DE LA


MÉTHODE ISODATA / FLOOD STREAMFLOW FUZZY
REGIONALIZATION USING ISODATA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 479-490
V. Fortin, Z. Bargaoui, B. Bobée, L. Duckstein

449

- 1
25. Bayes and fuzzy logic modeling of
engineering risk under dynamic change

Lucien Duckstein, Professor


SIE, Bldg. 20, University of Arizona
Tucson, AZ 85721 USA
FAX: 520-621-6555
Abstract

Two rigorous approaches for modeling and then managing engineering risk under non-steady
hydrometeorologic conditions are compared : Bayes techniques and fuzzy logic-based techniques. The
management of water resources in the Upper Rio Grande river basin (USA) under climatic fluctuations is
used in part to illustrate the concepts. Criteria for comparing the approaches include : the existence of
theoretical foundations, the clarity and ease of application; the possible use of uncertain/imprecise in-
formation; calibration, numerical computation and validation aspects and acceptability of proce-
dures/results by public policy decision makers.
The Bayes approach appears to be difficult to apply to complex problems, especially in the presence of
dependent or correlated variables; however, when fully applicable, it is a superior method, yielding a truly
optimum decision accounting for uncertainty and for estimating the expected value of information. The
fuzzy logic approach cari take on many forms, such as fuzzy regression analysis, fuzzy optimization, fuzzy
rule-based modeling and control. It may be applied to large-scale problems with imprecisely defined
elements.
Case-study-related examples showing when either, neither or only one of the two approaches may be
applicable are given. The potential of fuzzy rule-based approach to mode1 risk under changing input
conditions is discussed. Artificial neural networks may be used in conjunction with fuzzy rules to facilitate
rule formulation and construct fuzzy set membership functions under non-stationary conditions.

Résumé

MODELISATIONS BAYÉSIENNE ET BASÉE SUR LES RÈGLES FLOUES


DU RISQUE DYNAMIQUE ,

Dans cet article, on compare deux approches rigoureuses, les méthodes bayésiennes et les méthodes
basées sur la logique floue, pour modéliser puis gérer le risque mesurable (engineering risk) en présence
de conditions hydrométéorologiques non stationnaires. Pour illustrer ces concepts on analyse la gestion du
bassin supérieur du Rio Grande en présence de fluctuations climatiques. Le comparaison de nos deux
approches s’effectue à partir des critères suivants: l’existence de fondements théoriques, la clarté et la
facilité d’utilisation, le traitement d’information incertaine et/ou imprécise, les aspects de calibrage, de
calcul numérique et de validation, ainsi que l’acceptation des procédures et des résultats par les décideurs
en matière de politique publique.
Lorsque les problèmes sont complexes, l’approche bayésienne se montre difficile à appliquer, surtout en
présence de variables dépendantes ou corrélées; mais lorsqu’elle est applicable cette approche se révèle
ètre une méthode efficace qui conduit à une décision vraiment optimale tenant compte de l’incertitude et
de l’estimation de la valeur espérée de l’information,
L’approche basée sur la logique floue peut, quant à elle, prendre differentes formes comme l’analyse de
régression floue, la modélisation, et le contrôle basés sur des règles floues. Cette approche peut ètre ap-
pliquée à des problèmes de grande taille avec des éléments définis de facon imprécise.
On présente ensuite des exemples d’études de cas dans lesquels on a pu appliquer soit les deux approches,
soit l’une des deux, soit aucune d’entre elles. On étudie l’aptitude de l’approche basée sur les règles floues à
modéliser le risque avec des conditions d’entrée floues. Enfin on mentionne comment les réseaux
neuronaux artificiels peuvent ètre utilisés conjointement avec des règles floues pour faciliter la
formulation de règles et pour construire des fonctions d’appartenance à un ensemble flou en présence de
conditions non stationnaires.

25.1. Introduction
The purpose of this paper is to examine how well Bayes decision theory and fuzzy logic cari
deal with engineering risk under non-steady hydrometeorologic input conditions. The applica-
tion of the two techniques is illustrated by an example of water management in the south-
western USA.The methodological developments herein refer extensively to several papers in
Duckstein and Parent (1994).These papers are rewritten and edited versions of plenary
lectures given by scientists at the NATO AS1 held in Deauville (France) on the closely related
topic of engineering reliability and risk under changing physical conditions, such as global
climate change. The general topic under consideration is the allocation of water resources in
the Upper Rio Grande basin in New Mexico, USA. The problem, which is posed in some
detail in Waterstone (1994) and Duckstein et al. (1994) consists in allocating resources and
shortages which are highly likely to occur as population and various demands grow, and
which moreover are predicted to be exacerbated by the onset of climate change. In addition,
flood control, ground water management and environmental quality objectives should be
pursued under these changing physical conditions.
Only the risk, uncertainty and imprecision aspects of this problem are examined here. The
randomness of nature which is not controllable is modeled by probabilistic or stochastic ana-
lysis. Even under stationary conditions, the modeling of extremes is not an easy proposition
(Bardossy 1994; Bernier 1994a); a stochastic mode1 must be selected and its parameters esti-
mated with insufficient data. Mode1 and parameter uncertainty constitute informational uncer-
tainty, which for a well-defined problem of moderate size may be analyzed using Baysian sta-
,tistical techniques. The other type of informational uncertainty is imprecision, stemming from
the human way of thinking; for example, an extreme drought, a large flood, a slow change of
climate or a friendly water compact are not precisely defined and may be modeled by means
of fuzzy logic. In fact, the two perpendicular points of view may be taken to approach a fuzzy
set model.

(1) We may consider that the boundaries of the sets “extreme drought”, “large flood” or “slow
climate change” are not defined precisely.

(2) We may ask the question : to which extent or degree does a given tlood, even with pre-
cisely measured characteristics (duration, peak value) belong to the (fuzzy) set “large
flood”?

Fuzzy modeling may take on several forms, depending upon the problem requirements, data
available and decision-makers/stakeholders involved, for example

- possiblity theory (Dubois and Prade, 1988, 1994a),


- interval analysis; gray sets: rough sets (Slowinski, 1993),

452
- fuzzy regression (Fedrizzi and Kaprczyk, 1992) and fuzzy interpolation (Bardossy et al.,
1990),
- fuzzy rule-based modeling (Dubois and Prade, 1994; Dubois et al., 1995; Bardossy and
Duckstein, 1995).

It is also possible to combine probabilistic (Bayesian or non-Bayesian) and fuzzy logic


models, considering for example a time series of fuzzy events. Non-stationarity, especially
that concerning extremes, is bound to produce situations where such models may be quite
suitable if not indispensable.
From an engineering standpoint, scientific modeling is a support of good decision-making ;
in fact, as soon as objective or loss functions are introduced, modeling and decision making
become blended. For example, the selection of the stochastic representation of a geophysical
phenomenon with a fitting and estimation technique usually determines the design because the
engineering procedures are then defined by regulation. These procedures have been
established with an implicit objective function in mind for the put-pose of consistency in the
design; the resulting process is quasi deterministic.
If uncertainties and/or imprecise elements are introduced into the model, then several ap-
proaches may again be applied

- stochastic programming (single or multi-objective), which Will not be examined herein,


- extensive Bayes decision analysis (as an “extension of” Bayes statistical analysis),
- fuzzy decision-making, for which again several options exist : fuzzy mathematical pro-
gramming, fuzzy control and fuzzy rule-based decision models.

In the next two sections brief overviews of the Bayes approach and then fuzzy logic are pre-
sented.

25.2. Bayes decision theory


The philosophy and principles of the Bayes approach are now given. A distinction is made
between statistical (Bayes) decision theory and a complete (extensive) Bayesian analysis. The
philosophy underlying a Bayes approach to decision making includes the following points :

(1) Various types of data stemming from various sources are pooled within a rigorous pro-
babilistic framework.
(2) Prior information, which cari be subjective, regional, model-based or data-based, is a
most important source of information. For example, weights assigned subjectively to
represent the likelihood of various climate change scenarios are taken as important prior
information.
(3) The only certain or deterministic information is provided by observations or data on hand.
(4) The informational uncertainty which may be related to the stochastic mode], statistics
thereof or economics, is usually represented by a random parameter vector 8 the prior
information on 8 is then encoded as a priorpdf. Several reliable techniques are available
to estimate 0 (Berger, 1985). As an example, it may be said that for the nonlinear flood
loss function L(a,x) = (x - a)0 for x 2 a and zero otherwise; certain observations made
elsewhere suggest a Beta prior pdffor 8 in the intervai (0.5, 1.5) of the form :

where K is the normalizing constant.


(5) Observations of a random variable X with probability distribution f(xl@j (the
likelihood function or probabilistic model) may be taken to reduce the uncertainty in 8.
(6) An objective or loss function may be used to measure the cost of uncertainty due to ran-
domness, short records or inadequate models. This function may be implicit or hypothe-
tical as in statistical decision theory, where for mathematical convenience, it is usually
taken as a squared error, or explicit as in an extensive Bayesian analysis (Davis et al.,
1972).
Prior information under the form of prior pdf is updated using sample information by
means of Bayes theorem, yielding a posterior pdf ~~(01.). In (Bayesian) statistical decision
theory, the decision consists in selecting the estimated value 6 = u of the parameter 0 on
the basis of a loss function s(a, 0) usually taken as a squared error function:

(25.1)

Based on the posterior pcif, one cari construct Bayesian confidence intervals, also called
credible sets, which are actual probability statements, in contrast with classical confidence in-
tervals (Duckstein et al., 1987b), which refer to a “fixed but unknown parameter value”. The
handling of restricted parameters such as flow means exceeding a threshold, which is a
difficult problem in classical statistics, is easy in a Bayesian analysis. The main problems in a
Bayesian statistical analysis are :

- probabilistic mode1 choice (J’( xl0 ))


- selection of prior pdf n,( 8)
- independence of prior and likelihood,
- selection of loss function: binary, piecewise linear, quadratic or other,
- robustness of estimates with respect to data and mode1 errors.

In an extensive (or complete) Bayesian analysis, an actual or physical loss function is used;
this function may be measured, for example, in economic units or in loss of life expectancy
units. The expected value of the loss function with respect to the pdf of flood stage x is called
the goal function k (Raiffa and Schlaifer, 196 1; Davis and Dvoranchik, 197 1; Davis et al.,
1972) and is written as :

Ue,a)= I, L(wl.f(+Wx (25.2)

The expected value R (a) = E(k( 8 ,a)) with respect to the prior pdj called Bayes risk, provides
a basis for an optimum action, namely, the action or decision a*, which minimizes the risk R
CU):

(25.3)

In an engineering context as developed in Musy and Duckstein (1976) or Duckstein et al.


(1978), one of the remarkable features and advantages of a complete Bayesian analysis is the
possibility to evaluate the expected worth of information in terms of physically meaningful
units, using a well-established theoretical framework and a procedure with relatively few de-
grees of liberty (DeGroot, 1970). One may evaluate both the expected value of Perfect infor-
mation (XOL) and the expected value of imperfect or sample information (EVSI) (Raiffa and
Schlaifer, 1961). The difficulties with a complete Bayesian analysis are the same as in a
Bayesian statistical analysis; in addition, the calculations cari become quite unwieldy,
especially when calculating the EVSI, SO that approximation must be used (Bernier, 1994a,
1994b). Remarkably, the value of information for a non-optimal decision may be negative as
demonstrated in Davis et al. (1979).

454
25.3. Decision analysis by fuzzy logic
The simplest method of considering uncertainty is to perform an interval analysis. An
uncertain parameter in a hydrologie risk assessment, such as the expected extreme drought
duration, cari take on any value within such an interval. With more information on the
uncertain parameter, the interval mode1 cari be “sharpened”, that is, we determine the
possibility that the parameter cari take on certain value(s) within the interval. If the axioms
and hypotheses of probability theory hold, then the probabilistic procedure may be applied as
an extension of interval analysis. However, under non-steady conditions, considerable weaker
hypotheses than those of probability theory are warranted. Fuzzy set analysis cari be used with
very few and weak prerequisite assumptions and may thus be selected as an extension of
interval analysis (Dubois and Prade, 1980; Zadeh, 1965; Hipel, 1982; Kaufmann and Gupta,
199 1). Some details are given below.
The membership function is a central concept in fuzzy set theory; different degrees of
membership in a fuzzy set correspond to different intervals, also called level sets, in the
domain of the variable. Fuzzy sets represent situations where set membership cannot be
defined on a yes/no basis. The value of the membership function of an element may be a
member of a fuzzy set to some degree, SO its membership value cari be between 0 and 1; the
uncertainty here may be to what degree the element belongs to the fuzzy set, as mentioned in
the introduction.
Whenever possible, the special class of fuzzy sets called fuzzy numbers should be used in
risk analysis. As an example of fuzzy number, it may be stated that variable y belong to the
set of positive real number R+ with a triangular membership function with modal value 1.
Reducing the triangle to a vertical line yields an ordinary or so-called crisp number. An index
representing the uncertainty of a fuzzy number may be calculated either as the area under the
membership function, or its width, or its a - Ievel set.
Three aspects of fuzzy set theory are noteworthy. One is related to the philosophical inter-
pretation of fuzzy sets, for instance as they are related to probability theory (Dong and Wong.
1986; Dubois and Prade, 1993). The second is the mathematics of fuzzy sets applied to risk
analysis. Since fuzzy set theory may be considered as an extension of basic interval analysis,
knowledge related to hydrologie risk assessment may be used to define multidimensional
intervals for uncertain parameters and models. In turn, since the aproach to analyze
uncertainties in risk analysis involves fuzzy sets, a fairly detailed knowledge of the field
should be acquired before proceeding to apply the fuzzy logic approach. For this purpose,
standards texts such as Dubois and Prade (1980), Kaufmann and Gupta (1988, 199 l),
Zimmermann ( 1985) or monographs such as Bardossy and Duckstein (1995) and Kruse et al.
(1994) are available.

25.4. Application to risk analysis under dynamic conditions


We assume that a dynamic system is defined as in Parent and Duckstein (1994) and consider
the problem of a shortage incident 1 in the Upper Rio Grande river basin, which may be
defined as supply q(t) (a non-controllable system input) being less than demand d(f) (taken
as a state variable).

1 = {(y(t), d(t)); q(t) < d(t); y(t)EX; cl(tkS } (25.4)

when X is the input set and S, the state set.


As explained in Duckstein et al. (1987a), a “failure” is a large incident, i.e., the deficit
variable h(t) = d(t) - q(t) is quite “large”. Unsteady conditions have an effect on both watel
supply q(t) because of increasing population and changing per capita consumption.
First, consider the elements of equation (25.4) to be purely stochastic, next purely fuzzy
and then mixed fuzzy-stochastic. Thus, let the quanitities q(t) and d(t) be at first random
variables. Any risk-based mode1 deals with realizations. Assume, without loss of generality.
that q(t) and d(t) are statistically independent. If this were not the case, the pdf
of d(t) would have to be made conditional on q(t) (or vice versa), but the formulation that
follows would otherwise remain unchanged. Further discussion of this point cari be found in
Plate and Duckstein (1988). The prlf of supply during drought may be taken as an extreme
value distribution, whose type is to be inferred from the pdf of the underlying flow
fq(q) (Ang and Tang, 1984). Here the parameters of this distribution may exhibit a trend due
to, say, climate change.
The demand during drought is usually more difficult to estimate than the supply (Yevjevich
et al., 1983). If the parameters of the p&of extreme demand during drought cari be estimated
by a regional analysis, then this regional distribution taken as a prior pdf may be combined
with observations made independently during drought at the actual site considered :

4 = {d,,...d,} (25.5)

to obtain a posterior p@, Specifically, the parameter vector 8 of demand pclf ,fl,(&) is
to be estimated. Let a prior n,,( 81A) be determined by a regional analysis possibly involving
a Bayes regression to estimate the hyperparameter vector a that cari be calibrated using only
a few data points or alternatively, an empirical Bayes procedure (Berger, 1985). The trend due
to unsteady conditions may be expressed by taking a as a function of time : il = @t ). The
posterior p&of 8 is then given by Bayes theorem :

(25.6)

where j:,(dlO) is the likelihood of parameter 8 given random sample d, and N is a nor-
malizing constant. Equation (25.6) makes it possible to calculate “credibility sets” of 8,
which, as stated earlier, are Bayesian confidence intervals corresponding to actual probability
statements (Berger, 1985; Duckstein et al., 1987b); furthermore, the predictive or marginal pdf
of -d cari be calculated as

(25.7)

Once the pczlfs of both q(t) and d(t) have been estimated, the probability distribution function
(DF) of any incident {Z( h ): Iz = d - q> cari be determined as:

p = p(h)= P(I(h))- P[i <h]= l-$(h) (25.8)

Since the pdji of both supply q(t) and demand d(t) have time-dependent trend parameters.
the DF p(h) is also a function of such a time trend. The next question is : How cari this ran-
domness in risk (because of random supply q and/or random demand 1) be combined with
various imprecisions? First, let equation (25.4) yield an incident with imprecise of fuzzy
severity Z*, a function of the observed deficit h = d - q :

I:” = (h,/P (h)) (25.9)

,uZ*(h) is the so-called membership function of h in the fuzzy set Z* with values in the
closed interval [O,i], such that the closer @ ‘k(h) is to 1, the more h belongs to fuzzy set
(severe incident) Z*.
In the case of a deficit incident due to drought,
PI”(h) = 1 for h large enough, causing, for example, permanent wilting of a trop or
Wells becoming dry.

/A à’ = 0 for h small enough (even negative), ensuring sufficient water to take


tare of losses, inefficiencies und imprecisions in the demand d or in the relationship be-
tween d and q. Let the functional form of ,uI *(h) be taken as :

(25.10)

Risk (and reliability) may be thus represented as fuzzy numbers (Shrestha et al., 1990). In fact,
as illustrated in Shrestha and Duckstein (1992), the concept cari be extended to the calculation
of the reliability of components in series-parallel configurations, such as the conveyance ele-
ments of a water supply network.
Second, a single decision-maker may be able to produce, under a proper assessment proce-
dure, a disutility function u(h) or a disvalue function v(h), which cari then be used in con-
junction with equation (25.7) in a decision analysis (Kandel & Byatt, 1980). However, as
stated, for example, in Bogardi et al. (1983), it is difficult to find agreement among a group of
experts as to a “moderate” value of h versus a “high” one. This is where fuzzy set analysis
may be useful; incidents I are again defined as fuzzy numbers I*, and the probability P(I) is
used to define risk as a fuzzy number. For illustration purposes, this risk is calculated as a pro-
bability of fuzzy failure E. By definition, p(h) in equation (25.8) becomes a fuzzy number if a
suitable membership function cari be defined with values in [O,l]. In the present case, let this
membership function be denoted as

/-@p)=pE(p(W) (25.1 1)

By construction ,uE( p) is the membership function of a fuzzy number representing the pro-
bability that an incident I belongs to the fuzzy failure set E. Using the so-called extension
principle, ,LLE(p) cari be calculated using equations (25.8) and (25.9) :

,Npl=. PUP( min~I”(h):p=F(h))=(~I*(hj:h=F-‘(p)). (25.12)

Let P(h,m > = P,Ui,l’p(hm > =PM,\ ’F-A (p) be the inverse DF of h in equation (25.8).
assumed to exist, then the membership function ,uE( p) is, for 0 I p 5 1.

Next, assume that the deficit h is a random variable, with its DF having the quadratic form

(25.14)
The inverse DF is obtained by solving equation (25.14) for h as a function of p = Fiz(h):

h=h+ -(hi -h-)$-p (25.15)


Combining equations (25.10) and (25.13) yields the membership function :

0 if P 5 P,,,,,,
i _ h,,,,, -h+ + (h’ -h- ,dG 2
P@P)= if P,,,,,,5 P 2 P,,,,,., (25.16)
! hn,<,.\
- h,,,,,,

As a numerical example, let h,,,,, = 2, hlllill = -3, h+ = 6, h- = -4:


Since II- I h,,,,,,i h,,,,, I h’ , p”,i” and p,,, are calculatd as:

(25.17)

Pm=*- 2
One thus find p,,zi,l = 0.19 and p,,Iax = 0.84. Using equations (25.10) and (25.17), equatim
(25.16) is written as :
>
0 ly p SO.19
-4 + 1o$q
if 0.19 I p 5 0.84 (25.18)
5
1 if 0.84 5 p

If a single measure of the probability of failure is needed, then the fuzzy mean cari be used
(Kandel and Byatt, 1980; Bardossy and Bogardi, 1989) :

(25.19)

The crisp (non-fuzzy) measure of the probability of failure provides a performance index to
compare drought risks. Note that a Bayesian technique could be used SOthat the DF in equa-
tion (25.14) would be the marginal pdfgiven in (25.7).

25 S. Criteria for comparing approaches


In mode1 choice problems, criteria may generally be grouped into four categories :

( 1)Problem-related criteria
(2)Model-related criteria
(3)Decision maker-related criteria
(4)Decision analyst-related criteria

458

-. ------ -__- __ _~---_


(1) The problems considered in the Upper Rio Grande Valley include various risks under
changing physical conditions as described in the Introduction.

*Cari the approach handle randomness? Uncertainty ? Imprecision ? A combination


thereof ?

*Cari it utilize simultaneously information from various sources : subjective, statistical,


other ?

(2)The model-related criteria include :


* existence of a theoretical foundation
J clarity of premises
j: ease of application : calibration, interpretation of results
A’computational burden

(3) The decision-maker (DM) related criteria deal with time available for assessing para-
meters, level of sophistication and, of course, desired outcome of the analysis, such as a
ranking of risks or of alternative actions. Furthermore, the DM may have specific ques-
tions in mind such as whether or not and how to phase in a conjunctive groundsurface
water management scheme. The city of Albuquerque, New Mexico Will have this problem
mostly because surface water no longer satisfies quality standards, in particular, allowable
level of arsenic. The alternative would be expensive surface water treatment to remove
excess arsenic.

(4) The analyst-related criteria measure familiarity with approaches, availability of generic
computer codes, transferability to other cases and transparency of the technique SOthat it
cari be defended.
Clearly more criteria cari be defined, as in Tecle and Duckstein (199 1), but the above ones
are believed to provide sufficient information to proceed with the discussion below.

25.6 Discussion: choice of approach


As pointed out by Bernier (l991), the main difficulties in making hydrologie decisions undel
non-steady conditions stem from modeling and representativeness uncertainties, which is cer-
tainly the case in the Upper Rio Grande basin (Duckstein, et al., 1996). Modeling uncertainties
may be present in physical, statistical or conceptional models. For example, Bernier suggests
embedding a standard probabilistic mode1 of flouds, say a Weibull, into a large class of distri-
butions, here a generalized log-gamma distribution :

(25.20)

with

y = (H-HJ -1 if a#0
a
(25.2 1)
y = hz{ H - Ho ) if a=0
where H - Ho is a flood height with datum Ho.
Setting k = Z arzd il = 0 yields the Weibull distribution. Setting either k = 1 or it = 0
yields a class of models larger than the Weibull with extra parameters k or ;1 that provide a
measure of distance from the Weibull reference model. Representativeness uncertainties
appear when the faithfulness of a mode1 to represent reality is subject to doubt, for example in
the case of climatic fluctuations or of an extrapolation beyond the range of observations.

459
As an example of analyzing representativeness uncertainty, Bernier (199 1) analyzes the
time heterogeneity of floods in the Loire River, where three extraordinary floods were
observed in 1846, 1856 and 1866, whereas no flood larger than half those values has been
observed since the 1866 event. The posterior estimate of h using the sample 1833-l 879 is
found to be
hi = -0,36, and using the sample 1980-197 1, to be h, = -0.40. A hierarchical Bayesian
analysis could be used to obtain an estimate of the design flood.
Bernier (1994a) then provides Bayes tests of change in time series SO as to be able to
detect, for example, when a climatic change may be said to have occurred. Practical methods
using conjugate families of distributions and the concept of modified residuals are developed.
Further, Bernier (1994b) uses the Bayes approach to calculate posterior failure probabilities
under changing input conditions. In particular, the reliability under non-steady hydrometeoro-
logic input is redefined as a new figure of merit (FM).

FM (v) = 1 - Prob (no failure event in v years) (25.22)


This FM clearly changes with the time window v under consideration.
Still under a non-stationary stochastic process, Krzystofowicz (1994) examines when it is
optimal to stop the process of gathering information to reduce the uncertainty and become
committed to a plan of action. As stated by the author, the “decision problem is modeled as a
finite horizon, discrete-time, continuous, non-stationary stopping control process with
Markovian forecasts of an uncertain state (and) Bayesian updating of distributions”. The de-
cision-maker’s preference function, represented by a multiattribute utility function, is
governed by Bayesian rationality principles. Krzystofowicz (1994) essentiall reaches the
proposition that, under non-steady conditions, using past data to make future decisions may
not be very useful. TO the contrary, it may lead to worse results than not using them. It is
much preferable to use forecasts even if they are far from being Perfect.
In another example of Bayesian analysis under non-stationary conditions, Kelly and
Krzystofowicz (1994) investigate the synergistic effect of a flood warning system coupled
with the construction of an upstream flood control dam. Here the dam changes both the na-
tural regime of floods and the predictability of flood flows. Within the framework of a so-
called Bayesian Processor of Forecasts, which characterizes uncertainty about flood occur-
rence and crest height, the natural regime of floods is represented as a prior distribution and
the predictability, as the likelihood function. The synergistic effect of the dam cari thus be
calculated as a forecast of the posterior distribution of flood occurrence and flood peak.
An example of fuzzy exceedance of nitrate standard in a water body is provided in Duck-
Stein and Bogardi (199 l), and the propagation of a pollutant plume in an aquifer is modeled
by both a fuzzy set analysis and fuzzy rule-based modeling in Shafike (1994) and Shafike et
al. (1993). A further example of fuzzy rule-based prediction of monthly precipitation is
provided in Ozelkan et al. (1996), while an analogous fuzzy rule-based mode1 is applied to the
prediction of the Palmer drought index by Pesti et al. (1994).
Applying the four groups of criteria to the example mentioned above, it appears that
Bayesian techniques have been used in conjunction with either single rivers or single dams.
and that calculations are quite elaborate. In fact, Kelly and Krzystofowicz (1994) provide a
new method to calculate analytically the posterior pdf given any prior, and Bernier (1994a.
1994b) develops approximate formulas for evaluating the effect to mode1 uncertainty, but. in
each case, for a single variable only, apparently.
The Bayes approach implies the rationality principles which are used explicitly in
Krzystofowicz ( 1994) and possesses a well-established mathematical foundation. Once the
prior, likelihood and loss functions have been selected, the procedure to calculate the
posterior, the Bayes risk and the value of information is set. The theory, however, is complex
and requires a high degree of mathematical sophistication.
The fuzzy approach also possesses a precise underlying theory, but it accepts, for example,
that an abject belongs to several (fuzzy) sets to varying degrees: a flood may be of moderate
and high severity at the same time - with different grades of membership. Fuzzy logic calcula-
tions are relatively simple and very fast, and orders of magnitude are faster than probabilistic
ones. For example, calculating the Palmer index involves a combination of dependent

460
variables (precipitation, soi1 moisture, temperature) (Pesti et a]., 1996), SOthat a probabilistic
description, let alone a Bayesian one, would be next to impossible to handle numerically.
The fuzzy rule-based approach deals routinely with such complex problems. Note that a
choice is offered in the method selected to combine rules and to defuzzify the results
(Bardossy and Duckstein, 1995). This flexibility is disturbing to physical scientists who are
used to physical “laws”, but remember that those are just models, which, in any case, have to
be changed as science progresses.
The question of assessing membership functions is examined, for example, in Bardossy
and Bogardi (1989), Shafike (1994) and Bardossy and Duckstein (1995). Artificial neural net-
works, which are essentially black boxes, may also be used to assess or refine membership
functions (Muster et al., 1994).
Under non-steady conditions, a mixed Bayes-fuzzy approach may be in order, combining
the advantages (and drawbacks) of both techniques. The example of fuzzy reliability presented
in Section (25.4) illustrates the concept. The characteristics of the problem may thus impose
the approach SOas to match mode1 properties. Decision-makers familiar with probability often
feel uneasy about the degrees of liberty provided by fuzzy logic and fuzzy number arithmetic.
Those not familiar with probability readily adopt fuzzy reasoning - similar to human reason-
ing.
Again, analysts may prefer the Bayes rationale to fuzzy logic, however, handling more than
one non-normal random variable leads to unwieldy computational burden, and random
variables found in extreme value anaysis are hardly ever normal!

25.7. Conclusions
Under non-stationary conditions, a Bayes analysis provides a rational approach to problems
involving a very small number of components or dimensions. Bayes techniques may be used
(1) to detect changes in non-stationary time series (2) to investigate the effect of mode1 and
representativeness uncertainty (3) to derive a stopping rule under Markovian forecasts, which
appear to be much greater value than historical data (4) to characterize the synergistic effect of
a flood warning system coupled with the construction of an upstream dam.
The fuzzy logic approach captures the imprecise way of human thinking and forecasting. It
cari be used to study complex pollution transport problems in surface or ground water as well
as the risk of exceeding imprecisely defined thresholds; modeling droughts, floods and deci-
sions may be done by a fuzzy rule-based approach.
Both techniques have the capability to combine information from various sources;
however, the fuzzy approach may have greater facility to combine non-homogeneous
information. Illustration of this point in terms of combining the fuzzy numbers that represent
opinions of several experts may be found in Bardossy et al. (1993), who observe that the
Bayes posterior preserves the probabilities (as a product does), whereas resultant fuzzy
number may preserve possibility - but not, usually, impossibility. Another major difference
between a Bayes and a fuzzy rule-based approach is that the latter uses a training set to
calibrate rules in contrast to the former, which uses data to estimate parameters (or their pdf).
Using a Bayesian approach does not appear to be as similar to the human way of thinking as
using a fuzzy one.

Acknowledgments
Partial support for preparing this paper has been provided by grants from the US National
Science Foundation, the US Army Corps of Engineers and National Institute for Global En-
vironmental Change, Great Plains Center.

461

_-_....... --
Bibliography

ANG, A.H.S. and W.M. TANG (1984) ‘Probability Concepts In Engineering Planning And
Design’. , Vol. II, J. Wiley and Sons, New York.
BARDOSSY, A. and 1. BOGARDI (1989) ‘Fuzzy Fatigue Life Prediction’. Structural Safety,
6:25-38.
BARDOSSY; A., 1. BOGARDI (1990) ‘Kriging With Imprecise (Fuzzy) Variogram’, Part 1.:
Theory; Part II: Application. Mathematical Geology, 22( 1):66-94.
BARDOSSY, A., L. DUCKSTEIN and 1. BOGARDI (1993) ‘Combination of fuzzy numbers
representing expert opinions’. Fuzzy Sets and Systems, 57: 173- 18 1.
BARDOSSY, A. (1994) ‘Estimation of extreme regional precipitation under climate change’.
In: Engineering Risk in Natural Resources Management (with special references to
hydrosystems under changes of physical or climatic environment), L. Duckstein and E.
Parent (eds), NATO AS1 Series E, Vol. 275, Kluwer, Dordrecht, The Netherlands.
BARDOSSY, A. and L. DUCKSTEIN (1995) ‘Fuzzy Rule-Based Modeling With
Applications TO Geophysical, Biological And Engineering Systems’.CRC Press, Boca
Raton, FL., p. 252
BERGER, J.O. (1985) ‘Statistical Decision Theory And Bayesian Analysis’. 2nd Edition,
Springer Verlag, NY, p. 6 17.
BERNIER, J. (1991) ‘Bayesian analysis of robustness of models in water and environmental
sciences’In: Water Resources Engineering Risk Assessment, J. Ganoulis (ed), NATO ASI
Series G, Ecological Sciences, Springer Verlag, Heidelberg.
BERNIER, J. (1994a) ‘Statistical detection of changes in geophysical series’. In: Engineering
Risk in Natural Resources Management, (with special references to hydrosystems under
changes of physical or climatic environment), L. Duckstein and E. Parent (eds), NATO ASI
Series E, Vol. 275, Kluwer, Dordrecht, The Netherlands.
BERNIER, J. (1994b) ‘Quantitative analysis of uncertainties in water resources: for predicting
the effects of changes’. In: Engineering Risk in Natural Resources Management, (with spe-
cial references to hydrosystems under changes of physical or climatic environment), L.
Duckstein and E. Parent (eds), NATO AS1 Series E, Vol. 275, Kluwer, Dordrecht, The
Netherlands.
BOGARDI, I., A. BARDOSSY, L. DUCKSTEIN (1983) ‘Regional management of an aquifei
under fuzzy environmental objective’. Water Resources, 19(8): 1396- 1402.
DAVIS, D. and W. DVORANCHIK (197 1) ‘Evaluation of the worth of additional data’. Water
Resources Bulletin, 4:700-707.
DAVIS, D.R., C.C. KISIEL and L. DUCKSTEIN (1972) ‘Bayesian decision theory applied to
design in hydrology’. Water Resources Research, 8( 1):33-42, February.
DAVIS, D.R., L. DUCKSTEIN and R. KRZYSTOFOWICZ (1979) ‘The worth of hydrologie
data for non-optimal decision making’. Water Resources Research, 15(6): 1733- 1742,
December.
DEGROOT, M.A. (1970) ‘Optimal Statistical Decision’. McGraw Hill, New York, p. 489.
DONG, W.M. and F.S. WONG (1989) ‘From uncertainty to approximate reasoning, Parts 1, 2,
3’. Civil Engineering Systems: September, 1986, December, 1986; March, 1987.
DUBOIS, D. and H. PRADE (1988) ‘Possibility Theory: an Approach to Computerized
Processing of Uncertainty’. New York, Plenum Press, p. 263.
DUBOIS, D. and H. PRADE (1993) ‘Fuzzy sets and probability: misunderstandings, bridges
and gaps’. In: Proceedings 2nd IEEE Int. Conf. Fuzzy Systems (FUZZ-IEEE’93), San
Francisco, CA.
DUBOIS, D. and H. PRADE (1994a) ‘Fuzzy sets - a convenient fiction for modeling vague-
ness and possibility’. IEEE Transactions on Fuzzy Systems, 2: 16-2 1.

-162
DUBOIS, D. and H. PRADE (1994b) ‘Basic issues on fuzzy rules and their application to
fuzzy control’. In: Fuzzy Logic and Fuzzy Control, D. Drainkov, P.W. Iklund and A.
Ralescu, (eds) Lecture Notes in Artificial Intelligence, 833, Springer-Verlag, 3-13.
DUBOIS, D., M. GRABISCH and H. PRADE (1995) ‘Gradua1 rules and the approximation of
functions’. Proceedings, 2nd Int. conf. on Fuzzy Logic and Neural Networks, Iizuka, Japan,
July 1992, pp. 629-632.
DUCKSTEIN, L., R. KRZYSTOFOWICZ and D. DAVIS (1978) ‘TO build or not to build: a
Bayesian analysis’. Journal of Hydrological Sciences, 5( 1):55-68.
DUCKSTEIN, L., E. PLATE and M. BENEDINI (1987a) ‘Water engineering reliability and
risk: a system framework’. In: Engineering Reliability and Risk in Water Resources, L.
Duckstein & E.J. Plate (eds), Martinus Nighoff, Dordrecht, The Netherlands.
DUCKSTEIN, L. B. BOBEE and 1. BOGARDI (1987b) ‘Bayesian forecasting of hydrological
variables under changing climatology’. Proceedings, International Association of Hydrolo-
gical Sciences, Vancouver, B.C., August.
DUCKSTEIN, L. and 1. BOGARDI (1991) ‘Risk and reliability with fuzzy elements in water
quantity and quality problems’. In: Water Resources Engineering Risk Assessment, J.
Ganoulis (ed), NATO AS1 Series G, Ecological Sciences, Vol. 29, Springer Verlag,
Heidelberg.
DUCKSTEIN, L., A. BELLA, E. STAKHIV and M. WATERSTONE (1996) ‘Strategic and
tactical transboundary water allocation under climate uncertainty: case of Upper Rio Grande
basin, USA’. In: J. Ganoulis, L. Duckstein, P. Literathy and 1. Bogardi (Eds.),
Transboundary Water Resources Management: Institutional and Engineering Approaches,
NATO AS1 Series, Partnership Sub-Series 21 Environment, Vol. 7, Springer-Verlag,
Heidelberg.
DUCKSTEIN, L. and E. PARENT (1994) ‘Systems engineering of natural resources under
changing physical conditions: a framework for reliability and risk’. In: Engineering Risk in
Natural Resources Management, (with special references to hydrosystems under changes of
physical or climatic environment), L. Duckstein and E. Parent (eds.), NATO AS1 Series E,
Vol. 275, Kluwer, Dordrecht, The Netherlands.
FEDRIZZI, E. and J. KAPCRZYK (eds.) (1992) ‘Fuzzy Regression Analysis’. Physica Verlag,
Heidelberg.
HIPEL, K. W. (1982) ‘Fuzzy set techniques in decision making’. IFAC Series on Theory and
Digital Control, Pergamon Press.
KANDEL, A. and W.J. BYATT (1980) ‘Fuzzy processes’. Fuzzy Sets and Systems,
4: 117-152.
KAUFMANN, A. and M.N. GUPTA (1988) ‘Fuzzy Mathematical Mode]s in Engineering and
Management Science, North Holland, Amsterdam.
KAUFMANN, A. and M.N. GUPTA (199 1) ‘Introduction TO Fuzzy Arithmetic: Theory And
Applications’. Van Nostrand Rheinhold, New York.
KELLY, K.S. and R. KRZYSZTOFOWICZ (1994) ‘Synergistic effect on dam and forecast on
flood probabilities. A Bayesian analysis’, In: Engineering Risk in Natural Resources
Management (with special references to hydrologie systems under changes of physical or
climatic environment) L. Duckstein and E. Parent (eds), NATO AS1 Series E, Vol. 275,
Kluwer, Dordrecht, The Netherlands.
KRUSE, R., J. GEBHARDT and F. KLAWONN (1994) ‘Foundations of Fuzzy Systems’. J.
Wiley & Sons, Chichester, p. 272.
KRZYSZTOFOWICZ, R. (1994) ‘Strategic decisions under non-stationary conditions: a stop-
ping control paradigm’. In: Engineering Risk in Natural Resources Management (with
special references to hydrologie systems under changes of physical or climatic
environment), Duckstein & E. Parent (eds), NATO AS1 Series E. Vol. 275, Kluwer.
Dordrecht, The Netherlands.
MUSTER, H., A. BARDOSSY and L. DUCKSTEIN (1994) ‘Adaptive neuro-fuzzy modeling
of a non-stationary hydrologie variable’. Proceedings, International Symposium on Water
Resources Planning in a Changing World, Karlsruhe, Germany, June 1994, pp. 22 l-230.
MUSY, A. and L. DUCKSTEIN (1976) ‘Bayesian approach to tile drain design’. Journal of the
Irrigation and Drainage Division, ASCE 102 (IR3):317-334, September.

463
OZELKAN, C.E., F. NI and L. DUCKSTEIN (1996) ‘Fuzzy rule-based approach for analyzing
the relationship between monthly atmospheric circulation patterns and extreme precipita-
tion’. Water Resour. Res. 32 (7) : 2097-2103, July.
PARENT, E. and L. DUCKSTEIN (eds) (1994) ‘Reliability and risk in the engineering of na-
tural resources under changing physical conditions: state of the art’. In: Engineering Risk in
Natural Resources Management, (with special references to hydrosystems under changes of
physical or climatic environment), L. Duckstein and E. Parent (eds), NATO AS1 Series E,
Vol. 275, Kluwer, Amsterdam.
PESTI, G., L. DUCKSTEIN and 1, BOGARDI ( 1994) ‘Estimation of the impacts of global
climate change on local droughts’. 1994 American Association of Geographers Meeting,
San Francisco, CA, March 29 - April 2, 1994.
PESTI, G., B.P. SHRESTHA, L. DUCKSTEIN and B. BOGARDI (1996) ‘A fuzzy rule-based
approach to drought assessment’.Water Resour. Res. 32 (6) : 1741-1747, June.
PLATE, E.J. and L. DUCKSTEIN (1988) ‘Stochastic aspects of water quality modeling for
non-point sources’. Proceedings, International Symposium on Water Quality, Logan, Utah.
RAIFFA, H. and R. SCHLAIFER (1961) ‘Applied Decision Theory’. Harvard University
Press, Cambridge, Massachusetts.
SHAFIKE, N.G., L. DUCKSTEIN and F. MADDOCK III. (1993) ‘An interpolation approach
using fuzzy regression’. American Water Resources Assoc. National Conf. Tucson, 31
August 3 1 - September 2.
SHRESTHA, B. P., K.R. REDDY and L. DUCKSTEIN (1990) ‘Fuzzy reliability in hydrau-
lits’. Proceedings, The First International Symposium on Uncertainty Modeling and Ana-
lysis, University of Maryland, College Park, December.
SHRESTHA, B.P. and L. DUCKSTEIN (1992) ‘Fuzzy reliability measures’, working paper,
Systems & Industrial Engineering. University of Arizona, Tucson, AZ.
SLOWINSKI, R. (ed.) (1993) ‘Intelligent Decision Support: Handbook of Applications and
Advances of the Rough Sets Theory’. Kluwer, Dordrecht, The Netherlands.
TECLE, A. and L. DUCKSTEIN (1991) ‘Concepts of multicriterion decision making’. In: De-
cision Support Systems in Water Resources Management, H.P. Nachtnebel and J.J.
Bogardi (eds.), Chapter 3, pp. 33-62, UNESCO Press, Paris, 1994.
WATERSTONE, M. (1994) ‘Institutional analysis and water resources management’. In: En-
gineering Risk in Natural Resources Management, (with special references to hydrosystems
under changes of physical or climatic environment), L. Duckstein and E. Parent (eds.),
NATO AS1 Series E, Vol. 275, Kluwer, Dordrecht, The Netherlands.
YEVJEVICH, V., L. DA CUNHA, E. VLACHOS (eds.) (1983) ‘Coping with Drought’. Water
Resources Publications, Littleon, Colorado.
ZADEH, L.A. (1965) ‘Fuzzy sets’. Inform Contr. 8: 338-353.
ZIMMERMANN, H.J. (1985) ‘Fuzzy Set Theory and its Application’. Martinus Nijhoff,
Dordrecht, The Netherlands, p. 363.

464
26. Non-precise information
in Bayesian inference

Reinhard Viertl
Institute for Statistics
University of Technology Vienna
1040 Wien
Austria

Abstract

Data in hydrology are often not precise real numbers but to a certain degree fuzzy.
This fuzziness is different from errors. Before analyzing data this kind of uncer-
tainty has to be described. In Bayesian inference the a-priori information is mostly
also non-precise. This cari be modelled by non-precise a-priori distributions. Both
situations are addressed in the paper.

Résumé

Les données en hydrologie ne sont pas des nombres exacts, elles sont plus ou moins
imprécises. Ces imprécisions ne sont pas des erreurs. Avant d’analyser ces données,
il faut tout d’abord les décrire. Dans l’inférence de Bayes, l’information a-priori est
la plupart du temps imprécise. Cependant il est possible de décrire l’information
a-priori par une densité imprécise a-priori. Cet article traitera ces problèmes et y
apportera des solutions.

26.1 Introduction
26.1.1 Non-precise data

Statistical data are often not real numbers but more or less non-precise. This is always the
case if results of measurements of continuous quantities are reported. This uncertainty
is different from measurement errors and also from stochastic uncertainty, it is called
imprecision. The corresponding data are called non-precise.
In error models the observed quantities are considered to be numbers y which are
biased from the “true value” Z, i.e. y = z + 6. When the observation is taken, the error E
is a real number.
Example: The observation of the quantity water level in a river is non-precise, i. e. it
is not a real number.

465
In order to obtain reasonable results of statistical inference it is necessary to describe
non-precise data. An extension of Bayesian inference to the situation of non-precise data
is possible and some aspects are explained in this paper.

26.1.2 Non-precise a-priori information

In standard Bayesian inference precise a-priori distributions are used. There are serious
critical comments on that. Moreover using non-precise data in a generalization of Bayes’
theorem yields non-precise a-posteriori distributions.
Both above arguments make it necessary to consider non-precise a-priori distri-
butions which are naturally to describe f~zzy a-priori information on parameters 13 in
stochastic models X - f(. ] 0), 6 E 0.
Mathematical models to describe non-precise a-priori information cari be given.

26.2 Description of non-precise observations


Here only one-dimensional stochastic quantities are considered. It is also possible to
describe vector-valued quantities. For details see [Viertl (1996)].
Non-precise observations are modelled by SO called non-precise numbers z*. Such
non-precise numbers are characterized by so-called charucterizing fonctions t(e).
These characterizing functions are generalizations of indicutor fonctions of sets.

26.2.1 Characterizing functions


A churucterizing fonction [(.) of a non-precise number Z* is a real function with the
following properties :

(1) t : El-, PJ1


(2) 3 x0 E IEt : ((z()) = 1
(3) Va E (OJ] th e set Bcy(x*) := {J: E IR: ((2) 2 cr} is a closed interval,
called a-& of z*.

cu-cuts are very important for calculations with non-precise data.


Remark: Non-precise numbers defined by their characterizing functions are also called
fuzzy numbers.
For statistical calculations using cu-cuts the following lemma is essential.
Lemma functions Ç( .) are uniquely
1 : Characterizing determined by the family (B,; o E
(0, 11) of their Q -cuts and the following holds

Proof: Let x0 E IR then it follows

466
and from that ~.~B~(xO) < ((~0) V cx E (0, l] and SU~ llQ-hL
cYE(O (x0> 5 cd.

For <r. = [(x0) we obtain B,, = {x: I(X) > [(x0)} = [aio, b,,] and therefore
cPl&o (zo) = cuo-1 = ((x0) = ~~(~y~IB,(z*).

26.2.2 Construction of characterizing functions


There is no general theory how to obtain the characterizing function of a non-precise
observation. But some methods exist.
Example : For the non-precise quantity water level in a river the intensity of the wetness
of the survey rod cari be used. Using the wetness w(h) as a function of the height h one cari
obtain the characterizing function of the non-precise quantity water level in the following
way: Take the derivative by dividing it by its maximal value. If the normalized function
fulfills also condition (3) o f c h aracterizing functions it cari be used as the characterizing
function of the non-precise water level value.
In case the obtained function does not fulfill condition (3), then, for some cy E (O,l],

the a-cuts B, = 8 B,,; = 8 [a cy,;;b,,;] are unions of closed intervals. Taking


i=l i=l

C, := min
i=l(l)k,
aa,; ; max
z=l(l)k,
b,,;
1 v a E (0, l]

the family (C,; cx E (O,l]) o f nested intervals are used to define the characterizing function
using lemma 1. This characterizing function is called contez hull of the function above.
Example : Biological lifetimes are important examples of non-precise data. If the end of
a lifetime is described by the degradation of a certain quantity which cari be measured
continuously, i. e. g(t) depending on the time t, this function cari be used to obtain the
characterizing function of the non-precise lifetime t*. Taking the function

and dividing it by its maximal value, this new function cari be used. If this function fulfills
condition (3) o f a characterizing function, it is used. If the situation is as in the example
above, the convex hull is used as characterizing function.

26.3 Non-precise samples


In statistics usually n observations x1,. . . ,x, of a stochastic quantity are obtained. The
a-posteriori density ~(0 1 x1,. . . , x~) is a function of x1,. . . , 2,. Here the observations
Xl,“‘, 5, are put together to a vector - = (x1,. . . , xLn) which is an element of the sample
space AP where M denotes the observation space of the stochastic quantity. Therefore
the a-posteriori density cari be considered to be a function ~(0 1 -) of the element : of
the sample space.

26.3.1 Combined non-precise sample element


For n non-precise observations XT, . . . , X: these observations have to be combined to make
a non-precise element -* of the sample space AP. This element -* is characterized by a
characterizing function t-*(e) of the non-precise vector -*.

467

-
The CIzuructerizing functions of non-precise vectors have the following properties :

(1) sg*: IR”-+ [O,11


(2) 3 -0 E Et”: [~*(~,)= 1
(3) V CI E (0, l] th e so-called o-tut B,(g*) := {- E R” : E-*(g) 2 o} is a simply
connected and compact subset of R” .

The set supp (t-k(.)) := {Z E R” : &(g) > 0} is called support of &(.).

26.3.2 Combination rules


Continuing the discussion from section 26.3.1, reasonable combination rules to obtain the
non-precise element z* from the non-precise sample ~7, . . . , X; have to be found.
Note : -* is essentially different from (XT,. . . , x:), i.e. :* is a non-precise vector in the
sample space fI4” whereas (XT, +. . , $) is a vector of non-precise elements of 1M.
The combination of the characterizing functions &(.) of x+ for i = l(l)n to a charac-
terizing function & (s, . +. , .) of a non-precise vector is obtained by a so-called combinution-
rule

The mostly used combination rule is the so-called minimum-ruie defined by

For this combination rule the o-cuts of g* are related to the cu-cuts of X: by

Ba(2JSi) = X;&&(x;) v QYE (O,l]


For other combination rules see [Keresztfalvi (1993)].

26.3.3 Functions of non-precise arguments


A classical function g : R” -+ IR cari be generalized to the situation of non-precise
argument g* in IR” in the following way : The non-precise value y* = g(-*) is defined
using the so-called extension principle of fuzzy set theory. The characterizing function
T,/I(.) of y* is given by its values

$(Y) := SUP{W : J: E IR" A g(4 = Y>

where t(e) denotes the characterizing function of the non-precise vector LZ* which is the
non-precise argument value.
Remark: For general functions g(e) it is not provided that $J(.) is a characterizing
function in the sense of section 26.2.1. For continuous functions g(.) the conditions (1) to
(3) are fulfilled. Moreover in this case the cr-cuts of y* are given by

The proof is given in [Viertl (1996)].

468
26.3.4 Non-precise functions
Non-precise functions g*(.) are mappings which assign to every element II: E A4 a non-
precise number y: = g*(x). They are given by the family

(M.); x E M)

of non-precise numbers y: with characterizing function &(.).


For graphical presentations of non-precise functions the description of so-called cy-
levez czLTves is valuable. These a-level curves are defined as follows :
For o! E (0: l] consider the c-u-cuts

&(YZ) = [ L(X), g,(x) ] for every x E hf.

Then two classical functions g,(x) and 9,( z ) are ohtained for variable Z. The graphs
of these functions are called a-Zevel curves of the non-precise function g*(.).

26.4 Bayesian inference for non-precise samples


In this chapter a parametric stochastic mode1 X N f(. ] 0), 0 E 0 is assumed. The
observation space of X is denoted by Mx and the sample space for n observations of X
is the Cartesian product Mg = Mx x . . . x Mx.

26.4.1 Bayes’ theorem for non-precise data


Consider a continuous stochastic mode1 X - f(. ] Q), 0 E 0, a continuous parameter
space 0, and an a-priori density T(G) of the parameter. TO obtain the a-posteriori density
4 I 21,. . . > x,), Bayes’ theorem for precise data x1, . . . , Z, has the form

where 1(. ; x1,. . . , xn) is the likelihood function.


In the most simple situation of complete data the likelihood function is given by

1(6;Xl). . . , x,) = fi.f(si I e> v BE@.


i=l

Remark : Using the abbreviation - = (xi,. . . , x,), Bayes’ theorem cari be stated in the
form

7rp ) g) cc 7(B). qe;czz> v 6EO,


where c( stands for “proportional“ since the right hand of the formula is a non-normalized
function which is - after normalization - a density on the parameter space 0.
For non-precise data D” = (XT, . . . , xn) with corresponding characterizing functions
II (.>; . . . >bd.> th e non-precise combined sample element c* with characterizing function
IL ’ . . ,.>,

469
is the basis for the generalization of Bayes’ theorem to the situation of non-precise data
proposed in the following.
For a11 - E supp([(., . . . , .)) the value ~(0 1:) of th e a-posteriori density ‘ir(. 1 :) is
calculated using Bayes’ theorem for precise data.
TO every 0 by variation of 7 in the support of the non-precise combined sample
element g* a family

of values is obtained. The characterizing function $e(.) of this non-precise value is obtai-
ned via the characterizing function [(., * . . , .) of the non-precise combined sample element
by its values

where the supremum has to be taken over the sample space 44;.
Definition : The family (I/I~(.), 0 E 0) o f non-precise values of the a-posteriori density is
describing the imprecision of the observations I~F, i = 1,. . . , n and is called non-precise
a,-posteriori density 7r*(. ) Il”), i.e.

7r*(. 1 Il”) := (y’&); l9 E 0) .

A graphical representation of the non-precise a-posteriori density is the drawing of


so-called cr-level curves. These cu-level curues are the curves which connect the ends of
the cu-cuts of 40(e) as functions of 8.
An example of a non-precise a-posteriori density is given in figure 26.1.

0.0 8
0.0 1.2 2.4 3.6 4.8 6.0 7.2 8.4 9.6

Fig. 26.1: Non-precise a-posteriori density

470
Remark : The non-precise a-posteriori density cari be used for estimations and decisions.
This Will be explained in the following sections.

26.4.2 Bayesian confidence regions


In this section a stochastic mode1 X - f(. 10); 8 E 0 with an a-priori distribution r(.)
for the parameter 19is used. The stochastic quantity describing the uncertainty about the
parameter 0 is denoted by e”.
Generalizing the concept of confidence regions for non-precise data and non-precise
a-posteriori distributions, non-precise Bayesian confidence regions cari be constructed.
For precise data D = - = (x1, . . . , z~) and precise a-posteriori density 7r(. 1 -) a
Bayesian confidence region. O,, for 0 with confidence level 1 - 5 is defined by

h(.1z){~
EO,}
=s 00
n(B ) LT) d0 = 1 - S. (26.1)

In the case of non-precise data D” = (CE;,. . . , CC~)generalized confidence regions for


0 cari be constructed using the non-precise combined sample element ç”.
Definition : Let l(.;..,+)
be th e ch aracterizing function of the non-precise combined
sample element g*. Then for every - E .supp(f(.)) and 1 - S a Bayesian confidence region
OC is calculated using equation (26.1). Th e g eneralized non-precise Bayesian confidence
region for 19with confidence level 1 - S is the f~zzy subset 0” of 0 whose characterizing
function 4(s) is given by :

Remark : Generalized Bayesian confidence regions are reasonable generalizations by the


following inequality

This means that $(.) d ominates the indicator funktions of a11 classical Bayesian
confidence regions O- with t(z) = 1.
Highest a-posteriori density regions, abbreviated by HPD-regions, for t#he parameter
8 of a stochastic mode1 X N f(. ) O), 8 E 0 with continuous parameter 0 and precise data
D = s = (51,. ‘. , CC~)are defined using the a-posteriori density n(. 1 g). Generalizations
to the situation of non-precise observations are possible. For details see [Viertl and Hule
(1991)] or the monograph [Viertl (1996)].

26.4.3 Predictive distributions


Information on future values of stochastic quantities X, with observation space A4x and
parametric stochastic mode1 f(. 1 O), 0 E 0, is provided by the predictive density.
In the case of precise data z = (~1, . . . , CC~)and corresponding a-posteriori density
7r(. ( CE)for the parameter 8, the predictive density g(. ( -) for X conditional on data gis
the conditional density of X, i.e.

471
For non-precise data II* = (CI$. . . , z$) the non-precise combined sample element
g* with characterizing function [(., . . , .) is used for the generalization of the concept of
predictive densities. This generalization is defined by a family of non-precise values for
the predictive density.
Definition : For fixed J: E Mx the vector - is varying in SUJI~([(.. . . , .)) and the
characterizing function GZ(.) of th e non-precise value of the predictive density is given
by :

~L(Y) = SUP {t(z) : z E MI, s(J: I z> = Y> Y II: E Mx,


where y(. ) :) is th e value of the classical predictive density based on precise data - and
the supremum is to be taken over the set SZLJIJI([(., ... , .)). The family (QJ~(.), J: E Mx)
of non-precise values of the predictive density is called non-precise predictive density

9*(. / o*> = (TU); J: E Mx).


Remark : A graphicalrepresentation of non-precise predictive densities cari be given
using cr-level curves which are described in section 26.3.4. An example of a non-precise
predictive density is given in figure 26.2.

0.20

0.15

0.10

0.05

0.00 I / I I I I I I I I I I I I
0 2 4 6 8 10 12 14

Fig. 26.2 : Non-precise predictive density

For precise data - = (CC~,. . . , CC~)with [;(.) = IjII)(.) t,he resulting characterizing
functions are $J~(.) = If,(+))(.). Th erefore the concept is a reasonable generalization of
t,he classical predictive density.

26.5 Non-precise a-priori distributions


Using precise a-priori distributions for parameters 0 in stochastic models X - FS, 8 E 0
is a topic of critical discussions. Allowing a more general formulation of a-priori knowledge:
general agreement could arise on reasonable use of a-priori information on parameters.

472

- .--
Looking at the result in section 26.4.1, non-precise a-priori distributions in form of
non-precise densities n*(.) cari be used in natural way. These non-precise densities are
given by the family (T*(O), 0 E 0) of fuzzy values of the density with characterizing
functions vo(+) i.e.,

‘rr*(g = (n*(s); e E 0) A (p&); 8 E 0).

This formulation is also necessary to describe the sequential information gaining


process which is obtained by gathering additional data.. Therefore the modelling from
section 26.4.1 has to be generalized.
Let XT,. . . , XL be n non-precise observations with corresponding characterizing func-
tions [i(e), . . . ,tn(.) and ‘Or* a non-precise a-priori distribution with non-precise values
.rr*( S) and corresponding characterizing functions y~( .). Then the imprecision of the a-
priori distribution has to be combined with the imprecision of the non-precise combined
sample element g* with characterizing function [(., . . . , .).
This combination and the generalization must yield a non-precise a-posteriori dis-
tribution for 8.
In the case of non-precise a-priori distributions formed by non-precise hyperpara-
meters of the a-priori distribution the analysis is relatively simple. This is explained in
[Frühwirth-Schnatter (1993)] and the monograph [Viertl (1996)].

26.5.1 Non-precise hyperparameters


In many situations the imprecision of an a-priori distribution cari be expressed by the im-
precision of a parameter of the a-priori distribution. This is especially valid for conjugate
families of distributions.
Let 7r(.) be th e a-priori distribution for the parameter 8 of the stochastic mode1

x - f(- 1 q, 8 E 0.

In this section it is assumed that r(a) is determined by a so-called hyperparumeter


A, i.e.

r(.> = r(. 1X), x E A .


The imprecision of the a-priori distribution cari be modelled by an imprecision of A,
i.e. A” is a non-precise element of A with characterizing function x(.).
In order to describe the non-precise a-posteriori density the non-normalized a-
posteriori densities

for precise data : = (xi, . . . , x~) are helpful.


The functions gn(. ] A,-)z are related to classical Bayes’ theorem by

473
For non-precise hyperparameter A” of the a-priori distribution the non-precise a-
priori distribution r*(. ) A*) 1s
’ g iven by its a-level curves G(.) and ?c~(.) in the following
WaY
7r,(O) = min
XEBcl(A*) r(8 ’ x)

and

Ta(S) = max
%&I(X”)

The a-level curves 9,,,(e) and g,,O( .) of th e g eneralized non-normaiized a-posteriori


density

for non-precise a-priori hyperparameter A* and precise data

z= (%...,GJ
are given by their values

and

With the above notations Bayes’ theorem for non-precise hyperparameters cari be
written also in sequential form :

s,,,(e) = 9,-l,,(~) * .fb I 0)

and

26.5.2 Conjugate families of distributions


In the case of conjugate families of distributions the stochastic mode1

x Tv .f(. ( e>, 0 E 0

and the a-priori family

(.R(*1A), x E h) = P
are related such that for every a-priori distribution from P and a11 possible exact data
-z = (Xl,..., zn) the a-posteriori distribution r(. 1 A,-) belongs to P,

474
i.e. r(. 1 X,x) = r(. ( A,) with A, E A and A, = S(A,:) for a function s(., .). Here X
denotes the hyperparameter of the a-priori distribution.

Example : For a stochastic quantity X with exponential distribution having density

a conjugate family of a-priori distributions is the family of gamma distributions with


hyperparameter(vector) A = (Y, ,B) and densities

Y v ‘e-v(,,,)(e).
48 l v, P>= -lijp-
For non-precise subparameter p* the a-level curves -,(a) and ~~ (e) of the non-precise
a-priori density 7r(. 1 Y, ,/3*) are given, using the notations

&(B*) for f35 G@,(P*),~a(P*))l


Prnin(q
=
{ Bcy(P*)for 0 > ~/[b(B,(P*),R(P*))l
with

b(B,(B*),Ba(P*))
=[R(P*)
-LLm]
ln-z
and

B,(P*) for0 < u/[B,(P*)I


Pmazl~)
= V/O for u/[E(P*)] 5.0 5 ~I[LL#*)1
1 B,(P*) for 0 > ~IEL(p*)I
by the following equations

This generalized a-priori distribution is called non-precise gamma distribution.


For precise data - = (x1, . . . , xçn) the cu-level curves of the non-normalized non-
x are given by the following equations :
precise a-posteriori density gn(. ) V, p*, -)
Now consider non-precise data xÇZ,. . . , XE with non-precise combined sample element
g* and a-eut representation

Then the cy-tut representation of the non-precise hyperparameter A: is given by

(26.2)

where Xg denotes the non-precise hyperparameter of the a-priori distribution.


If the function s(., .) is continuous in both variables and X E IF& then the right side
of equation (26.2) simplifies to an interval :

Using the above notations the following theorem holds.


Theorem: Let An be the non-precise hyperparameter of the a-posteriori density whose
o-cuts are given by equation (26.2). Then the o-level curves of

7r* (. I (3 4*>

from section 26.5.1 are given by

and

for a11 19E 0 and a11 Q E (0, 11.


Proof: From the corresponding equation in section 26.5.1 we obtain for the lower a-level
curve of the a-posteriori density

476
In analogous way the second equation is proved.

Example : We continue the example above where exponential distributions are used as
stochastic mode1 and gamma distributions as conjugate family of a-priori distributions.
For precise data - = ( zi, . . . , z,) we obtain

c 1
~CI + n
Al = S(AO,:) =
PO + 2Xi

i=l
In case of non-precise a-priori hyperparameter & characterized by its cu-tut repre-
sentation

the a-cuts of the non-precise a-posteriori hyperparameter /3: are given by

UP;) = min
min
00EBa(BO”)gcB,(g*)

If the minimum combination-rule is used, then the last expression simplyfies to

where a(.)
UP3 = B,(Bo*)
[
+ f&x:),
i=l
B,(& + cR,(x:) )
and B,(.) d enote the lower and Upper ends of the one-dimensional
i=l
cr-tut of
1
/?i and XT respectively.
The non-precise a-posteriori hyperparameter Xz generates a non-precise gamma dis-
tribution.

26.6 Conclusion
In applications real data are often not precise but more or less non-precise. It is necessary
to describe this kind of uncertainty before analysing that kind of data. This is possible and
cari be done using the concept of non-precise numbers and non-precise wectors. Statistical
and especially Bayesian inference methods are generalized to the situation of non-precise
data in the paper.
Moreover in Bayesian inference a-priori information is sometimes not a unique pro-
bability distribution but often fuzzy. Therefore it is necessary to mode1 this kind of
non-precise a-priori information and to generalize Bayesian inference to this situation.
Also a concept for using non-precise a-priori information as well as non-precise data is
given, which makes the Bayesian analysis of general data and fuzzy a-priori information
possible.

477

~-
Bibliography

BERN~ER, J. (1996) ‘1n f ormation, Models, Risks and Statistical Hydrology’, in this vo-
lume.
FRÜHWIRTH-SCHNATTER, S. (1993) ‘On fuzzy Bayesian inference’, Fuzzy Sets and Sy-
stems, Vol. 60.
KERESZTFALVI, T. (1993) ‘Op erations on Fuzzy Numbers Extended by Yager’s Family
of t-Norms’, in: H. Bandemer (Ed.): Modelling Uncertain Data, Akademie Verlag,
Berlin.
VIERTL, R., HULE, H. (1991) ‘On Bayes’ theorem for fuzzy data’, Statistical Papers,
Vol. 32.
VIERTL R. (1996) Statistical Methods for Non-Precise Data, CRC Press, Boca Raton,
Florida.

478
27. Régionalisation floue des débits de crue
à l’aide de la méthode ISODATA

V. Fortinl, B. Bobéel, Z. Bargaouiz et L. DucksteinJ


‘Chaire CRSNG/Hydro-Québec en Hydrologie Statistique
INRS-Eau, Sainte-Foy (Québec) CANADA Gl V 4C7
2École Nationale d’ingénieurs de Tunis
BP 37, Le Belvédère, Tunis TUNISIE
3Systems Engineering Department
University of Arizona, Tucson (Arizona) USA 8572 1
Abstract

It is often needed to improve the estimation of a design flood xr of return period r, using
information available at sites belonging to the same hydrological region, but often difficult to
determine precisely the boundaries of homogeneousregions. Fuzzy sets theory deals with this
problem, allowing a site to belong partially to a region. Many clustering methods based on this
theory have been developed, including ISODATA. Applied to flood data from Québec and
Ontario (Canada), it identifies fùzzy clusters which were difficult to discern visually. Still, it is
diffkult to use this information in a regional estimation method becauseof the practical meaning
of partial membership is unclear. Neverthelesswe consider a fuzzy regional estimation method.
However, for the example considered,the bias of ISODATA for the estimation of XIO, measured
by vectorial Bootstrap, is higher than for the region of influence method, whereas variante is
similar. The method seems therefore more interesitng for the identification of homogeneous
regions than for regional estimation.

Résumé

S’il est souvent nécessaired’améliorer l’estimation du débit XTde période de retour T en utilisant
l’information disponible à des sites situés dans une même région hydrologique, il est en général
difficile de déterminer précisément les limites des régions homogènes.La théorie des sous-
ensemblesflous répond précisémentà ce type de problème, en permettant à un site d’appartenir
de façon partielle à une région. Plusieurs méthodesd’aggrégation ont d’ailleurs été développées
dans le cadre de cette théorie, dont la méthodeISODATA. Appliquée à des donnéesdu Québecet
de l’Ontario (Canada), elle permet de mettre en évidence des structures difficiles à percevoir
visuellement. Par contre, il s’avère difficile d’utiliser cette information dans une procédure
d’estimation régionale à cause de la difficulté d’interprétation du concept d’appartenancefloue.
Nous considérons tout de même une méthode d’estimation régionale floue. Cependant, pour
l’exemple considéré, le biais de ISODATA pour l’estimation de xIo, mesuré par Bootstrap
vectoriel, s’avère plus important que pour la méthode de la région d’intluence, alors que la
variante de l’estimation est semblable. La méthode semble donc plus intéressante pour la
détermination de régions homogènesque pour l’estimation régionale.

479
27.1. Introduction
Le débit xr de période de retour T d’une rivière doit souvent être estimé à l’aide d’un nombre
réduit d’observations du débit au site, voire aucune observation. Dans ce cas, on utilise
généralement une approche régionale, consistant à incorporer l’information disponible à des
sites hydrologiquement semblables pour améliorer l’estimation locale de xr. L’estimation
régionale comprend deux étapes :

. la détermination de régions homogènes (D&?Z) qui consiste à déterminer, pour un site


cible où l’on veut effectuer l’estimation de xr, l’ensemble des stations qui lui sont
hydrologiquement semblables (formant une région homogène);
. l’application d’une méthode d’estimation régionale (MER) qui consiste à utiliser
l’information des stations de la région homogène pour effectuer l’estimation au site cible.

Au cours des dix dernières années, plusieurs nouvelles techniques de DRH ont été
proposées, rendant le choix d’une technique de DM plus difficile. Si les différentes techniques
de DRH peuvent être comparées de façon empirique, pour une même MER, à l’aide de
simulations par Bootstrap vectoriel (Rasmussen et al. 1994) il est plus ardu de les comparer
d’un point de vue théorique, car elles n’ont pas été développées à l’intérieur d’un même cadre
conceptuel.
Fortin et al. (1995) ont cependant montré que la théorie des sous-ensembles flous (Zadeh
1965, Kaufmann 1973) constitue un cadre conceptuel suffisamment complet pour permettre
l’interprétation d’un ensemble de techniques de DM, et que, de plus, la formalisation en terme
de sous-ensembles flous donne accès à un grand nombre de techniques de classification et
d’agrégation développées spécialement pour les sous-ensembles flous (Kaufmann 1975,
Bezdek 1981), et dont les propriétés théoriques sont mieux connues. Rappelons que la théorie
des sous-ensembles flous est basée sur le concept d’appartenance partielle d’un élément x à un
sous-ensemble A d’un référentiel. C’est une généralisation de la théorie des ensembles
classique obtenue en permettant à la fonction caractéristique P~@C)(aussi nommée fonction
d’appartenance) d’un sous-ensemble A de prendre des valeurs continues entre 0 et 1.
Dans cet article, nous appliquerons au problème de la détermination de régions
homogènes une technique d’agrégation floue, ISODATA (Bezdek 1981). Après avoir donné
un bref aperçu des techniques de DRH actuellement utilisées nous introduirons la méthode
ISODATA. Cette méthode sera ensuite appliquée à la détermination de régions homogènes et
à l’estimation régionale des débits de crue pour le Québec et l’Ontario. Nous comparerons
enfin par Bootstrap vectoriel la précision des estimations régionales obtenues à l’aide de
ISODATA avec les estimations obtenues en appliquant la méthode de la région d’influente
(Burn 1990).

27.2. Aperçu des techniques de DRH


Lors des premières études de régionalisation des débits de crue, on tentait de regrouper en
zones homogènes des stations géographiquement voisines (NERC 1975). Plusieurs études
ayant montré que dans bien des cas de telles régions étaient peu homogènes d’un point de vue
hydrologique (Stevens et Lynn 1978, Wiltshire 1986a), cette façon de procéder a été
remplacée par une classification dans l’espace des caractéristiques physiographiques ou
hydrologiques des bassins versants (Wiltshire 1986b). Burn (1988) a ensuite proposé
l’utilisation de l’analyse en composantes principales pour identifier les principaux facteurs de
regroupement des stations et réduire ainsi le nombre de variables effectives. Ces techniques de
classification ont cependant le désavantage de permettre des estimations régionales de XT très
différentes pour des stations voisines situées de part et d’autre de la limite séparant deux

480

_ _.- Y- ---- ~-..


régions homogènes. C’est pourquoi Acreman et Wiltshire (1989) ont proposé de permettre à
un site d’appartenir de façon partielle à une région. Ainsi, plusieurs régions homogènes
peuvent contribuer à l’estimation de xr selon la force du lien d’appartenance d’une station aux
différentes régions. Burn (1990) a étendu cette idée en développant le concept de région
d’influente : chaque site cible peut posséder sa propre région homogène, et le degré
d’appartenance d’un site à cette région d’influente est déterminé par une mesure de distance
(dans un espace de caractéristiques hydrologiques et physiographiques) entre ce site et le site
cible.
On peut noter que sans utiliser explicitement la théorie des sous-ensembles flous,
Acreman et Wiltshire ainsi que Burn utilisaient déjà des concepts clés de la théorie des sous-
ensembles flous. La formalisation des techniques de DRH à l’aide de la théorie des sous-
ensembles flous (Fortin et al. 1995) permet d’utiliser des techniques d’agrégation et de
classification éprouvées en reconnaissance de formes. L’une de ces techniques, la méthode
ISODATA (Bezdek 1981), est employée dans ce travail. Plusieurs autres approches floues
pourraient aussi être utilisées pour estimer xr. Mentionnons simplement les méthodes
d’agrégation hiérarchique et par cohérence (Kaufmann 1975) et la modélisation à base de
règles floues (Bardossy et Duckstein 1995).

27.3. Méthode ISODATA


La procédure ISODATA (Bezdek 1981) est une généralisation de la méthode des centres
mobiles (Duda et Hart 1973). Soit un ensemble S de n stations sk (k = 1, 2,. . ., n) à classer en c
sous-ensembles flous Rj (j = 1, 2,. .., c), chaque station étant représentée par un vecteur de r
caractéristiques. Par exemple, sk(i) donne la caractéristique i de la station k. Soit encore ,bjk la
fonction d’appartenance de la station sk au sous-ensemble flou Ri. On impose la contrainte
(27.1) sur &k, signifiant que la somme des fonctions d’appartenance d’une site sk à chaque
région Rj doit être égale à 1. C’est la généralisation de la contrainte imposée lors de la partition
en sous-ensembles usuels (non flous) qui permet de s’assurer que chaque élément est placé
dans un et un seul sous-ensemble.

(27.1)
j=l

Soit enfin djk la distance de la station sk au centre de gravité du sous-ensemble flou Ri,
noté Vi. Le centre de gravité est, comme sk, un vecteur de r caractéristiques : Vj(i) donne la
caractéristique i du centre de gravité j. La distance peut par exemple être une distance
euclidienne pondérée, telle que donnée par l’équation (27.2) mais ce n’est pas nécessaire.

djk = ’ $wi(sk - V;)2 (27.2)


?-j=l
L’application de la procédure ISODATA consiste alors à minimiser la fonction
représentée par l’équation (27.3) la position des centres de gravité se calculant à l’aide de
l’équation (27.4):

J,CS)= f: cp$djk
(27.3)
j= lk=l

481
(27.4)
k=l / k=l

On remarque que la fonction J,(S) dépend d’un paramètre m (>l), dont la valeur est
usuellement fixée à 2. L’équation (27.3) peut être minimisée aisément de façon itérative. On
choisit d’abord des valeurs de départ pour les centres de gravité et l’on calcule J,(S). Ensuite,
on recalcule alternativement la position des centres de gravité et J,(S) jusqu’à ce que ces
fonctions convergent (Bezdek 1981). Cependant, il y a souvent plusieurs mimima locaux, ce
qui implique qu’il faut exécuter l’algorithme avec plusieurs ensembles de valeurs de départ et
choisir le minimum local correspondant à la plus faible valeur de J,,(S).
L’emploi de la procédure ISODATA nécessite l’identification a priori du nombre c de
sous-ensembles flous (21cIn). Cependant, différents critères basés sur des mesures d’entropie
existent pour sélectionner c. Nous utiliserons le critère de l’entropie normalisée (Dunn 1977).
Définissons d’abord l’entropie H(S,c) de la partition obtenue par la méthode ISODATA :

(27.5)

Lorsque ,M.k= 0, on posera pjk lOg(,Ujk) = 0, qui correspond à la limite lorsque /Jjk tend
vers zéro. H(S,c) est une mesure du flou de la partition qui atteint son minimum (zéro) pour
c = ~1.Dunn (1977) propose de normaliser cette mesure d’entropie en la divisant par la valeur
moyenne de l’entropie de la partition à l’aide de ISODATA d’un nuage de points distribué de
façon aléatoire, et de choisir comme nombre de sous-ensembles la valeur c* minimisant cette
entropie normalisée. Dunn a établi empiriquement que l’entropie moyenne Ho(c) de la
partition en c sous-ensembles flous d’un nuage de y1 points distribués aléatoirement était
approximativement Ho(c) = 1-cln. Selon ce critère, le nombre optimal de sous-ensembles
flous (c*) est donc obtenu en minimisant l’entropie normalisée (H*), donnée par:

H*(i$c)=-= H(S,c) H(&c) (27.6)


Ho@> 1-cln
Parce que l’entropie normalisée repose sur une approximation, il est en pratique utile
pour déterminer c * d’observer aussi la forme de la courbe H(S,c), en plus d’appliquer le
critère de l’entropie normalisée minimale.

27.4. Détermination des régions homogènes à l’aide de ISODATA


Nous avons appliqué ISODATA à l’ensemble des séries de débits maxima printaniers de plus
de 20 observations dans la région Québec-Ontario. Nous disposons dans cette région de 179
stations en rivière dont le débit n’est pas contrôlé. Pour simplifier la représentation graphique,
nous avons choisi d’étudier un espace de 2 caractéristiques hydrologiques, le débit spécifique
(QS) et le coefficient de variation (CV). La figure (27.1) montre l’espace occupé dans ce
diagramme par les stations. A priori, il est difficile d’identifier sur cette figure des régions
homogènes.

482
+
+

+. ++
+ $
+ + ++ ++-tt +
*++++8, + = ++ +
+ + + ++ ++$-. ++ + +

++ + + ++4+ + ++ +

++++ +Tf +$ 4+t +


ii@ +
++
!ijzW -j+~ L+--$ + +
0 I I + ,+ 4
071 02 O,3 O,4 03 O>h 077 03
Coefficient de variation (CV)

Fig. 27.1. : Répartition des stations de la région Québec-Ontario dans le diagramme QS-CV

Pour appliquer ISODATA, nous avons utilisé une distance euclidienne pondérée par
l’inverse de l’écart entre les valeurs maximales et minimales observées pour chaque
caractéristique, ce qui revient à choisir les unités de mesure de façon à ce que le plus petit
rectangle englobant tous les points soit un carré. Si, comme c’est le cas ici, il n’y a pas de
valeurs singulières, cela revient à accorder une importance égale à chaque caractéristique. Le
paramètre m a été fixé à 2 et le nombre de sous-ensembles c a été déterminé en minimisant
l’entropie normalisée H*(S, c). Pour chaque valeur de c, l’algorithme ISODATA a été appliqué
pour 100 ensembles de points de départs choisis au hasard, et la partition ayant l’entropie la
plus faible a été sélectionnée, de façon à éliminer l’effet des minima locaux.

04 I 1 I I I I
2 3 4 5 6 7 8 9 10 11 12 13
nombre de sous-ensembles (c)
Fig. 27.2. : Entropie et entropie normalisée des partitions obtenues à l’aide de ISODATA

Les mesures d’entropie et d’entropie normalisée minimales obtenues pour plusieurs


valeurs de c sont représentées à la figure (27.2). On remarque que l’entropie de même que
l’entropie normalisée sont minimales pour c = 2 sous-ensembles. La partition obtenue pour 2
sous-ensembles est représentée à la figure (27.3). En observant cette figure, on remarque que

483
l’algorithme ISODATA a fait ressortir une structure qui était auparavant peu visible. On
observe maintenant assez facilement une zone moins dense séparant les noyaux des deux sous-
ensembles. Cependant, il serait difficile de déterminer précisément où se situe la limite entre les
deux régions, de sortes que l’utilisation de sous-ensembles flous paraît logique. Par contre,
puisque les structures ne sont pas bien définies, il est raisonnable de croire que la méthode de la
région d’influente, qui ne considère qu’une seule région centrée sur le site d’intérêt, donnera
également de bons résultats dans ce cas. Nous comparerons dans la prochaine section les
résultats obtenus pour l’estimation régionale à l’aide de la méthode ISODATA et à l’aide de la
méthode de la région d’influente.

0,5
n p1>0,75
0,4 + 0,5<lko,75
g X 0,5<~2<0,75

s
s 093 El Cl p2>0,75 1
'G q X
-ii 0,2 X X
g Cl q cl X
n
X

I
071
xx

0 i I
0,3 0,4 075 076
Coefficient de variation (CV)

Fig. 27.3.: Partition en deux sous-ensemblesJous des stations de la région Québec-Ontario

27 S. Estimation régionale de q-à l’aide de ISODATA


La procédure ISODATA permet d’obtenir une partition floue. Pour estimer à partir de cette
partition xr(k), la valeur de xr au site cible sk, il faut combiner les ensembles flous obtenus. On
peut considérer plusieurs approches, la plus simple étant probablement celle proposée par
Acreman et Wiltshire (1989). Pour chaque région Rj (j = 1, 2,..., c) :

. on estime une courbe régionale adimensionnelle q(7) en pondérant lors de l’application


de la MER chaque station par son appartenance à la région Rj;
. ensuite, pour estimer q(k) au site cible sk, on effectue une moyenne des estimations des
q(Y), pondérée par l’appartenance du site cible à chaque région, et l’on multiplie le
résultat obtenu par la moyenne X des débits observée au site cible.

Cette façon de procéder est représentée par l’équation (27.7).

(27.7)

484

---
Il vaut la peine de noter que cette méthode interprète le degré d’appartenance d’un site à
une région comme la mesure du poids qu’il faut donner à chaque région dans le calcul de XT.
Bien que les tenants de la théorie des sous-ensembles flous tiennent à expliquer qu’un degré
d’appartenance n’est pas une probabilité (Bardossy et Duckstein 1995), dans les faits
l’interprétation pratique que l’on en fait est souvent, comme dans ce cas, très près d’une
probabilité subjective. Ceci soulève évidemment de sérieuses questions sur les fondements
mêmes de la théorie des sous-ensembles flous (Bernier 1994). Cette polémique dépasse
cependant largement le cadre de cet article.

27.6. Comparaison de la méthode ISODATA et de la méthode de la région


d’influente par Bootstrap vectoriel
Dans un but de comparaison, nous avons appliqué aux données de la région Québec-
Ontario la méthode d’estimation régionale floue développée à la section précédente ainsi que la
méthode de la région d’influente (Burn 1990) en utilisant comme modèle la distribution
généralisée des valeurs extrêmes (GEV), les paramètres étant estimés par la méthode des
moments pondérés @ ‘KV). Cet algorithme est expliqué en détail par Burn (1990).
Pour effectuer une comparaison signifiante, nous avons choisi une méthode de simulation
basée sur les données et non sur un modèle paramétrique, évitant ainsi les biais introduits par la
simulation paramétrique (Fortin et al. 1996). La simulation par Bootstrap, proposée par Efron
(1979), est une approche non paramétrique permettant de simuler des observations à partir
d’un échantillon de référence. Cette technique consiste simplement à tirer avec remise autant
d’observations que nécessaire dans l’échantillon de référence. On peut ainsi obtenir un
échantillon simulé de même taille que l’échantillon de référence. Dans notre cas, nous
voudrions pouvoir obtenir un ensemble de base de données simulées à partir de la base de
donnée de référence, de façon à pouvoir mesurer statistiquement la performance des
estimations de xr.
Il serait possible de simuler indépendamment par Bootstrap des séries à partir de chaque
échantillon de référence contenu dans la base de données, mais on perdrait alors la structure de
dépendance entre les débits observés une même année à différentes stations. Pour conserver
cette structure, nous appliquerons le Bootstrap vectoriel (Rasmussen et al. 1994) qui consiste
plutôt à tirer au hasard un ensemble d’années parmi l’ensemble de référence des années pour
lesquelles au moins une station de mesure du débit était en fonction. Comme à chaque année
correspond un vecteur d’observations, on obtient alors une base de données simulée
conservant la structure de dépendance entre les stations. Il aurait aussi été possible d’envisager
un tirage de Polya vectoriel (Bernier 1996, Fortin et al. 1996).
La difficulté rencontrée en appliquant cette méthode est que, pour la presque totalité des
stations, les observations disponibles correspondent aux dernières années d’observation; les
observations disponibles ne sont pas uniformément distribuées sur l’ensemble des années de
mesure. En particulier, comme nous n’avons considéré que les séries de plus de 20 années de
données, pour un grand nombre de stations nous ne disposons que de 20 mesures
correspondant aux 20 dernières années. Par conséquent, en tirant des vecteurs d’observations
uniformément dans l’espace des années disponibles, nous obtiendrons dans la base de données
simulée un nombre important de séries de moins de 20 observations. Pour éviter cette
situation, sachant qu’il existe 76 années pour lesquelles nous possédons des données, nous
avons choisi d’appliquer le Bootstrap vectoriel en 2 étapes : nous tirons d’abord 20 vecteurs
d’observations parmi les 20 dernières années, et ensuite 56 vecteurs d’observations parmi les
56 premières années. Ceci permet de s’assurer que chaque série simulée aura au moins 20
observations.
Nous avons choisi de mesurer la qualité de l’estimation de xr pour une période de retour
assez faible, T = 10 ans, de façon à pouvoir non seulement mesurer la variante des estimations

485
mais aussi leur biais, en comparant à la valeur de xr déduite empiriquement à l’aide de la
formule de probabilité empirique de Cunnane (1978), donnée par l’équation (27.8), où x(k)
représente l’observation de rang k dans l’échantillon trié en ordre croissant.

(27.8)

Nous avons considéré deux niveaux d’information au site : 15 ans et 30 ans de données.
Après avoir simulé 100 bases de données par Bootstrap vectoriel, nous avons considéré tour à
tour chaque station comme site cible, tronqué toutes les observations sauf les 15 dernières
d’abord et sauf les 30 dernières ensuite, et estimé xr à l’aide de la méthode ISODATA et de la
méthode de la région d’influente pour chaque niveau d’information, pour chaque station et
pour chaque base de données simulée. Nous avons ensuite mesuré le biais relatif et le
coefficient de variation (Cv) des estimations de xr pour chaque méthode. Le tableau (27.1)
présente les résultats de cette simulation.

Tableau27.1. Qualité de l’estimation de xl0 mesuréepar simulation Bootstrapvectoriel


Méthode 15 observations au site 30 observations au site
Biais relatif CV Biais relatif CV
ISODATA 0,12 0,017 0,09 0,014
Région d’influente 0,07 0,016 0,06 0,014

On remarque que le coefficient de variation des deux méthodes est très semblable, mais
que le biais de la méthode ISODATA est supérieur au biais de la méthode de la région
d’influente. Par conséquent, dans ce cas il est probablement préférable d’utiliser la méthode de
la région d’influente. On remarque aussi que l’augmentation du nombre d’observations au site
diminue substantiellement le biais relatif, mais touche très peu le coefficient de variation. On
peut constater aussi que le biais relatif de la méthode ISODATA diminue de façon plus
importante que celui de la méthode de la région d’influente avec un accroissement de
l’information disponible. Comme il s’agit d’une première expérience, il est difficile d’interpréter
ces tendances. Des simulations pour d’autres périodes de retour et d’autres bases de données
seront nécessaires avant de conclure.
La force de la méthode de la région d’influente s’explique peut-être par la division plutôt
floue observée entre les régions homogènes, et par le faible nombre de régions homogènes
identifiées. Comme l’ont montré Fortin et al. (1995) c’est précisément le cas où l’on peut
s’attendre à de bonnes performances de la part de cette méthode, puisqu’elle ne considère
qu’une seule région homogène centrée sur le site cible.

27.7. Conclusion
Parce qu’il est difficile de déterminer précisément les limites des régions hydrologiques
homogènes, les méthodes de régionalisation des débits de crue récentes incorporent le concept
d’appartenance partielle d’un site à une région, sans faire explicitement référence à la théorie
des sous-ensembles flous, dont c’est pourtant le concept de base. En formalisant’le problème à
l’aide de cette théorie, on découvre un ensemble d’outils d’agrégation et de classification
spécifiques à cette dernière. Nous avons montré ici le potentiel d’un de ces outils, la méthode
ISODATA, qui a permis de faire ressortir des structures difficiles à percevoir visuellement.
Cependant, pour la région Québec-Ontario, le biais de cette méthode pour l’estimation
de x10 s’est avéré plus important que pour la méthode de la région d’influente. Dans le cas
étudié il est donc préférable d’utiliser la méthode de la région d’influente, probablement parce
que les limites des régions homogènes sont particulièrement floues. La partition obtenue à

486
l’aide de la méthode ISODATA pourrait cependant être utilisée précisément pour déterminer
s’il est préférable d’employer la méthode de la région d’influente, en identifiant les régions
homogènes et en quantifiant le flou des limites séparant ces régions. Si la méthode de
classification floue ISODATA semble plus utile pour la détermination de régions homogènes
floues que pour l’estimation régionale, d’autres méthodes floues peuvent être utilisées pour
l’estimation régionale. En particulier, Bargaoui et al. (1996) ont montré que pour le réseau
hydrométrique tunisien une estimation régionale basée sur la méthode de classification par
cohérence Iphigénie donne de meilleurs résultats que la méthode de la région d’influente.

Remerciements
Nous désirons remercier le Conseil de recherches en sciences naturelles et en génie du
Canada ainsi que Hydro-Québec, qui ont en partie financé ces travaux.

487

-
Bibliographie

ACREMAN, M.C. et S.E. WILTSHIRE (1989) ‘The regions are dead : long live the regions.
Methods of identifying and dispensing with regions for flood frequency analysis’. In :
Friends in Hydrology, IAHS publ. 187: 175-188.
BARGAOUI, Z., V. FORTIN, B. BOBÉE et L. DUCKSTEIN (1996) ‘Une approche floue pour la
détermination de la région d’influente d’une station hydrométrique’, Revue des sciences
de Z’eau, soumis pour publication (mai 1996).
BARDOSSY A. et L. DUCKSTELN (1995) Fuzzy Rule-Based Modeling with Applications to
Geophysical, Biological and Engineering Systems, CRC Press, Boca Raton, Floride.
BERNIER, J. (1994) Peut-on construire une statistique floue? Manuscript non publié.
BERN~ER,J. (1997) ‘Information, modèles, risques et hydrologie statistique’, Dans: Méthodes
statistiques et approches bayésiennes en hydrologie, Comptes-rendus sélectionnés de la
Conférence Internationale en l’honneur du Professeur Jacques Bernier, 1 l-1 3 sept. 1995,
UNESCO Publishing.
BEZDEK, J.C. (198 1) Pattem Recognition with Fuzzy Objective Function Algorithms, Plenum
Press, New York.
BURN, D.H. (1988) ‘Delineation of groups for regional flood frequency analysis’, Journal oj
Hydrology 104: 345-361.
BURN, D.H. (1990) ‘Evaluation of Regional Flood Frequency Analysis with a Region of
Influence Approach’, Wuter Resources Research 26( 10): 2257-2265.
CUNNANE, C. (1978) ‘Unbiased plotting positions - a review’, Journal ofHydroZogy, 37: 205-
222.
DUDA, R. et P. HART (1973) Pattern Classification and Scene Analysis, Wiley, New York.
DUNN, J.C. (1977) ‘Indices of Partition Fuzziness and the Detection of Clusters in Large Data
Sets’, In: M. Gupta et G. Saridis (eds.) Fuzzy Automata and Decision Processes,
Elsevier, New York.
EFRON, B. (1979) ‘Computers and the theory of statistics : thinking the unthinkable’, Society
for Industrial and Applied Mathematics, 2 l(4): 460-480.
FORTIN, V., J. BERN~ER et B. BOBÉE (1996) ‘Simulation, Bayes and Bootstrap in Statistical
Hydrology’, Water Resources Research, 33(3) : 439-448.
FORTIN, V., B. BOBÉE, L. DUCKSTEIN et Z. BARGAOUI (1995) ‘Détermination floue des zones
hydrologiques homogènes’, In: Modeling and Management of Sustainable Basin-scale
Water Resource Systems, IAHS publ. 23 1, pp. 367-375.
KAUFMANN (1973) Introduction à la théorie des sous-ensembles jlous à l’usage des
ingénieurs (Fuzzy Sets Theory) 1. Éléments de buse, Masson et Cie Éditeurs, Paris.
KAUFMANN (1975) Introduction à la théorie des sous-ensembles flous à l’usage des
ingénieurs (Fuzzy Sets Theory) 3. Applications à la class$ication et à la reconnaissance
des formes, aux automutes et aux systèmes, au choix des critères, Masson et Cie
Éditeurs, Paris.

488

-
NERC (1975) Flood Studies Report, Natural Environment Research Council, Londres,
Royaume Uni.
RASMUSSEN, P.F., B. BOBÉE et J. BERN~ER (1994) ‘Une méthodologie générale de
comparaison de modèles d’estimation régionale de crue’, Revue des sciences de Z’eau, 7:
23-41.
STEVENS, M.J. et LYNN P.P. (1978) Regional growth cuwes, Report n” 52, Institute of
Hydrology, Wellingford, Royaume Uni.
WILTSHIRE, S.E. (1986a) ‘Regional flood frequency analysis, 1 : Homogeneity statistics’,
Hydrol. Sci. J. 31: 321-333.
WILTSHIRE, S.E. (1986b) ‘Regional flood frequency analysis, II : Multivariate classification of
drainage basins in Britain’, Hydrol. Sci. J. 3 1: 334-346.
ZADEH, L.A. (1965) ‘Fuzzy sets’, Information and Control, 8: 338-353.

489

Vous aimerez peut-être aussi