Vous êtes sur la page 1sur 10

Rconcilier thorie et pratique dans la dtermination des

houles extrmes
Franck MAZAS
1
, Luc HAMM
2
1
Ecole Nationale des Ponts et Chausses, ParisTech.
franck.mazas@eleves.enpc.fr
2
Directeur technique, SOGREAH Maritime, 6 rue de Lorraine, 38130 chirolles,
France.
luc.hamm@sogreah.fr
Rsum :
Le but de cet article est damliorer les mthodes statistiques actuelles de
dtermination des houles extrmes en proposant des solutions justifies
thoriquement mais aussi applicables en pratique. La mthode POT est prconise
et des outils objectifs de dtermination du seuil sont prsents. Le choix de la loi
statistique est discut ; la loi GPD est souligne et une approche multi-lois
justifie. Lajustement par lestimateur du maximum de vraisemblance est
fortement recommand. Enfin, des tests sont mens sur le site dHaltenbanken
pour illustrer les amliorations proposes.
Abstract :
This article aims to improve the current statistical methods for the determination
of extreme wave heights. It proposes both theoretically justified and user-friendly
solutions. Use of the POT method is advocated and objective tools for threshold
determination are presented. The choice of the statistical law is discussed ; the
GPD law is stressed and a multi-law approach is justified. The adjustment by the
likelihood maximum estimator is strongly recommended. Finally, tests were
conducted on the site of Haltenbanken to illustrate the proposed improvements.
Mots cls :
Valeurs extrmes houle POT EMV.
385
Xmes Journes Nationales Gnie Ctier Gnie Civil, 14-16 octobre 2008, Sophia Antipolis
DOI: 10.5150/jngcgc.2008.037-M (disponible en ligne - http://www.paralia.fr - available online)
1. Introduction
Sur un site maritime, prvoir les hauteurs de vagues extrmes sur de longues
priodes de retour (de lordre de quelques dizaines dannes) est primordial pour
le dimensionnement des ouvrages portuaires mais relve de la gageure.
Prediction is very difficult, especially about the future , disait Niels Bohr.
Pourtant, les mthodes statistiques dveloppes depuis quelques dcennies
ambitionnent doffrir lanalyste des outils objectifs.
La mthode la plus rpandue a t propose par le Professeur Goda (GODA,
1988b ; GODA & KOBUNE, 1990). Elle a t largement reprise par le Groupe de
Travail sur les Statistiques des Houles Extrmes dans son document de synthse
(MATHIESEN et al., 1994) et tout rcemment dans le Rock Manual du CIRIA
(2007). Devant les difficults concilier thorie statistique et pratique de
lingnieur, elle se veut globale et relativement lgre mettre en uvre.
Nous examinerons ici la question du choix des distributions statistiques ajuster
aux donnes de temptes, la mthode dajustement adquate et des outils
objectifs de dtermination de seuil et de choix de la meilleure distribution.
2. Traitement de lchantillon
2.1 Choix du type de jeux de donnes
Lingnieur analyste travaille partir dchantillons de donnes
environnementales, relles ou simules, comme ici la hauteur significative des
vagues. Il existe alors trois approches de ces jeux de donnes : celle de
lchantillon complet (total sample method) qui ajuste une distribution statistique
toutes les donnes collectes, la mthode des block maxima qui nanalyse que
les valeurs maximales sur un intervalle de temps donn, souvent un an (on parle
alors des maxima annuels) et enfin la mthode du renouvellement ou mthode
POT (peaks-over-threshold). Cette mthode ne retient que les valeurs maximales
des pisodes de temptes, grce la fixation dun seuil (threshold).
Un chantillon statistique devant runir des conditions dindpendance et
dhomognit, cest--dire tre identiquement distribu, la plupart des analystes
rejettent la premire mthode. La deuxime mthode a linconvnient dcarter
des valeurs qui apportent une information valorisante, information au contraire
recueillie par la mthode POT. Aussi retiendrons-nous cette dernire mthode.
2.2 Censure des donnes et double seuil
Les temptes retenues par cette mthode sont dintensits trs diverses, si le seuil
est assez bas. Cette constatation nest pas anodine : les faibles temptes peuvent
386
Hydrodynamique ctire
en effet distordre lajustement une distribution en apportant trop de poids aux
faibles valeurs de pics, donc en introduisant un biais ngatif. Cependant, elles
apportent une information valorisante sur les frquences dapparition quil est bon
de prendre en compte. Dans ce cas, on applique alors un processus de censure : un
seuil bas permet de slectionner toutes les temptes alors quun seuil plus haut,
dont la dtermination est essentielle, retient les plus hauts pics auxquels on
ajustera la loi. Nous appellerons ce doublet seuil bas seuil haut, double seuil.
Lintrt du processus de censure a t soulign par le Groupe de Travail. Nous
verrons plus loin que lestimateur du maximum de vraisemblance permet de le
traiter correctement.
3. Analyse rigoureuse de lchantillon
3.1 Un peu de statistique des extrmes
Considrons un chantillon de variables alatoires relles, indpendantes et
identiquement distribues. On sintresse aux valeurs extrmes, ici aux maxima,
dun tel chantillon. JENKINSON (1955) a gnralis les rsultats de FRCHET
(1927) et FISHER & TIPPETT (1928) en montrant que la loi du maximum de
lchantillon tend vers la loi gnralise des valeurs extrmes (GEV, Generalized
Extreme Value distribution), qui a trois paramtres x
0
, et k (voir quation 1). Le
cas 0 > k correspond la loi de Frchet ; le cas 0 < k la loi de Weibull ; enfin,
en faisant tendre k vers 0, on obtient la loi de Gumbel par passage la limite.
(
(
(

|
|
.
|

\
|
+ =

k
k x
x x
k x F
1
0
, ,
1 exp ) (
0

(1)
On sintresse prsent la loi rgissant le dpassement dun seuil u au sein dun
chantillon, soit lapproche de la mthode POT. Soit X une variable alatoire
relle de fonction de rpartition F, u le seuil fix et posons u X Y = sous
condition que X > u. Lorsque u approche le point terminal (fini ou infini), la loi
des dpassements de u peut tre approche par la distribution gnralise de
Pareto (GPD, Generalized Pareto Distribution) donne par :
k
k
y
k y F
1
,
1 1 ) (

|
|
.
|

\
|
+ =

(2)
Cette approximation se justifie pour une taille dchantillon assez grande, et pour
un seuil u assez lev. Les paramtre et k sont appels paramtres dchelle et
de forme car ils dterminent respectivement lchelle linaire de et la forme
fonctionnelle de la distribution. Le cas k = 0 (par passage la limite) correspond
la distribution exponentielle desprance .
387
Xmes Journes Nationales Gnie Ctier Gnie Civil, 14-16 octobre 2008, Sophia Antipolis
Le nombre N
1
de dpassements du seuil u dans une anne pouvant tre considr
comme rgi par un processus poissonien, on suggre le modle suivant, appel
modle Poisson-GPD, o les dpassements de seuil obissent une loi GPD et
sont i.i.d., et o N
1
suit une loi de Poisson.
3.2 Choix des distributions candidates
La thorie dit ainsi que la loi correspondant des chantillons POT est la loi GPD.
Dans une analyse simple, cest donc bien cette loi quil sagit dutiliser, et non
celle de Gumbel ou de Weibull comme recommand par le Groupe de Travail. Il
est alors pertinent de mettre en place un modle Poisson-GPD.
Mais on peut (doit ?) approfondir lanalyse. En effet, la thorie des valeurs
extrmes est certes trs sduisante, mais il est primordial de garder lesprit son
caractre asymptotique. Pour que son utilisation soit vraiment pertinente, il faut
des chantillons de taille beaucoup plus grande que ce dont lon dispose
habituellement, cest--dire quelques dizaines de valeurs. En outre, nous navons
aucune information sur la vitesse de convergence de la loi de lchantillon vers
ces lois asymptotiques : or rien ne garantit quelle ne soit pas trs faible.
En consquence, les lois des valeurs extrmes (GEV, GPD) sont bien des
candidates privilgies pour modliser les valeurs maximales et/ou les
dpassements de seuil dun chantillon. Mais la taille de ces chantillons comme
la gamme des probabilits considres dans les applications hydrologiques et
maritimes font que dautres distributions (log-normale, log-Pearson de type III,
Gamma,
2
) peuvent a priori fournir une meilleure modlisation. Une analyse
plus approfondie utilisera donc avec bonheur un grand nombre de distributions
candidates : bien que beaucoup plus lourde, cest lapproche la plus justifiable.
3. 3 Ajustement
Pour raliser un ajustement rigoureux, il faut disposer dun estimateur robuste et
efficace. Un estimateur est dit robuste sil est trs peu perturb par une valeur rare
et extrme (outlier) ; il est dautant plus efficace que sa variance est faible. Enfin,
on cherche ce que cet estimateur ait un biais le plus faible possible, et
notamment quil soit asymptotiquement non biais, i. e. que le biais tende vers 0
lorsque la taille de lchantillon tend vers linfini.
La mthode des moindres carrs prsente le grave dfaut de donner beaucoup trop
de poids aux vnements rares, ce qui conduit des ajustements biaiss. Pour des
processus non linaires, elle est aujourdhui fortement dconseille par les
statisticiens. La mthode des moments, la plus intuitive, consiste utiliser les
relations entre les moments de lchantillon et les paramtres de la loi que lon
388
Hydrodynamique ctire
cherche ajuster. La mthode des moments construit certes des estimateurs
convergents, mais ceux-ci sont souvent entachs de biais ngatifs importants pour
les petits chantillons. La mthode des moments pondrs (HOSKING &
WALLIS, 1987) tente dy remdier en pondrant les moments par leur
probabilit. Dans le cas dchantillons de taille rduite (infrieure 500), pour
lajustement une loi GPD, Hosking et Wallis ont montr que cet estimateur tait
plus efficace que le maximum de vraisemblance pour k < . Dans la pratique,
cette condition est souvent vrifie mais ce rsultat ne concerne que la GPD.
De manire gnrale, lestimateur du maximum de vraisemblance (EMV) est
considr comme le plus rigoureux par les statisticiens. LEMV consiste
maximiser la fonction de vraisemblance en fonction des paramtres de la famille
de lois choisie pour lajustement. La mthode du maximum de vraisemblance
repose sur des bases thoriques plus solides que celles de la mthode des
moments. En particulier, on montre que, sous des conditions trs gnrales, un
estimateur MV est convergent, asymptotiquement normal et efficace. La mthode
du maximum de vraisemblance est aujourdhui la principale mthode
destimation. En particulier, elle semble sadapter beaucoup plus facilement
lutilisation de donnes censures, ce qui nous intresse particulirement.
Lestimateur du maximum de vraisemblance est donc recommand, mme si une
pondration judicieuse des moments peut donner de meilleurs rsultats dans les
domaines de validit ad hoc. Enfin, la dtermination des intervalles de confiance
sera une tape cruciale de lanalyse.
4. Tests : le site dHaltenbanken
4.1 Loi GPD et EMV
Nous prenons ici lexemple classique dHaltenbanken, en Atlantique Nord, au
large de la Norvge. Un premier test est men en nutilisant que la loi GPD : nous
supposons donc que nous nous trouvons dans le domaine asymptotique de la
thorie des statistiques extrmes. Nous disposons dun chantillon de 128 pics de
temptes suprieurs 7 mtres sur une priode de 9 ans.
Nous utilisons le package extRemes (GILLELAND et al., 2004) du logiciel
systme danalyse statistique R. Dans le cas dune analyse type Poisson-GPD, ce
package dispose doutils objectifs pour dterminer la valeur haute du double
seuil : dune part en examinant la stabilit des paramtres de forme et dchelle k
et , dautre part en tudiant le mean excess plot ou mean residual life plot, grce
des proprits thoriques de la loi GPD. SMITH (2001) dtaille ces techniques.
Ici, ils suggrent de fixer le second seuil 8.57 mtres ; nous effectuerons donc
389
Xmes Journes Nationales Gnie Ctier Gnie Civil, 14-16 octobre 2008, Sophia Antipolis
lajustement sur un chantillon de 46 valeurs (soit un paramtre de censure v =
0.36).
Figure 1. Graphes extRemes pour la dtermination du seuil haut de
lchantillon de Haltenbanken.
Figure 2. Graphes extRemes pour lajustement GPD des donnes
de Haltenbanken.
Nous obtenons les rsultats suivants : = 1.90, k = -0.42 et une houle centennale
12.7 mtres avec un intervalle de confiance 90 % de [12.2 ; 14.7].
4.2 largissement un grand nombre de distributions
La validit de lhypothse prcdente, savoir que lon se situe dans le domaine
asymptotique justifiant la loi GPD, ne peut tre garantie. Reprenons donc
lanalyse en essayant dadapter lchantillon de nombreuses familles de
distributions : GPD, Gumbel, Weibull, Gamma, exponentielle, GEV, log-Pearson
de type III, avec le logiciel HYFRAN (BOBE et al., 1999).
390
Hydrodynamique ctire
Figure 3. Ajustement par des lois GPD (PG - #2), Gumbel (EV1 - #4),
Weibull (W2 - #5) et Gamma (G2 - #6) aux donnes de Haltenbanken.
Figure 4. Ajustement par des lois exponentielle (EX2 - #1), GEV (#3)
et log-Pearson de type III (LP3 - #7) aux donnes de Haltenbanken.
On voit quil est difficile de privilgier une loi particulire sur la foi dun simple
examen graphique, alors mme que ces lois ont des comportements trs diffrents
au niveau des quantiles extrmes. Il faut quantifier la qualit de lajustement ;
pour cela on peut utiliser, entre autres, deux critres de comparaison : le Bayesian
Information Criterion (BIC) qui est une minimisation du biais entre le modle
ajust et la vraie distribution inconnue, et lAkaike Information Criterion (AIC)
qui slectionne le modle ralisant le meilleur compromis biais-variance. La
meilleure loi minimise ces critres. Les rsultats, avec les valeurs des houles
#2
#6
#4
#5
#1
#3
#7
391
Xmes Journes Nationales Gnie Ctier Gnie Civil, 14-16 octobre 2008, Sophia Antipolis
centennales, les intervalles de confiance 90 % (lorsquils sont calculables) et le
nombre de paramtres pour chaque loi, sont rsums dans le tableau 1.
Tableau 1. Houle centennale, intervalle de confiance 90%, critres BIC et AIC
et nombre de paramtres pour chaque loi ajuste aux donnes de Haltenbanken
pour un seuil 8.57 m.
GPD #2 Weibull #5 Gamma #6 Exp. #1 LP-III #7 Gumbel #4 GEV #3
H
100 ans
13.6 14.7 15.4 16.6 15.9 14.3 19.1
IC 90 % - 12.9-16.5 13.6-17.3 14.7-18.6 - 13.3-15.3 -
BIC 120.941 121.962 122.427 122.815 126.897 130.949 133.057
AIC 117.283 118.304 118.770 119.157 121.412 127.292 127.371
K
i
2 2 2 2 3 2 3
Plusieurs remarques sont ici soulever. La premire est que cest bien la loi GPD
qui est slectionne ici. De plus, les critres BIC et AIC se rejoignent pour fournir
le mme classement. On remarque qu lexception de la loi de Gumbel, dont la
relgation parat a priori trange, les lois retournant de trs fortes valeurs sont
rejetes en fin de classement. Il faut dailleurs noter la trs forte disparit des
houles centennales, alors mme que toutes ces lois ont t acceptes par le test
dadquation du
2
! Enfin, les lois trois paramtres sont plus biaises que les
lois deux paramtres, car rajouter des paramtres accrot lincertitude sur ces
mmes paramtres. Cela est dailleurs pris en compte dans les critres BIC et AIC
puisque le nombre de paramtres fait augmenter la valeur du critre.
5. Conclusions
De telles analyses sur des chantillons de donnes environnementales recueillies
sur une grande priode de temps sont trs dlicates. De nombreux tests sont
ncessaires pour apprhender les difficults de toute sorte qui interviennent.
Celles-ci sont gnralement de deux types : des difficults intrinsques
lchantillon et des difficults purement statistiques. Les premires sont dues au
caractre non indpendant mais surtout non homogne et non stationnaire de
lchantillon. Cest la plus grande source dimprcision et, partant, la plus grande
source potentielle damliorations.
Paralllement, les outils numriques nous permettent aujourdhui dutiliser des
mthodes statistiques plus performantes et plus justifiables thoriquement. Nous
insistons ici sur la dtermination du seuil haut par des outils objectifs, et nous
recommandons deux mthodes : une, lgre, base sur un modle Poisson-GPD,
392
Hydrodynamique ctire
et une autre plus rigoureuse mais plus lourde fonde sur une approche multi-
distributions. Lajustement par lEMV est fortement recommande.
Enfin, laccent doit tre mis sur limportance des intervalles de confiance, dont la
largeur peut fortement varier. Un bon analyste sait dcomposer judicieusement
son chantillon en fonction des spcificits mtorologiques et maritimes du site
tudi pour le rendre le plus homogne possible, lanalyser rigoureusement et
surtout prendre le recul ncessaire face aux rsultats obtenus, qui ne sont jamais
un but en soi mais toujours insrs dans la conception d'un projet pour lequel
l'enchainement des mthodes de calcul et des choix de conception doit garder sa
cohrence (choix des coefficients de scurit et des niveaux de risques chaque
tape selon le type d'ouvrage). Dans ce contexte, une suite de notre travail doit
clairement s'orienter vers une meilleure apprciation de l'talement des intervalles
de confiance qui reste un peu rudimentaire actuellement.
6. Rfrences bibliographiques
BOBE B., FORTIN V., PERREAULT L., PERRON H. (1999). HYFRAN 1.0.
INRS-Eau, Terre et Environnement, Universit du Qubec, Qubec.
CIRIA (2007). Manual on the use of rock in coastal and shoreline engineering.
FISHER R.A., TIPPETT L.H.C. (1928). Limiting forms of the frequency
distributions of the largest or smallest member of a sample. Proceedings of the
Cambridge Philosophical Society, 24:180-190.
FRCHET M. (1927). Sur la loi de probabilit de lcart maximum. Annales de la
Socit polonaise de Mathmatique, vol. 6, Cracovie.
GILLELAND E., KATZ R., YOUNG G. (2004). The extRemes Package. URL :
http://cran.r-project.org/doc/packages/extRemes.pdf.
GODA Y. (1988). On the methodology of selecting design wave height. Proc. 21
st
Int. Conf. Coastal Engrg. Malaga, pp. 899-913.
GODA Y., KOBUNE K. (1990). Distribution function fitting for storm wave data.
Proc. 22
nd
Int. Conf. Coastal Engrg, Delft, pp. 18-31.
HOSKING J.R.M., WALLIS J.R. (1987). Parameter and quantile estimation for
the generalized Pareto distribution, Technometrics, 29:339-349.
JENKINSON A. F. (1955). The frequency distribution of the annual maximum (or
minimum) values of meteorological events. Quaterly journal of the Royal
meteorological society, 81, pp. 158-171.
MATHIESEN M., GODA Y., HAWKES P.J., MANSARD E., MARTN M.J.,
PELTIER E., THOMPSON E.F., VAN VLEDDER G. (1994). Recommended
practice for extreme wave analysis. Journal of Hydraulic Research, Vol. 32, N6.
393
Xmes Journes Nationales Gnie Ctier Gnie Civil, 14-16 octobre 2008, Sophia Antipolis
R DEVELOPMENT CORE TEAM (2007). R: A language and environment for
statistical computing. R Foundation for Statistical Computing, Vienna, Austria,
2007. ISBN 3-900051-07-0. URL : http://www.R-project.org.
SMITH R.L. (2001). Environmental statistics. Department of Statistics,
University of North Carolina. http://www.stat.unc.edu/postscript/rs/envnotes.ps.
394
Hydrodynamique ctire

Vous aimerez peut-être aussi