Vous êtes sur la page 1sur 63

Probabilits et statistiques

appliques lhydrologie
Master Mcanique applique au transport et
lenvironnement

Benjamin RENARD

renard@lyon.cemagref.fr

Anne 2004-2005

Sommaire

I. INTRODUCTION

II. STATISTIQUES DESCRIPTIVES

II.1. Quelques dfinitions

II.2. Comment rsumer un chantillon ?


II.2.1. Reprsentations graphiques dun chantillon
II.2.2. Les indicateurs de localisation
II.2.3. Les indicateurs de dispersion
II.2.4. Autres indicateurs

7
7
9
10
10

II.3. Etude de deux variables


II.3.1. La rgression linaire
II.3.2. Reprsentation frquentielle dun couple de variables

11
11
14

III. LE MODELE PROBABILISTE

16

III.1. Quelques rappels de thorie des ensembles

16

III.2. Premires dfinitions : probabilit et variables alatoires.

16

III.3. Loi de probabilit dune variable alatoire


III.3.1. Variable alatoire discrte
III.3.2. Gnralisation au cas continu
III.3.3. Quelques lois de probabilits classiques
III.3.4. Quelques mots sur le cas multivari

18
18
19
20
25

IV. STATISTIQUE INFERENTIELLE

28

IV.1. Retour sur la notion dchantillon


IV.1.1. La fluctuation dchantillonnage
IV.1.2. Lchantillon du point de vue probabiliste
IV.1.3. Quelques thormes importants
IV.1.4. Techniques de rchantillonage

28
28
29
30
32

IV.2. Lestimation
IV.2.1. Quelques dfinitions
IV.2.2. Estimation par la mthode des moments
IV.2.3. Estimation par maximum de vraisemblance

33
33
34
34

IV.2.4. Quel estimateur choisir ?


IV.2.5. Intervalles de confiance

35
36

IV.3. Les tests statistiques


IV.3.1. Le principe des tests statistiques
IV.3.2. Quelques tests classiques

37
37
38

V. APPLICATIONS A LETUDE DES CRUES

42

V.1. Les donnes

42

V.2. Lchantillonnage
V.2.1. Techniques dchantillonnage
V.2.2. Proprits probabilistes des chantillons

44
44
46

V.3. Estimation des paramtres des distributions


V.3.1. Formulaire des estimateurs
V.3.2. Reprsentation graphique

48
49
49

V.4. Quantiles, priodes de retour et intervalles de confiance

52

VI. ANNEXES

56

I. Introduction
Ce fascicule prsente les principaux rsultats de probabilits et statistiques utiliss en
hydrologie. Le cours fait partie de lUE cycle de leau et risque dinondation du Master
professionnel Mcanique applique au transport et lenvironnement . Il est dcompos en
quatre parties :
Dans la premire partie, nous donnerons quelques rsultats et techniques permettant
de rsumer ou dextraire de linformation partir dun chantillon de donnes.
Lensemble de ces mthodes se rapporte au domaine des statistiques descriptives.
La thorie des probabilits fournit un ensemble doutils pour quantifier le hasard.
Nous allons en fait tudier une version allge de la thorie probabiliste, qui
ncessite pour tre aborde en toute rigueur des notions mathmatiques assez
sophistiques.
Ces deux premires parties seront ensuite utilises conjointement dans le cadre de
la statistique infrentielle, qui permet de quantifier linfluence du hasard dans les
processus gnrateurs de donnes.
Enfin, nous tudierons lapplication de ces mthodes pour lanalyse frquentielle
des crues, qui constitue un des outils de base de lhydrologue.
Aucun prrequis particulier nest ncessaire pour comprendre ce cours, les notions
mathmatiques utilises devraient vous tre plus ou moins familires.
Les ouvrages et sites suivants constituent dexcellentes sources dinformation :
Saporta, G., 1990. Probabilits, Analyse de donnes et Statistiques. Editions Technip.
Wonnacott, T.H. & Wonnacott, R.J., 1991. Statistique. Editions Economica.
Deux excellents sites :
http://www.math-info.univ-paris5.fr/smel/
http://www.agro-montpellier.fr/cnam-lr/statnet/
Cours en ligne :
http://www.hds.utc.fr/~ggovaert/sy02/documents/poly.pdf
Statistiques descriptives :
http://www.lsp.ups-tlse.fr/Besse/pub/sdm1.pdf
Bonne lecture !

II. Statistiques descriptives


Dans cette partie, nous allons nous intresser la description dun ensemble de donnes, en
rsumant linformation quil contient grce quelques grandeurs caractristiques.

II.1. Quelques dfinitions


Le plus simple est de considrer lexemple suivant : on souhaite tudier la taille des
Franais. On dispose pour cela de valeurs observes sur 35 personnes, que nous noterons
(x1,,x35). Les Franais constituent la population laquelle on sintresse, via un chantillon
deffectif 35. Chaque personne de cet chantillon est un individu, sur lequel on a mesur la
variable quantitative continue taille . Chacun de ces termes peut tre utilis dans toutes
les situations que nous rencontrerons, il ne faut donc pas sattacher leur signification
dmographique . Ainsi, si on tudie la taille des gouttes deau la sortie dun mcanisme
dirrigation (http://afeid.montpellier.cemagref.fr/Montreal/Molle.PDF), alors lensemble des
gouttes constitue notre population, celles ayant transit par lappareil de mesure (un spectropluviomtre optique) sont les individus de notre chantillon, sur lequel on a relev la variable
quantitative continue diamtre de la goutte .
Remarque : la constitution dun chantillon est la premire tape de toute analyse
statistique, cest galement une des plus importantes et parfois une des plus difficiles. Il faut
en particulier sassurer de la reprsentativit de lchantillon, et rester attentif aux biais
pouvant tre cachs dans les donnes (la taille de la goutte est srement fonction de la
distance lasperseur).
Il est possible de mesurer diffrents types de variables sur les individus :
Variables quantitatives continues, comme dans les exemples prcdents. Il sagit
de variables dont les valeurs varient thoriquement de manire continue (entre deux
valeurs, il en existe toujours une troisime possible). Dans la pratique, la continuit
est souvent limite par la prcision des instruments de mesure.
Variables quantitatives discrtes, dont les valeurs possibles sont discontinues (les
donnes issues de comptage, par exemple).
Variables qualitatives ordonnes, par exemple lintensit dune douleur : faible,
moyenne, forte.
Variables qualitatives non ordonnes, par exemple la couleur des cheveux de
notre chantillon de 35 Franais.
Dans la suite de ce cours, nous nous intresserons principalement aux variables
quantitatives, continues ou non. Nous noterons (x1,,xn) les valeurs de telles variables
observes sur un chantillon de taille n.

II.2. Comment rsumer un chantillon ?


II.2.1. Reprsentations graphiques dun chantillon
Il existe une infinit de faons de reprsenter graphiquement un jeu de donnes :
camemberts , diagrammes en btons, courbes, nuages de point. Tout dpend de la
structure des donnes, mais galement de linformation que lon souhaite faire passer. Nous
allons nous intresser ici deux reprsentations fondamentales pour les donnes
quantitatives : lhistogramme et la courbe des frquences cumules.
7

Lhistogramme consiste reprsenter la frquence (ou parfois leffectif) de chaque valeur


prsente dans lchantillon. Notre variable tant suppose ordonne, il est possible de cumuler
ces frquences par ordre croissant des valeurs rencontres : on peut ainsi tracer la courbe des
frquences cumules, qui reprsente, chaque abscisse, la proportion de valeurs de
lchantillon infrieures ou gales cette abscisse.
Ces deux reprsentations sont primordiales, car elles peuvent tre relies aux notions
probabilistes de densit et de fonction de rpartition, dont nous parlerons prochainement.
Exemple 1 : Nombre de crues suprieures 24.7 m3.s-1 pour LUbaye Barcelonnette.
Anne 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003
Nb
1
1
3
1
5
2
1
3
3
5
0
3
5
2
Tableau 1. Tableau de donnes.
Les individus sont ici des annes, la variable nombre de crues est quantitative discrte.
Calcul des effectifs, des frquences et des frquences cumules :
Valeur
0
1
2
3
4
5

Effectif
1
4
2
4
0
3

Frquence
0.07
0.29
0.14
0.29
0.00
0.21

Frq. cumule
0.07
0.036
0.5
0.79
0.79
1

Tableau 2. Effectifs, frquences et frquences cumules.


Histogramme des frquences

Courbe des frquences cumules

0.35

1
Frquence cumule

0.3

Frquence

0.25
0.2
0.15
0.1

0.8
0.6
0.4
0.2

0.05

-1
0

Nombre de crues

Figure 1. Histogramme des frquences

Nom bre de crues

Figure 2. Courbe des frquences


cumules.

Pour des donnes quantitatives continues, il y a de fortes chances pour que chaque valeur
napparaisse quune seule fois. Ceci ne pose pas de problme pour le trac de la courbe des
frquences cumules, par contre un histogramme dont toutes les ordonnes seraient gales 1
ne serait pas trs informatif. Pour y remdier, on effectue un regroupement des individus en
classes, ce qui revient discrtiser notre variable continue. Le choix des classes reste
arbitraire ; on essaiera en gnral de crer entre 5 et 15 classes de mme tendue.
Exemple 2 : Lors des 14 dernires crues de La Zorn Waltenheim, les dbits journaliers
maximaux ont t de 28.9, 45.8, 67.6, 60.8, 53.6, 33.5, 49.9, 58.1, 35.9, 33.3, 28.4, 28.3, 49.5
et 25.9 m3.s-1. Lhistogramme des frquences pour des classes dtendue 10 m3s-1, en partant
de 25 m3s-1, a la forme suivante :

frquence

Histogramme des frquences


0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
25-35

35-45

45-55

55-65

65-75

3 -1

Dbit journalier maximal (m s )

Figure 3. Histogramme des frquences.


Notez la diffrence de reprsentation par rapport au prcdent histogramme : on a
reprsent des rectangles pleins pour bien signifier quil sagit de la frquence dune classe, et
non dune valeur ponctuelle discrte. Pour tre tout fait prcis, seul ce dernier graphique est
un histogramme, le terme de diagramme en btons est plutt utilis pour le cas discret.

II.2.2. Les indicateurs de localisation


La moyenne, que nous noterons x .
1 n
x = xi
n i =1
La mdiane : cest la valeur qui spare lchantillon ordonn en deux sous-parties de
mme effectif. Par exemple, la mdiane des valeurs 10, 15, 18, 19, 20 vaut 18. Si le nombre
de valeurs est pair, on calculera la demi-somme entre les deux valeurs du milieu, soit une
mdiane de 16.5 pour lchantillon des quatre premires valeurs ci-dessus. La mdiane peut
galement tre lue sur la courbe des frquences cumules : cest la valeur correspondant une
frquence cumule de 0.5.
Lexemple classique pour bien comprendre la diffrence entre ces deux indicateurs est le
salaire des Franais : la moyenne vaut environ 1750 , la mdiane 1400 (salaires nets en
2001 dans le secteur priv, source INSEE).
Un troisime indicateur est parfois utilis, surtout pour les donnes discrtes, il sagit du
mode, qui est la valeur (pas forcment unique) la plus frquente dans lchantillon. Pour des
donnes quantitatives continues, il faut (comme pour lhistogramme) procder un
regroupement des individus. Linconvnient est que le mode devient dpendant du
regroupement arbitraire effectu.
Il est galement frquent de sintresser aux valeurs extrmes dun chantillon. On utilisera
pour cela le quantile dordre p, qui est la valeur de lchantillon dont la frquence cumule
vaut p. Le quantile peut donc tre lu sur la courbe des frquences cumules, en faisant
ventuellement une interpolation linaire entre deux points. La mdiane est ainsi le quantile
dordre 0.5.
Exemple 3 : Pour les donnes de lExemple 1, la moyenne vaut 2.5, la mdiane 2 et les
modes (distribution bimodale) 2 et 4. Pour lExemple 2, le quantile dordre 0.9 peut se
dduire de la figure ci-aprs. On trouve environ 60 m3s-1.

Courbe des frquences cumules

frquence cumule

1.00
0.90
0.80
0.70
0.60
0.50
0.40
0.30
0.20
0.10
0.00
20

30

40

50

60
3

70

80

-1

Dbit (m s )

Figure 4. Courbe des frquences cumules

II.2.3. Les indicateurs de dispersion


La variance permet de mesurer la faon dont les donnes se dispersent autour de la
moyenne :
2
1 n
Var =
xi x

n 1 i =1
On trouve parfois (notamment dans les calculettes ou les tableurs type Excel) une autre
dfinition, qui nest pas recommande pour les petits chantillons :
2
1 n
Var * = xi x
n i =1
Ces deux dfinitions deviennent quivalentes lorsque n est grand. Nous verrons
ultrieurement la raison pour laquelle ces deux dfinitions coexistent.
On dfinit galement lcart-type, qui a lavantage davoir la mme dimension que les
donnes :

2
1 n
xi x

n 1 i =1
Le coefficient de variation est galement utilis pour comparer la variabilit de plusieurs
sries de donnes dont les ordres de grandeurs ne sont pas comparables :

= Var =

CV = .
x
Il nest videmment pas dfini pour les donnes dont la moyenne est nulle.

II.2.4. Autres indicateurs


Le moment dordre k est dfini de la manire suivante :
1 n k
mk = xi
n i =1
Pour k=1, on reconnat la moyenne. Les moments nont pas de signification aussi claire
que les autres indicateurs, mais ils seront centraux lorsque nous nous intresserons la thorie
de lestimation.
On dfinit de mme le moment centr dordre k :

10

1 n
( xi x )k

n i =1
On peut dduire de ces moments centrs deux indicateurs relatifs la forme de
lhistogramme :
m3'
Asymtrie 1 = 3

mk' =

Applatissement 2 =

m4'

II.3. Etude de deux variables


Plaons-nous dans la situation suivante : sur un chantillon, nous avons mesur deux
variables quantitatives, que nous noterons X et Y. Nous obtenons donc deux sries de valeurs
x=(x1,,xn) et y=(y1,,yn). Remarquez les notations, que nous conserverons tout au long du
cours : les variables (que nous appellerons plus tard variables alatoires) sont en majuscules,
les observations de ces variables sur lchantillon en minuscule (gras pour une notation
vectorielle). Les deux sries peuvent bien sr tre dcrites indpendamment lune de lautre,
comme expliqu au paragraphe II.2, mais nous allons ici nous intresser la liaison qui peut
exister entre ces variables.

II.3.1. La rgression linaire


Exemple 4 : Sur un chantillon de 10 petits cours deau, on a calcul la superficie du bassin
versant (X) ainsi que la crue dcennale (Y) :
BV
1
2
3
4
5
6
7
8
9
10

Superficie
16.2
21.4
38.7
42.3
55.8
62.1
64
68
73
94

Q10
5.77
5.37
7.29
12.66
11.09
25.31
20.18
39.27
39.59
28.30

Tableau 3. Tableau de donnes.


La manire la plus simple de reprsenter ces donnes est de projeter les couples (xi,yi) dans
le plan : on obtient ainsi un nuage de points.

11

Nuage de points (xi, yi)


45
40
35

y: Q10

30
25
20
15
10
5
0
0

20

40

60

80

100

x: Superficie (km)

Figure 5. Nuage de points.


A la vue de ce graphique, il apparat que les deux variables ont tendance voluer
conjointement : les grands bassins versants ont des crues dcennales plus importantes.
Cest cette co-volution que nous allons tenter dtudier.
Commenons par dfinir la covariance entre x et y :
1 n
Cov( x, y ) =
( xi x )( yi y )
n 1 i =1
Cette quantit mesure la manire avec laquelle X et Y varient ensemble . Comme pour
la variance, on trouve parfois une dfinition alternative avec 1/n. Le coefficient de
corrlation linaire est directement driv de la covariance :
Cov( x, y )
r=

x y

Il sagit dun coefficient adimensionnel, compris entre 1 et 1 : une valeur absolue proche
de 1 sera la signature de deux variables lies linairement, une valeur proche de zro
signifiera labsence de relation linaire. Il est important de noter que ceci ninterdit pas que
les variables soient lies par un autre type de relation (polynomiale, sinusodale, ). Pour
notre exemple ci-dessus, nous avons les valeurs suivantes :
x = 24

y = 13.17
Cov( x, y ) = 255.01
r = 0.81
Ces chiffres confirment la liaison entre les variables. Nous pouvons essayer daller plus
loin, en cherchant la droite la plus pertinente qui sajusterait au nuage de point, cest en dire
en valuant une relation du type Y=aX+b. Evidemment cette relation ne peut pas tre parfaite
(tous les points ne sont pas aligns), nous introduisons donc des termes derreurs, ce qui nous
donne la relation :
yi = axi + b + ei i = 1,..., n
Une bonne droite permettrait de minimiser ces erreurs. Nous allons donc dfinir un
critre, dit des moindres carrs, construit partir de la somme des carrs des erreurs :

12

S = ei2
i =1

Il sagit donc prsent de trouver les valeurs de a et b minimisant S.


Exercice : 1/ Exprimer S en fonction de a et b.
2/ Calculer les valeurs de a et b minimisant S, que lon notera a et b .
3/ Vrifier quavec ces valeurs, la somme (et donc la moyenne) des erreurs est nulle.
i + b est la valeur du dbit
4/ Dmontrer que Var ( y ) = Var ( y ) + Var (e ) , o yi = ax
dcennal estime par notre modle.
Var (e )
5/ On dfinit un critre pour mesurer la qualit de notre modle, gal c = 1
.
Var ( y )
Interprtez cet indicateur, et dmontrer que c=r.
La droite de rgression dite des moindres carrs est donc dfinie par les paramtres a et b
suivants :
Cov( X , Y )

=r Y
a =
Var ( X )
X

b = y ax
La qualit de cet ajustement est mesure par r (qui varie dans [0,1]), qui mesure la part de
variance explique par notre modle linaire. Voici lajustement pour les donnes
prcdentes :
45
40

y = 0.4426x - 4.2203

35

R = 0.651

Q10

30
25
20
15
10
5
0
0

20

40

60

80

100

Superficie (km)

Figure 6. Ajustement de la droite de regression.


La dmarche prsente dans ce cadre de recherche de relation linaire entre variables peut
tre gnralise toute forme de dpendance du type Y=f(X) :
Choix dune fonction f
Calcul des paramtres optimaux de cette fonction, au sens dun certain critre
(moindres carrs, par exemple)
Var (e )
Evaluation de la qualit de lajustement, par un indicateur du type 1
(qui
Var ( y )
nest plus gal r si f nest pas affine)

13

Evidemment, la plupart des calculs se compliquent par rapport au cas linaire, le recours
des mthodes doptimisation numrique est souvent indispensable.
Une autre extension de la mthode consiste intgrer plusieurs variables pour en
expliquer une autre : dans le cas prcdent, il pourrait ainsi tre bnfique dintgrer la
pluviomtrie ou la nature et loccupation du sol pour amliorer lexplication du dbit
dcennal. En guise dexemple, la mthode dite CRUPEDIX est prsente en annexe, il sagit
dune rgression non linaire multiple visant estimer le dbit dcennal sur des sites non
jaugs.

II.3.2. Reprsentation frquentielle dun couple de variables


Nous allons prsent gnraliser la notion dhistogramme au cas de deux variables, et en
profiter pour proposer quelques dfinitions. Nous nous appuierons sur un exemple utilisant
des donnes quantitatives discrtes ; pour des donnes continues, le mme type de
reprsentation est possible moyennant un regroupement des couples de valeurs en classes.
Exemple 5 : On se propose dtudier le nombre annuel de crues entre les annes 1958 et
2002 pour deux stations S1 et S2. Le tableau de donnes est de la forme suivante :
Anne
1958
1959

2002

N1=Nombre de N2=Nombre de
crues en S1
crues en S2
2
1
1
3

0
4

Tableau 4. Tableau de donnes.


Il est frquent de reprsenter ce type de donnes bivaries par un tableau de contingence,
qui permet de dnombrer leffectif ou la frquence de chaque couple de valeurs possible.
Notre tableau de contingence (en frquence) est ici le suivant :
N2

N1

0
1
2
3
4
5
6
cumul

cumul

0.044
0.044
0.044
0.000
0.022
0.000
0.000
0.156

0.022
0.067
0.089
0.000
0.044
0.022
0.022
0.267

0.044
0.022
0.111
0.067
0.022
0.000
0.000
0.267

0.022
0.022
0.000
0.022
0.044
0.044
0.000
0.156

0.022
0.022
0.000
0.044
0.044
0.000
0.000
0.133

0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000

0.000
0.000
0.000
0.000
0.000
0.022
0.000
0.022

0.156
0.178
0.244
0.133
0.178
0.089
0.022
1.000

Tableau 5. Tableau de contingence.


Ce tableau se lit de la manire suivante: la cellule grise nous informe que pour 2.2% des
annes tudies, on a observ 2 crues en S1 et 1 crue en S2. La dernire colonne reprsente les
cumuls de frquence par ligne, de mme pour la dernire ligne. Enfin, la dernire case en bas
droite est le cumul des cumuls , qui vaut heureusement 1. Le tableau quivalent en
effectif peut se dduire aisment en multipliant chaque case par leffectif de lchantillon (ici,
45 annes).
Intressons-nous une ligne particulire, la premire par exemple. Y figurent les
frquences associes aux diffrentes valeurs de N1, dans le cas particulier o N2=0. Nous

14

pouvons identifier cette premire ligne la distribution conditionnelle de N1, sachant que
N2=0. Cette identification est abusive, il faudrait en fait diviser toutes les valeurs par le cumul
de leur frquence (0.156), qui reprsente la frquence de la valeur 0 pour N2, en considrant
toutes les associations possibles avec N1. En raisonnant de mme ligne par ligne, on voit que
la dernire colonne reprsente les frquences des diffrentes valeurs prises par N2, compte
tenu des diffrentes associations observes avec N1 : nous parlerons de la distribution
marginale de la variable N2. De mme, la dernire ligne est la distribution marginale de N1.
Le tableau de contingence reprsente quant lui la distribution jointe des variables N1 et N2.
Il est possible de reprsenter cette distribution par un histogramme en trois dimensions :

0.12
0.1

Frquence

0.08
0.06
0.04
0.02
0
0
1
2

6
5

N ombre de crues en S 2

3
5

2
6

1
0

N ombre de crues en S 1

Figure 7. Histogramme multidimensionnel.


Dans la figure ci-dessus, lhistogramme reprsent en noir est proportionnel la
distribution de N2, conditionnellement N1=0.

15

III. Le modle probabiliste


Nous avons expos dans le chapitre prcdent un certain nombre de mthodes permettant
de dcrire une srie dobservations et den extraire de linformation. La thorie des
probabilits fournit un cadre pour reprsenter de manire plus abstraite le comportement de
variables gnratrices de donnes. La puissance de cette thorie tient sa gnralit, mais
en contrepartie, la dfinition mme du terme probabilit fait appel des notions
mathmatiques trop labores pour tre prsentes dans ce cours. Nous allons donc tudier
une version allge de la thorie probabiliste, qui sera cependant valable dans limmense
majorit des cas que vous rencontrerez.

III.1. Quelques rappels de thorie des ensembles


Sans entrer dans le dtail, nous dfinirons un ensemble E comme une collection dobjets
bien dfinis. Ci-aprs figurent quelques dfinitions et notations qui nous seront utiles par la
suite :
x E signifie que l'lment x appartient E.
est l'ensemble vide.
A E signifie que lensemble A est inclus dans E : x A x E .
A B est la runion des ensembles A et B. x A B x A ou x B .
A B est lintersection des ensembles A et B. x A B x A et x B .
Si A B = on dit que les ensembles A et B sont disjoints.
Si A B = et A B = E , on dit que A et B forment une partition de lensemble
E. De mme si Ai A j = i j et U Ai = E .
i

A ou A ou A est le complmentaire de A. x Ac x A .
( E ) est lensemble des parties de E, cest dire lensemble de tous les sousensembles de E. A ( E ) A E .

A B
A

AB
A

Figure 8. Runion, intersection et complmentaire.

III.2. Premires dfinitions : probabilit et variables alatoires.


Une probabilit sur un ensemble est une fonction P :() a qui vrifie les trois
proprits suivantes :

16

P ( A) 0, A
P ( ) = 1
Soit (Ai) une suite de sous-ensembles de deux deux disjoints, cest dire

i =1

i =1

Ai A j = , i j . Alors P (U Ai ) = P( Ai )
Ces trois axiomes conduisent aux proprits suivantes :
P ( A) [0,1], A
P () = 0
A B P( A) P ( B)
P ( Ac ) = 1 P ( A)
P ( A B) = P( A) + P( B ) P( A B)
Traduction intuitive : Supposons que nous ayons ralis une exprience alatoire, ou
effectu des mesures sur un ensemble dindividus. reprsente lensemble des issues
possibles de lexprience, il est appel univers ou ensemble fondamental. Un sous-ensemble
de A de est appel un vnement. Une probabilit est ainsi une fonction permettant de
mesurer la vraisemblance dun vnement.
Remarque : la dfinition donne ci-dessus est abusive, car il peut exister (cas
pathologiques) des sous-ensembles de pour lesquels la probabilit nest pas dfinie. Il faut
alors dfinir en ensemble dvnements mesurables, ce qui requiert des outils mathmatiques
trop sophistiqus pour tre voqus dans ce cours.
Une variable alatoire relle est une fonction X : a . Elle permet de traduire un
vnement en nombre rel. Supposons par exemple que nous lancions deux ds, et que nous
nous intressions la somme des deux faces observes. Lensemble est ici gal
lensemble des couples (a, b), o a et b sont des entiers entre 1 et 6. X sera la fonction
somme :
X : (1,..., 6) (1,..., 6) a
( a, b) a a + b
Ainsi, lvnement la somme des deux ds vaut 4 sera not X=4. Il sagit dune
notation simplifie, car en toute rigueur, nous nous intressons lensemble des couples (a, b)
pour lesquels a+b=4, soit X-1({4})={(1, 3), (3, 1), (2, 2)}. De mme X<6 reprsentera
lvnement La somme des deux ds est strictement infrieure 6 . Il est possible de
mesurer la probabilit de tels vnements, que nous noterons P(X=4) ou P(X<6). On voit
dans ce cas que X ne prend pas ses valeurs dans tout entier, mais seulement dans un sousensemble de : il sagit dune variable alatoire discrte.
En des termes plus intuitifs, la variable alatoire X reprsente tout simplement la variable
que nous souhaitons tudier. Etant donn que cette variable est frquemment mesure sur des
individus, sa dfinition est en gnral trs naturelle, comme par exemple Nombre de crues
observes en une anne pour lExemple 1. Il est par contre important de bien faire la
diffrence entre des observations (x1,,xn), qui sont des valeurs numriques mesures, et la
variable alatoire X qui gnre ces donnes, qui est un objet abstrait.

17

III.3. Loi de probabilit dune variable alatoire


III.3.1. Variable alatoire discrte
Soit X une variable alatoire discrte, valeurs dans un ensemble dnombrable ordonn
{xi , i } . La loi de probabilit de X est la donne des quantits
f ( xi ) = P( X = xi ), i . Cette loi de probabilit peut tre dcrite par un diagramme en
btons :

f(xi)
x1 x 2 x3 x4 x5
Figure 9. Loi de probabilit discrte.

Il existe videmment une analogie entre cette reprsentation est celle prsente au
prcdent chapitre, o nous avions report les frquences observes en ordonnes : nous
aurons loccasion de revenir plusieurs reprises sur cette analogie frquence / probabilit.
Nous dfinissons galement la fonction de rpartition F de la variable alatoire X de la
manire suivante : F ( xi ) = P( X xi ) .

F(xi)
1

0
x1 x 2 x3 x4 x5
Figure 10. Fonction de rpartition discrte.
i

Il est ais de dmontr la relation suivante ( faire en exercice) : F ( xi ) = f ( xk ) . En


k =0

corollaire, F est une fonction croissante, qui part de 0 et tend vers 1 en linfini.
De ces deux dfinitions dcoulent quelques grandeurs caractristiques de la variable
alatoire X (notez encore une fois lanalogie avec le chapitre prcdent) :

Lesprance, E ( X ) = xi f ( xi )
i =0

La variance, Var ( X ) = ( xi E ( X )) f ( xi ) , et lcart type ( X ) = Var ( X )


i =0

18

Les moments dordre k, k = xik f ( xi ) . Si k=1, on reconnat lesprance.


i =0

Les moments centrs dordre k, k' = ( xi E ( X )) k f ( xi ) . Si k=2, on reconnat


i =0

la variance.
Le quantile dordre p, not xp, qui vrifie F ( x p ) = p ( x p = F 1 ( p))
Remarque : Les quantits faisant intervenir des sommes infinies peuvent ne pas exister.

III.3.2. Gnralisation au cas continu


Nous allons commencer cette fois ci par dfinir la loi de probabilit dune variable
alatoire continue X comme la donne dune fonction de rpartition F, telle que
F ( x) = P( X x), x . La densit de probabilit de X sera alors la fonction f telle que :
x

F ( x) =

f (t )dt . En dautres termes, f est la drive de la fonction de rpartition F.

F(a)

x
F
1

Figure 11. Densit et fonction de rpartion continues.


b

Proprit : si f est continue, alors P (a < X b) = f (t )dt = F (b) F (a) .


a

Dans le cas continu, on voit ainsi apparatre une analogie entre la probabilit dun
vnement et laire sous la courbe de la densit. Cette analogie implique en particulier que
P ( X = x0 ) = 0, x0 R . Cest la raison pour laquelle il nest pas possible de dfinir la loi de
probabilit directement partir des probabilits des lments de , ce qui conduit raisonner

19

sur des intervalles. On remarque encore une fois lanalogie avec les histogrammes dans le cas
continu du chapitre prcdent, o nous tions obligs de procder des regroupements.
A partir de la densit de probabilit, il est possible de dfinir les mmes grandeurs
caractristiques que dans le cas discret, en remplaant les sommes par des intgrales :
+

Lesprance, E (X ) =

xf (x)dx

-
+

La variance, Var(X ) =

( x E( X ))

f (x)dx , et lcart type ( X ) = Var ( X )

Les moments dordre k, k =

f (x)dx . Si k=1, on reconnat lesprance.

Les moments centrs dordre k, 'k =

( x E ( X ))

f (x)dx . Si k=2, on

reconnat la variance.
Le quantile dordre p, not xp, qui vrifie F ( x p ) = p ( x p = F 1 ( p))
Remarque : Encore une fois, rien ne garantit lexistence des intgrales infinies. De plus,
certaines lois ne sont pas dfinies sur R tout entier, ces intgrales doivent alors tre rduites
aux supports de ces lois.

III.3.3. Quelques lois de probabilits classiques


Nous donnons ci-dessous quelques lois de probabilits qui sont rgulirement utilises,
notamment en hydrologie. Ces lois dpendent dun certain nombre de paramtres afin de
pouvoir sadapter une plus grande varit de situations.

A. Lois discrtes
Loi de Bernoulli Be(p) : utilise pour des variables alatoires binaires, de type succschec ou prsence-absence, qui prendront donc pour valeurs 0 ou 1.
P ( X = 1) = p, P( X = 0) = 1 p.
E( X ) = p
Var ( X ) = p(1 p )
Loi binomiale B(n, p) : Si lon rpte n fois indpendamment une preuve de type
Bernoulli, alors la variable alatoire X mesurant le nombre de succs suit une loi binomiale :
P ( X = k ) = Cnk p k (1 p) n k ,
avec Cnk =

n!
k !(n k )!

E ( X ) = np
Var ( X ) = np(1 p )

20

B(10, 0.2)
0.35
0.3

P(X=k)

0.25
0.2
0.15
0.1
0.05
0
0

10

Figure 12. Loi binomiale.


Loi de Poisson P() : cette loi est frquemment utilise pour dcrire des donnes issues de
comptages dvnements rares (processus doccurrences de crues, par exemple), et respectant
quelques proprits supplmentaires (stationnarit, indpendance, absence de regroupements).
P (X = k ) = e

k
k!

E( X ) =
Var ( X ) =
Poisson(2)
0.3

P(X=k)

0.25
0.2
0.15
0.1
0.05
0
0

10

Figure 13. Loi de Poisson.

21

B. Lois continues
Loi uniforme U(a, b) :
1
si x [a, b]

f ( x) = b a
0 sinon
a+b
2
(b a )
Var ( X ) =
12
E( X ) =

U(0,1)
1.2
1

f(x)

0.8
0.6
0.4
0.2
0
-1

-0.5

0.5

1.5

Figure 14. Loi uniforme.


Loi de Gauss ou loi Normale N(, ) : Cette loi est centrale en statistiques, puisquun
grand nombre de phnomnes ont un comportement approximativement Gaussien. De plus,
un thorme que nous verrons ultrieurement affirme quune somme de variables alatoires
tend (presque) toujours en distribution vers une loi normale. Par exemple, un dbit moyen
annuel pourra tre suppos gaussien.
1
1

exp [( x ) / ]2
f (x) =
2
2

E( X ) =
Var ( X ) = 2

22

Loi Normale
0.9
0.8
0.7

f(x)

0.6
0.5

N(0,1)

0.4

N(0,0.5)

0.3

N(1,1)

0.2
0.1
0
-0.1 -3

-1

Figure 15. Loi Normale.


Loi exponentielle Exp(x0, ) : en hydrologie, cette loi est utilise pour modliser les
valeurs de dpassement dun seuil, ou le temps dattente entre deux vnements de crue.
1 x x0
si x > x

0
f ( x) = e
0 sinon

E ( X ) = x0 +
Var ( X ) = 2
Exp(0,1)
1.2
1

f(x)

0.8
0.6
0.4
0.2
0
0

Figure 16. Loi exponentielle.


La loi de Gumbel Gu(, ) : cest galement une loi trs utilise en hydrologie, puisquil
sagit dune des trois distributions suivies par le maximum dune suite de variables. Le dbit
maximum annuel est souvent dcrit par cette loi.

23

f ( x) =

x
x
exp
exp

> 0, > 0
E ( X ) = + , avec = 0.5772 (constante d'Euler-Mascheroni)

6
La loi gnralise des valeurs extrmes GEV(, , ) gnralise la loi de Gumbel :
Var ( X ) =

1
1

1 ( x )

(
x



f ( x) = 1
exp 1

> 0, > 0, 0, 1
E( X ) = +

(x )
>0

(1 ( + 1))

Var ( X ) = ( (2 + 1) ( + 1) )

+

(t ) =

t 1 x

e dx est la fonction gamma.

Pour = 0 , on retrouve la loi de Gumbel. Si < 0 , on obtient la loi de Frchet, et si


> 0 , la loi de Weibull.
0.018

0.016

0.014

Gu(100, 25)
GEV(100, 25, -0.5)

0.012

f(x)

0.01

0.008

0.006

0.004

0.002

50

100

150

200

250

300

Figure 17. Loi gnralise des valeurs extrmes.

24

Les trois lois suivantes sont trs souvent utilises en statistiques, notamment pour effectuer
des tests dhypothses.
La loi du chi-deux , (n) : cest la loi suivie par la somme des carrs de n variables
gaussiennes N(0,1).
f ( x) =

n
x
1
2
2
x e
n
2 2 (n / 2)

E( X ) = n
Var ( X ) = 2n
U
, o
X /n
U : N (0,1) et X : (n) , avec U et X indpendantes. Cette loi est principalement utilise via
la table de sa fonction de rpartition (voir annexe 2).
E (t (n)) = 0 si n > 1
n
Var (t (n)) =
si n > 2
n2
La loi de Student t(n) : Cest la loi suivie par la variable

La loi de Fisher F(n1,n2) : Cest la loi suivie par la variable

X / n1
, o X et Y suivent
Y / n2

indpendamment des (n1 ) et (n2 ) . Cette loi est galement tabule.


E ( F (n1 , n2 )) =

n2
n2 2

n22
n1 + n2 2
Var ( F (n1 , n2 )) = 2
n1 n1 (n2 2)(n2 4)

III.3.4. Quelques mots sur le cas multivari


Nous allons nous limiter aborder quelques aspects concernant la loi jointe dun couple de
deux variables. Supposons donc que nous tudions une variable alatoire Z=(X,Y) valeurs
est dfinie par
dans . La fonction de rpartition jointe du couple (X,Y)
H ( x, y ) = P({ X x} {Y y}) . Il est possible de dfinir les fonctions de rpartition
marginales par F ( x) = P( X x) = H ( x, ) et G ( y ) = P(Y y ) = H (, y ) . Comme dans le
cas univari, la densit de probabilit jointe est gale la drive de la fonction de
H ( x, y )
rpartition : h( x, y ) =
. Enfin, les densits marginales sobtiennent par
xy
f ( x) = h( x, y )dy et g ( y ) = h( x, y )dx .

La covariance entre deux vecteurs alatoires X et Y est dfinie par :


Cov( X , Y ) = E ( ( X E ( X ))(Y E (Y )) )
= ( x E ( X ))( y E (Y ))h( x, y )dxdy

Exemple 6 : la loi normale de dimension 2.

25

La densit dun vecteur alatoire z = ( x, y ) suivant une loi binormale de paramtres


v
= ( 1 , 2 ) et = 1
c

c
est la suivante :
v2
1
1

h ( x, y ) = h ( z ) =
exp ( z - )t 1 ( z - ) .
1/2
2 (det )
2

La matrice est la matrice des variances-covariances. On peut alors dmontrer que les lois
marginales sont galement gaussiennes, de moyennes respectives 1 et 2 ,et de variances v1
et v2. c est la covariance des deux lois marginales. La figure suivante permet de visualiser la
loi jointe (vue de dessus) et les lois marginales de X (trait plein) et de Y (pointills).

Figure 18. Loi normale de dimension 2.


Une notion capitale en statistiques et probabilits est la notion dindpendance entre deux
variables alatoires X et Y :
26

X et Y sont indpendantes H ( x, y ) = F ( x)G ( y )


h( x, y ) = f ( x) g ( y ) (si ces densits existent)
En dautres termes, la distribution jointe doit tre le produit des distributions marginales. Si
X et Y sont indpendantes, il suffit donc de connatre les distributions de X et de Y pour
obtenir la loi jointe du couple. De manire plus intuitive, ceci signifie que les variables X et Y
ninfluent pas lune sur lautre, et donc que la connaissance de la valeur prise par Y ne change
en rien la loi de probabilit de X.
Quelques relations utiles
Les formules ci aprs peuvent tre dmontres titre dexercice.
Soit a une constante
E (a) = a
E (aX ) = aE ( X )
E ( X + a) = E ( X ) + a
E ( X + Y ) = E ( X ) + E (Y )
X et Y indpendants E ( XY ) = E ( X ) E (Y )
Var ( X ) = E ( X ) ( E ( X ))
Var ( X + a) = Var ( X )
Var (aX ) = a Var ( X )
Var ( X + Y ) = Var ( X ) + Var (Y ) + 2Cov( X , Y )
Cov( X , Y ) = E ( XY ) E ( X ) E (Y )
X et Y indpendants Cov( X , Y ) = 0 (rciproque fausse)
X et Y indpendants Var ( X + Y ) = Var ( X ) + Var (Y ) (rciproque fausse)

27

IV. Statistique infrentielle


Les deux chapitres prcdents nous ont permis de nous familiariser avec les notions les
plus importantes de statistiques descriptives et de probabilits, qui peuvent tre abordes
indpendamment. Dans ce chapitre, nous allons nous efforcer de relier ces deux domaines, en
utilisant la thorie des probabilits pour quantifier plus efficacement les caractristiques dun
chantillon, en intgrant des notions comme le risque , la confiance , la dcision ,
etc Dans la pratique, la statistique infrentielle est certainement loutil le plus utilis pour
assister des dcisions dans un contexte o le hasard intervient.

IV.1. Retour sur la notion dchantillon


IV.1.1. La fluctuation dchantillonnage
Reprenons lexemple concernant la taille des Franais, que nous avions value sur un
chantillon de 35 individus. Admettons que la moyenne x de cet chantillon vaille 1.81 m.
Peut-on alors affirmer que les Franais mesurent en moyenne 1.81 m ? En dautres termes, la
caractristique mesure sur lchantillon peut-elle tre considre comme valable pour la
population entire ? La statistique infrentielle a justement pour but de quantifier, en termes
de risque ou de confiance, la transmission dune caractristique (ici, la moyenne), entre un
chantillon et sa population parente.
Pour tenter de rpondre cette question, nous dcidons de rpter lexprience, mais sur 35
autres individus. Nous obtenons alors une moyenne x(1) = 1.70 m . Evidemment, cette valeur
est diffrente de celle mesure sur le premier chantillon. Nous rptons encore lexprience
un certain nombre de fois, et nous obtenons des valeurs moyennes x(2) ,..., x( k ) . Nous pouvons
alors tracer lhistogramme de ces moyennes, et y replacer notre valeur initiale x = 1.81 m

Figure 19. Illustration de la fluctuation d'chantillonnage.


28

Nous voyons apparatre une distribution lie aux moyennes empiriques calcules sur
diffrents chantillons. Cette nouvelle source de variabilit sera appele la fluctuation
dchantillonnage, elle est due au fait que notre chantillon nest pas notre population, et
donc que sa reprsentativit nest pas absolue. Notons que le mme raisonnement vaut pour
la variance, ou la mdiane, ou toute autre caractristique de lchantillon.
Pour remdier ce problme, on peut envisager trois solutions :
Echantillonner la population entire : cest parfois ce qui est fait (le recensement,
par exemple), mais dans la plupart des cas, ceci est beaucoup trop coteux voire
impossible (populations infinies).
Faire comme dans lexemple, cest dire rpter lexprience un certain nombre de
fois afin davoir accs cette fluctuation dchantillonnage. Ceci est bien souvent
impossible pour diverses raisons (cot en temps ou en argent, mais pas seulement :
difficult de rpter lidentique une exprience en deux endroits ou deux instants
diffrents). Une alternative consiste utiliser une technique de rchantillonnage,
que nous aborderons ultrieurement.
Se donner un cadre thorique probabiliste permettant de dduire le comportement
de caractristiques affectes par cette fluctuation dchantillonnage : cest cette
approche que nous allons dtailler maintenant.

IV.1.2. Lchantillon du point de vue probabiliste


Soit ( x1 ,..., xn ) un chantillon. Nous allons considrer chaque valeur xi de lchantillon
comme une ralisation dune variable alatoire parente Xi. Plus prcisment, nous supposons
que tous les Xi sont mutuellement indpendants, et quils ont la mme loi de probabilit. Nous
parlerons dchantillons iid pour indpendants et identiquement distribus. Ainsi,
lchantillon ( x1 ,..., xn ) peut tre vu comme la ralisation dun n-uplet de variables alatoires
indpendantes et de mme loi ( X1 ,..., X n ) . Par extension, ce n-uplet est aussi appel parfois
un chantillon. Malgr cette lgre ambigut terminologique, il est capital (et les notations
sont l pour a) de bien diffrencier lchantillon ( x1 ,..., xn ) , qui reprsente n valeurs
numriques bien prcises (et qui nont donc rien dalatoires) et le n-uplet ( X1 ,..., X n ) qui est
une reprsentation abstraite dun processus alatoire ayant gnr les donnes. Pour bien
marquer cette diffrence, nous emploierons les termes empirique ou observ pour tout
ce qui se rapporte ( x1 ,..., xn ) , et thorique (on rencontre parfois vrai ) pour ce qui
concerne ( X1 ,..., X n ) .
Pour terminer avec ces dfinitions, nous appellerons Statistique toute fonction de
lchantillon T = f ( X 1 ,..., X n ) . Une statistique est donc une variable alatoire, dont on
obtient une ralisation grce lchantillon observ, Tobs = f ( x1 ,..., xn ) .
Illustrons ces dfinitions grce lexemple de la taille des Franais. A partir de notre
1 35
chantillon ( x1 ,..., x35 ) , nous avons calcul la moyenne empirique x = xi . Cette valeur
35 i =1
1 35
Xi .
35 i =1
Supposons par exemple que pour tout i, Xi suive une loi normale desprance thorique et
dcart type thorique . Il est possible de montrer que la somme de variables gaussiennes
reste gaussienne. Ainsi, en utilisant les formules du chapitre prcdent relatives la
manipulation desprances et de variances, on parvient aux relations suivantes :
est lobservation sur lchantillon de la statistique que nous noterons X =

29

E( X ) =

1 35
1 35
E
X
=
(
)
i 35 =
35 i =1
i =1

1
Var ( X ) =
35

2 35

1
Var ( X i ) = 35
i =1

Soit pour l'cart type (X ) =

2 35

= 35
i =1

35
Nous avons donc, de manire thorique, caractris la fluctuation dchantillonnage de la
statistique X , qui suit donc une loi normale N ( ,

) . Lhistogramme reprsent plus haut


35
est une approximation de la densit de cette loi de probabilit. Notons que la validit de ce
calcul est dpendante des trois hypothses que nous avons poses : les donnes sont issues
dune mme loi, qui est une loi normale, et sont indpendantes. Profitons-en pour insister sur
le fait quindpendance et qui-distribution sont des hypothses qui sont poses a priori, et
non des proprits dmontres. Il est donc capital, lors du recueil des donnes, de sassurer
que le protocole garantira au mieux la validit de ces deux hypothses. Pour finir, remarquons
que dans la pratique, les valeurs de et ne nous sont pas connues, il faut donc les estimer,
ce qui fera lobjet du paragraphe IV.2.

IV.1.3. Quelques thormes importants


Les thormes que nous allons prsenter ci-aprs sont des thormes de convergence de
suites de variables alatoires. Le temps nous manque pour aborder de manire totalement
rigoureuse ces notions de convergence, aussi les thormes seront exposs de manire plus ou
moins intuitive. Le but est avant tout de justifier la dmarche probabiliste entreprise et de
donner des rsultats dont limportance pratique est primordiale.
Le thorme de Glivenko-Cantelli.
Soit ( x1 ,..., xn ) un chantillon iid , issu dune loi de probabilit de fonction de rpartition
F. Soit Fn la courbe empirique des frquences cumules (cf II.2.1) obtenu par lchantillon de
taille n. Notons Dn = sup Fn ( x) F ( x) . Alors Dn
0
n
x

Ce thorme affirme donc que, si n est suffisamment grand, alors la diffrence entre les
fonctions de rpartition empirique et thorique est ngligeable. Dit autrement, les frquences
empiriques convergent vers les probabilits thoriques : ceci justifie donc une analogie
frquence/probabilit que nous avions dj releve.
Ajoutons que la quantit Dn est la base dun test important en statistique, que nous
verrons ultrieurement.
La loi des grands nombres
Soit ( x1 ,..., xn ) un chantillon iid , issu dune loi de probabilit desprance thorique m.
Notons X n =

1 n
X i la statistique moyenne empirique obtenue partir de lchantillon
n i =1

thorique ( X1 ,..., X n ) . Alors X n


m.
n
Cette convergence mrite quelques explications. En effet, nous avons insist sur le fait que
X n tait une variable alatoire, alors que m est une constante : comment lune peut-elle
converger vers lautre ? Ce mode de convergence signifie que justement, X n est de moins
30

en moins alatoire mesure que la taille de lchantillon augmente, en ce sens que pour tout
intervalle autour de m, la probabilit pour que X n soit lintrieur de cet intervalle peut tre
choisie aussi proche de 1 que lon veut, en choisissant un rang n suffisamment grand. Notons
que ce thorme reste vrai quelle que soit la loi dont est issu lchantillon (pourvu que
lesprance existe).
Le thorme central limite.
Ce thorme est dune importance pratique considrable en statistiques. Soit ( X1 ,..., X n )
un n-uplet de variables alatoires iid, desprance et dcart-type . Alors :
X 1 + ... + X n n
X

N (0,1) n

N (0,1)
n
n
/ n n
La signification du thorme est la suivante : quelle que soit la loi dont est issu un
chantillon (pourvu quesprance et variance existent), la statistique moyenne empirique
suivra une loi normale, pourvu que n soit suffisamment grand. En pratique, une trentaine
dobservation est souvent juge suffisante pour appliquer lapproximation gaussienne.
Reprenons alors notre exemple sur la taille moyenne des Franais : il savre que nos
conclusions restent exactes, mme si lchantillon nest pas issu dune loi normale !
La figure ci-dessous illustre ces deux derniers thormes. Pour trois lois de probabilit bien
distinctes, nous avons simul des chantillons de diverses tailles, et calcul la moyenne
empirique. Les histogrammes suivants approximent la densit de la statistique X n . Nous
observons alors les deux phnomnes prcdemment dcrits : dune part, quand n devient
grand, X n est de moins en mois alatoire , et ses valeurs se concentrent de plus en plus
autour de la valeur thorique de lesprance. Dautre part, quelle que soit la forme de la
distribution parente (premire colonne), la distribution dchantillonnage de X n prend peu
peu une forme Gaussienne, comme le prdit le thorme central limite.
n=2

n=1
100

n=5

150

80

N(0,1)

100

60
40

50

20
0

-2

50

60

n=500

n=50

100

100

100

80

80

80

80

60

60

60

60

40

40

40

40

20

20

20

20

30

-2

-2

-2

100

100

100

100

80

80

80

80

60

60

60

60

40

40

40

40

20

20

20

20

-2

40
20
20

10
0

0.5

1000

0.5

800

800

Be(0.8)

80

40

U(0,1)

-2

n=10

100

0.5

500
400

600

600

0.5

400

200

300

150

200

100

100

50

0.5

0.5

0.5

0.5

40

100
0

0.5

80

200
200

60

400
200

100

300

400

0.5

0.5

20
0

0.5

Figure 20. Illustration du thorme central limite.

31

Le thorme des valeurs extrmes


Cest, en quelque sorte, lquivalent du thorme central limite pour la statistique
M n = Max( X1 ,..., X n ) . La formulation est un peu dlicate, nous le retiendrons sous la forme
suivante : si la distribution de Mn converge, alors cest forcment vers une loi gnralise des
valeurs extrmes GEV ( , , ) . La figure suivante permet dillustrer cette convergence pour
les lois N(0,1), U(0,1) et de Cauchy, dont les maximums convergent vers une GEV o le
paramtre est respectivement nul (=loi de Gumbel), positif (=loi de Weibull) et ngatif
(=Loi de Frchet). Ce thorme justifie lutilisation de ces lois en hydrologie des valeurs
extrmes, pour dcrire le comportement probabiliste des crues. Notons quencore une fois, la
loi limite du maximum ne dpend pas de la loi parente dont est issu lchantillon.

Figure 21. Illustration du thorme des valeurs extrmes.

IV.1.4. Techniques de rchantillonnage


Une autre approche afin daccder la distribution dchantillonnage dune statistique
T = f ( X 1 ,..., X n ) consiste utiliser des techniques comme le Bootstrap, qui ont gagn en
popularit ces dernires annes du fait de leur simplicit et de la puissance accrue des moyens
informatiques. Voici lalgorithme du Bootstrap, partir dun chantillon observ ( x1 ,..., xn ) :

32

faire pour i=1,, Nb


o tirer au sort avec remise n individus (certains individus apparatront
plusieurs fois, dautres aucune)
(i )
o calculer Tobs
sur cet chantillon
fin

( Nb )
(1)
Nous obtenons ainsi un nouvel chantillon Tobs
,..., Tobs

) dont on montre quil est issu

dune bonne approximation de la distribution dchantillonnage. La simplicit de cette


mthode tient au fait quelle ne fait plus appel au cadre probabiliste (mme si celui-ci est
ncessaire pour dmontrer que la technique fonctionne.), et permet donc de prendre en
compte cette fluctuation dans un contexte de statistiques descriptives.

IV.2. Lestimation
La thorie de lestimation est un domaine important et vaste des Statistiques. Nous nen
aborderons que quelques aspects, en expliquant comment mesurer la qualit dun estimateur,
et en prsentant deux mthodes destimation trs utilises en pratique.

IV.2.1. Quelques dfinitions


Considrons un chantillon ( x1 ,..., xn ) iid, ralisation du n-uplet de variables alatoires
( X1 ,..., X n ) . Il est frquent davoir une ide a priori sur la loi dont devrait tre issu cet
chantillon, par exprience ou en considrant un des thormes limites ci-dessus (ex. : la crue
maximale annuelle suit une loi de Gumbel). Nous allons donc supposer que lchantillon est
issu dune certaine loi, de densit f paramtre par un certain nombre de paramtres que nous
noterons sous forme vectorielle . Nous noterons f ( x | ) cette densit. Par exemple, pour
une loi normale, = ( , ) . La question est donc prsent destimer la valeur des
paramtres partir des donnes observes. Pour cela, nous allons faire appel des statistiques
T = g ( X1 ,..., X n ) particulires, appeles estimateurs. Nous rclamerons que ces estimateurs
satisfassent un certain nombre de critres garantissant leur qualit. Parmi ces critres,
citons :
La convergence : si Tn est un estimateur dun paramtre , obtenu partir dun
chantillon de taille n, alors il est souhaitable que Tn
(intuitivement, quand
n

lchantillon tend vers la population, on retrouve la vraie valeur)


Labsence de biais : E(Tn)=.
La prcision : E (Tn ) , lerreur quadratique moyenne, est minimale.

Notons quil nest pas forcment possible de trouver un estimateur qui satisfasse ces trois
critres simultanment.
Exemple 7 : Estimateurs dune esprance et dune variance.
Soit lesprance de la loi dont est issu un chantillon. Alors il est facile de montrer que
X n est un estimateur de convergent et sans biais :
convergent : cest la loi des grands nombres (cf IV.1.3)
1 n
Sans biais : E ( X n ) = E ( X i ) =
n i =1

33

Supposons prsent que la loi dont est issu lchantillon est de variance V que nous
1 n
souhaitons estimer. Les estimateurs naturels sont (cf II.2.3) T1 = ( X i X ) et
n i =1
T2 =

1 n
( X i X ) . Calculez lesprance de chacun de ces estimateurs (conseil : utiliser
n 1 i =1

1 n

lexpression T1 = X i2 X 2 ): lequel est sans biais ?


n i =1

( )

IV.2.2. Estimation par la mthode des moments


Lide de cette mthode est la suivante : si les paramtres sont bien estims, alors il devrait
y avoir adquation entre les caractristiques observes (ou empiriques) et les caractristiques
thoriques. Nous allons rechercher cette adquation sur les moments, en gnral le premier
moment non centr (cest dire la moyenne) et le second moment centr (cest dire la
variance). Plus prcisment, supposons que nous ayons p paramtres 1 ,..., p estimer, alors
leurs estimateurs ,..., = seront solutions du systme :
1

E ( X ) = m1

Var ( X ) = m2'

.......


E X E ( X )

= m'

La notation E a pour but de bien montrer que ces moments sont des fonctions des
paramtres estimer.
Exemple 8 : Estimateurs des paramtres dune loi normale
Soit ( x1 ,..., xn ) iid, un chantillon issu dune loi normale N(,). Lesprance vaut donc
et la variance . Les estimateurs des moments sont donc dfinis par :
= m1 = x

= m2 = m2
En dautres termes, les estimateurs des moments sont gaux la moyenne et lcart-type
empiriques.
Exercice : Exprimer les estimateurs des moments pour une loi exponentielle Exp(0,) et
uniforme U(a,b).

IV.2.3. Estimation par maximum de vraisemblance


Cette mthode consiste, tant donn un chantillon ( x1 ,..., xn ) iid, de choisir comme
estimateur de 1 ,..., p les valeurs qui rendent lchantillon le plus probable possible. Plus
prcisment, comme lchantillon est indpendant, la densit jointe du vecteur alatoire
( X1 ,..., X n ) est gale au produit des lois marginales. Nous appellerons vraisemblance
lexpression de cette densit prise pour les valeurs ( x1 ,..., xn ) , soit :
n

L( x1 ,..., xn | ) = f ( xi | )
i =1

34

Il faut donc trouver les valeurs 1 ,...,p qui maximisent cette vraisemblance.
Dans la pratique, on aura souvent intrt maximiser la log-vraisemblance,
n

LogL( x1 ,..., xn | ) = log f ( xi | )


i =1

Pour ce faire, il faut rsoudre une quation aux drives partielles :


LogL
= 0, i = 1,..., p
i
Exemple 9 : Estimation du paramtre dune loi exponentielle Exp(0,)
Soient ( x1 ,..., xn ) les observations issues de cette loi exponentielle, dont la densit scrit :
1
f ( x | ) = e x / .

La Log-vraisemblance vaut donc :


n

LogL( x1 ,..., xn | ) = log f ( xi | )


i =1

n
1

= log e xi /

i =1

1 n x
= n log i
i =1
n

= n log ( )

xi

i =1

Do :
LogL
n n x
= + i =0

i =1
n

n +
i =1

xi

i =1

xi

=0

=n

1 n
xi
n i =1
Lestimateur du maximum de vraisemblance correspond ici lestimateur des moments.
Exercice : Exprimer lestimateur du maximum de vraisemblance pour les lois N(,) et
U(a,b).
=

IV.2.4. Quel estimateur choisir ?


Il nexiste malheureusement pas de rponse cette question Dans certains cas, les deux
estimateurs prsents plus haut concident et sont optimaux . Dans dautres cas, lun aura
des proprits que lautre naura pas, et vice-versa. En gnral, lestimateur du maximum de
vraisemblance est utilis pour les grands chantillons, car la thorie permet den dterminer
les proprits asymptotiques (loi, variance). En contrepartie, les calculs dtaills ci-dessus
sont souvent inextricables la main dans des cas plus compliqus, il faut donc recourir des
mthodes doptimisation numrique, qui ne garantissent dailleurs pas la convergence vers un
minimum absolu.

35

IV.2.5. Intervalles de confiance


Les estimateurs tant en particulier des statistiques, ils sont soumis la fluctuation
dchantillonnage dont nous avons longuement parl prcdemment : si lon prend un autre
chantillon, la valeur des estimations changera. Il est donc important de prendre en compte
cette fluctuation afin de rendre plus interprtables les estimations ponctuelles.
Supposons que T = g ( X1 ,..., X n ) est un estimateur dont on connaisse la loi de probabilit
F (qui dpend de ). Un intervalle de probabilit au risque (ou au niveau de confiance 1), not I ( ) , est un intervalle vrifiant la proprit :
P (T I ) = 1
Dans la pratique, on choisira souvent un intervalle [t-,t+] tel que :
P (T < t ) = / 2

et
P (T > t + ) = / 2 P(T t ) = 1 / 2
Les limites de lintervalle de probabilit sont donc les quantiles dordre /2 et 1-/2 de la
distribution dchantillonnage de notre estimateur, ils dpendent donc toujours de . Or, les
observations nous conduisent une valeur observe de lestimateur, note . Une valeur
acceptable de devrait donc conduire une valeur observe I ( ) . Cest lensemble
de ces valeurs acceptables que nous appellerons intervalle de confiance au niveau 1-.
Exemple 10 : Intervalle de confiance de lestimateur dune moyenne
X
suit une N(0,1). Notons u p le quantile dordre
Daprs le thorme central limite, n
/ n
p de cette loi, nous avons donc par dfinition du quantile :
X
P (u / 2 < n
u1 / 2 ) = 1
/ n
Un intervalle de probabilit au niveau 1- pour X n est donc :

u / 2 < X n +

u1 / 2
n
n
La valeur x a t observe, nous recherchons donc lensemble des vrifiant :

u / 2 < x +

u1 / 2

u1 / 2 < x

u / 2
n
n
Si la valeur de est connue, alors nous disposons dun intervalle de confiance au niveau 1. Dans le cas contraire, il faut recommencer en remplaant par son estimateur naturel, mais
Xn
nest alors plus Gaussienne. Cest l la principale difficult de la
la loi de
Estim( ) / n
dtermination des intervalles de confiance : il nest pas toujours ais daccder la
distribution dchantillonnage de lestimateur. Heureusement, de nombreux rsultats
asymptotiques existent et permettent deffectuer ce type de calculs, qui sont vraiment
ncessaires pour avoir une vision un minimum objective de la confiance que lon peut
accorder des rsultats statistiques.

36

IV.3. Les tests statistiques


IV.3.1. Le principe des tests statistiques
Daprs G. Saporta, un test est un mcanisme qui permet de trancher entre deux
hypothses, dont une et une seule est vraie, au vu des rsultats dun chantillon . Soient H0 et
H1 ces deux hypothses. Il existe alors 4 possibilits, de probabilits diffrentes, rsumes
dans le tableau suivant :
Vrit

H0

H1

H0

1-

H1

1-

Dcision

Tableau 6. Risques d'erreur.


H0 est appele lhypothse nulle, et H1 lalternative. Nous allons voir que ces hypothses
ne jouent pas un rle symtrique, contrairement ce que ce tableau pourrait laisser croire. et
sont appels les risques de premire et de seconde espce. 1- est la puissance du test.
Ces dfinitions tant poses, comment effectue-t-on la prise de dcision ? Nous allons tout
dabord tenter de comprendre le canevas gnral via un exemple :
Exemple 11 : La temprature globale moyenne sur lanne de la plante Terre peut tre
considre comme une variable alatoire gaussienne, de moyenne 14 et dcart-type 0.25. Au
dbut des annes 80, les valeurs suivantes ont t calcules :
Anne
T (C)

1980
14.27

1981
14.4

1982
14.1

1983
14.34

1984
14.16

1985
14.13

Tableau 7. Tableau de donnes.


Nous souhaitons tester lhypothse du rchauffement de la Terre. Nous allons donc choisir
comme hypothses H0 : la temprature moyenne est de 14C contre H1 : la temprature
moyenne est suprieure 14C . Pour cela, nous allons commencer par choisir un risque de
premire espce , qui reprsente le risque daffirmer tort que la plante est plus chaude
quautrefois. Etant donne la porte dune telle affirmation, nous allons rester prudents et
choisir un risque faible, disons 1%. Etant donn notre chantillon de 6 annes, il est possible
de calculer la moyenne empirique x , ralisation de la statistique X , que lon appelle la
statistique de test. Si H0 est vraie, alors lchantillon suit une loi normale N(14, 0.25).
Comme nous lavons vu prcdemment, la statistique X suit alors une loi normale
N (14, 0.25 / 6) . Lhypothse H0 devrait donc tre rejete (i.e. H1 devrait tre accepte) si la
ralisation de cette statistique conduit une valeur trop grande pour tre vraisemblable, cest
dire si x > k , o k est dterminer. La rgion [k ; +[ est appele la zone de rejet de
lhypothse H0. Pour calculer k, nous allons nous appuyer sur la dfinition de :
= P(rejeter H 0 | H 0 )
= P( X > k | H 0 )
= 1 P( X k | H 0 )

Or, si H0 est vraie, alors nous connaissons la loi de X , qui est une N (14, 0.25 / 6) . De
lquation prcdente, il vient que k est le 1- quantile de cette distribution, qui vaut (valeur
37

tabule ou fonction prdfinie dExcel, par exemple) 14.237. Nous allons donc rejeter H0 si
x > k . Avec les donnes ci-dessus, on trouve x = 14.233 , ce qui nous conduit ne pas rejeter
H0 : on dit que le test est non significatif, ou encore que la temprature na pas
significativement augment (au risque 1%).
Il subsiste cependant un risque derreur, qui est celui davoir conserv tort H0 :
= P(conserver H 0 | H1 )
= P( X k | H1 )
Or, il nous est impossible ici de calculer ce risque, car, sous lhypothse H1, nous ne
connaissons pas la loi dont sont issues les donnes. Nous voyons donc le rle asymtrique
jou par les deux hypothses : lhypothse H0 est dite simple (le paramtre vaut une valeur
prcise), tandis que H1 est composite (le paramtre appartient un sous-ensemble de ). Le
risque de seconde espce nest ici calculable que si H1 est galement simple.
Exercice : refaire le test en intgrant les donnes des annes 1986 2004 :
Anne 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997
T (C) 14.19 14.35 14.42 14.28 14.49 14.44 14.16 14.18 14.31 14.47 14.36 14.4
Anne 1998 1999 2000 2001 2002 2003 2004
T (C) 14.71 14.44 14.41 14.56 14.7 14.64 14.61
Tableau 8. Tableau de donnes.
La quasi-totalit des tests dhypothses suit le mme schma, qui peut se rsumer comme
suit :
1.
2.
3.
4.
5.
6.
7.

Choix des hypothses H0 et H1


Choix du risque de premire espce
Choix de la statistique de test
Dtermination de la loi de cette statistique sous H0
Calcul de la zone de rejet
Calcul de la valeur exprimentale de la variable de test et dcision
Si possible, calcul du risque de seconde espce et de la puissance

Par rapport au test relativement simple donn en exemple, ltape la plus difficile en
gnral est le calcul de la loi de la statistique de test sous H0. Bien souvent, des rsultats
asymptotiques (i.e. valables pour un chantillon suffisamment grand) sont utiliss.

IV.3.2. Quelques tests classiques


Tests sur les paramtres dune loi de Gauss
Condition dapplication : lchantillon iid est issu dune loi normale N(,)
H0 : =m0 contre H1 : hypothse alternative (>m0, ou =m1, par exemple)
connu
Statistique de test : X : N (m0 ,

) sous H 0

38

H0 : =m0 contre H1 : hypothse alternative (>m0, ou =m1, par exemple)


inconnu
X m0
Statistique de test : T =
n 1 : Student (n 1) sous H 0 ,
S
1 n
Xi X
n i =1

o S =

est lestimateur de lcart type.

Note : ces deux tests restent applicables si les donnes ne sont pas Gaussiennes avec un
chantillon deffectif au moins 30.
H0 : =0 contre H1 : hypothse alternative
connu
n

Statistique de test :

(Xi

i =1

02

: (n) sous H 0

H0 : =0 contre H1 : hypothse alternative


inconnu
nS
Statistique de test : 2 : (n 1) sous H 0

Tests dajustement une distribution


Les deux tests prsents ci-aprs ont pour but de vrifier que les donnes sont issues dune
distribution F0(x)

Test de Kolmogorov
Conditions dapplications : F0(x) entirement spcifie (i.e. pas de paramtres) et continue.
H0 : donnes issues de F0(x) contre H1 : donnes issues dune autre distribution
Statistique de test :
Dn = sup Fn ( x) F0 ( x) , o Fn(x) est la fonction de rpartition empirique
x

Sous H0, la loi de Dn est tabule

39

Test du
Conditions dapplications : F0(x) doit tre discrte ou discrtise. p1,,pk les probabilits
thoriques de chaque classe, et N1,,Nk les effectifs observs pour chaque classe.
H0 : donnes issues de F0(x) contre H1 : donnes issues dune autre distribution
Statistique de test :
k
( N npi )
D2 = i
npi
i =1
Loi sous H0 :
si F0(x) est entirement spcifie, D : (k 1) asymptotiquement
si F0(x) dpend de l paramtres, alors il faut estimer ces paramtres par maximum de
vraisemblance partir de la loi discrtise, et D : (k 1 l ) asymptotiquement
Note : on admettra lapproximation asymptotique si npi>5 pour toutes les classes (procder
ventuellement des regroupements)
Tests de comparaison dchantillons

Test des variances de Fischer


Conditions dapplication : deux chantillons indpendants de tailles n1 et n2 et de lois
normales N ( 1 , 1 ) et N ( 2 , 2 ) .
H0 : 1=2 contre H1 : 12
n S 2 /(n 1) S1*2
=
, o S *2 est lestimateur sans biais de la
Statistique de test : F = 1 12 1
n2 S2 /(n2 1) S2*2
variance. On mettra au numrateur lchantillon conduisant la variance estime la plus
grande.
Loi sous H0 : F : Fisher (n1 1, n2 1)
Test des moyennes de Student
Conditions dapplication : deux chantillons indpendants de tailles n1 et n2 et de lois
normales N ( 1 , ) et N ( 2 , ) (carts-types inconnus mais gaux).
H0 : 1=2 contre H1 : hypothse alternative
Statistique de test : T =

( X 1 X 2 ) n1 + n2 2
1 1
(n1 S12 + n2 S 22 ) +
n1 n2

: Student (n1 + n2 2) sous H 0

Note : Si les deux chantillons sont suffisamment grands (quelques dizaines dindividus),
le test de Student peut tre appliqu mme si les donnes ne sont pas gaussiennes ou ont des
variances ingales. On dit que ce test est robuste (i.e. peu sensible au non-respect des
conditions dapplication).

40

Test des rangs de Wilcoxon


Conditions dapplication : deux chantillons ( x1 ,..., xn ) et ( y1 ,..., yn ) indpendants de
1

tailles n1<n2. On mlange les chantillons et on note rg(xi) le rang dune observation xi dans
cet chantillon mlang
H0 : Les chantillons sont issus dune mme population contre H1 : hypothse alternative
n

rg ( xi )

n1 (n1 + n2 + 1)
n n (n + n2 + 1)
et = 1 2 1
2

12
Loi sous H0 : S : N (0,1) ds que les deux chantillons sont deffectifs suprieurs 8
Statistique de test : S =

i =1

, o =

Test de corrlation
Conditions dapplication : deux variables X et Y Gaussiennes dont on cherche savoir si
Cov( X , Y )
elles sont corrles. Soit =
le coefficient de corrlation.

XY

H0 : =0 contre H1 : Hypothse alternative


n2
Statistique de test : R =
: Student (n 2) sous H 0
1
Note : Ce test permet galement de tester la nullit du paramtre a dune rgression
Cov( X , Y )

= Y
Y=aX+b, puisque a =
Var ( X )
X
Test de stationnarit

Test de Pettitt
Conditions dapplication : chantillon ( x1 ,..., xn ) dont on cherche savoir sil prsente une
drive (rupture ou tendance)
H0 : Echantillon stationnaire contre H1 : Hypothse alternative
k

Statistique de test : S = max(| U (k ) |) , o U (k ) =


k

i =1 j = k +1

signe( xi x j )

6 s 2
Loi sous H0 : P ( S s0 ) = 2 exp 3 0 2
n +n

41

V. Applications ltude des crues


Nous allons prsent appliquer les mthodes dcrites prcdemment ltude des crues en
hydrologie. Il existe quelques particularits lies aux types de donnes utilises, ou aux
habitudes des hydrologues, mais le cadre thorique est celui de la statistique infrentielle.

V.1. Les donnes


Il nexiste pas de manire unique de dcrire une crue : on peut sintresser une hauteur
deau, un temps de submersion, une vitesse dcoulement La variable la plus utilise par les
hydrologues est le dbit, car cest la variable la moins influence par les conditions locales
aux sites de mesure, et cest aussi celle qui est physiquement la plus maniable (lien avec la
pluie). Malheureusement, un dbit ne peut se mesurer instantanment, comme une hauteur ou
une temprature. Pour pouvoir disposer de chroniques de dbits les plus continues possibles,
on utilise une transformation hauteur/dbit, matrialise par une courbe de tarage. Pour
tracer cette courbe, on effectue quelques mesures conjointes de dbit et de hauteur (cf cours
de E. Leblois pour la mtrologie des dbits), et on ajuste ce nuage de point une courbe par
rgression :

Hauteur

Courbe de tarage

Dbit

Figure 22. Courbe de tarage.


Cette transformation permet de passer dune chronique de hauteurs, mesures quasiment en
continu, une chronique de dbits :

42

Figure 23. Chronique de dbits.


Dans cette chane de traitements, plusieurs sources dincertitudes apparaissent :
Incertitude mtrologique lie la mesure de la hauteur.
Incertitude mtrologique et opratoire lie aux mesures de dbits. Ce type derreur
peut tre assez important pour les dbits de crues et dtiages.
Incertitudes lies lajustement dune courbe de tarage : plusieurs types de courbes
sont ajustables, et plusieurs mthodes dajustement peuvent tre utilises. Les lois
de lhydraulique permettent de guider cette tape.
Incertitude lie lextrapolation : Par nature, les vnements extrmes sont rares,
donc difficiles mesurer. De plus, effectuer un jaugeage en crue est une opration
dlicate, voire prilleuse (pour le matriel et les hommes). Ainsi, les dbits trs
faibles ou trs forts peuvent ne jamais avoir t jaugs, ce qui conduit, lors de la
survenue dun tel vnement, calculer le dbit par une extrapolation loigne du
domaine dobservation, do un important risque derreur.
Toutes ces incertitudes ne sont pas prises en compte en gnral dans lanalyse probabiliste
des crues, qui sattache quantifier la fluctuation dchantillonnage. Il est cependant
important de garder lesprit quun dbit est, la base, une grandeur entache dincertitudes.
Il sera en particulier totalement inutile de travailler avec de trop nombreux chiffres
significatifs.

43

V.2. Lchantillonnage
A partir dune chronique de dbit, il sagit dextraire des variables caractristiques des
crues. Nous nous intresserons ici aux pics de dbits, mais dautres variables peuvent tre
tudies (volume de crue, dure, temps de monte ou de descente, etc)

V.2.1. Techniques dchantillonnage


Nous allons nous intresser aux deux principales techniques utilises par les hydrologues :
lchantillonnage par valeurs maximales annuelles (MAXAN) et lchantillonnage par valeurs
suprieures un seuil (SUPSEUIL).
Lchantillonnage MAXAN consiste slectionner chaque anne le dbit observ le plus
fort. Lchantillonnage SUPSEUIL consiste quant lui choisir un seuil, puis slectionner
les pointes des vnements dpassant ce seuil. Dans la pratique, plutt quun seuil, on se
donne en gnral un nombre dvnements slectionner par an (en moyenne), et par
itrations successives, on calcule le seuil conduisant cet objectif.

Anne hydrologique
: Valeurs maximales annuelles

Figure 24. Echantillonnage de type MAXAN.

44

Figure 25. Echantillonnage de type SUPSEUIL.


Chacune de ces mthodes prsente des avantages et des inconvnients, notamment dans
loptique dune analyse statistique o nous souhaiterions disposer dun chantillon iid :
MAXAN : La mise en uvre de cette mthode est trs simple. En ne slectionnant quun
unique vnement par an, on sassure de lindpendance entre les valeurs, sauf
ventuellement si une crue importante se produit cheval sur deux annes successives,
conduisant, par exemple, chantillonner un dbit le 31 dcembre 2000 et un autre le 1er
janvier 2001. Pour cette raison, on chantillonne souvent par anne hydrologique, chaque
anne tant spare par une priode dtiage. Linconvnient est dignorer un certain nombre
dvnements lors des annes o beaucoup de crues se sont produites, et inversement de
prendre en compte des vnements peu importants lors des annes peu actives.
Lhomognit de lchantillon nest donc pas optimale.
SUPSEUIL : cette technique est plus difficile mettre en uvre. En effet, il faut ajouter
des contraintes dindpendance afin de ne pas chantillonner plusieurs fois le mme
vnement hydrologique, comme dans lexemple ci-dessous :

Figure 26. Illustration de la ncessit des contraintes d'indpendance.


45

On impose en gnral une contrainte despacement temporel minimal entre deux pointes
slectionnes, ainsi quune contrainte de redescente vers un dbit de base. Bien choisies, ces
contraintes permettent de garantir lindpendance de lchantillon. Cet chantillon sera
galement plus homogne que celui fournit par la mthode MAXAN. Autre avantage, il est
possible dtoffer lchantillon en choisissant, en moyenne, plus dun vnement par an.
Dautres subtilits peuvent tre employes pour amliorer lchantillonnage. Citons
notamment lchantillonnage saisonnalis, qui permet par exemple dobtenir deux
chantillons pour les cours deau rgime mixte (pluvio-nival).

V.2.2. Proprits probabilistes des chantillons


Nous noterons X* la variable alatoire gnratrice des donnes fournies par la mthode
MAXAN, et Xs la variable alatoire gnratrice des donnes fournies par la mthode
SUPSEUIL. Lexprience (et le thorme des valeurs extrmes) montrent que les lois
suivantes sont bien adaptes pour dcrire ces variables :
X* suit une loi gnralise des valeurs extrmes (GEV) trois paramtres. On
suppose parfois directement que le paramtre de forme est nul, cest dire quon
choisit plutt de modliser X* par une loi de Gumbel deux paramtres.
Loi de Gumbel Gu(,)
x
1
x
exp
f ( x) = exp

x
F ( x) = exp exp

> 0, > 0
E ( X ) = + , avec = 0.5772 (constante d'Euler-Mascheroni)

6
Loi gnralise des valeurs extrmes GEV(, , ) :
Var ( X ) =

1
1

1 ( x )

f ( x) = 1
exp 1

( x )

F ( x) = exp 1

> 0, > 0, 0, 1
E( X ) = +

(x )
>0

(1 ( + 1))

Var ( X ) = ( (2 + 1) ( + 1) )

46

Xs suit une loi de Pareto gnralise trois paramtres. De mme que pour les
chantillons MAXAN, on se contente souvent dajuster une loi exponentielle
deux paramtres, ce qui correspond supposer que le paramtre de forme est nul.
Loi exponentielle Exp(x0, )
1 x x0
si x > x

0
f ( x) = e
0 sinon

x x0

1 e si x > x
F ( x) =
0
0 sinon
E ( X ) = x0 +

Var ( X ) = 2
Loi de Pareto gnralise GP(x0, , )
1 ( x x0
f ( x) = 1

( x x0 )
F ( x) = 1 1

>0
0
( x x0 )
>0

E( X ) =
+ x0
1+

Var ( X ) =

(1 + ) 2 (1 + 2 )
Lchantillonnage SUPSEUIL conduit sintresser une autre variable, dcrivant le
processus doccurrence des crues. Il est en effet possible de considrer une des variables
suivantes :
Nt, le nombre de crues dans un intervalle de temps [0,t]. On suppose gnralement
que cette variable suit une loi de Poisson :
( t )k
P (Nt = k ) = e t
k!
Dautres lois sont parfois utilises, comme la loi binomiale ou la loi binomiale
ngative.

, le temps sparant deux occurrences de crue, modlis par une loi exponentielle
simple :

1 e t si t > 0
P( t ) =
0 sinon

47

Exercice : Dmontrer que si Nt suit une loi de poisson de paramtre , alors suit une loi
exponentielle simple de mme paramtre .
Il est possible de dmontrer que si le processus doccurrence suit une loi de Poisson et le
processus de dpassement du seuil une loi exponentielle (chantillonnage SUPSEUIL), ces
deux variables tant supposes indpendantes, alors le maximum annuel suit une loi de
Gumbel (MAXAN). De mme, il existe une relation reliant les lois de Poisson + Pareto
gnralise la loi GEV.
Exercice : Dmontrer que si Xs suit une loi exponentielle et Nt suit une loi de Poisson, avec
Xs et Nt indpendantes, alors X* suit une loi de Gumbel.

V.3. Estimation des paramtres des distributions


Une distribution ayant t choisie pour les variables X*, Xs ou Nt, lestimation des
paramtres peut se faire par une des deux mthodes dcrites au chapitre prcdent : la
mthode des moments ou la mthode du maximum de vraisemblance. Pour information, les
hydrologues utilisent parfois une variante de la mthode des moments, appele mthode des
L-moments, qui a pour but de rendre lestimation plus robuste vis--vis des observations
extrmes. Nous nous contentons ci-aprs de donner les formules des estimateurs classiques.

48

V.3.1. Formulaire des estimateurs


Distribution

Variable

Exponentielle
simple
Exp()

, Intervalle

Poisson P()

Gumbel
Gu(,)

X*, debit
MAXAN

GEV(, ,

interoccurrences
Nt, nombre
dvnements
dans [0,t]

X*, debit
MAXAN

Maximum de
vraisemblance

Mthode des moments

idem moments

= Nt
=

idem moments

Nb de crues
Dure d'observation

6
S *
=
X

= X *

Mthode
numrique

(3 + 1) 3( + 1)(2 + 1) + 23 ( + 1)
= X*

1
3
/
2
| |
(2 + 1) 2 ( + 1)

1/ 2
2
=| | S X * (2 + 1) ( + 1)

= X 1 ( + 1)

La premire quation est rsolue numriquement.

1X

Mthode
numrique.
Prfrable car
lexistence des
moments nest
pas assure.

est

le coefficient dasymtrie de lchantillon.


Exponentielle
Exp(x0, )

Xs, dbit
SUPSEUIL

x0 suppos connu (valeur du seuil)

= X s x0

idem moments

x0 suppos connu (valeur du seuil)


Pareto
Gnralise
GP(x0, , )

Xs, dbit
SUPSEUIL

X x

1
S
0

= ( X S x0 )
+ 1
2
S X2

1 ( X S x0 )2

=
1
2 S X2

Mthode
numrique.
Prfrable car
lexistence des
moments nest
pas assure.

V.3.2. Reprsentation graphique


Pour juger de la qualit de lajustement, les hydrologues reprsentent en gnral sur un
mme graphique les fonctions de rpartition empirique et estime. Cependant, par rapport aux
reprsentations classiques que nous avons vues prcdemment, il existe quelques originalits.
Nous allons illustrer ces diffrences partir du jeu de donnes suivant, reprsentant les crues
suprieures 72 m3.s-1 entre 1960 et 2002 pour lUbaye Barcelonnette :

49

QJX
Anne jour
class
72.6 1985 158
73.5 1973 125
74
1979 152
75.6 1994 310
75.8 1984 174
77.7 1986 141
79.9 1977 165
83
1972 158
84.1 1983 160
84.7 1994 267
91
1983 136
98.1 2000 165
100
2001 151
111
2000 289
112
1978 162
120
1963 320
Tableau 9. Tableau de donnes.
Nous allons ajuster une loi exponentielle cet chantillon. Les formules ci-dessus nous
donnent = X s x0 = 88.3 72 = 16.3 . On peut donc prsent tracer, sur un mme
graphique, la fonction de rpartition estime et la fonction de distribution empirique (cest
dire la courbe des frquences cumules, dont nous ne reprsentons que les points observs) :

frquence cumule

1.2
1
0.8
Estime

0.6

Empirique

0.4
0.2
0
50

70

90

110

130

150

Dbit

Figure 27. Fonction de rpartition.


En hydrologie, il est frquent que les axes soient inverss, cest dire que lon portera en
abscisse la frquence cumule, ou probabilit de non-dpassement, et en ordonne le dbit
correspondant :

50

Dbit

150
140
130
120
110
100
90
80
70
60
50

Estime
Empirique

0.2

0.4

0.6

0.8

frquence cumule

Figure 28. Fonction de rpartition.

Dbit

Le seconde originalit est lie au calcul des frquences cumules empiriques : jusquici,
nous utilisions la formule i/N. Cependant, la frquence cumule est une fonction des
observations, cest donc une statistique soumise la fluctuation dchantillonnage. Rien ne
prouve que lestimateur i/N est optimal dans ce cadre. En fait, des tudes ont montr que cet
estimateur est biais pour les distributions que nous utilisons, on lui prfrera donc la formule
i 0.3
. Notons que ceci ne change en rien nos estimations, qui ne dpendent pas
suivante :
N + 0.4
des frquences empiriques.
150
140
130
120
110
100
90
80
70
60
50

Estime
Empirique
Empirique dbiais

0.5

frquence cumule

Figure 29. Fonction de rpartition.


Enfin, il est dusage de linariser la figure ci-dessus, en effectuant une transformation sur
laxe des abscisses. Pour un chantillonnage SUPSEUIL, tant donn la dfinition de la loi

51

Dbit

x x0

1 e si x > x
exponentielle, F ( x) =
0 , on tracera les dbits en fonction de la variable
0 sinon
log(1 p ) . Pour un chantillonnage MAXAN, le changement de variable consistera
reporter en abscisses la variable log( log( p)) .

150
140
130
120
110
100
90
80
70
60
50

Estime
Empirique dbiais

-log(1-p)

Figure 30. Fonction de rpartition.

V.4. Quantiles, priodes de retour et intervalles de confiance


Les graphiques prcdents permettent, tant donn une probabilit p, de calculer le pquantile de la distribution estime des dbits de crue. Ces quantiles sont des descripteurs du
comportement des dbits extrmes sur un site bien prcis. Ils ont galement une importance
rglementaire, en terme damnagement du territoire notamment, puisque les ouvrages
risque (centrales nuclaires, rseaux routiers, zones rsidentielles ou industrielles) doivent tre
protgs dun vnement de probabilit donne, dpendant de la vulnrabilit de
lamnagement. Dans le domaine de lhydrologie, et plus gnralement dans celui de la
gestion des risques, la notion de probabilit de non dpassement est gnralement remplace
par la notion de priode de retour. La priode de retour T dun vnement est la dure
moyenne qui spare deux crues suprieures ou gales cet vnement. Inversement, une crue
de priode de retour T est une crue qui, en moyenne, est gale ou dpasse toutes les T units
de temps. En gnral, lunit de temps est lanne, et les relations suivantes lient les
probabilits de non dpassement et les priodes de retour :
1
Echantillonnage MAXAN : 1 p =
T
1
Echantillonnage SUPSEUIL avec valeurs par an : 1 p =
T
Il est bien important davoir conscience que malgr lutilisation du terme priode , il ny
a pas de priodicit dterministe dans loccurrence des crues, et il est donc tout fait possible
davoir plusieurs crues de priode de retour 10 ans au cours de la mme anne. Il faut donc
bien garder lesprit que la priode de retour nest rien dautre quune probabilit
transforme.
Une crue de priode de retour 10 ans (p=0.9) est dite dcennale, centennale si T=100 ans
(p=0.99), millennale si T=1000 ans (p=0.999).
52

Il est galement possible de calculer analytiquement ces quantiles, en inversant les


fonctions de rpartition. En effet, un quantile qp vrifie, par dfinition, F(qp)=p, soit
q p = F 1 ( p)
Les formules suivantes permettent de calculer les quantiles :
Loi de Gumbel : q p = log( log( p))

1 ( log( p))

Loi Exponentielle: q p = x0 log(1 p )

Loi de Pareto Gnralise: q p = x0 + (1 (1 p) )

GEV: q p = +

Dans la pratique, on calcule ces quantiles en remplaant les paramtres par leur estimation.
Ceci implique que les quantiles, comme toute statistique, sont soumis aux fluctuations
dchantillonnage. Il est donc important de quantifier cette incertitude, pour bien cerner les
limites de notre approche statistique. Il est en effet possible, analytiquement, de donner une
valeur pour un quantile de priode de retour 10 000 ans, mais on sent bien intuitivement que
cette valeur ne signifierait pas grand chose avec 20 ans de donnes disponibles pour
lanalyse
Le calcul des intervalles de confiance est assez fastidieux. Nous nous bornerons ici
donner quelques formules utiles. La formule suivante donne la variance des quantiles pour p
paramtres estims par la mthode des moments :
2

p
q p
q p q p
Var (q p )
Cov(mi , m j )
Var (mi ) + 2

i =1 mi
i =1 j i mi m j
Avec lexemple de la loi exponentielle de lexemple ci-dessus, on obtient ( faire en
p

exercice): Var (q p ) [ log(1 p ) ]

X2

s
.
n
Si on suppose que le quantile est asymptotiquement Gaussien et non biais, alors

lintervalle de confiance au niveau est de la forme q p u1(1 ) / 2 Var (q p ) , o u1-(1-)/2 est

Dbit

le quantile de la loi normale N(0,1). La figure ci-dessous prsente lintervalle de confiance


90% :
250
230
210
190
170
150
130
110
90
70
50

Estime
Empirique dbiais

-log(1-p)

Figure 31. Fonction de rpartition et intervalle de confiance 90%.

53

Cette hypothse de normalit asymptotique des quantiles est considrer avec prcaution,
surtout si leffectif de lchantillon nest pas trs important. Il existe des thormes, proche du
thorme central limite, garantissant thoriquement cette normalit, mais certaines lois que
nous utilisons peuvent invalider les hypothses de ces thormes. En particulier, les lois GEV
et de Pareto Gnralise peuvent avoir des moments infinis.
Plusieurs formules plus ou moins empiriques ont donc t tablies pour calculer des
intervalles de confiance plus ralistes. Pour une loi de Gumbel, on utilise en gnral
lapproximation suivante :
Borne infrieure : q p h1
Borne suprieure : q p + h2
Avec : h1 =

A B
A+ B
et h1 =
C
C

A = u1(1 ) / 2
B = (u1(1 ) / 2 )

1 + 1.13t p + 1.1(t p ) 2
n
2 1.1t p + 0.57

n
1.1
C = 1
(u1(1 ) / 2 )2
n
log( log( p)) 0.577
tp =
1.28
Notons que si n est grand, alors B devient ngligeable devant A, et lintervalle de confiance
devient symtrique, signe de convergence vers la normalit.
Voici un exemple dintervalle de confiance 90% partir dun chantillon MAXAN
deffectif 21 :

Figure 32. Fonction de rpartition et intervalle de confiance 90%.

54

On voit clairement que cet intervalle nest pas symtrique, et que lestimation de dbits de
priodes de retour 100 ou 1000 ans avec seulement 20 annes de donnes est illusoire,
puisque les valeurs varient dans lintervalle de confiance du simple au double.
Une alternative intressante et simple mettre en uvre pour dterminer ces intervalles est
lutilisation des mthodes de rchantillonnage, le bootstrap notamment, qui permettent de ne
pas poser dhypothses a priori sur la distribution des quantiles.

55

VI. Annexes

QIXA10 estim

Annexe 1 : La mthode CRUPEDIX

QIXA10 observ

56

Annexe 2 : tables usuelles

Fonction de rpartition
de la loi normale rduite
Probabilit de trouver
une valeur infrieure u
P
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9

u
F(u)

0.00
0.5000
0.5398
0.5793
0.6179
0.6554
0.6915
0.7257
0.7580
0.7881
0.8159
0.8413
0.8643
0.8849
0.9032
0.9192
0.9332
0.9452
0.9554
0.9641
0.9713
0.9772
0.9821
0.9861
0.9893
0.9918
0.9938
0.9953
0.9965
0.9974
0.9981
0.00

0.01
0.5040
0.5438
0.5832
0.6217
0.6591
0.6950
0.7291
0.7611
0.7910
0.8186
0.8438
0.8665
0.8869
0.9049
0.9207
0.9345
0.9463
0.9564
0.9649
0.9719
0.9778
0.9826
0.9864
0.9896
0.9920
0.9940
0.9955
0.9966
0.9975
0.9982
0.01

0.02
0.5080
0.5478
0.5871
0.6255
0.6628
0.6985
0.7324
0.7642
0.7939
0.8212
0.8461
0.8686
0.8888
0.9066
0.9222
0.9357
0.9474
0.9573
0.9656
0.9726
0.9783
0.9830
0.9868
0.9898
0.9922
0.9941
0.9956
0.9967
0.9976
0.9982
0.02

0.03
0.5120
0.5517
0.5910
0.6293
0.6664
0.7019
0.7357
0.7673
0.7967
0.8238
0.8485
0.8708
0.8907
0.9082
0.9236
0.9370
0.9484
0.9582
0.9664
0.9732
0.9788
0.9834
0.9871
0.9901
0.9925
0.9943
0.9957
0.9968
0.9977
0.9983
0.03

0.04
0.5160
0.5557
0.5948
0.6331
0.6700
0.7054
0.7389
0.7704
0.7995
0.8264
0.8508
0.8729
0.8925
0.9099
0.9251
0.9382
0.9495
0.9591
0.9671
0.9738
0.9793
0.9838
0.9875
0.9904
0.9927
0.9945
0.9959
0.9969
0.9977
0.9984
0.04

P=F(u)

0.05
0.5199
0.5596
0.5987
0.6368
0.6736
0.7088
0.7422
0.7734
0.8023
0.8289
0.8531
0.8749
0.8944
0.9115
0.9265
0.9394
0.9505
0.9599
0.9678
0.9744
0.9798
0.9842
0.9878
0.9906
0.9929
0.9946
0.9960
0.9970
0.9978
0.9984
0.05

0.06
0.5239
0.5636
0.6026
0.6406
0.6772
0.7123
0.7454
0.7764
0.8051
0.8315
0.8554
0.8770
0.8962
0.9131
0.9279
0.9406
0.9515
0.9608
0.9686
0.9750
0.9803
0.9846
0.9881
0.9909
0.9931
0.9948
0.9961
0.9971
0.9979
0.9985
0.06

0.07
0.5279
0.5675
0.6064
0.6443
0.6808
0.7157
0.7486
0.7794
0.8078
0.8340
0.8577
0.8790
0.8980
0.9147
0.9292
0.9418
0.9525
0.9616
0.9693
0.9756
0.9808
0.9850
0.9884
0.9911
0.9932
0.9949
0.9962
0.9972
0.9979
0.9985
0.07

0.08
0.5319
0.5714
0.6103
0.6480
0.6844
0.7190
0.7517
0.7823
0.8106
0.8365
0.8599
0.8810
0.8997
0.9162
0.9306
0.9429
0.9535
0.9625
0.9699
0.9761
0.9812
0.9854
0.9887
0.9913
0.9934
0.9951
0.9963
0.9973
0.9980
0.9986
0.08

0.09
0.5359
0.5753
0.6141
0.6517
0.6879
0.7224
0.7549
0.7852
0.8133
0.8389
0.8621
0.8830
0.9015
0.9177
0.9319
0.9441
0.9545
0.9633
0.9706
0.9767
0.9817
0.9857
0.9890
0.9916
0.9936
0.9952
0.9964
0.9974
0.9981
0.9986
0.09

0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
P

3
3.1
3.2
3.3
3.4
3.5
3.6
3.8
4
4.5
0.998650 0.999032 0.999313 0.999517 0.999663 0.999767 0.999841 0.999928 0.999968 0.999997

Lorsque u est ngatif, il faut prendre le complment lunit


de la valeur lue dans la table : F(u)=1-F(-u)
Ex. : pour u = 1.21, F(u)= 0.8869, pour u = -1.21, F(u)= 0.1131

57

Fractiles de la loi normale centre rduite


Valeur de u telle
que Prob(X < u) = P
avec P donne
P
0.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.10
0.11
0.12
0.13
0.14
0.15
0.16
0.17
0.18
0.19
0.20
0.21
0.22
0.23
0.24
0.25
0.26
0.27
0.28
0.29
0.30
0.31
0.32
0.33
0.34
0.35
0.36
0.37
0.38
0.39
0.40
0.41
0.42
0.43
0.44
0.45
0.46
0.47
0.48
0.49

0.000
2.3263
2.0537
1.8808
1.7507
1.6449
1.5548
1.4758
1.4051
1.3408
1.2816
1.2265
1.1750
1.1264
1.0803
1.0364
0.9945
0.9542
0.9154
0.8779
0.8416
0.8064
0.7722
0.7388
0.7063
0.6745
0.6433
0.6128
0.5828
0.5534
0.5244
0.4958
0.4677
0.4399
0.4125
0.3853
0.3585
0.3319
0.3055
0.2793
0.2533
0.2275
0.2019
0.1764
0.1510
0.1257
0.1004
0.0753
0.0502
0.0251
0.000

0.001
3.0902
2.2904
2.0335
1.8663
1.7392
1.6352
1.5464
1.4684
1.3984
1.3346
1.2759
1.2212
1.1700
1.1217
1.0758
1.0322
0.9904
0.9502
0.9116
0.8742
0.8381
0.8030
0.7688
0.7356
0.7031
0.6713
0.6403
0.6098
0.5799
0.5505
0.5215
0.4930
0.4649
0.4372
0.4097
0.3826
0.3558
0.3292
0.3029
0.2767
0.2508
0.2250
0.1993
0.1738
0.1484
0.1231
0.0979
0.0728
0.0476
0.0226
0.001

0.002
2.8782
2.2571
2.0141
1.8522
1.7279
1.6258
1.5382
1.4611
1.3917
1.3285
1.2702
1.2160
1.1650
1.1170
1.0714
1.0279
0.9863
0.9463
0.9078
0.8706
0.8345
0.7995
0.7655
0.7323
0.6999
0.6682
0.6372
0.6068
0.5769
0.5476
0.5187
0.4902
0.4621
0.4344
0.4070
0.3799
0.3531
0.3266
0.3002
0.2741
0.2482
0.2224
0.1968
0.1713
0.1459
0.1206
0.0954
0.0702
0.0451
0.0201
0.002

0.003
2.7478
2.2262
1.9954
1.8384
1.7169
1.6164
1.5301
1.4538
1.3852
1.3225
1.2646
1.2107
1.1601
1.1123
1.0669
1.0237
0.9822
0.9424
0.9040
0.8669
0.8310
0.7961
0.7621
0.7290
0.6967
0.6651
0.6341
0.6038
0.5740
0.5446
0.5158
0.4874
0.4593
0.4316
0.4043
0.3772
0.3505
0.3239
0.2976
0.2715
0.2456
0.2198
0.1942
0.1687
0.1434
0.1181
0.0929
0.0677
0.0426
0.0175
0.003

P=F(u)

0.004
2.6521
2.1973
1.9774
1.8250
1.7060
1.6072
1.5220
1.4466
1.3787
1.3165
1.2591
1.2055
1.1552
1.1077
1.0625
1.0194
0.9782
0.9385
0.9002
0.8632
0.8274
0.7926
0.7588
0.7257
0.6935
0.6620
0.6311
0.6008
0.5710
0.5417
0.5129
0.4845
0.4565
0.4289
0.4016
0.3745
0.3478
0.3213
0.2950
0.2689
0.2430
0.2173
0.1917
0.1662
0.1408
0.1156
0.0904
0.0652
0.0401
0.0150
0.004

0.005
2.5758
2.1701
1.9600
1.8119
1.6954
1.5982
1.5141
1.4395
1.3722
1.3106
1.2536
1.2004
1.1503
1.1031
1.0581
1.0152
0.9741
0.9346
0.8965
0.8596
0.8239
0.7892
0.7554
0.7225
0.6903
0.6588
0.6280
0.5978
0.5681
0.5388
0.5101
0.4817
0.4538
0.4261
0.3989
0.3719
0.3451
0.3186
0.2924
0.2663
0.2404
0.2147
0.1891
0.1637
0.1383
0.1130
0.0878
0.0627
0.0376
0.0125
0.005

0.006
2.5121
2.1444
1.9431
1.7991
1.6849
1.5893
1.5063
1.4325
1.3658
1.3047
1.2481
1.1952
1.1455
1.0985
1.0537
1.0110
0.9701
0.9307
0.8927
0.8560
0.8204
0.7858
0.7521
0.7192
0.6871
0.6557
0.6250
0.5948
0.5651
0.5359
0.5072
0.4789
0.4510
0.4234
0.3961
0.3692
0.3425
0.3160
0.2898
0.2637
0.2378
0.2121
0.1866
0.1611
0.1358
0.1105
0.0853
0.0602
0.0351
0.0100
0.006

0.007
2.4573
2.1201
1.9268
1.7866
1.6747
1.5805
1.4985
1.4255
1.3595
1.2988
1.2426
1.1901
1.1407
1.0939
1.0494
1.0069
0.9661
0.9269
0.8890
0.8524
0.8169
0.7824
0.7488
0.7160
0.6840
0.6526
0.6219
0.5918
0.5622
0.5330
0.5044
0.4761
0.4482
0.4207
0.3934
0.3665
0.3398
0.3134
0.2871
0.2611
0.2353
0.2096
0.1840
0.1586
0.1332
0.1080
0.0828
0.0577
0.0326
0.0075
0.007

0.008
2.4089
2.0969
1.9110
1.7744
1.6646
1.5718
1.4909
1.4187
1.3532
1.2930
1.2372
1.1850
1.1359
1.0893
1.0451
1.0027
0.9621
0.9230
0.8853
0.8488
0.8134
0.7790
0.7454
0.7128
0.6808
0.6495
0.6189
0.5888
0.5592
0.5302
0.5015
0.4733
0.4454
0.4179
0.3907
0.3638
0.3372
0.3107
0.2845
0.2585
0.2327
0.2070
0.1815
0.1560
0.1307
0.1055
0.0803
0.0552
0.0301
0.0050
0.008

0.009
2.3656
2.0748
1.8957
1.7624
1.6546
1.5632
1.4833
1.4118
1.3469
1.2873
1.2319
1.1800
1.1311
1.0848
1.0407
0.9986
0.9581
0.9192
0.8816
0.8452
0.8099
0.7756
0.7421
0.7095
0.6776
0.6464
0.6158
0.5858
0.5563
0.5273
0.4987
0.4705
0.4427
0.4152
0.3880
0.3611
0.3345
0.3081
0.2819
0.2559
0.2301
0.2045
0.1789
0.1535
0.1282
0.1030
0.0778
0.0527
0.0276
0.0025
0.009

0.010
2.3263
2.0537
1.8808
1.7507
1.6449
1.5548
1.4758
1.4051
1.3408
1.2816
1.2265
1.1750
1.1264
1.0803
1.0364
0.9945
0.9542
0.9154
0.8779
0.8416
0.8064
0.7722
0.7388
0.7063
0.6745
0.6433
0.6128
0.5828
0.5534
0.5244
0.4958
0.4677
0.4399
0.4125
0.3853
0.3585
0.3319
0.3055
0.2793
0.2533
0.2275
0.2019
0.1764
0.1510
0.1257
0.1004
0.0753
0.0502
0.0251
0.0000
0.010

0.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.10
0.11
0.12
0.13
0.14
0.15
0.16
0.17
0.18
0.19
0.20
0.21
0.22
0.23
0.24
0.25
0.26
0.27
0.28
0.29
0.30
0.31
0.32
0.33
0.34
0.35
0.36
0.37
0.38
0.39
0.40
0.41
0.42
0.43
0.44
0.45
0.46
0.47
0.48
0.49
P

58

Fractiles pour la loi du Khi-2


ndl degrs de libert
Valeur p telle que Prob(X < p) = P
avec P donne

1 -p

p
p

ndl
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
50
60
70
80
90
100

0.005
0.0000
0.0100
0.0717
0.207
0.412
0.676
0.989
1.34
1.73
2.16
2.60
3.07
3.57
4.07
4.60
5.14
5.70
6.26
6.84
7.43
8.03
8.64
9.26
9.89
10.52
11.16
11.81
12.46
13.12
13.79
20.71
27.99
35.53
43.28
51.17
59.20
67.33

0.01
0.0002
0.0201
0.115
0.297
0.554
0.872
1.24
1.65
2.09
2.56
3.05
3.57
4.11
4.66
5.23
5.81
6.41
7.01
7.63
8.26
8.90
9.54
10.20
10.86
11.52
12.20
12.88
13.56
14.26
14.95
22.16
29.71
37.48
45.44
53.54
61.75
70.06

0.025
0.0010
0.0506
0.216
0.484
0.831
1.24
1.69
2.18
2.70
3.25
3.82
4.40
5.01
5.63
6.26
6.91
7.56
8.23
8.91
9.59
10.28
10.98
11.69
12.40
13.12
13.84
14.57
15.31
16.05
16.79
24.43
32.36
40.48
48.76
57.15
65.65
74.22

0.05
0.0039
0.103
0.352
0.711
1.15
1.64
2.17
2.73
3.33
3.94
4.57
5.23
5.89
6.57
7.26
7.96
8.67
9.39
10.12
10.85
11.59
12.34
13.09
13.85
14.61
15.38
16.15
16.93
17.71
18.49
26.51
34.76
43.19
51.74
60.39
69.13
77.93

0.10
0.0158
0.211
0.584
1.06
1.61
2.20
2.83
3.49
4.17
4.87
5.58
6.30
7.04
7.79
8.55
9.31
10.09
10.86
11.65
12.44
13.24
14.04
14.85
15.66
16.47
17.29
18.11
18.94
19.77
20.60
29.05
37.69
46.46
55.33
64.28
73.29
82.36

0.25
0.102
0.575
1.21
1.92
2.67
3.45
4.25
5.07
5.90
6.74
7.58
8.44
9.30
10.17
11.04
11.91
12.79
13.68
14.56
15.45
16.34
17.24
18.14
19.04
19.94
20.84
21.75
22.66
23.57
24.48
33.66
42.94
52.29
61.70
71.14
80.62
90.13

0.50
0.455
1.39
2.37
3.36
4.35
5.35
6.35
7.34
8.34
9.34
10.34
11.34
12.34
13.34
14.34
15.34
16.34
17.34
18.34
19.34
20.34
21.34
22.34
23.34
24.34
25.34
26.34
27.34
28.34
29.34
39.34
49.33
59.33
69.33
79.33
89.33
99.33

0.75
1.32
2.77
4.11
5.39
6.63
7.84
9.04
10.22
11.39
12.55
13.70
14.85
15.98
17.12
18.25
19.37
20.49
21.60
22.72
23.83
24.93
26.04
27.14
28.24
29.34
30.43
31.53
32.62
33.71
34.80
45.62
56.33
66.98
77.58
88.13
98.65
109.14

0.90
2.71
4.61
6.25
7.78
9.24
10.64
12.02
13.36
14.68
15.99
17.28
18.55
19.81
21.06
22.31
23.54
24.77
25.99
27.20
28.41
29.62
30.81
32.01
33.20
34.38
35.56
36.74
37.92
39.09
40.26
51.81
63.17
74.40
85.53
96.58
107.57
118.50

0.95
3.84
5.99
7.81
9.49
11.07
12.59
14.07
15.51
16.92
18.31
19.68
21.03
22.36
23.68
25.00
26.30
27.59
28.87
30.14
31.41
32.67
33.92
35.17
36.42
37.65
38.89
40.11
41.34
42.56
43.77
55.76
67.50
79.08
90.53
101.88
113.15
124.34

0.975
5.02
7.38
9.35
11.14
12.83
14.45
16.01
17.53
19.02
20.48
21.92
23.34
24.74
26.12
27.49
28.85
30.19
31.53
32.85
34.17
35.48
36.78
38.08
39.36
40.65
41.92
43.19
44.46
45.72
46.98
59.34
71.42
83.30
95.02
106.63
118.14
129.56

0.99
6.63
9.21
11.34
13.28
15.09
16.81
18.48
20.09
21.67
23.21
24.73
26.22
27.69
29.14
30.58
32.00
33.41
34.81
36.19
37.57
38.93
40.29
41.64
42.98
44.31
45.64
46.96
48.28
49.59
50.89
63.69
76.15
88.38
100.43
112.33
124.12
135.81

0.995
7.88
10.60
12.84
14.86
16.75
18.55
20.28
21.95
23.59
25.19
26.76
28.30
29.82
31.32
32.80
34.27
35.72
37.16
38.58
40.00
41.40
42.80
44.18
45.56
46.93
48.29
49.65
50.99
52.34
53.67
66.77
79.49
91.95
104.21
116.32
128.30
140.17

0.999
10.83
13.82
16.27
18.47
20.51
22.46
24.32
26.12
27.88
29.59
31.26
32.91
34.53
36.12
37.70
39.25
40.79
42.31
43.82
45.31
46.80
48.27
49.73
51.18
52.62
54.05
55.48
56.89
58.30
59.70
73.40
86.66
99.61
112.32
124.84
137.21
149.45

59

Centiles tp pour la distribution t


de Student ndl degrs de libert
Valeur de tp telle que Prob(X < tp) = P
avec P donne

ndl
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
120
99999999

t0.55
0.158
0.142
0.137
0.134
0.132
0.131
0.130
0.130
0.129
0.129
0.129
0.128
0.128
0.128
0.128
0.128
0.128
0.127
0.127
0.127
0.127
0.127
0.127
0.127
0.127
0.127
0.127
0.127
0.127
0.127
0.126
0.126
0.126
0.126

t0.60
0.325
0.289
0.277
0.271
0.267
0.265
0.263
0.262
0.261
0.260
0.260
0.259
0.259
0.258
0.258
0.258
0.257
0.257
0.257
0.257
0.257
0.256
0.256
0.256
0.256
0.256
0.256
0.256
0.256
0.256
0.255
0.254
0.254
0.253

t0.70
0.727
0.617
0.584
0.569
0.559
0.553
0.549
0.546
0.543
0.542
0.540
0.539
0.538
0.537
0.536
0.535
0.534
0.534
0.533
0.533
0.532
0.532
0.532
0.531
0.531
0.531
0.531
0.530
0.530
0.530
0.529
0.527
0.526
0.524

t0.75
1.000
0.816
0.765
0.741
0.727
0.718
0.711
0.706
0.703
0.700
0.697
0.695
0.694
0.692
0.691
0.690
0.689
0.688
0.688
0.687
0.686
0.686
0.685
0.685
0.684
0.684
0.684
0.683
0.683
0.683
0.681
0.679
0.677
0.674

t0.80
1.376
1.061
0.978
0.941
0.920
0.906
0.896
0.889
0.883
0.879
0.876
0.873
0.870
0.868
0.866
0.865
0.863
0.862
0.861
0.860
0.859
0.858
0.858
0.857
0.856
0.856
0.855
0.855
0.854
0.854
0.851
0.848
0.845
0.842

t0.90
3.08
1.89
1.64
1.53
1.48
1.44
1.41
1.40
1.38
1.37
1.36
1.36
1.35
1.35
1.34
1.34
1.33
1.33
1.33
1.33
1.32
1.32
1.32
1.32
1.32
1.31
1.31
1.31
1.31
1.31
1.30
1.30
1.29
1.28

t0.95
6.31
2.92
2.35
2.13
2.02
1.94
1.89
1.86
1.83
1.81
1.80
1.78
1.77
1.76
1.75
1.75
1.74
1.73
1.73
1.72
1.72
1.72
1.71
1.71
1.71
1.71
1.70
1.70
1.70
1.70
1.68
1.67
1.66
1.64

t0.975
12.71
4.30
3.18
2.78
2.57
2.45
2.36
2.31
2.26
2.23
2.20
2.18
2.16
2.14
2.13
2.12
2.11
2.10
2.09
2.09
2.08
2.07
2.07
2.06
2.06
2.06
2.05
2.05
2.05
2.04
2.02
2.00
1.98
1.96

t0.99
31.82
6.96
4.54
3.75
3.36
3.14
3.00
2.90
2.82
2.76
2.72
2.68
2.65
2.62
2.60
2.58
2.57
2.55
2.54
2.53
2.52
2.51
2.50
2.49
2.49
2.48
2.47
2.47
2.46
2.46
2.42
2.39
2.36
2.33

t0.995
63.66
9.92
5.84
4.60
4.03
3.71
3.50
3.36
3.25
3.17
3.11
3.05
3.01
2.98
2.95
2.92
2.90
2.88
2.86
2.85
2.83
2.82
2.81
2.80
2.79
2.78
2.77
2.76
2.76
2.75
2.70
2.66
2.62
2.58

60

Distribution F (percentile 95%)


La table donne le percentile 95%
(valeur ayant 5 chances sur 100 dtre
gale ou dpasse) de la fonction F en
fonction des nombres de degrs de libert
du numrateur dln et du dnominateur dld
avec dln > dld

dln

dld

1
1
161.4
2
18.51
3
10.13
4
7.71
5
6.61
6
5.99
7
5.59
8
5.32
9
5.12
10
4.96
11
4.84
12
4.75
13
4.67
14
4.60
15
4.54
16
4.49
17
4.45
18
4.41
19
4.38
20
4.35
21
4.32
22
4.30
23
4.28
24
4.26
25
4.24
26
4.23
27
4.21
28
4.20
29
4.18
30
4.17
40
4.08
60
4.00
120
3.92
99999999 3.84

2
199.5
19.00
9.55
6.94
5.79
5.14
4.74
4.46
4.26
4.10
3.98
3.89
3.81
3.74
3.68
3.63
3.59
3.55
3.52
3.49
3.47
3.44
3.42
3.40
3.39
3.37
3.35
3.34
3.33
3.32
3.23
3.15
3.07
3.00

3
215.7
19.16
9.28
6.59
5.41
4.76
4.35
4.07
3.86
3.71
3.59
3.49
3.41
3.34
3.29
3.24
3.20
3.16
3.13
3.10
3.07
3.05
3.03
3.01
2.99
2.98
2.96
2.95
2.93
2.92
2.84
2.76
2.68
2.60

4
224.6
19.25
9.12
6.39
5.19
4.53
4.12
3.84
3.63
3.48
3.36
3.26
3.18
3.11
3.06
3.01
2.96
2.93
2.90
2.87
2.84
2.82
2.80
2.78
2.76
2.74
2.73
2.71
2.70
2.69
2.61
2.53
2.45
2.37

5
230.2
19.30
9.01
6.26
5.05
4.39
3.97
3.69
3.48
3.33
3.20
3.11
3.03
2.96
2.90
2.85
2.81
2.77
2.74
2.71
2.68
2.66
2.64
2.62
2.60
2.59
2.57
2.56
2.55
2.53
2.45
2.37
2.29
2.21

6
234.0
19.33
8.94
6.16
4.95
4.28
3.87
3.58
3.37
3.22
3.09
3.00
2.92
2.85
2.79
2.74
2.70
2.66
2.63
2.60
2.57
2.55
2.53
2.51
2.49
2.47
2.46
2.45
2.43
2.42
2.34
2.25
2.18
2.10

7
236.8
19.35
8.89
6.09
4.88
4.21
3.79
3.50
3.29
3.14
3.01
2.91
2.83
2.76
2.71
2.66
2.61
2.58
2.54
2.51
2.49
2.46
2.44
2.42
2.40
2.39
2.37
2.36
2.35
2.33
2.25
2.17
2.09
2.01

8
238.9
19.37
8.85
6.04
4.82
4.15
3.73
3.44
3.23
3.07
2.95
2.85
2.77
2.70
2.64
2.59
2.55
2.51
2.48
2.45
2.42
2.40
2.37
2.36
2.34
2.32
2.31
2.29
2.28
2.27
2.18
2.10
2.02
1.94

9
240.5
19.38
8.81
6.00
4.77
4.10
3.68
3.39
3.18
3.02
2.90
2.80
2.71
2.65
2.59
2.54
2.49
2.46
2.42
2.39
2.37
2.34
2.32
2.30
2.28
2.27
2.25
2.24
2.22
2.21
2.12
2.04
1.96
1.88

10
241.9
19.40
8.79
5.96
4.74
4.06
3.64
3.35
3.14
2.98
2.85
2.75
2.67
2.60
2.54
2.49
2.45
2.41
2.38
2.35
2.32
2.30
2.27
2.25
2.24
2.22
2.20
2.19
2.18
2.16
2.08
1.99
1.91
1.83

15
245.9
19.43
8.70
5.86
4.62
3.94
3.51
3.22
3.01
2.85
2.72
2.62
2.53
2.46
2.40
2.35
2.31
2.27
2.23
2.20
2.18
2.15
2.13
2.11
2.09
2.07
2.06
2.04
2.03
2.01
1.92
1.84
1.75
1.67

20
248.0
19.45
8.66
5.80
4.56
3.87
3.44
3.15
2.94
2.77
2.65
2.54
2.46
2.39
2.33
2.28
2.23
2.19
2.16
2.12
2.10
2.07
2.05
2.03
2.01
1.99
1.97
1.96
1.94
1.93
1.84
1.75
1.66
1.57

40
251.1
19.47
8.59
5.72
4.46
3.77
3.34
3.04
2.83
2.66
2.53
2.43
2.34
2.27
2.20
2.15
2.10
2.06
2.03
1.99
1.96
1.94
1.91
1.89
1.87
1.85
1.84
1.82
1.81
1.79
1.69
1.59
1.50
1.39

60
252.2
19.48
8.57
5.69
4.43
3.74
3.30
3.01
2.79
2.62
2.49
2.38
2.30
2.22
2.16
2.11
2.06
2.02
1.98
1.95
1.92
1.89
1.86
1.84
1.82
1.80
1.79
1.77
1.75
1.74
1.64
1.53
1.43
1.32

dln = nombre de degrs de libert pour la plus grande estimation


de fluctuation
dld = nombre de degrs de libert pour la plus petite estimation de
fluctuation

61

Table du test de Kolmogorov-Smirnov


Valeurs de dn telles que p=P(Dn<dn)

62

Table du test de Kolmogorov-Smirnov (suite)

63