Hydrologie Et Probabilités

ENSHMG Poly Traitement de donnes en Hydrologie
Ph. Bois, Ch. Obled Version 22/01/2007 Page 1 sur 265

Institut National Polytechnique
de Grenoble

E.N.S. d'Hydraulique et Mcanique de
Grenoble
ENSHMG

INTRODUCTION
au TRAITEMENT de DONNEES en
HYDROLOGIE

par Ph. Bois, Ch. Obled et I. Zin

Professeurs et Matre de Confrences
l'ENSHMG
7
me
dition revue et complte Janvier 2007

LEdition du Millnaire
COURS POLYCOPIE

Transmettre vos remarques Isabella Zin, Matre de Confrences
lENSHMG, responsable de ce cours depuis 2004: Isabella.Zin@hmg.inpg.fr


"TRAITEMENT de DONNEES en HYDROLOGIE"

AVERTISSEMENT AU LECTEUR

Cet ensemble d'opuscules rassembls en un document polycopi n'est pas un Trait de
Statistiques!... Ce n'est qu'une introduction, destine plus prcisment aux Applications de la
Statistique en Hydrologie. Ceci s'adresse principalement des tudiants de 2
me
cycle, du
niveau 2
me
anne d'Ecole d'Ingnieurs, ainsi qu' des formations professionnalises du type
DESS ou formation continue.

Mais d'abord: Pourquoi utilise-t-on, (- et de manire assez intensive..! -), les
statistiques en Hydrologie?

Rponse: Parce que l'hydrologie doit apporter des lments de dcision
(dimensionnement d'ouvrages par exemple) qui concernent le futur, et donc un avenir
incertain. Que ce soit pour anticiper les apports qui viendront remplir un rservoir, pour
choisir le dbit vacuer par un ouvrage de scurit en cas de crue "extrme", ou pour
dcider de ce que peut tre une scheresse svre et s'en prmunir, les dmarches employes
s'appuieront toujours sur les donnes observes dans le pass.., et en tireront des conclusions
pour le futur...

L'objectif de ces documents est donc de prsenter, parfois succinctement, les concepts
lmentaires de quelques mthodes statistiques les plus couramment utilises en Hydrologie.
Ce cours est conu pour venir aprs des cours d'initiation aux Probabilits et aux Statistiques,
souvent placs en premire anne de second cycle. Mais l'issue de ce premier contact, il
apparat que les tudiants ont encore peu de pratique ou d'exprience, (- par exemple sur ce
que recouvre la notion de fluctuations d'chantillonnage...-), et mme parfois un dbut
d'allergie vis vis de ces matires..!
Par ailleurs, un petit nombre d'entre eux aborde en fait la statistique directement par le
biais de l'hydrologie. On trouvera donc aussi quelques rappels de notions thoriques,
prsentes parfois d'une manire "intuitive" qui doit parfois faire frmir certains de nos
collgues mathmaticiens...

Les mthodes dcrites ici seront utilises par les lves sur des exemples concrets,
traits essentiellement la main, afin que loutil informatique nocculte pas le concept
acqurir. Cependant, on utilisera parfois aussi des logiciels adapts, ou on signalera leur
existence. Outre ceux dvelopps en interne l'Ecole dHydraulique, on citera notamment
SAFARHY (Logiciel de calculs statistiques et d'analyse frquentielle adapt l'valuation du
risque en Hydrologie) distribu par les Editions de l'IRD (Institut de Recherche en
Dveloppement, ex-ORSTOM), ainsi que des logiciels commerciaux comme STATISTICA

(marque protge), avec lequel la plupart des graphiques de ce document ont t tracs.
Nanmoins, leur volution est tellement rapide quil faudra toujours refaire une petite tude
de march au moment den choisir un..

Sur un plan plus mthodologique, voire pdagogique, on fera assez souvent appel la
"simulation stochastique"; c'est dire qu'un certain nombre d'exemples sappuieront sur des
chantillons synthtiques, gnrs alatoirement, mais provenant de lois de probabilits bien
dfinies, choisies et imposes a priori , donc connues. Ceci permettra par exemple dinitier le
lecteur aux problmes de tests (une loi donne est-elle acceptable pour reprsenter cet
chantillon ?) et dchantillonnage.

Notre objectif est qu' la fin de cette courte formation, l'lve ait acquis une autonomie
suffisante pour comprendre et acqurir par lui-mme d'autres mthodes ou approfondir celles
qu'il aura apprises.

Ce document d" Introduction au Traitement de Donnes en Hydrologie" est donc loin
d'tre exhaustif, et on y trouvera surtout les quelques mthodes statistiques les plus utilises,
notamment pour l'Hydrologie de Projet. Il a t crit conu initialement pour les lves des
filires "Ressources en Eau et Amnagements" et "Gnie Hydraulique et Ouvrages" du
Dpartement GENIE de l'ENVIRONNEMENT l'Ecole dHydraulique de Grenoble (INPG-
ENSHMG), et pour le DESS "Eaux Souterraines" de lUniversit Joseph FOURIER. Il a t
utilis aussi en Matrise de Gologie, de Mcanique, ainsi que pour la filire Hydraulique de
l'ENTPE.

Il est en voie dtre complt par un autre fascicule, intitul "Hydrologie
Oprationnelle", dans lequel ces notions lmentaires de traitement de donnes sont
largement utilises pour les problmes notamment de crues de projet .

Cependant, les hydrologues confirms utilisent aussi d'autres techniques d'analyse
statistique, encore plus labores. Certaines sont prsentes l'ENSHMG au cours de la 3
me
anne, dans la filire "Ressources en Eau", et dans le DEA "Gophysique et Environnement".
Ce sont par exemple l'analyse des sries temporelles, l'analyse de donnes
multidimensionnelles, ou la gostatistique des processus spatiaux. On se rfrera aux
documents correspondants de MM. Duband, Bois et Obled.

Enfin, ce document est le rsultat d'un travail collectif. De nombreux emprunts ont t
faits, soit des ouvrages cits en rfrence, soit des documents de travail ou des rapports
d'tudes faits par des collgues que nous tenons remercier ici et que nous citerons au fil du
texte. En dpit des efforts d'homognisation faits par les rdacteurs, nul doute qu'il reste
quelques diffrences de style ou incohrences de notations, sans compter quelques erreurs sur
lesquelles pourra s'exercer la sagacit du lecteur... Merci de nous les signaler.

Donc tous, bon courage, et bonne lecture..!

Les auteurs-compositeurs

Ph. BOIS et Ch. OBLED

Note : Par rapport aux ditions antrieures, on a ajout le chapitre sur la corrlation
multiple et le chapitre sur la critique des donnes

PLAN GENERAL

"TRAITEMENT de DONNEES
en HYDROLOGIE"

1
re
Partie: MODELES PROBABILISTES 7

Chap. I: DESCRIPTION D'UN ECHANTILLON 7

Chap. II: MODELES PROBABILISTES LES PLUS COURANTS 35
Chap. III: ESTIMATION ET TECHNIQUES
D'AJUSTEMENT A UN ECHANTILLON 85

2
me
Partie: LIAISONS STOCHASTIQUES ENTRE VARIABLES 129

Chap. IV: CORRELATION LINEAIRE SIMPLE 131

Chap. V: CORRELATION LINEAIRE MULTIPLE 173

3
me
Partie: CRITIQUE DE DONNEES 203

Chap. VI: QUELQUES METHODES SIMPLES 205

Chap. VII: LA METHODE DU CUMUL DES RESIDUS 237

4
me
Partie: Annexes Tables de Student et du Chi2 263

Note Importante (*):

Dans les chapitres qui suivent, certains paragraphes sont marqus d'un astrisque (*).
Cela signifie qu'ils comportent des dveloppements ou des dmonstrations qui peuvent
tre ignors en premire lecture.

1
re
Partie: MODELES PROBABILISTES

CHAPITRE I :

DESCRIPTION D'UN ECHANTILLON

I) Rappel sur les Variables Alatoires: 9

I-1) Exemples et Dfinitions: 9
I-2) Rappels sur les Lois de Probabilit: 9
I-3) Moments d'une Loi de Probabilit: 12
I-4) Analyse d'un chantillon: 13

II) Description numrique d'un chantillon : 14

II-1) Paramtres de Position: 14
II-2) Paramtres de Dispersion : 15
II-3) Paramtres d' Asymtrie : 18
II-4) Paramtres d' Aplatissement : 18

III) Description graphique : 23

III-1) Histogramme des frquences empiriques : 23
III-2) Courbe des frquences cumules. Fonction de rpartition empirique: 26

IV) Complments thoriques : 29

IV-1) Notion de Priode de retour 29
IV-2) Changements de variables 32

1
re
Partie - CHAPITRE I :

DESCRIPTION D'UN ECHANTILLON

I) RAPPEL sur les VARIABLES ALEATOIRES:

I-1) EXEMPLES et DEFINITIONS:

Les variables que l'on manipule en hydrologie (prcipitations, dbits, tempratures, mais aussi niveau
de nappe phratique, hauteur d'enneigement, dure d'insolation, etc...), vont tre considres comme des
Variables Alatoires.
La Variable Alatoire, parfois note V.A., est une variable formelle, note en majuscule, par exemple
X:
X = "Prcipitation annuelle la station de Grenoble"

Cette variable prendra une valeur x
k
chaque "tirage alatoire", chaque ralisation k. Cela peut choquer
certains de considrer comme alatoire quelque chose que l'on peut (avec les moyens adquats), mesurer
exactement.
Par exemple, en 1988, la variable X a pris la valeur x
88
= 734 mm.

Il n'en reste pas moins que, si l'on veut dimensionner un barrage pour compenser le manque d'eau
ncessaire certaines cultures, il faudra s'intresser aux annes futures (- par exemple de 1994, fin de la
construction de l'ouvrage, 2044, fin de la priode d'amortissement -). Or on ne savait pas en 1994 ce que
seraient les ralisations de la variable alatoire X en 1995, 96 etc.., c'est dire x
95
, x
96
, x
97
etc...

On se trouve alors en avenir incertain: aucune approche dterministe, aucune mesure ou mthode
dductive ne peut nous dire exactement, en 1994, ce que sera la ralisation x
98
de X en 1998...

Tout au plus pourra-t-on supposer que les phnomnes gnrateurs de la pluie seront les mmes que
dans le pass rcent, et on fera l'hypothse que les ralisations futures de la variable alatoire X auront les
mmes caractristiques, la mme distribution statistique que par le pass.... (Autrement dit, on suppose que le
Dieu de la Pluie tirera toujours dans la mme urne pour dcider de la pluie de l'anne suivante...).
Naturellement, cette hypothse ne sappliquera qu un futur relativement proche : sur une dure un peu
suprieure la dure damortissement de louvrage, ou encore de lordre de grandeur de sa dure de vie utile,
cest dire sur quelques dizaines dannes

Un autre type de problme courant en hydrologie conduit utiliser les mmes outils : il ne concerne
plus le futur, mais concerne l'chantillonnage dans l'espace. Par exemple, si on considre la conductivit
hydraulique saturation d'un sol, on conoit qu'il s'agit d'un paramtre dterministe, que l'on peut mesurer en
tout point avec un infiltromtre.

Mais on conoit aussi que pour un bassin versant, ou une parcelle agricole de taille importante, il soit
conomiquement impossible de faire ces essais partout. On les ralisera donc en quelques points seulement,
supposs reprsentatifs du domaine. On constatera que les valeurs mesures varient, de manire difficile
prvoir, mais dans une gamme de valeurs assez stables (mme si on augmente l'chantillon).

On fera alors l'hypothse que, en un ou des points non mesurs, la variable alatoire X = Conductivit
hydraulique saturation, prend des valeurs inconnues, difficiles voire impossibles prdire exactement, mais
qui auront les mmes caractristiques, la mme distribution statistique que l'chantillon des valeurs
effectivement mesures en quelques points.

I-2) RAPPELS sur les LOIS de PROBABILITE:

On va donc chercher bientt dcrire et rsumer un chantillon, considr comme un sous-ensemble
d'une population qui sera souvent infinie.
Sur cette population, on peut dfinir une loi de probabilit:

F(x) o x correspond une valeur numrique.

Cette loi de probabilit, ou fonction de rpartition, exprime la :

"Probabilit que la Variable Alatoire X
reste infrieure ou gale la valeur Numrique x."

F x x ( ) Pr( = X )
Exemple:
Probabilit que la Variable Alatoire "Pluie Journalire Grenoble" reste infrieure la valeur numrique x =10
mm: c'est bien une fonction de x, car si au lieu de x =10 mm, on met x = 15 mm, la probabilit change. Cette
probabilit est mme plus grande, car on a plus de chance d'tre en dessous de 15 que de 10 mm.
________________
Evidemment, cette loi dpend aussi de la population considre, par une forme analytique et des valeurs de
coefficients particuliers, propres cette population.
Rappelons cependant quelques proprits gnrales dune loi de probabilit:

+ la fonction de rpartition de la variable alatoire X est une fonction monotone non
dcroissante de la variable relle x (cf. exemple cf. figure 1).

En effet, si x = 15 et x + dx = 17, il est vident (mais il faut s'en convaincre!) que:

F x F F x dx F ( ) ( ) Pr( ( ) ( ) Pr( = = X ) est plus petit que = = X ) 15 15 17 17 +

Mais par contre, on ne peut avoir: (cf. contre-exemple figure 1-b ci-contre)

= X ) plus grand que = X ) F F ( ) Pr( ( ) Pr( 15 15 17 17

On donne ci aprs quelques exemples de formes possibles pour la fonction de rpartition :


Figure I

+ La probabilit que X tombe dans l'intervalle:
x < X x + dx
est videmment (- ... mais l aussi il faut s'en convaincre! -):

) ( - ) ( = ) X Pr( - ) X Pr( = ) X Pr( x F dx x F x dx x dx x x + + + <

+ On voudrait d'ailleurs connatre aussi la probabilit que X soit strictement gal x... Mais
parmi l'infinit des valeurs possibles, cette probabilit Pr ( X = x) est quasi nulle si la variable x est continue (on
verra plus loin le cas des variables discrtes).

Par contre, si on se donne un peu plus de latitude, par exemple si on se donne un intervalle dx et que
l'on veut :
Pr ( x < X x+dx)
alors cette probabilit dpend :
- de la longueur de dx :
(plus dx augmente, plus on a de chance de tomber dans l'intervalle
[x, x + dx])

- mais aussi de la position de x :
Il y a des valeurs de x autour desquelles la densit d'individus, (- ou
encore : de ralisations de la V.A. X) est plus grande qu'ailleurs.

On exprime cela en crivant que:
Pr ( x X x+dx) = f( x ).dx

et on appelle la fonction f(x) la densit de probabilit de X

+ Mais alors, qu'est-ce que f(x)?

On a dfini f(x), pour dx petit comme:

Pr ( x X x+dx) = f( x ) .dx

Mais on peut vrifier (- bien rflchir nouveau ...-) que:

Pr( ) ( ) X ) = F( - x x dx x dx F x + +

on obtient donc : f ( = F( - ou encore f ( =
F( -
x dx x dx F x x
x dx F x
dx
). ) ( ) )
) ( )
+
+

et si on rduit l'intervalle considr (dx 0) alors:

f (x ) = F'(x)

et la densit de probabilit est la drive premire de la fonction de rpartition.

I-3) MOMENTS d'une LOI de PROBABILITE:

On considrera aussi que certaines caractristiques de cette loi, et donc de cette population, sont
contenues dans les moments de la loi F(x).

On dmontre mme que si tous les moments de la loi sont connus, la loi est connue compltement. ( cf. par
exemple VIALAR 1986).

Mais dfinissons dabord les moments, par exemple la moyenne
x
et l'cart-type
x
de la population.
On appelle moment d'ordre 1 l'intgrale:

x
+
-
1
simplement encore appellera on l' que ). ( .
= dx x f x
x

C'est lesprance mathmatique ou encore la moyenne de la population, que lon peut voir de deux manires
quivalentes comme :
- la somme de toutes les tirages possibles, mme si certaines valeurs sortent plusieurs fois , ( divise
par le nombre de tirages possible)
- ou la somme de toutes les valeurs possibles, mais chacune tant pondre par son nombre
dapparition ( divis par le nombre de tirages possible), donc pondre par sa probabilit
d'apparatre !

Le moment d'ordre 2 s'crit: ). ( .
+
-
2
2

= dx x f x
x

mais partir de l'ordre 2, on prfre utiliser les moments centrs, c'est dire :

). ( . ) (
+
-
2
2

= dx x f x
x
x
encore appel Variance et not
x

de mme on calculerait le moment d'ordre 3 :

... , ,..., , ). ( . ) (
4
+
-
3
3
etc dx x f x
x x x
p x

=

Et on verra plus loin que l'on dpasse rarement l'ordre 4..!

I-4) ANALYSE d'un ECHANTILLON:

A dfaut de pouvoir apprhender toute la population qui nous intresse, on dispose souvent d'un
chantillon de n valeurs d'une variable X.

Exemple:
les tempratures moyennes mensuelles de Fvrier Grenoble de 1900 1990,
soit 91 valeurs

Mais ds que n est grand ( quelques dizaines), la lecture du tableau n'est pas aise, et il n'est pas utile
de le transmettre entirement pour permettre un interlocuteur de s'en faire une ide.

C'est pourquoi il est intressant d'effectuer une synthse de ce tableau:

+ synthse numrique (on le rsume en quelques chiffres)

+ synthse graphique (on le rsume en une courbe)

+ synthse analytique (on le rsume par une fonction analytique, un modle cf. chapitre II)

Certes on perdra de l'information mais on y gagnera en clart. C'est ce que nous allons voir dans le paragraphe et
les chapitres suivants.
***
Notations Dans tout ce document, nous noterons :

en lettres grecques les caractristiques de la population, par exemple
x
et
x

et
en lettres latines les caractristiques d'un chantillon, par exemple m
x
et s
x

II- DESCRIPTION NUMERIQUE D'UN ECHANTILLON:

Soit x
i
, (i de 1 n), les n valeurs de l'chantillon.

On va chercher tirer de ce tableau quelques repres numriques, reprsentatifs non seulement de
l'chantillon, mais si possible aussi de la population dont il est extrait.

Pour clairer ces notions simples, on utilisera la "simulation stochastique", c'est dire un moyen
"simple" pour "fabriquer" des chantillons issus d'une mme population (i.e. tirs de la mme urne de
caractristiques imposes). Ainsi l'on pourra travailler sur un grand nombre d'chantillons tous diffrents mais
dont on sait, pour les avoir fabriqus, quils proviennent de la mme population de caractristiques connues.

II-1) Paramtres de POSITION:

Ce sont des paramtres qui prcisent peu prs l'ordre de grandeur le plus courant de X. On utilise
couramment:

a) Moyenne arithmtique :
On la dfinit (- en lettres latines car elle est estime sur un chantillon -) par:

=
=
n
i
i
x
n
x
1
x
1
m ou
C'est un descripteur simple, qui a les avantages dtre :

+ Robuste : ne varie pas trop d'un chantillon l'autre (on aura des prcisions dans la suite du cours
pour certaines populations).

+ Convergent : si n tend vers l'infini, la moyenne ainsi dfinie tend vers la moyenne de la population
(ce qui aurait t galement le cas si on avait divis par n-1 au lieu de n).

+ Non biais : si on fait le calcul pour un grand nombre d'chantillons diffrents de taille n, la moyenne
de ces moyennes est une bonne estimation, ni plutt par excs ni plutt par dfaut de la moyenne de la
population (ce qui n'aurait pas t le cas si on avait divis par n-1 au lieu de n).

mais qui prsente des dfauts:

- Ne donne aucune ide des variations de x
i
autour de cette valeur.

- Pour certaines distributions (notamment asymtriques ou multimodales), la moyenne n'est pas toujours
une valeur trs probable.

Exemple:
A Grenoble, la moyenne de l'insolation journalire en Fvrier est de 4 heures; mais en fait, peu de
journes ont autour de 4 heures d'insolation: schmatiquement, ou bien il fait beau, et il y a 8 heures d'insolation,
ou bien il fait mauvais, et il n'y pas d'insolation du tout. (Pour l'anecdote, la mconnaissance de cette observation
lmentaire a amen certains constructeurs d'installations solaires mal dimensionner ces installations).
________________

Mais on peut penser d'autres paramtres de position:

b) la Mdiane :

C'est la valeur x
Med
ou x
50%
telle que :
X a 50% de chance d'tre suprieure x
Med
mais aussi 50% de chance de lui tre infrieure.

c) le Mode :

C'est la valeur x
Mod
autour de laquelle on trouve le plus de valeurs , celle qui est la plus frquente, ou la plus
probable.

Exemple:
Si on considre une variable alatoire comme le salaire des salaris dclar lors du recensement de la
population de 1992 , on constate que le salaire moyen est voisin de 9000 FF (car il inclue notamment quelques
"gros salaires", qui apparaissent pisodiquement dans un journal satirique paraissant le Mercredi....).
Par contre le salaire Mdian est plutt voisin de 8500 FF ( la moiti des franais gagnent moins et l'autre gagne
plus).
Enfin le salaire le plus frquent est encore le SMIC, voisin de 5000 FF...
( Pour le lecteur soucieux dtre jour, on rappelle quun Euro = 6,55957 FF )

Complment:
On notera aussi que d'un point de vue analytique, le mode correspond au maximum de la densit de probabilit
f(x) et donc vrifie que sa drive f '(x
Mod
) = 0

II-2) Paramtres de DISPERSION:

Aprs avoir "positionn" la gamme de valeurs de X, on cherche donner une ide de la fluctuation des
x
i
dans lchantillon.

a) Extrmes ( tendue)

Une faon simple consiste prciser minimum et maximum de lchantillon.

Simples dterminer sur un chantillon, ils ont le dfaut d'tre peu robustes, c'est dire de varier
considrablement d'un chantillon l'autre d'une mme population (sauf videmment pour des populations
bornes comme l'insolation).

Il en est de mme de l'tendue = Max Min

b) Variance et cart type :

On le dfinit sur l'chantillon par :
1
1
2
n
x m V
i x
i
n
( ) =
=
= s
x
2

Soit
2
= la valeur de ce terme dans la population infinie.

On conoit que si n tend vers l'infini, V tend vers
2
, c'est dire que s
x
est un estimateur convergent de
.

Mais si pour n donn, on effectue ce calcul pour un grand nombre d'chantillons (en utilisant pour
centrer chaque chantillon la moyenne empirique m
x
de cet chantillon), on va trouver que la moyenne des V
est en gnral infrieure
2
V est donc un estimateur convergent mais biais de .

Il est alors intressant de le dbiaiser, d'o les dfinitions:

Variance = Carr de l'cart type =
x
, sera estime par:

{
( )
n
i
x i x
m x
n
s
1
2 2

1 -
1
=
si x ou m
x
est calcul sur l'chantillon.
Par contre:
( )
n
i
x i x
x
n
s
1
2 2
1
=
si on connat
x
la vraie moyenne de la population. (Ce deuxime cas est pratiquement inconnu en
Hydrologie..!).

c) Coefficient de variation CV :
On dfinit aussi:
CV
s
m
s
x
x
x
x
x
x
= estim par ou

qui compare donc la fluctuation la valeur moyenne.

C'est une grandeur adimensionnelle, qui ne dpend pas des units, si x est une mesure, mais qui dpend de
l'origine choisie pour la variable X

(-Attention par exemple aux tempratures exprimes en units ordinaires Celsius ou Fahrenheit!. le
coefficient de variation de la temprature exprime en degr Kelvin est beaucoup plus faible que celui de la
temprature en Celsius...!
Et ce coefficient de variation est mme absurde, en Celsius, pour une station de montagne comme le grand
Saint Bernard o la moyenne est proche de 0C, car il devient quasi infini.. !)


d) Paramtres de distribution : mdiane et quantiles

On a dj vu la mdiane, qui est le quantile 50%.

Plus gnralement, on dira que Q
k%
est le "quantile k %" de l'chantillon si k% des valeurs
observes x
i
sont infrieures ou gales Q
k%
.
Les plus utiliss sont :
Premier dcile : Valeur non dpasse dans 10 % des cas
Dernier dcile : Valeur non dpasse dans 90 % des cas
(ou non atteinte dans 10 % des cas)

Mdiane : Valeur non dpasse dans 50 % des cas.

Ces paramtres sont relativement robustes ( plus que les extrmes !).

On parlera parfois, pour caractriser la dispersion, d'intervalles interquantiles :

X
90
- X
10
interdcile X
75
- X
25
interquartile

II-3) Paramtres d'ASYMETRIE :

On dfinit le coefficient d'asymtrie CS (Coefficient of Skewness) sur la population par:
CS =
3
2
x
x
3
2
estim sur l'chantillon par CS
m
s
=
3
x
x
3

o
2x
=
x
2
et
3x
sont respectivement les Moments centrs d'ordre 2 et 3.

On a vu que le premier tait estim par:
( )
n
i
x i x
m x
n
s
1
2 2
1
1
=
quand
3x
, moment d'ordre 3, on l'estime par:

(
(
|
.
|
\
|
+

= = = =
n
i
n
i
n
i
i i i
n
i
i
x
n
x x x n
n n
m
x
1 1
3
1
2
1
3
3
.
2
. . 3 .
) 2 ).( 1 (
1
=

CS est un paramtre peu robuste si n est petit (i.e. limit quelques dizaines).

II-4) Paramtres d'APLATISSEMENT :

Dj moins utiliss, ils caractrisent si, pour une mme valeur des paramtres prcdents, la distribution est plus
ou moins aplatie ou au contraire concentre en pic autour de l'axe.

Ce paramtre (appel kurtosis en anglais) dpend du moment d'ordre 4 de la population; il s'crit:

4
4
x
x

L encore, si l'chantillon est petit, il est peu robuste et surtout trs sensible aux valeurs extrmes.(On l'utilise
peu en hydrologie)
Exemples sur donnes simules:

On a tir d'une loi de Gauss, (loi de probabilit simple et assez rpandue - cf. Chap. II), de moyenne
thorique 1000 et d'cart type thorique 200, 20 chantillons diffrents (10 de taille 10 et 10 de taille 100). On
verra dans un chapitre ultrieur comment on gnre des donnes simules.

Pour chaque chantillon, on a calcul la moyenne, les extrmes, l'cart type, la mdiane (que l'on a pris
comme moyenne des 5 et 6 valeurs dans l'ordre croissant pour les chantillons de taille 10, et moyenne des 50
et 51 valeurs dans l'ordre croissant pour les chantillons de taille 100. Le tableau I dcrit ces valeurs.

Echantillon Moy Min Max 1 Mdiane 9 s N
N dc. dc.

n=10
1 1067 746 1408 - 1070 - 211 10
2 1036 827 1284 - 1040 - 130 10
3 1002 868 1149 - 982 - 87 10
4 983 584 1457 - 860 - 329 10
5 974 644 1250 - 1014 - 164 10
6 893 757 1203 - 860 - 129 10
7 973 764 1253 - 950 - 179 10
8 1006 655 1368 - 990 - 241 10
9 1046 699 1345 - 1050 - 191 10
10 977 700 1295 - 980 - 175 10

n=100
11 1016 552 1487 720 1005 1200 200 100
12 1003 559 1589 760 992 1200 184 100
14 975 459 1481 737 988 1218 191 100
15 992 463 1506 715 990 1315 212 100
16 995 634 1409 752 990 1222 181 100
17 1001 611 1529 750 992 1240 191 100
18 1025 562 1518 749 1017 1311 209 100
19 979 550 1577 766 963 1182 176 100
20 1031 560 1474 784 1020 1290 185 100

TABLEAU I : Echantillons gnrs alatoirement.

Note : on a not 1dc. et 9 dc. = premier et dernier dcile;
ceux ci n'ont pas t dtermins pour les chantillons 1 10 de taille 10.
On constate :
- la robustesse des moyennes et des mdianes.

- la grande variabilit des extrmes d'un chantillon l'autre.

En outre, on pourrait retrouver que la prcision d'estimation (cart entre la valeur dans la population et
dans l'chantillon) est fonction de la racine carre de la taille; c'est dire que les paramtres calculs sur les
chantillons de taille 100 ne sont pas 10 fois plus prcis que ceux calculs sur les chantillons de taille 10 mais
plutt 3 fois plus prcis.

Rsum:

Pour dcrire numriquement et simplement un chantillon, on donnera en gnral:

- la moyenne arithmtique
- l'cart type
- la mdiane
- les dciles infrieurs et suprieurs

Exemple sur donnes relles :

On donne, ci-contre, un tableau de valeurs de dbits de la Romanche Riouproux. Il est difficile en la scrutant
de sen faire une ide rapide.
Mais comme on peut le voir ci dessous, le petit rsum des valeurs prcdemment dfinies renseigne rapidement
sur les valeurs de la fluctuation des dbits:

Moy: 12.7 13. 17.2 29.2 65. 87.3 75.6 55.2 37.9 27.6 23.6 16.3 38.4
s : 5.5 6.5 7.1 11.4 28.6 26.1 19.9 14.0 13.8 14.7 15.3 6.8 8.2

1d. 7.2 6.5 10. 14. 37 53 56 41 22 16 11 9.2 29
Md: 12 12.5 16. 28 61 85 72 52 35 22 19 15.2 37
9d. 17 18 26 45 94 120 100 76 58 52 38 24.2 52

Min 2.2 5.1 7.2 8.1 22.9 35.9 42 22.6 17.8 12.3 5.6 2.9 16.9
Max 37.5 40 41.2 57.1 182 140 143 86.6 71.3 86.8 89.1 38.2 58

Tableau rcapitulatif des valeurs numriques les plus significatives
des dbits de la Romanche Riouproux

1d : = 1 dcile (valeur non atteinte dans 10% des cas)
Mdiane : Valeur non atteinte dans 50% des cas
9d : = 9 dcile (valeur non atteinte dans 90% des cas.

Dbits mensuels (en m
3
/s) de la Romanche Riouproux de 1907 1948 .

AN J F M A M J J A S O N D Ann.

1907 7.0 6.7 13.3 22.2 67.8 111 65 63.8 26.2 24.5 16.2 23.8 37.3
1908 9.0 9.2 9.7 14.4 83.2 82.4 63.3 43.2 28.1 17.0 11.1 8.7 31.6
1909 7.6 6.4 7.3 33.0 43.5 46.9 54.7 44.0 20.9 22.2 14.6 14.7 26.3

1910 16.7 13.1 13.4 21.3 47.9 117. 92.9 58.6 21.1 24.9 25.5 24.1 39.8
1911 15.2 13.0 14.3 18.9 40.3 95.9 83.8 51.0 27.6 22.9 15.5 12.0 34.2
1912 13.1 12.9 18.5 31.1 81.7 92.8 78.0 64.6 23.2 28.1 16.5 10.3 39.2
1913 9.1 8.9 16.0 25.9 62.8 104. 50.2 40.6 36.0 27.5 23.1 14.0 34.9
1914 8.2 10.1 22.9 57.1 61.6 60.4 86.5 86.6 33.0 17.8 16.3 13.2 39.5

1915 11.5 13.2 14.0 21.6 107. 111. 93.5 48.7 21.0 17.0 15.9 23.4 41.5
1916 12.9 16.6 14.1 30.0 89.2 86.6 75.1 46.2 26.0 18.1 26.3 18.9 38.3
1917 13.3 9.0 10.1 12.1 96.9 101. 58.6 48.3 29.0 29.5 15.3 9.9 36.1
1918 8.6 7.9 7.8 8.1 45.1 55.5 65.6 44.0 58.1 15.6 9.8 20.3 28.9
1919 14.4 13.0 14.9 26.3 81.6 130. 64.6 61.5 24.5 20.6 22.2 17.6 41.0

1920 20.5 16.0 25.8 30.3 93.2 77.7 77.6 22.6 41.2 18.1 11.0 6.7 36.0
1921 7.2 6.4 7.2 10.0 22.9 35.9 42.0 32.1 17.8 12.3 5.6 2.9 16.9
1922 2.2 5.1 11.4 14.0 47.0 54.8 67.9 57.8 28.6 20.3 30.1 15.2 29.5
1923 11.8 13.5 17.0 25.0 77.6 68.6 107. 50.2 27.4 42.4 23.8 22.9 40.7
1924 16.7 10.7 19.0 43.8 115. 99.1 76.6 31.4 50.5 21.5 22.1 15.6 43.5

1925 9.2 11.3 10.6 19.2 52.9 93.9 80.8 84.4 24.7 16.5 14.4 14.0 36.0
1926 18.4 26.1 24.3 43.0 67.0 132. 95.5 58.0 39.0 57.2 53.2 18.3 52.7
1927 14.0 13.7 21.2 41.8 182. 118. 88.2 76.0 58.4 21.1 34.1 16.0 57.1
1928 14.3 20.1 17.2 24.0 41.1 99.0 52.1 43.2 56.0 86.8 61.7 22.2 44.8
1929 14.4 13.1 17.4 21.5 61.6 99.7 60.7 47.8 30.0 24.2 15.2 17.0 35.2

1930 15.8 13.0 22.4 28.6 73.4 122. 82.0 58.1 40.4 53.3 33.1 22.0 47.0
1931 16.3 12.5 41.2 30.0 47.5 140. 65.0 82.8 46.7 32.9 21.6 13.1 45.8
1932 12.3 9.0 10.2 14.9 42.7 55.9 66.8 50.4 42.3 37.5 14.6 10.2 30.6
1933 10.7 11.1 11.8 24.1 39.1 52.4 81.0 52.7 48.0 53.7 29.1 16.2 35.8
1934 11.2 11.9 14.8 35.5 75.0 72.5 58.3 51.2 33.8 21.2 18.3 24.2 35.7

1935 11.3 12.6 19.9 28.5 62.5 110. 106. 74.7 45.0 51.1 89.1 26.6 53.2
1936 37.5 40.0 28.8 44.5 83.4 93.2 143. 73.8 68.2 35.1 26.4 21.7 57.9
1937 17.0 32.2 33.5 45.6 84.1 108. 87.6 64.1 60.3 28.6 19.7 38.2 51.6
1938 15.8 14.3 17.2 22.4 23.6 59.1 61.1 45.7 23.5 19.6 14.3 13.0 27.5
1939 9.8 9.8 11.8 26.3 30.6 83.7 78.5 52.4 33.8 34.3 37.6 16.1 35.4

1940 11.2 13.2 21.5 31.0 51.6 80.4 92.8 52.4 56.2 31.0 33.2 17.4 41.0
1941 14.9 16.0 20.1 33.4 51.8 123. 122. 77.3 34.5 16.9 17.4 9.8 44.7
1942 7.2 6.4 18.9 28.8 49.4 66.6 57.8 48.2 44.7 22.9 26.4 10.2 32.3
1943 9.0 9.5 15.6 39.9 58.7 72.6 59.2 59.9 71.3 17.6 10.3 10.8 36.2
1944 7.8 8.8 10.6 30.5 41.3 45.6 59.5 51.6 47.2 32.9 41.4 29.2 33.9

1945 10.8 12.7 17.5 47.8 76.4 83.7 70.9 51.8 25.9 16.0 14.0 10.5 36.5
1946 9.0 11.5 15.7 38.4 36.5 72.2 78.4 52.5 34.9 12.3 10.6 9.2 31.8
1947 12.5 11.4 29.4 51.6 79.2 73.2 65.1 50.3 34.6 16.3 16.1 13.0 37.7
1948 18.7 16.0 26.4 31.6 54.9 77.3 61.4 65.5 51.3 20.0 19.2 10.1 37.7

Figure 3

III) DESCRIPTION GRAPHIQUE :

Objectifs :

Prsenter sur un graphique les caractristiques essentielles de l'chantillon.

III-1) HISTOGRAMME des FREQUENCES EMPIRIQUES:

C'est une ide simple:
on se fixe des classes C
k
dfinies par leurs bornes [a
k
,
a
k+1
]
on compte le nombre de valeurs de
l'chantillon dans chaque classe.

Avantages : Facile comprendre

Dfaut : Le nombre de classes et le choix des classes est laiss l'initiative de l'individu. Si bien que pour un
mme chantillon, surtout s'il est de taille assez rduite (qq. dizaines d'lments), les aspects de ces
histogrammes peuvent tre assez diffrents selon le choix effectu.

Les figures 3 ci-contre illustrent cette variabilit de tracs d'un choix l'autre. C'est pourquoi ce mode
de description n'est pas trs utilis surtout si l'chantillon est de taille assez rduite.

Une rgle empirique consiste prendre:

Nc = nombre de classes = 1 + 4/3 Log(N)

(avec N = taille de l'chantillon et le log est Nprien)

Exemple : Pour N = 30 , on fera environ 5 classes, pour N = 50 , 6 classes
et pour N = 100 , 7 classes

Le trac de l'histogramme, surtout avec un chantillon bien fourni, permet de supputer la forme de la
densit de probabilit f(x) (symtrique ou non, uni- ou multimodale etc...) et de choisir un ou des modles
possibles.

Ceux ci seront ensuite tests et valids, mais plutt sur la fonction de rpartition.
***
Complment d'interprtation (sur l'histogramme):

Pour aider la comprhension, on peut donner une petite analogie "mcanique" la moyenne: quand on
construit l'histogramme, on donne un poids de 1 chaque individu.
Si on considre l'axe des x comme le bras d'une balance, on peut alors chercher le point pivot de cet axe tel que
le moment des forces qui s'exercent droite et gauche se compensent. C'est le barycentre, ou encore la
moyenne.
On comprend alors que, si on ajoute ne serait-ce qu'un seul point mais trs cart de la distribution, son bras de
levier est tel qu'il faut sensiblement dplacer le pivot pour compenser son effet et rtablir l'quilibre.

Figure 4

Par contre, ce point ne modifiera pas beaucoup la mdiane, telle que 50% des points sont gauche et 50%
droite, (mais peu importe leur loignement sur l'axe...!):
La mdiane est donc plus robuste que la moyenne.

De mme on peut penser dcrire la dispersion autour de la moyenne comme le font les mcaniciens
pour dcrire l'inertie la rotation d'un corps autour d'un axe. Si on prend un axe vertical passant par la
moyenne m
x
, et que l'on fait tourner l'histogramme autour de cet axe, le moment d'inertie des points d'abscisse x
i

et de masse 1 sur une droite serait:
( )
2
1
n
i
i
x x et on pourrait en prendre la moyenne par individu:
(cf. Thorme de Huyghens: le moment d'inertie d'ordre 2 par rapport un axe est minimum si cet axe est situ
au centre de gravit).
Ici encore, l'adjonction d'un individu loign de l'axe augmente sensiblement l'inertie de rotation, et donc la
variance empirique (qui sera moins robuste qu'un intervalle interdcile).

Enfin, plus on considre des moments d'ordre lev, plus un individu "extrme", un horsain, aura de
poids dans le calcul de ce moment (d'o une sensibilit croissante des moments l'chantillonnage quand leur
ordre augmente)
On remarquera aussi que des chantillons (ou des populations) plus "tals" ou disperss ont
videmment une variance plus grande, et donc qu'il faut "mcaniquement" plus d'nergie pour les mettre en
rotation autour de leur axe.

Note:
Ces considrations "mcanistes" n'ont pas pour seul but d'aider les personnes de formation mcanicienne se
raccrocher des notions connues. Elles seront souvent la base des raisonnements utiliss en statistique
multidimensionnelle (analyse en composantes principales, analyse discriminante, etc...)

Figure 5


III-2) COURBE des FREQUENCES CUMULEES
FONCTION DE REPARTITION EMPIRIQUE
Objectifs :

Trouver une reprsentation graphique assez complte pour dcrire l'chantillon.

Cette fois on va chercher :

- utiliser toute l'information donne par l'ensemble des valeurs (ce que l'on ne faisait pas
quand on regroupait en classes avec l'histogramme des frquences relatives).
- anticiper sur les mthodes d'ajustements probabilistes (cf. . Chap. II )

La premire ide est de tracer la courbe en escalier :

F
*
(x
i
) = Proportion des valeurs de l'chantillon infrieures ou gales x
i

= Frquence empirique, observe, des valeurs x
i
infrieures ou gales x
i
. =
N
i
(o N
est la taille de l'chantillon).

Le dfaut est que l'on ne donne pas la mme importance au minimum qu'au maximum,
puisque: F
*
(Min) =
N
1
et F
*
(Max) = 1.

D'o l'ide des statisticiens :

- si l'chantillon est tir d'une loi de probabilit dfinie par sa fonction de rpartition
F(x) = Probabilit qu'une valeur X tire au hasard de la population soit infrieure ou gale x,
- essayons de tracer partir de l'chantillon une courbe la plus voisine de F(x) (en gnral inconnue).
Ceci permettra non seulement une description de l'chantillon mais peut tre une aide la recherche de F(x).

Pour cela classons les n valeurs x
i
dans l'ordre croissant
d'o un chantillon de N valeurs x
i
classes.

On montre qu'une bonne estimation assez simple de F(x
j
) = Pr (Xx
j
)

est fournie par :

F
*
(x
i
) =
b N
a i
+

o a et b ont un optimum qui dpendent de la loi dont sont issus les chantillons
Il faudrait donc la connatre a priori pour bien choisir la faon de pointer les valeurs observes , alors que lon
fait ce point justement pour essayer de dterminer la loi la plus plausible On fera donc des paris et des
compromis

Exemples: Loi Normale (Gauss) a = 0.375 b = 0.25 (cf. dfinitions de ces
lois dans le chapitre II)
Loi de Gumbel a = 0 b = 1

Nous prendrons souvent: a = 0.5 et b = 0.5 ou a = 0.5 et b = 0

d'o les formules d'estimation de la probabilit empirique

Pr(Xx
i
) =
1 . 2
1 . 2
+
N
i
ou
N
i
. 2
1 . 2
avec i le rang de la valeur x
i

Attention:

Le choix de cette faon d'estimer la probabilit et de la pointer sur un diagramme ("plotting position" en
anglais) n'est pas tout fait neutre et a reu une grande attention
de la part de certains auteurs (cf. Yevjevitch V. 1972 ou Haan Ch.T. 1977, p. 135 ou, plus rcemment, et pour
une loi particulire, larticle de Nophadol et Nguyen 1989).
On verra dans l'analyse des valeurs extrmes que cela a une certaine importance.

_____________

On trace ensuite les points sur un diagramme.
Mais en diagramme arithmtique, o les axes Ox et Oy sont gradus linairement, les courbes obtenues ont
souvent la forme d'un S (sigmodes) et il est difficile d'en dduire une forme de loi et de les distinguer. C'est
pourquoi on utilise souvent des papiers o l'chelle des F
*
est distordue (papier de Gauss, papier de Gumbel).

L'intrt de ces diagrammes fonctionnels, dits de probabilit ,
- meilleure lecture pour certaines probabilits
(les extrmes par exemple pour Gumbel)
- trac plus ais de certaines lois
(droite pour une loi de Gauss sur papier de Gauss).

Les tableaux et la figure 5 de la page suivante illustrent cette description. Le papier utilis est un papier
de Gauss dont on verra la construction par la suite.
Figure 5


IV ) COMPLEMENTS THEORIQUES

IV-1) NOTION de PERIODE DE RETOUR:

a) Variables alatoires en Hydrologie
Priode de retour, Dure de retour.

Quand on dfinit une variable alatoire, il est frquent qu'on lui associe un intervalle de temps:
X1 = Total de la pluie du mois d'Octobre.
X2 = dbit moyen annuel
X3 = dure d'insolation des mois d't, etc...
X4 = Pluie maximale journalire de chaque anne

On dfinit donc implicitement:
- Une notion d'vnement, ou de "tirage" alatoire dans l'espace des vnements
- souvent associe, dans le cas o les variables sont en fait des processus temporels se droulant dans le
temps, un intervalle de temps.

Exemples:

Pour X1, c'est le "mois d'Octobre" (Il n'y en a qu'un par an et on considre que les autres mois, le total
pluviomtrique a un comportement diffrent).
Pour X2, c'est l'anne. (On considre que deux annes successives, bien qu'aboutes, correspondent 2
tirages "indpendants" de la variable).
Pour X3, c'est la "saison d't". (Il n'y en a qu'une par an, car on considre l aussi que l'insolation a un
comportement diffrent sur les autres saisons).
Pour X4, c'est l'anne, dans laquelle on va chercher quel est le total pluviomtrique journalier le plus
fort.
.etc
___________

Quand ensuite, on dit que : Pr(X ) = 90%,

cela signifie que: - si on fait un tirage indpendant de la variable X
- il y a 9 chances sur 10 d'tre infrieur ou gal

Statistiquement, si on faisait plusieurs fois ( par exemple K fois) des paquets de N tirages
indpendants, on trouverait que, en moyenne sur les K fois, sur les N tirages dun paquet, 0.10.N dpassent .
(mme si pour un paquet donn de N tirages, on peut avoir un rsultat diffrent de 0.10.N)
On dira alors que la valeur est dpasse en moyenne 1 fois tous les 10 tirages.

Par abus de langage, on dit que la valeur "revient" en moyenne tous les 10 tirages et donc qu'elle a
une "priode" de retour moyenne de T= 10, en fait de 1 fois tous les 10 tirages.

Quand en plus, chaque "tirage" est associ lui-mme un intervalle de temps, par exemple si on ne fait
que un tirage par an, on dira que la valeur , qui "revient" en moyenne tous les 10 tirages, a une dure de
retour moyenne de T =10 ans (exprime dans la mme unit que l'intervalle inter-tirages), et que la valeur est
dcennale.

Si, au lieu de prendre un seuil particulier F() = 0.9, on prend un seuil quelconque F(x
F
) = F fixe ,
avec F prise de manire quelconque [0,1], alors la priode de retour est:

T
F
=
1
1

et ainsi:
F = 0.9
9 . 0 1
1
=
T T = 10
F = 0.95
95 . 0 1
1
=
T T = 20 etc...
Exemples:
Si Pr (X2 >250 m3/s) = 0.1, on dira que le dbit moyen annuel de 250 m3/s est dpass en moyenne 1
tirage sur 10, donc 1 anne sur 10 en moyenne, donc a une "priode de retour" dcennale.

De mme si Pr ( X1 < 100 mm) = 0.9, on dira que la valeur 100 mm est dpasse en moyenne 1 tirage
sur 10, donc 1 mois d'Octobre sur 10, et donc a une priode de retour dcennale (car il n'y a qu'un mois
d'Octobre et donc qu'un tirage possible par an)
De mme pour X3.

b) Complment sur les probabilits empiriques
(et les ajustements graphiques)

On a vu dans l'analyse des chantillons qu'il fallait associer chaque valeur x
i
de rang i une probabilit
empirique au non dpassement.

La plus simple consiste prendre: F*(x
i
) = Pr (X x
i
) =
N
i

Si pour illustrer, on prend N= 100, on voit que:

F(x
1
) = 0.01 mais que F(x
N
) =1 ...!

Ceci est gnant puisqu'alors Pr (X > x
N
) = 0 ...!
or on a toute raison de penser que si on augmente l'chantillon on trouvera des valeurs suprieures x
N
.

Dans le cas de
N
i
P
i
5 . 0
= , on voit que ( avec N = 100):
P(X x
1
) = 0.005 et P(X<x
N
) = 0.995 ou P(X> x
N
) = 0.005

Soit encore, en terme de priode de retour:
on considre, et on impose, par cette formule que les valeurs x
1
et x
100
, min. et max. d'un chantillon
de 100 valeurs, reviennent en moyenne 1 fois tous les 200 tirages.

Dans le cas o on choisit une formule, tout aussi symtrique entre mini et maxi:

1 +
=
N
i
P
i

on voit que ( avec N =100 ) cela revient considrer que:

P(X x
1
) = 0.01 et P(X> x
N
) = 0.01

soit encore que, en terme de priode de retour, il reviennent tous les 100 tirages,
soit deux fois plus souvent qu'avec la formule prcdente...
C'est pourquoi on a "bricol" des formules de la forme:
b N
a i
P
i
+
=

Par contre la probabilit de l'vnement mdian, x
50
, reste dans les deux formules trs proche de 50% et la
priode de retour correspondante proche de 2.

Conclusions:

Il faut donc considrer que :la probabilit empirique est proche de la probabilit relle, (- ou au moins
est estime de faon stable -), dans la partie centrale de l'chantillon, mais certainement pas dans les queues
de la distribution gauche et droite.

En consquence, dans les ajustements graphiques, il faudrait pondrer plus faiblement les points
extrmes, car on leur a attribu une probabilit empirique parfois loigne de la ralit, et surtout trop
dpendante de la formule d'estimation retenue.
Notons cependant que la formule
1 +
=
N
i
P
i
tend considrer les vnements extrmes comme plus
frquents, et donc va dans le sens d'une certaine scurit.

Ces notions de dure de retour seront largement utilises en Hydrologie de Projet.

IV-2) CHANGEMENTS de VARIABLES:
(
*
)

Soit une variable alatoire X dont la densit de probabilit est f(x).
On va souvent chercher savoir quelle est la forme de la distribution de la variable alatoire U, obtenue par une
transformation U = g(X). On appellera cette nouvelle distribution , i.e. la densit de probabilit de U, h(u).

On montre alors, (cf. Benjamin and Cornell 1970) que:

h u f x
dx
du
x g u
du
dx
g g u ( ) ( ). ' ( = = =

avec ( ) et ( ))
1 1

soit encore:
h u
f g u
g g u
( )
( )
' ( )
=
1
1

Exemple: (tir de T. Haan)
Soit une variable X variant entre 0 et 5 et de densit de probabilit f x
x
( )
.
=
3
125
2

On vrifie que:
125 125 125
. 3
). ( ) (
3
0
3
0
2 5
0
x t
dt
t
dt t f x F
x
x x
=
(
= = =

et donc que F(0) = 0 et F(5) = 1

On considre maintenant la variable U = X avec cette fois 0 U 25.

alors: U U g X X X g U = = = =

) ( ) (
1 2

de plus:
dU
dx
g X X g g U U = = =
' ( ) . ' ( ) . 2 2
1
=
Si on reporte dans :
h u
f g u
g g u
( )
( )
' ( )
=
1
1
alors h u
f g u
g g u
u
u
u
( )
( )
' ( )
)
.
. = =
.(
=
1
1
2
3
125
2
3
2 125

On peut mme vrifier que h(u) est bien une densit de probabilit. Par exemple:

1 = .
125
1
= . u .
2
3
125
1
= . ) (
25
0
2
3 25 = u
0 = u
25 = u
0 = u
(

u du du u h

Utilisation:
Il arrivera frquemment que, aprs transformation de la variable d'intrt, la variable transforme suive une loi
"simple" et pratique manipuler.
On fera donc rfrence en quelques occasions ce paragraphe.
BIBLIOGRAPHIE:

BENJAMIN J.R and CORNELL C.A. (1970).
Probability, Statistics and Decision for Civil Engineers
Mac Graw Hill Pub. Comp. 684 p.

Groupe CHADULE (1974)
Initiation aux mthodes statistiques en Gographie.
(Ouvrage collectif) Masson et Cie ed. 192 p.
(Ouvrage probablement puis mais disponible en bibliothque)

HAAN Ch. T. (1977)
Statistical Methods in Hydrology.
Iowa state University Press 2me ed. 1979, 378 p.

KOTTEGODA N.T. and R. ROSSO (1997)
Probability, Statistics and Reliability for Civil Engineers and Environmental Engineers
The Mac Graw Hill Pub. Comp. Inc. 735 p.

MORLAT G. (1954)
Les mthodes statistiques
Confrences faites par G. Morlat du 21 Avril au 9 Juin 1952. rassembles dans un ouvrage. Direction des Etudes
et Recherches d'EDF -( Pour les bibliophiles : disponible en photocopie auprs du service de documentation
d'EDF).

NOPHADOL IN-NA and VAN-THANH- VAN NGUYEN (1989)
An unbiaised plotting position formula for the general extreme value distribution
Journal of Hydrology, vol. 106, p. 193-209

VIALAR 1986
Probabilits et Statistiques (5 fascicules)
Cours de l'Ecole Nationale de la Mtorologie

YEVJEVICH V. (1972)
Probability and Statistics in Hydrology
Water Ressources Publications Ed Fort Collins Co USA. 302 p.
(Ouvrage trs complet sur les modles probabilistes- le Pr Yevjevich est sorti de l'ENS d' Hydraulique de
Grenoble en 1939)


1
re
Partie : MODELES PROBABILISTES

CHAPITRE II

MODELES PROBABILISTES LES PLUS COURANTS 35

I-) GENERALITES sur les LOIS de PROBABILITE 37

I-1) Objectifs du chapitre 37
I-2) Lois de probabilit paramtres 37
I-3) Aperu sur le calage des paramtres 39

II- FAMILLE DES LOIS NORMALES et DERIVEES: 41

II-1) Loi de Gauss (dite galement Loi Normale): 41
II-2) Loi Lognormale (dite galement Loi de GALTON) 52
II-3) Aperu sur d'autres lois drives 56

III- FAMILLE DES LOIS GAMMA et DERIVEES: 59

III-1) Loi Gamma 2 paramtres (ou loi de Pearson) 59
III-2) Calcul des Moments (en fonction des paramtres) 62
III-3) Tables de la loi Gamma 63
III-4) Aperu sur les lois Bta 65

IV- FAMILLE DES LOIS EXPONENTIELLES ET VALEURS EXTRMES 67

IV-1) Loi exponentielle 67
IV-2) Extension de la loi Exponentielle (Somme d'exponentielles) 69
IV-3) Loi de Gumbel 71
IV-4) Aperu sur d'autres lois de valeurs extrmes (Weibull et GEV) 74

V-) QUELQUES LOIS de VARIABLES DISCRETES: 77

V-1) Loi de Poisson 77
V-2) Loi Binomiale 79

VI-) LOIS UTILISEES DANS LES TESTS d'HYPOTHESES:
81

VI-1) Loi du Chi 2 81
VI-2) Loi de Student 81
VI-3) Loi de Fisher-Snedecor 83

1
re
Partie - CHAPITRE II :

MODELES PROBABILISTES LES PLUS COURANTS

I-) GENERALITES sur les LOIS de PROBABILITE

I-1) OBJECTIFS de ce CHAPITRE:

Dans le chapitre I, nous avons montr quelques prsentations numriques ou
graphiques de sries de donnes, sans faire aucune hypothse probabiliste sur la population
d'origine.

Dans certains cas, on peut penser que ces donnes peuvent tre dcrites par une ou
plusieurs lois de probabilit courantes et simples d'emploi, au moins dans une certaine gamme
de probabilit.
Il est alors intressant de chercher ajuster sur ces donnes une, ou des lois pour
faciliter l'utilisation numrique et parfois, sous certaines rserves, pour en tirer des
informations de type probabiliste.

Exemple 1 :

Pour dimensionner une protection contre les crues Grenoble, on envisage de
construire des digues. Plus les digues sont hautes, plus on est protg, mais plus leur cot est
lev.
Il est donc important de savoir calculer la probabilit d'tre inond pour une hauteur de
digues donne, afin de rsoudre ensuite le problme du choix de leur hauteur en termes
conomiques.

Exemple 2 :

On sait, par exprience, que les pluies annuelles en France sont bien dcrites par des
lois de Gauss (appele loi Normale par la suite) dont les moyennes et carts types varient
considrablement d'un endroit l'autre.
La simple information qu' Grenoble la moyenne est de 1100 mm et l'cart type de 300
mm permet, aprs consultation d'une table de Gauss (ou utilisation d'une calculette
comportant les fonctions statistiques), de calculer qu'il y a une chance sur dix pour que l'an
prochain, il tombe moins de 616 mm.
Le mme type de calcul sur les pluies mensuelles ou saisonnires intressera
videmment les agriculteurs pendant la priode de croissance ou de rcolte...!
_____________

Aprs les analyses exploratoires du Chapitre I, notamment la forme de l'histogramme,
on peut dj se faire une ide de la forme de loi de probabilit adapte la reprsentation de
l'chantillon dont on dispose. On va ensuite chercher, parmi les lois que l'on connat, si une
(ou plusieurs) prsente une forme analogue, susceptible d'tre ajuste l'chantillon.

Le but de ce chapitre II va donc tre de dcrire les lois les plus couramment utilises,
avec pour objectif de disposer d'une bote outils, plus ou moins riche et complte, plus ou
moins adapte une grande varit de situations.

Exemple:
Un mcanicien peut souhaiter disposer de toute la gamme des cls plates, des cls
anneaux , etc..., mais reconnatre aussi qu'une bonne cl mollette rpond dj
"parcimonieusement" beaucoup de situations...!).
___________

Ensuite, ayant dcrit les outils disponibles et dcouvert leur proprits, il va falloir s'en
servir et les ajuster au mieux sur les donnes disponibles: ce sera l'objet du Chapitre III.
Ces deux chapitres, indissociables en pratique, ne l'ont t que pour la clart de l'expos.

I-2) FONCTIONS PARAMETREES

Nous ne dcrirons que quelques lois: les plus couramment utilises en Hydrologie, ainsi que quelques
autres d'intrt gnral (utilises par exemple dans les tests d'hypothses).

Une fonction paramtre est en fait une famille de courbes qui se rsume par une
quation unique de la variable x, mais comportant des coefficients, des paramtres, qui
peuvent prendre une infinit de valeurs. Par exemple les paraboles se rsument en un
polynme du second degr en x : + . + . = ) , , , (
2
c x b x a c b a x y
mais selon les valeurs que l'on donnera aux paramtres a,b,c, on aura une infinit de courbes
possibles...

De mme la plupart des lois de probabilit s'exprimeront sous la forme:

f( x,
1
,
2
,...,
p
) : Densit de probabilit

c'est dire que la probabilit de tirer au hasard une valeur de la variable alatoire X entre x-
dx/2 et x+dx/2 est gale f( x,
1
,
2
,...,
p
)
dx

De mme on utilisera aussi:

F( x,
1
,
2
,...,
p
) : Fonction de rpartition

c'est dire que la probabilit de tirer au hasard X<x est F(x,
1
,
2
,..,
p
).

Plutt qu'une fonction particulire, ce seront donc des familles, ou des classes de
fonctions de la variable x et d'un certain nombre de paramtres
k
.

Ces fonctions thoriques correspondront en quelque sorte aux fonctions empiriques
que sont l'histogramme de frquences relatives (Densit de probabilit) et le diagramme des
frquences cumules (Fonction de rpartition) vues au chapitre I.
I-3) APERCU sur le CALAGE des PARAMETRES:

Pour dterminer les paramtres
k
,
plusieurs mthodes seront utilises; nous dcrirons
les plus classiques dans le chapitre III, en dtaillant le calcul pour certaines lois.
Dans ce chapitre, nous insisterons donc parfois sur certaines proprits mathmatiques des
lois: c'est parce qu'elles sont utiles ensuite dans la mise en oeuvre des techniques
d'ajustement.
Signalons donc simplement , parmi ces techniques:

a)-Mthode des Moments :

Soit f(x,
1
,
2
,...
p
)
la famille de lois (-une expression thorique paramtre-),
et soit un chantillon de n valeurs x
i de la variable X
.

Dans cette famille de lois, on choisira la loi spcifique (-donc on choisira les valeurs
spcifiques des paramtres
1
,
2
,...
p

-) telle que:
p Moments thoriques de cette loi f(x,...)
soient gaux aux :
p Moments empiriques correspondants, calculs sur les x
i
.

D'o un systme plus ou moins compliqu de p quations p inconnues (- les
k
-
), qui
ncessite d'expliciter les relations entre les paramtres et l'expression thorique de ces
moments.
Cette mthode donne pour de nombreuses lois des rsultats simples, aussi est-elle
couramment utilise. Mais elle donne beaucoup de poids aux valeurs extrmes, ce qui peut
tre problmatique.

b)- Mthode du Maximum de Vraisemblance :

La probabilit d'avoir eu dans l'chantillon une valeur comprise entre x
i
+ dx/2 et x
i
-
dx/2 est, selon la loi dfinie par sa fonction densit :

f( x
i
,
1
,....,
p
)dx = Pr (x
i - dx/2 < X <
x
i + dx/2)

Si les valeurs x
i
sont indpendantes, la probabilit d'avoir tir (dans n'importe quel
ordre) les n valeurs x
1
, x
2
,..., x
n
( plus ou moins dx/2) est le produit de ces n probabilits;
c'est donc une fonction des p paramtres pour les n valeurs x
i
donnes.

La mthode du maximum de vraisemblance consiste maximiser cette probabilit,
c'est dire choisir les valeurs des p paramtres qui rendent cet chantillon le plus probable
possible, au vu d'une loi choisie pralablement.
La rsolution analytique de cette maximisation est plus ou moins simple selon les lois...

c) Mthode graphique

Elle consiste trouver un diagramme fonctionnel tel que:

- si l'chantillon suit raisonnablement la loi pour laquelle ce diagramme a t conu,
- alors cela se traduira par un alignement, selon une droite, facile apprcier l'oeil.

Si la pratique en est aise, la conception du diagramme doit tre bien comprise et repose sur
une bonne comprhension des proprits de la loi choisie.

On voit donc que ces mthodes ncessitent aussi une bonne connaissance analytique
des diffrentes lois et de leurs moments, ce que nous allons tudier ci-aprs.

Nous prsenterons d'abord quelques familles de lois couramment utilises en
Hydrologie pour des variables relles, puis quelques lois appropries des variables discrtes
(- prenant seulement des valeurs entires-).
II- FAMILLE DES LOIS NORMALES et DERIVEES:

II-1-) LOI de GAUSS (dite galement Loi Normale):

a) Forme analytique:

C'est une loi 2 paramtres et . La densit de probabilit s'crit:

2
.
2
1
.
2
1
= ) , , (
|
.
|
\
|

x
e x f
et la Fonction de rpartition , que lon crira souvent ( ) , N pour loi Normale de
paramtres , :
) , N( = . .
2
1
= ) , , (
2
.
2
1

|
.
|
\
|
x
t
dt e x F
et Prob( Xx) = F(x,, )

Si on effectue sur x la transformation linaire : x u
x
=

, on peut montrer que la

nouvelle variable u suit encore une loi de Gauss (- on le dmontrera et on l'utilisera plusieurs
fois ci-aprs -).

Donc toutes les lois de Gauss peuvent se ramener la mme loi normale centre rduite
N(0,1) dite loi standard, calcule il y a un sicle!
De mme on peut revenir de N(0,1) ( ) , N . En effet, nous allons voir que les paramtres
sont tels que est la moyenne et l'cart type .

Caractristiques essentielles de cette loi :

- symtrique (d'o Moyenne Mdiane ) , et la moyenne correspond aussi la
probabilit de 50% au non dpassement)

- unimodale (la fonction densit n'a qu'un maximum: Mode = Moyenne = =
x
)

- non borne droite comme gauche

Intrt de cette loi :

On dmontre que, sous certaines restrictions:
- si X est la somme de k variables alatoires indpendantes, tires dans des
lois quelconques
- mais dordres de grandeur voisins en moyenne et cart-type,
- alors, si le nombre k tend vers l'infini, X suit une loi de Gauss.

(En fait il suffit que k dpasse une dizaine pour que cela constitue dj une bonne
approximation).

Or dans la nature, de nombreux phnomnes sont le rsultat d'addition de variables
alatoires indpendantes (par exemple les pluies annuelles en France, ou en zone tempre, l
o il pleut souvent), d'o le choix frquent de cette loi dans ce cas.

Mais attention: d'autres phnomnes alatoires ne sont pas du tout dcrits par des lois de
Gauss (par exemple les pluies journalires maximales en France.., ou les pluies annuelles au
Sahara car ce n'est alors que la somme d'une ou deux pluies journalires!).

b) Calcul des moments (*)

Soit :
2
.
2
1
.
2
1
= ) , , (
|
.
|
\
|

x
e x f

Par dfinition, le moments d'ordre 1 va s'crire:

[ ] . .
2
1
. = . ) , , ( . = =
-
.
2
1
1
2

+
|
.
|
\
|
+

dx e x dx x f x X E
x

Si on pose : v
x
donc dv
dx
x v d dx dv = = et = . + ' o = .

alors :
( )

+
+ +
- -
.
2
1
.
2
1
-
.
2
1
1
. .
2
1
. . . .
2
1
. = . . .
2
1
. . =
2 2 2
dv e dv e v dv e v
v v v

soit encore:

+

+
- -
.
2
1
.
2
1
1
.
2
1
. .
2
=
2 2
dv e dv v e
v v

La seconde intgrale :
-
.
2
1
.
2
1
2
dv e
v
est justement l'intgrale d'une densit de

probabilit (ou encore de la fonction mathmatique Fonction Erreur Erf(v) ) et donc vaut 1.

La premire intgrale s'intgre en : 0 = - = .
-
.
2
1
.
2
1
2 2
+

+
v v
e dv v e
D'o il reste que :
1
=

La moyenne (ou esprance de x ) est gale au paramtre de la loi f(x,,).

Les moments suivants seront en gnral calculs de manire centre, en cart la
moyenne, i.e. le moment dordre 1
1
, que l'on note plus couramment
x
.

Par exemple, le moment centr d'ordre 2 ou variance s'crit:

( ) [ ] ( ) . .
2
1
. ) ( = . ) , , ( = =
-
.
2
1
2 2
1
2
1 2
2

+
|
.
|
\
|
+

dx e x dx x f x X E
x

On dmontre alors ( le faire en exercice, pour le plaisir..!) que ce moment devient:

2
2 2
encore not ou = V
x x

et donc que, pour la loi normale:

l'cart-type concide avec le paramtre
dans l'expression analytique de la loi...!

Plus gnralement, on dmontre que :

- tous les moments centrs d'ordre impair (au del de l'ordre 1) sont nuls:

2 1 p
p
+
= 0

- les moments centrs d'ordre pair ont pour expression:

2
2
p
p
p
p =
(2p)!
2
.
p
. !

On retrouve videmment pour: p = 1 ,
2
= .

On pourra s'en convaincre aisment en faisant le calcul et en intgrant par
parties.Sinon, on en trouvera le dtail par exemple dans l'ouvrage de rfrence de Benjamin
et Cornell (1970, p.258).

On voit aussi que l'on obtient:
4
= 3
4

et comme on avait vu que le coefficient d'aplatissement (kurtosis en anglais) s'crit en gnral
:
4
4

cela donne, pour la loi normale, un coefficient d'aplatissement gal 3

c) Table de la Loi Normale

Par ailleurs, on montre (cf. complments ci aprs) que :
- si une variable X suit une loi normale,
- toute transformation linaire de X, soit Y= a.x+b, suit encore une loi normale.

Cela permet notamment le changement de variable linaire :

X U
X
x
x
=

qui ramne la Loi Normale Standard, o la variable U est centre rduite de moyenne 0,
(puisque la moyenne des u
i
est nulle) et d'cart-type 1 qui est l'cart-type des u
i, loi encore
note N(0,1)
.

Cette Loi Normale centre rduite s'crit:

dt e u F
t
u
. .
2
1
) (
2
.
2
1

Nous l'avons trace graphiquement sur la page suivante. On reconnat videmment la
fameuse allure de "courbe en cloche"!

En gnral, cette loi se trouve tabule dans tous les ouvrages: nous en donnons un
exemple dans la page qui suit le graphique. Cette table permet notamment de vrifier ou de
retrouver des intervalles interquantiles remarquables, propres la loi normale:

Intervalle interdcile [10% - 90%] =
+ 1,28 cart-type de part et d'autre de la moyenne,
contient 80 % des valeurs de la population

l'Intervalle de +1 cart-type de part et d'autre de la moyenne,
contient 68 % des valeurs

l'Intervalle de +2 cart-types de part et d'autre de la moyenne,
contient 95 % des valeurs

(Il est vivement recommand d'en retenir quelques-uns, et d'apprendre se servir de la
table...)

Loi Normale Standard (moyenne =0 , cart-type =1)
Fonction de rpartition et densit de probabilit



Complment de dmonstration(*)

Comme on l'a signal dans le paragraphe IV du Chapitre I, il est intressant de
regarder ce que produit un changement de variable et ce que devient la loi de probabilit de la
variable transforme.

Si l'on prend ici une loi normale classique que l'on crit:

2
.
2
1
.
2
1
= ) (
|
|
.
|
\
|
x
x
x
x
e x f

et si l'on applique une transformation linaire sur x, soit : y = a .x + b = g(x)

Alors on a : x g y
y b
a
g x a = =
-
et
=
1
( ) ' ( )
d'o en reportant dans:
[ ]
[ ]
2
x
2
x
.
.
.
2
1
x
.
2
1
x
1
1
.
2 .
1
=
1
. .
2
1
= ) (
) ( '
) (
= ) (
(
(
(
(
(

a
a b y
a
b y
x
x
e
a
a
e y h
u g g
u g f
u h
Or :

2
y
.
2
1
y
.
2
1
= ) ( + . = et = .
(
(

y
y
x y y x
e y h b a a

et donc la densit de probabilit de y a bien encore la forme analytique d'une loi normale.

Donc:
"si une variable x suit une loi normale,
toute transformation linaire de x en y fournit une variable y
qui suit aussi une loi normale".

En particulier, si on fait la transformation:

x u
x
x
x
=

(standardisation)
alors la loi de u devient, avec:

=
1
. = 1 et =
1
+ = 0 , (u) =
1
x
u
x
x x u x u
u
h e . .
.

2
1
2
2

c'est dire la loi standard de moyenne 0 et d'cart-type 1 encore note N( , ) 0 1 .

Ce rsultat va tre utilis pour construire un papier fonctionnel.

d) Diagramme Gausso-arithmtique ou "Papier de Gauss" :

L'utilisation d'un papier "dit de Gauss" est trs simple et nous la verrons plus loin.
Mais nous donnons d'abord une ide de la:

Construction du Papier de Gauss(*):

Elle va comporter 3 tapes (cf. figure page ci-contre)

1) nous traons d'abord sur un premier diagramme, chelles arithmtiques, la
fonction normale standard en fonction de u.
A chaque valeur de u
i
correspond une probabilit au non dpassement P
i
que nous
trouvons dans la table, ou inversement chaque valeur Pj correspond une valeur u
j
.

2) si nous considrons une autre variable normale X. Comme elle est normale, elle
peut s'obtenir par transformation linaire de U, donc elle est en relation linaire avec U.

Donc dans un second diagramme chelles arithmtiques en U et X, les valeurs u
j
et x
j
correspondant la mme probabilit Pj sont en relation linaire, et donc alignes selon une
droite. La position de cette droite dpendra videmment des coefficients de la transformation
linaire.

Donc pour une valeur x
j
dont on connat la probabilit Pr(X x
j
) = P
j
:
- on porte d'abord x
j
sur l'axe des x,
- puis on regarde sur le 1
er
diagramme la valeur de u
j
telle que F(u
j
) = Pj,
- et on porte cette valeur u
j
en ordonne.

et les points (x
j
, u
j
)doivent tre aligns.

3) Mais en fait, il est inutile d'aller chaque fois recalculer les u
j
partir de F(u)!
Il suffit de porter directement sur l'axe, en mme temps, et mme carrment la place des u
j

la valeur F(u
j
).

4) En pratique on utilisera donc le seul diagramme infrieur (cf. page suivante), avec
la seule graduation F(u) en ordonnes .

Schma de construction du diagramme Gausso-arithmtique.


Papier de Gauss

Utilisation du Papier de Gauss:

On classe donc l'chantillon par valeurs croissantes x
j
de rang i.
A chaque valeur on associe une probabilit au non-dpassement P*
j

(estime empiriquement)
On porte sur le diagramme les points [x
j
, F(u
j
) = P*
j
]

Si cette fonction de rpartition empirique est proche d'une droite sur de diagramme,
alors on peut considrer que l'chantillon est tir d'une loi Normale.

Si la fonction de rpartition empirique de l'chantillon est reprsente par une courbe
assez voisine d'une droite sur ce papier, cela signifie aussi qu'une loi de Gauss le dcrit assez
bien en termes de probabilits.

En outre, ce papier dilate les probabilits vers les extrmes ce qui peut tre parfois
intressant. On l'utilisera donc comme support de trac mme dans des cas o l'on ne s'attend
pas un comportement gaussien.

Ces diagrammes sont en vente dans ( presque toutes) les bonnes papeteries.

II-2) LOI LOGNORMALE (dite galement LOI de GALTON):

Une faon courante d'enrichir la bote outils consiste:
faire une transformation simple sur la variable alatoire X,
soit Y = g(X),
et voir si la nouvelle variable Y ne serait pas normale..?

On tente couramment la racine carre Y X = (- dans ce cas on construit l'chantillon des
valeurs en racine carre-), ou dans ce qui suit, le logarithme.

On distinguera :
a) loi lognormale 2 paramtres:
o si X> 0 Y = Log X et
2
.
2
1
.
2 .
1
= ) , , (
|
.
|
\
|

y
e y h (1)
Intrt de cette loi :

Comme pour la loi de Gauss, on dmontre que, sous certaines restrictions:
- si le phnomne X est le produit de k variables alatoires indpendantes,
- alors, si k tend vers l'infini, X suit une loi Lognormale.

Dans la nature, on peut citer le cas:
- de la granulomtrie des sdiments, qui rsultent de chocs indpendants qui
enlvent chacun un pourcentage ( multiplicatif) alatoire du grain,
- de phnomnes de fatigue o l'effet est proportionnel l'tat dj atteint
(cf. Benjamin et Cornell 1970)
- de certains dbits (par exemple mensuels) qui sont en premire approche le
produit de la pluie par des coefficients dcoulement alatoires, etc...

b) loi lognormale 3 paramtres:
o Y = Log (X - x
0
) et
2
.
2
1
.
2
1
= ) , , (
|
.
|
\
|
a
b y
e
a
b a y h
(2)
incluant un troisime paramtre x
0
,
qui sera optimis pour rendre la variable transforme la plus gaussienne possible.

On montre ainsi (cf. M. Roche, 1963) que l'on peut choisir x
0
de manire ce que le
coefficient d'asymtrie Cs de Y soit nul (condition ncessaire pour que la loi de Y soit
normale), ce qui entrane que x
0
devient solution de:

( )
( )
x
x
x x
x
x
x
3
4
2
0
2
3
0
. 3

=
+
(3)

avec
3
2 3
3
x x x x
= moment centr d' ordre 3 = E x
3
.

L'estimation de
3x
se fait sur l'chantillon par m
3x
(vue au chap. I)


(
(
|
.
|
\
|
+

=

= = = =
n
i
n
i
n
i
n
i
i i i i x
x
n
x x x n
n n
m
1 1 1
3
1
2 3
3
2
. . 3 . .
) 2 ).( 1 (
1
(4)

La forme de la densit Lognormale est intressante, puisqu'elle dmarre l'origine,
(resp. en x
0
) avec une tangente variable selon les paramtres et qu'elle est dissymtrique (la
moyenne est plus grande que la mdiane).

On donne ci-aprs quelques exemples pour diffrentes valeurs des paramtres et ,
qui accentuent plus ou moins la dissymtrie.



Complments thoriques
(
*
)
: sur la loi Lognormale

Un premier rsultat consiste noter que:
- quand X suit une loi Lognormale, on peut montrer alors que
- toute transformation puissance, donc de la forme Z = a X
b

suit aussi une loi Lognormale.

Un autre ensemble de rsultats provient de ce que l'on sait exprimer:

- la forme analytique de la loi de probabilit de la variable transforme
- y = Log(x-x
0
), puisque c'est la loi normale classique,
- mais aussi celle de x, qui est plus complique.

Pour l'obtenir, on peut appliquer ici aussi les rsultats sur le changement de variables (cf.
chap. I , p. 24-25):

Soit ) ( ) ( et + = ) ( =
0
1
0
x x Log x g y x e y g x
y
= =

de mme:
( ) = et donc g y e g g x e x x
y Log x x
' ' ( )
( )
= =
1
0
0

d'o:

[ ]
[ ]
2
y
0
) (
.
2
1
y
0
1
1 -
2
1
.
1
=
) ( '
) (
= ) (

y
x x Log
e
x x x g g
x g f
x h

On comprend donc que l'on n'utilise pas couramment cette expression...!

Elle permet pourtant des dveloppements intressants ( cf. Yevjevich 1972 ou Benjamin
& Cornell 1970 pour plus de dtails) , comme les relations entre les moments de la variable
brute X et ceux de la variable transforme Y = Log(X-x
0
).

On montre notamment que:

- si
X
k
est le moment d'ordre k (non centr) de la variable brute X,

- alors tous ces moments s'expriment en fonction des seuls deux premiers moments de la
variable transforme Y, soit
Y
et
Y
par :

2
2
.
2
.
=
Y
k
Y
k
e
k
X
+
(5)

On en dduit dailleurs que la moyenne vrifie:
2
2
=
Y
Y
e
X
+
(6)

ou respectivement :
2
2
=
0
Y
Y
e x
X
+
quand Y = Log (X-x
0
)

et l'cart-type (en combinant les formules (5) et (6) ci-dessus):

[ ] [ ] ( ) ( )
2
1 2 2 2 2 = =
= =
k
x
k
x x
X E X E

( ) 1 . =
2
2 2
Y
e
X X

(7)

En fait, on utilise plutt ces formules dans l'ordre inverse, pour exprimer les paramtres de la
loi f(y) en fonction des moments de X, soit:

Ceci pourra tre utilis, mais avec circonspection...!, dans la mthode d'ajustement par les
moments (cf. Chap. III, p. 6-9)

c) diagramme lognormal:

Par contre, on comprend facilement comment adapter le diagramme gausso-arithmtique
cette nouvelle variable :
- pour tester si le Log de X est gaussien,
- il suffit de remplacer l'chelle arithmtique des abscisses par une chelle
logarithmique,
- et de porter les valeurs naturelles de x sur cette chelle.

Au besoin, si les points ne sont pas aligns, on retranchera par ttonnement une quantit x
0

pour tenter damliorer l'alignement. On pourra aussi utiliser les relations (3) et (4) de ce
chapitre sur la loi Lognormale pour estimer x
0
.

On en verra plus en dtail l'utilisation au chap. III.

II-3) APERCU SUR D'AUTRES LOIS DERIVEES: (de la Loi Normale )

Un autre exemple d'extension de la loi normale que nous nous contenterons d'voquer
est celui ou la Racine Carre de X suit une loi normale:
Cet exemple est intressant car la contrainte X > 0 entrane aussi Y > 0 et donc on ne
doit considrer que la partie de la loi o les valeurs de Y sont > 0.
Il s'agit alors d'une loi normale tronque, comme on en verra une plus loin pour la loi
exponentielle. Cette loi est parfois prconise pour les valeurs de pluies mensuelles non
nulles.
On en trouvera les proprits dans Lubs et al. (1994).

|
|
.
|
\
|
+
2 2
2
=
X X
X
Y
Log

(8) et
|
|
.
|
\
|
+
2
2
2
Y
1 =
X
X
Log
(9)

(diagramme lognormal)
Exemples de Lois Gamma pour <1 ou = 1 :

III) LOIS GAMMA et DERIVEES :

III-1) Loi GAMMA 2 paramtres:

Cette loi est 2 paramtres, et .

Elle est dfinie pour une variable continue x0 positive ou nulle.

Son intrt majeur est une grande flexibilit de forme, qui en fait un outil susceptible de
s'adapter des histogrammes trs varis. On verra qu'elle peut mme entrer en comptition
avec les lois normales et lognormales.

L'un des paramtres () a la dimension de x (paramtre d'chelle),
l'autre est adimensionnel ( = paramtre de forme).

Sa densit est dfinie par:
f x e
x
x
( , , )
( )
. .( ) .

=

1 1
1

avec () la fonction spciale dite fonction Gamma qui:

- pour entier vaut () = (-1)! (cest dire le factoriel de )
Par convention , pour =1 (1) = 0 et (0) = 0 , (1/2) =
- et, pour non entier, elle est dfinie par : dz e z
z
. . = ) (
+
0
1

Exemples de formes:

Paramtre de forme <1 : ( cf. page ci-contre)

C'est le cas ventuel des pluies journalires. La forme est quasiment hyperbolique, mais part
d'une ordonne finie fonction de (et de , mais on prendra ce paramtre d'chelle gal 1
ici). On peut par exemple faire l'tude pour = 0.5

Paramtre de forme =1 : ( cf. page ci-contre)

On trouve alors comme cas particulier la loi exponentielle:
f x f x e
x
( , , ) ( , ) . 1
1

= =

(cas souvent utilis aussi pour les pluies court pas de temps - jusqu' 24 heures)
Cette dernire loi sera tudie plus en dtail au paragraphe suivant.
Exemples de Lois Gamma pour >1 et >20:
Paramtre de forme >1 : ( cf. page ci-contre)

La forme devient en cloche dissymtrique, proche d'une loi lognormale (l'oeil aura du mal
les distinguer)
C'est souvent le cas de pluies mensuelles (non nulles), dont on a vu aussi que la racine carre
pouvait tre normale, ce qui montre la difficult choisir entre plusieurs reprsentations..!

Paramtre de forme > 20 : ( cf. page ci-dessous)

Enfin si le paramtre de forme est grand (suprieur 20), on retrouve quasiment la forme
d'une loi Normale dans les valeurs centrales (intervalle interdcile). Par exemple, pour = 15,
on constate encore une lgre dissymtrie, que l'on ne dtecte mme plus pour =30 . Pour
un tel histogramme, on ne peut donc pas dire l'oeil si sa forme analytique est la fonction
erreur (Gauss) ou la loi Gamma... ! bien que les expressions analytiques soient trs
diffrentes.

Exemple de Loi Gamma pour =30
III-2) CALCUL des MOMENTS (en fonction des paramtres)

Par intgration (- les amateurs clairs peuvent le faire titre d'exercice, c'est relativement
ais ..-), on trouve les relations suivantes:

[ ] [ ]
2 2
2
. . = = = = =
x x x
X V X E
qui permettent immdiatement d'en dduire les paramtres en fonction des deux premiers
moments:

= et =
2
2
2
2
1
=
x
CV

o CV est le coefficient de variation dfini au chapitre I

Le paramtre de forme est l'inverse du carr du coefficient de variation: Il est
donc d'autant plus grand que la fluctuation de X est petite par rapport sa moyenne

Le paramtre d'chelle est d'autant plus grand que la fluctuation est grande par
rapport la moyenne; ce paramtre a la dimension de la variable.

On montrerait de mme que les moments suivants: . . 2
3
3
=
x

et : ( ) 2 . . 3
4
4
+ =
x

La dissymtrie, qui s'exprime par le coefficient d'asymtrie:
G
x
= =

3
3
3
3
2 2
=
. .
( . )

est donc d'autant plus faible que est grand ( d'o le fait que pour >30 on retombe sur une
loi symtrique quasi normale)

Bien entendu, il est possible d'utiliser un 3
me
paramtre x
0

f x x e
x x
x x
( , , , )
( )
. .( ) .

0
0 1
1 1
0
=

permettant la prise en compte d'une origine non nulle ou l'optimisation du choix de l'origine
pour maximiser l'adquation une fonction Gamma.

III-3) TABLES de la LOI GAMMA (en fonction des paramtres)

La loi Gamma incomplte a 2 paramtres, et il n'est pas possible de trouver une
expression plus simple (par exemple par un changement de variable); d'o des tables donnant
pour diverses valeurs du paramtre de forme les valeurs de la fonction de rpartition en
fonction bien souvent de la variable rduite (mais non centre), c'est dire de la variable
divise par son cart type, ce qui permet d'liminer le problme de dimension.

On donne en annexe ci-contre un exemple de table ; il faut bien videmment
interpoler pour les utiliser quand la valeur estime de ne figure pas dans la table.
(Table de la loi gamma)

( Exemples de graphes de la loi bta)

III-4) APERCU SUR LES LOIS BETA (*)

Cette famille de lois est relie celle des lois Gamma d'abord par les ingrdients analytiques
qu'elle utilise. Elle s'exprime par :

a) Cas de deux paramtres: la loi B1:

Cette loi B1 a pour expression, pour ] 1 , 0 [ x :
( )
( ) ( )
( ) 2
1 . 1
) 1 , 1 ( avec 1 . .
) 1 , 1 (
1
) , , (
+ +
+ +
= + +
+ +
=

B x x
B
x f

qui varie entre les bornes 0 et 1
(c'est par exemple le cas de la dure d'insolation, qui varie entre 0 et 100% du potentiel
astronomique).
C'est une des utilisations les plus originales, car les autres lois vues prcdemment ne sont en
gnral bornes que d'un ct. On en donne une illustration ci-contre.

b) Cas de deux paramtres: la loi B2:

L'expression de la loi B2 est, pour x >0:
( ) 1 . .
) 1 , 1 (
1
) , , (

x x
B
x f +
+ +
=

qui varie entre 0 et l'.
On en donne quelques illustrations (page ci-contre et page suivante) qui montre qu'elle
peut ressembler la loi Gamma, mais qu'elle permet aussi de reprsenter des dissymtries
inverses.

c) Cas de quatre paramtres:

Quand les bornes ne sont pas 0 et 1, mais a et b (comme par exemple la direction du vent
entre 0 et 360) on a alors une loi 4 paramtres de la forme :

( )
. .
) 1 , 1 ( .
1
) , , (

|
.
|
\
|
|
.
|
\
|
+ +
=
a b
x b
a b
a x
B a b
x f

On renvoie aux ouvrages spcialiss pour leurs proprits.

Utilisation:
En hydroclimatologie, nous avons t amens utiliser ces lois pour reprsenter la
frquence des dures d'insolation ou des quantits de rayonnement (bornes entre 0 et le
maximum astronomique qui lui mme dpend de la date dans l'anne. Pour viter cet aspect
saisonnier, nous utilisons plutt le rapport d'insolation, exprim en pourcentage du maximum
astronomique possible, qui varie donc entre 0 et 100). On se reportera par exemple M.
MARQUES (1982).
(Exemples de graphiques de loi bta)

IV- FAMILLE DES LOIS EXPONENTIELLES
ET LOIS DES VALEURS EXTRMES

IV-1) LOI EXPONENTIELLE

On a vu que cette loi fait partie de la famille des lois Gamma. C'est le cas particulier
o = 1.
On comprend donc que la forme est fixe (c'est une exponentielle), et qu'elle a un seul
paramtre d'chelle .

Elle s'crit, respectivement en fonction de rpartition ou en densit de probabilit:
F x e f x e
x x
( , ) ( , ) .

= =
1
1

mais on la trouve aussi crite avec
=
1
, soit alors:

F x e f x e
x x
( , ) ( , ) .
. .

= = 1

a) Calcul des Moments (*)

On rappelle que:
[ ] . .
1
. = . ) , ( . = =
0 0
1

+
+
dx e x dx x f x X E
x

Si on pose:

dx
du
x
u = o d' =
dv
dx
v
x x
= e et = e

.
et que l'on intgre par parties:

[ ] ) ( . . . . = . . . . = . . = . . . = . .
1
. =
0
0
0
0
0 0 0
1

+
+
+
+ +
+
(
(

x
d e e
x
du v v u dv u
dx
e
x
dx e x
x x x x

On vrifie que le premier terme est nul et que le second devient:

.1 = . = ) ( . . =
0
0
1

(
(
x x
e
x
d e

D'o, pour une loi exponentielle:

la moyenne est gale au paramtre d'chelle :
1
=

On calculerait de mme le moment centr d 'ordre 2:

[ ] . .
1
. ) ( = . ) , ( . ) ( = = V Variance = ) ( =
0
2
0
2
1
2
x x
2
1 2

+
+
dx e x dx x f x X E
x

En faisant 2 intgrations par parties successives (le faire en exercice), on trouvera...:

Variance V = = et =
x x
2
x

2

Donc:
l'cart-type d'une loi exponentielle est aussi gal la moyenne
et au paramtre d'chelle .

On ajoutera dans ces proprits mathmatiques que est aussi, pour la densit de probabilit
f x e
x
( , ) .
=
1

, l'inverse de l'ordonne l'origine.

Enfin, on pourra calculer X
med
, la mdiane de la distribution, donc telle que:

2
1
= . .
1
= . ) , (
0 0

Xmed
x
Xmed
dx e dx x f

, et vrifier que :
= < Xmed donc et .Log2 = Xmed

b) Diagramme Fonctionnel:

Si la fonction de rpartition est : F x e
x
( , )

= 1

alors 1

F x e
x
( , )

= et Log F x
x
1 ( , )
=

D'o une relation linaire (dcroissante) entre :
Log F x Log X x 1 ( , ) Pr( ) = et x.

Il suffit donc de calculer la probabilit empirique au dpassement, soit 1-Pi dans les
notations prcdentes, et de le porter dans un diagramme log-arithmtique.

On prendra autant de modules logarithmiques qu'il le faut (en gnral 3 suffisent).

On dmarrera le premier module en haut par la valeur 1.0, donc le prcdent par 0.1, le
troisime par 0.001 etc. (cf. exercice faire en T.D. et exemple du chapitre III)

IV-2) EXTENSION de la loi Exponentielle (Somme d'exponentielles)

a) Cas d'une discontinuit l'origine:

La loi exponentielle est trs utilise pour la distribution des pluies courts pas de temps
(ex. :l'pisode, la journe ou quelques heures). Dans ce cas, une fraction importante des
valeurs est nulle:
Pr( X = 0) = F(0) = 30 70 %
(selon la rgion et le pas de temps considr)

Dans un premier temps donc, on doit le faire apparatre dans l'expression de la fonction de
rpartition:
- Si l'on appelle F
+
(x) la distribution des valeurs positives non nulles de x
- et F(0) la proportion de valeurs strictement nulles

alors on montre que la distribution de toutes les valeurs 0 devient:

F x
F x F
F F
F x F F F x
+ +

( )
( ) ( )
( ) ( )
. ( ) = ou encore ( ) = ( ) + - ( )
0
0
0 1 0

On va donc introduire un nouveau paramtre = frquence des valeurs strictement nulles, et
proposer comme distribution de toutes les valeurs:
[ ]

x x
e e x F

(
(
). - (1 - 1 = 1 . - 1 + = ) (

b) Somme de deux exponentielles (*)

Sur papier log-arithmtique, il est frquent que les sries de pluies s'ajustent non pas
une droite mais deux ou plusieurs tronons de droite d'o l'ide qu'il n'y a pas une mais
plusieurs exponentielles qui se superposent, et que la fonction de rpartition s'crit plutt:
( ) = - A. B. F x e e
x
x
1

Cette fonction se rvle meilleure que la fonction Gamma en particulier au voisinage de 0 et
dans les valeurs extrmes (-o l'exponentielle la moins dcroissante devient dominante et o
la distribution se ramne cette seule distribution exponentielle-)
Fonction de rpartition et densit de probabilit de la loi de GUMBEL

IV-3) LOI de GUMBEL (ou Loi des Valeurs Extrmes de type I)

C'est une loi trs importante, qui sert dans l'analyse frquentielle des valeurs extrmes,
et sera notamment l'ingrdient essentiel, en hydrologie oprationnelle, de la mthode du
Gradex pour le calcul des crues de projet.

On la rattache ici la famille des lois exponentielles, mais les spcialistes la rattachent
aussi la loi Gnralise des Valeurs Extrmes (G.E.V.) ou loi de Jenkinson, dont elle est un
cas particulier (cf. parag. IV-4 ci aprs)

a) Forme analytique:

C'est une loi 2 paramtres et , tous les deux de mme dimension que x. Elle est
dfinie pour toute valeur de x par sa fonction de rpartition F( x, , ) :

|
|
.
|
\
|

x
e
e x F ) , , (

Sa densit s'crit:
|
|
.
|
\
|
|
.
|
\
|

x
e
x
e e x f . .
1
) , , (
et on vrifiera que le maximum de cette densit ou Mode est obtenu pour x = .

Elle est souvent utilise pour l'tude des valeurs extrmes (crues, pluies extrmes, hauteur de
vagues), car elle repose sur une thorie qui se rsume ainsi :
- pour une variable respectant certaines conditions
- si on prend k chantillons de taille N
- et si sur chaque chantillon de N individus on slectionne le max, ou le min, alors
- les k maxima ou minima observs suivent une loi de Gumbel.

Il arrive que ces conditions soient assez bien remplies dans la nature (cas des pluies
extrmes pas de temps assez fin), mais cela n'est quand mme pas gnral.
Il est pourtant frquent de la voir appele "loi des valeurs extrmes", comme si elle
s'appliquait tous les cas ...

En dpit de ses proprits particulires, surtout intressantes "dans la queue de la
distribution" (pour les probabilits proches de 1), l'allure de la courbe est assez banale, proche
d'une loi Gamma ou Lognormale dans sa partie mdiane (cf. page ci- contre).

b) Calcul des Moments

On trouve, en effectuant le calcul analytique:

2
1.645. = et . 577 . 0 + =
x x
V

et inversement, en exprimant les paramtres en fonction des moments:

x x x x

0.444. - = 0.577. - = et . 7797 . 0 =

6
=
Notons que ceci sera utilis dans la mthode d'ajustement dite mthode des Moments
pour le calage des paramtres d'une loi de Gumbel. Mais il existe d'autres mthodes que nous
verrons au chapitre suivant.

Enfin, on peut vrifier que son coefficient d'asymtrie: 14 . 1
3
3
= =
x
ou CS

est constant, de mme que son coefficient d'aplatissement 4 . 5
4
4
=
x

c) Papier de Gumbel :

Comme, d'aprs l'expression de la loi:
[ ] ( )

=
x
x F Log Log ) (
si on porte sur un papier chelles arithmtiques:

-Log(-Log[F
*
(x)]) en fonction de x,

(o F*(x) est la probabilit empirique estime sur l'chantillon)

alors les points (si n est grand) seront peu prs aligns (puisque l'on a alors l'quation d'une
droite).

Un papier de Gumbel est donc constitu d'une chelle arithmtique pour la variable x
et d'une chelle doublement logarithmique en probabilit, mais:
- arithmtique en u = -Log(-Log[F(x)]) =
x
, dite variable de Gumbel,

- mais gradue en fait en valeurs de F(x)

En pratique, cette chelle est compltement dilate vers les valeurs de fortes probabilits au
non dpassement.
On donne en annexe un papier de Gumbel, qui est trs utilis pour dcrire un
chantillon de valeurs extrmes.

d) Extension de la loi de Gumbel :

Comme prcdemment, on peut tre tent d'enrichir la bote outils en se demandant
si ce n'est pas une transforme de la variable X qui suit une loi de Gumbel.

Par exemple, si Y = Log (x-x
0
) suit une loi de Gumbel, alors X suit une loi de Frchet.

C'est la raison pour laquelle le papier de Gumbel est souvent propos avec un axe
supplmentaire chelle logarithmique.
papier de Gumbel

IV-4) APERCU SUR D'AUTRES LOIS DE VALEURS EXTRMES: (*)
Loi de WEIBULL ET G.E.V.

Quand on matrisera peu prs la Loi de Gumbel, on pourra sinterroger sur lutilisation
dautres lois pour reprsenter la distribution des valeurs extrmes (minima ou maxima).
On en trouvera une description assez complte, mais didactique, dans le remarquable ouvrage
de Kottegoda et Rosso (1997)

La loi de Gumbel est souvent appele loi des valeurs extrmes de Type I.

La loi de Type II s'crira
k
x
u
e k u x F
|
|
|
.
|
\
|
= ) , , (

Cest la loi de Frchet, qui est la loi de type I ce que la loi lognormale est la loi normale.

La loi de Type III s'crira:
k
u
x
e k u x F
|
.
|
\
|
= 1 ) , , (

ou Loi de Weibull et elle est utilise pour les valeurs minimales.

A. F. Jenkinson (1955) a trouv une formulation gnrale de ces trois lois sous la forme:

( ) 0 0
)
0
(
1
, ,
0
,
1
>

=
(
(
(
(
(
(
(
(
|
|
|
|
|
|
|
|
.
|
\
|
k
x x k
e k x x F
k

qui dgnre en Loi de Gumbel pour k = 0.

Ces lois sont de plus en plus utilises et on compltera ces aspects dans le cours de 3
me
anne
sur le calcul des valeurs extrmes pour les crues de projet.

On donne ci-dessous et page suivante quelques illustrations de la loi de Weibull et de
PARETO, non prsente en dtail. Juste pour information, la loi de Pareto est de la forme (cf.
Kottedoga et Rosso 1997 :
|
.
|
\
|
=
x
x
x x F
0
0
1 ) , , (

V-) QUELQUES LOIS DE VARIABLES DISCRETES:

Il s'agit de lois destines traiter des variables discrtes (qui ne peuvent prendre que
certaines valeurs prfixes)

Exemples:
- la TVA n'a que 4 taux possibles: 5%, 18.6%, 20.6% ou 33% (si tant est que ce
soit une variable alatoire..!)
- le rsultat du jet d'un d (1, 2, 3, 4, 5, 6) ou de plusieurs ds (pour 3 ds, les
valeurs vont de 3 18, etc...)
- le nombre de vhicules passant dans un temps donn un page autoroutier...

En Hydrologie, on utilisera des variables comme:

- nombre de jours pluvieux d'un mois donn (de 0 31)
- nombre de crues (-dans l'anne-), suprieures un certain seuil de dbit, etc...

V-1) LOI de POISSON:

C'est une loi dfinie pour x entier positif ou nul, elle n'a qu'un seul paramtre a

[ ]
!
.
= Pr
x
e a
x X
a x
=
On peut calculer son moment d'ordre 1:

[ ] [ ]
a e a e
x
a
a e
x
a
x e
x
e a
x
x
e a
x X
x
e a
x x X x
a a
x
a
x
a
a x
a x a x
x
X
. .
! ) 1 (
. .
!
. .
!
.
.
!
.
. 0 Pr . 0
!
.
. Pr .
=1 x
1
=1 x =1 x
=1 x 0 = x 0
= =
= = =
+ = = = = =

(car le est en fait le dveloppement en srie de e
-a
.)
Dans le chapitre III, on verra donc que pour la mthode des moments ou du maximum
de vraisemblance, on prendra tout simplement le paramtre a gal la moyenne empirique de
l'chantillon.
a m x
x
= =

Exemple :
Nombre de crues par an de l'Isre dpassant 500 m
3
/s Grenoble,
( si on fait l'hypothse ( vrifier) que cette variable est bien
dcrite par la loi de Poisson de moyenne "3 crues par an") :
Nb de crues par an :

(dpassant 500 m
3
/s): 0 1 2 3 4 5 6 7

Probabilit (en %): 5% 15% 22% 22% 17% 10% 5% 2%

Notons au passage le caractre non symtrique de cette loi.
V-2) LOI BINOMIALE

C'est une loi dfinie pour les n+1 valeurs entires 0, 1, 2, 3,... n;
la valeur k tire au hasard d'une loi binomiale ayant pour probabilit :

Pr .
!
!( )!
. X k C p q
n
k n k
p q
n
k k n k k n k
= =

= avec p + q = 1

Calcul des moments :
On montre que : E X n p
X
= = .
et que
[ ] ( ) [ ] q p n et q p n p n X E X Var . . . . .
X
2
= = =

toujours avec p+q =1

On remarquera que cette loi n'a qu'un paramtre (puisque p et q sont lis) et que l'on
vient de donner 2 relations pour calculer ce paramtre!.

Exemple :

"Probabilit pour avoir en 50 ans 2 crues maximales annuelles (et seulement 2)
suprieures la crue centennale "(cette dernire est la crue qui a une chance sur 100 d'tre
dpasse chaque anne).

L'vnement de base est :
" la crue maximale annuelle est suprieure la crue centennale".
et comme on considre n = 50 ans, l'vnement peut apparatre:
0 , ou 1 , ou 2 , ou ... k , ou n = 50 fois

La variable k est le nombre de fois o, en 50 ans, k maximas annuels dpassent sur un
chantillon infini la valeur de la crue centennale.
k a donc une moyenne de .5 (50 ans/ 100 ans).

L'vnement de base: "le dbit max annuel dpasse la crue centennale"
a une probabilit lmentaire de : p = .01
et son complment q = .99.

Donc la probabilit que le nombre soit strictement gal k est :
Pr
!
!( )!
. X k
n
k n k
p q
k n k
= =

soit, pour k = 2 Pr
!
! !
( . ) .( . ) X = = 2
50
2 48
0 01 0 99
2 48
= 0.08

On a donc 8% de probabilit d'observer en 50 ans
2 et seulement 2 crues dpassant la crue centennale.
graphes du Chi 2 et de Student

VI-) LOIS UTILISEES DANS LES TESTS d'HYPOTHESES
(*)
:

Les lois qui suivent sont rarement utilises comme modle que lon cherchera ajuster
un jeu de donnes. Par contre, on y fait souvent rfrence dans les tests d'hypothses. Ceux-
ci sont utiliss pour dcider de l'adquation d'un modle, ou dans les distributions des effets
de l'chantillonnage (cf. Chap. III de cette partie ou II
me
partie sur la corrlation).

VI-1) LOI du CHI 2 :

C'est une loi un paramtre n dfinie pour x > 0 ; l'expression de sa densit est la
suivante :

2
1
2
2
. .
2
. 2
1
) , (
x n
n
e x
n
G
n x f

|
.
|
\
|
=
o G est la fonction Gamma classique, et n est le nombre de degrs de libert.
On en donne deux exemples sur les figures ci-contre.

Son origine : c'est la loi de la somme des carrs de n variables normales centres rduites.
Nous l'utiliserons surtout dans les tests d'ajustement.

Tables : On donne en gnral pour diverses valeurs de n la probabilit au dpassement ou au
non dpassement (cf. annexe).

VI-2) LOI de STUDENT:
C'est une loi un paramtre n :
2
1
2
1
1
.
2
2
1
.
.
1
) , (
+
|
|
.
|
\
|
+
|
.
|
\
|
|
.
|
\
| +
=
n
n
x
n
G
n
G
p n
n x f
o G est la fonction Gamma classique. L encore on voit un exemple de graphe ci-contre.

Son origine : Si on prend n variables centres rduites gaussiennes X
1
, X
2
,..X
n
, et alors la
variable t , dfinie ainsi:
t
X
n
X
i
i
n
=
1
2
1 =

suit une loi de Student ; le paramtre n est appel nombre de degrs de libert.

Tables : (cf. annexe)
On l'utilise surtout dans des tests de comparaison de moyennes d'chantillons
gaussiens ou pour tester des coefficients de corrlation partielle en corrlation multiple.
graphes Fisher Snedecor
VI-3) LOI de FISHER SNEDECOR :

C'est la loi du rapport de deux variables indpendantes du Chi 2, U et V
respectivement m et n degrs de libert.

n
V
m
U
X

=
Cette distribution est dfinie par sa densit g(x, m,n):

2 2
2
2 2
) . .( . . .
2
.
2
2
) , , (
n m m n m
x n m x n m
n
G
m
G
n m
G
n m x g
+
+
|
.
|
\
|
|
.
|
\
|
|
.
|
\
| +
=

En pratique, on prfre appeler la variable alatoire F plutt que X, et la densit devient:

2 2
2
2 2
) . .( . . .
2
.
2
2
) , , (
n m m n m
f n m f n m
n
G
m
G
n m
G
n m f g
+
+
|
.
|
\
|
|
.
|
\
|
|
.
|
\
| +
=

Selon "Statistical Methods in Hydrology" (Ch. Hahn 1977), sa moyenne vaut:

E F
m
n
=
2

et sa variance vaut: [ ]
( )( ) 4 . 2 .
2
.
2

+
=
n n m
m
n F Var

Cette loi est surtout utilise dans les tests d'homognit pour comparer des variances
d'chantillons. C'est une loi 2 paramtres m et n. On trouvera une table de cette loi en
annexe.

Rsum et conclusions

Nous venons de dcrire quelques lois en donnant leurs proprits essentielles:
c'est la " bote outils" de base pour l'ingnieur hydrologue.
Mais on imagine facilement qu'il est impossible d'tre exhaustif, et qu'il faut tre prt,
face une variable nouvelle, rechercher ventuellement dans les ouvrages spcialiss une
nouvelle loi, correspondant un histogramme particulier.
Nous verrons ci-aprs comment ajuster leurs paramtres partir de donnes observes.
BIBLIOGRAPHIE:

BENJAMIN J.R and CORNELL C.A. (1970).
Probability, Statistics and Decision for Civil Engineers
Mac Graw Hill Pub. Comp. 684 p.

B. BOBEE et F. ASHKAR (1990)
The Gamma family and derived distributions applied in hydrology
Water Ressources Publications PO Box 26 0026 Highlands Ranch Co 80 126 0026 USA Ed
Fort Collins 218 p. (+ 10 disquettes - optionnel)

HAAN Ch. T. (1977)
Statistical Methods in Hydrology.
Iowa state University Press 2me ed. 1979, 378 p.

JENKINSON A.F. (1955)
The frequency distribution of the annual maximum or minimum values of meteorological
elements.
Quarterly Journal of the Royal Meteorological Society, vol. 81, pp. 158-171

KOTTEGODA N.T. and R. ROSSO (1997)
Probability, Statistics and Reliability for Civil Engineers and Environmental Engineers
The Mac Graw Hill Pub. Comp. Inc. 735 p.
Ouvrage trs complet, trs didactique et illustr dexemples

LUBES H., MASSON J.M., RAOUS P. , TAPIAU M. (1994)
SAFARHY, Logiciel de calculs statistiques et d'analyse frquentielle adapt l'valuation du
risque en Hydrologie. Manuel de rfrence. Editions ORSTOM

M. MARQUES (1982)
Conception dun modle stochastique de simulation des rayonnement solaires direct et global pas de temps fin.
Application aux donnes de Grenoble.
Thse Universit Scientifique et Mdicale de Grenoble

ROCHE M. (1963)
Hydrologie de l'Ingnieur
Ed. Gauthier Villard 1963

VIALAR 1986
(disponible auprs du Service des publications de Mto France)

YEVJEVICH V. (1972)
Probability and Statistics in Hydrology
Water Ressources Publications Ed Fort Collins Co USA. 302 p.
(Ouvrage trs complet sur les modles probabilistes
Le Pr Yevjevich est dailleurs sorti de l'ENS d' Hydraulique de Grenoble en 1939)4.
1
re
Partie: MODELES PROBABILISTES

CHAPITRE III :

ESTIMATION ET TECHNIQUES D'AJUSTEMENT
DUNE LOI DE PROBABILITE A UN ECHANTILLON

I) Principes de l'ajustement: 87

II) Mthode des Moments 88

II-1) Principe et problme d'estimation associs: 88
II-2) Applications la loi normale et ses drives 90
II-3) Applications la loi Gamma 95
II-4) Applications la loi exponentielle et ses drives 96
II-5) Applications la loi de Gumbel 97

III) Mthodes Graphiques (d'ajustement d'un chantillon ): 98

III-1) Principe et problmes associs: 98
III-2) Le diagramme Gausso-arithmtique (ou papier "normal") 99
III-3) Le diagramme Log-normal 101
III-4) Loi exponentielle et diagramme Log-arithmtique 102
III-5) Le diagramme de Gumbel 106
III-6) Extensions 106

IV) Mthode du Maximum de Vraisemblance 108

IV-1) Principe et problme d'estimation associs 108
IV-2) Applications la loi de Poisson 109
IV-3) Application la loi normale
110
IV-4) Applications la loi exponentielle et ses drives 110
IV-5) Applications la loi de Gumbel 111

V) Tests d'hypothses 114

V-1) Objectif 114
V-2) Test du Chi 2 (
2
) 115
V-3) Test de Kolmogorov Smirnoff 120

VI) Complments thoriques : 122

VI-1) La mthode des moments pondrs(*) 122
VI-2) Incertitudes sur les estimateurs - Effets de l'chantillonnage 126
1
re
Partie - CHAPITRE III :

ESTIMATION ET TECHNIQUES D'AJUSTEMENT
DUNE LOI DE PROBABILITE A UN ECHANTILLON

I) PRINCIPES DE L'AJUSTEMENT:

Aprs l'analyse descriptive et exploratoire d'un chantillon, on peut avoir une certaine
intuition du "Modle Probabiliste" le plus adquat pour rsumer/reprsenter cet chantillon.

On choisit en gnral ce modle dans une famille de lois bien connues, et comportant
certains paramtres:
F(x, a
1
, a
2
,...a
p
) ou f(x, a
1
, a
2
,...a
p
)

le problme consiste alors :

trouver, dans cette famille de lois,
celle qui reprsentera au mieux l'chantillon considr:.
Cela revient donc :
fixer, de manire unique et reproductible,
les paramtres du modle concern.

Pour caler ces paramtres:
k
,
plusieurs mthodes sont couramment utilises. Nous
ne dcrirons que les plus classiques en dtaillant le calcul pour certaines lois.

Signalons tout de suite que, selon les lois et les chantillons, ces mthodes donnent des
rsultats plus ou moins diffrents et satisfaisants.

Enfin, nous terminerons, au paragraphe VI, par la prsentation d'une mthode dont
l'utilisation, rcente, tend se rpandre, notamment pour l'tude des valeurs extrmes, et qui
illustre les tendances en cours en recherche.
Nous voquerons aussi les quelques aspects des effets d'chantillonnage.

Note: Ce chapitre pourra parfois sembler fastidieux. En effet, les dmonstrations des
mthodes sont souvent laborieuses.
On se rappellera que l'on est d'abord utilisateur de ces mthodes, en vue de leur
application des problmes d'ingnierie hydrologique.
On ne donnera donc que quelques exemples de dmonstrations, pour bien assimiler le
principe de chaque mthode. Les justifications exhaustives seront rechercher dans les
ouvrages spcialiss.
Cependant, certaines mthodes, bien qu'admissibles, sont connues pour donner avec
certaines lois ou dans certaines conditions de pitres rsultats: il faudra aussi intgrer cette
information et l'utiliser ( par exemple le logiciel SAFARHY inclue ce type de "conseils
l'utilisateur " pour un large ventail de lois).

II) METHODE des MOMENTS:

II-1) Principe :

Soit f (x,
1
,
2
,...
p
) la loi retenue, avec les paramtres
1
,
2
,...etc,
et soit un chantillon observ de n valeurs x
i de la variable X
.

La mthode des moments s'appuie sur les proprits suivantes:

a) Un thorme nous dit qu'une loi de probabilit est connue:
- soit par l'expression de sa forme analytique
- soit, de manire quivalente, par la connaissance de tous ses
moments (qui sont une infinit)

(Note : Le lecteur intress pourra se reporter un cours de Probabilits, o il verra ce
propos la notion de "Fonction Caractristique" - cf. par exemple Vialar 1986).

b) D'autre part, la dfinition et le calcul thorique des moments montrent
qu'ils sont videmment en relation avec les paramtres de la loi considre:

[ ] ) ,.. , ( = ). ,.. , , ( . ) ,.. , ( - x =
2 1 2 1 2 1 1 p k p
k
p k
dx x f
+

o chaque moment, mme d'ordre k suprieur p, ne dpend plus que des p paramtres
j
.

Donc inversement, on peut crire que ces paramtres sont en relation avec les moments par:

k m
= G k
k
( , ,.. ,...)
1 2

et mme, puisqu'il n'y a que p paramtres :

il suffit d'crire les p premiers moments pour obtenir p relations p inconnues:

1 1 1 2 1 1 1 2
2 2 1 2 2 2 1 2
1 2 1 2
1 2
= =
= =
....
= =
....
=
( , ,.. ) ( , ,.. )
( , ,.. ) ( , ,.. )
.....
( , ,.. ) ( , ,.. )
.....
( , ,.. )
p p
p p
k k p k p p
p p p
G
G
G

p p p
G = ( , ,.. )
1 2

(et cela mme s'il n'est pas toujours vident d'inverser les relations pour trouver explicitement
les fonctions G
k
, et donc les paramtres...)

c) On sait aussi estimer les moments thoriques dordre k
k
de la
population partir des moments empiriques m
k
calculs sur l'chantillon.

d) Partant des relations de b), et considrant que l'on a p paramtres caler, on
va crire que les p paramtres de la loi satisfont les quations:

1 1 1 2
2 2 1 2
1 2
1 2
=
=
....
=
....
=
G
G
G
G
p
p
k p p
p p p
( , ,.. )
( , ,.. )
( , ,.. )
( , ,.. )

puis : - en remplaant les p Moments thoriques
k
de la loi f(x,...)
- par les p Moments empiriques m
k
calculs sur l'chantillon partir des x
i .

on obtient alors:

- les estimations a
k
(en lettres latines car ce sont des estimations)
- des "vrais" paramtres
k
(inaccessibles! car il faudrait toute la population )
et cela par:
- un systme plus ou moins compliqu
- de p quations , (-souvent non-linaires-) p inconnues (- les a
k
-) :

) ,.. , ( =
....
) ,.. , ( =
....
) ,.. , ( =
) ,.. , ( =
2 1
2 1
2 1 2 2
2 1 1 1
p p p
p p k
p
p
m m m G a
m m m G a
m m m G a
m m m G a

Comme en gnral, on ne manipule gure de lois plus de 3 paramtres, on a au plus
un systme de 3 quations 3 inconnues, certes non linaires, mais soluble par les mthodes
classiques (Newton-Raphson, etc...)

Remarque:

On peut thoriquement prendre n'importe quelle relation entre paramtres et moments.
En pratique, on utilise toujours les relations entre les p premiers moments et les paramtres,
car la thorie de l'chantillonnage nous montre que ce sont les premiers moments (ceux
d'ordre le plus bas) qui sont le mieux estims.
En effet, pour estimer un moment d'ordre k, on utilise les estimations des moments
d'ordre infrieur k-1, k-2, etc... et donc on propage les erreurs faites sur ceux qui
prcdent !

On va maintenant voir des exemples de cette mthode sur les lois tudies au Chapitre II.

II-2) APPLICATIONS la LOI NORMALE et ses DERIVEES

II-2-a) Cas de la loi normale

La loi Normale a donc 2 paramtres et de mme dimension que la variable X.
Soit un chantillon de n valeurs de la variable X : cherchons quelles sont les valeurs
de a et de b permettant une loi Normale de s'ajuster au mieux avec les n valeurs de
l'chantillon. Pour cela, nous allons utiliser la mthode des Moments .

La loi Normale ayant deux paramtres et , on va donc :

- chercher les valeurs estimes a et b de et ,
- telles que les deux premiers moments (moyenne et variance),
(dont l'expression est fournie au chapitre II p. II-7 et II-8 )
- soient gales la moyenne et la variance des valeurs x
i
de l'chantillon.

Pour la loi thorique paramtre:
2
.
2
1
.
2 .
1
) , , (
|
.
|
\
|

x
e x f ,

on a trouv : Moment thorique d'ordre 1 :
1
=
x
=
Moment thorique d'ordre 2 :
2
=
x
2
=
2

Et ces deux relations suffisent thoriquement pour dterminer les paramtres et
partir des moments thoriques
1 et
2
.

Comme ceux-ci
x
et
x
sont inconnus, on les remplace par les moments empiriques m
x
et
s
x
, ou plus simplement m et s, calculs sur l'chantillon.

D'o finalement les valeurs estimes des paramtres: ( estimes par la mthode des moments)

b = m
x
= moyenne de l'chantillon
a = s
x
= cart type de l'chantillon

et la loi normale, ajuste cet chantillon particulier par la mthode des moments, aura pour
expression :

2
.
2
1
.
2 .
1
) , , (
|
|
|
|
|
.
|
\
|
=
x
s
x
m x
e
x
s
b a x f

On aura donc forc l'galit stricte entre les deux premiers Moments thoriques de
cette loi et les deux premiers Moments empiriques de l'chantillon.

On pourra aussi comparer sur un graphique la droite correspondant cette loi ajuste avec une
autre droite obtenue par ajustement graphique direct ( l'oeil), (cf. paragraphe suivant III-2).

II-2-b) Cas de la loi Log-normale deux paramtres:

On a vu au chapitre II (parag. II-2) les expressions thoriques des moments
- de la loi normale sur la variable Y = Log X ,
- en fonction de ceux de la variable X
- et rciproquement.

Si dans ces expressions:
- on remplace les moments thoriques
- par les moyenne et cart-type empiriques m
x
et s
x
calculs sur l'chantillon,
on obtient (cf. par ex. Chadule p. 71):

|
|
.
|
\
|
+
=
2 2
2
X X
X
Y
s m
m
Log m
et pour variance:

|
|
.
|
\
|
+ =
2
2
2
1
X
X
Y
m
s
Log s

Et on les utilisera ensuite sur le graphique lognormal (cf. paragraphe III-3 suivant) pour tracer
une droite que l'on comparera ventuellement un trac direct l'oeil (mthode graphique).

ATTENTION ! ! ! Mise en garde :

Quand X suit exactement une loi Log-normale, ces estimateurs semblent dj assez
sensibles l'chantillonnage.
Pour le vrifier :
1)- on calculera le logarithme de chaque valeur brute, et ensuite la moyenne et
l'cart-type de ces logarithmes, soit m
Y
et s
Y
.

2)- paralllement, on appliquera les formules ci-dessus, qui, partir du calcul
de m
x
et s
x
proposent une autre estimation m*
Y
et s*
Y
.

3)- on comparera alors les estimations
directes par le calcul de m
y
et s
y
ou indirectes partir des formules et du calcul de m
x
et s
x
:
elles diffrent souvent de 10 ou 20% , surtout pour l'cart-
type s
y

Cependant, quand la distribution est dissymtrique mais n'est pas strictement
lognormale, on peut toujours, comme en 1)-, calculer directement m
y
et s
y
partir du
logarithme des valeurs brutes et travailler dessus..

Par contre, dans ce dernier cas, l'application des formules thoriques qui les relient aux
valeurs initiale en x, formules strictement valables seulement et seulement pour une
distribution lognormale, nest plus adapte et ne se justifie plus.
Les carts entre s*
y
et s
y
sont souvent d'un facteur 1,5 ou 2 ..!

Ces formules taient attractives avant l'avnement des calculateurs, quand il fallait consulter
une table pour trouver le log de chaque valeur, puisqu'elles vitaient justement de calculer le
logarithme.
Aujourd'hui il vaut mieux calculer les logarithmes et travailler directement dessus.

C'est pourquoi nous dconseillons plutt d'utiliser ces formules (et la mthode des
moments) pour la loi Lognormale.

II-2-c) Cas de la loi Log-normale trois paramtres:

Dans ce cas, ce n'est plus la variable:

Y = Log X qui suit une loi normale mais la variable Y = Log (X - x
0
)

Et on cherche dterminer x
0
de sorte que Y soit le plus "normal" possible.

On utilise pour cela une proprit de la loi normale, savoir que son asymtrie est
nulle, donc que le moment d'ordre 3 de la variable Y devrait tre nul.

Si on l'exprime en fonction des moments de la variable initiale X, et qu'on l'annule, on
voit que x
0
doit satisfaire la relation:

( )
( )
x
x
x x
x
x
x
3
4
2
0
2
3
0
. 3

=
+

avec
3
X
le moment centr d'ordre 3 de X :
3
3 2 3
3
x X X X
E X = . .

On connat dj des estimateurs empiriques de
X

et
X
. Pour
3
X
on prendra:

( )( )
(
(
|
.
|
\
|
+

=

= = = =
n
i
n
i
n
i
i
n
i
i i i x
x
n
x x x n
n n
m
1 1
3
1 1
2 3
3

2
. 3
2 . 1
1

On en trouvera la dmonstration dans louvrage de M. Roche (1965), et une
application un peu voisine dans SAFARHY.

On traitera en exercice une application une variable bien adapte la loi
LogNormale (les dbits mensuels de la Romanche), mais on donne ici quelques exemples un
peu plus problmatiques.

EXEMPLES

a) Exemples simuls: Soit un chantillon de 20 valeurs "vraiment" tires d'une loi
Log normale
N de -l'observation Val. Brutes Xi Transform. Yi = LnXi
1 245.74 5.504273
2 218.52 5.386859
3 227.06 5.425231
4 52.57 3.962241
5 169.52 5.132996
6 133.74 4.895869
7 96.10 4.565418
8 48.66 3.884836
9 556.26 6.321229
10 282.82 5.644801
11 252.27 5.530508
12 199.04 5.293523
13 598.22 6.393953
14 176.79 5.174989
15 468.64 6.149843
16 106.43 4.667445
17 39.39 3.673489
18 1853.22 7.524682
19 16.86 2.824712
20 858.81 6.755545
moyenne 330.0331 m
x
5.2356221 m
y

cart-type 418.5698 s
x
1.1214482 s
y

Et les formules thoriques proposent :
3198 . 5
2 2
2
*
=
|
|
.
|
\
|
+
=
X X
X
Y
s m
m
Log m comparer 5.2356
et pour l'cart-type:
979 . 0 1
2
2
*
=
|
|
.
|
\
|
+ =
X
X
Y
m
s
Log s comparer 1.121
De mme pour un chantillon de 500 valeurs simules:

moyenne 225.857985 m
x
4.9244716 m
y

cart-type 306.663117 s
x
0.9942243 s
y

comparer avec des valeurs "thoriques" de : m*
y
= 4.897 et s*
y
= 1.045

Donc "en gros", les deux estimateurs ( empiriques et thoriques) sont voisins pour la
moyenne, un peu plus sensibles l'chantillonnage pour l'cart-type.
b) Cas rels: (o l'on n'a pas de certitude sur l'appartenance une loi Lognormale)

Exemple des pluies annuelles BILMA (Niger) (donnes tires de CHADULE, p. 60)

Anne Pluie annuelle X Y = Ln X
1941 6
1942 2
1943 20
1944 3
1945 28
1946 57
1947 34
1948 6 complter
1949 47 comme exercice
1950 40
1951 9
1952 17
1953 54
1954 21
1955 13
1956 9
1957 9
1958 10
1959 15
1960 4
1961 16
1962 25
1963 17
1964 39
1965 9
1966 15
1967 8
1968 27
1969 14
1970 7
Moyenne 19.37 2.6524
Ecart-
type
15.16 0.8447
Et les formules thoriques proposent: 7248 . 2
2 2
2
*
=
|
|
.
|
\
|
+
=
X X
X
Y
s m
m
Log m comparer
2.6524
mais surtout, pour l'cart-type: 6912 . 0 1
2
2
*
=
|
|
.
|
\
|
+ =
X
X
Y
m
s
Log s comparer 0.8447
soit une diffrence suprieure 25 %...!

II-3) APPLICATIONS la LOI GAMMA et ses DERIVEES

II-3-a) Cas de la loi Gamma deux paramtres:

On rappelle l'expression de la loi:

( )

1
. . .
1
) , , (
1
|
|
.
|
\
|
=
x
e x f
x

Le calcul des moments, que nous ne dtaillerons pas ici, fournit:

[ ] . = =
x
X E et [ ]
2 2
. = =
x
X V

D'o en rsolvant les 2 quations:

=
x
x
2
et

= =
x
x
CV
2
2 2
1

avec CV coefficient de variation.

Remarque :
A noter que l'on pourrait calculer des moments d'ordre plus lev, par exemple:

3
3
2
x
= . . et ( )
4
4
2 . . 3 + =
x

entre lesquels on pourrait facilement aussi calculer et .

Mais on sait que plus le moment est dordre lev, plus il perd de degrs de libert, (
cause de la ncessit dutiliser , pour calculer ces moments dordre lev, des moments
dordre infrieur !) et donc moins il a de robustesse :
on utilisera toujours les moments dordre le plus faible possible.

II-3-b) Cas de la loi Gamma trois paramtres:
Dans ce cas, l'expression de la loi devient :

( )
( )

1
. . .
1
) , , , (
1
0
0
0

|
|
.
|
\
|
=
x x
e x x f
x x

c'est dire que l'on va chercher dterminer en plus l'origine x
0
(-s'il n'y a pas de valeur
impose par la "physique" du phnomne-) et il va falloir utiliser un 3
me
moment pour
trouver aussi x
0
.

II-3-c) Utilisation de la table de la loi Gamma deux paramtres:

La mthode des moments est la plus couramment utilise pour la loi gamma, vu sa facilit.
On calcule la valeur de =
1
2
CV
.
On trouve dans la table la colonne correspondant cette valeur de .

Au besoin, si la valeur du obtenu ne figure pas dans la table, on interpolera entre deux
colonnes.

Pour une valeur de F(u) ( par exemple F(u) =.80 ), et = 10 :

- on lit dans la table la valeur u correspondante, soit u = 3,96
- et on repasse x par x = u.
x
, associ F(x) = .80
- d'o un point de la courbe de la loi Gamma thorique qui a les mmes (deux
premiers) moments que lchantillon, et de mme pour les autres points F = 0.1, 0.2,
etc...
On porte ensuite les points obtenus sur un diagramme quelconque (il n'existe pas de
diagramme "gamma"), souvent un diagramme gausso-arithmtique , comme on le verra en III-
6)

On traitera par exemple en exercice une application des pluies mensuelles qui, pour les mois
secs notamment, ont une dissymtrie qui les loigne de la loi normale.

II-4) APPLICATIONS la LOI EXPONENTIELLE et ses DERIVEES

La loi exponentielle est un cas trs particulier de la loi Gamma et peut s'crire
indiffremment:

( )

x
x
e e x F

= = 1 1
.
ou, en densit de probabilit ( )

x
x
e e x f

= =
1
.
.

Il y a donc un seul paramtre; on prendra indiffremment ou , ce dernier ayant l'avantage
d'avoir la mme dimension que X.

On montre aisment, par un petit calcul d'intgration ( la porte d'un tudiant de DEUG
B), que le premier moment:
[ ]

= = =

+
dx e x X E
x
X
. .
1
.
0

Un autre petit calcul d'intgration, ( la porte d'un tudiant de classes prparatoires),
montre que le moment centr d'ordre 2 s'crit:
( ) [ ] ( )
2
0
2 2 2
. .
1
.

= = =

+
dx e x X E
x
X X X

Soit encore, pour la loi exponentielle:
x
=
C'est d'ailleurs un moyen de vrifier que la loi est exponentielle:
sa moyenne est gale l'cart-type.

Naturellement, la mthode des moments utilisera le moment d'ordre le moins lev et prendra
:
= m
x

car
x
est plus sensible aux valeurs fortes de l'chantillon, via l'lvation au carr.

On traitera en dtail de cette loi sur un exercice (pluies journalires Seyssel cf. paragraphe
III )
II-5) APPLICATIONS la LOI de GUMBEL

On rappelle la forme de cette loi:

x
e
e x F

= ) (

Le calcul des deux premiers moments thoriques n'est pas tout fait vident. (Les amateurs
clairs pourront chercher la dmonstration dans la thse de M. Slimani (1985), vol. d'annexe
IA2). Cela fournit:
577 . 0 . + =
x

et 1.2826 . =
x

d'o les relations entre paramtres et moments:

= . . 0 78
x
et = -
x
0 577 . .

Pour les estimer, il suffit de calculer les moments empiriques m
x
et
x
sur un chantillon et
d'en tirer a et b.

Rappel: , ou son estimation a , est appel "gradex" (pour gradient de l'exponentielle),
car c'est la quantit (en unit de l'utilisateur) dont augmente x si on augmente
d'une unit de Gumbel sur l'axe des probabilits

Un autre ingrdient couramment utilis est le quantile de probabilit fixe:

- soit une probabilit fixe q , donc telle que F(x
q
) = q
- alors ce quantile x
q
est tel que :

x u
q q
= + .
o u
q
est la valeur :
( ) [ ] q Ln Ln u - =
q

ou encore, sur le graphique (cf. parag. III-5), celle qui correspond sur l'axe de Gumbel la
probabilit q.

En fait plutt que de raisonner en probabilit, on raisonne souvent en Priode de Retour :
T =
1
1- q
d'o x
q
= x
T

Exemple: si q = 0.999 , T = 1000, et x
.999
= x
1000

III) METHODES GRAPHIQUES:

III-1) Principe :

On part en gnral des distributions empiriques prsentes au chapitre I-2, et plus
particulirement de la courbe des frquences cumules.

Comme on l'a vu, celle-ci ncessite:
- le classement de l'chantillon
mais surtout un choix :
- l'affectation chaque individu, partir de son rang de classement i,
- d'une probabilit empirique estime Prob[X<x
i
] ~ f( i, n)

Or ce choix pose un dlicat problme, et impose certaines hypothses (- notamment sur la
frquence des valeurs les plus fortes et les plus faibles de l'chantillon- cf. biblio du chapitre I
, notamment des articles comme celui de NOPHADOL IN-NA and VAN-THANH- VAN NGUYEN
(1989))
Cette probabilit empirique s'crit, pour la valeur de rang i parmi n:
Probabilit associe la valeur de rang i = P
i a
n b
i
=
+

qui, dans le cas courant de la formule de Hazen devient: P
i
n
i
=
0 5 .

On peut alors porter sur un diagramme P
i
en fonction de x
i
.

On peut constater que l'allure de cette courbe, en diagramme arithmtique (sur du
papier millimtr classique), est souvent chaotique cause du faible chantillonnage Elle
ne permet gure de reconnatre et de distinguer les modles probabilistes les plus courants, ni
de juger de la symtrie. Pour ce diagnostic, (-c'est dire pour identifier le type de loi-), on
lui prfrera souvent l'histogramme.

Le principe des mthodes graphiques va donc reposer plutt sur la Fonction de
rpartition et sur la construction d'un diagramme fonctionnel associ, (-comme on a vu qu'il
en existe pour certaines lois au chapitre II).
Cela consiste raliser une anamorphose ( une transformation analytique ) telle que:
- dans le nouveau diagramme transform,
- le modle considr, ( i.e. la Fonction de Rpartition, approche par la
courbe empirique des Frquences Cumules) ,
- prendra une allure que l'oeil humain sait reconnatre aisment :
.. une ligne droite.

Les axes seront gradus en valeurs arithmtiques usuelles (- entre 0 et 1 pour les
probabilits et entre les valeurs admissibles pour la variable X -) mais les graduations verront
leur cartement et leur progression voluer selon une fonction particulire.

Si les points empiriques s'alignent ( peu prs...) correctement sur un diagramme fonctionnel
donn,
c'est que l'chantillon suit ( peu prs...) le modle utilis pour construire
ce diagramme,
et donc que le modle constitue un compromis acceptable pour reprsenter
/ rsumer l'chantillon..

La qualit de l'alignement constitue de plus un test de l'adquation du modle l'chantillon
utilis.

Le mieux est de donner quelques exemples d'usage de ces papiers fonctionnels. On a
vu au chapitre II la faon de les construire et un peu de les utiliser. On va rappeler ces
possibilits, en insistant ici sur les cts pratiques.

III-2) Le diagramme Gausso-arithmtique (ou papier" normal")

On a vu au chapitre II comment construire un diagramme gaussien, en s'appuyant sur
le fait que toute transformation linaire d'un variable normale reste une variable normale.
On utilisera ce diagramme en exercice dans une application des pluies annuelles.

Complments: Comparaison avec l'ajustement obtenu par la mthode des moments

La mthode des moments nous permet de dterminer une loi particulire dans la
famille des lois normales, celle qui a mme moments m
x
et s
x
que l'chantillon.
On peut donc la reprsenter sur papier de Gauss: c'est une droite qui passe:

- par le point d'ordonne P = 0,5 et d'abscisse x = m
x

- par les points d'ordonnes P = 0,1 et d'abscisse x = m -1,28.s
x

et P = 0,9 et d'abscisse x = m +1,28.s
x
On utilisera dailleurs ces proprits pour dduire directement du graphique :
- la moyenne estime de la population :
en lisant la valeur de x correspondant la probabilit 50%
puisque pour une loi normale m
x
= X
med
= x
50%

- et lcart-type :
en lisant lamplitude quil y a entre les valeurs de x correspondant aux
probabilit 10 et 90%. Or cet intervalle , qui contient 80% des
individus, correspond pour la loi normale 2,56 cart-types.

Exemple :
On montre un petit exemple ( en fait litigieux !), tir de HUBERT P. et H.
BENDJOUDI (1998) A propos de la distribution statistique des cumuls pluviomtriques
annuels : Faut-il en finir avec la normalit ? (Revue des Sciences de lEau)
Dans cet article un peu provocateur, les auteurs remettent en cause une dmarche
couramment accepte (et prsente comme telle au chapitre I) , savoir que les pluies
annuelles suivent une loi normale
Les arguments sont empiriques (les histogrammes sont peu prs gaussiens, les frquences
cumule aussi), et thoriques : la pluie annuelle est une variable somme de nombreuses
variables ( les vnements pluvieux) indpendantes et de mme ordre de grandeur
Or pour les valeurs extrmes cet argument ne tient plus :
- on a des volumes (-qui ne suivent pas une loi normale-) apports par certains
pisodes pluvieux , qui peuvent eux seuls reprsenter plus que la valeurs
annuelles courantes
- certaines valeurs annuelles sont donc plus le reflet dun pisode exceptionnel que
dune moyenne de nombreux pisodes indpendants. Elles suivent plutt la loi de
ces pisodes quun loi normale.

Cela peut se voir sur de (vraiment !) longues sries , comme ici Padoue ( Italie) o
lon dispose de 266 ans et o lon peut admettre que la loi normale convient bien pour des
probabilits infrieures .95, mais scarte de la loi empirique au del.

diagramme PADOUE

III-3) Le diagramme Log-normal (ou papier "Gausso-logarithmique")

On a vu aussi au chapitre II comment construire un diagramme lognormal, en
s'appuyant sur le fait que l'on peut revenir une variable normale en utilisant une chelle
logarithmique.
On utilisera ce diagramme en exercice dans une application des pluies ou des
dbits mensuels.

Complments: Comparaison avec l'ajustement obtenu par la mthode des moments

La mthode des moments nous a permis de dterminer la loi normale particulire qui a
mmes moments m
Y
et s
Y
que l'chantillon transform en Logarithme.

Rappelons que l'on a obtenu:

|
|
.
|
\
|
+
=
2 2
2
X X
X
Y
s m
m
Log m
et pour l'cart-type

|
|
.
|
\
|
+ =
2
2
1
X
X
Y
m
s
Log s

On peut donc la reprsenter sur papier de Gauss (gausso-logarithmique) , mais avec quelques
prcautions :

1) Puisque le diagramme fait lui-mme la transformation logarithmique, pour
reprsenter le point moyen :
|
|
.
|
\
|
+
=
2 2
2
X X
X
Y
s m
m
Log m qui va correspondre au point
d'ordonne P = 0.5 ,
on portera l'abscisse: X X
m
m s
m
X
X X
Y
50
2
2 2
= =
+

2) C'est un peu plus complexe pour les quantiles, par exemple les dciles
correspondant aux points d'ordonnes P = 0,1 et P = 0,9.
En effet, ils ont pour abscisses en Y : Y
10
= m
Y
-1,28.s
Y
et Y
90
= s
Y
+1,28. s
Y

On calcule donc ces valeurs:
Y
10
=
|
|
.
|
\
|
+
2 2
2
X X
X
s m
m
Log - 1,28.
|
|
.
|
\
|
+
2
2
1
X
X
m
s
Log
et Y
90
=
|
|
.
|
\
|
+
2 2
2
X X
X
s m
m
Log + 1,28.
|
|
.
|
\
|
+
2
2
1
X
X
m
s
Log

et on porte sur le diagramme, pour les points d'ordonnes: P = 0,1 et P = 0,9

les abscisses correspondant : X e
Y
10
10
= et X e
Y
90
90
=
III-4) Loi exponentielle et diagramme Log-arithmtique

On rappelle l'expression de cette loi
( )

x
e x F

= 1 ou, en densit de probabilit ( )

x
e x f

=
1

et on cherche une relation entre :

- la probabilit au dpassement ( ou au non-dpassement F(x) )
- et la valeur x,
- de sorte que cette relation devienne linaire grce une transformation
simple.

Ici, on a: ( ) ( )

x
e x F x X

= = 1 , Pr

ou ( ) ( )

x
e x F x X

= = , 1 Pr

et en prenant le logarithme des 2 membres et en changeant de signe:

( ) [ ]
, 1 x F Log
x
=

D'o une relation linaire entre x et le logarithme de la probabilit de dpassement.

Or il existe dj un diagramme log-arithmtique : le classique papier log
il suffira de l'adapter cet usage probabiliste!

Utilisation pratique du diagramme:

On prend un diagramme log-arithmtique deux ou 3 modules.

Pour x = 0 , on a Pr[X0] = 0 car pour cette loi X 0
donc : 1- Pr[X0] = 1

et on gradue la probabilit 1 (au dpassement) , le sommet de l'chelle logarithmique.
Ensuite on descend et on gradue 0,1 le sommet du module suivant, puis 0.01, et etc... de
module en module.

Mais il s'agit de probabilit au dpassement. Donc pour revenir F(x), la probabilit au non
dpassement, il suffit d'afficher en face le complment 1, c'est dire 0, 0.9, 0.99, etc...
On le voit sur le diagramme associ l'exemple donn ci aprs.

On constate aussi que le diagramme dilate les chelles dans les grandes valeurs et crase dans
le premier module 90% des valeurs courantes :
le trac va tendre s'appuyer surtout sur les grandes valeurs...
(do un risque de biais comme dans la mthode des
moments)
Exemple: Traitement graphique dune loi exponentielle:

On considre ici (cf. exercice distribu en cours), les pluies journalires non nulles
Seyssel (74) sur la priode Mai Septembre inclus de 1919 1967, soit 49 ans.

Il y a N = 2268 jours pluvieux sur 7497.

Borne sup. x
i
de la
classe i ( en mm)
Effectif n
i
cumul
jusqu' x
i

Pr(Xx
i.
)= n
i
/N Pr(Xx
i.
)= 1- n
i
/N
1 181 0.080 0.920
2 445 .196 .804
3 673 .297 .703
4 839 .370 .630
5 1003 .449 .558
6 1148 .506 .494
8 1357 .598 .402
10 1524 .672 .328
15 1805 .796 .204
20 1975 .871 .129
25 2067 .911 .059
30 2143 .945 .055
35 2188 .965 .035
40 2214 .976 .024
45 2235 .985 .015
50 2246 .990 .010
55 2255 .994 .006
60 2260 .996 .004
65 2262 .997 .003
75 2266 .999 .0009
85 2268 1.000 0.0

Ici, on a class toutes les valeurs , mais on ne leur a pas affect individuellement de
probabilit empirique. On est dans un contexte riche en donnes, donc on peut se
contenter de faire un dcoupage en classes assez nombreuses.
Pour chaque borne suprieure de classe b
k
, on sait le nombre total dindividus n
k
contenu dans
la classe k et les k-1 qui la prcdent, et on a donc la probabilit estime :
Pr[X< b
k
] = (n
1
+n
2
+..+n
k
) / n

Ici, il est inutile de pinailler la formule vu le nombre dindividus disponibles.

On trace le diagramme
et on vrifie, l'oeil, que les points sont aligns,
ce qui est vrai sauf pour les pluies faibles (< 10 mm).
Distribution des pluies journalires d't SEYSSEL(74)


Il faut alors dterminer d'aprs le diagramme le paramtre .

On peut prendre pour cela 2 points quelconques, i.e. deux valeurs x
1
et x
2
et crire que :

( )

1
. Pr
1
x
e x X

= = ( ) [ ]
1
1
Pr x X Log
x
=

( )

2
. Pr
2
x
e x X

= = ( ) [ ]
2
2
Pr x X Log
x
=

D'o par diffrence:
( ) [ ] ( ) [ ]
( )
( )
2
1
2 1
1 2
Pr
Pr
Pr Pr
x X
x X
Log x X Log x X Log
x x
= =

On peut mme prendre comme point de dpart x
1
= 0 Pr[X0] = 1 et il reste alors:

( )
( ) [ ]
2
2
2
Pr
Pr
1
x X Log
x X
Log
x
=

Si dans cet exemple on prend:

x
2
= 50 mm on lit Pr[X x
2
] 0.01 = 10
-2

( ) [ ] 6 . 4 30 . 2 2 10 . 2 Pr
2
= = x Log x X Log d'o = =
50
4 6
10 87
.
. mm

On comparera cette valeur avec celle trouve par la mthode des moments: = 9 59 . mm
en prenant la moyenne des x
i
....
III-5) Le diagramme de Gumbel

(Note: ce paragraphe est emprunt pour partie M. Paul. Meylan , de l'EPFL Lausanne, que
nous remercions vivement)

On a vu au chapitre II pourquoi, en prenant deux fois le Log de F(x), on avait une relation
linaire entre x et cette valeur transforme :
[ ] { } [ ] ) ( = ) ( x F Log Log x F u

On peut se contenter de tracer " l'oeil" la droite qui passe par les points, mais une mthode
astucieuse a t propose par Gumbel, qui est recommande par l'OMM.

Complments: la droite des moindres rectangles:

L'ide est de trouver une droite (dite des moindres rectangles), bissectrice des deux
droites classiques de la rgression de x en y et de y en x (Cf. II
me
Partie - Chapitre IV).
Celle-ci a l'avantage (contrairement la rgression) de ne pas faire intervenir de produits
croiss entre les deux variables considres.

Dans le cas gnral de 2 variables y et x , cette droite s'crit:
y = a.x + b avec a
s
s
b m a m
y
x
y x
= et = - .
Dans notre cas particulier, les 2 variables sont x et u , d'o:
u = a.x + b avec a
s
s
b m a m
x
u
x u
= et = - .
L'astuce consiste remarquer que:

- pour un chantillon de taille n fix
- les probabilits empiriques P
i
sont fixes
- donc aussi les valeurs u
i
= -Ln[-Ln P
i
]
et que donc - les valeurs de m
u
(n) et s
u
(n) ne changent pas
(une fois la taille de l'chantillon n fixe)
Alors - on peut les tabuler une fois pour toutes
(cf. Table ci-contre propose par P. Meylan
1992),
- et calculer aisment le trac de la droite .

L'utilisation de ce graphique sera vue (et pratique !) assez intensivement dans le
cours d'Hydrologie Oprationnelle sur l'tude des crues extrmes et la mthode du Gradex .

III-6) Extensions de l'utilisation des graphiques:

On utilisera parfois certains graphiques, issus d'une loi particulire, pour projeter les
observations ou la courbe d'une autre loi.
On utilisera alors seulement le fait qu'il propose une distorsion apprcie dans une
partie de l'chelle des frquences

Exemple : utilisation du papier de Gauss pour projeter des lois comme les lois Gamma...

IV) METHODE DU MAXIMUM DE VRAISEMBLANCE

IV-1) Principe

On rappelle que si lon considre la probabilit, en effectuant un tirage au hasard, d'obtenir
exactement la valeur x
i
:
cette probabilit est infinitsimale, quasiment nulle..!
Mais si on se fixe un intervalle, une tolrance, de dx/2 , la probabilit d'avoir eu dans
l'chantillon une valeur x
i
comprise entre x
i
+ dx/2 et x
i
- dx/2 est, selon la loi dfinie par
sa fonction densit :

Pr[x
i
- dx/2 < X < x
i
+ dx/2 ] = f( x
i
,
1
,....,
p
).dx

Et si les tirages sont indpendants, donc si les valeurs x
i
sont indpendantes:

- la probabilit d'avoir tir (dans n'importe quel ordre)
- les n valeurs x
1
, x
2
,..., x
n
(- plus ou moins dx/2 -)
- est le produit de ces n probabilits, soit:

Pr[{x
1
-dx/2 < X < x
1
+dx/2 }{x
2
-dx/2 < X < x
2
+dx/2 }...{x
n
-dx/2 < X < x
n
+dx/2 }]

= f( x
1
,
1
,....,
p
).dx . f( x
2
,
1
,....,
p
).dx......f( x
n
,
1
,....,
p
).dx

c'est donc une fonction des p paramtres
1
,....,
p

(- car les n valeurs observes x
i
sont alors des donnes).

La mthode du Maximum de Vraisemblance fait alors une hypothse quasi
philosophique:
- si cet chantillon , (- le seul mme dont on dispose...)
- est celui qui est apparu,
alors
- c'est qu'il avait une probabilit "forte" d'apparatre: il tait trs probable!
- et mme sans doute parmi les chantillons les plus probables...

Il est donc cohrent que le choix des valeurs des paramtres traduise cette "forte" probabilit..

La mthode du Maximum de Vraisemblance consiste choisir les valeurs estimes
des paramtres a
1
, .a
p ,
de manire maximiser cette probabilit, c'est dire rendre
cet chantillon observ le plus probable, le plus vraisemblable possible, dans le
contexte d'une loi choisie au pralable.

La maximisation se fait :
- grce aux paramtres,
- en annulant les drives partielles de la probabilit de l'chantillon.
- ou d'une transformation monotone de cette probabilit.

La rsolution de cette maximisation sera d'ailleurs plus ou moins simple selon les lois
utilises... On va en voir quelques exemples sur des lois classiques.
IV-2) Application la loi de Poisson

Nous donnons un premier exemple avec la loi de Poisson .
La loi de Poisson (cf. Chap. II ) est dfinie pour des valeurs entires positives de X.
Par exemple, en Hydrologie, cette loi donne la probabilit que lors d'une anne prise au
hasard, il y ait x crues suprieures une valeur donne Q0.

Cette loi n'a qu'un paramtre a.

Sa densit ( qui est ici une probabilit qu'une valeur, -un nombre entier-, tire au
hasard soit gale x) est : [ ]
a
x
e
x
a
a x f x X

= .
!
= ) , ( = Pr

Soit un chantillon de n valeurs de X: x
1
, x
2
,...., x
n

La probabilit de l'chantillon, c'est dire la probabilit que n valeurs de x soient
gales celles de l'chantillon (dans n'importe quel ordre) vaut :

P tirage de X x tirage de X x n tirage de X x
er me me
n
= = = = Pr .... 1 2
1 2

et pour cette loi de Poisson:
a n
e
n
x x x
n
x x x
a
P
.
.
! !...
2
!
1
...
2 1
+ + +
=
|
|
.
|
\
|

Maximisons cette probabilit P par rapport au paramtre a :
pour cela cherchons la valeur de a qui annule la drive de P par rapport
a.
En fait, la fonction P(a) aura son maximum pour la mme valeur de a que toute transformation
de P(a) par une fonction monotone, par exemple Log[P(a)].
Donc on peut chercher la valeur de a qui annule la drive Logarithmique:

d LogP
d a
= 0
or ici :
( ) ( ) ! !... ! Log . ... . ) (
2 1 2 1 n n
x x x a Log x x x a n a P Log + + + + =
et
d LogP
d a
n x
i
i
n

+
1
a
=
=
1

Donc la condition:
d LogP
d a
= 0 fournit: a
1
n
= =
=
x m
i
i
n
x
1

la mthode du Maximum de Vraisemblance propose:
- d'ajuster le paramtre a d'une loi de Poisson
- en le prenant gal la moyenne de l'chantillon.

Note :
Dans ce cas, pour cette loi particulire, le rsultat est le mme que par la mthode des
moments
IV-3) Application la loi Normale:

Celle-ci a pour expression
2
.
2
1
.
2 .
1
) , , (
|
.
|
\
|

x
e x f

et la mthode du Maximum de Vraisemblance va consister trouver les valeurs a et b de et
qui permettent de maximiser la probabilit de l'chantillon, c'est dire de maximiser le
produit :

P = f( x
1
, a b)*f( x
2
, a, b)*...*f( x
n
, a, b)

Avec l'expression prcdente de la densit de la loi Normale, celle ci s'exprime:

2
.
2
1
2
1
.
2
1
.
1

=
|
|
.
|
\
|
=
n
i
i
x
n n
e P

Minimiser P revient au mme que minimiser Log P, et la drivation par rapport aux deux
paramtres:

LogP
a
= 0 et

LogP
= 0 fournit les deux quations:

( )( ) 0 1 . . 2
2
1

1
= =

=
n
i
i
x
LogP
soit b
n
x m
i
i
n
x
= =
=
1
1
.

et 0
1
. . 2
2
1 1
.

2
1
=
|
.
|
\
|
|
.
|
\
|
=

=

n
i
x i
m x
n
a
LogP

d'o l'optimum la valeur: ( )
x
n
i
x i
s a m x
n
a = ou .
1
=
1
2 2
=

Note :
on retrouve ici aussi les rsultats obtenus prcdemment par la mthode des
moments...!

IV-4) Application la loi exponentielle

Ici aussi le rsultat va tre trivial.
Avec la densit de probabilit : ( )

x
x
e e x f

= =
1
.
.

|
.
|
\
|
=

n
1 = i
n
1 = i
1
. - =
1
. ) (
i
i
x Log n
x
Log n P Log

et

LogP
= 0 fournit l'estimation : =
=
1
1
n
x
i
i
n

Note :
et on retrouve ici encore les rsultats obtenus prcdemment par la mthode des
moments...!

Par contre pour des lois assez proches comme les lois Gamma, ce sera beaucoup plus
compliqu (cf. Haan 1977 par exemple). Nous en donnerons un seul exemple : celui de la loi
de Gumbel.

IV-5) Application la loi de Gumbel

Ici, le rsultat ne sera pas trivial... Et comme il est assez couramment utilis, on en propose
une dmonstration un peu dtaille(*).
Cette loi a pour expression
|
|
|
|
|
.
|
\
|

x
e
e x F
.
) , , (
et pour densit de probabilit
|
|
|
|
|
.
|
\
|
=
|
|
|
.
|
\
|

x
e
e
x
e x f
.
.
.
.
1
) , , (

et la mthode du Maximum de Vraisemblance va consister trouver les valeurs a et b de et
qui permettent de maximiser la probabilit de l'chantillon, c'est dire de maximiser le
produit :

P = f( x
1
, a, b)*f( x
2
, a, b)*...*f( x
n
, a, b)

Avec l'expression prcdente de la densit, celle ci s'exprime:

=
=
|
|
|
|
|
|
|
.
|
\
|
|
|
|
|
|
.
|
\
|
n
i
i
x
e
e
i
x
e
n
P
1
.
.
.
.
1

Minimiser P revient au mme que minimiser Log P:

=
|
|
.
|
\
|
=
|
|
|
|
|
.
|
\
|
n
i
x
e
n
i
i
x
Log n P Log
1 = i 1
.

et la drivation par rapport au deux paramtres :
LogP
a
= 0 et

LogP
= 0 fournit
les deux quations:
0
1
1
.
1
1
0

=
=

+
|
.
|
\
|
=
|
|
|
|
|
.
|
\
|
n
i
i
x
e
n
i
LogP

soit 0
1
.
1
=
=
|
|
|
|
|
.
|
\
|
n
i
i
x
e
n

ou encore:
=
|
.
|
\
|
=
n
i
x
i
e n
1

De mme:
( ) 0 . .
1
o d' 0
1
.

2
1 1
2
=
|
.
|
\
|

+ + =

=
|
.
|
\
|
i
n
i
x
n
i
i
x
e x n
a
LogP
i

Et on obtient finalement l'ensemble de deux quations, donnant les estimations a et b de et
:
.
1
1
.

=
n
i
a
i
x
e
n
i
a
i
x
e
i
x
x
m a

|
|
|
|
|
|
|
|
.
|
\
|
=
n
i
a
i
x
e
n
Log a b
1
.

La rsolution de ce systme d'quations dpend surtout de la premire, qu'il faut rsoudre de
manire itrative:

- on prend comme valeur initiale de a , soit a
(0)
, la

valeur propose par la
mthode des moments
- puis on itre, passant de a
(k)
a
(k+1)
.
- Kimball, cit par Gumbel (1958), propose pour acclrer la convergence,
d'utiliser l'issue de l'itration la formule suivante:

3
) 1 (
1
) (
1
) 1 (
1
1
) 1 (
*
+
+
+
=
+
k
a
k
a
k
a
k
a

Enfin, lorsque la taille n de l'chantillon est faible, on dmontre que ces valeurs sont biaises
d'o une correction propose par Fiorentino et Gabriele (1984):

n
a
. 8 . 0 . 1
= et
n
e
n
Log b
n
i
x
i
. 7 . 0 .
|
|
|
|
|
.
|
\
|
=

Cette correction tend limiter la sous-estimation systmatique du gradex a par cette mthode
du maximum de vraisemblance.

On verra au paragraphe VI-1 un aperu de mthodes plus avances encore pour estimer ces
paramtres...
V- TESTS D'HYPOTHESE

Le seul problme que nous avons rsolu jusqu' prsent, en donnant parfois plusieurs
solutions, est de:
- choisir arbitrairement (-au vu de l'histogramme par exemple-),
une famille de lois (- par exemple la famille des lois Gamma
incompltes -)
- puis de trouver parmi cette famille,
l'individu , i.e. la ou les lois s'ajustant au mieux l'chantillon prsent
- au vu d'un ou plusieurs critres (galit des Moments, max. de
vraisemblance,).

Mais il se peut que cet chantillon puisse tre relativement bien dcrit par cette loi (- sans
qu'il en soit issu...! -), et peut-tre encore mieux par une autre...! A ce stade de l'analyse, nous
avons donc besoin d'un outil d'valuation et de comparaison; c'est pourquoi nous allons tenter
de rpondre cette question dans la suite du chapitre.

V-1) Objectif :

On possde une srie de n valeurs {x
i
, i = 1 n } et on veut infirmer ou confirmer
l'hypothse suivante : cet chantillon peut raisonnablement tre considr comme tir d'une
population ayant une certaine distribution de probabilit que lon prcise a priori.

Si c'est le cas, ( si lhypothse est vrifie) cette distribution de probabilit pourra tre
facilement utilise pour calculer des valeurs x de probabilit donne ou les probabilits
associes des valeurs de x fixes.

Mais attention :

- on ne pourra jamais prouver que cette hypothse est exacte.. ! (- au mieux on pourra
donner une ide de la vraisemblance de l'hypothse.-)

- il faudra se mfier des extrapolations ! ( - valeurs de probabilit au non
dpassement trs faibles ou trs fortes - ) si l'hypothse est retenue.

- il sera bien souvent possible de trouver plusieurs lois de probabilit assez classiques
pour lesquelles l'hypothse que l'chantillon pourrait en tre issu soit raisonnablement
acceptable pour ces diffrentes lois (- sans pouvoir en choisir une plutt quune autre-)

Exemple : A partir d'un chantillon de 40 valeurs des pluies mensuelles de Novembre
Gap, on a accept l'hypothse d'appartenance la loi Gamma incomplte de moyenne 142
mm et d'cart type 105 mm. A partir d'une table de la loi Gamma incomplte, on en tire que la
pluie d'un mois de Novembre d'une anne tire au hasard (par exemple, l'an prochain) a 90%
de chances de dpasser 30 mm et 95 % de chance d'tre infrieure 340 mm.
Mais il serait aventureux de calculer partir d'une table de la loi Gamma incomplte (
et dun chantillon de 40 valeurs) la pluie qui n'a qu'une chance sur 1000 d'tre dpasse en
Novembre...
Mthodologie pour effectuer un test dhypothse :

On peut proposer l'organigramme suivant :

a) Collecte de donnes: Echantillon {x
i
, i = 1 n}

b) Critique des donnes (cf. . Troisime Partie)

c) Trac de la fonction de rpartition empirique (aide au choix de la loi)

d) Choix d'une famille de loi (exemple : famille Gamma Incomplte)

e) Calcul des paramtres de la loi dans la famille retenue par une mthode de
calage (Moments, Maximum de Vraisemblance ...), la mthode dpend
parfois de la loi retenue.

f) Choix d'un test d'ajustement (Test du Chi2, Kolmogorov ...)

g) Rponse du test :

Rejet de la loi et autre recherche (d'o retour en d) ,
ou
Acceptation de la loi

Nous ne prsenterons, titre d'exemple, que quelques tests d'ajustement:

V-2) Test du Chi 2 (
2
):

Le test du Chi 2 consiste comparer un histogramme empirique (c'est dire dfini par
les donnes de l'chantillon) l'histogramme que donnerait la loi tester. Nous voyons dj
qu'il nous faut dfinir l'histogramme par un choix de nombre de classes et de position de
classes.

Soit a
0
, a
1
, a
2
,...,a
j
, ...a
k+1

les limites de classes C
j+1=
[a
j
, a
j
+1
] avec a
j
< a
j
+1

x
i
appartient la classe j si x
i
est compris entre a
j
et a
j
+1
avec galit admise avec a
j
+1

; d'o un comptage, nous permettant de dfinir les effectifs "empiriques" n
j
de chaque classe j.

Si F(x) est la fonction de rpartition tester et n le nombre total de donnes, l'effectif
n
j
*

que donnerait cette loi pour la classe j serait :

n
j
*
= n . [F(a
j
+1
)
- F(a
j
)]


On dfinit alors une distance entre ces deux histogrammes :

( )
2
1
2
=
*
*
=
k
j j
j j
n
n n
D

Cette distance est d'autant plus grande que l'cart est grand entre les deux distributions. Elle
n'est nulle que par le plus grand des hasards mme si l'chantillon appartient la loi (effet
d'chantillonnage). Par ailleurs n
*
j
n'est pas toujours entier.

Comment savoir si la distance calcule est vraiment trop grande ?
Et si cela est le cas, il faut alors rejeter l'hypothse
d'appartenance de l'chantillon cette loi particulire.

On dmontre donc que, sous certaines hypothses, D suit une loi de probabilit appele la loi
du Chi 2, loi un seul paramtre qui, dans cette application de test, vaut :
n = k - 1 - p
o p est le nombre de paramtres estims partir de l'chantillon pour caler la loi
(Exemple p = 1 pour une loi de Poisson mais 2 pour une loi Gamma Incomplte).

Ce paramtre n est appel nombre de degrs de libert.

Il sera alors possible de lire dans une table du Chi 2, la probabilit de dpasser la valeur de D
0

si l'hypothse est exacte Pr[ D> D
0
]
Si cette probabilit au dpassement est faible : i.e. si la valeur obtenue pour D, soit D
0
, avait
a priori peu de chance dtre atteinte ou dpasse
il peut tre conseill de rejeter l'hypothse.

Conseils :
1)- Choix des classes :
Il est conseill de dfinir des classes quiprobables selon la fonction F(x).
D'o pour k classes : on calcule la borne a
j
par :
F(a
j
) =
k
j 1

2)- Nombre de classes :
Il est souhaitable que n
*
j
> 5 ce qui dtermine le nombre maximum de
classes.
Remarques :

+ Choix du seuil de rejet de l'hypothse :

Comme pour les tests d'homognit, cela dpend du problme et du cot des erreurs
(ici 2 types d'erreurs sont possibles : accepter l'hypothse alors qu'elle est fausse ou rejeter
l'hypothse alors qu'elle est vraie).
Une valeur classique de seuil de rejet utilis en Hydrologie est de l'ordre de 10 ou 5 %,
probabilit au dpassement de la valeur calcule du Chi 2.

+ Rponse du test :

Soit pour une dfinition donne de classes, la valeur D de la distance du Chi 2. La loi
du Chi 2 k - 1 - p degrs de libert donne une valeur P de Probabilit au non dpassement.
Cela signifie que :

Si l'hypothse d'appartenance de l'chantillon la population dfinie par la fonction de
rpartition F(x) tait exacte, il y aurait une probabilit P de trouver une distance suprieure ou
gale D. Autrement dit, si on se fixe un seuil S de rejet, et, si on testait un trs grand nombre
N d'chantillons rellement tirs de la loi F(x), on serait amen en rejeter
approximativement S*N.

La rponse est donc surtout intressante si elle nous amne rejeter nettement
l'hypothse. L'acceptation de l'hypothse (cas o le Chi 2 est petit) nous dit simplement que
l'chantillon prsente un histogramme empirique qui n'est pas incompatible avec celui de la
loi F(x); mais cela ne prouve pas que l'chantillon est effectivement tir de cette loi.
Exemple dApplication complte :

Nous allons analyser les dbits d'Octobre de 1913 1962 de la Loire Blois (cf.
tableau, les dbits sont en m
3
/s).

an Q an Q an Q an Q an Q an Q

1913 425 1914 149 1915 120 1916 291 1917 187 1918 141
1919 85 1920 439 1921 52 1922 147 1923 119 1924 281
1925 125 1926 57 1927 239 1928 82 1929 120 1930 441
1931 143 1932 289 1933 590 1934 65 1935 214 1936 136
1937 92 1938 194 1939 358 1940 444 1941 125 1942 81
1943 333 1944 505 1945 54 1946 54 1947 36 1948 74
1949 30 1950 49 1951 107 1952 203 1953 131 1954 136
1955 58 1956 367 1957 59 1958 254 1959 73 1960 562
1961 74 1962 47

Hypothse I ( tester !) : "ils sont tirs d'une loi Normale"

Etape 1 : Calage des 2 paramtres de la loi Normale.

Pour une loi Normale, la mthode des Moments et la mthode du Maximum de
Vraisemblance donnent les mmes rsultats.

Dans cet exemple, les 2 paramtres sont la moyenne 188.5 m
3
/s et l'cart type
150m
3
/s.

Etape 2 : Calcul d'une distance Chi 2 :

Suivant les conseils prcdents, on va prendre 8 classes quiprobables au sens de la loi
Normale de moyenne et cart type gaux ceux des donnes.

D'o les limites de classes a
j
, telles que
F(a
j
) = (j-1)/8 et n
*
j
= n/8 = 6.25 (au passage notons que le Chi 2 ne pourra jamais tre nul
puisque le nombre d'individus par classe sera videmment entier avec l'chantillon!).

a
1
= - a
9
= +

Calculons par exemple a
2
: F(a
2
) = 1/8 = .125

On trouve que dans une loi Normale centre rduite, si F(u) = .125 u = - 1.15

d'o a
2

= Moyenne + (Ecart Type)*(-1.15), soit a
2
=16 m
3
/s. On calcule ainsi toutes les
autres bornes, on compte les effectifs empiriques par classes et on calcule le Chi 2; ce qui
donne le tableau suivant :

Limites de Effectifs
n
j
Effectifs n
*
j
(n
j
-n
*
j
)
2
classes observs dans la loi

- 16 0 6.25 39
16 87.3 17 6.25 115.6
87.3 140.7 10 6.25 14.06
140. 188.5 5 6.25 1.56
188. 236.3 3 6.25 10.56
236. 289.7 4 6.25 5.06
289. 361 3 6.25 10.56
361 + 8 6.25 3.06
d'o Chi 2 =
( )
2
8
1
2
=
*
*
=
j j
ji j
n
n n
D = 31.9

Le nombre de paramtres estim pour caler la loi Normale est de 2, le nombre de classes est
de 8, d'o D, si l'hypothse est exacte, suit une loi du Chi 2 8-1-2 = 5 degrs de libert.

La probabilit de dpasser 31.9 dans une loi du Chi2 5 degrs de libert est infime (de
l'ordre de .000004) d'o rejet de l'hypothse de la loi Normale.

Etape 3 : changement d'hypothse.!

Hypothse II (toujours tester) : "ils sont tirs d'une loi Log-Normale (loi de
Galton)"

La loi Log-Normale est la loi Normale aprs transformation logarithmique de la
variable.
C'est grce l'allure de la distribution de l'chantillon et au fait que les dbits sont
plutt le rsultat de produits de variables (pluie par coefficient d'coulement) que l'on tente
cette hypothse.

Reprenons l'tape prcdente mais en travaillant sur les logarithmes des dbits
exprims en m
3
/s. D'o 2 paramtres estimer pour la loi Normale sur les Log : la moyenne
des Log 4.92 et l'cart type des Log .78.
Le tableau prcdent est modifi de la faon suivante (les bornes sont exprims en Log):

Limites n
j
n
*
j
(n
j
-n
*
j
)
2

de classes
- 4.03 7 6.25 .87
4.03 4.39 8 6.25 3.06
4.41 4.69 4 6.25 5.06
4.69 4.94 8 6.25 3.06
4.94 5.19 4 6.25 5.06
5.19 5.47 4 6.25 5.06
5.47 5.85 6 6.25 .06
5.85 + 9 6.25 7.56

do Chi 2 = D = 4.7 avec 5 degrs de libert.

La probabilit de dpasser 4.7 dans une loi du Chi 2 5 degrs de libert est de 67%.
Autrement dit, si l'hypothse d'appartenance de l'chantillon une loi Log-Normale tait
vraie, il y aurait 67 % de chances de dpasser cette valeur, probabilit trs leve.

Il n'y a donc pas lieu de rejeter l'hypothse partir de cette rponse du test.

Remarque I :

Si l'on avait fait le choix d'une loi Gamma Incomplte sur les mmes donnes, le test
du Chi 2 ne l'aurait pas rejete non plus...
Donc le test ne choisit pas votre place! Il donne des indications pour que vous
acceptiez ou rejetiez votre hypothse...

Remarque II : Importance du choix de la loi sur cet exemple :

Si l'on veut calculer l'tiage dcennal, c'est dire le dbit que l'on a 9 chances sur 10
de dpasser, la loi Normale nous aurait donn:
-3.5 m
3
/s ....!

alors que la loi Normale sur les Log propose : 50 m
3
/s , ce qui parait plus
correct.

V-3) Test de Kolmogorov Smirnoff :

Le principe gnral est le mme mais la distance entre la distribution de l'chantillon
et la distribution F(x) est dfinie comme le plus grand cart (en valeur absolue) entre F(x
i
) et
F
*
(x
i
) :
( ) ( )
i i
x F x F Max D * =

On montre alors que dans le cas o l'chantillon est tir de la loi F(x), cette distance D
suit une loi de Probabilit dite de Kolmogoroff Smirnoff un paramtre k gal au nombre n
de donnes. On trouvera en annexe une table de la loi de Kolmogoroff-Smirnoff.

Exemple : Application pratique sur les donnes prcdentes :

Pour la loi Normale, on trouve D = 15%.
Pour la loi Log-Normale, D = 6%
Or dans une table de Kolmogoroff Smirnoff, on trouve que dpasser D = .06 avec n = 50 a
une probabilit bien suprieure 20%; on n'est donc pas tent de rejeter l'hypothse,
puisque si elle tait vraie, on aurait plus d'une chance sur 5 d'avoir D au moins aussi grand.

Pour D =15%, cette probabilit de dpasser D dans l'hypothse d'une loi normale est
plus rduite mais reste vraisemblable (d'o une rponse diffrente de celle du test du Chi2... :
ici on accepterait les deux lois)

Conclusions sur les tests d'ajustement :

Nous n'avons prsent que 2 tests or il en existe d'autres. Il faut donc retenir qu'ils
ne sont qu'une aide, parmi d'autres, au choix des lois, mais qu'ils ne sont pas une arme
absolue.

Au cours des sances de Travaux Dirigs, on pourra s'en rendre compte en travaillant
sur des chantillons dont l'origine est garantie ( parce quon les a fabriqus, par gnration
stochastique). Il arrivera sur ces exemples que l'on soit tent de rejeter l'hypothse alors
qu'elle est vraie et inversement, ou que l'on hsite entre plusieurs lois.
Dans la pratique, l'exprience de l'analyste ( compter 1 15 ans) tranchera parfois le dbat !.

Le problme le plus dlicat restera l'ajustement des valeurs extrmes: selon la loi
choisie, les rsultats peuvent diffrer normment (- ds que l'on travaille dans des
probabilits faibles au non dpassement - ) , or cela pourra avoir une incidence conomique
considrable
VI- COMPLEMENTS THEORIQUES
(
*
)

VI-1) La mthode des Moments Pondrs:

VI-1-a) Prambule :

Il faut bien comprendre que les ajustements que nous allons raliser vont ensuite tre
utiliss pour prendre des dcisions aux consquences conomiques significatives. C'est
surtout vrai dans le domaine de la scurit, d'o les recherches, et parfois les polmiques,
propos de ces mthodes de dcision.

La mthode des moments classique prsente un certain nombre d'inconvnients,
notamment lorsqu'une donne se trouve loin de la moyenne. En effet, ds le moment d'ordre
2, celui-ci va tre trs influenc par cette donne surtout si l'chantillon est de petite taille.
Le terme isol ( )
2
.
1
X i
m x
n
peut alors prendre un poids considrable.
Un autre inconvnient est que dans les estimateurs, de la moyenne ou de la variance, par
exemple :
( )
=
=
n
i
X i X
m x
n
s
1
2 2
.
1
, cens estimer ( ) ( ) dx x f x
X X
. .
2 2
+

=

on fait apparatre partout la mme quantit 1/n la place de f(x
i
).x
i
, dont on sent bien
qu'elle ne devrait pas tre la mme partout.
Dit autrement, on pressent que les valeurs extrmes de l'chantillon, bien que
rellement observes, n'ont pas la mme probabilit d'apparatre que des valeurs plus
courantes.
On a dj abord cette difficult dans les mthodes graphiques via la probabilit empirique
associe ("plotting position").
Mais ici, on devrait travailler sur la densit de probabilit, ce qui est plus dlicat que la
probabilit au non dpassement. On va donc essayer d'y revenir, via une nouvelle sorte de
moments.

VI-1-b) Dfinition succincte des Moments Pondrs (par les probabilits):

Comme dans la mthode des moments classiques, on va :
- dfinir des quantits que l'on peut exprimer thoriquement
l'aide des paramtres de la loi analytique
- et que l'on pourra estimer facilement l'aide des donnes
mais en faisant apparatre la probabilit associe ces donnes.

Cela s'applique particulirement des lois facilement inversibles, o l'on peut facilement
exprimer x en fonction de F(x). Cette mthode a t introduite par Greenwood et al.(1979)

On dfinit alors des moments 3 indices:
( ) ( ) { } [ ] ( ) ( ) ( ) { } dF x F x F F x x F x F x E M
k j l k j l
k j l
. 1 . . 1 . .
1
0
, ,
= =

o j, k, l peuvent tre des rels quelconques...
On vrifie que si j = k = 0 et l entier,
alors on retombe sur les moments classiques, non centrs, d'ordre l.

En pratique, on n'utilisera que des M
1j 0
ou M
10 k
.

Et toute l'astuce consistera:
- d'une part, exprimer ces intgrales en fonction des paramtres
- d'autre part les estimer numriquement l'aide des donnes,
c'est dire des x
i
mais aussi des F(x
i
) !

On va le voir sur l'exemple de la loi de Gumbel (sachant que Masson et Lubes l'ont dcrite par
ailleurs pour la loi plus gnrale de Jenkinson 1991)

VI-1-c) Application la loi de Gumbel:

Dans ce cas, la loi de Gumbel:

|
|
|
|
|
.
|
\
|

x
e
e x F
.
) , , ( s'inverse en ( ) [ ] LogF Log u F x
F
+ = + . . = ) (

et les moments pondrs par les probabilits M
1j0
s'crivent :

( ) [ ] { } dF F LogF Log x F F x M
j
j
. . . = .dF ) ( . ) (
1
0
j
1
0
0 1

+ =

L'intgration (-assez laborieuse pour le terme en -Log(-Log)...), fournit:

( )
j
j Log
j
M
j
+
+ +
+
+
=
1
5772 . 0 1
.
1
.
0 1

Si on calcule les deux moments d'ordre le plus bas, pour j = 0 et j = 1 , on trouve:

M
100
0 5772 = + . .
et
( ) 5772 . 0 2 . . 2
110
+ + = Log M

Ayant ces deux relations entre deux moments et les paramtres et , on en tire aisment:

=
2
2
110 100
M M
Log
et = M
100
0 5772 . .
Il reste trouver une estimation empirique des M
1j0
Pour cela, il suffit de remplacer l'intgrale par une somme:

j
) (
.
1
1
0 1
M
.dF
j
) ( .
1
0
) (
0 1 i
x F
n
i
i
x
n
j
x F F x
j
M
=
=
=
o
$
F x
i
( ) est la probabilit empirique associe x
i
:

par exemple
$
F x
i
( ) =
i - 0.5
n
ou
i - 0.35
n
selon le choix de l'utilisateur.

On notera que, pour j = 0:
x
m
n
i
i
x
n
=
=
=
1
1
100
M

et pour j = 1 ( )
x
n
i
x F
i
x
n

=
=
1
i
.
1
110
M

d'o:

2
110
2
Log
x
m M
a

= et a
x
m b . 5772 . 0 =

Note : Le gros avantages de cette mthode est que les valeurs observes de lchantillon ne
sont plus leves une puissance autre que 1

VI-1-d) Exemple numrique:

Dans cet exemple (cf. page ci-contre), on a pris deux fois le mme chantillon, sauf
que l'on a chang une valeur et une seule, celle du maximum observ (dans l'chantillon).
On a voulu montrer que l'estimation de la loi de Gumbel par la mthode des moments
classiques tait sensible et que lide globale que lon se faisait de la distribution changeait
nettement cause de cette seule valeur.
Par contre, l'estimation par la mthode des moments pondrs est beaucoup moins
sensible.
Evidemment, dans le cas o il n'y a pas de points trop excentrs dans l'chantillon, les
deux mthodes donnent des rsultats voisins (cas des donnes relles testes ici).

VI-2 ) Intervalle de confiance des paramtres ou d'un quantile:

Compte tenu de l'chantillon disponible, il est intressant de s'interroger sur
l'incertitude chantillonnage qui affecte un paramtre, ou un quantile x(F).
Nous ne voulons pas alourdir cet expos, et ce dernier aspect sera voqu
partiellement propos de l'utilisation de la Loi de Gumbel dans la mthode du gradex.

Il faut toutefois garder l'esprit que:
- dans la mthode des moments par exemple, on utilise des moments
empiriques calculs sur l'chantillon. Or ceux-ci ne sont pas strictement gaux ceux de la
population.

Par exemple, si on prend diffrents chantillons de taille n:
leurs moyennes empiriques m
n
x
x i
i
n
=
=
1
1
fluctuent
autour de la vraie moyenne de la population
x

avec un cart-type
n
X
=
x

De mme pour l'cart-type empirique s
x
, dont les estimations sur diffrents chantillons
fluctuent
autour de la vraie valeur de la population
x

avec un cart-type
n
X
s

=
x

Et donc, quand on va utiliser ces moments empiriques pour estimer les paramtres et , les
valeurs a et b obtenues varieront selon m
x
et s
x
, et donc selon l'chantillon...

- de mme dans une mthode graphique, on va faire un choix quant la droite
qui intercepte au mieux les points. Celle-ci dpend dj du choix de la formule utilise pour
affecter les probabilits empiriques.
Et si on a deux chantillons, ils ne fourniront pas strictement la mme droite, et probablement
pas celle qui correspond exactement la population...

Ces incertitudes sur les valeurs obtenues pour les paramtres se transfrent sur les
rsultats les plus utiliss en pratique: certains quantiles extrmes.

Par exemple, pour la loi normale :
- l'incertitude sur la pente ne va pas trop affecter le centre du nuage de
points, et donc le quantile x
.50
, (ou x
2
en priode de retour),
- mais beaucoup plus les extrmes ( x
100
ou x
1000
en priode de retour).
De mme pour la loi de Gumbel :
T
En fait, cette incertitude sur les quantiles est assez couramment utilise pour la loi de Gumbel,
qui sert notamment traiter les valeurs extrmes dans les problmes de pluies ou de dbits
de projet.
On est donc tenter dutiliser en extrapolation la loi ajuste, et proposer des quantiles Q
T
de
grandes priodes de retour t = 500, 1000, 3000 ans ou plus.
Ces valeurs sont donc affectes dune incertitude dchantillonnage, notamment sur la pente
de la droite. De plus cette incertitude nest pas symtrique de part et dautre de Q
T
, donc
lcart type ne suffit pas la caractriser. On en voit un exemple sur la figure ci dessous pour
les pluies de Bziers La Courtade (1970-98) avec le logiciel HYDROLAB.

La thorie de l'chantillonnage est complexe et dpasse les besoins d'un ingnieur
hydrologue. Mais il doit garder ce problme l'esprit et savoir qu'il trouvera au besoin dans
les ouvrages spcialiss des formules donnant l'incertitude de ces quantiles..

CONCLUSIONS

Nous pensons nanmoins avoir donn un bon aperu des mthodes classiques
d'ajustement probabiliste que l'ingnieur doit connatre. Mais ce nest quun dbut, (dj
substantiel , nest-ce pas?), et il faudra peut-tre le complter loccasion. De plus, c'est un
domaine en pleine volution, mme si certains dveloppements rcents ne font pas toujours
l'objet d'un consensus immdiat ...

On se gardera donc de tout dogmatisme et, au besoin, on simulera des chantillons
nombreux sur lesquels on testera le plus objectivement possible deux mthodes concurrentes
avant d'en choisir une...
Courage, et bonne chance...!
BIBLIOGRAPHIE:

FIORENTINO M. and S. GABRIELE (1984)
A correction for the bias of maximum likelihood estimators of Gumbel parameters
J. of Hydrology, Vol 73, p. 39-49

Groupe CHADULE (1974)
Initiation aux mthodes statistiques en Gographie.
(Ouvrage collectif) Masson et Cie ed. 192 p. (probablement puis mais disponible en
bibliothque)

GREENWOOD J.A., LANDWEHR J.M. , and MATALAS N.C. (1979)
Probability weighted moments: definition and relations to parameters of several distributions
expressible in inverse form
Water Ressources Research,, Vol. 15, N 5, pp. 1049-54

GUMBEL E.J. (1958)
Statistics of Extremes
Columbia University Press - New York

HUBERT P. et H. BENDJOUDI (1998)
A propos de la distribution statistique des cumuls pluviomtriques annuels : Faut-il en finir
avec la normalit ?
Revue des Sciences de lEau

OMM (1983)
Guide des Pratiques Hydrologiques - Vol. II : Analyse, prvision et autres applications
Organisation Mtorologique mondiale . Publi. N 168 Genve

LUBES H., MASSON J.M., RAOUS P., TAPIAU M. (1994)
SAFARHY, Logiciel de calculs statistiques et d'analyse frquentielle adapt l'valuation du
risque en hydrologie.
Manuel de rfrence, ORSTOM, Univ. de Montpellier II

MASSON J.M. et H. LUBES (1991)
Mthodes des moments de probabilit pondrs: application la loi de Jenkinson.
Hydrologie Continentale Ed. ORSTOM Vol. 6, N 1, pp. 67-84

ROCHE M. (1965)
Hydrologie de Surface Ed. Gauthier-Villars PARIS

SLIMANI M. (1985)
Etude des pluies de frquences rares faible pas de temps sur la rgion Cvennes - Vivarais:
estimation, relation avec le relief, et cartographie synthtique.
Thse de l'Institut National Polytechnique de Grenoble.

VIALAR (1986)
2
me
Partie: LIAISONS STOCHASTIQUES
ENTRE VARIABLES

CHAPITRE IV : LA CORRELATION SIMPLE

Objectifs : 131

I) ASPECTS ANALYTIQUES: 133

I-1) Recherche de la meilleure droite d'estimation 133
I-2) Complments sur droites de rgression et Intervalles de confiance 139
I-3) Extensions aux cas non linaires 142

II) ASPECTS PROBABILISTES: 145

II-1) Interprtation dans le cas d'une loi binormale 145
II-2) Effets de l'chantillonnage 151
II-3) Simulation stochastique 157

III) PIEGES DE LA CORRELATION 159

III-1) Piges gomtriques 159
III-2)
Piges de cofluctuation 160
III-3) Variables monotones 161
III-3) Variable influente cache 161
III-4) Corrlation et liaisons de cause effets 162

IV) APPLICATIONS PARTICULIERES: 165

IV-1) Reconstitution de donnes - extension de sries 165
IV-2) Traitements de donnes de mesures 169

2
me
ENTRE VARIABLES

CHAPITRE I : LA CORRELATION SIMPLE

Objectifs :
Soit deux variables alatoires X et Y:
(par exemple, X est la pluie annuelle Lyon, et Y la pluie annuelle Grenoble).
Celles-ci sont connues sur un chantillon de N observations. Si on porte sur un graphique (cf.
Figure 1) les N points de coordonnes X
i
, Y
i
, i de 1 N, on obtient quelque chose qui
ressemble plus un nuage de points qu' un trac pointilliste de courbe :
Figure 1:

et ceci pour diverses raisons:
la liaison n'est pas toujours fonctionnelle (c'est le cas des pluies),
les donnes sont entaches d'erreurs, etc...
On peut alors chercher :
+ schmatiser analytiquement cette liaison
(par exemple pour pouvoir facilement estimer une valeur de Y
partir d'une valeur de X)
+ caractriser la dpendance entre X et Y par une valeur numrique.

Les applications sont nombreuses et trs importantes:

+ prvision (par exemple:
prvision des apports de fusion nivale partir des prcipitations d'hiver)

+ contrle et reconstitution de donnes (on va reconstituer Y Grenoble, o
des valeurs sont manquantes, partir de Lyon, o la srie est complte)

+ comparaison thorie-exprimentation.

Certes dans la pratique, on utilisera souvent plus de 2 variables (cf. chapitre II de cette
2
me
Partie sur la corrlation multiple), mais il faut dj bien comprendre le cas le plus simple
de la corrlation entre 2 variables.

Notons que depuis une douzaine d'annes, de nombreuses calculettes calculent tous les
paramtres que nous allons dcrire, et dsormais ce sont les tableurs sur micro-ordinateurs qui
offrent ces mmes possibilits; il n'y a donc plus de problmes matriels lis des calculs
fastidieux
.

I) ASPECTS ANALYTIQUES:

Nous allons commencer par la solution la plus simple, celle des liaisons linaires.

- soit un chantillon de N observations form de N couples { x
i
, y
i
, i = 1 , N}
- soit m
x
et m
y
les moyennes de X et Y sur l'chantillon,
(encore notes parfois X et Y )
- et soit s
x
et s
y
les cart-types de X et Y estims l aussi sur l'chantillon,

Hypothse: pour l'instant: aucune...!
( si ce n'est qu'on suppose que les 2 cart-types sont non nuls: il serait absurde de
chercher une liaison entre une constante et une variable ! ou entre 2 constantes).

I-1) RECHERCHE de la MEILLEURE DROITE D'ESTIMATION
de Y partir de X:
Attention:
On notera que ds le dpart, on fait des rles diffrents aux 2 variables Y et X,
(cf. Figure 2), en comptant les carts paralllement l'axe des Y.

Soit donc: y a x b = + . l'quation de cette droite.
Les deux coefficients a et b sont des paramtres, que l'on va adapter pour que la droite
reprsente au mieux la relation linaire sur cet chantillon particulier.
Pour chaque point, on commet une erreur d'estimation, en estimant

y y a x b
i i i
par
*
. = +

celle-ci est appele rsidu et not e
i
:

e y a x b
i i i
= .

Et nous allons chercher la "meilleure droite", ( donc ses paramtres, ou ses coefficients a et
b), au sens d'un certain critre.

Pas 1: Choix du critre: dfinition de "meilleure" dans "meilleure droite".

C'est un point important, car il est li aux objectifs.

On pourrait dire que la "meilleure droite" est celle qui, sur l'chantillon, rend:

a) minimum e
i
i
N
=
1

c'est dire que la somme algbrique des erreurs serait minimum...
Ceci est un peu absurde car on autoriserait alors de grandes erreurs, tant positives que
ngatives, pourvu qu'elles se compensent !
Plus rigoureusement, on peut vrifier que cette somme est d'ailleurs nulle pour toute droite
passant par le centre de gravit des points ( X , Y )!
Cette droite ne serait donc pas unique..!

b) minimum e
i
i
N
=
1

Cette fois, c'est la somme des valeurs absolues des carts que l'on voudrait minimiser.
C'est intressant mais compliqu..., comme d'ailleurs le critre suivant:

c) Maximum de = Minimum e
i
i N =1
1 2 44 3 44

o c'est le maximum (en valeur absolue) des carts que l'on voudrait minimiser, grce
aux paramtres a et b.
C'est l aussi compliqu, encore que cette mthode MiniMax ait une solution (algorithme de
REMES)...
De plus, cela privilgie quelques points ( en fait 3: les points les plus extrieurs au nuage) et ce
rsultat (la droite obtenue) est alors trs li l'chantillon considr et peut changer
sensiblement en changeant un seul point.

d) minimum e
i
i
N
2
1 =

C'est la mthode dite des moindres carrs, mthode la plus utilise, car elle est
doublement intressante. Sa solution est rapide et simple. Et elle est relativement robuste quand
on change d'chantillon. Toutefois, pour des petits chantillons, elle est trs sensible aux points
un peu carts.
C'est celle que nous retiendrons.

Pas 2: Calcul des paramtres de la droite des moindres carrs.

Notre critre est donc de minimiser, pour l'chantillon considr, la quantit E, fonction
des deux paramtres a et b:

( )
2
1 1
2
. = ) , (

= =
=
N
i
i i
N
i
i
b x a y e b a E

E est donc une fonction de a et b, une fois l'chantillon donn (i.e. les {x
i
, y
i
} fixs).
On sait qu'une des conditions ncessaires d'extremum est que les drives partielles de E (par
rapport a et b) soient nulles, donc :

E a b
a
E a b
b
( , ) ( , )

et = = 0 0
Si nous commenons par la seconde:

( ) ( ) 0 . 0 . . 2
) , (
1 1
= = =

= =
N
i
i i
N
i
i i
b x a y b x a y
b
b a E

ou encore:

( ) ( ) ( ) ( )
{
0 1 .
N
1
. . .
N
1
N
1
0 1 . .
1 1 1 1 1 1
= =
=
= = = = = =

N
N
i
N
i
i
N
i
i
N
i
N
i
i
N
i
i
b x a y b x a y

soit finalement l'quation (1):

m a m b m a m b
y x y x
= = + . . 0 (eq. 1)

donc les valeurs moyennes m
x
et m
y
estimes sur l'chantillon vrifient exactement l'quation
de la droite optimise sur l'chantillon.

Rsultat 1 : la droite passe par le centre de gravit du nuage (m
x
,m
y
).
Et on en dduit de plus que la somme des rsidus est strictement nulle.
En effet:

( ) ( ) ( ) ( ) 0 . . . . 1 . . .
1 1 1 1 1
= = = =

= = = = =
b N m N a m N b x a y b x a y e
x y
N
i
N
i
i
N
i
i
N
i
i i
N
i
i

Avant de traiter la premire quation, on peut ( astuce ...!) lui intgrer le rsultat dj obtenu
sur la seconde, puisque les deux doivent tre vrifies en mme temps.
L' quation de E , en prenant en compte ce rsultat est alors du type:

b m a m y a x b a x m a m m a x m
y x i i i y x y i x
= = + = + = + . . . . .( )

D'o l'expression qui reste minimiser:

( ) ( ) ( ) [ ]
2
1
2
1
. ) ( . ) , (

= =
= =
N
i
x i y i
N
i
i i
m x a m y a E b x a y b a E

soit:
E a b
a
y m a x m x m
i y i x
i
N
i x
( , )
. ( ) .( ) .( ) = =
=
2 0
1

ou encore: a
y m x m
x m
N
y m x m
N
x m
i y i x
i
N
i x
i
N
i y i x
i
N
i x
i
N
=

=
=
=
=
( ).( )
( )
. ( ).( )
. ( )
1
2
1
1
2
1
1
1
1
1
= (eq.2)

o, en introduisant en haut et en bas le facteur
1
1 N
, l'on reconnat au dnominateur la
variance empirique de X soit s
x
, et au numrateur le moment crois ou covariance C
xy

Posons alors:
r
N
y m x m
N
x m
N
y m
xy
i y i x
i
N
i x
i
N
i y
i
N
=

=
= =

=
1
1
1
1
1
1
1
2
1
2
1
. ( )( )
. ( ) . . ( )

r
xy
est appel le coefficient de corrlation entre x et y;
c'est la somme des produits des carts aux moyennes respectives, divise par le produit de la
racine carre de la somme des carrs des carts aux moyennes respectives, c'est dire divise
par le produit des cart-types.

Finalement, on trouve comme paramtre optimaux de la droite:

a r
s
s
b m a m
xy
y
x
y x
= = . . et

et cette droite y a x b = + .
est appele droite de rgression de X en Y.

Elle est toujours dfinie et unique pour un chantillon donn.

Pas 3: Qualit de l'estimation

Il nous reste savoir si cette droite nous permet d'estimer, pour les points {x
i
,y
i
}de
l'chantillon, Y partir de X sans trop d'erreur.
On sait dj que l'erreur moyenne est strictement nulle sur l'chantillon.(i.e. si on r
applique la relation aux points qui constituent l'chantillon
( ) 0 . . 1
1
.
1
.
1
.
1
1 1 1 1
= + = = =

= = = =
x y x y
N
i
N
i
i
N
i
i
N
i
i i e
m a m m a m
N
b x
N
a y
N
b x a y
N
m

On peut aussi calculer l'cart type rsiduel, c'est dire l'cart type s
e
des erreurs d'estimation;
c'est dj une premire mesure de la qualit de la relation linaire.

Mais la mesure la plus intressante est sans aucun doute la comparaison entre l'cart
type rsiduel et l'cart type marginal s
y
de la variable Y estime.
Cet cart-type du rsidu, puisque sa moyenne est nulle, s'crit, partir de la somme des carrs
des rsidus:
( )
2
1 1
. ) , (

=
= =
N
i
i i
N
i
b x a y e b a E
Celle-ci devient avec les valeurs optimales de a et b:

2
1 1
2
) .( . ) (
1
1
) , (
1
1

1
1

= =
(
N
i
x i
x
y
xy y i
N
i
i
m x
s
s
r m y
N
b a E
N
e
N

que l'on peut crire, en dveloppant le terme de gauche,
s
N
e
N
y m r
s
s N
y m x m r
s
s N
x m
e i
i
N
i y
i
N
xy
y
x
i y i x
i
N
r s s
xy
y
x
i x
i
N
s xy y x
x
2 2
1
2
1 1
2
2
2
1
2
1
1
1
1
2
1
1
1
1
2
=

= = = =

( ) . . . . ( ).( ) . . . ( )
. .
1 2 44444 3 44444 1 2 444 3 444

ou encore
s s r s r s s r
e y y xy y y xy
xy
2 2 2 2 2 2 2 2
2 1 = = + . . . .( )
soit:
s s r
e y xy
= . 1
2

Rsum: Sur l'chantillon de n couples x
i
, y
i
, il existe:

+ une droite de rgression de X en Y:
y m r
s
s
x m
y xy
y
x
x
= + . .( )

donnant pour chaque point i de l'chantillon une estimation Y
i
* de Y
i

+ entache d'une erreur e
i
, de moyenne nulle et d'cart type:

s s r
e y xy
= . 1
2

Figure 2:
I-2) COMPLEMENTS sur DROITES de REGRESSION,
et INTERVALLES de CONFIANCE:
a) les DEUX droites de rgression:

On peut de mme rechercher la meilleure estimation linaire de X partir de Y. On
parlera alors de la droite de rgression de Y en X, qui estime:

X* = a'.Y+b' en minimisant: ( )
*
x x
i i
i
N
2
1

Cette droite a pour quation:

x m r
s
s
y m y m
r
s
s
x m
x xy
x
y
y y
xy
y
x
x
= + = + . .( ) . .( )
1

donnant pour chaque point de l'chantillon une estimation de X partir de Y, de moyenne nulle
et d'cart type:
s s r
e x xy
' . = 1
2

De manire plus symtrique, on peut crire que la rgression de :

Y X X Y

fournit:
y m
s
r
x m
s
y
y
xy
x
x
=

.
x m
s
r
y m
s
x
x
xy
y
y
=

.

qui, une fois rcrites dans le repre classique y en fonction de x, donnent:

y m r
s
s
x m
y xy
y
x
x
= + . .( ) y m
r
s
s
x m
y
xy
y
x
x
= +
1
. .( )

Notons que ces deux droites ne sont confondues que si le coefficient de corrlation est
gal 1 ou -1, c'est dire si les points sont strictement aligns, (-cas de la liaison linaire
exacte-).

Figure 3:

b) Intervalle de confiance des rsidus

On a donc "cal" la droite de rgression sur les N couples, ce qui permet de calculer les
N carts e
i
correspondant chaque couple (x
i
, y
i
).
On peut alors considrer l'chantillon des carts {e
i
, i = 1,N}.
On sait dj qu'il a par construction :
une moyenne nulle m
e
= 0 et un cart-type s s r
e y xy
= . 1
2

Hypothse:
On peut de plus tester s'il suit approximativement une loi normale:
Si l'hypothse est vrifie (en gnral, on l'admet sans vrification, quitte la contester
ensuite - cf. paragraphe sur l'homoscdasticit-) , on peut alors appliquer les proprits de cette
loi.

Par exemple, dans une loi normale:
80% des individus sont compris entre la moyenne et + ou - 1.28 cart-type
On va donc tracer, autour de la droite de rgression, une distance de + et - 1,28.s
e
, deux
parallles cette droite et vrifier qu'approximativement, 80% des points ayant servis
l'ajustement sont contenus dans cette "bande de confiance" 80%.

c) Relation entre l'chantillon et la population
Jusqu' prsent, on n'a considr que l'chantillon de N couples disponibles. Mais celui-ci est
en gnral extrait d'une population, potentiellement infinie, et qui a des caractristiques bien
dfinie.
On peut ainsi considrer que, sur la population infinie des X et des Y, on a une relation: :
y x = + + . gaussien N(0,
)
Et sur l'chantillon de N couples (x
i
, y
i
), on cale un modle optimal
y a x b e = + + .
Mais si on prend un autre chantillon , on trouvera:
y a x b e = + + '. ' ' avec a' a , b' b et s
e
s
e'

Donc il faudra aussi penser que, si on ajoute des couples un chantillon, et si on ne recalcule
pas a et b, la somme des rsidus cessera d'tre strictement nulle.

I-3) EXTENSIONS AUX CAS NON LINEAIRES (*):
Par linaire, on indique que le systme d'optimisation conduit une expression linaire des
paramtres. Dans certains cas, on peut ajuster autre chose qu'une droite et arriver un tel
systme linaire.
a) cas linarisables:
Un premier exemple est celui o la relation entre X et Y n'est pas linaire, mais o les
paramtres de calage interviennent linairement.
Par exemple, si on pressent une fluctuation saisonnire entre le rayonnement ou de
l'vaporation Y, et le nombre de jours t depuis le solstice dhiver , on pourra chercher caler
une relation:
y a t b = + .sin
. 2
365

Cette relation nest quapproche, par exemple, pour le rayonnement, cause du masque des
montagnes environnantes. Cest pourquoi on va caler statistiquement pour ne pas avoir
entrer dans le dtail de ces influences parasites .
Mais condition de dfinir x = sin
. 2
365
t , on reste dans le cas de la corrlation simple.

Un autre exemple en est la rgression polynomiale, o l'on cherche caler par
exemple:
y = a.x + b.x + c en minimisant ( )
2
1
2
. . ) , , (

=
=
N
i
i i i
c x b x a y c b a E

ce qui conduit aux 3 quations:

( ) 0 . . . 2 ) , , (
2
1
2
= =

=
i
N
i
i i i
x c x b x a y c b a
a
E

( ) 0 . . . 2 ) , , (
1
2
= =

=
i
N
i
i i i
x c x b x a y c b a
b
E

( ) 0 . . 2 ) , , (
1
2
= =

=
N
i
i i i
c x b x a y c b a
c
E

qui restent linaire en a,b,c.
(En pratique, on considrera plus gnralement que x et x sont deux variables distinctes et on
appellera alors un algorithme de corrlation multiple)
b) cas linarisable par transformation:
Un autre cas peut concerner, par exemple, des fonctions puissances

y = a.x
b
ou y = a .e
b.x

Dans ce cas, l'optimisation de:
( )
2
1
.
. ) , (

=
=
N
i
x b
i
i
e a y b a E
fournirait: ( )
i i
x b
N
i
x b
i
e e a y b a
a
E
.
1
.
. . . 2 ) , (

=
=

et ( )
i i
x b
i
N
i
x b
i
e x e a y b a
b
E
.
1
.
. . . . 2 ) , (

=
=

qui ne sont plus linaires en a et b... Par contre, un simple passage en logarithme nous fournit:
y = a.e
b.x
Log y = Log a + b. x
mais attention...!
cette formulation va minimiser :
non pas ( )
2
1
*
N
i
i i
y y mais ( )
2
1
*

N
i
i i
y Log y Log
Dans ce cas, les valeurs obtenues pour a et b ne seront pas optimales sur les valeurs brutes,
par exemple pour de la prvision sur y; et il faudra ventuellement les affiner (cf. ci-aprs) par
un algorithme itratif. Celui-ci cherchera minimiser e
i
2
en faisant varier a et b:
on pourra partir de a
0
et b
0
, qui minimise en fait ( )
2
1
*

N
i
i i
y Log y Log
c) cas non linarisable:
C'est le cas o mme des transformations ne permettent pas de revenir une fonction linaire
des paramtres.
Par exemple: bx e y
x a
cos .
.
= qui donne bx Log x a y Log cos . + =

Dans ce cas, il faut utiliser des techniques itratives, comme l'algorithme de MARQUARDT
(1953), ce qui suppose une initialisation de a et b pour laquelle on n'a pas d'indication ...

II) ASPECTS PROBABILISTES:

Jusqu'ici, on s'tait limit l'analyse de l'chantillon disponible, soit N couples, mme si
on avait not que cet chantillon tait en fait un tirage (parmi d'autres possibles...) dans une
population infinie.
On va maintenant faire en plus des hypothses probabilistes sur la distribution conjointe
de X et Y dans cette population, (- en supposant qu'elle est binormale -) et voir les
interprtations que l'on peut en tirer.

II-1) INTERPRETATION dans le cadre d'une LOI BI-NORMALE

Nous allons supposer ici que le couple de variables X, Y

appartient une loi
Binormale. (Attention: ceci est diffrent de dire que X et Y suivent sparment une loi normale
- cf. contre-exemple).
Cette loi binormale est dfinie par sa densit

de probabilit:

( )
( )( ) ( )
=
2
2
2
2
2

.
. . 2 .
1
1
.
2
1
2
.
1 . . . 2
1
) , (
y
y
y x
y x
x
x
y y x
x
y x
e y x f

avec:
=
xy
= coefficient de corrlation thorique, sur la population complte entre X et Y.

Cela permet de dire que :
la Probabilit de tirer X entre [ x et x+dx ], et Y entre [ y et y+dy ],

est gale f(x,y).dx.dy

Pour simplifier la suite, on va supposer les variables X et Y standardises, c'est dire:

centres:
x y
= = 0 et rduites:
x y
= = 1

La loi conjointe de X et Y devient donc:

=
2
2 2
1
. . . 2
.
2
1
2
.
1 . 2
1
) , (

y y x x
e y x f

On va alors chercher la loi conditionnelle de Y, c'est dire la loi de distribution de Y
quand la valeur de X est connue (ou fixe).

On montre qu'elle s'exprime en gnral par:

( )
) (
) , (
= ) (
x g
y x f
x y h y h
x
=

c'est dire que:

loi conditionelle de y (sachant x) =
loi conjointe de (x, y)
loi marginale de x

On va donc calculer ces diffrents termes, dans le cas de la loi binormale.

a) Loi Marginale de X et Y(*)
(on peut sauter tout de suite au rsultat):
Loi Marginale de X:

C'est la loi de X, sans prcision sur la valeur de Y, donc intgre sur toutes les valeurs de y:

+

= = dy e dy y x f x g
y y x x
. .
1 . 2
1
). , ( ) (
2
2 2
1
. . . 2
.
2
1
2

Ici, une astuce de calcul consiste crire que :

( ) ( )
2 2 2 2 2
. 1 . - . . . 2 x x y y y x x + = +

d'o:

+

= dy e dy e x g
x x y y y x x
. .
1 . 2
1
. .
1 . 2
1
) (
2
2 2 2
2
2 2
1
). 1 ( ) . (
.
2
1
2
1
. . . 2
.
2
1
2

On peut alors isoler une exponentielle en x
2
, qui ne dpend plus de y:

. . .
1 . 2
1
. .
1 . 2
1
) (
2
2
2
2
2
2
.
2
1
1
) . (
.
2
1
2
1
) . (
.
2
1
2

+

= =
= dy e e dy e x g
x
x y
x
x y
3 2 1

et donc sort de l'intgrale en y, ou plutt en

u
y x
=

.
1
2
et donc du
dy
=
1
2

d'o:

2
. .
2
1
. .
2
) (
2
2
2
2
2 2
.
2
1
.
2
1
.
2
1
2
1
) . (
.
2
1 .
2
1
x
u
x x y x
e
du e
e dy
e
e
x g

+

= =
=

Rsultat:
Donc la loi marginale de X dans une loi conjointe f(x,y) binormale est:
- une Loi Normale, ici N(0,1) parce que l'on est en centre rduite,
- mais plus gnralement N(
x
,
x
).

Loi Marginale de Y:
C'est de mme la loi de distribution de Y, sans prcision sur X. On montre de la mme
manire, en intgrant sur x, que c'est l aussi une Loi Normale
N(
y
,
y
).

Figure 5:


b) Loi conditionnelle de Y sachant X:

C'est la distribution de Y quand X est fix. Si on rappelle le rsultat thorique:

loi conditionelle de y (sachant x) =
loi conjointe de (x, y)
loi marginale de x

et si on l'applique ici maintenant que l'on connat la loi marginale de X:

=
2
2
2
2
2 2 2
2
2
2 2
1
) . (
.
2
1
2
.
2
1
2
1
). 1 ( ) . (
.
2
1
.
2
1
2
1
. . . 2
.
2
1
.
1 . 2
1
2
1 . 2

2
1 . 2
) (
) , (
= ) (

x y
x
x x y
x
y y x x
x
e
e
e
e
e
x g
y x f
y h

On constate alors, tous calculs faits, que c'est encore une loi Normale,
mais :
- qui n'est pas centre rduite,
- puisque sa moyenne vaut E[Y|X] = .x
- et sa variance est 1- ou, si Y n'est pas standardise:
y
.(1-)

donc pour une valeur de X fixe x
0
, la moyenne conditionnelle de Y est
l'estim de Y pour X = x
0
par l'quation de rgression, soit y* = .x
0

Et les valeurs de Y, autour de son esprance (- l'estim par la rgression) seront distribues
normalement autour de cette moyenne (- ici ce n'est pas une simple constatation sur
l'chantillon de rsidus, mais c'est un rsultat thorique pour la loi binormale, -) , avec un
rsidu dont l'cart-type:
- ne dpend pas de la valeur x
0

- et est gal l'cart-type rsiduel calcul prcdemment soit
y
.(1-).

c) Aspects gomtriques:

On montre que pour cette distribution binormale, les courbes d'gale densit de probabilit
f(X,Y) = cste sont dans le plan X, Y des ellipses d'autant plus allonges que la corrlation est
bonne ( voisin de 1 ou -1).

De mme on montre que les droites de rgression de X en Y , et de Y en X sont les
diamtres conjugus des directions verticales et respectivement horizontales de ces ellipses, qui
sont toutes homothtiques (cf. Figure 6).

Figure 6:

BILAN:

1) dans tous les cas:

+ critre retenu: Moindres carrs des erreurs d'estimation de Y par une fonction
linaire de X:. Ces carts vrifient donc
e y y e e
i i i i i
= = =

*
minimum
i=1
N
i=1
N
0
2

+ la droite cherche a pour quation:
y m r
s
s
x m
y xy
y
x
x
= + . .( )
+ lcart type des erreurs vaut:

2
1 . =
xy y e
r s s

2) si, de plus, la distribution est binormale, alors les rsultats sur la population sont:
+ Loi Marginale de Y: N
y y
( , )

+ Loi conditionnelle de Y pour X = x
0
:

)
`
+
2
0
1 . , ) .( .

y x
x
y
y
x N

L'quation de rgression s'crit donc:
y x
y
x
y x
= + + =

. . . avec =

et le rsidu est distribu selon une loi normale { }
2
1 . , 0
y
N

Remarque vidente: (donc qui va sans dire, mais qui va encore mieux en le disant...!)

S'il n'y a pas de corrlation entre Y et X (r ou
xy
= 0), alors:
- la droite de corrlation de Y en X fournit comme estim y* toujours la mme valeur ,
savoir y* = m
y
.
Ceci doit sembler vident, puisque X n'expliquant rien de la variance de Y, notre meilleure
estimation pour Y est son esprance E[Y], estime elle-mme par sa moyenne sur l'chantillon.
- cette droite de rgression est une horizontale y = cste = m
y
.
- de mme la rgression de X en Y fournit la droite perpendiculaire
x = cste = m
x
.
On s'en rappellera quand on utilisera la rgression pour complter des sries de donnes (cf.
parag. IV-1).
II-2) EFFETS DE L'ECHANTILLONNAGE (*)

Le fait de considrer que l'ensemble de donnes disponibles n'est qu'un chantillon dans
une population permet des raffinements dans l'interprtation..
En effet, si la vraie relation dans la population est:

y x
y
x
y x
= + + = =

. . . avec

alors celle que l'on ajuste sur un chantillon de N couples s'crit:

y a x b e a r
s
s
b m a m
y
x
y x
= + + = . . . avec =
avec: a et b et a et b fonction de l'chantillon particulier.

On sait dj que, comme pour toute population, les moyennes ont une variance
d'chantillonnage:
m
N
x m
x
x
variance d' chantillonnage =

m
N
y m
y
y

et de mme les cart-types:
s
N
x s
x
x

2.

s
N
y s
y
y

2.

Mais il est intressant de considrer l'effet de l'chantillonnage sur , , et .

a) Estimateurs non biaiss:

+ Coefficient de corrlation non biais:

Le coefficient de corrlation prcdemment dfini, r
xy
ou encore r, est un estimateur
biais du coefficient de corrlation .

C'est dire que si X et Y sont tirs d'une population o la corrlation est de , des
calculs du coefficient r sur un grand nombre d'chantillons de taille N vont donner des valeurs
de r plutt optimistes (en effet, on va optimiser sur chaque chantillon, notamment en utilisant
dans le calcul les moyennes et cart-types propres chaque chantillon).
on va donc chercher un estimateur non biais, c'est dire plus proche (en esprance
mathmatique) de celui de la population.

On dmontre que cet estimateur vaut:
( )
2
1 1
'

=
N
N r
r

Cette valeur est d'autant plus diffrente de r que r
2
est faible et N petit.

N r r
'
; N r r
'
; N r r
'

5 .6 .39 ; 10 .6 .53 30 .8 .79
5 .8 .60 ; 10 .8 .77 30 .9 .896
5 .9 .87 ; 10 .9 .887 30 .95 .948
5 .95 .93 ; 10 .95 .944

+ Ecart type rsiduel:

Rappelons que l'on a cherch minimiser les rsidus sur l'chantillon. D'o:

2
1 . =
xy y e
r s s

Mais ce qui nous intresse en gnral, c'est d'appliquer le schma de rgression sur des
donnes non issues de l'chantillon, que ce soit en reconstitution ou en prvision. On commettra
alors des "erreurs", ou plutt on observera des carts, dont la variance aura une esprance
mathmatique plus grande, dans la plupart des cas, que celle optimise sur l'chantillon.
C'est pourquoi, on dfinit l'cart type rsiduel non biais:

s s
N
N
k
s
s
e e
e
e
'
'
. = et soit

=
2
1

On a par exemple les valeurs suivantes:

N 3 5 10 20 30 50 100
k 1.41 1.15 1.06 1.03 1.02 1.01 1.005

b) Distribution du coefficient de corrlation:

Soit la valeur de la corrlation dans la population suppose binormale, et r la valeur
calcule sur un chantillon de taille N :
r est une variable alatoire, dont le tirage dpend de l'chantillon,
et on montre que :
- si N est grand ( >500), alors les estimations r de sont approximativement
normales de distribution N( ,
r
), avec

r
N
=
1

- si N est petit, alors c'est la variable transforme (variable de FISCHER):
Z Log
r
r
=
+
1
2
1
1

qui suit une loi normale:
de moyenne:

Z
Log =
+
1
2
1
1
et d'cart type:
Z
N
=
1
3

Cette distribution est utilise pour:
+ tester l'hypothse d'indpendance des variables ( = 0 ?)
+ dfinir un intervalle de confiance de r
+ tester la diffrence entre 2 calculs de r sur des chantillons diffrents, pour savoir si
elle est significative ou non.

Exemple:

Entre 2 variables on a trouv r = .3 sur un chantillon de 10 valeurs indpendantes.
Question: Peut-on affirmer raisonnablement que ces 2 variables sont lies (mme faiblement) ?.

Faisons l'hypothse = 0 et calculons la probabilit de trouver r suprieur 0.3 sachant
que = 0:
Dans ce cas l'esprance de Z est :

Z
Log Log =
+
= =
1
2
1
1
1
2
1
1
0
et l'cart-type
Z
N
=
= =
1
3
1
7
378 .

On a trouv une valeur de Z, sur l'chantillon, de: Z Log
r
r
Log =
+
=
+
=
1
2
1
1
1
2
1 0 3
1 0 3
0 310
.
.
.
D'o la valeur de la variable normale centre rduite correspondant Z:

u =

=
0 310 0 0
0 378
0 82
. .
.
.

On trouve dans une table de la loi normale que l'on a alors encore une probabilit de 20.7 % de
dpasser cette valeur, dans l'hypothse d'indpendance des variables. Cette probabilit est
suffisamment leve pour que l'on puisse accepter l'hypothse d'indpendance (puisque si les
donnes taient indpendantes, on aurait presque une chance sur 5 de trouver un coefficient
suprieur .3).

On en conclut qu'avec 10 couples, un coefficient de corrlation de r = 0.3 n'est pas
significatif (i.e. pas significativement diffrent de zro).

c) Distribution des coefficients de rgression:

On rappelle que, si la vraie relation dans la population est:
y x = + + .
en fait, on ajuste sur l'chantillon de N couples :
y a x b e = + + .
Hypothses: X et Y sont des variables binormales.
On montre alors de mme que si l'chantillon est grand:

E[ a ] = E[ b ] =

et

a
y
x
N
=

.
1
2

N
y b
2
1
.

=

De plus, leur distribution est gaussienne.

Par contre, dans le cas des petits chantillons, on montre que ces formules deviennent:

a
y
x
N
=

.
1
2
2

2
1
.
2
=
N
y b

et que la variable de Student t:

t
a
a
=

suit une loi de Student N-2 degrs de libert.

En pratique, on ne connat pas mais seulement une estimation r, d'o :

2
1
.
2
=
N
r
s
y b

ou encore, en remarquant que a r
s
s
y
x
= . , la variable estime t devient:

( )
2
2
1
2 .
.
r
N r
a
a
t

=

et de mme pour b:
( )
( )( )
2 2 2
. 1
2
.
x x
m s r
N
b
b
t
+

=

suit une loi de Student N-2 degrs de libert o s
x
est l'estimateur non biais de la variance
de x.

Applications:

+ Tester si la constante de l'quation de rgression peut tre considre comme nulle
(souvent utile): b E b ? = 0

+ tester si la diffrence entre 2 quations est significative ou non.

a b a b E a E a E b E b , ' , ' ' ' et et ?

d) Estimation d'un intervalle de confiance de l'estim de Y pour la population(*):

Nous avons vu que sur l'chantillon, la droite optimise sur cet chantillon fournissait:
y a x b e y e
i i i i i
= = + + + .
*
avec { }
2
1 . , 0 r s s N e
y e i
=

Dans une premire approche, (-la plus courante en pratique-), on fournit:
- pour estim de y
i
l'abscisse x
i
la valeur y
i
* dduite de cette droite;
- or celle-ci n'est optimale que pour cet chantillon.

On fournit ensuite:
- un intervalle de confiance qui est sens reprsenter l'incertitude due aux facteurs non
contrls par x, et concentrs dans le rsidu.
Ce faisant, on travaille comme si on avait trouv les vrais coefficients et de la population, et
comme si e
i
tait strictement identique
i
.

Mais en fait, si on prend un autre chantillon, on trouvera une autre droite:

y a x b e y e
i i i i i
= = + + + ' . ' ' '
*
avec { }
2
'
' 1 . ' , 0 ' r s s N e
y e i
=

et donc, pour la mme valeur de x
i
, une valeur y'
i
* qui est calcule avec des a' et b' lgrement
diffrents cause de l'chantillonnage.

Donc un "raffinement" intressant consiste:
- cerner la variation de l'estim (y
i
*, y'
i
*, etc...), en fonction de l'chantillonnage,
- et donc d'estimer pour une valeur x
i
, la valeur la plus probable de y
i
, c'est dire
l'esprance des y*
i
, soit E[y*
i
] (-et un intervalle de confiance correspondant-),
- en tenant compte de l'chantillonnage sur les coefficients de rgression.

On montre que la valeur la plus probable compte tenu de l'chantillon observ est celle
dfinie par l'quation calcule sur l'chantillon,(- le seul disponible- ), mais que par contre, y
peut s'carter de cette valeur selon une loi de Student.

D'o, si t
p
est la valeur de la variable de Student N-2 degrs de libert telle que:
Pr ob t t p
p
=

l'intervalle de confiance p% de probabilit (par exemple 80%) de l'estimation de y est dfini
par:
( )
( )
2
2
* *
1 . . . =
*
x
x i e
p
y
x i y i i
s
m x
N
s
t m x a m y y
i
+ +
4 4 3 4 4 2 1

On remarquera que cet intervalle de confiance, qui inclue la fluctuation de la droite des
moindres carrs selon l'chantillon, augmente si on s'loigne de la moyenne des x , donc du
barycentre. On peut comprendre intuitivement que le nuage de l'chantillon, sous l'hypothse
binormale, est plus dense et mieux dfini autour du barycentre qu' la priphrie.

Si on prend en compte cette fluctuation de l'estim y*
i
dans l'intervalle de confiance
"total" que l'on fournit pour y
i
, et qui alors prend en compte la fois:
- l'incertitude due aux facteurs non corrls x
- et le fait que l'on ne dispose que d'un chantillon, donc que a et b ne correspondent
pas exactement et ,

cette incertitude globale devient:

( )
( )
2
2
.
1
1 . . . =
*
x
x i
e p
y
x i y i i
s N
m x
N
s t m x a m y y
i
+ + +
4 4 3 4 4 2 1

On remarquera qu'il est suprieur celui calcul couramment sur l'chantillon (en ignorant
l'effet d'chantillonnage) et dfini par:

( )
e p
y
x i y i i
s u m x a m y y
i
. . =
*
+
4 4 3 4 4 2 1

o u(p) est la variable centre rduite de Gauss dont la valeur absolue n'est pas dpasse avec
une probabilit p (par exemple u = 1.28 pour p = 80%).
Figure 7:

II-3) Simulation stochastique

Une faon de prendre conscience, de manire concrte, de ces effets consiste raliser
de la simulation par gnration stochastique. En gnral on effectue celle-ci dans un contexte de
lois normales, mais des adaptations sont tout fait possibles.

Pour cela, on part d'une corrlation calcule sur un chantillon, qui a fourni une relation:
y a x b e y e
i i i i i
= = + + + .
*
avec { }
2
1 . , 0 r s s N e
y e i
=
On prend cette relation comme rfrence (i.e. on suppose que c'est la relation qui vaut sur la
population), et on va regarder ce que l'on peut obtenir sur des chantillons qui respectent
exactement cette structure que l'on vient de "figer".
Par exemple, pour une taille d'chantillon souhait P, on ralise successivement:

pas 1: Tirage au hasard d'une valeur de x dans une loi N(m
x
, s
x
)
pas 2: Calcul de la partie explique de y par y* = a.x.+b
pas 3: Tirage au hasard d'une valeur de e dans une loi N(0, s
e
)
pas 4: Calcul de la valeur de y par y = y*+e et retour au pas 1
et on itre P fois cette opration.

Sur l'chantillon obtenu, on recalcule la corrlation. Bien qu'elle ait t gnre selon la
structure y = a.x + b + e avec une corrlation r, l'ajustement fournit y = a'.x +b + e avec une
corrlation r'. On rpte cela pour diffrents chantillons gnrs de taille P et on peut ainsi
mesurer l'incertitude sur a, b, ainsi que sur r et e, due un chantillon de taille P.

Remarque:
Pour des dtails sur le tirage alatoire dans une loi prfixe, on se reportera par exemple
au cours polycopi d'analyse numrique (Ch. Obled 1978).
La pratique prconise ici est programme dans le petit logiciel de corrlation CORSIM
(propos par Ph. Bois).

III) PIEGES DE LA CORRELATION

Avec l'avnement de calculettes puissantes et de logiciels largement diffuss, la
corrlation est devenue banale, avec le risque de l'utiliser comme une technique "presse-
bouton".
Or il y a des piges viter. Et ils sont trs nombreux: certains sont "classiques", mais
d'autres moins vidents.
Nous voquerons les plus courants rencontrs en hydro-climatologie.

III-1) Piges gomtriques:

Ils sont dus une forme particulire du nuage de points, et facilement dcelables si on
prend la prcaution de dessiner le nuage de points sur le plan X, Y.
Ce sera donc une rgle de toujours visualiser le nuage des observations.

Exemples:

- Nuage htroscdastique (l'hypothse binormale n'est pas vrifie; contrairement ce
cas, vu en II, le rsidu cette fois a une variance fonction de X).

C'est le cas de nuage de corrlation entre deux stations de pluies journalires, de
donnes journalires d'insolation, etc...

L'estimation de Y partir de X doit alors se faire avec un rsidu dont on ne peut pas
considrer la variance comme indpendante de la valeur de X. Sinon, on fait une erreur sur les
lois conditionnelles.

Solutions possibles:

Essayer de rendre la distribution plus binormale, par des transformations de variables
(du type racine carre, Log etc..).

III-2)
Piges de cofluctuation:

Trs classiques en Hydrologie, en Gophysique...

Ils consistent analyser trs soigneusement et utiliser comme potentiel prdictif une
information qui est en fait triviale! Ils sont dus au fait que de nombreuses variables naturelles
ont des composantes saisonnires, lies la rotation de la terre autour du soleil.

Par exemple, si on calcule la corrlation entre la srie des dbits mensuels de l'Isre
Grenoble et la srie des dbits mensuels du Niger Bamako au Mali, la corrlation est assez
bonne.
Ceci n'est d qu'aux variations saisonnires :
- il pleut en t sur le bassin du Niger -d'o des hautes eaux d't-, cause de la
position du front de convergence tropicale
- tandis que sur l'Isre on assiste une fusion nivale et glaciaire d't.
Mais, part cet effet saisonnier, il n'y a aucune relation physique entre les deux ...!, et une
anne donne, il n'y a rien gagner tenter de s'appuyer sur les dbits de l'Isre (-plutt hauts
en t -) pour prdire ceux du Niger (-eux aussi plutt hauts en t-).


Dsaisonnaliser les variables, soit en travaillant par saisons, soit en enlevant de chaque
variable la composante saisonnire en moyenne et cart type:

( ) ( )
( )
i
Q
i
s
Q j i Q
j i q j anne i mois Q

=
,
, ,

avec Q
i
= moyenne des mois i et s
Q
i
= cart-type des mois i

III-3)
Variables monotones:

Si X et Y
sont des variables monotones (fonctions monotones d'une troisime variable,
par exemple du temps), la corrlation sera toujours bonne mme si ces variables n'ont aucune
liaison physique.

Il s'agit d'chantillons o le couple X,Y est constitu de variables "fabriques" de telle
sorte qu'elles ne peuvent tre que systmatiquement croissantes ou dcroissantes, (-souvent par
le biais de cumuls -).

Exemple:
X(mois i, anne j) = Volume de sdiments pigs par le barrage de Serre
Ponon depuis sa cration jusqu' ce mois i de l'anne j
Y(mois i, anne j) = Population de la Chine
(actuellement c'est une variable monotone croissante).
La corrlation entre X et Y est alors trs forte!, mais sans causalit physique aucune.

Travailler sur des drives, ou en pratique, des incrments:
y
i
- y
i-1
en fonction de x
i
- x
i-1
C'est ainsi que l'on pourra constater que l'accroissement du volume de sdiments dposs dans
Serre Ponon n'est pas du l'rosion induite par la population chinoise et n'est donc pas corrl
avec l'accroissement dmographique chinois...!

III-4) Variable influente cache:

Certaines corrlations peuvent paratre tonnantes.
Par exemple, il y a une bonne corrlation entre le nombre de morts de froid en hiver en France
et la consommation de chauffage (-plus on chauffe donc, plus il y a de morts de froid..!-); on
devine qu'une variable cache (la temprature de l'hiver) a une influence primordiale.

Solutions:
Voir chapitre suivant 2me Partie, Chap. III sur la Corrlation Multiple, paragraphe
concernant la corrlation partielle.

III-5) Corrlation et liaisons de cause effets:

Se rappeler qu'une bonne corrlation entre variables ne dmontre pas l'existence
obligatoire d'une liaison physique de cause effets. Il ne s'agit que d'une constatation
statistique. Seul le physicien peut trancher cette question.

Exemple I:
On constate en France une bonne corrlation entre le taux de boisement et les
prcipitations; mais n'en dduisons pas rapidement, comme on l'a parfois crit, que la fort
augmente les prcipitations!.

Il se peut que l'on ait simplement dcid de laisser se reboiser les zones trop arroses, ou que
ces zones arroses soient plutt situes en montagne donc peu accessibles pour la
mcanisation de l'agriculture, etc... Mais la corrlation reste un fait observ.

Exemple II:
On propose un autre exemple (-fictif mais plausible-) de variable cache pouvant
entraner une interprtation errone.
On suppose que lon a rassembl des statistiques sur la longvit (dure de vie) en fonction de
la consommation dalcool. Cette enqute , sponsorise par une grande marque de boissons
alcoolises, a couvert par exemple tout le continent amricain.
Un premier calcul a conclu que, mme si elle est assez modeste et surtout, trs
htroscdastique ( cf. Figure 9) , la corrlation nen est pas moins positive et significative (
donc on vivrait dautant plus longtemps que lon consomme plus dalcool !)

Pourtant, en considrant plus attentivement lorigine et la rpartition des individus, on
saperoit quils sont organiss par sous-populations :
- les populations dveloppes , qui ont dailleurs en moyenne une assez forte
esprance de vie, des moyens conomiques qui leur permettent de consommer
beaucoup de spiritueux mais aussi de se faire soigner, une partie de la mortalit
tant plutt due aux accidents de la circulation.
- les populations dites en dveloppement , qui ont une esprance de vie moindre et
ne disposent que de moyens conomiques modestes pour consommer, notamment
de lalcool, et pour se soigner.
- les populations sous-dveloppes et pauprises ( tribus indiennes par exemple )
, qui ont une esprance de vie trs faible, nont pas vraiment accs aux soins et
sont trs vulnrables aux effets de lalcool.

En fait, dans chacune de ces sous-populations prise sparment, la corrlation, et donc
leffet de lalcool sur la longvit, est comme on lattend trs ngatif Cest le
regroupement abusif en une seule population qui fait apparatre une corrlation irraliste en
terme de causalit (donc au niveau de linterprtation) , mais bien relle au niveau du calcul
strict

Figure 9 :

Figure 10 :

IV) APPLICATIONS PARTICULIERES:

IV-1) RECONSTITUTION de DONNEES. EXTENSION de SERIES.

La corrlation est un outil trs utile en hydrologie: on en verra un exemple approfondi en
"Critique des donnes" ( cf. 3
me
Partie de ce cours d'analyse des donnes). Nous voquons ici
un problme frquent aussi en hydrologie oprationnelle:

"Complter une srie courte partir d'une srie longue (extension de srie)"

Exemple I:
C'est le cas par exemple si l'on veut dimensionner un ouvrage de stockage. Souvent, on a
install une station de mesure de dbits sur le site de l'ouvrage seulement quand la dcision
d'tudier l'ouvrage a t prise de ce fait, la srie collecte sur le site de l'ouvrage est souvent
trop courte pour le dimensionner.(cf. Figure 10 ci-contre)
Mais ce site peut se trouver proximit relative d'une station du rseau de base,
exploite depuis longtemps, mais qui ne draine pas forcment le mme bassin... Il y a pourtant
une certaine corrlation entre les deux, et ce serait intressant de l'exploiter pour augmenter
l'information disponible au site de l'ouvrage.

Exemple II:
Toujours pour un dimensionnement d'ouvrage, on dispose d'une srie courte de dbits, et
donc de modules annuels, mais on a une longue srie pluviomtrique proximit: peut-on
tendre la srie des modules de dbits?
___________
Hypothses:
- on a des mesures communes sur K annes aux stations X et Y
- mais une srie de N annes (N>K) la station X (donc N-K annes supplmentaires)

a) mise en oeuvre:
La corrlation entre les stations Y et X sur les K observations de la priode commune
fournit une quation de rgression:

y m y r x y
s y
s x
x m x
i K K
K
K
i K
*
( ) ( , ).
( )
( )
. ( ) = +

que l'on peut ensuite appliquer aux N-K valeurs observes de x
i
de la priode o elle est seule
disponible, pour fournir N-K estimations y*
i
de la variable Y.
On peut maintenant s'interroger sur l'intrt d'une telle pratique, propose par Matalas et
Jacobs (1964).

b) Gain d'information sur la moyenne
y
:
On dispose dsormais de 2 estimations:

Estimation 1 :
1
1
K
y m y
j
j
K
K
.
=
( )
On sait que l'incertitude d'chantillonnage peut tre exprime par la variance thorique de cette
estimation:

m
Y
K
K
2
2
=

Estimation 2 : .
1
+ .
1
= .
1
1
*
1 1

= = =
K N
i
i
K
j
N
l
l
y
N
yj
N
y
N
m*(y)

Tous calculs faits, cette seconde estimation fournit:

{ {
) ( ) ( .
) (
) (
) , ( + ) ( = ) ( *
(

x m x m
x s
y s
y x r y m y m
K N
K
K
K K

ou encore
{
) ( ) ( .
) (
) (
). , ( .
N
K - N
+ ) ( = ) ( *
(
x m x m
x s
y s
y x r y m y m
K K N
K
K
K K
3 2 1

en appelant m
N-K
(x) la moyenne des X calcule sur la priode N-K o Y n'est pas connue.
La variance de cette estimation, calcule sur la srie tendue a t propose par Cochran (1953)

{
( )
(
(
|
|
.
|
\
|

|
.
|
\
|
+ =
3
. 2 1
. 1 1 .
2 2
2
) ( *
2
) (
K
r K
N
K
K
K Y
y m
y
K
m

Le gain de prcision, encore appel l'efficacit de l'extension sur l'estimation de la moyenne
(car cette efficacit va diffrer selon le paramtre statistique que l'on considre ici la
moyenne), s'exprime par:

( )
(

|
.
|
\
|
+ =
3
. 2 1
. 1 1
2
K
r K
N
K
E
K

et s'interprte comme l'augmentation du nombre quivalent d'observations. Au lieu de K
observations, la moyenne a une prcision comparable celle tire de

N
K
E
' = observations, avec K < N' < N

Interprtation intuitive:

Si la corrlation est parfaite, tant dans la population que dans l'chantillon,
(r =1), alors on reconstitue parfaitement la srie Y, donc on retrouve de fait E
K
N
= d'o N'
= N informations indpendantes (qui sont en fait y*
i
y
i )
.

Si au contraire, la corrlation est nulle tant dans la population que dans l'chantillon (r =
0), alors on ne reconstitue rien de la srie Y. On remplace les valeurs manquantes ( cf. la
"remarque vidente " en fin du paragraphe II) , par N-K "estimations" qui ne sont que:
y*
i
m
K
(y) cest dire la moyenne des seules valeurs observes !

donc on ajoute la srie des K valeurs de Y observs N-K fois la moyenne de cette srie...! ,
et on croit avoir apport de l'information. !

En fait, on a fait pire que mieux, puisque l'on diminue la variabilit sans ajouter quoique ce soit,
mais tout en pensant avoir des informations plus nombreuses...!.

Vrification : ( dmonstration)
Si on reprend la formule:
( )
(

|
.
|
\
|
+ =
3
. 2 1
. 1 1
2
K
r K
N
K
E
K

et que l'on fait : r
K
= 1
on trouve:
( )
N
K
K
K
N
K
E =
(

|
.
|
\
|
+ =
3
2 1
. 1 1 d'o N
K
E
N ' = =
et c'est bien le rsultat attendu !

Si, par contre: r
K
= 0
on trouve
(
|
.
|
\
|
+ =
3
1
. 1 1
K N
K
E
ce qui impose d'une part K>3 et E est toujours > 1 d'o N' < K ...!,
et on a effectivement fait pire que mieux...!

Comme N
K
E
' = , l'opration ne vaut la peine que si E <1, pour avoir N' > K, et donc la
limite, pour E = 1, correspond :
E=
( )
(

|
.
|
\
|
+ =
3
. 2 1
. 1 1 1
2
K
r K
N
K
K


soit encore: ( ) 0 . 2 1
2
=
K
r K ou r
K
K
=
1
2

Et il faut que r
K
soit suprieur cette valeur pour amliorer l'estimation de la moyenne.

c) Gain d'information sur la variance
y
:

On pourrait faire le mme raisonnement sur l'estimation de la variance. En effet, on a la
relation:
Var(Y) = Var. explique par X + Var. rsiduelle
soit sur la population:
( )
2 2 2
2
2
2 2
. 1 . .
y xy x
x
y
xy y

+
|
|
.
|
\
|
=
Si on estime la variance y partir de l'chantillon, on obtient var
K
[Y]
Mais on pourrait calculer avec une meilleure prcision l'estimation de la variance de X soit :

{
{
2
1
) ( .
1
1
) ( var

=
|
|
.
|
\
|

N
i
N i N
x m x
N
X
donc on peut essayer d'utiliser cette meilleure estimation pour amliorer var[Y] par:

[ ]
[ ]
[ ]
{
[ ] [ ] [ ] Y y x r X
X
Y
y x r Y
K K N
K
K
K
var . ) , ( 1 var .
var
var
). , ( var*
2 2
+
(

ce qui, aprs simplification, fournit:

[ ] [ ]
[ ]
[ ]
{
[ ] [ ]
(
+ =
X X
X
Y
y x r Y Y
K N
K
K
K K
var var
var
var
). , ( var var*
2

Matalas et Jacobs (1964) proposent plutt :

[ ]
[ ]
[ ]
[ ]
( )( )
[ ] [ ] [ ] [ ] X Y y x r Y
N K
N
Y
X
Y
y x r Y
K K K K N
K
K
K
) , ( var
1 . 3
3
1 var
var
var
). , ( var*
2
+ =
On peut de mme calculer la variance d'chantillonnage de cet estimateur et vrifier les
conditions pour qu'il soit infrieur Var
K
(y) (Stedinger et Vogel 1985)
Attention:
Ces formules sont utiliser avec prcaution. Il est exclus de les justifier entirement ici, et on
conseille l'utilisateur de se rapporter aux auteurs originaux s'il doit en faire un usage intensif.

IV-2) Traitement de Donnes de Mesures.

Il est frquent que cette mthode (la rgression) soit utilise pour traiter des donnes de
mesures.
Il arrive notamment que certains couples {x
i
, y
i
} soient considrs comme plus fiables que
d'autres. En d'autres termes, on a une "mesure" de qualit pour l'observation i, et on voudrait en
tenir compte dans la corrlation en donnant plus de poids ce couple.

Astuce:
Si on suppose que la qualit varie de 1 10, on peut fabriquer un nouvel chantillon de
taille N' dans lequel on duplique 10 fois les couples trs fiables et o l'on ne fait apparatre
qu'une fois un couple peu fiable. Cela donnera au premier un poids de 10 dans les calculs.
On utilise alors un programme de corrlation classique: le couple dupliqu 10 fois
attirera plus lui la droite de corrlation que celui qui n'apparat qu'une fois.
Par contre, tous les rsultats d'chantillonnage seront errons car le programme croira disposer
de N' >>N observations.
Mais c'est un bon truc prliminaire...

Une approche plus thorique consiste accorder chaque couple {x
i
, y
i
} un poids
i
et calculer dans ce contexte la droite de corrlation pondre.
Un cas frquemment rencontr est celui o:
- le couple {x
i
, y
i
} est le rsultat de la rptition P fois de la mme mesure,
- dont on a fait ensuite la moyenne pour fournir le couple {x
i
, y
i
}. Dans ce cas, il est
peu prs quivalent soit de mettre les mesures individuelles, soit de dupliquer P fois le couple
{x
i
, y
i
}, c'est dire de lui donner un poids P.

On peut raffiner en tenant compte, pour donner un poids au couple {x
i
, y
i
}, de la
variance observe sur les P mesures de Y , mais mme aussi de X, car on n'est pas toujours sr
de pouvoir se repositionner la mme abscisse exactement pour chaque mesure.
Pour ces aspects de l'utilisation de la corrlation en traitements des mesures, on se
reportera des ouvrages spcialiss comme celui de CETAMA
BIBLIOGRAPHIE

CETAMA (1986)
Statistique applique l'exploitation des mesures.
Commission d'tablissement des mthodes d'analyses du Commissariat l'Energie Atomique. 2
me
Edition. Masson ed. 444 p.

COCHRAN W.G. (1953)
Sampling techniques . John Wiley Ed. New York

JOHNSTON (1974)
Econometric methods . John Wiley Ed. New York

MARQUARDT D. (1963)
An algorithm for least-squares estimation of non-linear parameters
J. Soc. Indust. Appl. Math, Vol 11, N2

MATALAS N.C et JACOBS B. (1964)
A correlation procedure for augmenting hydrologic data
US Geol. Survey; Professional papers 434-E, 7 p

MORAN M.A. (1974)
On estimators obtained from a sample augmented by multiple regression
Water . Res. , vol 10, N1, pp. 81-85

OBLED Ch. (1978)
Mthodes Numriques pour l'Ingnieur Hydraulicien.
Cours polycopi ENS Hydraulique Grenoble , 200 p.(Dernire rdition 1992)

ROCHE M. (1965)
Hydrologie de Surface. Gauthier Villars Ed. Paris.

VIALAR J. (1955)
Calcul des Probabilits et Statistiques- T III: Statistique, contingence et corrlation.
Dir. de la Mto. Nationale. Ecole Nationale de la Mtorologie Toulouse. (Rdition 1986).

VOGEL R.M. and STEDINGER J.R. (1985)
Minimum variance streamflow record augmentation procedures
Water Ressour. Res. , vol 21, N5, pp. 715-723

YEVJEVICH V.(1972)
Probability and Statistic in Hydrology
Water resources Publications, Fort Collins, Colorado U.S.A.


2
me
ENTRE VARIABLES

CHAPITRE V : LA CORRELATION LINEAIRE
MULTIPLE

I) OBJECTIFS ET NOTATIONS 175

II) CARACTERISTIQUES DE LA CORRELATION: 177

II-1) Critre doptimisation 177
II-2) Calcul des coefficients de rgression en variables centres rduites
et en variables brutes 177

III) LA CORRELATION PARTIELLE 181

III-1) Objectifs 181
III-2)
Calcul des coefficients de corrlation partielle 184

IV) ESTIMATIONS SANS BIAIS: 186

IV-1) Coefficient de corrlation multiple dbiais 186
IV-2) Fluctuations dchantillonnage 187

V) CAS DE 2 VARIABLES EXPLICATIVES 190

VI) RAPPELS IMPORTANTS SUR LES NOTATIONS 191

VII) DIVERS ALGORITHMES INTERESSANTS 191

VIII) EXEMPLE DE CALCUL 193
2
me
ENTRE VARIABLES

CHAPITRE V: LA CORRELATION LINEAIRE MULTIPLE

Objectifs:

On cherche estimer une variable X
1
(que l'on appellera Variable expliquer), par un
lot de p-1 variables X
2
, X
3
,...,X
p
, (appeles Variables explicatives) par l'intermdiaire d'une
liaison linaire du type:
c X b X
j
p j
j
p j
+ =

=
=2
... 2 , 1
1
^
(1)
Les caractristiques de cette liaison linaire (valeurs optimales des coefficients,
qualit de la liaison) seront estimes partir d'un chantillon de n observations, i de 1 n..

Note importante : En anglais, la variable expliquer sappelle dependent variable et les
variables explicatives independent variable si bien que certaines personnes croient dur
comme fer que cette mthode ne sapplique que si les variables explicatives sont
indpendantes, ce qui est totalement faux.

Applications:

+ Reconstitution de donnes manquantes
+ Modles de prvision (tiages, crues, etc...)
+ Contrle de donnes
+ etc..

Une tape importante du travail sera de proposer ventuellement des changements de
variables, partir des variables brutes, afin que la variable expliquer puisse raisonnablement
tre explique par une liaison linaire des variables explicatives.

V-I) Notations:

Soit: X
1
la variable expliquer
X
2
, X
3
,..., X
p
, les p-1 variables explicatives
X
j
(i) est la valeur de la variable X
j
dans l'observation i de l'chantillon de taille n.
r
jk
coefficient de corrlation linaire (ou encore coefficient de corrlation totale entre
X
j
et X
k)
, calcul sur l'chantillon.

R est la matrice de ces coefficients de corrlation totale; c'est une matrice symtrique
semi dfinie positive.

1 r
1 2
. r
1 j
r
1 p
r
2 1
=r
1 2 1
r
2J
r
2 p

R = r
1 j
r
2 j
1 r
j p

..
r
1 p
r
2 p
r
j p
1

est le dterminant de R
j k
le mineur j, k de R
j k
le terme j k de la matrice R
-1
, matrice inverse de R.

V-II) Caractristiques de la corrlation:

II-1) Critre d'optimisation:

Nous retiendrons d'emble (cf. corrlation simple) le critre des moindres carrs des
carts d'estimation, c'est dire que nous cherchons minimiser, sur l'chantillon :
=
=
|
.
|
\
|

n i
i
i X i X
1
2
1
^
1
) ( ) ( avec :
=
=
+ =
p j
j
j p j
c i X b i X
2
.. 2 , 1
1
^
) ( ) ( (2)
Ce critre est assez bon et permet des calculs rapides.

II-2) Calcul des coefficients de rgression en Variables centres rduites et en Variables
brutes

Pour des raisons de simplification de prsentation, nous travaillerons sur des variables
centres rduites en effectuant des transformations linaires simples ; en outre, dans la
pratique, cela est conseill car on peut ainsi comparer les coefficients de rgression entre eux
puisquils ont mme dimension et sont relatifs des variables de mme variance.
j
X
j j
j j
s
X i X
i x i X

=
) (
) ( ) ( avec
j
X moyenne des X
j
sur lchantillon et s
Xj
cart type
des mmes valeurs,
Cette transformation est biunivoque si aucun cart type n'est nul. Les nouvelles
variables x
j
ont des moyennes nulles sur l'chantillon et des cart types gaux 1 sur
l'chantillon, de plus, elles nont pas de dimension.

Nous cherchons donc le terme constant et les p-1 coefficients
1j, 2....p
appels
coefficients de rgression (en variables centres rduites) de x
1
avec x
j
, compte tenu de x
2
,
x
3
, ..., x
p
qui minimisent :
2
1 ... 2 , 1 .. 2 , 1 3 ... 2 , 3 1
1
2 .. 3 , 2 1 1
) ) ( ... ) ( ... ) ( ) ( ) ( ( =

=
=
i x i x i x i x i x S
p p p j p j p
n i
i
p

soit :
=
=
=
n i
i
p
i S
1
2
... 3 2 , 1
) (
1,2 3.p
(i) est le rsidu de x
1
(i) expliqu par x
2
, x
3
,,x
p

S est donc une fonction de p paramtres:

- les p-1 coefficients de rgression
1k,2...p
(k de 2 p)
- le terme constant

Calcul du terme constant en variables centres rduites:

Minimisons S sur l'chantillon par rapport :
0 =
S

soit :
0 ) ) ( ... ) ( ... ) ( ) ( ) ( (
1 ... 2 , 1 .. 2 , 1 3 ... 2 , 3 1
1
2 .. 3 , 2 1 1
=

=
=
i x i x i x i x i x
p p p j p j p
n i
i
p

comme les variables sont centres rduites:
=
=
=
n i
i
j
i x
1
0 ) ( pour tout j
donc = 0

la somme des rsidus sur lchantillon, est donc nulle; autrement dit, l'erreur moyenne est
nulle (en valeurs algbriques) et lhyperplan passe par le centre de gravit.

Calcul des coefficients de rgression en Variables centres rduites:

On a rsoudre le systme de p-1 quations p-1 inconnues (les p-1 b
1k,2.....p
):
0
... 2 , 1
=
p j
S
pour j = 2, 3 ,..., p
d'o p-1 quations:
0 ) ( ) ( ) (
1 2
.... 2 , 1 1
=
(

=
=
=
=
n i
i
p j
j
j p j j
i x i x i x pour j=2 p
que l'on peut crire avec les notations prcdentes:
0 ) ( * ) (
1
... 2 , 1
=
=
=
i i x
n i
i
p j
pour j=2 p

On en dduit, les variables x
j
et
1,2.....p
tant centres, que la corrlation entre le rsidu et
toute variable explicative est strictement nulle sur l'chantillon.

Le systme s'crit de faon plus classique:

[ ]

=
=
=
=
+ + + + =
n i
i
n i
i
p p p k p k p
i x i x i x i x i i x i x
x
1 1
2 ... 2 , 1 2 ... 2 , 1 ... 2 , 2 1
2
2
2 1
) ( * ) ( ... ) ( * ) ( ..... ) ( ) ( * ) (
..
[ ]

=
=
=
=
+ + + + + =
n i
i
n i
i
p j p p
j
p j p j j
i x i x i i x i x i x i x
x
1 1
... 2 , 1
2
.. 2 , 1 ... 2 , 2 1 2 1
) ( * ) ( ... ... ) ( ..... ) ( ) ( ) ( * ) (

[ ]

=
=
=
=
+ + + + =
n i
i
n i
i
p
p p j p p j p p p
i i x i x i x i x i x i x
x
1 1
2
... 2 , 1 ... 2 , 1 ... 2 , 2 1 2 1
) ( ..... ) ( ) ( .. ) ( ) ( ) ( * ) (

Or la corrlation entre x
j
et x
k
est la mme que celle entre X
j
et X
k
, soit r
jk, puisque
toute transformation linaire laisse invariant le coefficient de corrlation totale entre les
variables.
) ( ) (
1
1
i x i x
n
r
k
n i
i
j jk
=
=
=

car les variables x
j
sont centres rduites; d'o un systme linaire de p-1 quations p-1
inconnues (les
1k,2p
k de 2 p).

r
1 2
= 1
1 2
,....
+ r
2 3

1 3
,.....
+ ............+ r
2
p

1 p
,.....
.............................................................................
r
1
j
= r
2j

1 2
,.....
+................+ r
jk

1k
,.....
+ ........+r
jp

1 p
,.....
.............................................................................
r
1p

= r
2p
1 2
,....

+ ..................
+ r
pk
1k
,.....
+ ........+1*
1 p
,.....

On retrouve que les coefficients de ces quations sont les termes de la matrice R de
corrlation.

Donc si
1 1

n'est pas nul (ce qui est le cas le plus courant), mais il existe des contrexemples,
comme une variable fonction linaire dautres, telle la temprature moyenne et les
tempratures min et max)

1 1
1j
1 1
1j
1j,2...p
= =

Coefficients de rgression et terme constant en Variables Brutes:

Comme X
j
(i) = X
j
+ x
j
(i) * s
X
j

si b
1 j,2.....p
est le coefficient de rgression de X
1
avec X
j
compte tenu de X
2
, X
3
,...,X
p, cest
dire en variables brutes, on a la relation :
j
X
X
p j p j
s
s
b
1
.. 2 , 1 .. 2 , 1
=

et le terme constant c vaut:
=
=
=
p j
j
p j j
X
X
X
S
s
X c
j
2
.. 2 , 1 1
1

D'o l'quation de rgression en variables brutes:

j 1
X
j j
p j
2 j
1j,2..p
X
1 1
s
X (i) X
s
X (i) X

=
=
=
)

avec, rappelons le:
1 1
1
1 1
1
... 2 , 1
j j
p j
=
=
Le calcul est donc simple, il suffit dinverser la matrice de corrlation, matrice semi dfinie
positive.

II-3) Qualit de la liaison:

Il nous reste mesurer la qualit de cette estimation; Le plus simple est de calculer la
corrlation linaire entre X
1
et son estim par l'quation de rgression. Ce coefficient de
corrlation totale entre X
1
et son estim par l'quation de rgression sera appel coefficient
de corrlation multiple entre X
1
et le lot de variables explicatives X
2
, X
3
,....,X
p
.

Nous le noterons R
1,2 3....p
(notez la place de la virgule en indice !)

Les variables x
j
tant centres rduites:

De faon analogue au coefficient de corrlation totale :Variance(
1,2 p
) = 1 - R
2
1,2...p

or :
=
=
=
p j
j
j p j p
i x i x i
2
... 2 , 1 1 ... 2 , 1
) ( ) ( ) (
D'o la variance du rsidu (ce rsidu a une moyenne nulle):
(

=
=
=
=
=
=
p j
j
j p j
n i
i
p j
j
j p j
i x i x i x i x
n
2
.. 2 , 1 1
1 2
.. 2 , 1 1
) ( ) ( ) ( ) (
1

Or le rsidu n'est corrl avec aucune variable explicative, d'o la variance vaut:
[ ]
(

=
=
=
=
p j
j
j p j
n i
i
i x i x i x
n
2
.. 2 , 1 1
1
1
) ( ) ( ) (
1

=
=
=
=

+ = =
p j
j
p j
j
j
j
j p j
r r x Variance
2 2 1 1
1
1 1
1
1 .. 2 , 1 1
1 ) (
Do :
1 1
2
... 2 , 1
1
=
R p

Ou encore :
1 1
2
1,2..p
1
1
R
=
Expression plus usite, car il est plus facile dinverser une matrice que de calculer des
dterminants.

V-III Corrlation partielle:

III-1) Objectifs:

La plupart des phnomnes sont causs par plusieurs variables plus ou moins lies et il
est souvent difficile d'valuer l'influence relle d'une variable sur le phnomne cause de la
complexit des relations entre variables.

Prenons l'exemple des dcs par cause de froid en hiver en France (exemple
volontairement agressif, mais assez proche de la ralit). La corrlation entre le nombre de
dcs et la consommation de chauffage (cf Fig.) est positive ; plus on chauffe, plus on meurt!.
Il est vident qu'il faut faire intervenir la temprature de l'hiver; la corrlation Chauffage-
Temprature est leve et ngative. Plus il fait froid, plus on se chauffe. La relation Dcs-
Temprature est galement bonne et ngative, plus il fait froid et plus il y a de dcs.


Il est intressant de savoir quelle est l'influence de la consommation du chauffage sur
le nombre de dcs, compte tenu de la temprature.
Si on possdait de trs nombreuses observations, on pourrait regrouper les hivers de
tempratures voisines et calculer pour ces hivers la corrlation Consommation-Dcs et
refaire ce calcul pour diffrentes tempratures.

Malheureusement, on ne possde qu'un nombre assez restreint d'observations.

L'ide est alors la suivante:

But: Chercher l'influence de X
2
sur X
1
, compte tenu de X
3

Exemple:

X
1
(i)

= Dcs de l'hiver i
X
2
(i) = Chauffage de l'hiver i
X
3
(i) = Temprature de l'hiver i

Mthode:

1) Retirons de X
2
l'influence de X
3
. Autrement dit, on va crire qu'une partie de X
2
,
X
'
2
celle qui nous intresse n'est pas explique (au sens de la corrlation) par X
3
:

X
2
= a X
3
+ b + X'
2

Nous venons tout simplement d'crire l'quation de rgression de X
3
en X
2
.
X'
2
partie de X
2
non explique par X
3
est donc le rsidu de la rgression de X
3
en X
2.
X
2

=
2,3

2) Faisons le mme travail pour X
1

La partie de X
1
non explique par X
3
est donc le rsidu de la rgression de X
3
en X
1
.
Soit
1,3

3) La relation entre X
1
et X
2
compte tenu de X
3
est la relation entre la partie de X
1

non explique par X
3
, soit
1,3
et la partie de X
2
non explique par X
3
soit
2,3
. C'est ce que
nous cherchons.

Nous calculerons donc la corrlation entre le rsidu de X
1
par X
3
et le rsidu de X
2

par X
3
et donnerons ce coefficient le nom de corrlation partielle de X
1
avec X
2
, compte
tenu de X
3
.

Dans le cas prcdent, on aboutit une corrlation partielle entre les dcs et le
chauffage, compte tenu de la temprature ; elle est ngative (plus on chauffe, moins il y a de
dcs temprature donne) alors que la corrlation totale Dcs-Chauffage tait positive
(plus on chauffe, plus il y a de morts.

La corrlation partielle est donc un outil trs puissant:

+ pour le physicien (sens rel des relations entre 2 variables compte tenu des autres)

+ pour le choix des variables explicatives ( une variable explicative ayant une
corrlation partielle faible avec la variable expliquer compte tenu des autres variables
explicatives est de peu d'intrt dans le schma, mme si la corrlation totale entre ces 2
variables est forte).

III-2) Calcul du coefficient de corrlation partielle R
1j,2p

Cherchons la corrlation partielle entre x
1
et x
j
compte tenu des variables x
2
,
x
3
......,x
p , (sauf xj videmment)
:

+ Calcul du rsidu de x
1
par x
2
, x
3
......,x
p
(sauf x
j
):

=
+ =
+
=
=
+
=
p k
j k
k p j j k
j k
k
k p j j k j sauf p
i x i x i x
1
,... 1 , 1 ..., 2 , 1
1
2
,... 1 , 1 ..., 2 , 1 1 .. 2 , 1
) ( ) ( ) (
o les
1k,
sont les coefficients de rgression de x
1
avec x
k
pour le paquet des p-2 variables
x
2
,.......,x
j-1
, x
j+1
,.......,x
p
, coefficients diffrents de ceux davec le paquet total des variables
explicatives x
2
x
p
.

+ Rsidu de x
j
par x
2
, x
3
,......, x
j-1
, x
j+1
,.......,x
p
:

=
+ =
+
=
=
+
=
p k
j k
k p j j jk
j k
k
k p j j jk j j sauf p j
i x i x i x
1
,... 1 , 1 ..., 2 ,
1
2
,... 1 , 1 ..., 2 , .. 2 ,
) ( ) ( ) (

+ Rgression entre ces 2 rsidus:

1, 2..p sauf j
(i)

= b
j ,2..p sauf j
(i) +
1j ,2..p sauf j
(i) ( 3 )
o le dernier terme est le rsidu de la corrlation entre le rsidu de x
1
par x
2
,.......x
p
sauf x
j
et
le rsidu de x
j
par x
2
,.......x
p
sauf x
j
.
De la mme faon, on pourrait crire en intervertissant 1 et j:
j, 2..p sauf j
(i)

= b

1 ,2..p sauf j
(i) +
j1 ,2..p sauf j
(i)
quation de l'autre droite de rgression. Nous avons vu que le produit des 2 termes
multiplicatifs des 2 quations de rgression est gal au carr du coefficient de corrlation, qui
est le coefficient dont nous cherchons la valeur.
Ce calcul ainsi prsent serait laborieux; aussi allons nous nous ramener des calculs
dj effectus.
(3) s'crit galement:
1j, 2..p sauf j

(i)

=
1 ,2..p sauf j
(i) -b
j ,2..p sauf j
(i)
Multiplions les 2 membres par x
m
(i) et faisons en la somme de i =1 n
) ( ) ( ) ( ) ( ) ( ) (
) ( ... 2 ,
1 1 1
) ( ... 2 , 1 ) ( ... 2 , 1
i i x b i i x i i x
j sauf p j m
n
i
n
i
n
i
j sauf p m j sauf p j m

= = =
= ( 4 )
si m est diffrent de 1 ou m diffrent de j, x
m
est une variable explicative de chacune des
corrlations ayant dfini les rsidus; or nous avons vu qu'une variable explicative n'est pas
corrle avec le rsidu :
0 ) ( ) (
1 1
... 2 , ... 2 , 1
= =

= =
n
i
n
i
p j m p m
i x i x
Donc, si m est diffrent de 1 ou de j:
=
=
n
i
j m
i x
1
,... 1
0 ) (
Or (4) s'crit:

= = =
=
(
(
|
|
.
|
\
|

n
i
j sauf p
k
j sauf p
k
k j sauf p jk j k j sauf p k m
i x i x b i x i x i x
1 2 2
.. 2 , ... 2 , 1 1
0 ) ( ) ( ) ( ) ( ) (

On retrouve le systme des p-1 quations du calcul des coefficients de rgression de
x
1
avec toutes les variables explicatives. b est donc le coefficient de rgression de x
1
avec x
j

compte tenu du lot x
2
x
p
des variables explicatives. Donc:
11
1
j
b =
On pourrait faire de mme pour calculer b
'
:
jj
j
b
1
'
=
Or R
2
1j,2...........p sauf j est gal bb
'

D'o:
le coefficient de corrlation partielle entre x
1
et x
j
, compte tenu de x
2
,
x
3
,......x
j-1
,
x
j+1
,........,x
p
a pour valeur :

jj 1 1
2
1j
2
j) auf 1j,2...p(s

R =

On montre que le signe de R
1j,2.....p
est le signe du coefficient de rgression de x
1

avec x
j
compte tenu de x
2
,........x
p
, soit le signe de :
1 1
1
j

V-IV Estimations sans biais

Tout ce que nous avons vu est strictement exact sur l'chantillon, mais ce qui nous
intresse souvent, c'est d'estimer au mieux, partir d'un chantillon, les valeurs dans la
population. Comme pour la corrlation simple, on montre que le coefficient de corrlation
multiple et les coefficients de corrlation partielle prcdemment dfinies sont biaiss; ils
surestiment (en esprance mathmatique) les valeurs dans la population. En effet, ils
sajustent au mieux et notamment prennent comme moyennes des variables les moyennes au
sein de lchantillon et non les moyennes de la population (souvent inconnues) ; or si on se
rappelle le thorme de Huyghens, le moment dordre 2 par rapport un axe est minimum
quand cet axe passe par le centre de gravit. Or, cest ce que lon fait en calculant les
variances, notamment.

Aussi est il honnte de calculer les coefficients dbiaiss, c'est dire des coefficients
qui, en moyenne, sont plus proches de ceux de la population.

IV-1) -Coefficient de corrlation multiple dbiais:

Si n est le nombre d'observations supposes indpendantes et p le nombre total de
variables (y compris la variable expliquer), la valeur R
*
1,2.....p
du coefficient de corrlation
multiple dbiais est la suivante :

R
1,2..... p
*
=
n - 1 ( )R
1,2... p
2
- p- 1 ( )
n - p

Exemples :

Valeurs du coefficient de corrlation multiple dbiais en fonction de la valeur du coefficient
et du nombre d'observations et de variables.

n=20 n=40 n=80

R
*
R
*
R
*

R=.8 p=5 .74 .77 .79
R=.8 p=10 .56 .73 .77
R=.8 p=15 - .66 .75

R=.95 p=5 .936 .944 .947
R=.95 p=10 .90 .934 .943
R=.95 p=15 .79 .921 .939

Conseils:

* viter d'avoir un nombre de variables explicatives suprieur la moiti du nombre
d'observations.

* vrifier toujours si le rsultat est donn en valeurs biaises ou dbiaises, surtout si
le nombre d'observations n'est pas trs grand vis vis du nombre de variables.

En effet, une mauvaise tendance naturelle est d'accrotre le nombre de variables
explicatives pour augmenter la corrlation.

IV-2) Fluctuations d'chantillonnage

Le problme est le suivant: on suppose que l'chantillon est tir d'une certaine
population, si on extrait de cette population plusieurs chantillons, les rsultats de corrlation
(R, les coeff. de rgression...) vont tre diffrents d'un chantillon l'autre. Il est intressant
de connatre comment peuvent fluctuer ces diffrents coefficients.

Nous n'examinerons que le cas d'observations indpendantes et de variables normales.

+ Coefficient de corrlation multiple:

On montre que, avec les notations prcdentes:

F
R
R
p
p n
p
p
=

2
.. 2 , 1
2
... 2 , 1
1
*
1

F suit une loi de Fisher Snedecor 2 paramtres de valeurs respectives p-1 et n-1.
Cela est utile pour tester si la valeur R est significativement diffrente de zro.

Exemples:

1) n=20 p=10 R=.6 (valeur biaise)

On trouve F=.625 . F suit une loi de Fisher Snedecor avec 19 et 10 degrs de libert
(qui sont les 2 paramtres de la loi de Fisher). Or dans une table de cette loi, on trouve que la
probabilit de dpasser une telle valeur est de 82%; autrement dit si l'chantillon avait t tir
d'une population sans corrlation, on aurait eu 82% de chance de tirer une valeur au moins
aussi forte. La corrlation obtenue est donc probablement due au hasard.

2) n=20 p=10 R=.8 (valeur biaise)

On trouve cette fois F=1.97 qui n'a que 13% de chance d'tre dpass; il y a donc de
fortes chances que la corrlation obtenue sur l'chantillon ne soit pas le simple fait du hasard.

+ Fluctuation du coefficient de corrlation partielle:

On montre que:
t =
R
1j,2.... p
1- R
1j,2.... p
2
n - p

suit une loi de Student n-p degrs de libert (seul paramtre de la loi de Student). Ceci
permet de tester l'intrt d'une variable explicative, compte tenu des autres: si la valeur de ce
terme est faible, la variable n'a pas d'intrt, toujours compte tenu des autres. On lira donc
dans une table de Student la probabilit d'tre plus grand.

+ fluctuations des coefficients de rgression:

Variance:

Considrons une population o l'quation de rgression s'crit (en variables centres
rduites):

p p p p
x x x
... 2 , 1 2 ... 2 , 12 1
..... + + =
)

Si on tire plusieurs chantillons de taille n et que l'on effectue sur chaque chantillon un
calcul de corrlation multiple, on va trouver des rsultats diffrents:

Echantillon 1:

p p p p
x x x
1
... 3 , 1 2
1
... 3 , 12
1
1
.... + + =
)

Echantillon k:
p
k
p p
k
p
k
x x x
... 3 , 1 2 ... 3 , 12 1
.... + + =
)

Les coefficients de rgression ne seront pas gaux d'un chantillon l'autre. Il est intressant
de savoir comment ils peuvent fluctuer (sous certaines hypothses). On montre que:

Variance de
1j,2p
=
p n R
R
p j
p j
p j
1
*
1
2
... 2 , 1
2
... 2 , 1 2
.. 2 , 1

C'est dire que le coefficient de rgression de la variable x
j
(compte tenu des autres) est
d'autant plus stable:

- que la corrlation partielle de x
1
avec celle ci, compte tenu des autres est forte
-que la taille de l'chantillon est grande par rapport au nombre de variables
explicatives.

Cas limite (frquent en Hydrologie):

Si on prend 2 variables explicatives bien corrles, la corrlation partielle de x
1
avec
l'une d'elles, compte tenu des autres est faible, mme si elle est bien corrle (au sens de la
corrlation totale) avec la variable expliquer. Son coefficient de rgression est donc fort
instable et on peut mme aboutir des changements de signe d'un chantillon l'autre (ce qui
physiquement peut paratre curieux. En fait, il n'y a cohrence que sur l'ensemble des
coefficients de rgression.

Si par exemple, on cherche la corrlation des cumuls annuels de pluie mesurs sur le
toit de lENSHMG avec comme variables explicatives les donnes de METEO France Saint
Martin dHres et les donnes du pluviographe du CEA, on pourra trouver la limite une
relation du type :
Cumul ENSHMG=1.2*Mto France - .15 CEA +10 (mm). Ne pas en conclure que plus il
pleut au CEA, moins il pleut ENSHMG

Covariance des coefficients de rgression:

Les coefficients de rgression ne sont pas indpendants entre eux, il est possible de
calculer les covariances (ce qui sort du cadre de ce manuel d'initiation).

V-V) Cas de 2 Variables explicatives:

C'est le cas le plus simple que l'on peut rsoudre facilement avec une calculette.
Soit r
1.2
, r
1.3
, r
2.3
les 3 coefficients de corrlation totale.
On montre que:

le coefficient de corrlation multiple (biais) de X
1
avec X
2
et X
3
a pour expression:

2
3 2
3 2 2 1 3 1
2
3 1
2
2 1 2
23 , 1
1
2
r
r r r r r
R
+
=

On voit sur cet exemple que R est d'autant plus fort que la corrlation entre variables
explicatives est faible ( r
1.2
et r
1.3
constants).

Corrlation partielle entre X
1
et X
2
compte tenu de X
3
:
) 1 )( 1 (
2
3 1
2
3 2
3 2 3 1 2 1
3 , 2 1
r r
r r r
R

=

Corrlation partielle entre X
1
et X
3
compte tenu de X
2 :
) 1 )( 1 (
2
2 1
2
3 2
3 2 2 1 3 1
3 , 2 1
r r
r r r
R

=

On remarquera que la valeur, comme le signe de R
1.2,3
n'ont rien voir avec la valeur et le
signe de r
1.2
. Par exemple:

Avec pour les 3 cas : r
1 2
= .9 r
2 3
= .9
Cas 1: r
1 2 = .7
R
1 2,3
= -.58
Cas 2: r
1 2
= .8 R
1 2,3
= -.05
Cas 3: r
1 2
= .9 R
1 2,3
= .47

Coefficients de rgression en variables centres rduites:

2
3 2
3 2 3 1 2 1
3 , 2 1
1 r
r r r
=

2
3 2
3 2 2 1 3 1
2 , 3 1
1 r
r r r
=

V-VI) RAPPELS IMPORTANTS SUR LES NOTATIONS ET ANALOGIE
AVEC LES DERIVEES PARTIELLES ET TOTALES :

r
jk
est le coefficient de corrlation totale entre X
j
et X
k

R
1,2p
est le coefficient de corrlation multiple de X
1
expliqu par X
2
, , X
p
R
1 2,3.p
est le coefficient de corrlation partielle entre X
1
et X
2
, compte tenu de X
3
,, X
p

b
1 2
2
pour expliquer X
1
sans tenir compte dautres
variables
b
1 2,,3p
2
pour expliquer X
1
en tenant compte de X
3
,,
X
p

Notez bien la place de la virgule dans les listes dindices.

Les termes totale et partielle correspondent tout fait au sens que lon donne entre les
diffrentielles totales et drives partielles en Mathmatiques.

V-VII) DIVERS ALGORITHMES INTERESSANTS :

VII-1) Slection de variables explicatives

Bien souvent, on a le choix entre de nombreuses variables explicatives plus ou moins
corrles. Par exemple, si lon cherche expliquer la fusion nivale journalire dun petit
bassin en priode de fonte, on pourra, de manire physique, dire quelle dpend de la
temprature moyenne journalire mais aussi de la temprature max et de la temprature min,
et de linsolation et de la nbulosit et du rayonnement et du vent etc.. Ces variables sont plus
ou moins lis.
Une mthode classique, qui sera dveloppe en cours est la slection progressive
ascendante pas pas(il en existe dautres) :
On va procder pas pas :
Pas 1 : On prend parmi les variables explicatives possibles la plus utile au sens de la
corrlation, cest simple, cest celle qui a le plus grand coefficient de corrlation totale avec la
variable expliquer.
Pas 2 : On cherche alors, parmi les variables explicatives restantes, la plus utile : cest celle
qui a le plus grand coefficient de corrlation partielle avec la variable expliquer compte tenu
de la premire variable explicative retenue On calcule le coefficient de corrlation multiple
dbiais et on teste si le coefficient de corrlation partielle est significatif ( laide de la
variable de Student prcdemment dcrite). On la garde si cela en vaut la peine et on
continue.

Pas k : On a retenu k-1 variables explicatives significativement intressantes et on cherche
alors parmi les variables explicatives non encore retenues, celle qui le plus grand coefficient
de corrlation partielle avec la variable expliquer, compte tenu des variables explicatives
dj retenues. On teste si cela vaut la peine de lajouter en testant ce coefficient.

Arrt : on sarrte quand lajout dune variable namliore rien et mme fait baisser le
coefficient de corrlation multiple dbiais.

Pige : Le test que lon fait nest pas trs adroit car on teste si la variable ajouter vaut la
peine, sans tenir compte du nombre de variables que lon pouvait ajouter. Nous navons pas
trouv de test rsolvant ce problme. Pour donner une image : un inspecteur veut connatre
rapidement le niveau dune classe en Gographie, il peut prendre au hasard un lve et lui
poser une question, mais souvent il demande lenseignant de lui dsigner un lve au hasard
pour lui poser la question. Lenseignant va videmment dsigner le meilleur lve en
Gographie. Le rsultat ne sera pas forcment le mme !.

Conseils : Ne conserver que des variables vraiment utiles afin davoir un modle simple et
robuste.

VII-2) Validations

Par un chantillon mis en rserve :
Si lon possde un assez grand nombre dobservations, il est prudent de caler le
modle sur une partie de lchantillon et de valider le modle sur une autre partie de
lchantillon nayant pas servi caler le modle (cest videmment plus mchant mais
raliste).

Par la mthode des rsidus supprims ou Validation croise(logiciel STATISTICA) :
On prend un chantillon de taille n et on enlve la premire observation ; on cale le modle
sur les n-1 observations restantes et on lapplique la premire observation qui na pas servi
au calage.
On refait cela pour chacune de n observations et finalement on a n rsidus, certes calculs
avec n modles diffrents mais voisins.
Cette procdure est remarquable pour dtecter des observations bizarres et elle donne bien
ce que lon obtient en oprationnel. En outre, elle est trs rapide.

Pour conclure :

La mthode de corrlation linaire multiple est une mthode rapide, honnte et fiable. Mais,
rappelons qil faut dabord rflchir ( partir de la connaissance des phnomnes):
- sur la forme de la liaison
En effet, il ne faut pas demble prendre la forme linaire, quitte faire des
transformations de variables pour proposer une forme linaire sur les transformes. Par
exemple, si on cherche expliquer un volume de crue par la pluie, la dure de la pluie, le
dbit de base avant la crue, il est vident quun modle linaire est maladroit ; mieux vaut
prendre un modle multiplicatif Puissance qui correspond mieux aux lois de lhydrologie.
- sur le choix et le nombre de variables explicatives :
Mme en utilisant des logiciels performants, ne conserver que peu de variables
explicatives mais utiles et ayant un sens. Pour donner un exemple, si on cherche voir sil y a
une liaison entre les paramtres statistiques des pluies extrmes et le relief, on aboutit vite
plus de cent variables explicatives possibles ; par le fait du hasard la corrlation multiple non
dbiaise va tre bonne. Do lintrt de rester prudent en nen prenant que peu mais
vraiment utiles et en faisant de la validation.
V-VIII) EXEMPLE COMPLET :

Exemple : Prvision de crues

A) Objectifs :

A-1) Hydrologique :
Etude des relations Pluie Dbit de crues dun petit bassin versant soumis de fortes pluies

A-2) Mthodologique :
Utilisation de la corrlation multiple

B) Documents :

Source des donnes : EdF. On dispose de 26 pisodes de crues dune rivire des Cvennes (Sud de la
France) ainsi que des donnes correspondantes de pluies horaires dune station bien reprsentative du
bassin. Dans cette rgion, les pluies peuvent tre trs fortes en quelques heures et les crues sont quasiment
immdiates.

Crue N Pluie Dure Qbase Point IMX TRETA VOL24
1 163 12 0 138 48 7 5.2
2 61 14 28 120 10 10 6.3
3 26 4 13 60 5 2 3.1
4 43 6 15 70 11 3 4.4
5 124 18 47 520 21 10 24.6
6 51 9 9 85 13 4 3.5
7 36 17 17 75 6 6 5.0
8 76 14 60 650 21 13 27.0
9 47 8 210 970 24 2 28.9
10 47 7 135 315 13 5 18.9
11 41 6 35 115 7 4 7.2
12 68 10 1 65 8 5 1.9
13 87 7 10 435 33 6 13.2
14 39 30 8 108 5 18 3.5
15 79 31 14 275 12 26 11.3
16 54 10 100 275 12 6 14.3
17 54 21 13 110 7 14 5.4
18 90 24 10 165 10 14 7.9
19 24 9 69 118 8 1 8.7
20 39 13 69 245 7 12 12.8
21 131 8 5 1600 70 6 30.5
22 64 18 3 45 9 10 2.5
23 27 8 35 105 8 5 5.6
24 101 19 30 560 35 3 22.1
25 151 27 70 540 14 19 28.9
26 52 13 14 100 9 4 6.2

en mm en heures en m3/s en m3/s en mm en heures en hm3

C) Description du problme :

On se propose dtablir deux modles de prvision des crues (lun pour les
volumes, lautre pour les dbits de pointe). Une bonne mthode consiste voir,
dans une premire tape, si les variables mesures permettent dexpliquer, au
sens statistique la variable expliquer. Si ce nest pas le cas, inutile dessayer
dtablir un modle de prvision qui lui, nutilisera que les variables connues au
moment de la prvision et des variables plus ou moins bien prvues. Nous nous
intresserons cette premire tape.

Pour chaque pisode on connat :

- le numro de la crue
- Pluie : la pluie totale de lpisode en mm
- Dure : la dure de la pluie en heures
- Qbase : le dbit en m3/s de la rivire avant la pluie (donne une ide de la saturation du bassin
- Point : le dbit de pointe en m
3
/s
- IMAX : la pluie maximale horaire de lpisode en mm
- TRETA : le temps en heures sparant le dbut de la pluie de la pluie horaire la plus forte (indique si la
pluie la plus forte est tombe au dbut ou la fin, important en hydrologie).
- VOL24 : le volume en 24 heures de la crue en hm
3

Note : le graphique joint explicite les variables

C-1) Construction des modles :

En utilisant un logiciel de corrlation multiple linaire slection de variables, proposer un schma
dexplication de la pointe et un autre du volume partir des variables explicatives fournies. Ce schma devra
tre directement utilisable avec une simple calculette et fournir :

- la valeur la plus probable (en m3/s ou en hm3, selon le modle)

- lintervalle de confiance 80% de la variable expliquer, ou mieux, les valeurs de probabilit au non-
dpassementt de 10% et 90%, ceci, en valeurs brutes.

C-2) Applications

Appliquer vos modles deux cas bien diffrents, en donnant pour chaque rponse la valeur la plus
probable et son intervalle de confiance 80%, cest dire la valeur qui a 10% de chances de ne pas tre
dpasse et celle qui a 10% de chances dtre dpasse, ceci en valeurs brutes :

C-2-a) Pluie moyenne sur sol assez satur :

Pluie=90 mm
Dure=8heures
Qbase= 10 m3/s
IMAX= 25 mm/h
TRETA= 5 heures

C-2-b) Pluie totale forte mais sur sol assez sec :

Pluie=160 mm
Dure=13 heures
Qbase= .2 m3/s
IMAX=40 mm/h
TRETA= 8 heures

Avant de faire des calculs savants, essayer destimer lil les rsultats.

Quelques conseils :

- Changement de variables : les logiciels simples ne traitent que des cas linaires, aussi est-il peut tre
judicieux de travailler plutt sur des variables transformes que sur les variables brutes pour construire
un modle plus raliste dun point de vue hydrologique.

- Ne conserver que quelques variables explicatives, les plus intressantes (cela se verra avec les
coefficients de corrlation partielle ou avec des tests sur les valeurs des variables de Student des
variables explicatives).

- Coupez lchantillon en deux parties et refaire les calculs. Il est possible que vous aboutissiez des
schmas diffrents. Est ce grave et pourquoi des variables explicatives parfois diffrentes ? .

- Utiliser la mthode de validation croise pour voir ce que vous donnerait un schma appliqu des
observations nayant pas servi au calage.

- Vrifier que les rsidus du modle sur les variables transformes sont peu prs gaussiens pour pouvoir
calculer un intervalle de confiance.

Corrlation Multiple Exemple : Prvision de crues
Correction rapide :

C-1) Construction des modles :

a) Transformation des variables :

Il est vident quun modle linaire du type POINT (ou VOL24) = Somme pondre des variables
explicatives na pas de grande valeur hydrologique ; par contre, on peut penser que le volume, comme la
pointe sont peu prs fonction de produits des mmes variables explicatives, leves une certaine
puissance. Ceci dans une premire approche, car, par exemple, pour la pluie on pourrait penser que cest
une fonction de la pluie diminue dune certaine quantit. Quant au dbit de base, on peut penser quil
donne une ide de ltat de saturation du bassin et quainsi, il peut intervenir comme un facteur multiplicatif
sil est lev une certaine puissance.

Aussi va t on travailler sur les logarithmes npriens des variables pour pouvoir utiliser un modle
simple de corrlation multiple linaire. Ce qui explique que par la suite les noms des variables
commenceront par un L, car il sagit des Logarithmes Npriens des donnes brutes. On reviendra la fin
sur un modle multiplicatif puissance o les coefficients de rgression du modle logarithmique sont les
exposants des variables correspondantes.

Tous les calculs suivants seront donc effectus sur les Log des variables.

b) Modle explicatif du volume en 24 h :

On a tout dabord effectu le calcul sans slection de variables, avec comme variables explicatives :

LPLUI
LDUREE
LQB
LIMAX
LTRET

Et comme variable expliquer : LVOL

On obtient de bons rsultats (un coefficient de dtermination lev), mais certaines variables
explicatives ont un coefficient de corrlation partielle, compte tenu des autres variables explicatives, non
significatif. En effet, certaines variables explicatives sont corrles et il serait inutile et maladroit de les
conserver toutes.

Aussi, a-t-on refait le mme calcul mais en choisissant une procdure de slection ascendante ; cest
dire qu chaque pas de calcul on ajoute une variable explicative et on sarrte lorsquil ny a plus de
variable explicative intressante, compte tenu de celles dj retenues. Le test est effectu sur la variable de
Student qui teste lhypothse nulle, savoir quelle est la probabilit dobtenir un coefficient de corrlation
partielle au moins aussi fort avec une variable qui naurait rien voir avec le problme. En gnral, on
prend un seuil de lordre de 5%.

Sur les 26 observations (cf. Tableau 1), on obtient :

TABLEAU 1 :Synthse Rgression de la Var. Dpendante :LVOL (pcru.sta)
R= .961 R= .924 R Ajust= .914
F(3,22)=89.258 p<.00000 Err-Type de l'Estim.: .24393
Err-Type Err-Type
BETA de BETA B de B t(22) niveau p
OrdOrig. -2.79428 .492778 -5.67048 .000011
LQB .801467 .063508 .43401 .034391 12.61995 .000000
LIMAX .441376 .089402 .51683 .104685 4.93700 .000061
LPLU .373953 .094119 .58842 .148097 3.97318 .000644

Note : les B sont les coefficients de rgression, les BETA sont les coefficients de rgression en variables
centres rduites, Err-Type sont les cart types destimation. Le F est la variable de Fischer Snedecor
calcule partir du coefficient de dtermination ; la loi de probabilit de F a deux paramtres fonction du
nombre de variables du modle et de la taille de lchantillon. Il est ici trs lev. Le t() est la variable de
Student, calcule partir de la corrlation partielle et du nombre dobservations ; le niveau p est la
probabilit davoir un meilleur coefficient de corrlation partielle (qui napparat pas sur ce tableau) pour
une variable indpendante. Ici toutes les variables retenues sont hautement significatives.

LVOL=-2.79+0.43401*LQB+0.51683*LIMAX+.58842*LPLU
En Log Npriens sur les units pralablement dfinies.
Le coefficient de dtermination non biais (cest dire celui qui tient compte du nombre de variables
retenues et de la taille de lchantillon) est le suivant :
R
2
= .914 , ce qui est trs bon
Lcart type rsiduel est de 0.244 (toujours en Log)

Tableau 2 : Valeurs Prvues & Rsidus (pcru.sta)
Var. Dpendante : LVOL
Valeur Valeur Standard Standard Err.Type Mahalns. Rsidus Cook
Observe Prvue Rsidus Val.Prv Rsidus Val.Prv Distance Supprim. Distance
1 1.6487 1.6021 .04660 -.70 .19 .1631 10.216 .0843 .013
2 1.8405 2.2609 -.42033 .13 -1.72 .0573 .420 -.4449 .046
3 1.1314 1.0134 .11800 -1.43 .48 .0987 3.133 .1411 .014
4 1.4816 1.8335 -.35189 -.41 -1.44 .0642 .771 -.3781 .042
5 3.2027 3.2866 -.08381 1.41 -.34 .1055 3.715 -.1031 .008
6 1.2528 1.8142 -.56143 -.43 -2.30 .0650 .814 -.6043 .109
7 1.6094 1.4250 .18441 -.92 .76 .0747 1.383 .2035 .016
8 3.2958 3.0920 .20381 1.17 .84 .0746 1.374 .2248 .020
9 3.3638 3.4344 -.07058 1.60 -.29 .1223 5.325 -.0943 .009
10 2.9392 2.9258 .01337 .96 .05 .0825 1.896 .0151 .000
11 1.9741 1.9092 .06489 -.31 .27 .0661 .875 .0700 .002
12 .6419 .5887 .05314 -1.97 .22 .1239 5.483 .0716 .006
13 2.5802 2.6191 -.03890 .58 -.16 .0881 2.300 -.0447 .001
14 1.2528 1.0738 .17896 -1.36 .73 .0895 2.402 .2068 .024
15 2.4248 2.2064 .21838 .06 .90 .0634 .727 .2342 .016
16 2.6603 2.8359 -.17560 .85 -.72 .0735 1.309 -.1931 .014
17 1.6864 1.6548 .03160 -.63 .13 .0686 1.016 .0343 .000
18 2.0669 2.0341 .03276 -.16 .13 .0885 2.331 .0377 .001
19 2.1633 1.9881 .17523 -.21 .72 .1087 4.000 .2186 .040
20 2.5494 2.1744 .37509 .02 1.54 .0744 1.366 .4136 .067
21 3.4177 2.9686 .44910 1.02 1.84 .1358 6.787 .6508 .552
22 .9163 1.1861 -.26985 -1.22 -1.11 .0850 2.076 -.3072 .048
23 1.7228 1.7628 -.04005 -.49 -.16 .0955 2.871 -.0473 .001
24 3.0956 3.2394 -.14383 1.35 -.59 .0909 2.510 -.1670 .016
25 3.3638 3.3658 -.00196 1.51 -.01 .1590 9.658 -.0034 .000
26 1.8245 1.8117 .01289 -.43 .05 .0535 .243 .0135 .000
Min. .6419 .5887 -.56143 -1.97 -2.30 .0535 .243 -.6043 .000
Max. 3.4177 3.4344 .44910 1.60 1.84 .1631 10.216 .6508 .552
Moy 2.1580 2.1580 .00000 .00 .00 .0912 2.885 .0089 .041
Md 2.0205 2.0111 .02249 -.18 .09 .0866 2.188 .0247 .014

- Si on regarde le tableau 2, qui donne les rsultats, observation par observation, on note (distance de
Cook) que lobservation 21 est un peu loigne du nuage de points (cest celle qui correspond la crue
de 1600 m3/s).

- Un rsidu est un peu fort (-2.3 en rsidu norm) pour lobservation 6

- un rsidu supprim , cest dire un rsidu dune observation laquelle on applique non pas le
modle cal sur lensemble des observations, mais le modle cal sur toutes les observations sauf celle
laquelle on sintresse est un peu fort ; il sagit encore de lobservation 21 de la crue de 1600 m3/s.

Il y aurait lieu de vrifier que ces donnes sont bonnes.

Sur des demi-chantillons :

Les calculs ont t repris en coupant en deux parties lchantillon de dpart
(observations 1 13 et observations 14 26, cf. tableaux 3 et 4). On obtient les
rsultats suivants, en ce qui concerne les quations (cste et coefficients de
rgression) :

Tableau 3 : Obs. 1-13 Synthse Rgression de la Var. Dpendante :LVOL (pcru.sta)
R= .96594970 R= .93305882 R Ajust= .91074509

Err-Type Err-Type
OrdOrig. -3.080 .971496 -3.17085 .011350
LQB .911253 .103795 .43771 .049857 8.77934 .000010
LPLU .388912 .177102 .69441 .316219 2.19598 .055705
LIMAX .338371 .162106 .43137 .206658 2.08734 .066469

Tableau 4 : Obs. 14-26 Synthse Rgression de la Var. Dpendante :LVOL (pcru.sta)
R= .97076230 R= .94237944 R Ajust= .92317258

Err-Type Err-Type
OrdOrig. -1.971 .397409 -4.96037 .000780
LIMAX .896089 .083911 .95338 .089275 10.67907 .000002
LQB .670608 .085901 .45426 .058188 7.80679 .000027
LTRET .299166 .087136 .25658 .074732 3.43331 .007469

Soit en rsum :

Echantillon : cste LIMAX LQB LPLU TRETA R
2
dbiais

Obs. 1-13 -3.08 .431 .438 .694 0 .911
Obs. 14-26 -1.97 .953 .454 0 .256 .923
Obs. 1-26(rappel) -2.79 .517 .434 .589 0 .914

On observe que les modles diffrent. Rappelons ainsi que les coefficients de rgression dpendent
videmment de la variable quils pondrent mais aussi des variables explicatives retenues. Seul le
coefficient de rgression de LQB, compte tenu des autres est assez stable ; en effet, cette variable est peu
corrle (elle ne lest que pour des raisons dchantillonnage) avec les autres variables explicatives. Quant
aux rsidus, on peut vrifier quils sont assez bien gaussiens, (cf. figure 1). Le trac de la figure 1 est en fait
un papier de Gauss sur lequel une loi de Gauss est reprsente par une droite, ce qui est presque le cas.

Il faut aussi vrifier que les rsidus ne sont pas fonction de la variable expliquer, ce qui est peu prs
le cas (cf. figure 2) :

c) Modle explicatif de la pointe :

Ce sont videmment les mmes variables explicatives avec le mme changement de variables (Log
Nprien).

Modle global (toutes observations) :

Dans les tableaux 5 et 6 apparaissent les rsultats les plus intressants. On note :

- lobservation 21 (celle de la crue de 1600 m3/s) est toujours assez loigne du nuage de points.
-
- Un rsidu supprim un peu fort (celui correspondant la mme observation 21
Figure 1: Trac Normal des Rsidus sur l'ensemble des observations
Rsidus
V
a
l
.

N
o
r
m
a
l
e

T
h
o
r
i
q
.
-2.5
-1.5
-0.5
0.5
1.5
2.5
-0.8 -0.6 -0.4 -0.2 0.0 0.2 0.4 0.6
Rgression
IC 95%
Figure 2 : Valeurs Observes vs. Rsidus
Var. Dpendante : LVOL
Val. Observes
R
s
i
d
u
s
-0.8
-0.6
-0.4
-0.2
0.0
0.2
0.4
0.6
0.4 1.0 1.6 2.2 2.8 3.4 4.0

Modles sur sous chantillons :
Comme prcdemment, on a refait le calcul par slection ascendante de variables sur les deux sous
chantillons. Les rsultats sont les suivants (cste, coefficients de rgression et coefficient de dtermination
non biais) :

Cste LIMAX LQB LTRET LPLU R
2

Obs. 1-26 ..947 1.093 . 3492 2943 0 .849
Obs. 1-13 0.00813 .7451 .384 0 . 533 .838
Obs. 14-26 .3223 1.263 .374 .384 0 .876

Comme prcdemment, certaines variables explicatives sont diffrentes ; en effet, certaines sont
corrles entre elles. On constate que le coefficient de rgression de LQB est peu prs constant, du fait que
cest une variable explicative thoriquement non corrle avec les autres variables explicatives.

Rsum des rsultats :

- sur les volumes :

Si lon veut donner lintervalle de confiance 80%, il faut tout dabord examiner la fonction
de rpartition des rsidus ; ici, on trouve que les rsidus sur les Log sont peu prs gaussiens, si bien
quil faut ajouter ou retrancher de la valeur estime sur les Log 1.28
.
Soit : valeur la plus probable en Log : LVOL=Cste+a
j
X
j

Valeur 10% au non dpassement = Cste+a
j
X
j
-1.28

Valeur 90% au non dpassement = Cste+a
j
X
j
+1.28

Si on revient en valeurs brutes : VOL=e
cste*
Produit des X
i
a
i
, valeur la plus probable
En posant k= e
cste
et k=e
1.28
Valeur 10% =kVOL et Valeur 90% = (1/k)VOL

Numriquement :
e
cste
=e
-2.79428
=0.061159 et e
1.28
=1.37

Soit VOL=0.06159QB
0.434
IMX
0.517
PLU
0.588
(en units dfinies au dbut)

Et valeur 10% au non dpassement = 1.37*VOL

Valeur 90% au non dpassement = (1/1.37)*VOL

- sur la pointe :

Mme raisonnement : on trouve :
Valeur la plus probable : POINTE=2.578IMX
1.093
QB
0.3492
TRET
0.294
(en units dfinies au dbut)
Et valeur 10% au non dpassement = 1.60*POINTE
Valeur 90% au non dpassement = (1/1.60)*POINTE

Interprtation physique des modles :

Elle est simple pour QB, dbit de base qui donne une ide de ltat de saturation du bassin ; en effet, si
le dbit de base avant la crue est assez fort, cest quil a plu auparavant. On saperoit que lintensit maximale
intervient dans les deux modles mais que pour la pointe cest plus la forme du hytogramme que le total de la
pluie qui intervient. Enfin, on constate que le volume est mieux expliqu que la pointe.

Amlioration possible :

On pourrait essayer par ttonnements de travailler en retirant de la pluie et de lintensit maximale une
certaine quantit.

Rsultats numriques :

Cas 1 Cas 2
PLUI (mm) 90 160
Dure (heures) 8 13
Qbase (en m3/s) 10 .2
IMX (en mm) 25 40
TRETA (en heures) 5 8

Valeur 10% Valeur la plus probable Valeur 90%
VOL (hm
3
) :
Cas 1 : 9 12 17
Cas 2 : 3.2 4 5.6
POINTE (m3/s) :
Cas 1 : 194 311 497
Cas 2 : 95 152 243

Le cas 1 est assez proche de la crue N 13 et le cas 2 de la crue N 1

Rsultats donns par le logiciel STATITCF la disposition des lves

Fichiers de donnes dentre : CRUREA (valeurs brutes) et LCRU (donnes en Log dcimaux)

Les variables en Log sont prcdes de la lettre L

3
me
Partie: CRITIQUE DES DONNEES

CHAPITRE VI :

SOURCES DERREUR EN HYDROMETEOROLOGIE
et
TECHNIQUES ELEMENTAIRES DE DETECTION

I) - SOURCES DERREUR EN HYDROMETEOROLOGIE: 205

I-1) Erreurs dues au capteur 207
I-2) Changement des conditions d'environnement 207
I-3) Les erreurs lies aux conditions de la mesure 208
I-4) Traitements et transcriptions 208
I-5) Rcapitulation des types d'erreur 210
I-6) Votre contribution ? 211

II) - TECHNIQUES ELEMENTAIRES DE DETECTION: 213

II-1)Analyse graphique 213
II-2) Contrles de rupture (en monovariable sur la seule srie disponible) 214
II-3) Contrles de squence (en monovariable sur la seule srie disponible)
219
II-4) Complments et exemples: 221

III) CONTRLE PAR STATION TEMOIN : 224
mthodes des simples et doubles cumuls

III-1) La pratique des doubles cumuls 224
III-2) Aspects thoriques 226
III-3) Complments et exemples 228
III-4) Limites et adaptation de ces mthodes 232

CONCLUSIONS 234



3
me
Partie - CHAPITRE VI :

SOURCES DERREUR EN HYDROMETEOROLOGIE
et
TECHNIQUES ELEMENTAIRES DE DETECTION

I -) LES SOURCES DERREUR EN HYDROMETEOROLOGIE

Il serait prtentieux ici de vouloir tre exhaustif, dabord parce que les sources derreurs sont nombreuses
et dconcertantes (les erreurs les plus triviales n'tant jamais exclues!). Dautre part, elles sont souvent lies
la variable considre, laquelle possde videmment son capteur spcifique, mais aussi son propre protocole de
mesure voire de transcription. Enfin, l o longtemps la transcription a t manuelle, les systmes dacquisition
lectroniques , sur site ou par tltransmission, qui sont apparus dans les annes 1970, gnrent eux aussi des
erreurs spcifiques.

Nous nous limiterons donc aux erreurs les plus couramment rencontres dans les variables
hydromtorologiques (pluies, dbits). Nous voquerons aussi quelques variables parfois utilises en
complment (tempratures, rayonnement). Mais il est vident que les techniques prsentes pourront facilement
tre adaptes quand on tudiera par exemple :
- des niveaux pizometriques
- des chroniques de vent (qui est alors un vecteur !), etc...

Le but de ces analyses critiques est d'abord de dtecter les valeurs individuelles anormales, puis de
dcider, pour ces individus isols, si la valeur est plausible ou au contraire suspecte et risque dtre le rsultat
dune erreur.
Lautre but est de dcider si lensemble des donnes, souvent organis en une srie chronologique, est
homogne au cours du temps et peut tre trait comme tel pour le calcul de paramtres statistiques.
De mme, la question peut se poser de savoir si cette srie chronologique, mme apparemment
homogne, est cohrente avec dautres sries de variables corrles avec celle-ci.
En effet, si le principal souci est souvent davoir une srie homogne, il arrive aussi que lon cherche
dtecter de vraies htrognits afin dtayer des hypothses de changements climatiques ou de cycles .

Fig VI-1

On citera par exemple:
- changement dans le rgime des pluies au Sahel
- cycle biennal dans les pluies ou dans les niveaux des rivires (Nil)
L encore il faudra tre trs prudent et sassurer que lhtrognit dtecte nest pas seulement le
rsultat dun problme de capteur ou de changement de protocole.

I-1) Erreurs dues au CAPTEUR

Un certain nombre d'erreurs peuvent tre expliques soit par la dfaillance du capteur, soit par une
mauvaise utilisation de celui-ci. D'o la ncessit de bien connatre le fonctionnement de l'ensemble capteur -
enregistreur qui sert l'acquisition de la donne.
Le capteur peut avoir t modifi, volontairement ou non.
Par exemple :
- un pluviomtre install 1 m du sol a t mis sur un toit, ou dplac de quelques centaines de mtres.
- le capteur lui-mme a t chang: passage dun cne de rception de pluviomtre ou pluviographe de
2 000 1 000 ou 400 cm
2
.
- une chelle limnimtrique a t dmonte puis refixe, mais avec un ou deux cm dcart.
- un capteur de rayonnement na jamais t chang, mais le corps noir a vieilli (et suggre, tort, une
lgre diminution du rayonnement).
- un pizomtre, ou un limnimtre, s'est progressivement colmat
- pour les mesures de neige: il y a prsence de cnes de fusion autour des perches ou nivomtre. Au
contraire, on peut avoir un effet de gteau sur des coussins neige ou des lysimtres, qui mesurent
ou collectent alors une surface plus large que leur simple surface au sol.

On montre titre d'exemple (cf. page ci-contre), l'effet des changements d'appareils sur
l'homognit d'une chronique pluviomtrique.

I-2) Changement des CONDITIONS d'ENVIRONNEMENT

Outre des dplacements importants de capteur :
- transfert de la station mto dEybens St Martin dHres (environ 6 Km)
- transfert dune station basse un endroit plus lev (quelques 100 m en altitude)
On notera aussi les changements denvironnement autour dun capteur en place:

Construction dun btiment proximit du capteur
- plus insidieux..! : dveloppement de la vgtation proximit du capteur (rideau darbres proximit
d'un pluviomtre, broussailles dans le lit d'une rivire sous un capteur de niveau ultrasons),
changement dtat du sol (pelouse devenant parking), etc...
- travaux de recalibrage dans le lit dune rivire proximit dune station (qui elle est inchange)
- dveloppement urbain autour dune station mto (temprature, rayonnement), etc...

I-3) Erreurs lies certaines conditions de la MESURE

Ce sont les plus difficiles dtecter, car elles ne se produisent pas systmatiquement, mais dans certaines
occasions, parfois alatoires :

- dans un pluviomtre totalisateur, qui collecte la prcipitation sous forme liquide ou solide, la capacit
de collecte va dpendre de cette forme de prcipitation
(ex : 90% de la pluie, mais 50 80 % de la neige seulement, cause de la sensibilit au vent).
Or les donnes finales ne contiennent plus dinformation sur la forme de la prcipitation ou sur la
prsence / absence de vent
- les mesures de rayonnement supposent un appareil propre: or il peut tre couvert de rose, de pluie
voire de neige (et donner quand mme une mesure).
De mme pour un anmomtre qui sera couvert de givre, mais qui tournera quand mme!
- llectronique (ou la mcanique) peut avoir une rponse variable selon la temprature (cas des sondes
pizomtriques de mesure de niveaux), mais celle-ci n'est pas enregistre en parallle...

I-1) Erreurs dans les TRAITEMENTS et TRANSCRIPTIONS

Ce sont les erreurs lies aux dpouillements et aux transferts de linformation. (On ne dira jamais assez le temps
que l'on perd par exemple remettre en temps absolu les passages heure d'hiver / heure d't! )

On citera, (parmi d'autres...!):

- le cas des cumuls alatoires dans les sries pluviomtriques :
Faute davoir pu relever lappareil,
une pluie tombe sur les jours j et j + 1 est entirement affecte j + 1 :

Exemple :

08h 08h 08h donne ( tort!): 08h 08h 08h

j j+1 j j+1

22 mm 31 mm 0 mm 53 mm !
______________

A linverse, dans un pluviographe enregistreur mais non chauffant, une
prcipitation neigeuse tombe en une fois va fondre, une fois le beau temps revenu, sur les
jours suivants et les faire apparatre , tort, comme des jours pluvieux

- Cas des enregistrements limmigraphiques (niveaux) transformer en dbits par une courbe de tarage.
Celle-ci a chang au cours du temps (modification de la section) mais on
utilise toujours la vieille courbe de tarage.
Ou on change soudainement dalgorithme pour caler la courbe de tarage, et celle-ci en
pratique se modifie fortement ...
Ou encore on a diffrentes courbes de tarage selon les poques mais on ne sait pas
exactement quand ( pour quelle crue?) il faut passer de l'une l'autre, etc...

- On change la calibration dun pluviographe (correction selon lintensit mesure, surtout dans les
fortes valeurs > 40 mm/h)

De plus et surtout, il y a possibilit derreur chaque nouvelle transcription :

- du diagramme de lappareil au bordereau envoy ladministration centrale,
- du report par station au report par mois ou par anne,
- du passage du document papier lacquisition sur support informatique, etc...
(cf. aussi des exemples en II-1)

Les changements de protocoles :

- passage de donnes moyennes, intgres sur le pas de temps, des donnes instantanes" lues
lheure de la mesure (ou inversement...)

Exemples:
cas des dbits horaires : dbit moyen 8h-9h ou dbit instantan lu 9h ?

cas du rayonnement ou du vent :
mesure pendant 1 minute 9 h ou cumul de 8h 9h ?

Signalons aussi qu'en cas de panne de l'appareil, il peut tre souhaitable de complter la srie en
bouchant la priode manquante.
Mais ces donnes reconstitues doivent toujours tre signales, car c'est parfois la procdure utilise qui cre
elle-mme une htrognit (cf. reconstitution de donnes par corrlation et la perte de variance
correspondante - in 2
me
Partie Chap IV, parag III-6)

I-5) Rcapitulation des Types d'Erreurs

Les diffrentes sources signales donnent matire des erreurs de diffrents types :

erreurs ponctuelles : point aberrant, erreur de lecture ou de transcription

erreurs alatoires selon situation mto: valeur errone en cas de vent, ou par rgime de Sud Est, ou
en priode dautomne ( cause des feuilles) etc...

erreur systmatique brutale, ( partir dune certaine date) :
- additive : changement de position dun appareil, dcalage dchelle, etc...
- multiplicative : changement de surface dun cne de pluviomtre, changement de calibration, de
loi de tarage, etc...

erreur systmatique progressive: Dtarage dun appareil par vieillissement. Modification de
lenvironnement par croissance de la vgtation ou urbanisation, etc...

I-6) Votre Contribution:

Nous laissons un peu de place ci-dessous pour y noter vos propres expriences!
Aujourd'hui, ce chapitre peut vous ennuyer par son ct "exhaustif" ou anecdotique. Vous prfreriez sans
doute, avec raison, un beau calcul formel sur un cas particulier de la loi de Navier Stokes (Mais si, mais si...!).

Pourtant, si vous devez raliser des tudes hydrologiques, ou climatiques, vous ne manquerez pas de
rencontrer des sources nouvelles et inattendues dhtrognits qui ne figurent pas dans ce rcapitulatif...!

N'hsitez pas nous les signaler! Cela enrichira le btisier...


Figure VI 2
II -) TECHNIQUES ELEMENTAIRES DE DETECTION

II-1) Analyse Graphique

Une premire approche consiste scruter les donnes, de manire si possible automatique (par exemple:
dpassement dun seuil), pour dtecter les valeurs douteuses ou aberrantes.

Exemple : dure journalire dinsolation : 33 h, la place probablement de 3,3 h !.
_________

Toutefois, la scrutation, loeil, de tableaux de chiffres est fastidieuse, et la scrutation automatique, elle,
est souvent trop grossire (par dpassement de seuil, on alerte tout le temps si le seuil choisi est faible) et surtout
on ne dtecte pas les squences anormales.
Pour cela, il est prfrable dutiliser la capacit dapprentissage de loeil et les connaissances qualitatives
en traant le graphique des donnes.

Exemple: sur des donnes de dbit (cf. figure VI 2 ci-contre):
On constate aisment que des donnes, bien quappartenant une gamme de variation raisonnable, ont
une allure inhabituelle dans leur organisation temporelle. Sur les dpouillements de dbits ci-joints, on
constate:

- courbe 1: des dbits d'allure "raisonnable" l'il

- courbe 2: des paliers inexpliqus (surtout en l'absence de pluies qui auraient pu soutenir les dbits,
d'o la ncessit de les mettre en regard...), ou des pointes rcurrentes et de mme niveau qui
correspondent une erreur de dpouillement sur des appareils dits " retournement" (type OTT).

- courbe 3: une erreur de dpouillement car bien que toutes les valeurs soient correctes, il apparat
que, dans l'acquisition la table digitaliser, l'axe des temps a t invers..! Mais un oeil exerc ne
peut accepter que les dcrues aient une forme aussi inhabituelle.

- graphes 4 et 5 : donnes relles de dbit de la Sieve (affluent de l'Arno). On a trac une horizontale
pour le niveau 62 m3/s. Manifestement, il y a un retournement mcanique du stylet (appareil type
OTT), qui n'est pas pris en compte au dpouillement: les rcessions sont irralistes...
Cest ainsi que sur les pluviogrammes enregistrement sur papier, on reconnaissait aussi assez facilement
lallure lie un appareil partiellement bouch (cf. Cours de Mto-Climato). Ce nest plus aussi vident
aujourd'hui avec les enregistrements lectroniques totaliss sur des pas de temps assez consquents (horaire par
exemple). Par contre, le nombre d'impulsions de pluies lies des parasites ( tous les sens du terme:
lectromagntiques, mais aussi mulots attaquant les cbles..!) va croissant

Dans le cas de donnes spatialement rparties (prcipitations, niveaux pizomtriques), il est bon aussi de
tracer une carte, mme succincte, car la prsence dun trou au milieu dune zone globalement pluvieuse
indiquera soit un appareil bouch, soit un dcalage temporel important pour cette station. De mme pour un
pizomtre colmat ou proche dun pompage clandestin, etc... !
C'est l'esquisse du contrle multivariable que nous verrons ensuite.

II-2) Contrles de RUPTURE en monovariable (i.e. sur la seule srie disponible)

Le cas monovariable est le cas le plus dfavorable, car on ne dispose pas de rfrence quoi se
comparer, et linformation disponible, sur laquelle on va s'appuyer, est de fait suspecte dtre partiellement
douteuse. On pratique dabord des tests statistiques qui recherchent un changement brutal et dfinitif de
proprits statistiques.

a) Test des valeurs aberrantes (isoles)

On peut par exemple calculer la moyenne et lcart-type de la srie, et tester chaque cart la moyenne
correspondant chaque observation.

Exemple 1 :
Soit des tempratures moyennes annuelles, dont la distribution peut tre raisonnablement considre
a priori comme gaussienne :

C 3.6 4.6 4.8 3.9 5.6 4.6 6.5 5.7 5.7 4.4 7.3
Obs: 1 2 3 4 5 6 7 8 9 10 11

Dans ce cas, on calcule la moyenne et lcart-type empirique de l'chantillon:

m X
x
= = = 5 15 1 12 . . s
x

On peut alors calculer les valeurs centres rduites :

-1.39 - .50 - .32 -1.12 .40 - .50 1.2 .49 .49 - .67 1.92

On constate alors une valeur fortement positive 1.92 (mais aussi une autre ngative -1.39) dont la
probabilit d'occurrence est certes faible (cf. votre table de la loi de Gauss standard) ....
Mais que faut-il en conclure ...?

Exemple 2 : Supposons maintenant que nous fassions un contrle en temps rel, larrive des
donnes. On ne dispose pour linstant que de 10 valeurs:

3.6 4.6 4.8 3.9 5.6 4.6 6.5 5.7 5.7 4.4
1 2 3 4 5 6 7 8 9 10

On calcule la moyenne et l'cart type empirique sur ces 10 valeurs:

92 . 0 s 90 . 4
x
= = =X m
x

et les valeurs rduites deviennent alors :

-1.46 - .37 - .15 -1.13 .72 - .37 - .50 1.70 .83 .83 - .59

On a l encore des valeurs de faible probabilit (- 1.46, + 1.70) sur lesquelles il est dlicat de conclure.

Par contre, si on transmet une nouvelle valeur de 7,3 C, celle-ci a une valeur centre (par rapport aux
moments de lchantillon antrieur), de :

u = 2.57 ! probabilit associe 0.0051 soit une chance sur
200...!

ce qui doit immdiatement faire ragir (vrification de capteur, confirmation de la transmission, etc...).

Mais on voit bien dans cet exemple (cas n 1) que, une fois la valeur douteuse incluse dans lchantillon,
il devient difficile de la dtecter...

b) Cas de changements brusques :

On appelle ainsi un changement significatif de caractristique de la srie. On en donne des exemples ci-dessous:

Figure VI - 3

On peut alors, si on a l'intuition d'une date de changement, tester si les moyennes m
1
et m
2
ont
significativement chang entre les deux priodes.

Le Test de Student permet de tester si 2 chantillons sont bien issus de la mme population de variance
thorique et de mme moyenne thorique .

Pour cela, on calcule les 2 moyennes :
m
n
x
n
x
i
i
n
i
j n i
n n
1
1 1 2
1 1
1
1
1 2
= =
= = +
+

m
2

mais aussi les carts types :
s x m x m
i
i
n
j
j n
n n
1
1
1
2
2
1
2
1 1
1
1
1 2
=

= = +
+

1
n
s
1
n
(
1
2
2
( ) )

et, la variance tant suppose identique en thorie sur les 2 chantillons, on estime la variance globale par :
s
(n - 1) s + (n - 1) s
n + n - 2
2 1 1
2
2 2
2
1 2
=

On sait qualors, la variable :
t
(m - m )
s

n n
n + n
1 2 1 2
1 2
=
.

suit une loi de Student u = n
1
+ n
2
- 2 degrs de libert. (cf. Chap. II de la I
re
Partie)

Selon la valeur de t, et donc de la probabilit d'apparition d'une telle valeur, on dcide sil est plausible ou
non de considrer que m
1
et m
2
soient 2 estimations de la mme moyenne .

De mme, on pourrait tester ( Test de Fisher ) si les 2 chantillons sont issus de populations normales
ayant mme variance, leurs moyennes tant supposes identiques.

Dans ce cas, la variable =
s
s
1
2
2
F
2
suit une loi de Fisher :
u
1
= n
1
- 1 , u
2
= n
2
- 1 degrs de libert

(o encore Z( , )
1 2
=
1
2
Log
s
s
1
2
2
2

suit une loi normale)

On peut multiplier ces tests (cf. Dictionnaire de Statistique. E. Morice, Dunod diteur 1968), mais on
remarquera quil faut d'abord choisir la date de rupture prsume (ou multiplier de manire combinatoire les
essais pour essayer de la cerner... !)

c) Utilisation de connaissances physiques sur les variables.

Exemple du rayonnement solaire.
Lexemple considr concerne des sries journalires de rayonnement solaire (nergie globale incidente
en cal/cm
2
ou J/m
2
recueillie chaque jour).
Chaque jour, la valeur mesure R
j
est infrieure (cas de nbulosit partielle ou totale) ou gale un
maximum R
jmax
qui dpend :
- de la date considre j, pour des raisons astronomiques / gomtriques
- du site de mesure et de son environnement, (masque d des btiments, des montagnes),
mais ce maximum devrait se retrouver identique dune anne lautre, toutes choses gales par ailleurs.
Par contre, sil y a modification de lenvironnement ou du capteur, les maximums
enregistrs en porteront la trace.

Comme les donnes avec nbulosit partielle ne sont pas utilisables (les donnes de nbulosit sont peu
prcises et peu fiables car dpendant de lobservateur), on a considr les seules valeurs maximales. Pour cela,
on a cherch, chaque anne, une courbe enveloppe du rayonnement maximal. Celle-ci peut tre approche par
une sinusode qui pour lanne k aura une expression :
R = a sin 2
t
365
+ b
jmax k k

(en prenant pour t la date en jours partir du solstice dhiver par exemple).

Figure VI-4:

On peut alors tester, dune anne k une autre l , si les valeurs a
k
/a
l
et b
k
/b
l
sont significativement diffrentes
ou non.

Fig VI-5
Cest ainsi que sur une srie de 25 ans, ( Davos Weisfluhjoch - Suisse), on avait mis en vidence un
cycle de 4 ans, qui correspondait au rtalonnage rgulier des appareils...!.

II-3) Contrles de SEQUENCE en monovariable (sur la seule srie disponible)

On peut aussi chercher tester lorganisation temporelle des donnes. Pour cela, on porte en abscisse le
temps coul k, et en ordonnes le cumuls des valeurs correspondantes Y
k
:

1
=
=
k
i
i k
x Y
(Ce cumul peut se faire soit dans le sens normal (pass vers prsent), soit en remontant le temps si lon
prsume que les donnes rcentes sont de meilleure qualit (condition de collecte bien connues) et que lon
prfre corriger les donnes anciennes

Lide de la mthode est que, si les mesures restent stables dans le temps, (aux fluctuations
dchantillonnage statistique prs), les points de mesure devraient osciller de part et dautre de la droite qui joint
le premier point au dernier de la srie.
Si par contre ils se rpartissent selon diffrents segments de droite, on peut linterprter comme le signe
de squences (par exemple sches et humides) ou comme une drive de lappareil (dplacement, changement
de lappareil ou de son environnement)

Dans une variante, on norme chaque donne par la moyenne de la variable et on trace :
{ k,
1
=
=
k
i x
i
k
m
x
Y }
et dans ce cas, les valeurs oscillent autour de la constante 1.

Une formalisation de cette dernire mthode a t propose par D. Buishand, et reprise par Naden et
Bayliss lInstitut dHydrologie (Wallingford).

Elle considre une srie {x
1
, x
2
, , x
N
}, et elle calcule la variable intermdiaire S
k
:
pour k =1 N { k, ( )
.
1

1
=
=
k
i
x i
x
k
m x
N S
S }
On a d'abord considr des bandes de confiance constantes k.

On a ensuite utilis le fait que la variable S
k
est distribue, pour labscisse k, selon une loi normale de moyenne
E[S
k
] = 0 et de variance Var [S
k
] = k.(N-k)/N , ce qui donne des intervalles de confiance autour de laxe des k
constitus par des ellipses.
Cest une dmarche analogue (quoique postrieure), celle de Ph. Bois (1976), que lon verra au chapitre VII
suivant.
2224

On peut aussi faire des tests de signes sur les carts la moyenne: on calcule la moyenne m
x
et la
squence { k, x
k
- m
x
} et on analyse les squences de + et de -, de manire dtecter des pseudo cycles, ou une
rupture dans la srie, (mais il nest jamais sr quelle soit unique...)

On trouvera un certain nombre de ces test dcrits en dtail dans un N Spcial de la revue du CERESTA
(1986).

II-4) Complments et exemples:

a) Problme du choix de la probabilit limite de rejet :

On conoit que si la probabilit calcule dans ces tests est trs faible, c'est que l'hypothse de mme
provenance est peu probable. Mais partir de quelle valeur faut il rejeter cette hypothse...?

Si on choisit une probabilit trs faible comme seuil de rejet, on risque d'accepter
assez souvent l'hypothse de mme provenance, alors qu'elle est fausse; si au contraire, on est
trs svre en n'acceptant l'hypothse que si la probabilit est forte, on risque de rejeter
souvent l'hypothse alors qu'elle est vraie.

Le seuil dpend donc du problme, surtout en contrle de qualit. En Hydrologie le seuil de 5 ou 10% est
le plus souvent retenu; cela veut dire que l'on rejette dans 5 (ou 10) % des cas l'hypothse de mme provenance
au sens des moyennes et cart types, alors qu'elle est vraie.

De plus rappelons que ce seuil est un seuil d'alerte, qui a pour but d'attirer l'attention et de dclencher
une enqute plus approfondie.

Exemple d'application :

On possde une longue srie de dbits de la Loire Blois (depuis 1863); ces dbits ont t en partie
reconstitus partir des niveaux observs rgulirement et de courbes de tarage estimes.
En coupant la srie chronologique en diffrents sous chantillons, on obtient les rsultats suivants :

Priode : Moyenne Ecart type
(en m3/s) (en m3/s)
1863-1887 356 97
1888-1912 360 106
1913-1937 397 94
1938-1962 315 111

1863-1937 371 98

Comparons par exemple la priode 1863-1937 la priode 1938-1962.

On a vrifi que les donnes sont assez bien reprsentes par une loi Normale.
m
1
= 371 s
1
= 98 m3/s n
1
= 75
m
2
= 315 s
2
= 111 m3/s n
2
= 25

Mais ces carts sont-ils significatifs ?.

Comparaison entre les moyennes :

t
(m - m )
s

n n
n + n
avec
1 2 1 2
1 2
=
.

s
(n - 1) s + (n - 1) s
n + n - 2
2 1 1
2
2 2
2
1 2
=

soit ici t = 4.8 avec n = n
1
+ n
2
- 2 = 98 degrs de libert (paramtre de la loi de Student).

Cette valeur est leve; dans une table de la loi de Student, on peut lire que la probabilit au dpassement est trs
faible, de l'ordre de .000003 !
On ne peut donc pas accepter l'hypothse d'homognit.

Pour l'hydrologue, cela peut venir des cause suivantes :
+ Biais sur les donnes (d'o un travail de vrification et d'enqute)
+ volution hydrologique (d'o une tude rgionale sur d'autres rivires voisines)

Comparaison des variances :
Dans ce cas, la variable =
s
s
1
2
2
F
2
suit une loi de Fisher

1
= n
1
- 1 ,
2
= n
2
- 1 degrs de libert

(o encore Z( , )
1 2
=
1
2
Log
s
s
1
2
2
2

suit une loi normale)

Ici, les variances observes sont assez proches, la valeur de F de Fischer-Snedecor vaut:

F = ( 111/ 98)
2
= 1.28 .

et les 2 paramtres de la loi de Fischer-Snedecor valent :
n
1
- 1 = 24 et n
2
- 1 = 74 degrs de libert.

Or dans une table de Fischer Snedecor (cf. 1re Partie - Chap III), on trouve que:
la probabilit pour que F > 1.28 = 21 % .

On peut donc considrer que les deux variances ne sont pas significativement diffrentes, puisque si on tirait au
hasard des chantillons provenant vraiment de la mme population Normale, on dpasserait cette valeur dans un
cas sur cinq environ.

Exercice propos : Etude des tempratures moyennes annuelles Messeix.
On a vrifi que ces tempratures annuelles peuvent tre considres comme gaussiennes.
Les moyennes et cart-types des donnes selon les priodes sont les suivantes :

Priode : Moyenne Ecart type

1933 1949 8.81 C .77C
1950 1967 8.20 C .67C

Ces donnes sont elles homognes ?


III-) CONTROLE PAR STATION TEMOINS :
METHODES DES DOUBLES CUMULS

On a vu la difficult de critiquer des sries en labsence dautres sources dinformation. Dans le c) du
paragraphe prcdent, on a utilis une information exogne constitue par des connaissances physiques,
dterministes, sur le phnomne. (Dans ce cas lexistence dun maximum, dont on connat la variation
saisonnire, et qui devrait se retrouver inchang dune anne lautre).
Dans le cas dautres variables, comme les pluies, on ne dispose pas de telle informations physico
dterministes.

Par contre, on sait que, statistiquement, celles-ci ont un comportement rgional dominant, et que 2
stations proches devraient avoir, sur le long terme, un comportement identique..

III-1) La pratique des doubles cumuls

On considre les 2 sries initiales x et y, observes sur N priodes successives (N annes, N mois de Janvier,
etc...).Et on construit les 2 variables cumules:
X Y
i i
= x et = y
i i
l=1
i
l=1
i

y
1
Y
1
x
1
X
1

temps y
2
Y
2
x
2
X
2

. . . .
y
i
Y
i
x
i
X
i
. . . .

y
N
Y
N
x
N
X
N

do la nouvelle srie de couples (X
i
, Y
i
), que lon pointe sur un graphique.

Si on se place au point i, laugmentation de x
i+1
, cest dire l'incrment que va connatre
X
i+1
= X
i
+ x
i+1
peut tre :
- forte : mais alors elle le sera aussi pour y
i+1
donc pour Y
i+1
, si x et Y
cofluctuent assez fortement
- faible : mais idem..., elle le sera aussi pour y
i+1
donc pour Y
i+1
, si x et Y
cofluctuent assez fortement

Donc, globalement la trajectoire des points X,Y ne devrait pas se modifier sensiblement.

Si, partir dun certain moment, la relation entre x et y change (par exemple, y est systmatiquement
augment de 5 chaque observation), alors la trajectoire des (X,Y) se modifie pour retrouver un autre quilibre
do une cassure ce changement de rgime.

Figure VI-8:

Exemples : (de la vie courante).

- comparer largent de poche mensuel de 2 garnements du mme ge, et dtecter la date de divorce des
parents, ou le retour de loncle dAmrique.
-comparer les factures de tlphone de 2 familles voisines, et dtecter quand lune
sest quipe dun minitel, ou dun autre quipement qui incite utiliser le tlphone...
- comparer les degrs-jour et la consommation de boisson gazeuse, et dtecter le dbut d'une campagne
de publicit (ou l'apparition dune rumeur de pollution par le benzne) dans son effet sur la seconde
variable, etc...

On comprend tout de suite que la mthode :

- naccepte pas de valeurs ngatives (le point courant x,y reviendrait en arrire ! )
- et marche dautant mieux que les 2 variables x et y sont plus corrles.

Par contre, on sent aussi que si les 2 variables ont une partie constante trs forte par rapport leur variation :

Exemple : x varie de 10 000 10 020
y varie de 12 000 12 030

la sensibilit de la mthode sera plus faible que si :

Exemple : x varie de 10 30
y varie de 10 50

En fait il ne faudrait prendre que la partie variable de x et y.

Ceci sera formalis au paragraphe suivant. Pour linstant, disons quil est souhaitable que les coefficients de
variation:

2 , 0 , C que s soient tel
m
s
= et
m
s
=
x
y
y
x
x
>
y y x
C C C

Remarque :
Certains auteurs prconisent d'ailleurs de travailler sur des transformes de variables.

Exemple : x
x
3 +
x - m
x
(qui variera de 1 5 environ).

III-2) Aspects thoriques :

Si on considre que les 2 stations x et y sont constitues :

-
dun terme qui reprsente la tendance rgionale soit w, variable alatoire que lon suppose
centre rduite.

- et dun terme alatoire propre la station
et que
- les corrlations de x et y avec la composante rgionale w soient r
x
, r
y
, ventuellement
diffrentes.
x y w w
r
x
r
y

Alors on peut crire, pour lobservation i :

x m
s
r
y m
s
r
i x
x
x
i y
y
y

x i i

y i i
= r w +
= r w +
.
.
1
1
2
2

avec
i
et
i
des variables alatoires centres rduites (m

= m = 0 ;

=

= 1).
Dans ce cas :

( )
( )

+ =
+ +
l
x i i l
l
i x x
l
l
r w l X
s m X
1 = i
2
x x x
1 = i
2
x i x x
1 = l
i
1 . r s + m .
r - 1 w . r s = x =

et de mme :

( )
+ =
l
y i i l
r w l Y
1 = i
2
y y y
1 . r s + m .

Si on divise les 2 variables pour trouver la pente:

( )
( )
+ +
+ +
=
=
l
x i
l
y i
l
i
x i x x
l
i
y i y y
l
l
l
r
l
r
r r s l
r r s l
X
Y
1 = i
2
i x
x
1 = i
2
i y
y
x
y
1
2
i x
1
2
i y
1 + w r
C + 1
1 + w r
C + 1
.
m
m
=
1 w . m
1 w . m
=

Si on considre de plus que les corrlations de x et y avec la composante rgionale r
x
et r
y
sont levs,
proches de 1, (cest une approximation, mais dans le cas contraire on ne compare pas les variables !) alors:


Y
X
l
l
l
l
l
l

m
m
.
1 + C . r .
w
1 + C . r .
w
y
x
y y
i
i=1
x x
i
i=1

On notera dabord que la pente sur une priode l tend tre gale au rapport des moyennes.

On peut constater que le terme
w
i
i=1
l
l
est en esprance nul, avec des maxima de lordre de 1.

On constate aussi que le terme fluctuant li la station x est affect dun facteur damplification C
x
. r
x

Il sera dautant plus sensible une modification du comportement de la station (par exemple : changement
de moyenne m
x
, ou changement de corrlation r
x
avec la tendance rgionale) que C
x
est lev.
On avait dailleurs vu quil tait souhaitable que C
x
> 0.2. Mais comme dautre part, on ne veut pas de valeurs
x
i
ngatives, on ne pourra gure aller au-del de C
x
= 0.5 0.6.

III-3) Complments et exemples:

Exemple I : On montre ici un exemple d'tude (J. Lavabre Cemagref Aix en P) concernant la station
pluviomtrique de l'aroport de Marignane. Bien qu'il s'agisse de la station principale du dpartement, on avait
quelques doutes car elle avait t dplace l'occasion des travaux d'extension de l'aroport. On a donc dcid
de la comparer une vieille station du rseau, celle d'Aubagne ( Cf. M. Pagnol Le chteau de ma mre).
On fournit (page suivante) les donnes annuelles (en mm) et la comparaison par doubles cumuls sur les 2
stations (Figure VI-9).
On pourra faire l'exercice, ainsi que celui du Chapitre VII sur le cumul des rsidus.

Anne 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79
Aubagne 516 512 639 269 756 675 474 667 853 646 680 605 929 778 718 691
Marignane 479 453 532 212 623 563 450 561 902 738 627 535 824 644 546 604


Exemple II :

Cet exemple est tir d'un rapport d'tudes CNR ( B. Eyraud 1996) sur les dbits annuels et mensuels du
Rhne.
On montre d'abord l'analyse en simple cumul pour les 3 stations de Ternay, Valence et Beaucaire prises
isolment.
On y constate des cassures que l'on peut attribuer soit une rupture d'homognit, soit un phnomne
climatique commun aux 3 stations. Par contre on ne peut en rejeter une plutt qu'une autre....
Mais dans ce cas , l'analyse en double cumuls permet de trancher (cf. Figure VI-11 ci-aprs).

Figure VI-10: D'aprs B. Eyraud - rapport CNR 1996)


En effet, si les cumuls entre Ternay et Beaucaire et entre Valence et Beaucaire prsentent une cassure
suspecte, la comparaison entre Ternay et Valence est trs satisfaisante:

C'est donc Beaucaire seule qui est suspecte.

III-4) Limites et adaptation de ces mthodes:

Les mthodes prsentes ci-dessus tablent toutes sur le caractre squentiel des donnes, et le fait qu'
partir d'une certaine date, toutes les donnes suivantes ont t affectes par un changement de fonctionnement.
Il arrive pourtant que l'htrognit ne soit pas organise ainsi mais soit conditionne par une situation
particulire, qui apparat de manire intermittente et qu'il faut identifier.

Exemple 1:
On dispose pour une station de jaugeage d'une courbe de tarage qui est extrapole au del du dernier
dbit jaug Qm ( niveau Hm) par une mthode 1.

A partir d'une certaine date D, dans le cadre d'une rationalisation informatique, on dcide que
l'extrapolation sera faite par la mthode 2, qui va donc pour la mme hauteur d'eau H > Hm fournir un dbit
diffrent de la mthode 1.

Par contre, pour les niveaux infrieurs Hm, les courbes concident peu prs. On aura donc une
htrognit partir de la date D mais pour les seuls dbits suprieurs Qm...!

On donne ici un exemple pour le ruisseau de la Vence: diffrents jaugeages sont disponibles jusqu des
dbits denviron 1 m
3
/s. Pour lextrapolation, on hsite ensuite entre un polynme du second degr ( parabole) et
une exponentielle. Pour la mme chronique de hauteurs, voil ce que lon obtient:

Figure VI-12

Exemple 2 :

Un cas analogue s'est produit dans une tude de valeurs extrmes de prcipitations hivernales.
L'objectif tait de dimensionner un systme automatique de dneigement par chauffage lectrique en tarif de
nuit. Le systme devait tre capable de faire fondre en une nuit la prcipitation maximale (hivernale) annuelle
huit annes sur dix. Il fallait donc disposer d'une bonne estimation de la loi du maximum annuel de prcipitation
journalire.

Cette prcipitation tait mesure au pluviomtre ( "au seau", relev tous les matins 8h). Comme il
s'agissait souvent de neige, cette neige, accumule dans le seau, tait pralablement fondue et l'eau liquide vide
dans l'prouvette de mesure.

La hauteur du seau tant approximativement 30 cm, la neige collecte tait relativement protge une fois
dans le seau, et ce jusqu' une hauteur de 30 cm soit environ 30 mm d'quivalent en eau.
Par contre, au del, la neige:
- soit , par temps calme, s'accumulait en gteau au dessus du seau et y restait (mais la surface de
captation devenait incertaine...)
- soit s'accumulait en "gteau" au dessus du seau mais pouvait tre balaye par du vent survenant
aprs la chute et avant le relev
- soit ne pouvait, en cas de vent pendant la chute, s'accumuler dans le seau quand celui-ci tait
plein, faute de place "abrite" ...

On a ainsi pu constater un biais trs fort des mesures au del de 30 mm/jour, bien qu'il y ait de
nombreuses mesures suprieures cette valeur...
Mais le critre d'anomalie prendre en considration tait en fait plus complexe :
"plus de 30 mm/j et vent fort pendant ou aprs la chute de neige..."
Le dimensionnement, effectu partir de la srie htrogne, tait nettement sous-estim et conduisait des
frquences de dfaillances bien suprieures 8 annes sur 10...!

CONCLUSIONS:

On donne ci-contre un organigramme , propos par la CNR, des diffrentes pratiques mettre en uvre
pour critiquer les donnes ( certaines mthodes : cumul des rsidus seront vues au chapitre VII suivant).

Evidemment ce protocole peut tre amlior et doit surtout tre adapt selon la nature, le pas de temps,
etc.. des donnes dont on dispose, ainsi que du temps d'analyse que l'on peut y consacrer.
Mais on se rappellera qu'il vaut toujours mieux en faire un peu trop avant, que dcouvrir trop tard qu'on
aurait du y consacrer plus...


BIBLIOGRAPHIE

CERESTA 1986
Aide Mmoire pratique des Techniques Statistique.
Revue de Statistique Applique Vol XXXIV N spcial

C.N.R (Compagnie Nationale du Rhne) Diffrents rapports, dont
La Critique des donnes Hydrologiques,
Par B. EYRAUD, sous la direction de MM. D. JOUVE et B. ROSSE 1996

DALMEN E.R. and M.J. HALL 1990
Tests for stationnarity and relative consistency.
Manuel de prsentation 60 p. + 1 disquette . Water Ressource Publications
P.O. Box 26 00 26 Highlands Ranch Co 80 126 0026 USA

LANG M. 1995
Les chroniques en hydrologie.
Thse de lUniversit J. Fourier. Grenoble (Mai 1995)

MESTRE O 2000
Mthodes statistiques pour lhomognisation de longues sries climatiques.
Thse de lUniversit Paul Sabatier Toulouse (Septembre 2000)

MORICE E. 1968
Dictionnaire de Statistique. Dunod diteur


3
me
PARTIE - CRITIQUE DES DONNEES

CHAPITRE VII :

CONTRLE DE SERIES PAR CORRELATION
ET CUMULS DES RESIDUS

I) ASPECT INTUITIF EN CORRELATION 239

II) ASPECT INTUITIF DE LAPPROCHE PAR CUMUL DES RESIDUS 243

III) PRESENTATION THEORIQUE SIMPLE : ELLIPSE GLOBALE 248

IV) PRESENTATION THEORIQUE COMPLETE:
ELLIPSES INTERMEDIAIRES 250

V) BIBLIOGRAPHIE 257

VI) EXEMPLE EN SIMULATION DERREUR 259

VI) MISE EN UVRE COMPLETE (PROBLEME DE LA REFERENCE) (en
cours de rdaction)

23
me
PARTIE - CHAPITRE VII :

CONTRLE DE SERIES PAR CORRELATION
ET CUMULS DES RESIDUS

I) Aspect intuitif en corrlation :

a) Les hypothses restent les mmes que dans la mthode des doubles cumuls, savoir
- que l'on dispose de 2 informations :
- station Y tester
- station tmoin X
qui sont raisonnablement lies, donc cofluctuent.
- et dautre part que les donnes respectives
X
i
, i = 1...N et Y
i
, i =1...N constituent des sries chronologiques, cest
dire que X
i+1
est postrieur X
i, et
de mme pour Y {i =1...N}.

Par contre, pour Y, on souponne une htrognit qui fait que la liaison entre Y et X
pourrait avoir chang aprs une certaine date.

Note :
Lorganisation squentielle des X
i
(resp. des Y
i
) peut tre forte: par exemple il sagit de
donnes annuelles successives : X
1981
, X
82
....X
89
, X
90
....
Dans ce cas, le pas de temps est fixe t = 1 an et les donnes absolument en squence.

Mais on pourrait aussi considrer :

X = total dun pisode pluvieux (qui peut durer 2 ou 3, 4, 5 jours), de mme Y.
avec X
1
= pisode du 3 au 5 Fvrier 80
X
2
= pisode du 11 et 12 Mai 81, etc...

Il suffit alors que les donnes soient simplement ordonnes dans le temps :

date de X
1
< date X
2
<..... < date X
i
< ...
et " " Y
1
Y
2
Y
i

pour tester lapparition dune htrognit entre 2 pisodes, ou plutt partir dun moment p
dans la srie 1 .... N.

b) On peut alors imaginer que, sur la premire priode de 1 p, on avait une corrlation:

Y = c
1.
X + d
1
+ (1)

Corrlation premire priode
0
500
1000
1500
2000
0 500 1000 1500 2000

et que sur la seconde priode de p + 1 N on a une corrlation diffrente:
Y = c
2.
X + d
2
+ (2)

Cas A

Cas B
la diffrence pouvant porter soit sur lordonne lorigine (A) soit sur la pente (B) , etc...

Dans le cas le plus classique, on dispose a priori, quand on considre la srie globale {i
= 1...p, p+1...= N} dun nuage gnralement moins bien corrl (cf. figure suivante).

Si on reprsente le cas A par exemple (dcalage dordonne, pouvant correspondre un
dcalage dans la srie Y partir de la date p) : on a alors un nuage plus tal, qui donnera une
corrlation infrieure (3), avec une plus grande variance des rsidus e.

Corrlation sur l'ensemble
0
500
1000
1500
2000
0 500 1000 1500 2000

Toutefois, un oeil exerc (joint un esprit perspicace !) pourrait constater, par
exemple en codant diffremment les points antrieurs et postrieurs la date p, lapparition
de 2 nuages distincts... Cest assez peu probable dy parvenir par hasard, mais par contre, on
comprend bien que:

- pendant toute la premire priode 1 {i = 1...p}, les rsidus tendront tre plutt au-
dessous de la droite moyenne globale (3) .
- tandis que durant la seconde priode 2 {i = p+1...N}, ils seront plutt au-dessus
(sans que cela empche quelques rsidus dtre ngatifs quand mme, i.e en dessous
de la droite ( 3 )

Et une faon de faire apparatre cette organisation, sans connaissance a priori de la date
p, est de cumuler ces rsidus en squence.

On constatera alors que dans la corrlation globale:

Y
i
= a.X
i
+ b + e
i
{i =1...N} , le cumul SE = e
i
1
i
l
l =
est:
- plutt une somme de termes e
i
ngatifs dans la premire priode {i = 1 ...p}, et donc
va en dcroissant,
- alors quau del de p, les e
l
deviennent plutt positifs, et leur cumul va revenir en
croissant vers 0 (cf. remarque ci-dessous propos de ce retour strict 0), do une
allure particulire :

Cumul des rsidus
-800
-700
-600
-500
-400
-300
-200
-100
0
100
200
0 10 20 30 40 50

Alors que lon attendait plutt une forme dvolution moins systmatique, plus
alatoire, comme ci aprs.

-300
-200
-100
0
100
200
300
0 5 10 15 20 25 30 35 40 45 50

Toutefois, il est difficile danticiper ce que peut tre une allure normale pour ce cumul des
rsidus (on pense parfois, tort, un bruit blanc, trs chaotique), notamment du fait de la
contrainte due la corrlation sur un chantillon:
= SE 0
N
e
i
i
N
=
=
1

Cest le but des paragraphes suivants que de sen faire une ide.
II) Aspect intuitif de lapproche par cumul des rsidus :

a) Si on a deux variables lies, au niveau de la population complte, par une
corrlation thorique:
Y X = + + .
on lui associe une srie de rsidus e, en thorie indpendants, de moyenne m
e
et de variance:

=
y
1 -
XY
2
.

En pratique, sur un chantillon, on estime , grce la technique des moindres carrs,
une corrlation, et donc ses paramtres:
Y
i
= a.X
i
+ b + e
i
{i =1...N}
d'o une srie de N rsidus: e
i
{i =1...N}
dont la moyenne m
e
est strictement nulle : m
e
= 0

Et cest l quil y a une anomalie, en ce sens quun rsultat dont on attend quil ne soit
vrifi qu' en esprance, (ou sur de grands chantillons), l'est en fait rigoureusement, sur
chaque N-chantillon, (mme si N petit).
Cette contrainte : "Somme des rsidus strictement gale 0 "
fait que les rsidus ne seront pas tout fait indpendants
(Exemple : si on en donne N-1, le N
me
se dduit immdiatement !)

b) Pourtant, ignorons momentanment cette contrainte, et supposons que les rsidus
sont simplement indpendants, de moyenne nulle en esprance et de mme loi, par exemple N
(0,s
e).

Dans ce cas, que devrait tre un comportement normal pour le cumul des rsidus ?

SE
t
= e
i
i=1
t

Lapplication des rgles simples de calcul des probabilits nous indique que :

[ ] [ ] [ ]
{
0 = e E = e E =
0 =
i i t
SE E
Donc en esprance, SE
t
est nul t.
Et en variance :
[ ] ( ) [ ] ( ) [ ]
(
(
|
|
.
|
\
|
=
(
(
|
.
|
\
|
= = =

= =
2
1
2
2
1
2 2 2
.
t
i
j i i
t
i
i t t t SE
e e e E e E SE E SE E SE E
t

[ ] [ ] e e E + e E =
1 1
0
j i
t
1
2
i
2

= =
=
=
t
i
t
i i
SE
t
3 2 1

= 0 car supposs indpendants

Do, sous hypothse dindpendance : [ ]
{
2
e
t
1 = i
2
i
2
s . t = e E =
2
e
t
SE

ou encore :
l'cart type du Cumul des Rsidus dpend de l'cart type du rsidu sur le N-chantillon
par:

SE
t
= s t
e
.
ce qui signifie que, au fur et mesure que lon cumule les variables alatoires e
i
, la variable
alatoire SE
t
voit son cart-type augmenter en t .
Evolution de l'cart type du cumul des rsidus (hypothse
d'indpendance complte)
0
200
400
600
800
0 10 20 30 40 50

Autrement dit, au bout de t pas de temps, SE
t
varie autour de 0 avec un cart type s t
e
. .
On peut mme considrer un intervalle de confiance 80 % par exemple et dire que :
SE
t
a 80 % de chance de se trouver entre 1.28 s
e
. t .
Cest lquation dune parabole horizontale :
Intervalle de confiance 80 %
-1500
-1000
-500
0
500
1000
1500
0 10 20 30 40 50


c) Effet de la contrainte impose au niveau du N-chantillon : e = 0
i
i
N
=
1

On sent bien que quand on commence cumuler les rsidus, la contrainte de retour
zro :
e = 0
i
i
N
=
1
, ne se fait pas trop sentir, mais quelle sera de plus en plus prsente au fur et
mesure que lon se rapproche de i = N/2, indice au del duquel on tend revenir vers 0.
( et plus encore ensuite, puisque si on connat SE
N-1
, on en dduit sans alas aucun : e
N
=
SE
N-1
le dernier rsidu nest mme pas alatoire).
Donc, lintervalle de confiance du cumul SE
t
( par la formule s t
e
. ) est probablement
surestim quand on sloigne de 0.

Rappelons aussi que lon doit strictement respecter lordre dapparition, l'organisation
squentielle des e
i
, puisque ce que nous testons au fond, cest la vraisemblance dune telle
squence temporelle.
(Par exemple est-il vraisemblable quils soient au dbut tous > 0 puis la fin tous < 0 ...?).

Par contre, le sens du cumul ( du dbut la fin ou inversement) na pas vraiment
dimportance (Attention, on ne peut cependant pas les brasser ou faire SE
1
= e
5
, SE
2
= e
5
+
e
27
etc...).

Mais on peut tout aussi bien considrer le cumul rebours, reculons, et regarder
comment peut varier :

t
N i
i t N N N
e RE e e RE e RE
=
1 - 2 1
= ... + = =

Et l aussi on aura un intervalle de confiance dans lequel doit varier RE
t
, qui aura la forme :

- dune parabole horizontale
- oriente vers les t ngatifs.

Remarque :

RE RE mais RE e
E SE mais SE e
N N n
N
+

1 1
0 1 1
0 0 0
0 0 0
= = =
S = = =
SE symtrique de RE

d) On peut donc cerner, dfinir une premire enveloppe pour le ( ou "les" , car RE
et SE lgrement diffrents) cumuls des rsidus:
C'est la combinaison de 2 paraboles

-1500
-1000
-500
0
500
1000
1500
0 10 20 30 40 50

dont on sait que cest une approximation acceptable au voisinage des extrmits, mais que la
contrainte =
=
e
i
i
N
0
0
est de plus en plus sensible quand on sen loigne, et tend ramener

vers laxe des x.

On sent donc que lenveloppe probable est plus petite que lintersection des 2
paraboles, bien que tangente celles-ci aux extrmits.

Une autre faon de le dire est de considrer que dans la formule (1)

[ ] [ ]

3 2 1
0
j i
2
i
2
.e e E + e E =
t SE

0 car
dpendants
le second terme nest en fait pas nul ( la contrainte 0
1
=
=
N
i
i
e fait que les rsidus sont lis) et
mme quil est plutt ngatif En effet :
Si un e
i
est trs grand, les autres e
j
devront tre de signe oppos
pour assurer la nullit finale de e = 0
i
i=1
N
.
Donc E e .e
i j
< 0 et, en fait, on peut montrer quil est approch par :
-
N-1
ou ici -
s
N-1
2
e
2

(cf.
Complments).

Donc lenveloppe dacceptation prend la forme dune ellipse incluse et tangente aux 2
paraboles. On va le dmontrer plus rigoureusement ci-aprs.
III) Prsentation thorique simple : (Ellipse globale)

a) On va pour cela utiliser des proprits relativement connues sur lchantillonnage.

On sait que dans une population infinie de moyenne et dcart type , si on tire un
chantillon de taille k {x
1
,x
2
,...x
k
}, la moyenne empirique :

m
k
=
1
k
x
i
i=1
k
a pour esprance: E[m

k
] = ,
mais surtout pour variance : var ] [m =
k
k
2
.

Si maintenant on a une population finie de taille N et que lon tire, sans remise, un
chantillon de k individus.
On calcule m
k
=
1
k
x
i
i=1
k
et on montre que E[m

k
] = , mais var ] . [m =
N- k
N-1 k
k
2
.

Vrification : si k = N var [m
k
] = 0 car m
k
= puisquon a pris toute la
population!
si k = 1 var [m
k
] = s
2
cest normal, car on a tir 1 seul individu isol.

b) Si on applique maintenant ces rsultats notre cas.

On a une population de N rsidus e
i
, de moyenne m
N
= 0 et de variance s
e
2
connue
( . ). s r
y xy
1
2

Si on considre encore la variable SE
t
, cumul des rsidus, on a :

k
k
i
i
k
i
i
m k e
k
k e . .
1
. SE
1 1
k
= = =

= =

Donc en esprance : E SE E
k
= k. m = k. E m = 0
k k

Et


var
var
SE
SE
k
k
= var k. m = k var m
= k .
N- k
N-1
.
s
k
= k .
N- k
N-1
. s
k
2
k
2 e
2
e
2

ou encore : SE
k
= s
k(N- k)
N-1
e

Cest lquation dune ellipse y = x.(N- x) entre 0 et N.

x = 0 y = 0 x = N y = 0
x =
N
2
y =
N
2

et si on prend les chelles telles que = 1 alors :

! cercle un est c'
2
N
= y
2
N
= x

exemple danalyse de tempratures moyennes annuelles correctes mais avec injection dune
erreur quasi cste partir de la mi priode. Il sagit de lellipse au seuil de 99% pour chaque
valeur de i.

-50
-45
-40
-35
-30
-25
-20
-15
-10
-5
0
1920 1930 1940 1950 1960

Remarque I : en nombre entier, si N est pair il y a un maximum, sinon, N impair, il y a 2
maxima.

Remarque II : On peut comparer avec la parabole du III.2 : SE
t
= s . k
e

IV) Prsentation thorique complte : (Ellipses intermdiaires)
(
*
)

a) Il sagit l de la thorie complte, quil est tout fait possible domettre en
premire lecture. On se propose de considrer lintervalle de confiance de nimporte quel
tronon de la courbe "cumul des rsidus".
Par exemple, on suppose la courbe connue jusqu m SE
m
= e
i
i=1
m

et connue aussi de N p ( reculons) SEp SE e
N j
j N
p
= -
=
+1

Et on se pose la question :
Quelle est lenveloppe admissible pour les fluctuations du cumul SE entre M et P ?
(par exemple on sait dj que les donnes sont correctes sur les priodes 1 m et p N).

On donne dabord le rsultat final :

Entre les points M et P, lenveloppe acceptable pour le degr de probabilit f, associ
la variable normale standard (f), est donne par sa 1/2 largeur ? (k) :

( )
( )
k
N
N
k l k
l
= (f ) . s .
e
1

avec : k = 0,1,...l et (f) = variable normale standard correspondant la frquence (1-
f/2), ou
l'intervalle de confiance 1-f/2 :( intervalle 68 % (f) = 1 , 80 % (f)
= 1,28)
(k) est lquation dune ellipse, dont MP est lun des diamtres.

Remarque : On ne tracera pas systmatiquement ces ellipses entre 2 points quelconques.
En gnral, on tracera lellipse globale, dcrite en .III, plus quelques ellipses partielles (deux
ou trois) quand on aura une configuration bizarre de la courbe "cumul des rsidus", mme si
celle-ci est pourtant bien contenue dans lenveloppe globale.

En gnral aussi, cela sappuiera sur un programme conversationnel o il suffira de
pointer M et P pour obtenir lellipse partielle.

Nous donnons maintenant une justification thorique plus complte des ellipses
intermdiaires. (Elle peut tout fait tre ignore en premire lecture).

b)(*) On va dabord se ramener au problme du .III o lon traitait le cas de
lenveloppe globale, et o lon considrait lensemble des rsidus.

Ici, on pose le problme de la faon suivante.
Si on connat les point M et P, donc si les m premiers rsidus, et, donc leur somme :

i
i
m
=
1
= segment MM' connu
et de mme les N-p derniers, donc :

i
i m
p
= +
1
= segment M'M" connu
alors dans quelle enveloppe peuvent varier les rsidus et surtout leur cumul entre les points M
et P ? (On suppose l encore quil ny a pas dhtrognit et quils ont tous les mmes
proprits statistiques).
Comme dans le cas gnral (1 N), leur somme (m+1 p) est videmment connue :

MM" = e - e - e =
" '
N
1 + p = i
i
'
m
1 = i
i
0
N
1 = i
i
1
3 2 1
3 2 1 3 2 1
M M
MM
p
m k
k
=
= =
+ =

Donc lesprance des rsidus e
k
compris entre M et P est strictement gale :

E e =
MM"
avec = p - m
k
l
l

Par contre, on ne sait rien de leur variance, qui est sans doute voisine de s
e
, mais > ou < , on
ne sait pas ?
Appelons-l en thorie (sur la population) s'
e
que lon pourrait estimer sur lchantillon ici
par:

[ ]
2
1 + =
2 '
) (
1 -
1
=
i
P
m i
i e
e E e
l
s

mais ce nest pas notre but dutiliser cette estimation puisque, peut-tre, elle est pollue par
une anomalie.

c) On utilisera donc non pas la variance empirique s'
e
entre i = m +1 et i = p, mais
plutt son esprance. (la moyenne si on faisait beaucoup dessais) i.e. l'esprance de ce que
peut tre la variance des seuls l = p-m rsidus quand :
- les m premiers et les N - p derniers sont fixs
- et que tout est normal, cest dire ces l rsidus intermdiaires sont bien issus de la
mme population que les m premiers et N - p derniers.

Dans ce cas, on a vu au III-a des rsultats thoriques sur ce que peut tre la moyenne
de ces l rsidus (pris parmi une population finie de N), mais pas ce que pouvait tre la
variance s.

On montre que la variance s dun chantillon sans remise de l individus parmi N est, en
esprance:
[ ]
2 2
1 1
.
l-
l
.
N-
N
= s E
'

o est la variance de la population totale de N individus.

Ici, la variance des N rsidus de la rgression est connue et strictement gale :

) 1 ( s =
N
1
=
2 2
y
2 2
xy i e
r s

Do pour un chantillon de l rsidus, une variance s
e
' 2

qui variera selon les chantillons,
mais en esprance vaudra :
[ ]
2
e
2 '
.
1 -
.
1 - N
N
= s
l
l
s E
e

d) Si on revient maintenant la population finie des l rsidus entre M et P. Sa
moyenne est fixe, connue, et sa variance est connue en esprance s
e
.

Si on prend un chantillon de k (parmi l) au hasard, on peut calculer sa moyenne :

[ ]
p k
e me ..... e = e e
k
1
=
1 + m i
k
1 = i
i

Lesprance de cette moyenne serait videmment, comme en III-3,

[ ] [ ]
[ ]
l
me E
p m i k
MM"
= e E =
, 1 i +

Mais surtout, la variance de cette moyenne serait, en esprance :

[ ]
k
e
l
l
me Var
k
'
.
1 -
k -
=

e) Si on considre maintenant le cumul des k premiers rsidus de cette sous-
population. Cela nous mne en C, et on appelle C' le point correspondant sur le segment MP.

MM"
l
k
- e = MM"
l
k
- e = '
k
1 = i
i + m
j
1 + m = i
i
CC

En esprance, le point courant du cumul C sloigne du segment MP de :

[ ] [ ] [ ] 0 = MM"
k
-
MM"
k = MM"
k
- e kE = MM"
k
- k.e E = '
i i
l l l l
CC E

car, daprs ( d) ), [ ]
l
me E
k
MM"
=

Donc en esprance, en moyenne C parcourt MP.

f) Quant la variance de cet cart CC, alors :

[ ]
[ ]
{
(
(
(
(
=

+
+ =
2
'
'
1
0 ) ' ' ( '
CC E
CC
k m
m i
i
MM
l
k
e E CC Var
4 4 4 3 4 4 4 2 1

[ ]
(
(
(
(
=
(
(
)
`
=

+
+ =
+
+ =
2
2
1
1
2
1
' '
. )
1
.(
' '
. '
43 42 1
43 42 1
l
MM
k e
k
k E
l
MM
k e E CC Var
k m
m i
i
k m
m i
i

o
- le premier terme (1) est une estimation de me
k
,
- tandis que le terme (2) est l'esprance de me
k
(cf . parag. b))
Donc :

[ ] [ ] { } [ ]
[ ] { } [ ] [ ]
[ ]
[ ]
e
e
k
l
l
o d
l
l
or
me
CC
' .
1 -
k -
. k = CC' var : '
k
'
.
1 -
k -
= me var : c) aprs d'
var k = me E - me E k =
me kE - k.me E = ' var
k
2 2
k k
2
k k

g) Comme on ne connat pas '
e
, (- la variance de la population finie des l rsidus
entre M et P, ou ce quelle devrait tre quand tout est normal), on remplace s'
e
par son
esprance dans la population finie des N rsidus observs soit [cf. b)] :

[ ]
2
e
'2
e
2 '
s
1 -
.
1 - N
N
= =
l
l
s E
e

o s
2
e
est connue (variance empirique des N rsidus de la corrlation), do finalement :

[ ]
a) en donn rsultat s .
k) - k(
.
1 - N
N
=
s .
1 - N
N
.
1 -
.
1 -
k -
. k = CC' var
2
e
2
e
l
l
l
l
l
l

Remarque : On insistera sur les conditions que lon simpose :

- On ne considre pas que la corrlation entre la variable tester Y et la variable
tmoin X est une estimation, sur un N-chantillon, de y = x + +

En fait, donc pour laquelle il y aurait une variance derreur
2
e
dont on a une
estimation biaise s
2
e
.

On travaille en fait sur le seul N-chantillon considr, en admettant que les N rsidus
ont une variance non alatoire s
2
e
donc on regarde cet chantillon de N couples
comme une population finie.

- Par contre, les sous-chantillons de l individus sont eux supposs "alatoires". Et
une fois un tel chantillon de l rsidus slectionn, on considrera sa moyenne comme
connue mais pas sa variance. Donc on se pose la question :
Que pourrait tre la variance d'un l-chantillon,o les l individus sont pris ( en
squence) parmi N, et dont la moyenne m' est connue ?

Complments : corrlation entre rsidus.

a) on a vu que la variance de la somme des rsidus jusqu'au k
ime
tait :

[ ]
{
[ ] [ ]

= =
=
(
(
(
)
`
=
(
(
(
(
)
`
i
i
k
1 = i
2
i
i
k
1
2
1 i
2
2
k
1 = i
i
2
k
1 = i
k
1 = i
0
i i
2
k
1 = i
k
1 = i
i i
k
1 = i
i
. e E + e E =
E + E = + E =
0 = e E e E - e E = e E - e E = e var
j
j
j
j i
i
i
k
i j
j i i
e
e e e e e e

Donc :
[ ] ) e , (e cov 1) - k(k + e k var = e var
j i i
k
1 = i
i
(
(1)

Ceci est vrai quel que soit k, notamment pour k = N :

[ ] ) , (e cov 1) - N(N + e var = e var
i i
N
1 = i
i j
e N
(

Or dans ce cas,
N
1 = i
i
e est strictement nul (par construction, donc non alatoire),
donc sa variance est nulle , et il reste:

[ ]
1
s
- =
1 - N
e var
- = ) , cov(
2
e i
N
e e
j i

car ici Var [e
i
] sur N = s
2
e
, i.e. la variance des rsidus calcule sur l'chantillon de calage
de la corrlation.
et donc:
[ ] 1 - N
1 -
=
var
) , (e cov
= ) , (
i
i
j
j i
e
e
e e r

b) On peut alors retrouver les rsultats du III.3 sur l'enveloppe globale. Reprenant la
formule (1), on a :
[ ] ) e , (e cov 1) - k(k + e k var = e var
j i i
k
1 = i
i
(

mais on a vu que :
[ ]
1
s
- =
1 - N
e var
- = ) , cov(
2
e i
N
e e
j i

do :
[ ]
[ ]
(
=
(
+
=
(
=
(
1
. .
1
1 1
. .
1
1
1 . .
1 - N
e var
. 1) - k(k - e k var = e var
2 2 2 i
i
k
1 = i
i
N
k N
s k
N
k N
s k
N
k
s k
e e e

o s
2
e
est la variance connue sur les N.
Et on vrifie bien que cette variance est nulle pour k= 0 , mais aussi pour k = N.

V) Bibliographie

Bois Ph. 1986. Contrle des sries hydrologiques corrles par tude du cumul des rsidus.
Deuximes journes hydrologiques de lORSTOM p 89-100.

Hubert P., 1997. Change-points in hydrometeorological time series. Proc. Conf.
Applications of time series analysis in Astronomy and Meteorology. Chapman and Hall, Rap,
Priesley and Lessi Editors, 399-412

Lang M., 1996. Les chroniques en hydrologie: modlisation compare par un systme de
gestion de base de donnes relationnel et orient objet, traitement de base et intervalles de
confiance des quantiles de crues, techniques dchantillonnage par la mthode du
renouvellement. CEMAGREF HHLY , Universit Joseph Fourier Grenoble I, 1995, 296 p.

Mestre O. , 2000. Mthodes statistiques pour lhomognisation de longues sries
climatiques. Thse de Mathmatiques Appliques-Statistiques de lUniversit Paul Sabatier
de Toulouse. 19 septembre 2000, 226 pages.

WMO (World Meteorological Organisation), 2000. Detecting trend and other changes in
hydrological data, WCDMP-45, WMO/TD 1013.


VI) Exemple (avec erreurs simules)

Lexemple est tir dun exercice o lon a pu contrler lerreur puisquelle a t introduite par
nos soins !.

Documents :

Donnes de tempratures moyennes annuelles Genve et au Grand Saint
Bernard (station de trs haute altitude bien surveille) ; origine des donnes :
documents suisses. Fichier complet

Description du problme :

On cherche contrler finement les donnes contenues dans le fichier
Critique_Donnees_Temperature_Exo.XLS relatives aux moyennes annuelles de
tempratures sous abri Genve et au Grand Saint Bernard. Pour des raisons
pdagogiques, on a introduit dans certains tableaux des erreurs connues.
La station de Genve est situe dans un milieu urbain ; par contre la station du Grand
Saint Bernard est une des stations les plus leves dEurope situe prs du col du Grand
Saint Bernard plus de 2000 m daltitude et loin de toute agglomration.

Erreurs non ponctuelles mais petites :

On veut contrler les donnes en utilisant le fait que les stations de Genve et du
Grand Saint Bernard sont corrles; pour des raisons pdagogiques, on a cr une srie
fictive de donnes Genve appele Genve faux , en introduisant manuellement des
erreurs. Le fichier utiliser sappelle Geneve_faux_1_periode.xls

C-2-1) Utilisez tout dabord la mthode des doubles cumuls sur les sries historiques
et sur la srie errone. Voyez-vous quelque chose mme sur la srie errone. Peut tre faudra t
il faire un changement de variables pour utiliser de faon raisonnable la mthode classique et
ancienne des doubles cumuls ;

C-2-2) Utilisez maintenant la mthode du cumul des rsidus sur ces deux sries en
dessinant les cumuls des rsidus et les ellipses 99% correspondantes. On trouvera des
rfrences cette mthode dans :
Bois Philippe, Contrle des sries chronologiques par tude du cumul des rsidus. Colloques
et sminaires ORSTOM Montpellier 16-17 septembre 1986 pages 89-99.

Correction rapide :

C-2) Erreurs plus complexes :

C-2-1) Mthode des doubles cumuls

Si on utilise directement la mthode classique des doubles cumuls (dubble mass en
anglais), mthode surtout utilise pour ltude des pluies, il y a un petit problme, car les
donnes du Grand Saint Bernard ne fluctuent pas du tout comme celles de Genve cause de
la moyenne lgrement ngative. Mme en utilisant la srie fausse de Genve, on ne voit rien
de spcial.
Aussi est il conseill dans ce cas de faire une transformation linaire sur les donnes
du type :
X
i
= (x
i
moyenne(x))/(cart type des x) + cste avec une cste de 3 4 ; cette transformation a
lavantage que lon travaille ainsi sur des variables positives de mme moyenne, mme cart
type. On fait ensuite les cumuls sur ces variables transformes.
Rponse : dans le cas de la srie fausse de Genve, il est difficile de deviner quelque chose.

0
20
40
60
80
100
120
140
160
0 20 40 60 80 100 120 140 160
Cumul u + x0 Grand Saint Bernard
C
u
m
u
l

G
e
n
v
e
cumul
u+x0
Gen
vrai
cumul
u+x0
Gen
f aux

C-2-2) Mthode du cumul des rsidus (appele mthode des ellipses) :

Rfrences : Bois Philippe, Contrle des sries chronologiques par tude du cumul des
rsidus. Colloques et sminaires ORSTOM Montpellier 16-17 septembre 1986 pages 89-99.

On montre que si deux variables X et Y sont gaussiennes, corrles et stationnaires
dordre deux (cest dire que les esprances mathmatiques des moyennes et cart type ne
dpendent pas de la date), le cumul Z des rsidus de la rgression de X en Y :
=
= =
j
i
i i i i j
Y Y avec Z
1
)

On montre alors que ce cumul a une esprance mathmatique nulle quel que soit j ,
mais une variance qui dpend de j et que lon approche par :

) (
1
) (
) 1 ( ) (
2
Y Variance
n
j n j
r Z Variance
j
=
Cette variance a son maximum pour j=n/2 (en valeur entire), n tant la taille de lchantillon.
Lide est donc la suivante : on trace lellipse de confiance t(confiance)*Ecart type(Z
j
) en
fonction de j. On conseille de prendre un intervalle de confiance de 99%, ce qui correspond
t=+- 2.56. Si le trac du cumul sort significativement de lellipse, il faut tudier de prs la
raison.
Dans le cas des donnes historiques, le cumul des rsidus ne sort pas de lellipse.
Dans le cas du fichier erron de Genve, le cumul sort nettement de lellipse, alors que
lerreur introduite est une addition de lordre de 0.3 0.5 C aux donnes historiques de
Genve partir de la moiti de la priode.

Cumul des residus et ellipses a 99%
-50.0
-40.0
-30.0
-20.0
-10.0
0.0
1920 1930 1940 1950 1960
Cumul
vrai
Cumu
l f aux
Ellipse
Evrai99
Ellipse
Ef aux99

Rponse : Les donnes ne sont pas stationnaires.

C-2-3) Recherche du type danomalie :

Pour poursuivre, comme on a limpression quil y a deux priodes avant et aprs 1942
(point max. du cumul), on peut calculer les corrlations correspondant ces deux priodes :

Priode : r
2
A s
A
B s
B
Moy. Ecart Moy. Ecart
type
Gen. Type Gen. GSB GSB
1921-1941 .551 .66 .15 110.5 1.5 101 4.8 -14.4 5.4
1941-1960 .479 .52 .18 113.7 1.5 108.6 4.9 -9.9 6.5

A est le coefficient de rgression de Genve explique par GSB, B la constante de
lquation de rgression S
A
et S
B
les cart types destimation de ces valeurs (cf. formules dans
certains cours ou rsultats de certains logiciels).

On constate que (B(1921-1941)-B(1941-1960))/S
B
=2 est beaucoup plus grand que
(A(1921-1941)-A(1942-1960))/S
B
=.3, cest dire que la diffrence fondamentale entre ces
deux quations de rgression porte essentiellement sur le terme constant de la rgression.

Rponse : il semble qu partir des annes 1940, il y ait eu un dcalage des donnes. Dans la
ralit, il faudrait faire une enqute ; mais ici, on retrouve bien le fait (cf. tableaux EXCEL)
que les donnes dites fausses de Genve sont les donnes vraies de Genve aux quelles on a
ajoute quelques diximes de degrs partir de 1941.

Annexes : Quelques tables

Remarques : mme sur Excel quelques tables sont accessibles par fonction

Table de Student
Table du Chi2
Probabilit: 0.9 0.7 0.5 0.2 0.1 0.05 0.02 0.01
n :
1 0.158 0.510 1.000 3.078 6.314 12.706 31.821 63.656
2 0.142 0.445 0.816 1.886 2.920 4.303 6.965 9.925
3 0.137 0.424 0.765 1.638 2.353 3.182 4.541 5.841
4 0.134 0.414 0.741 1.533 2.132 2.776 3.747 4.604
5 0.132 0.408 0.727 1.476 2.015 2.571 3.365 4.032
6 0.131 0.404 0.718 1.440 1.943 2.447 3.143 3.707
10 0.129 0.397 0.700 1.372 1.812 2.228 2.764 3.169
15 0.128 0.393 0.691 1.341 1.753 2.131 2.602 2.947
20 0.127 0.391 0.687 1.325 1.725 2.086 2.528 2.845
25 0.127 0.390 0.684 1.316 1.708 2.060 2.485 2.787
30 0.127 0.389 0.683 1.310 1.697 2.042 2.457 2.750
35 0.127 0.388 0.682 1.306 1.690 2.030 2.438 2.724
40 0.126 0.388 0.681 1.303 1.684 2.021 2.423 2.704
60 0.126 0.387 0.679 1.296 1.671 2.000 2.390 2.660
80 0.126 0.387 0.678 1.292 1.664 1.990 2.374 2.639
100 0.126 0.386 0.677 1.290 1.660 1.984 2.364 2.626
200 0.126 0.386 0.676 1.286 1.653 1.972 2.345 2.601
400 0.126 0.386 0.675 1.284 1.649 1.966 2.336 2.588
600 0.126 0.386 0.675 1.283 1.647 1.964 2.333 2.584
800 0.126 0.385 0.675 1.283 1.647 1.963 2.331 2.582
1000 0.126 0.385 0.675 1.282 1.646 1.962 2.330 2.581
2000 0.126 0.385 0.675 1.282 1.646 1.961 2.328 2.578
4000 0.126 0.385 0.675 1.282 1.645 1.961 2.327 2.577
8000 0.126 0.385 0.675 1.282 1.645 1.960 2.327 2.576
10000 0.126 0.385 0.675 1.282 1.645 1.960 2.327 2.576
TABLE De t DE STUDENT
n est le nombre de degrs de libert et P la probabilit au dpassement

Probabilit au
dpassement: 0.99 0.95 0.9 0.5 0.2 0.1 0.05 0.02 0.01
1 0.000 0.004 0.02 0.45 1.64 2.71 3.84 5.41 6.63
2 0.020 0.103 0.21 1.39 3.22 4.61 5.99 7.82 9.21
3 0.11 0.35 0.58 2.37 4.64 6.25 7.81 9.84 11.34
4 0.30 0.71 1.06 3.36 5.99 7.78 9.49 11.67 13.28
5 0.55 1.15 1.61 4.35 7.29 9.24 11.07 13.39 15.09
6 0.87 1.64 2.20 5.35 8.56 10.64 12.59 15.03 16.81
7 1.24 2.17 2.83 6.35 9.80 12.02 14.07 16.62 18.48
8 1.65 2.73 3.49 7.34 11.03 13.36 15.51 18.17 20.09
9 2.09 3.33 4.17 8.34 12.24 14.68 16.92 19.68 21.67
10 2.56 3.94 4.87 9.34 13.44 15.99 18.31 21.16 23.21
11 3.05 4.57 5.58 10.34 14.63 17.28 19.68 22.62 24.73
12 3.57 5.23 6.30 11.34 15.81 18.55 21.03 24.05 26.22
13 4.11 5.89 7.04 12.34 16.98 19.81 22.36 25.47 27.69
14 4.66 6.57 7.79 13.34 18.15 21.06 23.68 26.87 29.14
15 5.23 7.26 8.55 14.34 19.31 22.31 25.00 28.26 30.58
16 5.81 7.96 9.31 15.34 20.47 23.54 26.30 29.63 32.00
17 6.41 8.67 10.09 16.34 21.61 24.77 27.59 31.00 33.41
18 7.01 9.39 10.86 17.34 22.76 25.99 28.87 32.35 34.81
19 7.63 10.12 11.65 18.34 23.90 27.20 30.14 33.69 36.19
20 8.26 10.85 12.44 19.34 25.04 28.41 31.41 35.02 37.57
21 8.90 11.59 13.24 20.34 26.17 29.62 32.67 36.34 38.93
22 9.54 12.34 14.04 21.34 27.30 30.81 33.92 37.66 40.29
23 10.20 13.09 14.85 22.34 28.43 32.01 35.17 38.97 41.64
24 10.86 13.85 15.66 23.34 29.55 33.20 36.42 40.27 42.98
25 11.52 14.61 16.47 24.34 30.68 34.38 37.65 41.57 44.31
26 12.20 15.38 17.29 25.34 31.79 35.56 38.89 42.86 45.64
27 12.88 16.15 18.11 26.34 32.91 36.74 40.11 44.14 46.96
28 13.56 16.93 18.94 27.34 34.03 37.92 41.34 45.42 48.28
29 14.26 17.71 19.77 28.34 35.14 39.09 42.56 46.69 49.59
30 14.95 18.49 20.60 29.34 36.25 40.26 43.77 47.96 50.89
Valeur de Chi2 En fonction du nombre de degrs de libert (de 1 30)
et de la probabilit au dpassement

Hydrologie Et Probabilités

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Hydrologie Et Probabilités

Transféré par

Droits d'auteur :

Formats disponibles

ENSHMG Poly Traitement de donnes en Hydrologie

Ph. Bois, Ch. Obled Version 22/01/2007 Page 1 sur 265

, on peut montrer que la

est justement l'intgrale d'une densit de

0.444. - = 0.577. - = et . 7797 . 0 =

, dite variable de Gumbel,

t , on reste dans le cas de la corrlation simple.

suit une loi de Student N-2 degrs de libert.

1j, 2..p sauf j

Valeur 10% =kVOL et Valeur 90% = (1/k)VOL

(qui variera de 1 5 environ).

est en esprance nul, avec des maxima de lordre de 1.

est de plus en plus sensible quand on sen loigne, et tend ramener

a pour esprance: E[m

et on montre que E[m

Vous aimerez peut-être aussi