Cours Hydrologie Générale - CH 08

22/08/2017 Chapitre 8 - L'organisation et le contrôle des données
CHAPITRE 8
L'ORGANISATION ET LE CONTROLE DES DONNEES
8.1 L'organisation des données

La compréhension des processus intervenant dans le cycle de l'eau ainsi que l'étude de leurs variations spatiales et temporelles nécessitent de disposer
de données. Celles-ci sont essentielles et constituent un préalable à toute analyse hydrologique, que ce soit dans le but de procéder à une étude du
cycle de l'eau, d'impacts environnementaux ou pour procéder au dimensionnement d'ouvrages hydrauliques.
De façon générale, pour permettre le passage de l'acquisition des données à leur utilisation effective dans le cadre d'une analyse hydrologique on
distingue les étapes suivantes : acquisition, traitement, contrôle et validation, organisation, diffusion et publication. Une collaboration entre l'Institut
d'Aménagement des Terres et des Eaux de l'EPFL et des bureaux privés a permis par exemple la création d'un logiciel complet de traitement des
données hydrologiques nommé CODEAU qui comprend une partie de ces étapes.
8.1.1 Acquisition des données

L'acquisition de données consiste à procéder, par le biais d'un instrument de mesure, à acquérir de l'information (par exemple : hauteur d'eau d'une
station limnimétrique, comptage des basculements d'un pluviographe à augets, vitesse du vent etc…). Le chapitre 7 traite en détails de la mesure
hydrologique. Le procédé peut être automatisé ou non. Ceci aura une influence sur le type d'erreurs que l'on peut commettre.
8.1.2 Traitement primaire des données

La donnée acquise précédemment nécessite souvent un traitement préalable - ou traitement primaire - afin de la rendre pertinente et exploitable. Il s'agit
pour l'essentiel de la conversion de la mesure effectuée en une grandeur qui soit hydrologiquement significative (par exemple : transformation
d'impulsions électriques en intensités de précipitations, de hauteurs d'eau en débits, génération de données à pas de temps constant à partir de mesures
effectuées à pas de temps variables etc.
Le traitement des données inclut aussi le contrôle primaire des données qui comprend les contrôles de cohérence à l'exclusion de tous traitements
statistiques. Il s'agit par exemple, dans le cas d'une acquisition manuelle des données, de les convertir en fichiers informatiques. Dans ce cas, on
procède généralement à une double saisie des données puis les fichiers sont comparés afin de déceler d'éventuelles erreurs de saisie. Dans la situation
où l'on procède à l'acquisition de données de précipitations et de débits, on vérifie encore la cohérence temporelles des données acquises, à savoir par
exemple qu'une crue est bien la conséquence d'un épisode pluvieux
8.1.3 Contrôle des données

Avant de pouvoir exploiter les données et bien qu'elles soient dans un format adéquat, il importe de contrôler la fiabilité et la précision de ces dernières.
Le contrôle permet de valider les données avant leur organisation au sein d'une banque de données pour leur mise à disposition à des fins
opérationnelles. Lors de cette opération, on introduit des indices de qualité de la donnée ainsi que des indices indiquant que celle-ci est reconstituée,
calculée voire manquante. Par exemple, le logiciel CODEAU utilise pour ce faire toute une série d'indice ou flags permettant de qualifier des données
présentant une rupture de continuité, une ou plusieurs mauvaises valeurs, des valeurs manquantes ou à vérifier etc.
8.1.4 Organisation des données

Au vu de l'importance quantitative et qualitative des données, il importe de les organiser avec soin. Ceci se fait à partir d'un corpus de documents
originels (formulaires de terrain, diagrammes, unité de stockage électronique) constituant les archives qui sont en règle générale accessibles uniquement
à un personnel spécifique (responsable du centre de collecte, archiviste…). La traduction des archives sous la forme de fichiers de base génère les
"fichiers en l'état" et fournit une indication sur la provenance de la donnée (mesure, calcul, copie etc.) ainsi que sur sa qualité (fiable, complète ou non) et
sa précision. Enfin, on constitue un fichier de travail provisoire permettant une visualisation des données et permettant de procéder aux différents tests
de qualité et de précision des données qui seront développés tout au long de ce chapitre. L'élément ultime de cette chaîne opératoire est la constitution
des fichiers opérationnels avec indices de qualité pouvant être publiés et distribués auprès des utilisateurs.
8.1.5 Diffusion et publication

La diffusion des données en vue de leur utilisation opérationnelle peut-être faite selon deux modes :
Publication papier : Il s'agit par exemple de la publication d'annuaires comme l'annuaire hydrologique de la Suisse ou de bulletins journaliers
tels ceux émis par MétéoSuisse accessible par une ligne téléphonique (fax).
Diffusion informatique : Actuellement et grâce aux développements des interfaces liées au réseau Internet, les données sont de plus en plus
accessibles de manière conviviale et en tout temps. Le site de MétéoSuisse (http://www.meteosuisse.ch) présente notamment des cartes de
situation météorologique. L'annuaire hydrologique de la suisse est également publié par le Service hydrologique et géologique national :
https://www.bafu.admin.ch/bafu/fr/home/etat/donnees/geodonnees.html.
Le shéma suivant présente les différentes étapes de la chaîne d'acquisition et de traitement des données :
http://echo2.epfl.ch/e-drologie/chapitres/chapitre8/main.html 1/15
8.2 Le contrôle des données

La constitution d'une série de valeurs, constituant un échantillon au sens statistique du terme, est un processus long, parsemé d'embûches, et au cours
duquel de nombreuses erreurs, de nature fort différentes, sont susceptibles d'être commises.
Des erreurs peuvent en effet être perpétrées lors de l'une ou de l'autre des quatre phases du déroulement classique des opérations, à savoir : la
mesure ; la transmission de l'information ; le stockage de l'information ; le traitement de l'information (prétraitement et analyse). Il est donc indispensable,
avant d'utiliser des séries de données, de se préoccuper de leur qualité et de leur représentativité en utilisant diverses techniques en général de type
statistique ou graphiques.
Une erreur de mesure est définie comme étant la différence entre la vraie valeur (qui est l'idéal recherché, mais qui n'est en principe et malheureusement
jamais connue) et la valeur mesurée. Il est commode, tant pour les présenter que pour différencier la façon de les aborder, de considérer deux types
d'erreur : les erreurs aléatoires et les erreurs systématiques.
Les erreurs aléatoires (ou accidentelles) - Elles affectent la précision des données et sont non corrélées. Ce type d'erreur est dû à des raisons
nombreuses et variées, généralement inconnues, affectant différemment chaque mesure individuelle. Généralement on considère que ces
erreurs sont les réalisations d'une variable aléatoire normale centrée en 0 et de variance s 2. Ces erreurs étant inévitables, il faut en estimer
l'importance afin de pouvoir en tenir compte lors de l'évaluation de l'incertitude finale. Dans la mesure du possible, la technique de mesure
induisant les erreurs aléatoires les plus faibles devrait être préférée.
les erreurs systématiques - Elles affectent la fiabilité des données et sont totalement corrélées. On parle aussi d'inconsistance. Supposons
qu'aucune erreur aléatoire n'affecte les mesures. La différence entre la vraie valeur et la valeur mesurée, si elle existe, est alors due à une erreur
systématique. L'origine des erreurs systématiques est le plus souvent liée à la calibration de l'appareil de mesure qui n'est pas parfaite ou à un
phénomène extérieur qui perturbe la mesure (erreur d'appareillage, changement d'observateur…).
8.3 Recherche des erreurs et corrections des mesures

Selon la nature des erreurs constatées ou supposées la recherche de ces dernières fait appel à différentes techniques et méthodes
« in situ » qui consiste à vérifier sur place la manière dont les données ont été organisées, traitées et/ou transformées.
Investigation de bureau qui consiste à vérifier la chaîne de traitement de la mesure/donnée à chaque étape de son élaboration, tout comme la
manière dont on a constitué les séries de données soumises à contrôle et/ou publication.
Investigation statistique qui, à l'aide d'outils spécifiques, permet de mettre en évidence certaines erreurs ou inconsistance. Ces techniques
efficientes ont largement été utilisées dans la pratique professionnelle et se basent sur des hypothèses spécifiques qu'il convient de bien
connaître.
Hypothèses de l'analyse statistique :
Les calculs statistiques sont basés sur un certain nombre d'hypothèses qui doivent en principe être vérifiées. Parmi celles-ci, citons :
Les mesures reflètent les vraies valeurs - Cette hypothèse n'est malheureusement jamais réalisée en pratique, du fait des erreurs
systématiques ou aléatoires.
Les données sont consistantes - Aucune modification dans les conditions internes du système n'intervient durant la période d'observation
(position du pluviomètre, procédures d'observation, observateur unique).
La série de données est stationnaire - Les propriétés de la loi statistique qui régit le phénomène (moyenne, variance ou moments d'ordre
supérieur) sont invariantes au cours du temps.
Les données sont homogènes - Une série de données est réputée non homogène lorsque:
elle provient de la mesure d'un phénomène dont les caractéristiques évoluent durant la période de mesure; le phénomène est alors dit non-
stationnaire (par exemple: variations climatiques, variations du régime des débits dues à une déforestation ou un reboisement). Il est également
possible d'observer des signes d'une non stationnarité apparente lorsque l'électronique intégrée à l'équipement de mesure présente une dérive
temporelle ou lors du changement de l'observateur.
elle reflète deux ou plusieurs phénomènes différents. Le régime d'une rivière à l'aval de la confluence de deux sous bassins dont le
comportement hydrologique est très contrasté constitue un bon exemple de ce défaut d'homogénéité.
La série de données est aléatoire et simple - Le caractère aléatoire et simple d'une série d'observations est une hypothèse fondamentale pour
l'analyse statistique. Un échantillon aléatoire signifie que tous les individus de la population ont la même probabilité d'être prélevés. Un
échantillon simple signifie que le prélèvement d'un individu n'influe pas la probabilité d'apparition des individus suivants. Autrement dit, si toutes
les observations de la série sont issues de la même population et qu'elles sont indépendantes entre elles, la série est alors aléatoire et simple.
La non vérification du caractère aléatoire et simple peut avoir plusieurs causes, parfois simultanément. Ces causes se groupent en deux
catégories, les défauts d'autocorrélation d'une part (caractère non aléatoire des séries) et les défauts de stationnarité du processus d'autre part
(dérive à long terme et dérive cyclique).
La série doit être suffisamment longue - La longueur de la série influe sur les erreurs d'échantillonage, notamment sur le calcul des moments
d'ordre supérieurs donc sur les tests inhérents à leur fiabilité.
8.4 Introduction aux tests statistiques

8.4.1 Démarche d'un test : exemple introductif - Les faiseurs de pluie
Cet exemple est adapté de G. Saporta, Probabilités, Analyse des données et statistique, Technip, 1990. Des relevés effectués pendant de nombreuses
années ont permis d'établir que la hauteur annuelle des pluies dans la Beauce (France) [en mm] suit une loi normale N(600, 100). Des entrepreneurs,
surnommés faiseurs de pluie, prétendaient pouvoir augmenter de 50 mm le niveau moyen de pluie, ceci par l'insémination des nuages au moyen d'iodure
d'argent et au-delà augmenter le taux de production requise donc un véritable grenier français (cf. Charles Péguy). Leur procédé fut mis à l'essai entre
1951 et 1959 et on releva les hauteurs de pluies suivantes (tableau 8.1) :
Tableau 8.1 - Hauteur annuelle des pluies dans la Beauce (France) [en mm] de 1951 et 1959.
Année 1951 1952 1953 1954 1955 1956 1957 1958 1959
mm 510 614 780 512 501 534 603 788 650
Que pouvait-on en conclure ? Deux hypothèses s'affrontaient. Ou bien l'insémination était sans effet, ou bien elle augmentait réellement le niveau moyen
de pluie de 50 mm. Ces hypothèses pouvaient se formaliser comme suit,
si m désigne l'espérance mathématique de X variable aléatoire égale à la hauteur annuelle de pluie, on formule alors les hypothèses suivantes :
Les agriculteurs hésitant à opter pour le procédé forcément onéreux des faiseurs de pluie tenaient pour l'hypothèse H0 et il fallait donc que l'expérience
puisse les convaincre ; c'est-à-dire que les faits observés contredisent nettement la validité de l'hypothèse H0 dite « hypothèse nulle » (H1 est l'hypothèse
alternative).
Ils choisirent a=0,05 comme niveau de probabilité, c'est-à-dire qu'ils étaient prêts à accepter H1 si le résultat obtenu faisait partie d'une éventualité
improbable qui n'avait que 5 chances sur 100 de se produire. Autrement dit, ils admettaient implicitement que des événements rares ne sauraient se
produire sans remettre en cause le bien-fondé de l'hypothèse de départ H0 ; ce faisant, ils assumaient le risque de se tromper dans 5 cas sur 100, cas où
précisément les événements « rares » arrivent quand même.
Comment décider ? Puisqu'il s'agit de « tester » la valeur il est naturel de s'intéresser à moyenne des observations qui nous apporte le plus de
renseignements sur . est la « variable de décision ».
Si est vraie, comme l'expérience a porté sur ans, doit suivre une loi normale :
En principe, de grandes valeurs de sont improbables et on prendra comme règle de décision la suivante : si est trop grand, c'est-à-dire si est
supérieur à un seuil qui n'a que 5 chances sur 100 d'être dépassé, on optera pour H1 avec une probabilité 0,05 de se tromper. Si on ne pourra
pas rejeter H0 faute de preuves suivantes. est appelé valeur critique.
Il est facile de calculer la valeur critique grâce aux tables de la loi normale et on trouve :
La règle de décision est donc la suivante :
Si , repousser H0 ,et accepter H1 ;
Si , conserver H0.
L'ensemble d'événements s'appelle la région critique ou région de rejet de H0. L'ensemble complémentaire s'appelle la région
de non rejet de H0. Or les données relevées indiquent que =610,2 mm. La conclusion était donc de conserver H0 ;c'est-à-dire que l'insémination était
sans effet notable sur le niveau des pluies : les valeurs observées pouvaient donc être dues au hasard en l'absence de toute influence de l'iodure
d'argent. Cependant, rien ne dit que ne pas rejeter H0 mette à l'abri de se tromper : en effet, les faiseurs de pluie ont peut-être raison, mais on ne s'en est
pas aperçu.
Il y avait en fait deux manières de se tromper : croire les faiseurs de pluie, alors qu'ils n'étaient pour rien dans le résultat obtenu (probabilité ;
ne pas croire les faiseurs de pluies, alors que leur méthode est bonne et que seul le hasard (malencontreux pour eux), dû au faible nombre
d'observations, a donné des résultats insuffisants pour convaincre les agriculteurs.
Supposons que les faiseurs de pluie ont raison, on commet alors une erreur chaque fois que prend une valeur inférieure à 655 mm, c'est-à-dire avec
une probabilité :
ce qui est considérable.
s'appelle le risque de première espèce (probabilité de choisir H1 alors que H0 est vraie) (en l'occurrence 5% dans cet exemple);
s'appelle le risque de deuxième espèce (probabilité de conserver H0, alors que H1 est vraie) (c'est-à-dire 56% dans cette application).
Ces erreurs correspondent à des risques différents en pratique ; ainsi dans l'exemple des faiseurs de pluie le risque de première espèce consiste à
acheter un procédé d'insémination qui ne vaut rien ; le risque de deuxième espèce à laisser perdre une occasion d'augmenter le niveau de pluie et peut-
être de récoltes plus abondantes. Dans la pratique des tests statistiques, il est de règle de se fixer comme donnée (les valeurs courantes sont par
exemple 0,05 ; 0,01 ou 0,1) de préférence en fonction du risque de première espèce couru, ce qui fait jouer à H0 un rôle prééminent.
Sur la base de cet exemple, la démarche d'un test peut se résumer comme suit :
Formulation et choix de H0 et de H1.
Détermination de la variable de décision.
Calcul de la valeur critique et de la région critique en fonction de .
Calcul de la valeur expérimentale de la variable de décision.
Conclusion : rejet ou acceptation de H0.
8.4.2 Les grandes catégories de tests

On peut classer les tests soit selon leur objet (but) ou selon leurs propriétés mathématiques.
8.4.2.1 Tests selon leurs propriétés mathématiques
Un test est dit paramétrique si son objet est de tester certaines hypothèses relatives à un ou plusieurs paramètres d'une variable aléatoire de loi
spécifiée. Dans la plupart des cas, ces tests sont basés sur la considération de la loi normale et supposent donc explicitement l'existence d'une variable
aléatoire de référence suivant une loi normale. La question se pose alors de savoir si les résultats restent encore valables lorsque n'est pas
normale : si les résultats sont valables on dit que le test en question est robuste. La robustesse d'un test par rapport à un certain modèle est donc la
qualité de rester relativement insensible à certaines modifications du modèle. Un test est dit non paramétrique s'il ne fait pas appel à des paramètres ou
d'hypothèses précises concernant la distribution sous-jacente.
8.4.2.2 Tests selon leur objet
Les tests sont généralement classés en quatre groupes principaux qui contiennent la plupart des tests statistiques généralement utilisés en hydrologie.
Test de conformité : comparaison d'une caractéristique d'un échantillon à une valeur de référence, destinée à vérifier si la caractéristique
correspondante de la population peut être admise égale à la valeur de référence. Par exemple ; est la valeur de référence (ou
norme), est la moyenne, inconnue, de la population.
Test d'homogénéité ou test de comparaison d'échantillons: Etant donné deux échantillons de taille et , peut-on admettre qu'ils ont été
prélevés dans une même population indépendamment l'un de l'autre ?
Mathématiquement le problème se formalise de la manière suivante : on observe sur le premier échantillon les réalisations d'une variable aléatoire
de fonction de répartition et sur le deuxième échantillon les réalisations d'une variable aléatoire de fonction de répartition .
On veut tester :
Le choix de est dicté par des considérations pratiques car est trop vague pour obtenir une région critique. Dans la pratique on se
contentera de vérifier l'égalité des espérances mathématiques et des variances de et , en disposant de , et moyennes et variances
empiriques des deux échantillons.
Test d'ajustement : vérifier si un échantillon donné peut être considéré comme tiré d'une population-parente spécifiée.
Test d'autocorrélation : vérifier si une dépendance (due à la proximité dans le temps par exemple) existe dans des données chronologiques
d'une série d'observations.
L'autocorrélation de décalage , d'une série temporelle stationnaire est définie par :
(8.1)
L'autocovariance = est estimée au moyen d'une série de observations par :
(8.2)
L'autocorrélation est une mesure de la mémoire, donc de la persistance, du phénomène.
8.4.2.3 Tests selon la nature des informations
En hydrologie diverses situations peuvent se rencontrer en fonction des situations hydrologiques particulières. Ainsi il est parfois nécessaire de contrôler
un seul type de données (pluie, température, évaporation) à l'échelle locale (à l'endroit où la mesure a été effectuée) ou à l'échelle régionale (d'un bassin
versant où plusieurs sites de mesures ont été établis). Il est également parfois souhaitable de vérifier la qualité de plusieurs types de données (par exp.
pluie-débit, température-vitesse du vent…) aussi bien à l'échelle locale que régionale. Ainsi divers contrôles de données, recoupant à la fois des tests
numériques (strictement statistiques) et graphiques (à caractère plus hydrologique), peuvent être classés en 4 grands groupes selon l'échelle spatiale et
le nombre de paramètres considérés : 1 paramètre – échelle locale ; 1 paramètre – échelle régionale ; plusieurs paramètres – échelle locale ; plusieurs
paramètres – échelle régionale.
8.5 Contrôle des données : application au débit de la Viege

Les divers test exposés ci-dessous vont être appliqués à l'aide du jeu de données suivant représentant les débits de pointe annuels en m3/s de la Viège
à Viège de 1922 à 1996 (tableau 8.2). Cette série de débits possède la particularité qu'un changement de nature anthropique a eu lieu en 1964. En effet,
à cette date, un barrage a été construit en amont du point de mesure (barrage du Mattmark)
Tableau 8.2 - Débits de pointe annuels en m3/s de la Viège à Viège de 1922 à 1996.
année Qp annuel année Qp annuel année Qp annuel

[m3/s] [m3/s] [m3/s]
1922 240 1947 210 1971 150
1923 171 1948 375 1972 140
1924 186 1949 175 1973 115
1925 158 1950 175 1974 87
1926 138 1951 185 1975 105
1927 179 1952 140 1976 92
1928 200 1953 165 1977 88
1929 179 1954 240 1978 143
1930 162 1955 145 1979 89
1931 234 1956 155 1980 100
1932 148 1957 230 1981 168
1933 177 1958 270 1982 120
1934 199 1959 135 1983 123
1935 240 1960 160 1984 99
1936 170 1961 205 1985 89
1937 145 1962 140 1986 125
1938 210 1963 150 1987 285
1939 250 1964 125 1988 105
1940 145 1965 115 1989 110
1941 160 1966 100 1990 110
1942 150 1967 85 1991 115
1943 260 1968 76 1992 110
1944 235 1969 110 1993 330
1945 245 1969 110 1994 55
1946 155 1970 94 1995 63
1996 49
La figure 8.3 présente nos données sous forme de série temporelle. Les moyennes avant et après barrage sont représentés sous forme de droite.
Fig. 8.3- Débits de pointe annuels de la Viège à Viège [m3/s] de 1922 à 1996.
Les principales caractéristiques statistiques des deux sous séries avant et après barrage ainsi que de la série complète sont résumées dans le tableau
ci-dessous (tableau 8.3) :
Tableau 8.3 - Principales caractéristiques statistiques des deux sous séries (avant et après barrage).
série longueur moyenne médiane écart-type asymétrie kurtosis
1922-1963 42 190.26 176 48.52 1.47 2.88
1964-1996 33 117.27 110 55.51 2.47 6.54
1922-1996 75 158.14 150 62.99 0.90 0.96
8.5.1 1 paramètre – échelle locale

Il s'agit par exemple de tester la série de débits de pointe ci-dessus (1 paramètre) à l'endroit où ils ont été mesurés donc à Viège (échelle locale) .
8.5.1.1 Tests paramétriques
Tests de conformité
Les tests de conformité comparent la moyenne ou la variance d'un échantillon à la moyenne ou la variance de la loi théorique (de la population dont il est
issu). Deux tests sont utilisés pour la conformité de la moyenne selon que la variance est connue ou doit être estimée, il s'agit respectivement des test z
et de Student (appelé aussi test t). Pour ces tests statistiques de base, le lecteur se référera à un ouvrage général de statistiques (exp. S. Morgenthaler,
Introduction à la Statistique, PPUR, 1997, p.129).
Exemple : On aimerait tester si la moyenne des débits de pointe de la Viège à Viège pour la période avant barrage est égale à 200 m3/s.
Pour tous les tests ci-dessous le seuil de signification choisi est . Nous avons donc :
Comme la variance n'est pas connue, nous utilisons le test t de Student. Le score est donné par :
= .
Comme le test est bilatéral la valeur critique est donnée par le quantile à 97,5% d'une loi t de Student à degrés de liberté.
Nous avons qt41(97,5 %)=2,01 (cf. tables) et . On ne peut donc pas rejeter l'hypothèse nulle que la moyenne des débits
3
est égale à 200 m /s.
Pour la conformité de la variance on se base sur l'étude de la distribution d'échantillonnage de l'écart par comparaison du
rapport des variances. La fonction discriminante suit une loi du chi-carré. La procédure de ce test est résumée dans le tableau ci-dessous.
Tableau 8.4 : Procédure du test de conformité pour la variance
Etapes Hypothèses alternatives
H0:
H1:
Fonction
discriminante , suit une loi du chi-carré à degrés de liberté
Non rejet de
H0:
Exemple : Un hydrologue vous affirme que la variance des débits de pointe de la Viège à Viège de 1922 à 1963 est de
(soit ). Votre expérience d'hydrologue vous incite à penser que celle-ci est en fait supérieure à la valeur donnée par votre collègue.
Nous avons dans ce cas :
a fonction discriminante : =61,80.
Comme le test est unilatéral à droite, le quantile à considérer est le quantile à 95%. Comme les tables numériques nous indiquent que qc
2
41(95%) = 56,94<61,80, on rejette l'hypothèse nulle. Votre intuition d'hydrologue s'avère correcte !
Tests d'homogénéité
Le test d'homogénéité de la moyenne se base sur la statistique de Student pour deux échantillons tandis que le test d'homogénéité de la variance
correspond au test de Fisher-Snedecor. Dans ce cas également le lecteur se référera à un ouvrage classique de statistique (exp. P. Meylan et A. Musy,
Hydrologie Fréquentielle, polycopié, EPFL, 1998, annexe e-12 et e-13).
Exemple : Motivée par le fait qu'une intervention humaine a eu lieu sur le bassin versant de la Viège en 1964, la série de débits de
pointes est séparée en deux échantillons :
(débits de pointe de 1922 à 1963)
et (débits de pointe de 1964 à 1996).
Comme dans le test t de Student nous devons faire l'hypothèse que les variances sont égales mais inconnues, il est judicieux de réaliser
d'abord le test de Fisher-Snedecor.
Nous avons dans ce cas :
La fonction discriminante 1 : =1,31.
La valeur critique est Fn -1;n -1(97.5 %)=F41,32(97.5%)=1.72 (cf. tables). Comme 1,31<1,72, on ne peut pas rejeter l'hypothèse nulle que
1 2
les variances sont égales et l'on peut appliquer le test de Student pour deux échantillons.
Connaissant les effets de la construction du barrage, on peut s'attendre à avoir une diminution significative des débits pour le deuxième
échantillon, cela nous guide dans la formulation de l'hypothèse alternative pour tester l'homogénéité des échantillons à partir de la valeur
moyenne.
Nous avons ainsi :
avec :
La valeur critique est donnée par . On rejette donc l'hypothèse nulle puisque 1,66 < 5,90 et,
comme on s'y attendait, la moyenne des débits de pointe a diminué significativement après barrage.
1
En pratique pour la fonction discriminante, on met toujours au numérateur la plus grande des deux quantités n1s2x/(n1-1) et n2s2y/(n2-1),
ainsi la région critique est de la forme F>k avec k>1.
Tests d'adéquation
Le test paramétrique servant à l'adéquation, basé sur la comparaison des fréquences théoriques et effectives, est le test de chi-carré développé dans ce
cours dans l'annexe consacré à l'analyse fréquentielle.
Exemple : on se pose la question de savoir si toute notre série de débits de pointe (i.e. 1922-1996) suit une distribution normale. Posons
Z la variable aléatoire modélisant les débits.
Les deux paramètres de la loi normale sont estimés respectivement par la moyenne et la variance d'échantillonnage et on a donc :
. On répartit les observations dans 12 classes (choix arbitraire) et après calculs des effectifs
observés et théoriques, on obtient : La valeur critique nous est donnée par le quantile d'une loi chi-carré à 12-1-2=9
degrés de liberté . On ne peut donc pas rejeter l'hypothèse nulle et on conclut que nos débits
2
suivent bien une loi normale .
Fig. 8.4 - Superposition de la densité normale à l'histogramme normalisé (12 classes) de toute la série des débits
22 degrés de liberté ont été enlevés à la loi chi-carré car les deux paramètres de la loi normale ont été estimés.
Tests d'autocorrélation
Il faut tout d'abord remarquer que la façon la plus simple et la plus immédiate d'évaluer l'indépendance sérielle, adoptée dans de nombreux ouvrages
d'hydrologie statistique, consiste à calculer le coefficient d'autocorrélation de rang un de la série, et d'appliquer ensuite l'un des tests « classiques »
paramétriques ou non-paramétriques proposés pour le coefficient de corrélation rx,y « standard », à savoir :
Test de nullité du coefficient de corrélation selon Fisher .
Test de nullité du coefficient de corrélation des rangs de Spearman.
Test de nullité du coefficient de corrélation des rangs de Kendall.
Ces trois tests ont un comportement nominal tout à fait correct, lorsqu'ils sont appliqués à une série bivariée « classique », mais s'avèrent inapplicables
dans le cas du coefficient d'autocorrélation, comme cela ressort de certains développements. (cf Meylan P. et Musy A., Hydrologie Fréquentielle, Edition
HGA Bucarest, 1999).
Anderson a étudié la distribution du coefficient d'autocorrélation pour une population parente normale. Dans ce cas le coefficient d'autocorrélation est
calculé sur n paires de valeurs (x1, x2), (x2, x3), …, (xn-1, xn), et (xn , x1).
Pour une taille n « assez grande » (Anderson fixe une limite de 75 valeurs!) le coefficient d'autocorrélation suit une loi normale de moyenne et variance :
(8.3)
Pour des tailles inférieures d'échantillons la distribution est assez compliquée. Anderson donne par conséquent des tables des valeurs critiques du
coefficient de corrélation (tableau 8.5).
Exemple : Testons la nullité du coefficient d'autocorrélation de décalage 1 sur notre première série de débits.
Les hypothèses de ce test sont :
Si on estime le coefficient d'autocorrélation de décalage 1 sur nos données (1922 à 1963) on obtient : 0,002. La valeur critique étant selon
le tableau ci-dessus d'environ 0,22, on ne peut pas rejeter l'hypothèse nulle. Il est à remarquer que ce résultat était prévisible puisque
nous avons affaire à une série annuelle donc l'effet de persistance est nul.
Tableau 8.5 - Table des valeurs critiques du coefficient d'autocorrélation d'Anderson pour les tests unilatéraux. Les valeurs entre
parenthèses ont été interpolées par Anderson.
N a= 5 % a= 10 %
5 0,253 0,297
6 0,345 0,447
7 0,370 0,510
8 0,371 0,531
9 0,366 0,533
10 0,360 0,525
11 0,353 0,515
12 0,348 0,505
13 0,341 0,495
14 0,335 0,485
15 0,328 0,475
20 0,299 0,432
25 0,276 0,396
30 0,257 0,370
(35) 0,242 0,347
(40) 0,229 0,329
45 0,218 0,314
(50) 0,208 0,301
(55) 0,199 0,289
(60) 0,191 0,278
(65) 0,184 0,268
(70) 0,178 0,259
75 0,173 0,250
8.5.1.2 Tests non paramétriques
Il est rappelé que les tests non paramétriques ne font pas appel à des paramètres ou d'hypothèses précises concernant la distribution sous-jacente.
Tests de conformité
Le test de conformité de la moyenne classique non paramétrique est le test de Wilcoxon pour un échantillon (cf. S. Morgenthaler, Introduction à la
Statistique, PPUR, 1997, p. 255).
Nous allons reprendre les mêmes hypothèses que dans le cas paramétrique ci-dessus (test de Student) :
Le score de Wilcoxon pour un seul échantillon est :
W+=signe(x1-norme)R+( x1-norme)+…+signe(xn-norme)R+( xn-norme) (8.4)
Où : R+ est le rang signé (i.e.) le rang de la valeur absolue de l'observation signe (u)
Exemple : On obtient dans notre cas W+ = 497. Pour un échantillon de taille supérieur à 15, l'approximation normale suivante est
possible :
Et = 608
Comme 497<608, on ne peut pas rejeter l'hypothèse nulle que la moyenne de ces débits de pointe est de 200 m3/s.
Tests d'homogénéité
a) Test de Wilcoxon
Pour tester l'homogénéité de données issues de deux populations on utilise les deux statistiques équivalentes de Mann-Whitney et
Wilcoxon (cf. S. Morgenthaler, Introduction à la Statistique, PPUR, 1997, p.251), ainsi que le test de la médiane.
Exemple : test de Wilcoxon pour deux échantillons. Comme on s'attend à avoir une diminution significative des débits après 1964,
on pose les hypothèses suivantes :
Les débits en gras sont ceux de la deuxième série.
débits 49 55 63 76 … 125 125 135 138 … 270 285 330 375
rang 1 2 3 4 … 26.5 26.5 28 29 … 72 73 74 75
La statistique de Wilcoxon est la somme des rangs du premier échantillon. On a donc :
et =676.
Pour , on utilise l'approximation suivante :
La valeur critique est 1750. Comme , on rejette l'hypothèse nulle ce qui est conforme à notre attente.
b) Test de la médiane
Soit un échantillon de n valeurs (série chronologique par exemple) de médiane (une variante consiste à utiliser la
moyenne ). Chaque observation est affectée d'un signe + si elle est supérieure à la médiane, d'un signe - dans le
cas contraire. Tout groupe de valeurs « + » est une séquence positive (ou suite positive), et tout groupe de valeurs « – »
est une séquence négative (ou suite négative).Il s'agit de déterminer le nombre total de séquences positives ou
négatives ainsi que , la taille de la plus longue de ces suites.
On sait alors que : et que suit une loi binomiale.
Pour un seuil de signification compris entre 91 et 95%, les conditions de vérification du test sont les suivantes :
et (8.5)
Si ces conditions sont vérifiées, la série est homogène.
Exemple : On veut vérifier l'homogénéité de la série des débits de pointe de la Viège sur la période totale d'observation.
débits 240 171 186 158 … 145 155 230 270 330 55 63 49
signe + + + + … - + + + + - - -
On a que et 9. Comme < =29.5, on rejette l'hypothèse nulle
Tests d'autocorrélation
A la suite des travaux d'Anderson, Wald et Wolfowitz ont développé un test non paramétrique du coefficient d'autocorrélation.
La statistique du test est calculée comme :
(8.6)
Pour n «suffisamment grand», cette statistique suit une distribution normale de moyenne et de variance :
(8.7)
avec: . (8.8)
8.5.2 1 paramètre – échelle régionale

Ces méthodes s'appliquent par exemple pour contrôler des données pluviométriques à plusieurs stations situées dans un bassin versant.
Les deux tests développés dans ce paragraphe sont essentiellement utilisés en hydrologie. Leur but spécifique est de comparer un ou plusieurs
échantillons, acquis à des stations voisines, afin de déceler une éventuelle inhomogénéité (dont la cause la plus classique est une modification de l'une
des stations, par exemple, le déplacement du pluviomètre).
8.5.2.1 Méthode du double cumul
Le principe de la méthode consiste à vérifier la proportionnalité des valeurs mesurées à deux stations. L'une des stations (station X) est la station de
base ou station de référence, supposée correcte. L'autre station (Y) est la station à contrôler. Un effet de lissage est obtenu en comparant, au pas de
temps choisi (année, saison, mois, décade), non pas les valeurs observées, mais leur cumul. La méthode est d'un concept extrêmement simple, puisqu'il
suffit de tracer un graphe des quantités :
(8.9)
Exemple : Nous voulons tester graphiquement l'homogénéité des données des débits de pointe de la Viège à Viège. Pour cela, nous
allons utiliser comme station de référence, les débits du Rhône à Brigue (après s'être assuré que cette série ne présente pas
d'inhomogénéité).La figure 8.5 ci-dessous présente l'application de la méthode des doubles cumuls dans ce cadre. Elle nous montre une
nette cassure de pente à la station que l'on désire contrôler à partir de 1964. Cette méthode est capable de détecter une anomalie (la
construction du barrage).
La méthode du double cumul a l'avantage d'être simple, bien connue de tous et très rapidement réalisable. Par contre, l'interprétation des
graphes obtenus n'est pas toujours aisée et, surtout, la méthode ne propose aucune graduation en probabilité des défauts constatés: un
test, au sens statistique, est donc exclu. Enfin , elle permet de détecter l'erreur mais pas de la corriger, du moins pas directement. Après
une analyse approfondie d'une situation critique constatée, une correction peut être toutefois envisagée.
Fig. 8.5 - Exemple d'application pratique de la méthode du double cumul.
8.5.2.2 Méthode du cumul des résidus
La méthode du cumul des résidus, due à Philippe Bois de l'Ecole nationale supérieure d'hydraulique de Grenoble, est une extension de l'idée de la
méthode du double cumul, à laquelle elle ajoute un contenu statistique autorisant la pratique d'un véritable test d'homogénéité : c'est donc un progrès
décisif.
A nouveau pour une série double de valeurs xi (série de base) et yi (série à contrôler), l'idée de base consiste à étudier, non pas directement les valeurs
xi et yi (ou Sxi et Syi) mais les cumuls des résidus e i de la régression linéaire de y en x :
(8.10)
ou encore : - . (8.11)
La figure 8.6 ci-dessous présente une telle régression.
Fig 8.6 - Diagramme de dispersion des débits de pointe annuels du Rhône à Brigue et de la Viège à Viège (1922-1996)
De la théorie classique de la régression il découle que la somme des résidus est nulle par construction et que leur distribution est normale, d'écart-type :
(8.12)
où r est le coefficient de corrélation linéaire entre X et Y .
Pour un échantillon d'effectif n, le cumul des résidus est défini comme :
(8.13)
Le report graphique des résidus cumulés Ej (en ordonnée) en fonction des numéros d'ordre j des valeurs (en abscisse, j = 0 à n, avec E0 = 0) devrait,
pour une corrélation avérée entre X et Y, donner une ligne partant de 0, oscillant aléatoirement autour de zéro entre j = 0 et j = n, et aboutissant à 0 pour j
= n. La présence d'une inhomogénéité se manifeste par des déviations non aléatoires autour de la valeur nulle.
Bois a décrit et testé de nombreux types d'inhomogénéités. Il a en outre montré que, pour un niveau de confiance 1 - a choisi, le graphe des Ej en
fonction de j ( j = 0 à n ) doit être inscrit dans une ellipse de grand axe n et de demi petit axe :
avec est le ème quantile de la loi normale centrée réduite. (8.14)
Ces développements fournissent un véritable test de l'homogénéité de deux stations.
La figure 8.7 présente le test de Bois effectué pour les données des deux stations utilisées précédemment. Les résidus ont été cumulés en partant de
1996, le dernier résidu étant celui de 1922. Les résidus sont décroissants pendant les 32 dernières années, avant de devenir croissants: l'anomalie se
situe donc autour de 1996-32=1964, ce qui a déjà été constaté avec la méthode du double cumul.
Fig. 8.7 - Résultat du test de Bois pour les débits de pointe annuels de la Viège à Viège avec comme série de référence les débits du Rhône à Brigue, Ellipse de
confiance à 95 %.
8.5.3 Plusieurs paramètres – échelle locale

Cette méthode est basée sur les relations existant entre certaines grandeurs hydrologiques telles que les précipitations et les débits ou la température et
l'humidité relative de l'air. Si on suppose cette relation connue, ou tout au moins approchée à l'aide de modèles divers (physiques ou mathématiques), il
est possible de détecter les données qui ne cadrent pas avec cette relation.
8.5.4 Plusieurs paramètres – échelle régionale

Les méthodes qui prévalent à ce niveau sont d'ordre hydrologique ou statistique, selon les cas envisagés.
8.5.4.1 Méthode des bilans
L'équation simplifiée du bilan hydrologique (cf. chapitre 1) est la suivante :
(8.15)
Avec :
: précipitations ;
: ruissellement ;
: évapotranspiration ;
: variation de stockage.
Un contrôle possible des données est de mesurer tous les paramètres du bilan et vérifier l'égalité : si , alors on déduit que . La
mesure de la pluie et de l'écoulement nous donne une évaluation du degré de vraisemblance de l'évapotranspiration. Si celui-ci n'est pas acceptable, on
se doit alors de vérifier les données de pluie et de ruissellement.
Une autre analyse possible consiste à estimer grossièrement le coefficient de ruissellement (Cr=R/P) (cf. chapitre 2), d'évaluer sa vraisemblance en
regard des caractéristiques du bassin versant ou alors de vérifier si le calcul obtenu avec les données pluie-débit donne un résultat similaire. Dans le cas
où le calcul du coefficient de ruissellement donne des valeurs a priori aberrantes (par exemple supérieures à l'unité), l'erreur à priori est manifeste. Cette
erreur a aussi des chances de provenir de la non concordance des bassins topographiques et hydrogéologiques, à défaut d'une erreur sur les données
de pluie et de débit.
8.5.4.2 Méthode des débits spécifiques maximaux
Un autre exemple de contrôle hydrologique simple est celui qui utilise les débits spécifiques maximaux. On sait que ces débits spécifiques varient de
manière inversément proportionnelle à la surface sur laquelle ils sont calculés. Ainsi, si on dispose de plusieurs stations hydrométriques sur un même
réseau hydrographique, on peut tracer la courbe décroissante qmax = f(A). Si un des points, correspondant à une station n'est pas « hydrologiquement »
bien placé il y a lieu de craindre une erreur (figure 8.8). Cependant il faut être attentif au fait que cette erreur ne provient pas forcément d'une mauvaise
mesure du débit, elle peut provenir d'une erreur d'estimation de la superficie des bassins versants !
Fig. 8.8 - Méthode des débits spécifiques maximaux : visiblement une erreur est présente dans le débit spécifique de la station 4. Il s'agit alors de chercher à découvrir
les sources de cette erreur.
8.5.4.3 Méthodes statistiques multivariées
Souvent, lors de l'étude d'un phénomène hydrologique, on observe une multitude de variables différentes qui pourraient potentiellement offrir un intérêt.
Dans ce cas on peut faire appel à des méthodes statistiques multivariées. Parmi ces méthodes on trouve l'analyse en composantes principales et
l'analyse factorielle.
Le principe de l'analyse en composantes principales (ACP) est d'obtenir une représentation approchée d'une nuage de individus dans un sous-
espace de dimension faible. Ceci s'effectue par une projection. L ‘ACP construit de nouvelles variables, artificielles, et des représentations
graphiques permettant de visualiser les relations entre variables, ainsi que l'existence éventuelle de groupes d'individus et de groupes de
variables. Il est à remarquer de l'interprétation des résultats est une phase délicate qui doit se faire en respectant une démarche.
L'analyse factorielle est un modèle mathématique qui tente d'expliquer les corrélations entre un grand nombre de variables par un nombre
restreint de facteurs correspondants. Une hypothèse fondamentale de l'analyse factorielle est qu'il n'est pas possible d'observer ces facteurs
directement ; les variables dépendent des facteurs mais sont également sujettes à des erreurs aléatoires.
8.5.5 Estimation des données manquantes, correction des données

On peut estimer les données manquantes ou erronées à une station à partir des valeurs provenant des stations voisines soumises aux mêmes
conditions climatiques et situées dans la même zone géographique. Trois méthodes sont proposées pour les données pluviométriques :
remplacer la valeur manquante par celle de la station la plus proche ;
remplacer la valeur manquante par la moyenne des stations voisines. Cette méthode est utilisée lorsque les précipitations moyennes annuelles
de la station à compléter ne diffèrent pas de plus de 10% des précipitations moyennes annuelles aux stations de référence.
remplacer la valeur manquante par une moyenne pondérée par la tendance annuelle des stations pluviométriques, soit :
(8.16)
Où :
: donnée manquante de précipitation (par exemple), estimée
: nombre de stations de référence,
: précipitation à la station de référence ,
: précipitation moyenne à long terme de la station ,
: précipitation moyenne à long terme de la station de référence .
Pour reconstituer des données de hauteurs d'eau, on peut utiliser des critères de proportionnalité analogues dans le cas de stations limnimétriques
placées sur un même cours d'eau (transposition géographique, conservation des volumes,…).
Les méthodes basées sur l'analyse de régressions et corrélations (relations pluie-pluie ou pluie-débit, relations inter-postes) sont utilisées à cet effet.
Le calcul de la régression se fait en déterminant les valeurs des paramètres de la relation entre la variable expliquée et la ou les variables explicatives.
Cette régression peut être simple ou multiple.
Exemple :
Soit Y une variable hydrométéorologique dont on connaît valeurs : y1, y2, …, yn.
Soit X une autre variable observée de façon concomitante, avec les observations x1, x2, …, xn.
mais on possède par ailleurs (sur une période d'observation antérieure par exemple) réalisations complémentaires
Il s'agit de reconstituer les valeurs manquantes , concomitantes aux valeurs de la série complémentaire
comme illustré par la figure ci-dessous.
Fig. 8.9 - Reconstitution des séries manquantes.
Une méthode générale consiste à utiliser un modèle linéaire de régression du type :
(8.17)
On estime les paramètres et sur la série de couples connus.
On peut alors estimer les valeurs complémentaires pour chaque connu ( , à partir de la relation estimée :
(8.18)
Notons que cette méthode néglige la dispersion naturelle des autour de la droite de régression ; on diminue ainsi la dispersion des
valeurs reconstituées et on fausse la distribution statistique de l'échantillon complet. Il est nécessaire d'ajouter à la valeur moyenne
conditionnelle yi donnée par la formule précédente, un écart aléatoire simulé d'écart-type estimé s e , obtenu à partir de la loi de
probabilité de e .

Cours Hydrologie Générale - CH 08

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Hydrologie Générale - CH 08

Transféré par

Droits d'auteur :

Formats disponibles

22/08/2017 Chapitre 8 - L'organisation et le contrôle des données

8.1 L'organisation des données

8.1.1 Acquisition des données

8.1.2 Traitement primaire des données

8.1.3 Contrôle des données

8.1.4 Organisation des données

8.1.5 Diffusion et publication

8.2 Le contrôle des données

8.3 Recherche des erreurs et corrections des mesures

Hypothèses de l'analyse statistique :

8.4 Introduction aux tests statistiques

mm 510 614 780 512 501 534 603 788 650

La règle de décision est donc la suivante :

Si , repousser H0 ,et accepter H1 ;

ce qui est considérable.

Formulation et choix de H0 et de H1.

Détermination de la variable de décision.

Calcul de la valeur critique et de la région critique en fonction de .

Calcul de la valeur expérimentale de la variable de décision.

Conclusion : rejet ou acceptation de H0.

8.4.2 Les grandes catégories de tests

8.4.2.1 Tests selon leurs propriétés mathématiques

8.4.2.2 Tests selon leur objet

L'autocorrélation de décalage , d'une série temporelle stationnaire est définie par :

L'autocovariance = est estimée au moyen d'une série de observations par :

L'autocorrélation est une mesure de la mémoire, donc de la persistance, du phénomène.

8.4.2.3 Tests selon la nature des informations

8.5 Contrôle des données : application au débit de la Viege

année Qp annuel année Qp annuel année Qp annuel

1922 240 1947 210 1971 150

1923 171 1948 375 1972 140

1924 186 1949 175 1973 115

1925 158 1950 175 1974 87

1926 138 1951 185 1975 105

1927 179 1952 140 1976 92

1928 200 1953 165 1977 88

1929 179 1954 240 1978 143

1930 162 1955 145 1979 89

1931 234 1956 155 1980 100

1932 148 1957 230 1981 168

1933 177 1958 270 1982 120

1934 199 1959 135 1983 123

1935 240 1960 160 1984 99

1936 170 1961 205 1985 89

1937 145 1962 140 1986 125

1938 210 1963 150 1987 285

1939 250 1964 125 1988 105

1940 145 1965 115 1989 110

1941 160 1966 100 1990 110

1942 150 1967 85 1991 115

1943 260 1968 76 1992 110

1944 235 1969 110 1993 330

1945 245 1969 110 1994 55

1946 155 1970 94 1995 63

série longueur moyenne médiane écart-type asymétrie kurtosis

1922-1963 42 190.26 176 48.52 1.47 2.88

1964-1996 33 117.27 110 55.51 2.47 6.54

1922-1996 75 158.14 150 62.99 0.90 0.96

8.5.1 1 paramètre – échelle locale

8.5.1.1 Tests paramétriques

Tableau 8.4 : Procédure du test de conformité pour la variance

Etapes Hypothèses alternatives

Nous avons dans ce cas :