Académique Documents
Professionnel Documents
Culture Documents
CHAPITRE 8
L'ORGANISATION ET LE CONTROLE DES DONNEES
De façon générale, pour permettre le passage de l'acquisition des données à leur utilisation effective dans le cadre d'une analyse hydrologique on
distingue les étapes suivantes : acquisition, traitement, contrôle et validation, organisation, diffusion et publication. Une collaboration entre l'Institut
d'Aménagement des Terres et des Eaux de l'EPFL et des bureaux privés a permis par exemple la création d'un logiciel complet de traitement des
données hydrologiques nommé CODEAU qui comprend une partie de ces étapes.
Le traitement des données inclut aussi le contrôle primaire des données qui comprend les contrôles de cohérence à l'exclusion de tous traitements
statistiques. Il s'agit par exemple, dans le cas d'une acquisition manuelle des données, de les convertir en fichiers informatiques. Dans ce cas, on
procède généralement à une double saisie des données puis les fichiers sont comparés afin de déceler d'éventuelles erreurs de saisie. Dans la situation
où l'on procède à l'acquisition de données de précipitations et de débits, on vérifie encore la cohérence temporelles des données acquises, à savoir par
exemple qu'une crue est bien la conséquence d'un épisode pluvieux
Publication papier : Il s'agit par exemple de la publication d'annuaires comme l'annuaire hydrologique de la Suisse ou de bulletins journaliers
tels ceux émis par MétéoSuisse accessible par une ligne téléphonique (fax).
Diffusion informatique : Actuellement et grâce aux développements des interfaces liées au réseau Internet, les données sont de plus en plus
accessibles de manière conviviale et en tout temps. Le site de MétéoSuisse (http://www.meteosuisse.ch) présente notamment des cartes de
situation météorologique. L'annuaire hydrologique de la suisse est également publié par le Service hydrologique et géologique national :
https://www.bafu.admin.ch/bafu/fr/home/etat/donnees/geodonnees.html.
Le shéma suivant présente les différentes étapes de la chaîne d'acquisition et de traitement des données :
http://echo2.epfl.ch/e-drologie/chapitres/chapitre8/main.html 1/15
22/08/2017 Chapitre 8 - L'organisation et le contrôle des données
Des erreurs peuvent en effet être perpétrées lors de l'une ou de l'autre des quatre phases du déroulement classique des opérations, à savoir : la
mesure ; la transmission de l'information ; le stockage de l'information ; le traitement de l'information (prétraitement et analyse). Il est donc indispensable,
avant d'utiliser des séries de données, de se préoccuper de leur qualité et de leur représentativité en utilisant diverses techniques en général de type
statistique ou graphiques.
Une erreur de mesure est définie comme étant la différence entre la vraie valeur (qui est l'idéal recherché, mais qui n'est en principe et malheureusement
jamais connue) et la valeur mesurée. Il est commode, tant pour les présenter que pour différencier la façon de les aborder, de considérer deux types
d'erreur : les erreurs aléatoires et les erreurs systématiques.
Les erreurs aléatoires (ou accidentelles) - Elles affectent la précision des données et sont non corrélées. Ce type d'erreur est dû à des raisons
nombreuses et variées, généralement inconnues, affectant différemment chaque mesure individuelle. Généralement on considère que ces
erreurs sont les réalisations d'une variable aléatoire normale centrée en 0 et de variance s 2. Ces erreurs étant inévitables, il faut en estimer
l'importance afin de pouvoir en tenir compte lors de l'évaluation de l'incertitude finale. Dans la mesure du possible, la technique de mesure
induisant les erreurs aléatoires les plus faibles devrait être préférée.
les erreurs systématiques - Elles affectent la fiabilité des données et sont totalement corrélées. On parle aussi d'inconsistance. Supposons
qu'aucune erreur aléatoire n'affecte les mesures. La différence entre la vraie valeur et la valeur mesurée, si elle existe, est alors due à une erreur
systématique. L'origine des erreurs systématiques est le plus souvent liée à la calibration de l'appareil de mesure qui n'est pas parfaite ou à un
phénomène extérieur qui perturbe la mesure (erreur d'appareillage, changement d'observateur…).
« in situ » qui consiste à vérifier sur place la manière dont les données ont été organisées, traitées et/ou transformées.
Investigation de bureau qui consiste à vérifier la chaîne de traitement de la mesure/donnée à chaque étape de son élaboration, tout comme la
manière dont on a constitué les séries de données soumises à contrôle et/ou publication.
Investigation statistique qui, à l'aide d'outils spécifiques, permet de mettre en évidence certaines erreurs ou inconsistance. Ces techniques
efficientes ont largement été utilisées dans la pratique professionnelle et se basent sur des hypothèses spécifiques qu'il convient de bien
connaître.
Les calculs statistiques sont basés sur un certain nombre d'hypothèses qui doivent en principe être vérifiées. Parmi celles-ci, citons :
Les mesures reflètent les vraies valeurs - Cette hypothèse n'est malheureusement jamais réalisée en pratique, du fait des erreurs
systématiques ou aléatoires.
Les données sont consistantes - Aucune modification dans les conditions internes du système n'intervient durant la période d'observation
(position du pluviomètre, procédures d'observation, observateur unique).
La série de données est stationnaire - Les propriétés de la loi statistique qui régit le phénomène (moyenne, variance ou moments d'ordre
supérieur) sont invariantes au cours du temps.
Les données sont homogènes - Une série de données est réputée non homogène lorsque:
http://echo2.epfl.ch/e-drologie/chapitres/chapitre8/main.html 2/15
22/08/2017 Chapitre 8 - L'organisation et le contrôle des données
elle provient de la mesure d'un phénomène dont les caractéristiques évoluent durant la période de mesure; le phénomène est alors dit non-
stationnaire (par exemple: variations climatiques, variations du régime des débits dues à une déforestation ou un reboisement). Il est également
possible d'observer des signes d'une non stationnarité apparente lorsque l'électronique intégrée à l'équipement de mesure présente une dérive
temporelle ou lors du changement de l'observateur.
elle reflète deux ou plusieurs phénomènes différents. Le régime d'une rivière à l'aval de la confluence de deux sous bassins dont le
comportement hydrologique est très contrasté constitue un bon exemple de ce défaut d'homogénéité.
La série de données est aléatoire et simple - Le caractère aléatoire et simple d'une série d'observations est une hypothèse fondamentale pour
l'analyse statistique. Un échantillon aléatoire signifie que tous les individus de la population ont la même probabilité d'être prélevés. Un
échantillon simple signifie que le prélèvement d'un individu n'influe pas la probabilité d'apparition des individus suivants. Autrement dit, si toutes
les observations de la série sont issues de la même population et qu'elles sont indépendantes entre elles, la série est alors aléatoire et simple.
La non vérification du caractère aléatoire et simple peut avoir plusieurs causes, parfois simultanément. Ces causes se groupent en deux
catégories, les défauts d'autocorrélation d'une part (caractère non aléatoire des séries) et les défauts de stationnarité du processus d'autre part
(dérive à long terme et dérive cyclique).
La série doit être suffisamment longue - La longueur de la série influe sur les erreurs d'échantillonage, notamment sur le calcul des moments
d'ordre supérieurs donc sur les tests inhérents à leur fiabilité.
Tableau 8.1 - Hauteur annuelle des pluies dans la Beauce (France) [en mm] de 1951 et 1959.
Année 1951 1952 1953 1954 1955 1956 1957 1958 1959
Que pouvait-on en conclure ? Deux hypothèses s'affrontaient. Ou bien l'insémination était sans effet, ou bien elle augmentait réellement le niveau moyen
de pluie de 50 mm. Ces hypothèses pouvaient se formaliser comme suit,
si m désigne l'espérance mathématique de X variable aléatoire égale à la hauteur annuelle de pluie, on formule alors les hypothèses suivantes :
Les agriculteurs hésitant à opter pour le procédé forcément onéreux des faiseurs de pluie tenaient pour l'hypothèse H0 et il fallait donc que l'expérience
puisse les convaincre ; c'est-à-dire que les faits observés contredisent nettement la validité de l'hypothèse H0 dite « hypothèse nulle » (H1 est l'hypothèse
alternative).
Ils choisirent a=0,05 comme niveau de probabilité, c'est-à-dire qu'ils étaient prêts à accepter H1 si le résultat obtenu faisait partie d'une éventualité
improbable qui n'avait que 5 chances sur 100 de se produire. Autrement dit, ils admettaient implicitement que des événements rares ne sauraient se
produire sans remettre en cause le bien-fondé de l'hypothèse de départ H0 ; ce faisant, ils assumaient le risque de se tromper dans 5 cas sur 100, cas où
précisément les événements « rares » arrivent quand même.
Comment décider ? Puisqu'il s'agit de « tester » la valeur il est naturel de s'intéresser à moyenne des observations qui nous apporte le plus de
renseignements sur . est la « variable de décision ».
Si est vraie, comme l'expérience a porté sur ans, doit suivre une loi normale :
En principe, de grandes valeurs de sont improbables et on prendra comme règle de décision la suivante : si est trop grand, c'est-à-dire si est
supérieur à un seuil qui n'a que 5 chances sur 100 d'être dépassé, on optera pour H1 avec une probabilité 0,05 de se tromper. Si on ne pourra
pas rejeter H0 faute de preuves suivantes. est appelé valeur critique.
Il est facile de calculer la valeur critique grâce aux tables de la loi normale et on trouve :
Si , conserver H0.
http://echo2.epfl.ch/e-drologie/chapitres/chapitre8/main.html 3/15
22/08/2017 Chapitre 8 - L'organisation et le contrôle des données
L'ensemble d'événements s'appelle la région critique ou région de rejet de H0. L'ensemble complémentaire s'appelle la région
de non rejet de H0. Or les données relevées indiquent que =610,2 mm. La conclusion était donc de conserver H0 ;c'est-à-dire que l'insémination était
sans effet notable sur le niveau des pluies : les valeurs observées pouvaient donc être dues au hasard en l'absence de toute influence de l'iodure
d'argent. Cependant, rien ne dit que ne pas rejeter H0 mette à l'abri de se tromper : en effet, les faiseurs de pluie ont peut-être raison, mais on ne s'en est
pas aperçu.
Il y avait en fait deux manières de se tromper : croire les faiseurs de pluie, alors qu'ils n'étaient pour rien dans le résultat obtenu (probabilité ;
ne pas croire les faiseurs de pluies, alors que leur méthode est bonne et que seul le hasard (malencontreux pour eux), dû au faible nombre
d'observations, a donné des résultats insuffisants pour convaincre les agriculteurs.
Supposons que les faiseurs de pluie ont raison, on commet alors une erreur chaque fois que prend une valeur inférieure à 655 mm, c'est-à-dire avec
une probabilité :
s'appelle le risque de première espèce (probabilité de choisir H1 alors que H0 est vraie) (en l'occurrence 5% dans cet exemple);
s'appelle le risque de deuxième espèce (probabilité de conserver H0, alors que H1 est vraie) (c'est-à-dire 56% dans cette application).
Ces erreurs correspondent à des risques différents en pratique ; ainsi dans l'exemple des faiseurs de pluie le risque de première espèce consiste à
acheter un procédé d'insémination qui ne vaut rien ; le risque de deuxième espèce à laisser perdre une occasion d'augmenter le niveau de pluie et peut-
être de récoltes plus abondantes. Dans la pratique des tests statistiques, il est de règle de se fixer comme donnée (les valeurs courantes sont par
exemple 0,05 ; 0,01 ou 0,1) de préférence en fonction du risque de première espèce couru, ce qui fait jouer à H0 un rôle prééminent.
Sur la base de cet exemple, la démarche d'un test peut se résumer comme suit :
Un test est dit paramétrique si son objet est de tester certaines hypothèses relatives à un ou plusieurs paramètres d'une variable aléatoire de loi
spécifiée. Dans la plupart des cas, ces tests sont basés sur la considération de la loi normale et supposent donc explicitement l'existence d'une variable
aléatoire de référence suivant une loi normale. La question se pose alors de savoir si les résultats restent encore valables lorsque n'est pas
normale : si les résultats sont valables on dit que le test en question est robuste. La robustesse d'un test par rapport à un certain modèle est donc la
qualité de rester relativement insensible à certaines modifications du modèle. Un test est dit non paramétrique s'il ne fait pas appel à des paramètres ou
d'hypothèses précises concernant la distribution sous-jacente.
Les tests sont généralement classés en quatre groupes principaux qui contiennent la plupart des tests statistiques généralement utilisés en hydrologie.
Test de conformité : comparaison d'une caractéristique d'un échantillon à une valeur de référence, destinée à vérifier si la caractéristique
correspondante de la population peut être admise égale à la valeur de référence. Par exemple ; est la valeur de référence (ou
norme), est la moyenne, inconnue, de la population.
Test d'homogénéité ou test de comparaison d'échantillons: Etant donné deux échantillons de taille et , peut-on admettre qu'ils ont été
prélevés dans une même population indépendamment l'un de l'autre ?
Mathématiquement le problème se formalise de la manière suivante : on observe sur le premier échantillon les réalisations d'une variable aléatoire
de fonction de répartition et sur le deuxième échantillon les réalisations d'une variable aléatoire de fonction de répartition .
On veut tester :
Le choix de est dicté par des considérations pratiques car est trop vague pour obtenir une région critique. Dans la pratique on se
contentera de vérifier l'égalité des espérances mathématiques et des variances de et , en disposant de , et moyennes et variances
empiriques des deux échantillons.
Test d'ajustement : vérifier si un échantillon donné peut être considéré comme tiré d'une population-parente spécifiée.
http://echo2.epfl.ch/e-drologie/chapitres/chapitre8/main.html 4/15
22/08/2017 Chapitre 8 - L'organisation et le contrôle des données
Test d'autocorrélation : vérifier si une dépendance (due à la proximité dans le temps par exemple) existe dans des données chronologiques
d'une série d'observations.
(8.1)
(8.2)
En hydrologie diverses situations peuvent se rencontrer en fonction des situations hydrologiques particulières. Ainsi il est parfois nécessaire de contrôler
un seul type de données (pluie, température, évaporation) à l'échelle locale (à l'endroit où la mesure a été effectuée) ou à l'échelle régionale (d'un bassin
versant où plusieurs sites de mesures ont été établis). Il est également parfois souhaitable de vérifier la qualité de plusieurs types de données (par exp.
pluie-débit, température-vitesse du vent…) aussi bien à l'échelle locale que régionale. Ainsi divers contrôles de données, recoupant à la fois des tests
numériques (strictement statistiques) et graphiques (à caractère plus hydrologique), peuvent être classés en 4 grands groupes selon l'échelle spatiale et
le nombre de paramètres considérés : 1 paramètre – échelle locale ; 1 paramètre – échelle régionale ; plusieurs paramètres – échelle locale ; plusieurs
paramètres – échelle régionale.
Tableau 8.2 - Débits de pointe annuels en m3/s de la Viège à Viège de 1922 à 1996.
http://echo2.epfl.ch/e-drologie/chapitres/chapitre8/main.html 5/15
22/08/2017 Chapitre 8 - L'organisation et le contrôle des données
1996 49
La figure 8.3 présente nos données sous forme de série temporelle. Les moyennes avant et après barrage sont représentés sous forme de droite.
Fig. 8.3- Débits de pointe annuels de la Viège à Viège [m3/s] de 1922 à 1996.
Les principales caractéristiques statistiques des deux sous séries avant et après barrage ainsi que de la série complète sont résumées dans le tableau
ci-dessous (tableau 8.3) :
Tableau 8.3 - Principales caractéristiques statistiques des deux sous séries (avant et après barrage).
Tests de conformité
Les tests de conformité comparent la moyenne ou la variance d'un échantillon à la moyenne ou la variance de la loi théorique (de la population dont il est
issu). Deux tests sont utilisés pour la conformité de la moyenne selon que la variance est connue ou doit être estimée, il s'agit respectivement des test z
et de Student (appelé aussi test t). Pour ces tests statistiques de base, le lecteur se référera à un ouvrage général de statistiques (exp. S. Morgenthaler,
Introduction à la Statistique, PPUR, 1997, p.129).
Exemple : On aimerait tester si la moyenne des débits de pointe de la Viège à Viège pour la période avant barrage est égale à 200 m3/s.
Pour tous les tests ci-dessous le seuil de signification choisi est . Nous avons donc :
http://echo2.epfl.ch/e-drologie/chapitres/chapitre8/main.html 6/15
22/08/2017 Chapitre 8 - L'organisation et le contrôle des données
Comme la variance n'est pas connue, nous utilisons le test t de Student. Le score est donné par :
= .
Comme le test est bilatéral la valeur critique est donnée par le quantile à 97,5% d'une loi t de Student à degrés de liberté.
Nous avons qt41(97,5 %)=2,01 (cf. tables) et . On ne peut donc pas rejeter l'hypothèse nulle que la moyenne des débits
3
est égale à 200 m /s.
Pour la conformité de la variance on se base sur l'étude de la distribution d'échantillonnage de l'écart par comparaison du
rapport des variances. La fonction discriminante suit une loi du chi-carré. La procédure de ce test est résumée dans le tableau ci-dessous.
H0:
H1:
Fonction
discriminante , suit une loi du chi-carré à degrés de liberté
Non rejet de
H0:
Exemple : Un hydrologue vous affirme que la variance des débits de pointe de la Viège à Viège de 1922 à 1963 est de
(soit ). Votre expérience d'hydrologue vous incite à penser que celle-ci est en fait supérieure à la valeur donnée par votre collègue.
Comme le test est unilatéral à droite, le quantile à considérer est le quantile à 95%. Comme les tables numériques nous indiquent que qc
2
41(95%) = 56,94<61,80, on rejette l'hypothèse nulle. Votre intuition d'hydrologue s'avère correcte !
Tests d'homogénéité
Le test d'homogénéité de la moyenne se base sur la statistique de Student pour deux échantillons tandis que le test d'homogénéité de la variance
correspond au test de Fisher-Snedecor. Dans ce cas également le lecteur se référera à un ouvrage classique de statistique (exp. P. Meylan et A. Musy,
Hydrologie Fréquentielle, polycopié, EPFL, 1998, annexe e-12 et e-13).
Exemple : Motivée par le fait qu'une intervention humaine a eu lieu sur le bassin versant de la Viège en 1964, la série de débits de
pointes est séparée en deux échantillons :
Comme dans le test t de Student nous devons faire l'hypothèse que les variances sont égales mais inconnues, il est judicieux de réaliser
d'abord le test de Fisher-Snedecor.
http://echo2.epfl.ch/e-drologie/chapitres/chapitre8/main.html 7/15
22/08/2017 Chapitre 8 - L'organisation et le contrôle des données
La valeur critique est Fn -1;n -1(97.5 %)=F41,32(97.5%)=1.72 (cf. tables). Comme 1,31<1,72, on ne peut pas rejeter l'hypothèse nulle que
1 2
les variances sont égales et l'on peut appliquer le test de Student pour deux échantillons.
Connaissant les effets de la construction du barrage, on peut s'attendre à avoir une diminution significative des débits pour le deuxième
échantillon, cela nous guide dans la formulation de l'hypothèse alternative pour tester l'homogénéité des échantillons à partir de la valeur
moyenne.
avec :
La valeur critique est donnée par . On rejette donc l'hypothèse nulle puisque 1,66 < 5,90 et,
comme on s'y attendait, la moyenne des débits de pointe a diminué significativement après barrage.
1
En pratique pour la fonction discriminante, on met toujours au numérateur la plus grande des deux quantités n1s2x/(n1-1) et n2s2y/(n2-1),
ainsi la région critique est de la forme F>k avec k>1.
Tests d'adéquation
Le test paramétrique servant à l'adéquation, basé sur la comparaison des fréquences théoriques et effectives, est le test de chi-carré développé dans ce
cours dans l'annexe consacré à l'analyse fréquentielle.
Exemple : on se pose la question de savoir si toute notre série de débits de pointe (i.e. 1922-1996) suit une distribution normale. Posons
Z la variable aléatoire modélisant les débits.
Les deux paramètres de la loi normale sont estimés respectivement par la moyenne et la variance d'échantillonnage et on a donc :
. On répartit les observations dans 12 classes (choix arbitraire) et après calculs des effectifs
observés et théoriques, on obtient : La valeur critique nous est donnée par le quantile d'une loi chi-carré à 12-1-2=9
degrés de liberté . On ne peut donc pas rejeter l'hypothèse nulle et on conclut que nos débits
2
suivent bien une loi normale .
Fig. 8.4 - Superposition de la densité normale à l'histogramme normalisé (12 classes) de toute la série des débits
22 degrés de liberté ont été enlevés à la loi chi-carré car les deux paramètres de la loi normale ont été estimés.
Tests d'autocorrélation
Il faut tout d'abord remarquer que la façon la plus simple et la plus immédiate d'évaluer l'indépendance sérielle, adoptée dans de nombreux ouvrages
d'hydrologie statistique, consiste à calculer le coefficient d'autocorrélation de rang un de la série, et d'appliquer ensuite l'un des tests « classiques »
paramétriques ou non-paramétriques proposés pour le coefficient de corrélation rx,y « standard », à savoir :
http://echo2.epfl.ch/e-drologie/chapitres/chapitre8/main.html 8/15
22/08/2017 Chapitre 8 - L'organisation et le contrôle des données
Ces trois tests ont un comportement nominal tout à fait correct, lorsqu'ils sont appliqués à une série bivariée « classique », mais s'avèrent inapplicables
dans le cas du coefficient d'autocorrélation, comme cela ressort de certains développements. (cf Meylan P. et Musy A., Hydrologie Fréquentielle, Edition
HGA Bucarest, 1999).
Anderson a étudié la distribution du coefficient d'autocorrélation pour une population parente normale. Dans ce cas le coefficient d'autocorrélation est
calculé sur n paires de valeurs (x1, x2), (x2, x3), …, (xn-1, xn), et (xn , x1).
Pour une taille n « assez grande » (Anderson fixe une limite de 75 valeurs!) le coefficient d'autocorrélation suit une loi normale de moyenne et variance :
(8.3)
Pour des tailles inférieures d'échantillons la distribution est assez compliquée. Anderson donne par conséquent des tables des valeurs critiques du
coefficient de corrélation (tableau 8.5).
Exemple : Testons la nullité du coefficient d'autocorrélation de décalage 1 sur notre première série de débits.
Si on estime le coefficient d'autocorrélation de décalage 1 sur nos données (1922 à 1963) on obtient : 0,002. La valeur critique étant selon
le tableau ci-dessus d'environ 0,22, on ne peut pas rejeter l'hypothèse nulle. Il est à remarquer que ce résultat était prévisible puisque
nous avons affaire à une série annuelle donc l'effet de persistance est nul.
Tableau 8.5 - Table des valeurs critiques du coefficient d'autocorrélation d'Anderson pour les tests unilatéraux. Les valeurs entre
parenthèses ont été interpolées par Anderson.
N a= 5 % a= 10 %
5 0,253 0,297
6 0,345 0,447
7 0,370 0,510
8 0,371 0,531
9 0,366 0,533
10 0,360 0,525
11 0,353 0,515
12 0,348 0,505
13 0,341 0,495
14 0,335 0,485
15 0,328 0,475
20 0,299 0,432
25 0,276 0,396
30 0,257 0,370
45 0,218 0,314
75 0,173 0,250
Il est rappelé que les tests non paramétriques ne font pas appel à des paramètres ou d'hypothèses précises concernant la distribution sous-jacente.
Tests de conformité
Le test de conformité de la moyenne classique non paramétrique est le test de Wilcoxon pour un échantillon (cf. S. Morgenthaler, Introduction à la
Statistique, PPUR, 1997, p. 255).
Nous allons reprendre les mêmes hypothèses que dans le cas paramétrique ci-dessus (test de Student) :
http://echo2.epfl.ch/e-drologie/chapitres/chapitre8/main.html 9/15
22/08/2017 Chapitre 8 - L'organisation et le contrôle des données
Où : R+ est le rang signé (i.e.) le rang de la valeur absolue de l'observation signe (u)
Exemple : On obtient dans notre cas W+ = 497. Pour un échantillon de taille supérieur à 15, l'approximation normale suivante est
possible :
Et = 608
Comme 497<608, on ne peut pas rejeter l'hypothèse nulle que la moyenne de ces débits de pointe est de 200 m3/s.
Tests d'homogénéité
a) Test de Wilcoxon
Pour tester l'homogénéité de données issues de deux populations on utilise les deux statistiques équivalentes de Mann-Whitney et
Wilcoxon (cf. S. Morgenthaler, Introduction à la Statistique, PPUR, 1997, p.251), ainsi que le test de la médiane.
Exemple : test de Wilcoxon pour deux échantillons. Comme on s'attend à avoir une diminution significative des débits après 1964,
on pose les hypothèses suivantes :
et =676.
La valeur critique est 1750. Comme , on rejette l'hypothèse nulle ce qui est conforme à notre attente.
b) Test de la médiane
Soit un échantillon de n valeurs (série chronologique par exemple) de médiane (une variante consiste à utiliser la
moyenne ). Chaque observation est affectée d'un signe + si elle est supérieure à la médiane, d'un signe - dans le
cas contraire. Tout groupe de valeurs « + » est une séquence positive (ou suite positive), et tout groupe de valeurs « – »
est une séquence négative (ou suite négative).Il s'agit de déterminer le nombre total de séquences positives ou
Pour un seuil de signification compris entre 91 et 95%, les conditions de vérification du test sont les suivantes :
et (8.5)
Exemple : On veut vérifier l'homogénéité de la série des débits de pointe de la Viège sur la période totale d'observation.
http://echo2.epfl.ch/e-drologie/chapitres/chapitre8/main.html 10/15
22/08/2017 Chapitre 8 - L'organisation et le contrôle des données
débits 240 171 186 158 … 145 155 230 270 330 55 63 49
signe + + + + … - + + + + - - -
Tests d'autocorrélation
A la suite des travaux d'Anderson, Wald et Wolfowitz ont développé un test non paramétrique du coefficient d'autocorrélation.
(8.6)
Pour n «suffisamment grand», cette statistique suit une distribution normale de moyenne et de variance :
(8.7)
avec: . (8.8)
Les deux tests développés dans ce paragraphe sont essentiellement utilisés en hydrologie. Leur but spécifique est de comparer un ou plusieurs
échantillons, acquis à des stations voisines, afin de déceler une éventuelle inhomogénéité (dont la cause la plus classique est une modification de l'une
des stations, par exemple, le déplacement du pluviomètre).
Le principe de la méthode consiste à vérifier la proportionnalité des valeurs mesurées à deux stations. L'une des stations (station X) est la station de
base ou station de référence, supposée correcte. L'autre station (Y) est la station à contrôler. Un effet de lissage est obtenu en comparant, au pas de
temps choisi (année, saison, mois, décade), non pas les valeurs observées, mais leur cumul. La méthode est d'un concept extrêmement simple, puisqu'il
suffit de tracer un graphe des quantités :
(8.9)
Exemple : Nous voulons tester graphiquement l'homogénéité des données des débits de pointe de la Viège à Viège. Pour cela, nous
allons utiliser comme station de référence, les débits du Rhône à Brigue (après s'être assuré que cette série ne présente pas
d'inhomogénéité).La figure 8.5 ci-dessous présente l'application de la méthode des doubles cumuls dans ce cadre. Elle nous montre une
nette cassure de pente à la station que l'on désire contrôler à partir de 1964. Cette méthode est capable de détecter une anomalie (la
construction du barrage).
La méthode du double cumul a l'avantage d'être simple, bien connue de tous et très rapidement réalisable. Par contre, l'interprétation des
graphes obtenus n'est pas toujours aisée et, surtout, la méthode ne propose aucune graduation en probabilité des défauts constatés: un
test, au sens statistique, est donc exclu. Enfin , elle permet de détecter l'erreur mais pas de la corriger, du moins pas directement. Après
une analyse approfondie d'une situation critique constatée, une correction peut être toutefois envisagée.
http://echo2.epfl.ch/e-drologie/chapitres/chapitre8/main.html 11/15
22/08/2017 Chapitre 8 - L'organisation et le contrôle des données
8.5.2.2 Méthode du cumul des résidus
La méthode du cumul des résidus, due à Philippe Bois de l'Ecole nationale supérieure d'hydraulique de Grenoble, est une extension de l'idée de la
méthode du double cumul, à laquelle elle ajoute un contenu statistique autorisant la pratique d'un véritable test d'homogénéité : c'est donc un progrès
décisif.
A nouveau pour une série double de valeurs xi (série de base) et yi (série à contrôler), l'idée de base consiste à étudier, non pas directement les valeurs
xi et yi (ou Sxi et Syi) mais les cumuls des résidus e i de la régression linéaire de y en x :
(8.10)
ou encore : - . (8.11)
Fig 8.6 - Diagramme de dispersion des débits de pointe annuels du Rhône à Brigue et de la Viège à Viège (1922-1996)
De la théorie classique de la régression il découle que la somme des résidus est nulle par construction et que leur distribution est normale, d'écart-type :
(8.12)
(8.13)
Le report graphique des résidus cumulés Ej (en ordonnée) en fonction des numéros d'ordre j des valeurs (en abscisse, j = 0 à n, avec E0 = 0) devrait,
pour une corrélation avérée entre X et Y, donner une ligne partant de 0, oscillant aléatoirement autour de zéro entre j = 0 et j = n, et aboutissant à 0 pour j
= n. La présence d'une inhomogénéité se manifeste par des déviations non aléatoires autour de la valeur nulle.
Bois a décrit et testé de nombreux types d'inhomogénéités. Il a en outre montré que, pour un niveau de confiance 1 - a choisi, le graphe des Ej en
fonction de j ( j = 0 à n ) doit être inscrit dans une ellipse de grand axe n et de demi petit axe :
La figure 8.7 présente le test de Bois effectué pour les données des deux stations utilisées précédemment. Les résidus ont été cumulés en partant de
1996, le dernier résidu étant celui de 1922. Les résidus sont décroissants pendant les 32 dernières années, avant de devenir croissants: l'anomalie se
situe donc autour de 1996-32=1964, ce qui a déjà été constaté avec la méthode du double cumul.
http://echo2.epfl.ch/e-drologie/chapitres/chapitre8/main.html 12/15
22/08/2017 Chapitre 8 - L'organisation et le contrôle des données
Fig. 8.7 - Résultat du test de Bois pour les débits de pointe annuels de la Viège à Viège avec comme série de référence les débits du Rhône à Brigue, Ellipse de
confiance à 95 %.
(8.15)
Avec :
: précipitations ;
: ruissellement ;
: évapotranspiration ;
: variation de stockage.
Un contrôle possible des données est de mesurer tous les paramètres du bilan et vérifier l'égalité : si , alors on déduit que . La
mesure de la pluie et de l'écoulement nous donne une évaluation du degré de vraisemblance de l'évapotranspiration. Si celui-ci n'est pas acceptable, on
se doit alors de vérifier les données de pluie et de ruissellement.
Une autre analyse possible consiste à estimer grossièrement le coefficient de ruissellement (Cr=R/P) (cf. chapitre 2), d'évaluer sa vraisemblance en
regard des caractéristiques du bassin versant ou alors de vérifier si le calcul obtenu avec les données pluie-débit donne un résultat similaire. Dans le cas
où le calcul du coefficient de ruissellement donne des valeurs a priori aberrantes (par exemple supérieures à l'unité), l'erreur à priori est manifeste. Cette
erreur a aussi des chances de provenir de la non concordance des bassins topographiques et hydrogéologiques, à défaut d'une erreur sur les données
de pluie et de débit.
Un autre exemple de contrôle hydrologique simple est celui qui utilise les débits spécifiques maximaux. On sait que ces débits spécifiques varient de
manière inversément proportionnelle à la surface sur laquelle ils sont calculés. Ainsi, si on dispose de plusieurs stations hydrométriques sur un même
réseau hydrographique, on peut tracer la courbe décroissante qmax = f(A). Si un des points, correspondant à une station n'est pas « hydrologiquement »
bien placé il y a lieu de craindre une erreur (figure 8.8). Cependant il faut être attentif au fait que cette erreur ne provient pas forcément d'une mauvaise
mesure du débit, elle peut provenir d'une erreur d'estimation de la superficie des bassins versants !
http://echo2.epfl.ch/e-drologie/chapitres/chapitre8/main.html 13/15
22/08/2017 Chapitre 8 - L'organisation et le contrôle des données
Fig. 8.8 - Méthode des débits spécifiques maximaux : visiblement une erreur est présente dans le débit spécifique de la station 4. Il s'agit alors de chercher à découvrir
les sources de cette erreur.
Souvent, lors de l'étude d'un phénomène hydrologique, on observe une multitude de variables différentes qui pourraient potentiellement offrir un intérêt.
Dans ce cas on peut faire appel à des méthodes statistiques multivariées. Parmi ces méthodes on trouve l'analyse en composantes principales et
l'analyse factorielle.
Le principe de l'analyse en composantes principales (ACP) est d'obtenir une représentation approchée d'une nuage de individus dans un sous-
espace de dimension faible. Ceci s'effectue par une projection. L ‘ACP construit de nouvelles variables, artificielles, et des représentations
graphiques permettant de visualiser les relations entre variables, ainsi que l'existence éventuelle de groupes d'individus et de groupes de
variables. Il est à remarquer de l'interprétation des résultats est une phase délicate qui doit se faire en respectant une démarche.
L'analyse factorielle est un modèle mathématique qui tente d'expliquer les corrélations entre un grand nombre de variables par un nombre
restreint de facteurs correspondants. Une hypothèse fondamentale de l'analyse factorielle est qu'il n'est pas possible d'observer ces facteurs
directement ; les variables dépendent des facteurs mais sont également sujettes à des erreurs aléatoires.
remplacer la valeur manquante par la moyenne des stations voisines. Cette méthode est utilisée lorsque les précipitations moyennes annuelles
de la station à compléter ne diffèrent pas de plus de 10% des précipitations moyennes annuelles aux stations de référence.
remplacer la valeur manquante par une moyenne pondérée par la tendance annuelle des stations pluviométriques, soit :
(8.16)
Où :
Pour reconstituer des données de hauteurs d'eau, on peut utiliser des critères de proportionnalité analogues dans le cas de stations limnimétriques
placées sur un même cours d'eau (transposition géographique, conservation des volumes,…).
Les méthodes basées sur l'analyse de régressions et corrélations (relations pluie-pluie ou pluie-débit, relations inter-postes) sont utilisées à cet effet.
Le calcul de la régression se fait en déterminant les valeurs des paramètres de la relation entre la variable expliquée et la ou les variables explicatives.
Cette régression peut être simple ou multiple.
Exemple :
Soit Y une variable hydrométéorologique dont on connaît valeurs : y1, y2, …, yn.
Soit X une autre variable observée de façon concomitante, avec les observations x1, x2, …, xn.
mais on possède par ailleurs (sur une période d'observation antérieure par exemple) réalisations complémentaires
Il s'agit de reconstituer les valeurs manquantes , concomitantes aux valeurs de la série complémentaire
comme illustré par la figure ci-dessous.
(8.17)
http://echo2.epfl.ch/e-drologie/chapitres/chapitre8/main.html 14/15
22/08/2017 Chapitre 8 - L'organisation et le contrôle des données
On peut alors estimer les valeurs complémentaires pour chaque connu ( , à partir de la relation estimée :
(8.18)
Notons que cette méthode néglige la dispersion naturelle des autour de la droite de régression ; on diminue ainsi la dispersion des
valeurs reconstituées et on fausse la distribution statistique de l'échantillon complet. Il est nécessaire d'ajouter à la valeur moyenne
conditionnelle yi donnée par la formule précédente, un écart aléatoire simulé d'écart-type estimé s e , obtenu à partir de la loi de
probabilité de e .
http://echo2.epfl.ch/e-drologie/chapitres/chapitre8/main.html 15/15