Académique Documents
Professionnel Documents
Culture Documents
I- 1- Vérifier l’homogénéité de la série des pluies annuelles de la station pluviométrique de l’Oued FODDA (série précédente) pour un risque
de 5% en utilisant :
le test de Wilcoxon,
le test de Mann-Whitney
Années Pluies (mm) Années Pluies (mm) Années Pluies (mm)
1969 456.1 1977 321.6 1985 315.2
1970 349.7 1978 449.7 1986 245.5
1971 622.6 1979 653.4 1987 342.5
1972 520.9 1980 394.7 1988 297.3
1973 494.7 1981 587.0 1989 302.1
1974 302.1 1982 681.1 1990 321.6
1975 448.6 1983 257.2 1991 411.6
1976 576.7 1984 347.6 1992 443.9
2- Vérifier à l’aide du test de Grubbs et Beck les points singuliers de l’échantillon de la station A.
1 1 3
K N =−3.62201+6.28446 N 4 −2.49835 N 2 + 0.491436 N 4 −0.037911 N
II- Vérifier l’homogénéité des séries de précipitations annuelles des stations P1 et P2 en utilisant la station de référence par :
1- le test de Fisher-Snedecor pour α = 5%,
2- le test de test de Student pour α = 5%,
3- la méthode du double cumul,
4- la méthode des cumuls des résidus avec un intervalle de confiance de 99%.
Solution
Exercice n°1
1-a Test de Wilcoxon :
Nous formons le tableau suivant pour faciliter les calculs. On commence par diviser notre série pluviométrique en deux échantillons de
longueurs respectives N1 = 10 valeurs et N2 = 14 valeurs (N = N1 + N2 = 10 + 14 = 24). Dans la première colonne on porte les dates des
mesures de pluie, dans la seconde colonne on porte les données brutes, dans la troisième colonne on porte le premier échantillon X, dans la
quatrième colonne on porte le deuxième échantillon Y, dans la cinquième et la sixième colonnes on porte respectivement les rangs et les
valeurs classées de la série originale, dans la septième colonne l’origine de la valeur de la série, c’est à dire on note si elle provient de
l’échantillon X ou de l’échantillon Y et dans la huitième colonne on inscrit le rang de la valeur qui provient de la série X.
. On calcule ensuite les valeurs de :
- Wx = ΣRang x
- des deux bornes Wmax et Wmin, données par les formules suivantes:
1-
α/ 2 (au seuil de 95 %, nous avons z 1-µ /2 =1,96).
S Rang x = 151,
10×14(10+14+1) d’où Wmin = 91,03
W min =
(10+14+1 )10−1
2
−U 1− ¿ /2
12 √
Wmax = (11 + 14 +1) × 10 - 91,03 = 158,97
On vérifie l’inégalité: Wmin Σ Rang x Wmax c’est à dire : 91,03 < 151 < 158,97 ; on conclue que notre série est homogène.
1 2 3 4 5 6 7 8
Année Pluie
X Y Rangs X U Y Origine Rang X
s s
1969 456,1 456,1 653,4 1 245,5 Y
1970 349,7 349,7 394,7 2 257,2 Y
1971 622,6 622,6 587 3 297,3 Y
1972 520,9 520,9 681,1 4 302,1 Y
1973 494,7 494,7 257,2 5 302,1 X 5
1974 302,1 302,1 347,6 6 315,2 Y
1975 448,6 448,6 315,2 7 321,6 Y
1976 576,7 576,7 245,5 8 321,6 X 8
1977 321,6 321,6 342,5 9 342,5 Y
1978 449,7 449,7 297,3 10 347,6 Y
1979 653,4 302,1 11 349,7 X 11
1980 394,7 321,6 12 394,7 Y
1981 587 411,6 13 411,6 Y
1982 681,1 443,9 14 443,9 Y
1983 257,2 15 448,6 X 15
1984 347,6 16 449,7 X 16
1985 315,2 17 456,1 X 17
1986 245,5 18 494,7 X 18
1987 342,5 19 520,9 X 19
1988 297,3 20 576,7 X 20
1989 302,1 21 587 Y
1990 321,6 22 622,6 X 22
1991 411,6 23 653,4 Y
1992 443,9 24 681,1 Y
Somme = 151
S est la somme des nombres de dépassements des éléments du premier sous-ensemble (ou échantillon) par ceux du second.
On montre que lorsque N > 20, N1 > 3 et N2 > 3; K et S sont distribués selon une loi normale ayant :
N1× N 2
- une moyenne égale à: Ḱ= Ś=
2
N1× N2
- et un écart-type égal à: Sk =S s= ×( N 1 + N 2+ 1)
12
On peut alors tester l’hypothèse H0 que les deux sous-ensembles proviennent de la même population, au niveau de
K−K
T=| |
signification α, en comparant la grandeur:
sk avec la variable normale centrée réduite ayant une
probabilité de dépassement α /2. Si T < z1-α/2 on accepte H0
Nous allons appliquer le test de Mann-Whitney aux données pluviométriques de l’énoncé
On forme le tableau suivant pour faciliter la compréhension :
La colonne 1 donne les années.
La colonne 2 donne les pluies dans l’ordre où elles ont été relevées.
La colonne 3 indique les pluies triées par ordre croissant.
La colonne 4 donne rangs des données triées.
La colonne 5 donne les 10 valeurs de l'échantillon 1
La colonne 6 indique le rang de chaque valeur du sous-ensemble 1 dans l'échantillon original de 24 valeurs classées.
La colonne 7 donne les 14 valeurs de l'échantillon 2.
La colonne 8 donne le rang de chaque valeur du sous-ensemble 2 dans l'échantillon original de 24 valeurs classées.
La colonne 9 indique les valeurs du sous-ensemble 1 triées.
La colonne 10 donne le nombre de fois que chaque élément du sous ensemble 1 est dépassé par les éléments du sous-ensemble 2, la somme
des éléments de cette colonne est égale à S = 44.
La colonne 11 donne les valeurs du sous-ensemble 2 triées.
La colonne 12, enfin, donne le nombre de fois que chaque élément du sous-ensemble 2 est dépassé par les éléments du sous-ensemble 1, la
somme des valeurs de cette colonne est égale à K = 94.
On trouve : L = 151, K = 94 et S = 44 ; les équations et le tableau donnent respectivement les mêmes valeurs pour K et L.
N 1 × N 2 10 ×14 N1× N2 10 × 14
Ḱ= Ś= = =70 et Sk =S s= × ( N 1+ N 2+1 ) = × ( 10+14+1 ) =291,7 et
2 2 12 12
K− Ḱ 94−70
T= | ||
sk
=
291,7
=0,0823 |
Pour = 95 % on a z1/2 =1,96 > T = 0,0823
Ce qui veut dire qu’on peut accepter l’hypothèse H 0 que les deux sous-ensembles proviennent de la même population et que notre série
pluviométrique est homogène.
1 2 3 4 5 6 7 8 9 10 11 12
Anné Pluies Pluies Rang Rang Rang Ech # 1 Nbre Ech # 2 Nbre
Ech # 1 Ech # 2
e mesurées triées s s s trié Dépass. trié Dépass.
1969 456,1 245,5 1 456,1 17 653,4 23 302,1 10 245,5 10
1970 349,7 257,2 2 349,7 11 394,7 12 321,6 8 257,2 10
1971 622,6 297,3 3 622,6 22 587 21 349,7 6 297,3 10
1972 520,9 302,1 4 520,9 19 681,1 24 448,6 3 302,1 9
1973 494,7 302,1 5 494,7 18 257,2 2 449,7 3 315,2 9
1974 302,1 315,2 6 302,1 5 347,6 10 456,1 3 321,6 8
1975 448,6 321,6 7 448,6 15 315,2 6 494,7 3 342,5 8
1976 576,7 321,6 8 576,7 20 245,5 1 520,9 3 347,6 8
1977 321,6 342,5 9 321,6 8 342,5 9 576,7 3 394,7 7
1978 449,7 347,6 10 449,7 16 297,3 3 622,6 2 411,6 7
1979 653,4 349,7 11 302,1 4 443,9 7
1980 394,7 394,7 12 321,6 7 587 1
1981 587 411,6 13 411,6 13 653,4 0
1982 681,1 443,9 14 443,9 14 681,1 0
1983 257,2 448,6 15
1984 347,6 449,7 16
1985 315,2 456,1 17
1986 245,5 494,7 18
Exercice n°1 - 2
Le test de Grubbs et Beck pour détecter les points singuliers d’une série statistique1 :
Les séries statistiques peuvent présenter des points singuliers, ce qui veut dire que certaines observations (ou mesures) sont anormalement
élevées ou faibles en comparaison avec l’ensemble des autres données. L’occurrence ou la présence de points singuliers dans une série
statistique peut modifier significativement les résultats des analyses statistiques ultérieures, et il devient donc impératif de détecter leur
présence. Par exemple, lors des analyses des fréquences des étiages (faibles débits) ou des crues (gros débits), les points singuliers peuvent
influencer la grandeur des crues ou des étiages de faibles fréquences. Le problème de savoir comment traiter les points singuliers en
Hydrologie n’est pas encore résolu aujourd’hui. Beaucoup de statisticiens soutiennent que les points singuliers doivent être ignorés parce
qu’ils ne sont pas représentatifs de l’ensemble des données, d’autres hydrologues pensent qu’ils doivent être maintenus dans l’analyse car ils
représentent des données pertinentes et importantes. Evidemment, l’inclusion ou l’exclusion des points singuliers dépendra des buts de
l’analyse.
Plusieurs procédures sont utilisées pour identifier les points singuliers dans les séries chronologiques, celle présentée ci-dessous est le test
des points singuliers développé par Grubbs et Beck en 1972.
En appliquant ce test, on suppose que les logarithmes népériens des données suivent une loi normale. Les limites inférieures et supérieures
des points singuliers sont :
X L =exp ( x́ −K N s) (1)
X H =exp ( x́ + K N s) (2)
Où x́ et s représentent la moyenne et l’écart type des logarithmes népériens des données de l’échantillon. K N est la statistique de Grubbs and
Beck qui est fonction de la grandeur de l’échantillon et du niveau de signification. Pour un degré de signification de 10%, K N est donnée
par l’approximation suivante :
1 1 3
K N =−3.62201+6.28446 N 4 −2.49835 N 2 + 0.491436 N 4 −0.037911 N (3)
Où N est la grandeur de l’échantillon. Les données plus grandes que X H et plus petites que X L sont considérées des points singuliers.
Anné
Pluies mesurées Ln P Sh Sb
e
6,12
1969 456,1 -391,0 -262,7
3
5,85
1970 349,7 -497,4 -156,3
7
6,43
1971 622,6 -224,5 -429,2
4
6,25
1972 520,9 -326,2 -327,5
6
6,20
1973 494,7 -352,4 -301,3
4
5,71
1974 302,1 -545,0 -108,7
1
6,10
1975 448,6 -398,5 -255,2
6
6,35
1976 576,7 -270,4 -383,3
7
1977 321,6 5,77 -525,5 -128,2
1
Caissie, D. Hydrology of the Petit Codiac river basin in New Brunswick, Appendix A “Grubbs and Beck Outlier test”, Department of
Fisheries and Oceans, Science Branch, Diadromus Fish Division, Gulf Fisheries Management Regtion, P.O. Box 5030, Moncton, NB,
E1C9B6, Canada.
TD d’Hydrologie n°3 page 4 de 11
USTHB – FGC – 1MIGE-1112 TD n° 3
3
6,10
1978 449,7 -397,4 -256,3
9
6,48
1979 653,4 -193,7 -460,0
2
5,97
1980 394,7 -452,4 -201,3
8
6,37
1981 587 -260,1 -393,6
5
6,52
1982 681,1 -166,0 -487,7
4
5,55
1983 257,2 -589,9 -63,8
0
5,85
1984 347,6 -499,5 -154,2
1
5,75
1985 315,2 -531,9 -121,8
3
5,50
1986 245,5 -601,6 -52,1
3
5,83
1987 342,5 -504,6 -149,1
6
5,69
1988 297,3 -549,8 -103,9
5
5,71
1989 302,1 -545,0 -108,7
1
5,77
1990 321,6 -525,5 -128,2
3
6,02
1991 411,6 -435,5 -218,2
0
6,09
1992 443,9 -403,2 -250,5
6
La moyenne et l’écart type des logarithmes népériens sont respectivement : 6,003 et 0,299.
1 1 3
4 2 4
K N =−3.62201+6.28446 N −2.49835 N + 0.491436 N −0.037911 N
1 1 3
¿−3.62201+ 6.28446× 24 4 −2.49835 ×24 2 + 0.491436× 24 4 −0.037911 × 24=2,467
Et X L =exp ( x́−K N s )=exp (6,003−2,467 ×0,299 )=193,4 mm
X H =exp ( x́ + K N s)=exp ( 6,003+ 2,467× 0,299 )=847,1mm
Comme dans notre série il n’y a pas de valeur située au-delà de ces bornes, on conclue que notre série ne présente pas de points singuliers.
Soit X une variable normale connue sur deux échantillons de taille N1 et N2 soit
X 1 et X 2 ,
S 1 et S2 les moyennes et écart-
types calculés sur les deux échantillons 1 et 2.
X 1− X 2 ( N 1 −1) S 21 +(N 2−1 )S22
Soit
t=
s
√ 1
+
1
N 1 N2
où s=
√ N 1 + N 2−2
La variable t suit une loi de probabilité de Student, dont le paramètre (appelé degré de liberté) vaut 1 2N +N −2
.
Selon la valeur de t et donc de la probabilité d’apparition d’une telle valeur, on décide s’il est plausible ou pas de considérer que les deux
X́ 1− X́ 2 1071,4−1019,1
t 1,2= = =0,240
D’où 1 1 1 1
S 1,2 ×
X́ 1− X́ 3
+
N1 N2√ 689,78 ×
1071,4−1105,45
√ +
20 20
t 1,3= = =−0,156
Et 1 1 1 1
S 1,2 ×
√ +
N1 N3
689,78 × +
20 20 √
Le nombre de degrés de liberté est N 1 + N2 – 2 = 38 et le seuil de signification est 1 – α = 1 – 0,05 = 0,95. Pour ces valeurs la table de
Student donne t = 1,686 > t1,2 = 0,240 et t = 1,686 > t1,2 = -0,156 ; ce qui veut dire que les deux séries sont homogènes.
Exercice n°2 - 2 Test de Fisher-Snédécor Ce test permet de vérifier l’homogénéité des variances de deux échantillons issus de populations
normales, en supposant que leurs moyennes sont identiques.
2 2
S1 S2
F= 2
si S 1 > S2 sinon prend F= 2
Soit S2 S1
Exercice n°2 - 2 Méthode des doubles cumuls : Elle permet de détecter la non-homogénéité d'une série de mesures et de la corriger. La
méthode consiste à comparer les pluies (ou toute autre variable) cumulées d'une station B, à propos de laquelle on éprouve des doutes quant
à son homogénéité, avec les pluies cumulées d'une station A dont les mesures sont jugées homogènes.
Application de la méthode à la série P1 : On commence donc par établir le tableau ci-dessous: Dans les trois premières
colonnes on porte respectivement les années et les précipitations mesurées aux stations A et B. Dans les quatrième et cinquième colonnes on
calcule les cumuls respectifs des pluies aux stations A et B. Ensuite on porte ces valeurs sur du papier millimétré, avec les valeurs de A en
abscisses et les valeurs de B en ordonnées.
On voit sur le graphique que les points s’alignent sur un seul segment de droite, ce qui est interprété comme quoi la série B
(P1) est homogène.
Application de la méthode à la série P2 : On commence donc par établir le tableau ci-dessous: Dans les trois premières
colonnes on porte respectivement les années et les précipitations mesurées aux stations A et C. Dans les quatrième et cinquième colonnes on
calcule les cumuls respectifs des pluies aux stations A et C. Ensuite on porte ces valeurs sur du papier millimétré, avec les valeurs de A en
abscisses et les valeurs de C en ordonnées.
On voit sur le graphique que les points s’alignent sur deux segments de droite différents, c’est-à-dire qu’il y a une cassure sur
la droite au cours de l’année 1979. On suppose que le déplacement (ou autre cause d'erreur) s'est produit en 1979. Les données mesurées
après 1979 sont jugées bonnes et on ne doit corriger que les données précédentes (1979 à 1971).
La décision de corriger ou non les données de l’année1979 est prise après une connaissance détaillée des circonstances de
“ l’accident ” au cours de cette année.
On calcule les pentes m1 du segment de droite qui contient les données de 1990 à 1979, et m 2 du segment de droite qui contient
les données de 1979 à 1971.
22109−12078 10 031
m1= = =1,1263
21 428−12 522 8 906
12078−764 11314
m 2= = =0,9657
12522−806 11716
On calcule le rapport des pentes m2/m1 avec lequel on va multiplier les données des années 1979 à 1971 pour les corriger.
m 2 0.9657
= =0,765
m 1 1,1263
On porte ces valeurs sur la dernière colonne du tableau.
Une fois ces données corrigées, on refait l’opération.
L’on voit que les points s’alignent sur une droite sans cassure; notre série a donc été rendue homogène. Si l’on constate une autre cassure, on
recommence l’opération.
Exercice n°2 - 2 Méthode des cumuls des résidus : On appelle résidu εi la différence entre la valeur observée d’une variable et la valeur de
la même variable obtenue à partir de l’équation de la droite de régression entre la variable explicative et la variable à expliquer.
Dans cet exercice, nous avons une série de référence A et deux séries pluviométriques P1 et P2 dont on veut en connaître l’homogénéité.
On calcule les caractéristiques suivantes :
A P1 P2
Moyenne MA = 1071,4 mm MP1 = 1019,1 mm MP2 = 1105,5 mm
Ecart type SA = 156,7 mm SP1= 134,6 mm SP2 = 187,7 mm
Entre la série A et la série P1 on a RAP1= 0,883 et ^P1 i=0,758 × A i+207,4
Entre la série A et la série P2 on a RAP2= 0,883 et t ^P2 i=0,935 × A i+103,7
^
On a doncε i =Pi − Pi .
Le cumul des k premiers résidus est appelé Z k =ε 1 + ε 2+ ε 3 +… … . ε k pour k < n + 1.
1 2 3 4 5 6 7 8 9
Station de référence Station P1 P1 Résidu Cumuls des Haut de Bas de
k Année
(mm) (mm) théorique s Résidus l'ellipse l'ellipse
0 0 0 0,0 0,0
1 1990 806 763 818,02 -55,02 -55,02 69,0 -69,0
TD d’Hydrologie n°3 page 10 de 11
USTHB – FGC – 1MIGE-1112 TD n° 3
400
300
200
Résidus (mm)
100
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
-100
-200
-300
-400
Valeurs de n
Exercice n°2 – 2-b Méthode des cumuls des résidus appliquée à la série P2: Le tableau ci-dessous résume les calculs.
Dans la colonne 1, on a porté les différentes valeurs de k.
Dans la colonne 2, on porté les années de mesure.
Dans la colonne 3, on a porté les valeurs des pluies mesurées en mm, à la station de référence A.
Dans la colonne 4, on a porté les valeurs des pluies mesurées en mm, à la station P2.
Dans la colonne 5, on a porté les valeurs des pluies théoriques à la station P 2 obtenues grâce à l’équation de régression :
^
P2 i=0,935 × A i+103,7
Dans la colonne 6, on a calculé les résidus εi grâce à l’équation : ε i =P2 i − ^
P 2 i.
Dans la colonne 7, on a calculé les cumuls des résidus : Cumulk = Cumulk-1 + εk
Dans la colonne 8, on a calculé le haut de l’ellipse donné par l’équation :
z 1−α × écart type de Z k =z 1−α × S 2P 2 × ( 1−R 2AP 2) × k × ( n−k ) ×(n−1)/n2
2 2
800
600
400
200
Résidus (mm)
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
-200
-400
-600
-800
-1000
Valeurs de n
Référence : Bernier J. (1977) – Etude de la stationnarité des séries hydrométéorologiques La Houille blanche N°4 – 1977 pp313-319.