Vous êtes sur la page 1sur 43

Analyse fréquentielle

I. Rappels de statistique

II. Ajustement d’une série statistique à une loi de distribution

III. Loi de Gauss

∇. Loi de Gumbel
I∇

∇. Synthèse

Par :
Harouna Karambiri et Dial NIANG
Institut International d'Ingénierie de l'Eau et de l'Environnement (2iE) (Groupe EIER-ETSHER)
UTER Gestion et Valorisation de l'Eau et l'Assainissement
E-mail: harouna.karambiri@2ie-edu.org ; dial.niang@2ie-edu.org 1
Ι. Rappels de statistique

L'analyse fréquentielle est une méthode statistique de


prédiction consistant à étudier les événements passés,
caractéristiques d'un processus donné (hydrologique ou
autre), afin d'en définir les probabilités d'apparition future.

Cette prédiction repose sur la définition et la mise en


œuvre d'un modèle fréquentiel, qui est une équation
décrivant le comportement statistique d'un processus.
Ces modèles décrivent la probabilité d'apparition d'un
événement de valeur donnée.

2
2
Ι. Rappels de statistique
Quelques définitions

Un ensemble d’objets ou de personnes d’une étude


statistique est appelé population.

La variable est dite discrète si elle ne prend que des


valeurs isolées (ex : entières). Elle est continue si elle
peut prendre toutes la valeurs d’un intervalle (ex : R).

Une variable est dite aléatoire si elle est le résultat d’une


épreuve qui dépend du hasard.

3
Ι. Rappels de statistique
Concepts de probabilité et de fréquence
En statistique, l’ensemble des observations des débits d’un
cours d’eau durant une année constitue une épreuve; de
chaque épreuve on tire divers résultats dont le module
annuel. L’ensemble de toutes les réalisations des résultats m
(module) de toutes les épreuves possibles forme une
population M: suite indéfinie hypothétique dont n’est jamais
connue qu’une infinie partie l’échantillon E observé des
modules sur une période déterminée de N années.
La réalisation r dans la population M se produit n fois en N
années; on appelle:

4
Ι. Rappels de statistique
-fréquence expérimentale de r dans l’échantillon E:

n
f =
N
- probabilité de r dans la population M:

prob (r / M ) = lim quand N → ∞


n
N
La réalisation est représentée par une valeur numérique variable aléatoire X,
dont la fonction de répartition est:

F(x) = Prob { X ≤ x }
la dérivée de F(X) est la densité de probabilité f(x) de la variable aléatoire, et l’on
peut écrire:
+∞
Pr ob{b ≤ x ≤ a} = F (a) − F (b) = ∫ f ( x)dx 5
−∞
Ι. Rappels de statistique

Exercice: On dispose d’une série de données pluviométriques de la


station de Payerne de 1901 à 1979. Les valeurs obtenues sont
comprises entre 500 et 1600 mm. Calculer les fréquences.

Corrigé :
n
Classe ni fi f =
500- 600 1 0.013 N
600-700 1 0.013
700-800 5 0.063
800-900 8 0.101 N= 79, ni= effectif par classe,
900-1000 16 0.202 fi = fréquence relative
1000-1100 13 0.165
1100-1200 16 0.202
1200-1300 11 0.139
1300-1400 6 0.076
1400-1500 1 0.013
6
1500-1600 1 0.013
ΙΙ.
ΙΙ Rappels de statistique

Pour la pratique des calculs de


e la fréquence expérimentale, on
parle tantôt de fréquence au non dépassement F(x)
F(x)::

F ( x ) = prob X ≤ x
tantôt de fréquence au dépassement notée P(x)
On a:
P(x) + F(x) = 1
NB: Si on classe un échantillon par ordre décroissant, on
obtient la fréquence au dépassement.
Si on classe un échantillon par ordre croissant, on obtient
la fréquence au non dépassement.
7
Ι. Rappels de statistique

Calcul de la fréquence expérimentale

r − 0. 5
Formule de Hazen
Hazen:: F ( x) =
n
n: taille de l’échantillon; r : rang

r
Formule de Weibull
Weibull:: F ( x) =
n +1

8
Ι. Rappels de statistique
Exemple: calculer la fréquence expérimentale au non
dépassement des pluies mensuelles de la station de
Payerne avec la formule de Hazen
Année Pluie (mm) Rang Fréquence
expérimentale
1970 43 1 0.045
1971 46 2 0.136
1972 49 3 0.227
1973 50 4 0.318
1974 50 5 0.409
1975 53 6 0.500
1976 53 7 0.591
1977 53 8 0.682
1978 54 9 0.773
1979 55 10 0.864
1980 60 11 0.955 9
Ι. Rappels de statistique

Temps de retour
retour::
Il est défini comme étant l’inverse de la probabilité de
dépassement

1 1
T= =
P 1− F

Notion pratique mais ambiguë : La durée de retour caractérise la rareté


de l’événement considéré, qu’il s’agisse du dépassement d’une valeur
forte ou du non-dépassement d’une valeur faible. Aussi, il vaudrait la
définir comme l’inverse de la probabilité d’occurrence de
l’événement considéré.

10
Ι. Rappels de statistique

Exemple :
 Pluie décennale humide : la hauteur de pluie qui, chaque
année, a seulement 10% de chance d’être dépassée, soit une
probabilité ou fréquence annuelle de dépassement P = 0,1

 Pluie décennale sèche : la hauteur de pluie qui, chaque


année, a seulement 10% de chance de ne pas être atteinte,
soit une probabilité ou fréquence annuelle de dépassement
P = 0,9.

11
11
Ι. Rappels de statistique

Notion de risque
risque::

n
 1
risque = 1 − 1 − 
 T
T=période de retour
retour;; n=durée

risque = 1 – probabilité (n’arrive jamais rien)


Exemple 1: Quel est le risque pour que «quelque chose» de
grave se passe en 50 ans pour un débit de projet Q100.

12
Ι. Rappels de statistique

Solution 1:
T = 100 ans
1
probabilité atteinte ou dépassée = = 0.01
100

probabilité non atteinte = 1 – 0.01 = 0.99

n 50

 1  1 
risque = 1 − 1 −  = 1 − 1 −  = 1 − (0.99 ) = 0.39
50

 T  100 
On a donc 39%
39% de risque pour que le débit de projet Q100 soit
dépassé durant 50 ans
ans..
13
99))100 = 63
Si durée n = 100 ans, risque = 1- (0.99 63%
%
Ι. Rappels de statistique

Exemple 2: Calculer la période de retour pour qu’un événement


arrive avec un risque de 10% pour une durée n = 20 ans

Solution 2:

 1  1
risque = 1 − 1 −  ⇒ 1 −  = 1 − risque n

 T  T
1 1
⇒ = 1 − 1 − risque ⇒ T =
n

T 1 − 1 − risquen

1
T= = 190 ans
1 − 1 − 0.1
20
14
Ι. Rappels de statistique
Caractéristiques de l’échantillon
Description de l’échantillon : Lorsque l’on dispose d’une série importante
( > 30 valeurs) il peut être intéressant de présenter cet échantillon de
manière synthétique : numériquement ou graphiquement
Synthèse numérique :
1
- moyenne arithmétique : x = Σ xi
n
- paramètres de dispersion :
valeurs extrêmes : Max( x ), Min( x )
i i
1
variance : s² = ∑ ( x − x )²
n i
écart-type : S
1
s² = ∑ ( x − x )²
variance non-biaisée : n −1 i
s
coefficient de variation : CV = 15

x 15
Ι. Rappels de statistique

- paramètres de distribution : médiane et quantiles

1er décile : valeur non dépassée dans 10% des cas (F=0.1)

médiane : valeur non dépassée dans 50 % des cas (F = 0.5)

mode : valeur de probabilité maximale (peut être différente de la valeur


moyenne si fonction asymétrique) (F=max)

dernier décile : valeur non atteinte dans 90% des cas (F=0.9)

16
16
Synthèse graphique :
- histogramme des fréquences empiriques :
on fixe des classes [xi ; xi-1] et on compte combien de valeurs de
l’échantillon se trouvent dans chaque classe (effectifs).

• Très simple mais le nombre de classes et le choix des classes


restent à l’appréciation de l’intervenant !
• Peut être envisagé pour comparer des échantillons de variables
proches (en valeur moyenne).

17
17
Synthèse graphique :
- histogramme des
fréquences empiriques :

18
18
ΙΙ.
ΙΙ Ajustement d’une série statistique à une loi de distribution

Choix du type de loi :

-Pluies annuelles ou débits moyens annuels: loi normale ou


loi lognormale

- Pluies journalières maximales, crues et étiages: loi de


Gumbel, loi de Fréchet ou loi de Pearson

19
ΙΙΙ.
ΙΙΙ Loi de Gauss
La variable aléatoire X suit une loi normale si sa fonction de répartition
ou probabilité de non dépassement est de la forme:

1

F ( x) = Pr ob{X ≤ x} =
1 u

2u 2
e du
2π −∞

x−x
avec u= variable réduite
s
Cette loi présente 2 paramètres qui sont:
- la moyenne x et l’écart type s
Théorème central limite: La somme de N variables aléatoires
indépendantes, identiquement distribuées et de variance finie, tend
vers une loi normale lorsque N tend vers l'infini. 20
ΙΙΙ.
ΙΙΙ Loi de Gauss
x−x
• variable centrée réduite : u=
s
la transformation en variable réduite (u) ramène à l’étude de la loi
Normale N(0,1)  Il existe des tables.
• loi symétrique par rapport à : donc médiane = moyenne
• loi unimodale
• loi non bornée à droite comme à gauche

21
21
ΙΙΙ.
ΙΙΙ Loi de Gauss
La représentation graphique de la loi normale se fait sur un papier à probabilité
normale appelée aussi papier gaussien.

22
ΙΙΙ.
ΙΙΙ Loi de Gauss

Estimation des quantiles


quantiles:: pour la loi normale les quantiles
sont calculées avec la formule suivante:

xp = x + up × s

avec xp le quantile à la probabilité p, up variable réduite à la


probabilité p. Cette droite est aussi appelée droite de Henry.

Quelques Valeurs de u (variable réduite de Gauss) pour


quelques probabilités au non dépassement:
dépassement

F 0,01 0,025 0,05 0,10 0,15 0,20 0,50 0,80 0,85 0,90 0,95 0,975 0,99

u -2,33 -1,96 -1,64 -1,28 -1,04 -0,84 0,0 0,80 1,04 1,28 1,64 1,96 2,33

23
ΙΙΙ.
ΙΙΙ Loi de Gauss

Exercice d’application
d’application:: Calculer le module décennal humide
(F(x)= 0,90),
90), le module centenaire humide (F(x)= 0,99), 99), le module
décennal sec (F(x)= 0,10)
10) et le module centenaire sec (F(x)= 0,01)
01) pour
une série de données dont

x= 292 mm et s = 90
Solution::
Solution
Les quantiles sont estimés à partir de la formule: xp = x + up × s

F(x) 0,01 0,10 0,90 0,99


u -2,33 -1,28 1,28 2,33

Xp 83 177 407 501


(mm)
24
ΙΙΙ.
ΙΙΙ Loi de Gauss

Calcul des intervalles de confiance


confiance::
L’ intervalle de confiance permet d’expliquer l’importance des
erreurs d’échantillonnage
d’échantillonnage.. Son calcul et son choix découlent de
l’étude des distributions d’échantillonnage c’est-
c’est-à-dire des lois
auxquelles sont soumises les caractéristiques empiriques
déduites des échantillons
1° Moyenne et écart type
type::
. si N > 30 pour la moyenne et N > 50 pour l’écart type

IC à α% pour x = x ± u α
s
1−
2 N
s
IC à α% pour s = s ± u α
1−
2 2N
Exemple:: si α = 95%
Exemple 95% on aura
u 1−α
= 1,96 = u0,025
2
25
ΙΙΙ.
ΙΙΙ Loi de Gauss

Calcul des intervalles de confiance


confiance::
. si N < 30 pour la moyenne
t s
IC à α% pour x=x± 1−α t est la variable de Student
2 N
. si N < 50 pour l’écart type
2 2
Ns Ns
IC à α% pour <s < 2
la variance suit la loi de χ2
χ 2
1
χ 2
2

α
avec Pr ob[χ ≤ χ ]= Pr ob[χ ≤ χ ]=1−
2 2
1
2
2
2

2
r = N-1 : r est le nombre de degré de liberté

2° Quantiles
Quantiles::
s
IC à α% pour x = x ±u
p p 1−α u 2 + 2 valable si N ≥ 30
p
2 2N
26
ΙV. Loi de Gumbel

− e − a ( x − x0 )
 Fonction de répartition : F ( x) = e

 2 paramètres de la loi (xo,a) : x0 = paramètre de position et


a = paramètre d’échelle
 Variable réduite : u = a( x − x0 )
 Loi non symétrique et unimodale : moyenne et mode différents
Loi non bornée.
La loi de Gumbel n’utilise que les fréquences au non
dépassement

27
27
ΙV. Loi de Gumbel
u
avec u = a ( x − x0 ) ⇒ x = + x0
a

En introduisant la valeur de u dans la fonction de répartition on


obtient:

−e− u
F ( x) = e

et u = − ln [− ln (F (x ))]
Quelques Valeurs de la variable réduite de Gumbel

F 0 ,10 0,20 0,50 0,80 0,90 0,95 0,98 0,99 0,999


u -0,834 -0,476 0,367 1,500 2,250 2,970 3,902 4,600 6,907

28
ΙV. Loi de Gumbel
Ajustement mathématique
Méthode des moments

1
= 0,780σ
a
0,577
x0 = x −
a
Calcul des quantiles

up
xp = + x0
a 29
ΙV. Loi de Gumbel
Calcul des intervalles de confiance des quantiles

σ
Intervalle de confiance x p = x p ± u1−α 1 + 1.4 K + 1.1K 2
2 n −1
K = 0.780(u p − 0.577 )
u1−α
= variable réduite de Gauss
2
u p = − ln [− ln (F ( x ))] = variable réduite de Gumbel

Exercice: Ajuster la loi de Gumbel aux pluies mensuelles de la station


de Payerne.
Estimer les quantiles pour F(x)=0.90; 0.95 et 0.99 et calculer leur
intervalle de confiance
30
ΙV. Loi de Gumbel

Année Pluie (mm) Rang Fréquence Variable de


expérimentale Gumbel
1970 43 1 0.045 -1.1285
1971 46 2 0.136 -0.6894
1972 49 3 0.227 -0.3931
1973 50 4 0.318 -0.1355
1974 50 5 0.409 0.1123
1975 53 6 0.500 0.3665
1976 53 7 0.591 0.6423
1977 53 8 0.682 0.9597
1978 54 9 0.773 1.3555
1979 55 10 0.864 1.9200
1980 60 11 0.955 3.0679

Moyenne x = 51 mm
Ecart type σ = 4.59 mm
31
ΙV. Loi de Gumbel
Calcul des paramètres de la loi

1
= 0.780 × 4.59 = 3.58 ⇒ a = 0.2793
a
x0 = 51 − 0.577 × 3.58 = 48.93
Estimation des quantiles

up
xp = + x0
a
avec u p = − ln[− ln(F ( x ))]
Calcul des intervalles de confiance des quantiles

σ
Intervalle de confiance x p = x p ± u1−α 1 + 1.4 K + 1.1K 2
2 n −1
K = 0.780(u p − 0.577 )

32
ΙV. Loi de Gumbel

F(x) up x K Borne Borne


inférieure supérieure

0.90 2.2504 57.0 1.3052 51.8 62.1


0.95 2.9702 59.6 1.8667 54.8 64.3
0.99 4.6001 65.4 3.1381 57.4 73.4

33
Test de χ2:
On juge généralement l’adéquation d’une loi à un échantillon par le
test du χ2, variable aléatoire dont la distribution a été étudiée par
Pearson.
En pratique, on procède comme suit:

1) découpage en k classes. Ce découpage doit introduire des


classes d’égale probabilité théorique et d’un effectif d’au moins 5
valeurs par classe.

χ =∑
2
k (n − n )
i pi
2

2) calcul de
1 n pi
avec ni effectif observé de la classe i;
N effectif total
npi effectif théorique de cette même classe n pi = =
nc nombre de classes
34
Test de χ2:
3) Calcul du nombre ν de degrés de liberté

ν = k − p −1
avec k le nombre de classes et p le nombre de paramètres de
la loi.

L’adéquation est admise si P(χ2)≥α


α est le seuil du risque d’adéquation. α est choisi
généralement égal à 0.05 05.. l’adéquation est rejetée si
P(χ2)≤0.05.

Exercice Tester l’ajustement de la loi de Gauss sur les


Exercice:
précipitations annuelles de la station A (1906-1975). Test de χ²
35
Test de χ2:
Numéro Module Numéro Module
(mm) (mm)
1 149.5 32 288.5
2 150.7 33 291.0
3 151.0 34 294.1
4 161.8 35 294.3
5 172.1 36 308.0
6 185.0 37 308.6
7 185.9 38 310.1
8 192.8 39 319.1
9 197.8 40 321.5
10 205.0 41 326.9
11 205.8 42 329.6
12 206.0 43 333.5
13 208.5 44 342.0
14 210.0 45 357.2
15 214.6 46 360.2
16 222.1 47 364.5
17 222.6 48 366.5
18 225.6 49 367.4
19 235.7 50 380.9
20 235.7 51 382.0
21 242.8 52 394.4
22 246.4 53 399.5
23 252.6 54 402.1
24 255.0 55 408.8
25 257.0 56 413.4
26 258.5 57 421.2
27 260.3 58 421.8
28 273.0 59 428.7
29 275.9 60 500.8
30 278.6 61 556.4
31 281.8
36
Test de χ2:
Solution

χ =∑
2
k (n − n )
i pi
2 ni effectif observé de la classe i;
npi effectif théorique de cette même classe
N effectif total
1 n pi n pi = =
nc nombre de classes
Classe Limites des classes ni npi ni-npi (ni-npi)2 (n − n )
i pi
2

n pi
1 ≤ 188.5 7 7.6250 -0.6250 0.3906 0.0512
2 188.5 – 231.3 11 7.6250 3.3750 11.3906 1.4938
3 231.1 – 263.3 9 7.6250 1.3750 1.8906 0.2479
4 263.3 – 292.0 6 7.6250 -1.6250 2.6406 0.3463
5 292.0 – 320.7 6 7.6250 -1.6250 2.6406 0.3463
6 320.7 – 352.7 5 7.6250 -2.6250 6.8906 0.9037
7 352.7 – 395.6 8 7.6250 0.3750 0.1406 0.0184
8 ≥ 395.6 9 7.6250 1.3750 1.8906 0.2479

3.66
χ cal
2
= 3 . 66 ν = k − p −1 = 8 − 2 −1 = 5
χ 02. 05 = 11 . 07
χ 2
Comme cal < χ 2
0 . 05 on accepte l’hypothèse
37
V. Synthèse

l’ajustement d’une série statistique à une loi de distribution


comporte 2 étapes:

- contrôle et analyse des données

- analyse des fréquences

38
V. Synthèse
Contrôle et analyse des données
Pour élaborer un modèle statistique à partir des données
d'un échantillon, il faut que celles-ci soient d’abord
homogènes, stationnaires et indépendantes.

Homogénéité : les données proviennent toutes de la même


population.
Exemple de non homogénéité:
• Crues printanières et crues pluviales dans un même
échantillon.

Stationnarité : Propriétés statistiques invariantes dans le


temps, à l’exception des fluctuations aléatoires du climat.
Exemple:
• Détournement de cours d’eau, urbanisation, changement
39
climatique et relocalisation de pluviomètre
V. Synthèse

Indépendance : Les données doivent être indépendantes: une


valeur de l'échantillon n'est pas influencée par la valeur
précédente, donc l'ordre où elle survient n'a pas d'importance.

Exemple de données dépendantes:


débits journaliers en rivière

40
V. Synthèse
AJUSTEMENT D'UN ECHANTILLON DE PLUIES ANNUELLE A LA LOI NORMALE

Étapes à suivre dans la pratique :


1. Vérifier l'homogénéité de la série et apporter les corrections nécessaires (voir TD
n°1)
2. Description de l'échantillon (moyenne, écart-type, variance, maxi, mini, CV, etc..)
3. Classement de l'échantillon par valeurs croissantes
4. Tracer l'histogramme des fréquences empiriques en prenant comme taille des
classes, environ 10% de l'écart maximal (Maxi - Mini) et estimer le mode de
l'échantillon.
5. Choix d'une loi de probabilité empirique F(xi) (fréquence expérimentale)

i − 0.5
F *( x ) = (HAZEN, pour ajustement à une loi de GAUSS)
i n

i
F *( x ) = (WEIBULL, pour ajustement à une loi de GUMBELL)
i n+1

41
V. Synthèse
6. Tracer la courbe expérimentale F(xi) et déterminer la médiane.
7. Comparer les valeurs centrales (moyenne, mode, médiane). Si elles sont très peu
différentes, on pourra supposer que la distribution est normale ou gaussienne.
8. Reporter les points (xi, F(xi)) sur un papier GAUSS. Si les fréquences
expérimentales de non-dépassement suivent rigoureusement une loi normale, tous
les points seront alignés (droite).
9. Ajustement graphique d'une droite sur l'ensemble des points. Veuillez à avoir une
bonne répartition des points de part et d'autre de la droite. On peut ainsi déterminer
n'importe quel quantile par lecture directe sur la droite.
10. Ajustement par le calcul d'une droite sur les points. Pour cela, il faut utiliser la
moyenne et l'écart-type, puis calculer les coordonnées de deux points assez
éloignés (généralement F = 0.05 et F = 0.95).
11. Choisir une loi parmi les 2 lois ajustées en allant dans le sens de la sécurité.
12. Déterminer l'intervalle de confiance et valider la loi utilisée :

42
V. Synthèse
Tracer l'intervalle de confiance à α% à partir de quelques points xi en reliant
respectivement les bornes inférieures Ai entre elles et les bornes supérieures Bi
entre elles.
La loi sera acceptée si au moins α% des valeurs de l'échantillon se
trouve à l'intérieur de l'intervalle de confiance tracé.
Ce test graphique sera toujours préféré aux tests numériques qui sont
peu puissants (exemple test de χ²)

13. On peut estimer n'importe quel quantile et lui associé un intervalle de confiance

43