Vous êtes sur la page 1sur 69

Capítulo 5

REVISIÓN DE CONCEPTOS DE ESTADÍSTICA Y


PROBABILIDAD

73
La planeación y el diseño de proyectos relacionados con el agua necesitan
información de diferentes eventos hidrológicos que no son gobernados por
leyes físicas y químicas conocidas, sino por las leyes de azar. Por ejemplo, el
caudal de un río varía día a día y año tras año, y no puede predecirse
exactamente cual será su valor en un período de tiempo cualquiera. En el
caso del diseño de un puente, el estudio hidrológico determinaría la creciente
asociada con una probabilidad crítica(se busca determinar el caso crítico), la
cual se supone representa el riesgo para el puente. Esto solo puede
determinarse a través del análisis probabilístico y estadístico basado en los
registros hidrológicos del pasado.

Es dable afirmar que la hidrología, en algunos casos, trata con variables


aleatorias cuyo comportamiento no puede predecirse con certidumbre. El
comportamiento de una variable aleatoria está descrito por una ley de
probabilidades, la cual asigna medidas de probabilidad a posibles valores o
rangos de ocurrencia de la variable aleatoria. Las variables aleatorias pueden
ser discretas o continuas.

Se dice que una variable aleatoria es discreta si ella sólo puede tomar valores
específicos. Por ejemplo, si N denota el número de días lluviosos en el mes
de diciembre, entonces N es una variable aleatoria discreta. En este caso, la
ley de probabilidades asocia medidas de probabilidad a cada posible
ocurrencia de la variable aleatoria.

Una variable aleatoria es continua si puede tomar todos los valores en un


rango de ocurrencia. Por ejemplo, si Q es una variable aleatoria que denota
el valor de los caudales promedios diarios del río Magdalena, entonces Q

74
puede asumir cualquier valor y es entonces una variable aleatoria continua
En este caso la ley de probabilidades asigna medidas de probabilidad a
rangos de ocurrencia de la variable aleatoria.

En el análisis probabilístico y estadístico en hidrología, se asume que la


información histórica disponible de una variable hidrológica representa una
muestra tomada de una población cuyas características se desconocen. En el
análisis probabilístico se analizan posibles leyes de probabilidad que pueden
describir el comportamiento de las variables de la población. En el análisis
estadístico, se hacen inferencias sobre la variable (la población), usando la
muestra. Por ejemplo, cuando se calcula una media con observaciones
disponibles, se está infiriendo que la media calculada es la media de la
población, lo cual no necesariamente es verdad, pues esto dependerá de la
calidad de la información, del número de observaciones y otros aspectos.

El hecho es que muchos fenómenos hidrológicos son erráticos, complejos y


de naturaleza aleatoria, y solo pueden ser interpretados en un sentido
probabilístico. Uno de los problemas más importantes en hidrología es la
interpretación de registros de eventos pasados para inferir la ley de
probabilidades de la variable hidrológica (población) de interés,
procedimiento que en hidrología se conoce con el nombre de análisis de
frecuencia.

Por ejemplo supóngase que se tienen registros del caudal del río Magdalena
durante un período de 50 años. Son factibles dos tipos de análisis:
descriptivo y de inferencia. El primero se realiza sin ninguna referencia a su
población, de la cual se tiene una muestra de 50 años. Consiste, básicamente,
en calcular propiedades estadísticas, como media, varianza y otras. En el
segundo, la muestra se analiza para inferir las propiedades de su población,
lo cual ayudará a derivar las características probabilísticas del caudal. El
primero es una aplicación de los métodos estadísticos que requieren poca

75
decisión y poco riesgo. El segundo involucra riesgos y requiere una total
comprensión de los métodos empleados y el peligro involucrado en la
predicción y estimación de las variables.

Los objetivos básicos de la estadística en la hidrología son entre otros:


1) Interpretación de las observaciones
2) Análisis de la calidad de la información
3) Inferencia sobre el comportamiento de la variable
4) Extracción del máximo de información de los registros
5) Presentación de la información en gráficas, tablas, ecuaciones, que
básicamente ayudan a la toma de decisiones en el planeamiento de los
recursos hídricos.

En resumen, el objetivo principal de la estadística en hidrología es obtener


información de los fenómenos hidrológicos pasados y hacer inferencias
acerca de su comportamiento en el futuro.

5.1 CONCEPTOS BÁSICOS

5.1.1 Concepto de probabilidad.

La probabilidad de ocurrencia de un evento dado es igual a la relación entre


el número de sucesos favorables m y el número de sucesos totales, n:

m
P( X = x ) = (5.1)
n

La teoría de la probabilidad se basa en los siguientes axiomas:

76
1) La probabilidad de ocurrencia de un evento, Pi, siempre tiene un
valor entre 0 y 1, así:

0 ≤ Pi ≤ 1 (5.2)

.
La probabilidad de un evento cierto es 1:

∑P
i =1
i =1 (5.3)

2) Si X1 y X2 son eventos independientes y mutuamente excluyentes,


entonces:

P( X 1 ∪ X 2 ) = P ( X 1 ) + P( X 2 ) (5.4)

Dos eventos son independientes si la probabilidad de ocurrencia de uno no se


ve afectada por la ocurrencia del otro,. y se dice que son mutuamente
excluyentes cuando la ocurrencia de uno imposibilita la ocurrencia del otro.
Los axiomas anteriores permiten la definición de conceptos importantes. Por
ejemplo, si dos eventos X1 y X2 no son mutuamente excluyentes, la
probablidad de que ocurra X1 u ocurra X2 está dada así:

P( X 1 ∪ X 2 ) = P( X 1 ) + P ( X 2 ) − P( X 1 ∩ X 2 ) (5.5)

La P( X 1 ∪ X 2 ) es llamada unión de probabilidades y se lee la probabilidad


de X1 o X2.

77
La probabilidad de que dos eventos independientes ocurran de manera
simultánea es el producto de las probabilidades individuales así:
P( X 1 ∩ X 2 ) = P( X 1 ) × P( X 2 ) (5.6)

La P( X 1 ∩ X 2 ) es llamada la probabilidad de intersección y se lee la


probabilidad de X1 y X2.
La probabilidad de que ocurra un evento X1 dado que ha ocurrido X2 se
llama probabilidad condicional y se denota así:

X1 ∩ X 2
P( X 1 ) = P( ) (5.7)
X2 P( X 2 )

Ejemplo 5.1

Supóngase que el río Cauca alcanza cada invierno un nivel de creciente con
una frecuencia relativa de 0.2. En el Cauca hay un puente cuya probabilidad
de falla en los estribos es 0,3 y la experiencia muestra que cuando hay
creciente, las probabilidades de esta falla suben a 0,5. Las probabilidades
son:
P(creciente) = P(C) = 0,2
P(no creciente) = P(C) = 0,8
P(falla) = P(F) = 0,3
P(no falla) = P(F) = 0,7
P (falla dada creciente) = P(F/C)= 0,5
Se desea conocer la probabilidad de falla del puente.

Solución:
El puente falla (queda inutilizado) cuando falla en los estribos o cuando hay
creciente; esto se puede denotar así:

78
P( C ∪ F ) = P ( C ) + P ( F ) − P( C ∩ F )

Aplicando la ecuación 5.7 de probabilidad condicional:

P( C ∩ F ) = P ( C ) × P( F )
C
Reemplazando valores, se obtiene:
P( C ∩ F ) = 0. 2 × .0.5 = 0.1
Al reemplazar este valor en la expresión de unión de probabilidades, se
concluye finalmente que P(C∪F)=0.4

5.1.2 Período de retorno:

Se define el período de retorno, Tr, de un evento de cierta magnitud como el


tiempo promedio que transcurre entre la ocurrencia de ese evento y la
próxima ocurrencia de ese evento con la misma magnitud. Se define también
como el tiempo que transcurre para que un evento sea excedido o igualado,
al menos una vez en promedio. Si P es la probabilidad de excedencia, se
puede demostrar matemáticamente que:
1 (5.8)
Tr =
P
3
Por ejemplo, si un caudal de 8098 m /s es excedido en promedio una vez
cada 10000 años, entonces su período de retorno, T r, es de 10000 años.

5.1.3 Concepto de riesgo.

En el diseño de obras hidráulicas expuestas a grandes avenidas, es necesario


considerar el riesgo asociado con el valor seleccionado para el diseño. Por lo
común, el ingeniero diseña una obra para resistir una avenida de cierta
magnitud. Se define el riesgo R de un diseño como la probabilidad de que la
avenida para la cual se diseña la obra sea excedida. Se entiende que ésta es

79
una situación de riesgo, pues la obra se diseña para soportar cierta avenida
máxima , y crecientes mayores le podrían hacer daño o incluso destruirla. El
riego R puede entonces escribirse como:
1
R = 1 - (1 - )n (5.9)
Tr
La confiabilidad se define como el complemento del riesgo (Confiabilidad =
1-R). Se quiere que la obra tenga un riesgo pequeño de dañarse o, lo que es
lo mismo, una alta confiabilidad.

Ejemplo 5.2

¿Qué período de retorno debe escoger un ingeniero en el diseño de un


box-culvert, si se acepta solo el 10% de riesgo de avenida en una vida útil, n,
de 25 años?
Solución:
Aplicando la ecuación 5.9 se tiene:

1 25
R = 0.1 = 1 - (1 - )
Tr
Reemplazando los valores de Tr y n se obtiene:

TR = 238 años

Ejemplo 5.3

Una presa por gravedad puede fallar por deslizamiento (A), por crecientes
(B), o por ambas. Asumir que :
1) La probabilidad de falla por deslizamiento es dos veces la probabilidad
de falla por creciente: P(A)=2 P(B)

80
2) La probabilidad de falla por deslizamiento, dado que ha habido creciente,
es 0.8
-3
3) La probabilidad de falla de la presa es de 1*10

Determinar la probabilidad de que ocurra un deslizamiento, P(A).

Solución:
La presa queda inutilizada cuando se presenta una falla por deslizamiento o
cuando hay una creciente, lo que puede expresarse como:

P( A ∪ B ) = 0.001 = P( A ) + P( B ) − P( A ∩ B ) (1)

Se tiene además que:


P(A) = 2 P(B) (2)

Reemplazando la (2) en la (1):


0.001 = 3P( B ) − P( A ∩ B ) (3)

Se sabe que:
A A∩B
P( ) = 0.8 = P( ) (4)
B P( B )

Resolviendo simultáneamente la (3) y la (4), se obtiene:


-4
P(A) = 9.1 * 10

81
Ejemplo 5.4

De 1000 circuitos de tubería de acueducto en una ciudad, se reportan 15


contaminados con materias fecales; 5 tienen excesivas concentraciones de
plomo (Pb) y entre éstos dos de ellos contaminados también por materias
fecales. Se pregunta:
a) Cuál es la probabilidad de que un sistema seleccionado al azar
resulte con contaminación fecal?
b) Suponiendo que un sistema se encuentre contaminado con materias
fecales, cuál es la probabilidad de que también esté contaminado con
plomo?
c) Cuál es la probabilidad de que un sistema seleccionado al azar esté
contaminado?
d) Suponiendo que la probabilidad de contaminación hallada en el
numeral anterior no es satisfactoria, y que se desea que no exceda de
0.01, ¿cuál es el valor permisible para la probabilidad de
contaminación por materias fecales, asumiendo que el valor de la
probabilidad condicional hallada en el numeral b aún se puede
aplicar?
Solución:
Llamemos P(F) a la probabilidad de contaminación por materia fecal, P(Pb) a
la probabilidad de contaminación por plomo y P(C) a la probabilidad de
contaminación por plomo o por materia fecal. Se tiene entonces:
a) P(F) = 17/1000
b) La probabilidad condicional P(Pb/F) puede expresarse como:

P(Pb ∩ F)
P( Pb / F ) =
P(F)

82
y P(Pb) = 5/1000. Reemplazando, se obtiene que:
P(PBI/F) = 2/17
c)Se pregunta en este numeral el valor de P(C); este valor establece la
probabilidad de que un circuito esté contaminado con plomo o con materias
fecales. Como hay 15 circuitos contaminados con materias fecales y 5
contaminados con plomo, se tiene entonces que:
P(C) = 20/1000= 0.002
d) La probabilidad de contaminación C se puede expresar como:
P( C) = P( F ∪ Pb ) − P( F ) + P( B ) − P( F ∩ Pb ) (1)
y se conoce el valor de la probabilidad condicional:

P( Pb / F ) = 2 / 17 = P( Pb ∩ F ) (2)
P( F )
Resolviendo la (1) y la (2) simultáneamente se halla que:

P(F) = 0.00567

5.2 DISTRIBUCIONES DE FUNCIONES DE PROBABILIDADES EN


HIDROLOGIA

Tal como se había mencionado anteriormente, el comportamiento de las


variables aleatorias discretas o continuas se describe con la ley de
probabilidades asociada, que asigna medidas de probabilidad a ocurrencias o
a rangos de ocurrencia de la variable. Estas leyes de probabilidad reciben el
nombre de funciones de distribuciones de probabilidad. Como notación, se
representa por una letra mayúscula la variable aleatoria, y por una letra
minúscula, un valor específico, una relación o una muestra de la variable.
P(X = a) indica la probabilidad de que la variable aleatoria X tenga un valor
de a; similarmente, P(a<X<b) indica la probabilidad que la variable aleatoria

83
X esté en el intervalo [a, b] .Si se conoce la probabilidad P(a<X<b) para
todos los posibles valores de a y b, se dice que se conoce la distribución de
probabilidades de la variable X.

Si se tiene una muestra cuyas observaciones se asumen extraídas de una


misma población (idénticamente distribuidas), ellas pueden presentarse como
un histograma de frecuencias. Todo el rango disponible de la variable
aleatoria se divide en intervalos discretos; se cuenta el número de
observaciones que cae en cada intervalo, y el resultado se dibuja en un
diagrama de barras como el mostrado en la Figura 3.1, que representa la
precipitación promedio anual en una estación.

FIGURA 5.1 Histograma de frecuencias.

Supóngase que se tiene una variable continua y el ancho ∆x del intervalo que
se usa para el histograma se escoge tan pequeño como sea posible;
supóngase igualmente que se tiene el suficiente número de observaciones en
cada intervalo, para que el histograma de frecuencia muestre variaciones
suaves en todo el rango de valores.
Si el número de observaciones ni en el intervalo i que cubre el rango [xi-∆x,
xi] se divide por el número total de observaciones, N, el resultado se
denomina función de frecuencia relativa fs (x):

84
ni
f s ( xi ) = (5.10)
n
la cual es un estimado de P( xi -∆x<X<xi), la probabilidad de que la variable
aleatoria X caiga en el intervalo [xi -∆x, xi]. El subíndice s indica que la
función es calculada de los datos muestrales.

La suma de los valores de las frecuencias relativas en un punto es la función


de frecuencia acumulada, Fs(x),dada como:
i

FS ( xi ) = ∑ f S ( x j) (5.11)
j= 1

Este es un estimado de P(X ≤ xi), la probabilidad acumulada de xi, o función


acumulada de probabilidades.

Las funciones de frecuencia relativa y frecuencia acumulada se definen para


una muestra. Las funciones correspondientes a la población se obtienen en el
límite cuando n→ y ∆x →0. En el límite, la función de frecuencia relativa
dividida por el intervalo ∆x, se convierte en la función de densidad de
probabilidades fX(x)

(x)
f X (x) = lim f S (5.12)
n →∞
û[ → 0
û[
La función de frecuencia acumulada se convierte en la función acumulada de
distribución de probabilidades FX(x)

FX (x) = lim FS (x) (5.13)


n→ ∞
û[ → 0

85
cuya derivada es la función de densidad de probabilidad:

dFX (x)
f X (x) = (5.14)
dx

Para un valor dado de la variable aleatoria X, Fx(x) es la probabilidad


acumulada P(X ≤ x), y puede expresarse como la integral de la función de
densidad para el rango X ≤ x.

P(X ≤ x) = FX (x) =
−∞
∫f X (u)du (5.15)

en donde u es una variable de integración. Si se tiene la función de


distribución acumulada para una variable X y se tiene un valor xA de esa
variable, (ver Figura 5.2) se cumple que:

FX (xA ) = P (X ≤ x A ) (5.16)

Una forma bastante usada en hidrología para escribir el valor de una variable
hidrológica asociada a cierto período de retorno es la de utilizar lo que se
conoce como factor de frecuencia, K. En este caso, el valor de la variable se
puede escribir como:
X A = µ + Kσ (5.17)

86
Donde µ representa la media y K
es la desviación típica de la variable
hidrológica. XT es el valor de la variable aleatoria asociada a un ‘período de
retorno T. Como se sabe:
FX (XT ) = P (X ≤ XT )
= 1 - P (X > XT )


P(X XT ) representa la probabilidad de excedencia, la cual está relacionada
con el período de retorno como:
1
P( X ≥ X T ) = (5.18)
T

1
0.9
0.8
0.7
0.6
) [

0.5
;

0.4
0.3
0.2
0.1
0
1 2 3 4 5 6 7 8 9 10
x

FIGURA 5.2 Distribución acumulada

De donde:
1
FX ( X T ) = 1 −
T

87
O:
1
FX ( µ + σK ) = 1 −
T
Y se obtiene finalmente:
1 −1  1
K= FX  1 −  − 
1  T

-1
FX ( ) representa el inverso de la distribución acumulada de probabilidades.
-1
Por ejemplo, para obtener FX (1 - 1/T), se entra al gráfico 5.2 con el valor
de 1-1/T al eje de probabilidades, y se lee en el otro eje el valor del inverso
de la distribución acumulada de probabilidades. Lo que significa que el factor
de frecuencia es función de la distribución de probabilidades y del período de
retorno que se escoja.
La función de densidad de probabilidades tiene las siguientes características
cuando la variable aleatoria es continua:
1)

∫f X (x)dx = 1 (5.19)
-∞

2)
b
P(a ≤ X ≤ b) = ∫ f X (x)dx (5.20)
a
3)
b (5.21)
∫ f X (x)dx = 0
b

Cuando la variable aleatoria es discreta las anteriores propiedades se pueden


denotar así:

88
1)
(5.22)
∑ f ( xi ) = 1
i

2)
xi ≤b
P( a ≤ X ≤ b ) = ∑ f (x )
xi ≥a
i (5.23)

3)
i= j
P( X ≤ x j ) = ∑ f ( x i ) (5.24)
i =1

Lo que implica que las probabilidades se definen solo como áreas bajo la
función de densidad de probabilidades, FDP, entre límites finitos.

Ejemplo 5.5
Hallar la función de distribución acumulada para una variable aleatoria que se
define como el número de veces que se lanza una moneda, hasta que aparece
cara.
Solución:
La probabilidad de que caiga cara en cualquier ensayo es ½ y es
independiente de la probabilidad de que caiga sello.
Si A es el evento de que caiga sello en el primer ensayo y B (es el evento) de
que caiga sello en el segundo ensayo, la probabilidad que suceda A y B es:

89
2
P(AB) = P(A) + P(B) = (1/2)

Si hay x-1 ensayos, la probabilidad de que caiga sello en el ensayo (x-1) es


x-1
(1/2) y la probabilidad de cara en el x-avo ensayo es:
x-1 x
(1/2) ½ = (1/2)
se tiene entonces que:
x P(X=x) Fx(x)

1 ½ ½
2 ¼ ¾
3 1/8 7/8

en donde x es el número de ensayos, P(X=x) es la probabilidad de ocurrencia


de sello en todos los ensayos y FX(x) es la función de probabilidades
acumulada.

5.3 MOMENTOS DE LAS DISTRIBUCIONES

Las propiedades matemáticas de las distribuciones estadísticas pueden ser


definidas en términos de los momentos de la distribución.
Los momentos representan parámetros que tienen significado físico o
geométrico. Se reconocerá fácilmente la analogía entre los momentos
estadísticos y los momentos de área estudiados en mecánica de sólidos.
El r-avo momento con relación al origen se define como:

µr′ = ∫ xr f X (x)dx (5.25)


-∞

90
o en el caso discreto:
n
µr′ = ∑ xri f X (x i ) (5.26)
i =1

El subíndice se usa para momentos respecto al origen. El primer momento


con respecto al origen representa la media de la distribución.
Los momentos pueden definirse con respecto a otro punto distinto al origen.
Por ejemplo, el r-avo momento con respecto a la media se puede escribir
como:

µr = ∫ (x - µ ) f X (x)dx
r
(5.27)
-∞
n
µ r = ∑ f X ( x i )( x − µ )r (5.28)
i =1

La primera de estas ecuaciones para el caso de una variable aleatoria


continua y la segunda si la variable es discreta.

Rara vez se necesita calcular más de tres momentos. Estos son usados para
estimar los parámetros y describir las características de la distribución.

5.4 CARACTERISTICAS ESTADISTICAS BASICAS

Uno de los usos de la estadística es extraer la información esencial de una


muestra de datos, para determinar las características y el comportamiento de
la población. Hay algunas características básicas, como la media, la varianza
y otras que se pueden calcular o estimar utilizando la muestra de datos
disponibles, para tratar de entender el comportamiento general de la
población.

91
En general, las características estadísticas básicas se calculan como el valor
esperado E de alguna función de una variable aleatoria. El valor esperado de
una función g(X) de una variable aleatoria X se define como:

E[g( X )] = ∫ g ( u )f X ( u )du (5.29)


−∞

En donde fX (u) representa la función de distribución de probabilidades


(FDP) de la variable X
Las principales características son:
- La media E: representa el valor esperado de la variable misma. Para
una variable aleatoria X, la media E(X) es el primer momento con
respecto al origen; es una medida de la tendencia central de la
distribución:

E(X) = µ = ∫ xf
-∞
X (x)dx (5.30)

El estimador de la media a partir de una muestra se puede escribir


como:

1 N
ˆ x = ∑ xi
N i =1
(5.31)

La varianza K : mide la “variabilidad” de los datos, la dispersión de


2
-
los mismos alrededor de la media. Es el segundo momento respecto a
la media:

92

E[(X - µ ) ] = σ 2 = ∫ (x - µ ) f X (x)dx
2 2
(5.32)
-∞

El estimador de la varianza a partir de una muestra está dado por:



1 N
σˆ x = ∑ − µ
2 2
( x i x ) (5.33)
N - 1 i =1

La desviación estándar K: es una medida de la variabilidad con las


K
-
mismas dimensiones que X; es la raíz cuadrada de la varianza y su

valor estimado se denota por σ . Mientras mayor sea la desviación
estándar, mayor es la dispersión de los datos. ( ver Figura 5.3).

- El coeficiente de variación CV: está definido por la relación de la


desviación estándar y la media, y se puede escribir como:
σ
CV = (5.34)
µ
σˆ x
cuyo estimado es ; es una medida adimensional de la variabilidad.
µˆ x
alrededor de la media.

- Asimetría: la distribución de los valores de una distribución alrededor


de la media se mide por la asimetría, la cual está dada por el tercer
momento alrededor de la media:

E[(X - µ ) ] = ∫ (x - µ ) f X (x)dx
3 3
(5.35)
-∞

93
FIGURA 5.3 Distribución de probabilidades con diferente desviación
estándar.

K ?
La asimetría se hace adimensional dividiendo la anterior ecuación por
3
y se obtiene así, el coeficiente de asimetría :

1
γ = E[(x - µ )3 ] (5.36)
σ
3

El estimador de ? está dado por:


N
N ∑ ( xi - ˆ x )3
∧ i =1 (5.37)
x =
(N - 1)(N - 2) 1̂ x
3

?
?
Como se muestra en la Figura 5..4, para >0, asimetría positiva, los datos
se concentran a la derecha y para <0, asimetría negativa, los datos se
concentran a la izquierda.

94
γ<0 γ>0

fX ( x )

x
µ

FIGURA 5.4. Distribución de Probabilidades con Diferentes


Coeficientes ?

Ejemplo 5.6

En una estación pluviométrica se tienen precipitaciones promedias mensuales


multianuales de un determinado mes, cuyas frecuencias absolutas se
muestran en la tabla siguiente. Encontrar la precipitación promedia mensual.

Frecuencia
Intervalo en mm Absoluta

100-110 10
110-112 16
120-130 9
130-140 10
140-150 20
150-160 15
160-170 20

Solución:

En total se tiene 100 valores, para cada intervalo se halla el valor medio o
marca de clase y se le asigna una frecuencia relativa, la cual es la frecuencia

95
absoluta sobre el número total de valores (100). El valor medio de cada
intervalo es xi y la frecuencia relativa es fx(xi).

Se elabora entonces la tabla siguiente.

Intervalo Valor F. absoluta F. relativa xi fx(xi)


clase (mm) medio xi
(mm) fx(xi)

100-110 105 10 0.1 10.5


110-120 115 16 0.16 18.4
120-130 125 9 0.09 11.25
130-140 135 10 0.1 13.5
140-150 145 20 0.2 29
150-160 155 15 0.15 23.25
160-170 165 20 0.2 33

Σ=100 Σ=138.90

Aplicando la ecuación 5.29 la media se puede expresar como:


x = .xifx(xi)=138.9 mm.

5.5 DISTRIBUCIONES DE PROBABILIDAD PARA VARIABLES


ALEATORIAS DISCRETAS

El uso de estas distribuciones se restringe a aquellos eventos aleatorios en los


cuales el resultado puede ser descrito solamente como un éxito o como un
fracaso, esto es, solo hay dos eventos mutuamente excluyentes para un
experimento. Además, los experimentos sucesivos son independientes y la

96
probabilidad permanece constante de ensayo a ensayo. Un ejemplo en
hidrología sería la probabilidad de que un día sea lluvioso o seco. La
distribuciones de este tipo más usadas en hidrología son la distribución
binomial y la geométrica.

5.5.1 Distribución binomial.

Consideramos como p la probabilidad de que el caudal máximo en un año en


3
un río exceda un valor de 1800 m /s .La probabilidad de no excederlo, q, es
1-p .Supóngase que se está considerando un período de 3 años. La
probabilidad de excedencia en el año 3 y no en los años 1 y 2 es qqp, dado
que los eventos son independientes año a año. La probabilidad de
excedencia en cualquiera de los 3 años es pqq +qpq + qqp debido a que la
excedencia pudo ocurrir en el 1o., 2o o en el 3o. año. La probabilidad de
2
excedencia en 3 años está dada como 3q p. La probabilidad de dos
excedencias en 5 años es ppqqq, pqpqq1....qqqpp. Se puede ver que cada
3 2
uno de estos términos es q p ; el número de términos es igual al número de
formas de arreglar dos items dentro de 5 items. Esto es (5/2) = 5x4/2 = 10 y
3 2
la probabilidad de tener dos excedencias en 5 años es (5/2)q p
Puede generalizarse de tal manera que la probabilidad de x excedencias es n
x n-x
años está dada por (n/x)p q , lo que también puede expresarse así:

n!
P( X = x ) = p x (1 − p )n − x (5.38)
x! (n − x )!

expresión conocida como distribución binomial. Los parámetros de esta


distribución son:
µ = np
σ 2 = np(1 − p)
(5.39)
(q − p )
γ=
npq

97
Ejemplo 5.7

Como se dijo anteriormente, una creciente de Tr años de período de retorno


se define como aquélla que tiene una probabilidad de excedencia de 1/Tr en
cualquier año. Asumiendo que las máximas crecientes anuales son
independientes, la distribución binomial permite resolver varios problemas
prácticos en hidrología, así:
a) Cuál es la probabilidad de que una creciente con un período de retorno
de 50 años ocurra exactamente en ese período?

Aplicando la ecuación 5.38 se tiene:


50 1
P( X = 1) = ( )1 (1 − 1 / 50) 49 = 0.37
3 50
b) Cuál es la probabilidad de que en 50 años se presenten 3 crecientes
que igualen o excedan la de Tr =50 años?

Con la misma ecuación anterior se tiene:


50
P( X = 3 ) = (1 / 50)3 (1 − 1 / 50)47 = 0.06
3
c) Cuál es la probabilidad de que una o más crecientes excedan el caudal
con 50 años de período de retorno en ese mismo tiempo?
La clave para contestar esta pregunta está en las palabras “una o más”.
Como los eventos son independientes y mutuamente excluyentes, se puede
escribir:
P[una o más crecientes en 50 años] = 1 - P[no crecientes en 50 años] o lo
que es lo mismo:
50
P[una o más crecientes en 50 años]= 1 − (1 / 50) 0 (1 − 1 / 50) 50 = 0.64
0

98
5.5.2 Distribución Geométrica.

Cuando se construye una obra con un caudal de diseño determinado, es de


interés para los diseñadores conocer cuántos años pasarán antes que este
caudal de diseño sea igualado o excedido. Si p es la probabilidad de
excedencia del caudal de diseño (1/Tr) , la probabilidad de falla en el n-avo
año,P, es:

P = (1 − p)n−1 p (5.40)

Esta es la llamada distribución geométrica. La media y la varianza de la


distribución geométrica son:

1
µ=
P
(1 − P ) (5.41)
σ2 =
P2
Ejemplo 5.9

El máximo nivel de la creciente anual de un río se denota por H (metros):


Asumiendo que la función de densidad de probabilidad se describe como se
muestra en la gráfica, determinar:
a) La altura de inundación para un período de 20 años.
b) Cuál es la probabilidad de que durante los próximos 20 años la altura
hallada en el numeral anterior sea excedida al menos una vez?.
c) Cuál es la probabilidad de que durante los próximos 5 años este valor sea
excedido exactamente una vez?

99
F(H)

5 6 7

H(m)

Solución:

66
a) El área bajo la función de densidad es 1, que equivale a P(5 H 7) =1.
Para un caudal con un Tr de 20 años se cumple que:

P( H ≥ H Tr=20 ) = 1 / 20 = 0.05

lo que significa que 0.05 es un área bajo la función de densidad y:


P( H ≤ H Tr=20 ) = 1 − 0.05 = 0.95

y se plantea la siguiente relación:


(7 − H Tr=20 )(0.95)
0.05 =
2
Despejando el valor de H, se obtiene finalmente:
H Tr =20 = 6.9 m

100
b) Se puede escribir la siguiente ecuación:
P(HTr=20 sea excedida al menos una vez) =1 - P(HTr=20 no sea excedida)
Aplicando la ecuación 5.38 (binomial ) se puede escribir entonces:
20
P(HTr=20 sea excedida al menos una vez) = 1 − (0.05) 0 (0.95) 20 = 0.642
0
O sea que P(HTr=20 sea excedida al menos una vez) = 0.642

b) Aplicando también la ecuación 5.38, se tiene:

5
P( H Tr = 20 = 1) = (0.05)1 (0.95) 0.4 = 0.024
1

Ejemplo 5.9

Tres diques de control de inundaciones se construyen en una planicie por la


cual corren dos ríos, tal como se muestra en la figura. Los diques se diseñan
así:
El dique I tiene un caudal de diseño con un período de retorno de 20 años.
El dique II tiene un caudal de diseño con un período de retorno de 10 años
El dique III tiene un caudal de diseño con un período de retorno de 25 años.
Asumir que las crecientes en los ríos A y B son estadísticamente
independientes y que las fallas de los diques I y III también lo son.
a) Cuál es la probabilidad de inundación en un año cualquiera producida
solamente por el río A.
b) Cuál es la probabilidad de inundación de la planicie en un año?
c) Cuál es la probabilidad de que no haya inundación en los próximos 4
años?

101
Solución:

a)El río A puede producir inundación en la planicie si falla el dique I o si falla


el dique II, lo que se puede expresar como:
P(I ∪ II ) = P(I ) + P(II ) − P(I ∩ II )
P(I ∪ II ) = 0.05 + 0.1 − 0.1 × 0.05 = 0.145
b) La probabilidad de inundación se da por el río A o por el río B, lo que
puede expresarse como:
P( A ∪ B ) = P ( A ) + P( B ) − P ( A ∩ B )
P(A)=0.145, hallado en el numeral anterior y P(B) =1/25=0.04, lo que
implica que:
P( A ∪ B ) = 0.145 + 0.04 − 0.145 × 0.04 = 0.179
c) La probabilidad de inundación, P, en cualquier año, es 0.179, como se
explicó en el numeral anterior, y la probabilidad ,q, de no inundación será
entonces:
q =1 -P =1 - 0.179 =0.821
y la probabilidad de no inundación en 4 años será entonces:

102
4
P(no inundación en 4 años) =(0.821) =0.454

Ejemplo 5.10

Un proyecto se diseña con un caudal que tiene un período de retorno de 10


años. Cuál es la probabilidad de que este caudal se presente por primera vez
al quinto año de acabado el proyecto?
Solución:

Este es un ejemplo donde puede aplicarse la distribución geométrica, así:


La probabilidad de excedencia, p, para este caso es :
p =1/Tr=1/10=0.1
Entonces:
P(probabilidad de inundación 5 año)=(0.1)(1-0.1) =0.06561

5.6. DISTRIBUCIONES DE PROBABILIDAD PARA VARIABLES


ALEATORIAS CONTINUAS

La mayoría de las variables hidrológicas son variables aleatorias continuas.


Enseguida se describen brevemente las distribuciones de probabilidades más
usadas en análisis de frecuencia de estas variables.

5.6.1 La distribución Normal

La distribución Normal es una distribución simétrica en forma de campana,


conocida también como Campana de Gauss. Es fundamental en el dominio
de la estadística y la probabilidad. Una razón es que el teorema del límite

103
central establece que para varias condiciones muy generales, la distribución
de la suma de un gran número de variables aleatorias puede aproximarse a la
Normal, sin importar a qué distribución pertenezcan ellas mismas. Muchos
procesos físicos pueden conceptualizarse como la suma de procesos
individuales. Por otra parte, muchos procesos de inferencia estadística se
basan en suposiciones de que la variable aleatoria se distribuye normalmente.
Es por ello que la Normal encuentre tantas aplicaciones en hidrología: en
pruebas de hipótesis, intervalos de confianza, etc.

Una variable aleatoria X se distribuye de acuerdo con una distribución de


probabilidades Normal si su FDP está dada como:

( x −µ x )2
1 −
f X ( x) = e 2σ 2x
(5.42)
σ x 2π

E
K
Los parámetros de la distribución son dos: la media, x, y la desviación
estándar x. La asimetría de la distribución es cero. Esta distribución tiene
una forma de campana simétrica, como se muestra en la Figura 5.5, por lo
tanto la media, la moda y la mediana son iguales.

Si se hace la siguiente transformación:

µ = (x − µ x ) / σ x
se obtiene como FDP y como función acumulada de la variable : E
1 -u2
fu (u) = e 2

∞ (5.43)
1 2

Fu (u) =
2π ∫e
-∞
-w
2 dµ

104
FIGURA 5.5 Distribución normal.

La variable u es llamada variable estandarizada, tiene media cero y


desviación estándar uno. Debido a que la variable normal estandarizada tiene
todos sus parámetros conocidos, existen tablas para encontrar la función
acumulada de esa variable. La tabla 5.1 es una de ellas.

Aunque la simetría de la distribución la hace inaplicable para valores


extremos, la distribución Normal describe el comportamiento probabilístico
de los valores medios bastante bien.

La distribución normal se usa para:

- Aproximar la distribución de probabilidades de errores aleatorios .

- Comparar distribuciones: las propiedades de una muestra de variables no


normales pueden compararse con las de variables normales.

- Muchos estadísticos pueden ser normalmente distribuidos, como, por


ejemplo, la media de la mayoría de las variables hidrológicas.

105
106
5.6.1.1 Estimación de parámetros

Solo se presentará en estas notas la estimación de parámetros por el método


de los momentos, que fue desarrollado en 1902 por Karl Pearson. El
consideró que un buen estimativo de los parámetros de una distribución de
probabilidades es aquél para el cual los momentos de la función de densidad
de probabilidades son iguales a los momentos correspondientes de la
muestra.

Los estimadores de los parámetros de la distribución normal por el método


de los momentos son:

1 N
µˆ = ∑ xi
N i =1
(5.44)
N
1
σˆ = = ∑ ( x i − µˆ )1 / 2 (5.45)
N

5.6.1.2 Factor de frecuencia

Para la distribución normal, el factor de frecuencia está dado como:

x - µ̂
K= (5.46)
σ

que es la misma variable reducida, definida por la ecuación (5.41).

La magnitud de la variable XT para un período de retorno dado T puede


encontrarse, utilizando el factor de frecuencia, con el siguiente
procedimiento:
1 1
1. F u (K ) = 1 − ⇒ K = Fu−1 (1 − )
T T

107
 1
2. Usando el valor calculado de 1 −  en la tabla 5.1, se lee el valor
 T
de x en la primera columna, que corresponde a K o F E (1- 1/T)
-1

3. Se calcula el valor buscado como:

X T = µˆ + Kσˆ

Ejemplo 5.11

Se tiene una estación con 30 años de datos de caudales medios anuales con
3 3
media de 117 m /s y desviación estándar de 94 m /s. ¿Si los datos se ajustan
a una distribución Normal, cuál es el caudal correspondiente a un período de
retorno, Tr, de 100 años?.

Solución:

En este caso se puede escribir:


Fu(K) = 1 - 1/Tr = 0.99
-1
K = Fu (0.99)
Con el valor de 0.99 en la tabla 5.1, se obtiene:
K = 2.326
El valor asociado a Tr=100 se calcula como:
Q100 = µˆ Q + σˆ Q K = 117 + 94 x 2.326 = 335.6 m /s
3

5.6.1.3 Intervalos de confianza

Cuando se desea hallar cualquier estadístico, por ejemplo la media, generalmente


se dispone de una muestra de tamaño limitado. Se quiere saber qué tan cercano
puede estar ese estimado al verdadero valor desconocido de la población. En
otras palabras, se quisiera conocer con una cierta certeza (probabilidad) la franja
de valores entre los cuales se encontraría el verdadero valor de la población. Si
esa franja es grande, habrá mucha incertidumbre en el valor estimado de la

108
media, y si es pequeña, habrá, por el contrario, mucha confianza en ese valor
estimado. Con ese fin se utilizan los llamados intervalos de confianza.

E
E
Supóngase, por ejemplo, que se desea estimar la media de la población, .

E E E E E  E E
Asúmase que 1 y 2 son dos estadísticos (funciones de la muestra aleatoria) tales


que: 1 < 2 y P( 1< < 2) = . Entonces [ 1 , 2] es llamado el intervalo
de confianza para la media µ.,
E E
es llamado el nivel de confianza (nivel de
probabilidad) y 1 y 2 son llamados los límites de confianza inferior y superior,
respectivamente. Esta definición puede extenderse al intervalo de estimación de
un parámetro cualquiera o a una función del parámetro.

Se debe tener en cuenta que los intervalos de confianza y los límites de confianza
son realmente variables aleatorias, ya que son funciones del tamaño de la
muestra y de estimadores a su vez, función de muestras aleatorias. Como los
tamaños de la muestra varían, los intervalos de confianza cambian de una
muestra a otra. Mientras más estrecho es el intervalo de confianza, mejor es el
procedimiento de estimación.

Para el valor estimado asociado a un período de retorno cualquiera, los


intervalos de confianza se calculan usando el error estándar, ST, el cual es una
medida de la desviación estándar de la magnitud de un evento calculado a partir
de una muestra respecto a la verdadera magnitud del evento. Se presentarán
para todas las distribuciones, los intervalos de confianza para los diferentes
cuantiles de la población.

Para la distribución Normal, los límites de confianza para el verdadero valor de


un cuantil asociado con un periodo de retorno T son:

XT ± u1-α ST (5.47)

en donde  es el nivel de probabilidad, u1-α es el cuantil de la distribución


Normal estandarizada para una probabilidad acumulada de 1-α y ST es el error
estándar.

109
Cada distribución tiene expresiones para hallar el error estándar, por ejemplo, el
de la distribución Normal es:

σˆ x
(1 + K / 2 )2
1
2
ST = (5.48)
N

Ejemplo 5.12
3
Los caudales medios anuales de un río con media 1.5 m /s y desviación
3
estandar de 0.6 m /s se distribuyen normalmente. ¿Cuál es la probabilidad de
3
que se produzca un caudal medio igual o menor a 1 m /s, en cualquier año?.

Solución:

Se tiene entonces que:

1 − µˆ
P( X ≤ 1) = P(µ ≤ )
σˆ

Reemplazando los valores:

1 − 1.5
P(µ ≤ ) = P(µ ≤ −0.83)
0.6

En la tabla 5.1, se encuentra P( EU


-0.83). Considerando la simetría de la
distribución normal (ver Figura 5.6 en donde A = B), se tiene:

P(EU -0.83) = 1 - P(EU 0.83) = 1 - 0.797 = 0.203

110
FIGURA 5.6 Simetría de la distribución normal.

Ejemplo 5.13

La escorrentía anual de una pequeña cuenca se distribuye normalmente con


media de 356 mm y desviación estándar de 76.2 mm. Determinar la
probabilidad de que la escorrentía anual sea menor que 280 mm en todos los
tres siguientes años.

Solución:

280 − 356
P ≤ 280) = P(µ ≤ ) = P(µ ≤ −0.997)
76.2

y:

P(µ ≤ −0.997 ) = 1 − 0.8413 = 0.1587

La probabilidad de que sea menor en tres años consecutivos es:

0,1587 x 0,1587 x 0,1587 = 0,00399

5.6.2 Distribución Log Normal

Consideremos un cálculo hipotético de la escorrentía en una cuenca. La


escorrentía es el producto de varios factores aleatorios, como lluvia, área

111
contribuyente, pérdidas, coeficiente de evaporación, etc. En general, cuando
la variable aleatoria X es el producto de un gran número de otras variables
aleatorias, la distribución de los logaritmos de X puede aproximarse a la
Normal, ya que los logaritmos de X son la suma de los logaritmos de los
factores contribuyentes. Si se tiene una variable aleatoria X y ln X = Y se
ajusta a una distribución Normal, se dice que la variable aleatoria X es
lognormalmente distribuida.

La función de densidad de esta distribución, si se asume que Y=loga(X),


donde a es la base del logaritmo, es:

f X (x) =
1
exp  -
(
 1 y - µy )
2

 (5.49)
σ y x 2π  2 σ y
2


E es el parámetro de escala y K es el parámetro de forma.


y y

La forma de la distribución lognormal se muestra en la Figura 5.7.

FIGURA 5.7 Distribución lognormal.

112
Se ha demostrado que la distribución lognormal puede aplicarse en un amplio
número de eventos hidrológicos, especialmente a aquellos casos en los cuales
la variable tiene un límite inferior, la distribución empírica no es simétrica y
los factores que causan los eventos son independientes y multiplicativos.

Si la variable aleatoria X tiene un límite inferior xo diferente de cero, y la


variable Z = X -xo sigue una distribución lognormal con dos parámetros,
entonces X se ajusta a una distribución lognormal con tres parámetros. La
función de densidad de esta distribución es:

1
exp  -
[
 1 ln (X - xo ) - µ y ] 
2

f X (x) =  (5.50)
2π (X - xo )σ y  2 σy 

E K
donde los parámetros y, y y xo son llamados los parámetros de escala,
forma y localización respectivamente.

La distribución lognormal con tres parámetros puede aplicarse a eventos con


valores positivos o negativos, siempre que x ≥ x0; mientras que la lognormal
con dos parámetros solo puede aplicarse a eventos con valores positivos.

5.6.2.1 Estimación de parámetros

Para la distribución lognormal de dos parámetros, usando el método de


momentos, los parámetros se pueden estimar como:

1 N
µˆ Y = ∑ log a ( X i )
N i =1
(5.51)
12
 1  N 2
σˆ Y =   ∑ [log a ( X i ) − µˆ Y ]  (5.52)
 N  i =1 

Para la distribución lognormal de tres parámetros, xo debe también estimarse.


Una manera de estimar xo requiere que el coeficiente de asimetría sea

113
K K E E
positivo. En este método, el segundo momento de Z = X - xo no depende de
x0, esto es, ²z = ²x y z = x - x0, entonces el límite inferior xo se puede
expresar como:
 Cv x 
x0 = µx  1 -  (5.53)
 Cv z 
Donde:

σx
Cv x =
µx
(5.54)
σ
Cv z = z
µz
Donde:
(1- w ) 2/3
Cv z = 1/3
w
[ ) ];
(5.55)
1
(
w = - γˆ x + γˆ 2x + 4
2
1/2
γx > 0

en donde ? es el coeficiente de asimetría de x.


x

Los parámetros de la distribución lognormal de dos parámetros también


pueden estimarse con base en las relaciones entre los parámetros de la
variable transformada µY y σY y los parámetros de la variable original µX y
σX, dadas como:
µ Y = log a (µ X ) − σ Y
1 2
(5.56)
2

1
  σ  2
2
σ Y = log a  1 + X 2   (5.57)
  µ X  

114
En este caso, se estiman µX y σX con los datos originales, y con las
ecuaciones anteriores se estiman µY y σY los parámetros de la distribución
lognormal.

Ejemplo 5.14

Los caudales medios de un río en una estación hidrométrica han sido

E K
modelados con las siguientes distribuciones:
3 3

E K
a) Normal con parámetros = 256.7 m /s y = 191 m /s
b) Lognormal con parámetros y = 5.228 y y = 0.84
3
Calcular la probabilidad de que el caudal medio esté entre 300 y 400 m /s

Solución:

a) Si se usa la Normal se tiene:

P(3006Q6400)= FX(400)-FX(300)

E
Si se usa la variable estandarizada , se tiene entonces que:

 400 -  x   300 −  x 
P(300UQU400)= F  E  − Fu  
 1x   1x 
= Fu (u400) - Fu (u300)
donde:

u300 = (300 - 256.7)/191 = 0.2267

con este valor, se va a la tabla 5.1 y se encuentra que Fx (0.2267) = 0.5871


y
u400 = (400 - 256.7)/191 = 0.75

de la tabla 5.1, se tiene: Fx (0.75) = 0.7734


lo que implica que:

115
P(300UQU400)=0.7734 - 0.5871=0.1863

b) Si se usa la distribución lognormal:

P(300UQU400)=FY(ln(400))-FY(ln(300))
 ln(400 ) − µ Y   ln (300) − µ Y 
= Fu   − Fu  
 σY   σY 
y:
ln(300) = 5.704
ln(400) = 5.99

se tiene entonces que:


F (E5.99 ) = (5.99 - 5.228)/0.84 = 0.91
E

de la tabla 5.1 se tiene que F (0.91) = 0.8186


E

F (E5.704 )= (5.704 - 5.228)/0.84 = 0.564


E

de la tabla 5.1 se obtiene F(0.564) = 0.7123


se encuentra finalmente:

P(300 U Q U 400) = 0.8186 - 0.7123 = 0.106

E yK E
K con las ecuaciones 5.56 y 5.57.
Este ejemplo se puede resolver también calculando Y Y a partir de x y
x

5.6.2.2 Factor de frecuencia

Se utiliza el mismo factor de frecuencia que en la distribución Normal,


excepto que este se aplica a los logaritmos de la variable y la ecuación, para
un cuantil cualquiera XT queda:

ln (XT ) = µ y + K σ y (5.58)
en donde K = Fu −1 1 − 
1
 T

116
Si se quiere trabajar con la variable no transformada al campo logarítmico se
tiene que:

 1/2  ln (1 + Cv ) 
exp K T (ln (1 + Cv 2 )) - 
2

 - 1
  2  (5.59)
K=
Cv

donde:
-1  1 
K T = Fu  1 -  (5.60)
 Tr 

−1  1
Fu  1 −  es el inverso de la función de distribución Normal estandarizada
 T
acumulada y Cv es el coeficiente de variación

5.6.2.3 Intervalos de confianza

En el campo transformado, los límites están dados por los de la distribución


Normal como:

ln (XT ) ± u1-α 2 ST (5.61)

en donde:
σY
ST = δ (5.62)
N

y
1/2
 2

δ =  1 + K T  (5.63)
 2 

117
Ejemplo 5.15

Se tiene un río con caudales máximos anuales lognormalmente distribuidos,


con µ̂ x =15 m /s y σ̂ x =5 m /s; se da también µ̂Y =2.6554 y σ̂ Y =0.3246.
3 3

Encontrar el caudal para un período de retorno de 100 años. ¿Si se tiene un


período de retorno de 30 años de registro, cuáles son los límites de confianza
para un de 10%?.

Solución:

El coeficiente de variación se calcula como:


σˆ 5
Cv̂ = x = = 0.33
µˆ x 15

Para hallar KT, se procede así:

1 1
Fu (K T ) = 1 - = 1- = 0.99
TI 100

De la tabla 5.1:
K T = Fµ−1 (0.99) = 2.33

El valor de K se puede calcular usando la ecuación (5.59) como:

 1/2  ln (1 + 0. 33 ) 
exp  2.33 (ln (1 + 0. 332 )) - 
2

 - 1
  2 
K=
0.333

K= 3.028
El valor asociado a un período de retorno de 100 años será:
3
XT = 15 + 5 x 3.028 = 30.14 m /s

118
Los límites de confianza se hallan así en el campo transformado:
ln (XT ) ± u1-α 2 ST
Se calcula primero δ con la ecuación (5.63) y luego ST con la ecuación
(5.60), el resultado es:

1/2
 2

δ =  1 + 2.33  = 1.93
 2 
0.3246
ST = 1.93 * = 0.11
30

De la tabla 5.1, se lee: E =E


1- 0.95 =1.64

Por lo tanto:
ln (30.28) ± 1.64 * 0.11
= 3.41 ± 0.1875
= [3.2225, 3.5975]
3.2225 3.5975
= [e ,e ] = [25.091, 36.5]

5.6.3 Distribución Gumbel

Una familia importante de distribuciones usadas en el análisis de frecuencia


hidrológico es la distribución general de valores extremos, la cual ha sido
ampliamente utilizada para representar el comportamiento de crecientes y
sequías. A partir de la distribución general de valores extremos, se pueden
derivar tres tipos de distribuciones: la tipo I, comúnmente conocida como
Gumbel, la tipo II y la tipo III, llamada también Weibull.

Ellas difieren entre sí por el valor del parámetro de forma. La expresión


general de la función de densidad de probabilidades para la distribución
extrema tipo I o Gumbel es:

119
1  x -β  x - β 
f X (x) = exp - - exp -  (5.64)
α  α  α 

En donde α y βson los parámetros de la distribución. La distribución Gumbel


tiene la forma mostrada en la figura 5.8.

5.6.3.1 Estimación de parámetros

Por el método de momentos, los estimadores de los parámetros son:

6
αˆ = σˆ (5.65)
π

βˆ = µ - 0.5772αˆ (5.66)

donde E y K son la media y la desviación estándar estimadas con la muestra.


5.6.3.2 Factor de frecuencia

El factor de frecuencia para la distribución Gumbel es:

K=-
6
{0.577 + ln[lnTr - ln(Tr - 1)]} (5.67)
π

donde TI es el período de retorno.

5.6.3.3 Intervalos de confianza


Los límites de confianza por el método de momentos para un nivel de
probabilidad son:

X T ± u 1- α 2 S T (5.68)

120
FIGURA 5.8 Distribución Gumbel

σ
ST = δ (5.69)
N

δ = [1 + 1.1396K + 1.1 K 2 ]
1/2
(5.70)

K es el factor de frecuencia de la distribución, dado por la ecuación 5.67.

5.6.4 Distribución Gamma

Esta distribución ha sido una de las más usadas en hidrología. Como la


mayoría de las variables hidrológicas son sesgadas, la función Gamma se
utiliza para ajustar la distribución de frecuencia de variables tales como
crecientes máximas anuales, caudales mínimos, volúmenes de flujo anuales y
estacionales, valores de precipitaciones extremas y volúmenes de lluvia de
corta duración. La función de distribución Gamma tiene dos o tres
parámetros. La última función es llamada también Distribución Pearson tipo
III. La distribución Gamma está relacionada con otras distribuciones muy
conocidas como las distribuciones Chi-cuadrado y la exponencial negativa,
que son casos particulares de la distribución Gamma.

121
La distribución Gamma de dos parámetros tiene una función de densidad de
probabilidades de la forma:

β -1
1  x  - αx
f X (x) =   e (5.71)
| α | Γ (β )  α 

Donde:

U x < para  > 0


 < x U para  < 0
0
-

 y : son los parámetros de escala y forma, respectivamente, y "(:) es la


función Gamma completa.

El parámetro : siempre es mayor que cero, mientras que 


puede ser
positivo o negativo. La función Gamma completa está dada por:

Γ(β ) = ∫ zβ-1 e-z dz (5.72)


0

La distribución Gamma de tres parámetros tiene la siguiente función de


densidad de probabilidades:

β -1
1  x - xo   x - xo 
f X (x) =   exp -  (5.73)
| α | Γ (β )  α   α 

U  >0
Donde:

 U <0
xo x < para
- < x xo para

 y : son los parámetros de escala y forma, respectivamente, y x o es el


parámetro de localización.

122

La Figura 5.9 muestra formas de la función de densidad de probabilidades
Gamma para > 0.

5.6.4.1 Estimación de parámetros

Para la distribución Gamma de dos parámetros, usando el método de los


momentos, se tienen las siguientes expresiones (para sus parámetros).

µ = αβ (5.74)

σ 2 = α 2β (5.75)

FIGURA 5.9 Distribución Gamma.( Varas, Bois, 1998)

Los estimadores de los parámetros, por el método de momentos, son los


siguientes:
1
βˆ = 2
Ĉ v
(5.76)
µˆ
αˆ =
βˆ

123
µ , σ y C v son la media, desviación estándar y coeficiente de variación
calculados con la muestra, respectivamente.
Para la distribución Gamma con tres parámetros o Pearson tipo III, los
parámetros, por el método de momentos, pueden estimarse por:

2
2
βˆ =   (5.77)
 γˆ 

γˆ
αˆ = σˆ (5.78)
2

X̂0 = µˆ − αˆ β
ˆ (5.79)
γ es el coeficiente de asimetría calculado usando la muestra.

5.6.4.2 Factor de frecuencia

Si se define:
 1 
K T = Fu  1 -  (5.80)
 Tr 
el factor de frecuencia K tiene la siguiente forma:

2 3 4
γˆ 1  γˆ   γˆ   γˆ 
K ≈ K T + (K t − 1) + (K T 3 − 6K T )   − (K T − 1)   + K T  
2 2

6 3 6 6  6  (5.81)

124
Para la distribución Pearson tipo III o Gamma de 3 parámetros, existen
tablas, como la 5.2, que dan el factor de frecuencia en función del coeficiente
de asimetría calculado con la muestra.

5.6.4.3 Intervalos de confianza

Si se tiene que:
X T ± u 1− α 2 S T
σ
ST = δ (5.82)
N

<=<(?,T ) y está tabulado para la Gamma de dos parámetros y para la


Pearson tipo III. La tabla 5.3 da valores de <, para hallar el intervalo de
r

confianza de la distribución Pearson tipo III.

5.6.5 Distribución log Pearson Tipo III

Si los logaritmos de la variable aleatoria X se ajustan a una distribución


Pearson Tipo III, se dice que la variable aleatoria X se ajusta a una
distribución Log Pearson Tipo III. Esta distribución es ampliamente usada
en el mundo para el análisis de frecuencia de caudales máximos. Su función
de densidad está dada por:

β -1
1  ln(x) - y o  -  ln (x)- y o 
f x (x) = (5.83)
x α Γ (β )  α  e α 

donde  es el parámetro de escala, : es el parámetro de forma y y


o el
parámetro de localización.

125
TABLA 5.2. VALORES DE KT PARA LA DISTRIBUCIÓN
PEARSON III (ASIMETRÍA POSITIVA)

Coeficiente Probabilidad de Excedencia


de Asimetría 0.500 0.200 0.100 0.040 0.020 0.010 0.005
3.0 -0.396 0.420 1.180 2.278 3.152 4.051 4.970
2.9 -0.390 0.440 1.195 2.277 3.134 4.013 4.909
2.8 -0.384 0.460 1.210 2.275 3.114 3.973 4.847
2.7 -0.376 0.479 1.224 2.272 3.093 3.932 4.783
2.6 -0.368 0.499 1.238 2.267 3.071 3.889 4.718
2.5 -0.360 0.518 1.250 2.262 3.048 3.845 4.652
2.4 -0.351 0.537 1.262 2.256 3.023 3.800 4.584
2.3 -0.341 0.555 1.274 2.248 2.997 3.753 4.515
2.2 -0.330 0.574 1.284 2.240 2.970 3.705 4.444
2.1 -0.319 0.592 1.294 2.230 2.942 3.656 4.372
2.0 -0.307 0.609 1.302 2.219 2.912 3.605 4.298
1.9 -0.294 0.627 1.310 2.207 2.881 3.553 4.223
1.8 -0.282 0.643 1.318 2.193 2.848 3.499 4.147
1.7 -0.268 0.660 1.324 2.179 2.815 3.444 4.069
1.6 -0.254 0.675 1.329 2.163 2.780 3.388 3.990
1.5 -0.240 0.690 1.333 2.146 2.743 3.330 3.910
1.4 -0.225 0.705 1.337 2.128 2.706 3.271 3.828
1.3 -0.210 0.719 1.339 2.108 2.666 3.211 3.745
1.2 -0.195 0.732 1.340 2.087 2.626 3.149 3.661
1.1 -0.180 0.745 1.341 2.066 2.585 3.087 3.575
1.0 -0.164 0.758 1.340 2.043 2.542 3.022 3.489
0.9 -0.148 0.769 1.339 2.018 2.498 2.957 3.401
0.8 -0.132 0.780 1.336 1.993 2.453 2.891 3.312
0.7 -0.116 0.790 1.333 1.967 2.407 2.824 3.223
0.6 -0.099 0.800 1.328 1.939 2.359 2.755 3.132
0.5 -0.083 0.808 1.323 1.910 2.311 2.686 3.041
0.4 -0.066 0.816 1.317 1.880 2.261 2.615 2.949
0.3 -0.050 0.824 1.309 1.849 2.211 2.544 2.856
0.2 -0.033 0.830 1.301 1.818 2.159 2.472 2.763
0.1 -0.017 0.836 1.292 1.785 2.107 2.400 2.670
0.0 0.000 0.842 1.282 1.751 2.054 2.326 2.576

126
FIGURA 5.10 Distribución Log-Pearson Tipo III. (Salas, 1992).

5.6.5.1 Estimación de Parámetros

Los estimadores de los parámetros por el método de los momentos son:


2
 2 
βˆ =  
 γˆ 
 y 
γˆ y (5.84)
αˆ = σˆ y
2
ŷ 0 = µˆ y − αˆ βˆ

Donde µˆ y , σˆ y y γˆ son la media, desviación estándar y coeficiente de


asimetría calculados usando los logaritmos de los datos, respectivamente.

5.6.5.2 Factor de frecuencia

Si se cumple que Y= ln X, se tiene que:

127
YT = ln XT = µˆ y + K σˆ y (5.85)

En donde µY y σy son la media y desviación estándar de los logaritmos de X,


y K se obtiene de la tabla 5.2.

TABLA 5.3 VALORES DE < PARA LA DISTRIBUCION PEARSON


TIPO III

? Tr=2 Tr=5 Tr=10 Tr=20 Tr=50 Tr=100


0.0 1.0801 1.1698 1.3748 1.6845 2.1988 2.6363
0.1 1.0808 1.2006 1.4367 1.7810 2.3425 2.8168
0.2 1.0830 1.2309 1.4989 1.8815 2.4986 3.0175
0.3 1.0866 1.2609 1.5610 1.9852 2.6656 3.2365
0.4 1.0913 1.2905 1.6227 2.0915 2.8423 3.4724
0.5 1.0987 1.3199 1.6838 2.1998 3.0277 3.7238
0.6 1.1073 1.3492 1.7441 2.3094 3.2209 3.9895
0.7 1.1179 1.3785 1.8032 2.4198 3.1208 4.2684
0.8 1.1304 1.4082 1.8609 2.5303 3.6266 4.5595
0.9 1.1449 1.4385 1.9170 2.6403 3.8374 4.8618
1.0 1.1614 1.4699 1.9714 2.7492 4.0522 5.1741
1.1 1.1799 1.5030 2.0240 2.8564 4.2699 5.4952
1.2 1.2003 1.5382 2.0747 2.9613 4.4996 5.8240
1.3 1.2223 1.5764 2.1237 3.0631 4.7100 6.1592
1.4 1.2157 1.6181 2.1711 3.1615 4.9301 6.4992
1.5 1.2701 1.6643 2.2173 3.2557 5.1486 6.8427
1.6 1.2952 1.7157 2.2627 3.3455 5.3644 7.1881
1.7 1.3204 1.7732 2.3081 3.4303 5.5761 7.5339
1.8 1.3452 1.8374 2.3541 3.5100 5.7827 7.8783
1.9 1.3690 1.9091 2.4018 3.5844 5.9829 8.2196
2.0 1.3913 1.9888 2.4525 3.6536 6.1755 8.5562

5.6.5.3 Intervalos de confianza


Se utiliza la tabla 5.3 para hallar valores del parámetro < y se cumple que:

128
σˆ y
ST = δ (5.86)
N
Los límite de confianza se pueden expresar como:

ln X T ± µ 1− α / 2S T (5.87)

5.7 ANÁLISIS DE FRECUENCIA

El análisis de frecuencia puede hacerse de dos maneras: usando los llamados


factores de frecuencia o hallando la distribución empírica de los datos
muestrales, por el método de "Plotting position" o posición de graficación.
Como regla general, el análisis de frecuencia no debe realizarse para períodos
cortos, menores de 10 años de registros.

A continuación se describe brevemente los dos procedimientos propuestos


para realizar el análisis de frecuencia.

5.7.1 Posición de graficación o"Plotting Position"

La posición de graficación o” plotting posittion" trabaja con la probabilidad


de excedencia asignada a cada valor de la muestra. Para determinar ésta, se
han propuesto numerosos métodos empíricos. Si n es el número total de
valores y m es el rango de un valor en una lista ordenada de mayor a menor
(m = 1 para el valor máximo y m=n para el menor valor), la probabilidad de
excedencia se puede obtener por medio de las siguientes expresiones:

California:
m
P= (5.88)
n

129
Weibull:
m
P= (5.89)
n +1
Hazen:
2m -1
P= (5.90)
2n

La expresión acumulada de probabilidades más usada es la de Weibull. Con


las anteriores ecuaciones, se halla la que se conoce como distribución
empírica de una muestra. Luego se puede hacer un análisis para ajustar a la
distribución empírica una de las distribuciones teóricas vistas anteriormente.
La distribución acumulada de una variable puede ser representada
gráficamente en un papel de probabilidad diseñado para la distribución. En
este papel, las ordenadas representan el valor de x en una cierta escala y las
abscisas representan la probabilidad de P(X >x) o P(X< x), el período de
retorno o la variable reducida. Las escalas de las ordenadas y las abcisas son
diseñadas de tal manera que cuando una muestra es de una población con esa
distribución, la gráfica debe ajustarse a una línea recta. El propósito de este
papel es "linealizar" las relaciones de probabilidad para que los datos puedan
ser fácilmente dibujados y usados en extrapolación o propósitos de
comparación. Se puede observar en las páginas siguientes los papeles de
probabilidad correspondientes a las distribuciones Gumbel y Log-Normal.

5.7.2 Factores de frecuencia

Ven te Chow propuso que toda muestra se puede ajustar a una expresión
como la siguiente:

X = µˆ + K σˆ (5.91)

útil para el análisis de frecuencia hidrológico, donde K es el factor de


frecuencia, µ es la media estimada y σ es la desviación estándar estimada.
Cada distribución tiene su factor de frecuencia como se vio anteriormente.

130
131
132
5.8 BONDAD DE AJUSTE DE UNA DISTRIBUCION DE
PROBABILIDADES

En los numerales anteriores, se ha descrito el uso de varias distribuciones de


probabilidad para estimar eventos con períodos de retorno mayores que los
de los eventos históricos. Surge entonces el interrogante de cuál de estas
distribuciones se debe utilizar para una muestra particular. No hay un
acuerdo entre los hidrólogos acerca de cuál de las distribuciones debe usarse.
Las pruebas para comprobar la bondad del ajuste son necesarias, pero no
son suficientes para aceptar una distribución. Tal vez las dos pruebas de
bondad de ajuste más utilizadas en hidrología son la Chi - Cuadrada y la
Smirnov - Kolmogorov.Con estas pruebas se escogería con la muestra, la
distribución de probabilidades que representa el comportamiento
probabilístico de la población. Una prueba adicional puede hacerse
calculando la suma de los cuadrados de las diferencias entre los valores
observados y los calculados.

Aunque los procedimientos estadísticos no pueden por sí solos determinar la


mejor distribución de frecuencia, si pueden suministrar argumentos para
escoger la distribución más adecuada.

Por ejemplo, las distribuciones Pearson tipo III y Log-Pearson tipo III
requieren la estimación del coeficiente de asimetría de datos muestrales. Esto
puede ser una razón suficiente para preferir cualquier otra distribución, ya
que este parámetro tiene un comportamiento muy sesgado, por lo cual se
necesitaría una gran cantidad de registros para tener un estimado más o
menos confiable, y dichos registros no se consiguen fácilmente en nuestro
medio. Por otra parte, las distribuciones de dos parámetros tienen un valor
fijo o ignoran la asimetría de la población, lo cual tampoco es conveniente.

En resumen, no hay un procedimiento único para escoger la mejor


distribución. Las pruebas estadísticas ayudan; el ajuste gráfico también puede
contribuir; en definitiva, prima el juicio de quien esté haciendo el análisis.

133
5.8.1 Prueba Smirnov - Kolmogorov

El estadístico Smirnov - Kolmogorov, D, considera la máxima desviación de


la función de distribución de probabilidades empírica de la muestra, FE(x),
de la función de distribución de probabilidades teórica, escogida , Fx (x), tal
que:

Dn = Max | FE(x) - Fx (x) | (5.92)

La prueba requiere que el valor Dn calculado con la expresión anterior sea


menor que el valor tabulado Dn para el nivel de probabilidad requerido.

Esta prueba es fácil de realizar y comprende las siguientes etapas:


- El estadístico Dn es la máxima diferencia entre la función de
distribución acumulada empírica de la muestra y la función de
distribución acumulada teórica escogida.Se fija el nivel de
probabilidad. Valores como 0.05 y 0.01 son los más usuales.
- El valor crítico Da de la prueba debe ser obtenido de tablas como la
tabla 5.4. Este estadístico es función de α y n.
- Si el valor calculado Dn es mayor que Da, la hipótesis de que la
distribución teórica escogida se ajusta adecuadamente al
comportamiento probabilístico de la población debe rechazarse, de
otra manera, se acepta esta hipótesis.

5.8.2 Prueba Chi Cuadrado

La prueba Chi-cauadrado se usa también para determinar el grado de ajuste


de una distribución de probabilidades teórica a una distribución empírica.

Supongase que en una muestra se tengan una serie de posibles eventos E1,
E2, ....Ek que ocurren con frecuencias observadas de O1, O2, .....Ok. Si se
tiene una distribución teórica de probabilidades se espera que esos eventos
ocurran con frecuencias e1, e2,....ek

134
TABLA 5.4 VALORES DE Dn

N =0.20 =0.10 =0.05 =0.01


5 0.45 0.51 0.56 0.67
10 0.32 0.37 0.41 0.49
15 0.27 0.30 0.34 0.40
20 0.23 0.26 0.29 0.36
25 0.21 0.24 0.27 0.32
30 0.19 0.22 0.24 0.29
35 0.18 0.20 0.23 0.27
40 0.17 0.19 0.21 0.25
45 0.16 0.18 0.20 0.24


50 0.15 0.17 0.19 0.23
N 50 1.07 1.22 1.36 1.63
N N N N

Se está interesado en conocer como difieren las frecuencias observadas de


las frecuencias esperadas (halladas con una distribución teórica de

P
probabilidades). Una medida de la discrepancia entre frecuencias observadas
2
y calculadas está dada por el estadístico así:

k
 (O − e ) 2 
χ2 = ∑  i i  (5.93)
i =1  ei 

donde:
∑ Oi = ∑ ei
P 2

P
Si =0, significa que las distribucion teórica y empírica ajustan
2

P
exactamente, mientras que si 0, ellas difieren. La distribución de la
2
variable se puede asimilar a una distribución Chi-cuadrado con (k-n-1)

P
grados de libertad, donde k es el número de intervalos y n es el número de
2
parámetros de la distribución teórica. La función está tabulada en muchos
textos de estadística.Supóngase que la hipótesis Ho es aceptar que una
distribución empírica se ajusta a una distribución Normal. Si el valor

135
P 2
P 2


calculado de por la ecuación 5.89 es mayor que algún valor crítico de


,con niveles de significancia de 0.05 o 0.01 ( el nivel de confianza se define
como 1- , siendo frecuentemente utilizados niveles de confianza del 95%),
se puede decir que las frecuencias observadas difieren significativamente de
las frecuencias esperadas y entonces la hipótesis Ho se rechaza (para esos
niveles de significancia). Si ocurre lo contrario, entonces se acepta. Este
procedimiento es llamado la prueba de hipótesis Chi- cuadrado.

Ejemplo 5.16

Se tienen los valores de temperatura mensual de una ciudad, mostrados en la


tabla 5.5 . Se supone que estas temperaturas se ajustan a una distribución
Normal. Usando la prueba Smirnov-Kolmogorov, verificar la validez de esta
hipótesis.

Solución:

La media de la muestra es 76.4°F y la desviación estándar es 3.1 °F. Se fijan


dos hipótesis: una hipótesis Ho estipula que la variable X es normalmente
distribuida con los valores de la media y desviación estándar calculados
anteriormente y la otra hipótesis alternativa, Ha, es lo contrario de ésta.

Se puede fijar un intervalo de 1 °F y se hace la tabla 5.6 donde FE(T) es la


frecuencia acumulada de la muestra, fT (t) es la frecuencia, FE(t)N es la
distribución de probabilidades acumulada empírica y FT(t) es la distribución
de probabilidades acumulada Normal (se halla utilizando el concepto de
variable reducida u y usando la tabla 5.1)

El mayor valor Dn es 0.0758. El valor Da obtenido de la tabla 5.5 para un 


del 90% es igual a 0.1963, lo cual significa que la hipótesis Ho puede
aceptarse.

136

TABLA 5.5 Temperaturas en F

Año Junio Julio Agosto


1944 77 77 77
1945 72 76 76
1946 76 78 74
1947 74 74 83
1948 78 80 76
1949 75 79 74
1950 75 73 70
1951 73 78 78
1952 82 81 77
1953 79 80 78
1954 78 83 80
1955 69 80 79
1956 74 77 77
1957 75 76 74
1958 72 76 74
1959 72 75 76

137
TABLA 5.6 Distribuciones de probabilidades empírica y
Normal para la temperatura.

T fT(t) FE(t) FE(t)N FT(t) FE(t)N -FT(t)


68 0 0 0 0.0035 0.0045
69 1 1 0.0208 0.0084 0.0124
70 1 2 0.0417 0.0197 0.022
71 0 2 0.0417 0.0409 0.0008
72 3 5 0.1042 0.0778 0.0264
73 2 7 0.1458 0.1357 0.0101
74 7 14 0.2917 0.2206 0.0711
75 4 18 0.3750 0.3264 0.0486
76 7 25 0.5208 0.488 0.0328
77 6 31 0.6458 0.5753 0.0705
78 6 37 0.7708 0.6950 0.0758
79 3 40 0.83333 0.7995 0.0338
80 4 44 0.9167 0.8770 0.0397

81 1 45 0.9375 0.9306 0.0069

Ejemplo 5.17

Se tienen los caudales máximos instantáneos de la estación RP-3 en el Río


Murrí, en el departamento de Antioquia. Se desea encontrar el caudal de un
período de retorno de 50 años hallado con las distribuciones Gumbel,
Lognormal de dos parámetros y Log Pearson tipo III.

138
3
Año Q m /s

1978 3239.0
1979 3431.7
1980 4577.9
1981 3612.0
1982 4151.8
1983 1949.0
1984 2342.9
1985 1345.0
1986 1862.2
1987 1652.8
1988 4220.0
1989 4958.4
1990 2664.9
1991 1392.7

Solución

Distribución Gumbel

Aplicando la ecuación de Ven Te Chow se tiene que:


Q Tr = 50 = µˆ + Kσˆ
y:
µˆ = 2957.2 m /s
3

σˆ = 1234 .58 m /s
3

De la ecuación 5.67 se halla el factor de frecuencia K=2.5924

Se tiene entonces que:


3
QTr=50=6158 m /s

139
Aplicando la ecuación 5.68 y 5.69 para hallar el error estandar, ST se obtiene
que:
3
ST=1111.458 m /s


Para =0.05 se obtiene de la tabla 5.1 que T0.95=1.645 y aplicando la
ecuación 5.70 para los intervalos de confianza se obtiene finalmente que:

(4329.37 UQTr=50=6158U7986.07)

Distribución Log-Normal

Con los logaritmos de los valores de caudales máximos instantáneos se


obtiene que:
µˆ y = 7.903
σˆ y = 0.4504

Aplicando la ecuación 5.59 para hallar el factor de frecuencia K y utilizando


la tabla 5.1 se halla:
K=2.055
De la ecuación 5.58:

ln QTr=50=8.8286
y sacando el antilogaritmo :
3
QTr=50=6827 m /s

Con las ecuaciones 5.62 y 5.63 se obtiene un error estandar ST=0.2123

Para un =0.05 se obtiene de la tabla 5.1 T 0.95 =1.64. Finalmente :

(4814.4UQTr=50=6827U9679.84)

Distribución Pearson Tipo III

140
Se tiene que:
µˆ = 2957.2
σˆ = 1234.6
γˆ = 0.1702

De la tabla 5.2 se obtiene el valor del factor de frecuencia K:

K=2.144

y aplicando la ecuación de Ven TE Chow:


3
QTr=50=5604 m /s


Con la ecuación 5.82 y con la tabla 5.3 se obtiene un error estandar
ST=809.05 y los intervalos de confianza para =0.05 son entonces:

(4273UQTr=50=5604U6934.9)

141

Vous aimerez peut-être aussi