Vous êtes sur la page 1sur 38

UNIVERSIDAD CSAR VALLEJO

Escuela profesional de
Ingeniera Civil

Ing. Mg.Sc.Ricardo Apaclla Nalvarte 1


Una de las preguntas ms importantes que se
hace mientras se analizan cualquier serie de
tiempo, es describir y resumir los datos de las
series de tiempo en formas, que expliquen
fcilmente sus caractersticas importantes.

Si se desea conocer la concentracin esperada de


cloruro en la lluvia de una determinada ubicacin
o la variabilidad espacial de la tasa de infiltracin,
o la avenida esperada para un perodo de retorno
de 100 aos, se requiere comprender un sumario
estadstico de los datos de las series hidrolgicas.
Las caractersticas estadsticas que a menudo se
describen, incluyen:

Medidas de tendencia central


Medidas de dispersin o variabilidad
Una medida de la simetra de la distribucin de los
datos.
Posiblemente, estimados de extremos tales como
pequeos o grandes percentiles
Medidas de ubicacin
De las seis medidas de localizacin (media, mediana, moda,
media geomtrica, media armnica, media ajustada), la
media y la mediana son dos de las ms comnmente
utilizadas.

Medida clsica: Media aritmtica


Se calcula sumando todos los datos xi, y dividiendo la suma
entre el tamao de la muestra (n).



=

=1
Para datos agrupados, la ecuacin anterior se modifica
para mostrar la media total que depende de la media de
cada grupo, ponderado por el nmero de observaciones ni
en cada grupo.



=
Donde es la media del grupo i.
=1

La influencia de cualquier valor sobre la media

1 1 1
= () + () o = () + (() )

Donde () es la media de todos los datos, excluyendo ()


La influencia de cada observacin sobre la media es la
distancia entre la observacin y la media excluyendo esa
observacin.

Por lo tanto, todas las observaciones no tienen la misma


influencia sobre la media Una observacin extrema o
atpica, alto o bajo, cualquiera de los dos, tendr una
mayor influencia sobre la media que una observacin
tpica, ms cercano a su media.

La influencia de un valor extremo o atpico puede


entenderse como que la media acta como un punto de
balance de todos los valores de la muestra cuando cada
punto es arreglado sobre una lnea numrica.
La media acta como un punto de balance de la serie de datos de tiempo.

Si un dato cerca de la localizacin central es removido, habra


solo la necesidad de un pequeo ajustes sobre el punto para
mantener el balance.

Por el contrario, si un valor atpico que est muy lejos de la


localizacin central se remueve, el punto de balance cambiara
considerablemente.

La media se mueve a la izquierda despus de remover el valor atpico.


Esta sensibilidad a la magnitud del nmero pequeo de
valores define porque la media no es una medida robusta (o
resistente) de localizacin

No es resistente a cambios ante la presencia o cambios en la


magnitud, de pequeos valores atpicos.
Mediana (medida robusta)

La mediana es el valor medio de una serie de datos cuando


los datos son ordenados en orden de su magnitud. Es el
percentil 50 (P50) de los datos.

Para una serie de datos con un nmero impar de


observaciones, la mediana es el valor central que tiene un
nmero igual de observaciones por debajo y por encima del
valor de la media.

Para una serie de datos con un nmero par de


observaciones, la mediana es el valor promedio de los dos
valores centrales.
Para calcular la mediana, primero se ordenan las
observaciones en orden ascendente de menor a mayor valor
y luego se utilizan las siguientes ecuaciones.
+1
50 = Para nmero impar
2
1
50 = /2 + Para nmero par
2 2 +1

Al contrario de la media, la mediana es altamente resistente y


suavemente afectado por la magnitud de un solo valor, siendo
determinado nicamente por el orden relativo de la
observacin.

La mediana es siempre preferida sobre la media en el caso de


un resumen estadstico robusto ya que no es fuertemente
influenciado por un valor extremo bajo o alto
Medidas adicionales de localizacin

Adicionalmente a las medidas de localizacin tradicionales


y robustas, se usan tambin la moda, media geomtrica,
media armnica y media recortada, pero menos frecuente.

La Moda es definida como la observacin ms frecuente en


la serie de datos.

Aunque es fcil de obtener, es una mediada pobre de


localizacin para datos continuos puesto que su valor
depende a menudo de una agrupacin arbitraria de los
datos.
Media geomtrica (GM)
Es a menudo utilizado para calcular un resumen estadstico
para datos positivamente sesgados.



=

=1

Para una serie de datos sesgados positivamente, la GM es


usualmente bastante cercano a la mediana en la serie.

De hecho la GM es un estimado imparcial de la mediana


cuando los logaritmos del conjunto de datos son simtricos.
Esto por que los logaritmos de la media y de la mediana
son iguales.
Media Armnica
En matemticas, la media armnica (llamada tambin
media subcontraria) es uno de los muchos tipos de
promedio.

Tpicamente, es apropiado para situaciones donde se desea


el promedio de las tasas.

La media armnica (HM) de nmeros reales positivos de


una serie de tiempo x1, x2,, xn>0, se define como:


= =
1 1 1 1
+ + + =1
1 2
La media armnica est relacionada a la media aritmtica
y a la media geomtrica. Para un conjunto de datos todos
positivos que contienen al menos un par de valores no
iguales, la media armnica es siempre el menor de las tres
medias, mientras que la media aritmtica es siempre el
mayor de los tres, la media geomtrica esta siempre en el
medio.
Medidas de Dispersin
Medidas Clsicas
La varianza muestral y la desviacin estndar muestral
son medidas clsicas de dispersin. Similar a la media, las
medidas clsicas de dispersin estn fuertemente
influenciadas por valores atpicos.

La varianza muestral (s2) y la desviacin estndar muestral


(s) para una serie de tiempo x1, x2, , xn, se calculan de
acuerdo a:

2
2
2 = =
1 1
=1 =1
Medidas Robustas
Medidas robustas de dispersin acerca de la media
incluyen al rango, rango intercuartil, coeficiente de
variacin y desviacin absoluta de la mediana.

Conforme el valor del rango, desviacin estndar y


coeficiente de variacin se incrementan, la variabilidad de
la poblacin se incrementa.

El Rango Intercuartil (IQR)


Es la medida resistente de la dispersin ms comnmente
utilizada, que mide el rango central del 50% de los datos en
la serie de tiempo y no es influenciada por el 25% de los
datos en cualquiera de las dos colas.
El IQR se calcula restando el valor del percentil 25 del
valor del percentil 75

El percentil 75 (superior), percentil 50(mediana), y


percentil 25(inferior) dividen la serie de tiempo en cuatro
percentiles del mismo tamao.

El percentil 75 es un valor que no es excedido en no ms del


75% de los datos y es excedido por no mas del 25% de los
datos de la serie de tiempo.

El percentil 25 es un valor que no excede en no mas del


25% de los datos y es excedido por no ms del 75% de los
datos de la serie de tiempo.
Consideremos una serie de tiempo arreglados en orden
cronolgico de magnitudes de los datos: xi, i=1 a n. El
percentil P se calcula usando la siguiente frmula.

= +1

Donde n es el tamao de la muestra y j es la fraccin de los


datos menor o igual al valor del percentil (para los
percentiles 25, 50 y 75, j=0.25, 0.50 y 0.75 respectivamente.

Utilizamos los datos que representan la edad de un


colectivo de 20 personas.
36 25 37 24 39 20 36 45 31 31

39 24 29 23 41 40 33 24 34 40
Para calcular los parmetros estadstico, lo primero es
ordenar la distribucin
20 23 24 24 24 25 29 31 31 33 34 36 36 37 39 39 40
40 41 45
Q1, el cuartil Primero es el valor mayor que el 25% de los
valores de la distribucin. Como N = 20 resulta que N/4 =
5; el primer cuartil es la media aritmtica de dicho valor y
el siguiente:
Q1=(24 + 25) / 2 = 24,5

Q2, el Segundo Cuartil es, evidentemente, la mediana de la


distribucin, es el valor de la variable que ocupa el lugar
central en un conjunto de datos ordenados. Como N/2 =10 ;
la mediana es la media aritmtica de dicho valor y el
siguiente:
me= Q2 = (33 + 34)/ 2 =33,5
Q3 , el Tercer Cuartil, es el valor que sobrepasa al 75% de
los valores de la distribucin. En nuestro caso, como 3N / 4
= 15, resulta
Q2=(39 + 39) / 2 = 39

Rango
Se calcula tomando la diferencia entre el mayor y el menor
valor de la serie de tiempo. Como depende solo de dos
observaciones, es una medida de dispersin dbil y pobre.
Coeficiente de variacin CV.
El coeficiente de variacin da una medida normalizada de
la medida de la dispersin acerca de la media.


% = x100

Variables hidrolgicas con valores grandes de CV son ms


variables que aquellos con valores pequeos de CV.
Desviacin absoluta de la mediana MAD
Un estimador robusto de la dispersin que es ms resistente
a valores atpicos, que la desviacin estndar, es la
desviacin absoluta de la mediana.

Se calcula primero creando una nueva diferencia de serie


de tiempodentre cada valor y la mediana.
= 50

Donde P50 es la mediana de los valores originales.

Luego se calcula MAD como la mediana de las diferencias


absolutas

= 50
Medidas de Sesgo
Las series de tiempo hidrolgicas son usualmente sesgadas,
lo que significa que los datos de la serie no son simtricos
alrededor de la media o mediana, con valores extremos que
se extienden fuera en una direccin.

La probabilidad de la funcin de densidad para una


distribucin log normal, se muestra en la figura siguiente
donde se observa el sesgo en los datos.

Cuando los valores extremos se extienden hacia la derecha,


la distribucin se dice que es sesgada hacia la derecha o
positivamente sesgada. Por el contrario si los valores
extremos se extienden hacia la izquierda, se dice que la
serie de datos es sesgada hacia la izquierda o
negativamente sesgada.
En hidrologa, todos los tipos de series de tiempo, a menudo
tuenen sesgo positivo (lluvia, escorrenta, niveles de agua
subterrnea, etc).
Por lo tanto, propiedades estadsticas incluyendo solo la
media y la desviacin estndar o varianza, no son
suficientes para estudios relacionados a la ingeniera y
gestin de los recursos hdricos.

Esto se debe al hecho de que la media y la desviacin


estndar por si solos no pueden describir las propiedades
de la mayora de los datos muy bien cuando los datos son
sesgados.

3

=
1 2 3
=1
Medida Robusta del Sesgo (qs)
Una medida robusta del sesgo es el coeficiente de sesgo
cuartil. Que es definido como la diferencia en distancias del
cuartil superior e inferior respecto a la mediana, dividido
por el IQR

75 50 50 25
=
75 25
Medida de Agudez o chatura
Kurtosis es una medida de la agudez o chatura de los datos
de la distribucin de series relacionados a la distribucin
normal.

Esto es, datos con alta kurtosis tienden a tener distintos


picos cerca de la media, mas bien declinar rpidamente y
tener colas pesadas.
=1 4
=
1 4

La kurtosis para una distribucin



=1
4
normal estndar es 3, y algunos autores = -3
1 4
dan las siguiente definicin de kurtosis,
que es referido como exceso de kurtosis.
Una distribucin alta de kurtosis tiene un pico ms ntido y
largo, colas ms gruesas, mientras que distribucin baja de
kurtosis, tiene un pico ms redondeado y corto, con colas
delgadas.

Distribuciones con cero exceso de kurtosis son llamados


mesokurticos, distribucciones con un positivo exceso de
kurtosis son llamados leptokurticos.

En trminos de forma, una distribucin leptokurtica tiene


un pico ms agudo alrededor de la media y colas ms
gruesas
Distribuciones con negativo exceso de kurtosis son
llamados platokurticos

En trminos de forma, una distribucin platokurtica tiene


un bajo y ms amplio pico alrededor de la media y colas
delgadas.
Mdidas estadsticas para evaluar la perfomance del
sistema.

Muchos enfoques tericos y prcticos han sido propuestos


rn la literatura para identificar y calificar objetivos y para
considerar criterios/objetivos mltiples en la planificacin
y gestin de los recursos hdricos.

En estadstica hay varios mtodos para resumir los datos


de series de tiempo, resultantes de observaciones de campo
como anlisis de simulacin. La media aritmtica pesada, y
la media geomtrica son dos mtodos comunes de resumir
mltiples datos de series de tiempo.
Las grficas de mltiples series son normalmente difciles
de comparar.
Otra aproximacin para resumir y comparar valores de
series de tiempo hidrolgicas, es la varianza.

Ej. Consideremos una serie de lluvia anual:


200, 675, 475, 175, 780, 890, 945, 875, 400 y 300mm de
lluvia en 10 aos.

Media=571.5 mm
Varianza= 88322.5 mm2

La grfica de los datos de lluvia se muestran en la figura


siguiente:
La media y varianza para la serie de tiempo se muestran en la figura
siguiente.

La media y varianza son los mismos para su imagen que se muestra en


la figura siguiente:
Consideremos estas dos series de tiempo, cada una con la
misma media y varianza.

Asumamos que cualquier valor igual o menor a la lnea


punteada (justo arriba de 300 mm) es considerado
insatisfactorio.

As el valor de lluvia se conoce como umbral, dividiendo la


lluvia de la serie de tiempo entre valores satisfactorios e
insatisfactorios,
La serie original de tiempo permanece en una condicin
insatisfactoria para un corto tiempo que, la serie de tiempo
del espejo. Sin embargo su grado mximo de falla ocurre
en la serie del espejo.

Estas caractersticas de las series Fiabilidad, Resistencia y


Vulnerabilidad
Fiabilidad
La fiabilidad de un sistema es definido como el nmero de
datos en un estado satisfactorio dividido por el nmero
total en la serie de tiempo.

Asumiendo valores satisfactorios en la serie hidrolgica de


tiempo xn que contiene n valores que son iguales o
mayores que un valor umbral xT, la fiabilidad del sistema
puede ser expresado como:

= /
La fiabilidad de la serie de tiempo original es de 0.7, que
sugiere que hubieron 3 fallas de 10. Igualmente la serie de
la imagen tambin tiene una fiabilidad de 0.7.
Resistencia
La resistencia de un sistema es definido como la
probabilidad que si un sistema est en un estado
insatisfactorio, el siguiente estado puede ser satisfactorio.

En otras palabras es la probabilidad de tener un valor


insatisfactorio en un perodo de tiempo t-1, dado un valor
satisfactorio en cualquier perodo de tiempo t.

Para la serie original de tiempo, la resistencia es de 2/2=1,


mientras que en la serie imagen es de 1/3=0.33, ambas para
un umbral de 300 mm.
Vulnerabilidad
Es una medida del grado de diferencia entre el valor
umbral y los valores insatisfactorios.

Asumiendo un valor esperado de la medida de la


vulnerabilidad, la vulnerabilidad puede ser expresada
como.

=

La vulnerabilidad esperada de la serie original es de [(300-


200)+(300-175)]=125
Para la serie imagen es de [(300-248)+(300-193)+(300-
263)]/3=65.33

Vous aimerez peut-être aussi