Vous êtes sur la page 1sur 42

MEDIDAS ESTADSTICAS

LHH

LHH

MEDIDAS DE TENDENCIA CENTRAL


Al describir grupos de observaciones, con frecuencia es conveniente resumir la informacin con un solo nmero. Este nmero que, para tal fin, suele situarse hacia el centro de la distribucin de datos se denomina medida o parmetro de tendencia central o de centralizacin.
LHH

En este climograma lneas roja, verde y azul representan a las temperaturas de todo el mes a travs de su promedio.
LHH

Media aritmtica
La media aritmtica es el valor obtenido sumando todas las observaciones y dividiendo el total por el nmero de observaciones que hay en el grupo. La media resume en un valor las caractersticas de una variable teniendo en cuenta todos los casos. Solamente puede utilizarse con variables cuantitativas. Por ejemplo, las notas de 5 alumnos en una prueba: Primero, se suman las notas: 6,0+5,4+3,1+7,0+6,1 = 27,6 Luego el total se divide entre la cantidad de alumnos:27,6/5=5,52 La media aritmtica para estos alumnos es 5,52
LHH

Las principales propiedades de la media aritmtica son:


Su clculo es muy sencillo y en l intervienen todos los datos. Su valor es nico para una serie de datos dada. Se usa con frecuencia para comparar poblaciones, aunque es ms apropiado acompaarla de una medida de dispersin. Se interpreta como "punto de equilibrio" o "centro de masas" del conjunto de datos, ya que tiene la propiedad de equilibrar las desviaciones de los datos respecto de su propio valor. Es un parmetro muy til en inferencia estadstica.
LHH

Inconvenientes de su uso
Es una medida a cuyo significado afecta sobremanera la dispersin, de modo que cuanto menos homogneos sean los datos, menos informacin proporciona. Dicho de otro modo, poblaciones muy distintas en su composicin pueden tener la misma media. Por ejemplo, un equipo de baloncesto con cinco jugadores de igual estatura, 1,95 m, evidentemente, tendra una estatura media de 1,95 m, valor que representa fielmente a esta poblacin homognea. Sin embargo, un equipo de jugadores de estaturas ms heterogneas, 2,20 m, 2,15 m, 1,95 m, 1,75 m y 1,70 m, por ejemplo, tendra tambin, como puede comprobarse, una estatura media de 1,95 m, valor que no representa a casi ninguno de sus componentes.

LHH

Media muestral

La media muestral es la misma medida , aunque el adjetivo "muestral" se aplica a aquellas situaciones en las que la media aritmtica se calcula para un subconjunto de la poblacin objeto de estudio. La media muestral es un Estadstico de extrema importancia en la inferencia estadstica, siendo de gran utilidad para la estimacin de la media poblacional , entre otros usos.
LHH

La moda es el dato ms repetido, el valor de la variable con mayor frecuencia absoluta. En cierto sentido la definicin matemtica corresponde con la locucin "estar de moda", esto es, ser lo que ms se lleva. Por ejemplo, el nmero de personas en distintos vehculos en una carretera: 5-7-4-6-9-5-6-1-5-3-7. El nmero que ms se repite es 5, entonces la moda es 5. una distribucin bimodal de los datos, cuando encontremos dos modas, es decir, dos datos que tengan la misma frecuencia absoluta mxima. Cuando en una distribucin de datos se encuentran tres o ms modas, entonces es multimodal. Por ltimo, si todas las variables tienen la misma frecuencia diremos que no hay moda.

MODA

LHH

Inconvenientes
Su valor es independiente de la mayor parte de los datos, lo que la hace muy sensible a variaciones muestrales. Por otra parte, en variables agrupadas en intervalos, su valor depende excesivamente del nmero de intervalos y de su amplitud. Usa muy pocas observaciones, de tal modo que grandes variaciones en los datos fuera de la moda, no afectan en modo alguno a su valor. No siempre se sita hacia el centro de la distribucin. Puede haber ms de una moda en el caso en que dos o ms valores de la variable presenten la misma frecuencia (distribuciones bimodales o multimodales).
LHH

MEDIANA
La mediana es un valor de la variable que deja por debajo de s a la mitad de los datos, una vez que stos estn ordenados de menor a mayor. Por ejemplo, la mediana del nmero de hijos de un conjunto de trece familias, cuyos respectivos hijos son: 3, 4, 2, 3, 2, 1, 1, 2, 1, 1, 2, 1 y 1, es 2, puesto que, una vez ordenados los datos: 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 4, el que ocupa la posicin central es 2: En caso de un nmero par de datos, la mediana no correspondera a ningn valor de la variable, por lo que se conviene en tomar como mediana el valor intermedio entre los dos valores centrales: 1, 1, 1, 1,1, 1, 2, 2, 2, 3, 3, 4, la mediana corresponde a 1.5
LHH

Propiedades
Las principales propiedades de la mediana son: Es menos sensible que la media a oscilaciones de los valores de la variable. Un error de transcripcin en la serie del ejemplo anterior en, pongamos por caso, el ltimo nmero, deja a la mediana inalterada. Como se ha comentado, puede calcularse para datos agrupados en intervalos, incluso cuando alguno de ellos no est acotado. No se ve afectada por la dispersin. De hecho, es ms representativa que la media aritmtica cuando la poblacin es bastante heterognea. Suele darse esta circunstancia cuando se resume la informacin sobre los salarios de un pas o una empresa. Hay unos pocos salarios muy altos que elevan la media aritmtica haciendo que pierda representatividad respecto al grueso de la poblacin. Sin embargo, alguien con el salario "mediano" sabra que hay tanta gente que gana ms dinero que l, como que gana menos.
LHH

Ejemplo
Se registran las siguientes mediciones para el tiempo de secado (en horas) de cierta marca de pintura esmaltada.
3.4 2.8 4.4 2.5 3.3 4 4.8 5.6 5.2 2.9 3.7 3 3.6 2.8 4.8

Cul es tamao de la muestra? Cul es la variable de inters? Cul es la escala de medicin? Calcula e interpreta la media, mediana y moda de la muestra

LHH

Media: El tiempo de secado medio de la muestra es de 3.787 horas. Mediana: El 50% de las pinturas seleccionadas tienen un tiempo de secado de cuando mucho ()3.6 horas. La distribucin del tiempo de secado de las pinturas es unimodal con dos pinturas con 2.8 horas.

Medidas de T.C.
Tiempo de secado (hr)

Media Error tpico Mediana Moda Desviacin estndar Varianza de la muestra Curtosis Coeficiente de asimetra Rango Mnimo Mximo Suma Cuenta

3.78666667 0.25068794 3.6 2.8 0.97091023 0.94266667 -0.95322337 0.51255693 3.1 2.5 5.6 56.8 15

LHH

LHH

Para elegir una medida de tendencia central se debe de tener en cuenta lo siguiente: a) Si la distribucin es simtrica o muy poco asimtrica, la media, moda y mediana tiene el mismo valor aproximadamente, por lo que se puede seleccionar cualquiera de las tres. b) Para distribuciones asimtricas ( a la derecha o a la izquierda ), la mediana puede ser mejor media de centralizacin que la media. c) Si se va a proceder a realizar un estudio de la estadstica inferencial, la media es indispensable por sus propiedades terica.
LHH

Medidas de Dispersin - Varianza y Desviacin


Este tipo de medidas son parmetros informativos que nos permiten conocer como los valores de los datos se reparten a travs de eje X, mediante un valor numrico que representa el promedio de dispersin de los datos. Las medidas de dispersin ms importantes y las ms utilizadas son la Varianza y la Desviacin estndar (o Tpica). 1. VARIANZA Esta medida nos permite identificar la diferencia promedio que hay entre cada uno de los valores respecto a su punto central (Media ). Este promedio es calculado, elevando cada una de las diferencias al cuadrado (Con el fin de eliminar los signos negativos), y calculando su promedio o media; es decir, sumado todos los cuadrados de las diferencias de cada valor respecto a la media y dividiendo este resultado por el nmero de observaciones que se tengan. Si la varianza es calculada a una poblacin (Total de componentes de un conjunto), la ecuacin sera:

Donde () representa la varianza, (Xi) representa cada uno de los valores, () representa la media poblacional y (N) es el nmero de observaciones tamao de la poblacin.
LHH

Medidas de Dispersin - Varianza y Desviacin


En el caso que estemos trabajando con una muestra la ecuacin que se debe emplear es:

Donde (S2) representa la varianza, (Xi) representa cada uno de los valores, x representa la media de la muestra y (n) es el nmero de observaciones tamao de la muestra. Si nos fijamos en la ecuacin, notaremos que se le resta uno al tamao de la muestra; esto se hace con el objetivo de aplicar una pequea medida de correccin a la varianza, intentando hacerla ms representativa para la poblacin. Es necesario resaltar que la varianza nos da como resultado el promedio de la desviacin, pero este valor se encuentra elevado al cuadrado.

LHH

2. Desviacin estndar o Tpica


Esta medida nos permite determinar el promedio aritmtico de fluctuacin de los datos respecto a su punto central o media. La desviacin estndar nos da como resultado un valor numrico que representa el promedio de diferencia que hay entre los datos y la media. Para calcular la desviacin estndar basta con hallar la raz cuadrada de la varianza, por lo tanto su ecuacin sera:

xi x 2
i 1

n 1

LHH

Ejemplo
Para comprender el concepto de las medidas de distribucin vamos a suponer que el gerente de una empresa de alimentos desea saber que tanto varan los pesos de los empaques (en gramos), de uno de sus productos; por lo que opta por seleccionar al azar cinco unidades de ellos para pesarlos. Los productos tienen los siguientes pesos (490, 500, 510, 515 y 520) gramos respectivamente. El promedio del cuadrado de las distancias entre cada observacin y la media del conjunto de observaciones sera 145 Con lo que concluiramos que el peso promedio de los empaques es de 507 gramos, con una tendencia a variar por debajo o por encima de dicho peso en 12 gramos. Esta informacin le permite al gerente determinar cuanto es el promedio de perdidas causado por el exceso de peso en los empaques y le da las bases para tomar los correctivos necesarios en el proceso de empacado. LHH

COEFICIENTE DE VARIACIN
Es una medida relativa de la variabilidad; mide la desviacin estndar en relacin la media. Es un estadstico til para comparar la variabilidad de variables que tienen desviaciones estndar distintas y medias distintas.
LHH

desviacin estndar *100 media

EJEMPLO
2,20 m, 2,15 m, 1,95 m, 1,75 m y 1,70 m, para stas estatura su media es 1.95 y su desviacin 0.2264 ; C.V.=11.61%. INTERPRETACIN: La desviacin estndar muestral es 11.61%del valor de la media muestral

LHH

Ejemplo
Se registran las siguientes mediciones para el tiempo de secado (en horas) de cierta marca de pintura esmaltada.
3.4 2.8 4.4 2.5 3.3 4 4.8 5.6 5.2 2.9 3.7 3 3.6 2.8 4.8

Calcula e interpreta las medidas de variacin.

LHH

Desviacin estndar: El tiempo de Medidas de T.C. secado de las pinturas Tiempo de secado (hr) seleccionadas presenta una Media 3.787 variacin de 0.971 hr. Error tpico 0.251 Mediana 3.6 Moda 2.8 La varianza de los tiempos de Desviacin estndar 0.971 secado de las pinturas Varianza de la muestra 0.943 Coeficiente de variacin 25.6403% seleccionadas es de 0.943 hr2 . Rango 3.1 Coef. De variacin: Los tiempos Tiempo de secado de secado de las pinturas seleccionadas tienen una variacin relativa de 25.6403%
6 4 2 0 5 5 pinturas

3.2

4.8

6.4

5.6

y mayor...

horas

LHH

MEDIDAS DE POSICION
Las medidas de posicin sirven para describir la localizacin de un dato especfico en relacin con el resto. Tres de las medidas de posicin ms utilizadas son: a) Cuartiles b) Deciles c) Centiles

LHH

LHH

Ejemplo
Se registran las siguientes mediciones para el tiempo de secado (en horas) de cierta marca de pintura esmaltada.
3.4 2.8 4.4 2.5 3.3 4 4.8 5.6 5.2 2.9 3.7 3 3.6 2.8 4.8

Calcula el D4, P25 y Q3

LHH

n= 15 D4= [(4/10)*15]+.5= 6.5 posicin; DATO =3.3 +(3.4-3.3)*0.5 =3.35 P25= [(25/100)*15]+.5= 4.25 posicin; DATO =2.9 +(3.0-2.9)*0.25 =2.925 Q3= [(3/4)*15]+.5= 11.75 posicin; DATO =4.4 +(4.8-4.4)*0.75 =4.7
POSICIN

9 10

11 12 13 14 15 6 6.3

DATOS 2.5 2.8 2.8 2.9

3 3.3 3.4 3.6 3.7


D4
P25

4 4.4 4.8 4.8

Q3

D4= El 40% de las pinturas seleccionas presentaron un tiempo de secado menor a 3.35 horas. P25= El 25% de las pinturas seleccionas presentaron un tiempo de secado menor a 2.925 horas. Q3= El 25% de las pinturas seleccionas presentaron un tiempo de secado mayor a 4.7 horas.
LHH

MEDIDAS DE FORMA DE UNA DISTRIBUCIN DE DATOS


MEDIDAS DE FORMA

( Geomtrica)
Sesgo: Grado de asimetra, o falta de asimetra, de una curva de distribucin de frecuencias a) Simtrica b) Sesgada a la derecha ( asimtrica positiva) c) Sesgada a la izquierda (asimtrica negativa Curtosis: Grado de apuntamiento de una distribucin a) Platicrtica (plana) b)Leptocrtica (puntiaguda) c) Mesocrtica (meseta)

LHH

Medidas de forma - Asimetra y Curtosis

Las medidas de distribucin nos permiten identificar la forma en que se separan o aglomeran los valores de acuerdo a su representacin grfica. Estas medidas describen la manera como los datos tienden a reunirse de acuerdo con la frecuencia con que se hallen dentro de la informacin. Su utilidad radica en la posibilidad de identificar las caractersticas de la distribucin sin necesidad de generar el grfico.
Sus principales medidas son la Asimetra y la Curtosis.
LHH

1. ASIMETRA
Esta medida nos permite identificar si los datos se distribuyen de forma uniforme alrededor del punto central (Media aritmtica). La asimetra presenta tres estados diferentes [ver grfico], cada uno de los cuales define de forma concisa como estn distribuidos los datos respecto al eje de asimetra.
LHH

1. ASIMETRA
Se dice que la asimetra es positiva cuando la mayora de los datos se encuentran por abajo del valor de la media aritmtica, la curva es Simtrica cuando se distribuyen aproximadamente la misma cantidad de valores en ambos lados de la media, por otro lado se conoce como asimetra negativa cuando la mayor cantidad de datos se aglomeran en los valores mayores que la media, caso contrario asimetra positiva.

LHH

CALCULO DE SESGO
A) El Mtodo grfico (a travs del histograma o curva de frecuencias) B) RELACION ENTRE MEDIA, MEDIANA Y MODA

LHH

1. ASIMETRA
El Coeficiente de asimetra o sesgo, se representa mediante la ecuacin matemtica, Coeficiente de sesgo de Pearson = 3 ( media - mediana) Desviacin estndar

CP = 0 SIMETRICA CP > 0 ASIMETRICA POSITIVA CP < 0 ASIMETRICA NEGATIVA Desde luego entre mayor sea el nmero (Positivo o Negativo), mayor ser la distancia que separa la aglomeracin de los valores con respecto a la media.

LHH

SESGO

LHH

2. CURTOSIS
Esta medida determina el grado de concentracin que presentan los valores en la regin central de la distribucin. Por medio del Coeficiente de Curtosis, podemos identificar si existe una gran concentracin de valores (Leptocrtica), una concentracin normal (Mesocrtica) una baja concentracin (Platicrtica). Para calcular el coeficiente de Curtosis se utiliza la ecuacin: Curtosis: Q3 Q1 Coeficiente de curtosis = K =

2 P90 P 10

Cuando la distribucin de los datos cuenta con un coeficiente de asimetra (CP =0) y un coeficiente de Curtosis de (k = 0.26), se le denomina Curva Normal. Este criterio es de suma importancia ya que para la mayora de los procedimientos de la estadstica de inferencia se requiere que los datos se distribuyan normalmente.
LHH

CALCULO DE CURTOSIS

CALCULO DE CURTOSIS A) El Mtodo grfico (a travs del histograma o curva de frecuencias) B) Por el Coeficiente de Curtosis. COEFICIENTE DE CURTOSIS =

(3 1 ) 2(90 10 )

K = 0.26 el corte de la curva es MESOCURTICO K 0.26 el corte de la curva es LEPTOCURTICO K 0.26 el corte de la curva es PLATICURTICO

LHH

la distribucin normal Los datos normalmente distribuidos establecen la lnea base para la kurtosis: con picos no demasiado bajos ni demasiado altos. En minitab: Los datos que siguieron una distribucin normal perfectamente tendran un valor de kurtosis de 0.

Datos de picos altos Una distribucin con un pico ms alto de lo normal. En En Minitab: kurtosis positivo.

Datos de picos bajos Una distribucin con un pico ms bajo de lo normal. En Minitab: kurtosis negativo.

LHH

La principal ventaja de la distribucin normal radica en el supuesto que el 95% de los valores se encuentra dentro de una distancia de dos desviaciones estndar de la media aritmtica; es decir, si tomamos la media y le sumamos dos veces la desviacin y despus le restamos a la media dos desviaciones, el 95% de los casos se encontrara dentro del rango que compongan estos valores.

LHH

La proporcin de cualquier distribucin situada dentro de k desviaciones estndares respecto a la media es, por lo menos, 1 1 / k 2 , donde k es cualquier nmero positivo mayor que 1. Este teorema es aplicable a cualquier distribucin de datos.

Esta regla describe con precisin la variabilidad de una distribucin de frecuencias de forma NORMAL: Simtrica y Mesocrtica. Esta distribucin recibe el nombre de distribucin acampanada, distribucin montinuclar, distribucin normal, debido a su forma.

TEOREMA DE TCHEBYSHEV

REGLA EMPIRICA

k
1 2 3

1 1/ k 2
1-1/12 = 0
1 1 / 22 = 3 / 4 1 1 / 3 2 =8 / 9

INTERVALO
1 2 3

PORCENTAJE
0 75 88.89
LHH

PORCENTAJE
68 95 99.74

TEOREMA DE TCHEBYSHEV Y REGLA EMPIRICA


TEOREMA DE TCHEBYSHEV REGLA EMPIRICA

LHH

EJEMPLO
Se realiza un estudio para determinar el tiempo necesario para realizar cierta operacin en una fbrica armadora de automviles. Se mide el tiempo de 40 obreros y se calcula el tiempo promedio y la desviacin estndar, obtenindose los valores de 12.8 min. y 1.7 min. respectivamente. Use la regla emprica para describir la distribucin de los tiempos de operacin para la muestra. SOLUCIN x 1s = 12.8 1.7 = 14.5 a 11.1, el 68% de los tiempos de operacin en la fbrica se encuentra en el intervalo 14.5 a 11.1 minutos. x 2s = 12.8 2 (1.7) = 9.4 a 16.2, el 95% de los tiempos se encuentran en el Intervalo 9.4 a 16.2 minutos. x 3s = 12.8 3(1.7) = 7.7 a 17.9, casi el 100% de los tiempos se encuentran en el intervalo de 7.7 a 17.9 minutos.

LHH

Vous aimerez peut-être aussi