Vous êtes sur la page 1sur 84

Mdulo 3

Medidas Descriptivas
Para condensar y describir los datos se utilizan las medidas de
tendencia central , las medidas de dispersin y las medidas de
asimetra y forma.

A las medidas de tendencia central se les conocen as, ya que


pueden condensar en un solo valor central alrededor del cual
todos los datos se distribuyen.
Variabilidad o dispersin: se refiere a la extensin de los datos de
una distribucin, es decir el grado en que las observaciones se
distribuyen.
Forma o Sesgo: las curvas que representan los puntos de un conjunto
de datos pueden ser sesgadas o simtricas.

En una curva simtrica una lnea vertical que pase por el punto ms alto de la curva divide
el rea en dos partes iguales.
En una curva sesgada los valores de su distribucin de frecuencias estn concentrados
en el extremo inferior o en el superior de la escala de medicin horizontal.
Medidas Descriptivas

Tendencia Central Variabilidad Forma

Y Posicin
Media Rango Sesgo
Mediana Desviacin Tpica Curtosis

Moda Varianza Simetra

Cuartiles Coeficiente de

Deciles Variacin

Percentiles
Tendencia Central o de Posicin

Las medidas de tendencia central son valores numricos que


sealan un tipo de centro de un conjunto de datos, centro
que se utiliza para representar el conjunto.

Las medidas de posicin facilitan informacin sobre la serie de


datos que se est analizando.
Estas medidas permiten conocer diversas caractersticas de
una serie de datos.
Las medidas de posicin son de dos tipos:

Medidas de posicin central:


Informan sobre los valores medios de la serie de datos.
Son medidas que buscan posiciones (valores) con respecto a los
que los datos muestran tendencia a agruparse.

Medidas de posicin no centrales:


Informan de como se distribuye el resto de los valores de la serie.
Permiten conocer otros puntos caractersticos de la distribucin
que no son los valores centrales.
Medidas de posicin central
Media
Mediana
Moda

Medidas de posicin no centrales


Cuartiles
CUANTILES Deciles
Percentiles
Media
Es el valor medio de la serie de datos. Se pueden
calcular diversos tipos de media, siendo las ms
utilizadas:

Media aritmtica
Media aritmtica ponderada
Media geomtrica
Media armnica
Media Aritmtica o Promedio Aritmtico

Es la media aritmtica de los valores de una


variable.
Es la suma de los valores dividido por el tamao
muestral.
Conveniente cuando los datos se concentran
simtricamente con respecto a ese valor.
Muy sensible a valores extremos.
Es el centro de gravedad de un conjunto de
datos.
SIMBOLOGIA

ESTADISTICAS POBLACION MUESTRA


DESCRIPTIVAS
MEDIA
ARITMETICA
x
Media Aritmtica Para Datos No agrupados

Para un conjunto de datos X1 XN, de una poblacin, en su


forma no agrupada, la media aritmtica se obtiene sumando todas
las observaciones del conjunto de datos y se divide por el nmero
total de observaciones de la poblacin , tal como se expresa en la
ecuacin:
N

X
i 1
N
i
( Poblacin)
Media aritmtica para datos de una muestra

Para un conjunto de datos x1 xn, de una muestra, en su


forma no agrupada, la media aritmtica se obtiene sumando todas
las observaciones del conjunto de datos y se divide por el nmero
total de observaciones de la muestra :

x
x
i
i 1 ( Muestra )
n
Recordando el concepto de datos agrupados..

Un conjunto de datos no agrupados se


convierten en un conjunto de datos agrupados
cuando stos son organizados en una distribucin
de frecuencias de clase.
D
I Media Aritmtica Para Datos Agrupados
S
T
R
I
CLASES MC (Xi) fi (Xi)(fi)
B
1 X1 f1 (X1)(f1)
U
C 2 X2 f2 (X2)(f2)
I
O 3 X3 f3 (X3)(f3)
N
4 X4 f4 (X4)(f4)
D
E
. . . .
. . . .
F
R . . . .
E
C . . . .
U
E
. . . .
N
m Xm fm (Xm)(fm)
C
I m m
A
TOTALES f X
i 1
i
i 1
i fi
m

X i fi
Para la poblacin i 1
m

i 1
fi

Para la muestra
X i fi
X i 1
m

i 1
fi

Nota: El clculo es el mismo, solo cambia la simbologa utilizada


La media armnica resulta poco influida por la existencia de
determinados valores mucho ms grandes que el conjunto de los
otros, siendo en cambio sensible a valores mucho ms pequeos
que el conjunto.

La media armnica no est definida en el caso de la existencia en el


conjunto de valores nulos.
La media armnica, representada por H, de una cantidad finita de
nmeros es igual al recproco, o inverso, de la media aritmtica de
los recprocos de dichos nmeros

As, dados los nmeros a1,a2, ... , an, (NO AGRUPADOS) la media
armnica ser igual a:
m

f
i 1
i
M . Armnica

m 1
* fi
i 1 X i

1
M Geomtrica (( X 1 f i ) * ( X 2 f 2 ) * ........( X m f m )) n
OTROS TIPOS DE MEDIA

Media geomtrica (datos no agrupados)


En algunos casos, tenemos cantidades que cambian en cierto
periodo y necesitamos conocer una tasa de crecimiento
promedio en un periodo de varios aos. En estos casos
debemos calcular la media geomtrica (M.G.)

Se eleva cada valor al nmero de veces que se ha repetido.


Se multiplican todo estos resultados y al producto final se le
calcula la raz "n" (siendo "n" el total de datos de la muestra).

n1 n2 n3 nn 1
M .G. ( X 1 X 2 X 3 ........ X n ) n
Por ejemplo, la media geomtrica de 2 y 18 es

Otro ejemplo, la media de 1, 3 y 9 seria


Slo es relevante la media geomtrica si todos los nmeros son
positivos. Si uno de ellos es 0, entonces el resultado es 0. Si hay
un nmero negativo (o una cantidad impar de ellos) entonces la
media geomtrica es, o bien negativa o bien inexistente en los
nmeros reales.

En muchas ocasiones se utiliza su trasformacin en el manejo


estadstico de variables con distribucin no normal.

La media geomtrica es relevante cuando varias cantidades son


sumadas para producir un total.
Ventajas:

Se trata de un concepto familiar para la mayora de las


personas y es intuitivamente claro.
Cada conjunto de datos tiene una media, es una medida que
puede calcularse y es nica debido a que cada conjunto
de datos posee una y slo una media.
MEDIA Es til para llevar a cabo procedimientos estadsticos como
ARITMETICA la comparacin de medias de varios conjuntos de datos.

Desventajas:

Puede verse afectada por valores extremos que no son


representativos del resto de los datos.
Resulta tedioso calcular la media debido a que se utilizan
cada uno de los puntos de datos en su clculo.
No se puede calcular la media para un conjunto de datos
que tiene clases de extremo abierto, ya sea en el
inferior o en el superior de la escala.
Media Aritmtica y media Geomtrica

Segn el tipo de datos que se analice ser ms apropiado utilizar la


media aritmtica o la media geomtrica:

La media geomtrica se suele utilizar en series de datos como tipos


de inters anuales, inflacin, etc., donde el valor de cada ao tiene un
efecto multiplicativo sobre el de los aos anteriores.

En todo caso, la media aritmtica es la medida de posicin central


ms utilizada.

Lo ms positivo de la media es que en su clculo se utilizan todos


los valores de la serie, por lo que no se pierde ninguna informacin.

Sin embargo, presenta el problema de que su valor (tanto en el caso


de la media aritmtica como geomtrica) se puede ver muy influido
por valores extremos, que se aparten en exceso del resto de la serie.
Estos valores anmalos podran condicionar en gran medida el valor
de la media, perdiendo sta representatividad.
Se denomina media aritmtica ponderada de un conjunto de nmeros al
resultado de multiplicar cada uno de los nmeros por un valor
particular para cada uno de ellos, llamado su peso, obteniendo a
continuacin la suma de estos productos, y dividiendo el resultado de
esta suma de productos entre la suma de los pesos.

Este "peso" depende de la importancia o significancia de cada uno de


los valores.

O dicho de otro modo es un promedio en el que cada valor de


observacin se pondera con algn ndice de acuerdo a su importancia.
Para una serie de datos

X = { x1, x2, ..., xn}

a la que corresponden los pesos

W = { w1, w2, ..., wn}

la media ponderada se calcula como:

o:

Un ejemplo es la obtencin de la media ponderada de las notas de una


materia en la que se asigna distinta importancia (peso) a cada una de las
pruebas de que consta la evaluacin.
Media Aritmtica Ponderada

La Media Pesada ponderada: permite calcular el


promedio que toma en cuenta la importancia de cada valor
con respecto al total.
X p= (wx)/ w
Donde w es el peso asignado a cada observacin
Mediana
Es el valor del elemento central, cuando los datos estn dispuestos en
orden ascendente o descendente.
Es el valor de la serie de datos ordenados que se sita justamente en el centro de la
muestra (un 50% de valores son inferiores y otro 50% son superiores)

Es conveniente cuando los datos son asimtricos.

No presenta el problema de estar influido por los valores extremos, pero en cambio
no utiliza en su clculo toda la informacin de la serie de datos (no pondera cada valor
por el nmero de veces que se ha repetido).
CLCULO DE LA MEDIANA

Para Datos No agrupados


Con un nmero impar de
observaciones:
Para Datos Agrupados
. Se ordenan las observaciones por Se ubica hasta que
orden de magnitud. intervalo hay 50% de las
. Se ubica la observacin que est en el observaciones.
medio del conjunto de datos.
Se aplica la frmula con los
Con un nmero par de observaciones: datos de la distribucin de
frecuencias.
. Se ordenan las observaciones por
magnitud.
. Se calcula el promedio de las dos
observaciones centrales.
Frmula para el Clculo de la
Mediana de un Conjunto de Datos
Agrupados
( n 1) / 2 f acumuladaanterior
MD LRI w
f me
LRI: lmite real inferior de la clase mediana
n: frecuencia total
f acumulada anterior : frecuencia acumulada anterior
al intervalo donde esta localizada la mediana
f me : frecuencia del intervalo donde est localizada
la mediana
w: ancho real del intervalo mediano
Moda
Es el valor que ocurre con mayor frecuencia en un conjunto
de datos
Es el/los valor/es donde la distribucin de frecuencia alcanza
un mximo.

Para Datos No agrupados Para Datos Agrupados

Es el valor que se repite con Se ubica el intervalo con la


frecuencia mayor
mayor frecuencia
Se aplica la frmula
Si hay dos valores que se
correspondiente para
repiten con mayor frecuencia encontrar la moda
entonces existen dos modas
Frmula para el clculo de la Moda de un conjunto
de Datos Agrupados

d1
Mo LRI *w
( d1 d 2 )

LRI: Lmite real inferior de la clase modal


d1: diferencia absoluta entre la frecuencia de la clase modal menos
la frecuencia de la clase premodal.
d2: diferencia absoluta entre la frecuencia de la clase modal menos
la frecuencia de la clase postmodal.
W: ancho del intervalo modal
De acuerdo al nmero de modas de un conjunto
de datos se pueden dar los siguientes casos:

UNIMODAL
BIMODAL
MULTIMODAL
Ventajas y desventajas de la moda:

La moda, al igual que la mediana, se puede utilizar como una posicin central para datos
tanto cualitativos como cuantitativos.

Tambin, al igual que la mediana, la moda no se ve mayormente afectada por los valores
extremos. Incluso si los valores extremos son muy altos o muy bajos, se escoge el valor
ms frecuente del conjunto de datos como el valor modal.

Se puede utilizar la moda sin importar qu tan grandes o qu tan pequeos sean los
valores del conjunto de datos, e independientemente de cul sea su dispersin.

Se puede utilizar aun cuando una o ms clases sean de extremo abierto.

Muy a menudo, no existe un valor modal debido a que el conjunto de datos no contiene
valores que se presenten ms de una vez.

En otras ocasiones, cada valor es la moda, pues cada uno de ellos se presenta el mismo
nmero de veces.

Cuando los datos contienen dos, tres o ms modas, resultan difciles de


interpretar y comparar.
Cul medida de tendencia central se debe utilizar?

La media aritmtica debe utilizarse cuando el conjunto de datos es


homogneo.
En una distribucin simtrica las tres medidas coinciden, por lo cual se
puede utilizar cualquiera.
Cuando los datos no son homogneos se debe utilizar la mediana, ya que
esta no es sensible a los valores extremos, y adems no se ve altamente
influida por la frecuencia de aparicin de un solo valor.
Cuando la poblacin est sesgada ya sea positiva o negativamente la
mediana resulta ser la mejor medida de posicin.
La moda se utiliza ms que todo para datos categricos.
Medidas de Posicin no centrales

Los cuantiles son medidas de posicin que se determinan


mediante un mtodo que determina la ubicacin de los valores
que dividen un conjunto de observaciones en partes iguales.

Son los valores de la distribucin que la dividen en partes iguales,


es decir, en intervalos que comprenden el mismo nmero de valores.
Cuando la distribucin contiene un nmero alto de intervalos
o de marcas y se requiere obtener un promedio de una parte de ella,
se puede dividir la distribucin en cuatro, en diez o en cien partes.
Estadsticos de posicin
Se define el cuantil de orden como un valor de la
variable por debajo del cual se encuentra una
frecuencia acumulada
Casos particulares son los percentiles, cuartiles,
deciles, quintiles,...
Cuartiles, Deciles y Percentiles

Cuartiles: son 3 valores que distribuyen la serie de datos,


ordenada de forma creciente o decreciente, en cuatro tramos
iguales, en los que cada uno de ellos concentra el 25% de los
resultados. Dividen el conjunto de datos en 4 partes iguales

Deciles: son 9 valores que distribuyen la serie de datos,


ordenada de forma creciente o decreciente, en diez tramos
iguales, en los que cada uno de ellos concentra el 10% de los
resultados. Dividen el conjunto de datos en 10 partes
iguales

Percentiles: son 99 valores que distribuyen la serie de datos,


ordenada de forma creciente o decreciente, en cien tramos
iguales, en los que cada uno de ellos concentra el 1% de los
resultados. Dividen el conjunto de datos en 100 partes
iguales.
Percentil de orden k = cuantil de orden k/100
La mediana es el percentil 50.
El percentil de orden 15 deja por debajo al 15% de las
observaciones. Por encima queda el 85%.

Cuartiles: Dividen a la muestra en 4 grupos con frecuencias


similares.
Primer cuartil = Percentil 25 = Cuantil 0,25.
Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana.
Tercer cuartil = Percentil 75 = cuantil 0,75.
Ejemplos: El 5% de los recin nacidos tiene un peso demasiado
bajo. Qu peso se considera demasiado bajo?
Percentil 5 o cuantil 0,05.
Qu peso es superado slo por el 25% de los individuos?
Percentil 75.
El colesterol se distribuye simtricamente en la poblacin. Se
considera patolgico los valores extremos. El 90% de los
individuos son normales. Entre qu valores se encuentran los
individuos normales?
Entre el percentil 5 y el 95.
Entre qu valores se encuentran la mitad de los individuos ms
normales de una poblacin?
Entre el cuartil 1 y 3.
Los cuartiles son los tres valores que dividen al conjunto de datos
ordenados en cuatro partes porcentualmente iguales.

Hay tres cuartiles denotados usualmente Q1, Q2, Q3. El segundo cuartil
es precisamente la mediana. El primer cuartil, es el valor en el cual o por
debajo del cual queda un cuarto (25%) de todos los valores de la
sucesin (ordenada); el tercer cuartil, es el valor en el cual o por debajo
del cual quedan las tres cuartas partes (75%) de los datos.

Los deciles son ciertos nmeros que dividen la sucesin de datos


ordenados en diez partes porcentualmente iguales. Son los nueve
valores que dividen al conjunto de datos ordenados en diez partes
iguales, son tambin un caso particular de los percentiles. Los deciles
se denotan D1, D2,..., D9, que se leen primer decil, segundo decil, etc.
Los deciles, al igual que los cuartiles, son ampliamente utilizados para
fijar el aprovechamiento acadmico.
Los percentiles son, tal vez, las medidas ms utilizadas para
propsitos de ubicacin o clasificacin de las personas
cuando atienden caractersticas tales como peso, estatura, etc.

Los percentiles son ciertos nmeros que dividen la sucesin


de datos ordenados en cien partes porcentualmente iguales.
Estos son los 99 valores que dividen en cien partes iguales el
conjunto de datos ordenados. Los percentiles (P1, P2,... P99),
ledos primer percentil,..., percentil 99.
Clculo de los Cuantiles

Para Datos No agrupados


Se ordenan las observaciones Para Datos Agrupados
por magnitud Se ubica hasta que
intervalo estn el 25% el
Se divide el conjunto de
10% de las observaciones
datos en 4 partes iguales, o 10
partes iguales o 100 partes Se aplica la frmula
iguales
Luego se localizan los
valores de los cuantiles
Frmula General para los Cuantiles
Datos Agrupados

Me = LRI + [( k(n+1)/p faca)/ fmp] * Cr


LRI: lmite real inferior del cuantil
n: frecuencia total
faca: frecuencia acumulada anterior al intervalo donde est localizado
el cuantil
fmp: frecuencia del intervalo donde est localizado el cuantil
Cr: ancho real del intervalo
Si se desean calcular los cuartiles p =4
Si se desea calcular los deciles p= 10
Si se desea calcular los percentiles p= 100
Medidas Descriptivas
Tendencia Central Variabilidad Forma y
asimetra
Y Posicin
Sesgo
Media Rango
Curtosis
Mediana Desviacin media
Simetra
Moda Varianza
Cuartiles Desviacin estndar
Deciles Coeficiente de
Percentiles Variacin
Medidas de Variabilidad
Se refiere a la extensin de los datos de una distribucin, es
decir el grado en que las observaciones se distribuyen,
alrededor de un valor central.

Rango
Desviacin media
Varianza
Desviacin estndar
Coeficiente de Variacin
Importancia de la dispersin
Proporciona informacin adicional que permite juzgar la
confiabilidad de la medida de tendencia central. Si los datos se
encuentran ampliamente dispersos, la posicin central es menos
representativa de los datos.

Ya que existen problemas caractersticos para datos


ampliamente dispersos, debemos ser capaces de distinguir que
presentan esa dispersin antes de abordar esos problemas.

Quiz se desee comparar las dispersiones de diferentes


muestras. Si no se desea tener una amplia dispersin de valores
con respecto al centro de distribucin o sto presenta riesgos
inaceptables, necesitamos tener habilidad de reconocerlo y
evitar escoger distribuciones que tengan las dispersiones
ms grandes.
Medidas De Variabilidad

Rango : mide la amplitud de los valores de la poblacin o de


una muestra
Es la diferencia entre el valor mayor y el valor menor de un
conjunto de datos

R Vmayor Vmenor Datos no


agrupados

R LRSloultimo int ervalo LRI primer int ervalo Datos agrupados


VARIANZA
Mide la distancia existente entre los valores de la serie y la
media.
Se calcula como la sumatoria de las diferencias al cuadrado
entre cada valor y la media, multiplicadas por el nmero de
veces que se ha repetido cada valor.
Es la dispersin de los datos alrededor de la media.
Es un indicador de la variabilidad expresado en unidades
cuadradas.
DESVIACIN ESTNDAR O TPICA

Es la raz cuadrada de la sumatoria de los cuadrados de las


desviaciones respecto a la media.
Es un indicador de la variabilidad expresado en unidades
absolutas.
Clculo de Varianza para datos no agrupados

N
2
(Xi )

2
Poblacin i 1

2
(X i X) 2

Muestra S i 1
n 1
Clculo de Desviacin Estndar Datos No Agrupados
N

(X i ) 2

Poblacin i 1
N

(X i X) 2

Muestra S i 1
n 1
Ecuaciones para el clculo de la
varianza y la desviacin estndar para
datos agrupados
SIMBOLOGIA
ESTADISTICAS POBLACION MUESTRA
DESCRIPTIVAS
VARIANZA

2 2
S
DESVIACION
S
STANDARD
Para un conjunto de datos de una poblacin que se agrupa en una distribucin de
frecuencias

CLASES MC (Xi) fi ( X i ) ( X i ) fi
2 2

1 X1 f1 ( X 1 ) 2 ( X 1 ) 2 f1
2 X2 f2 (X 2 ) 2
( X 2 ) 2
f2
3 X3 f3 ( X 3 )2 ( X 3 )2 f3
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
m Xm fm . .
m m
Totales f
i 1
i (X
i 1
i ) f i
2
DE LOS DATOS DE LA TABLA ANTERIOR SE
OBTIENE EL CLCULO DE LA VARIANZA DE LA
POBLACIN POR LA EXPRESIN:

m 2
(Xi ) fi
2 i 1
m
f
i 1 i
CLCULO DE LA DESVIACIN ESTNDAR
DE LA POBLACIN

m 2
(Xi ) fi
i 1
m
f
i 1 i
Para datos de una muestra
CLASES MC (Xi) fi ( X i X ) ( X i X ) fi
2 2

1 X1 f1 ( X 1 X ) ( X 1 X ) f1
2 2

2 X2 f2 ( X 2 X ) ( X 2 X )2 f2
2

3 X3 f3 ( X 3 X )2 ( X 3 X )2 f3
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
m Xm fm . .
m m
Totales f
i 1
i (X
i 1
i X ) f i
2
CLCULO DE LA VARIANZA DE LA MUESTRA

m
2
( xi x ) f i
2 i 1
S m
f 1 n 1
i 1 i
Por qu utilizamos n 1 como denominador en lugar de n? Los especialistas en estadstica
pueden demostrar que si tomamos muchas muestras de una poblacin dada, si encontramos
la varianza de la muestra para cada muestra y promediamos los resultados, entonces este
promedio no tiende a tomar el valor de la varianza de la poblacin, a menos que tomemos n
1 como denominador de los clculos.
CLCULO DE LA DESVIACIN ESTNDAR
DE LA MUESTRA

m 2
( xi x ) f i
S i 1
m
f 1
i 1 i
Usos de la desviacin estndar
Teorema de Tchebysheff

La desviacin estndar nos permite determinar, con un buen


grado de precisin, dnde estn localizados los valores de una
distribucin de frecuencias con relacin a la media. El
teorema de TChebysheff dice que no importa qu forma tenga
la distribucin, al menos 75% de los valores caen dentro de +
2 desviaciones estndar a partir de la media de la distribucin,
y al menos 89% de los valores caen dentro de + 3
desviaciones estndar a partir de la media.
TEOREMA DE TCHEBYSHEFF

El teorema de Tchebysheff se aplica a cualquier conjunto de


observaciones (distribuciones asimtricas), y para
propsitos de ilustracin, nos podramos referir tanto a la
muestra como a la poblacin.

TEOREMA DE TCHEBYSHEFF: Dado un nmero k


mayor o igual que 1 y un conjunto de n observaciones
y1,y2,y3yn, por lo menos la proporcin (1- 1/k2 ) de las
observaciones se encuentran dentro de k desviaciones
estndar de la media.
Teorema de la Normal Regla Emprica
El Teorema de la Normal describe con precisin la
variabilidad de una distribucin particular en forma de
campana o curva normal. Es frecuente la ocurrencia de
distribuciones acampanadas y monticulares en la naturaleza;
por esto tambin se le llama regla emprica.

Teorema de la Normal: Dada una distribucin de frecuencias


que es aproximadamente acampanada, el intervalo:
contiene aproximadamente 68.28% de las observaciones.
2 contiene aproximadamente 95.5% de las observaciones.
3 contiene aproximadamente 99.7 % de las observaciones.
Para distribuciones simtricas:

Teorema de la Normal (Regla de la Normal)

Aproximadamente 68.28% de los valores de la poblacin cae


dentro de + 1 desviacin estndar a partir de la media.
Aproximadamente 95.5% de los valores estar dentro de + 2
desviaciones estndar a partir de la media.
Aproximadamente 99.7% de los valores estar en el intervalo
que va desde tres desviaciones estndar por debajo de la
media hasta tres desviaciones estndar por arriba de la media.
Teorema de la Normal
Coeficiente de Variacin
Es una medida relativa de dispersin, en la cual se expresa la
desviacin estndar como un porcentaje de la media.
Resulta til al comparar la cantidad de variacin en grupos de
datos que posean medias diferentes.
Se calcula como cociente entre la desviacin tpica y la media.
El inters del coeficiente de variacin es que al ser un
porcentaje permite comparar el nivel de dispersin de dos
muestras. Esto no ocurre con la desviacin tpica, ya que viene
expresada en las mismas unidades que los datos de la serie.
Por ejemplo, para comparar el nivel de dispersin de una serie de
datos de la altura de los alumnos de una clase y otra serie con el
peso de dichos alumnos, no se puede utilizar las desviaciones
tpicas (una viene expresada en cms y la otra en kgs). En cambio,
sus coeficientes de variacin son ambos porcentajes, por lo que s
se pueden comparar.
Coeficiente de variacin

La desviacin estndar es una medida absoluta de la dispersin que expresa la


variacin en las mismas unidades que los datos originales.

La desviacin estndar no puede ser la nica base para la comparacin de dos


distribuciones. Si tenemos una desviacin estndar de 10 y una media de 5, los
valores varan en una cantidad que es el doble de la media misma. Si, por otro lado,
tenemos una desviacin estndar de 10 y una media de 5.000, la variacin con
respecto a la media es insignificante. En consecuencia, no podemos conocer la
dispersin de un conjunto de datos hasta que conocemos su desviacin estndar, su
media y cmo se compara la desviacin estndar con respecto a la media.

Lo que necesitamos es una medida relativa que nos proporcione una estimacin de
la magnitud de la desviacin con respecto a la magnitud de la media. El coeficiente
de variacin es una de estas medidas relativas de dispersin. Se relaciona la
desviacin estndar y la media, expresando la desviacin estndar como porcentaje
de la media.
Coeficiente de variacin
Es la razn entre la desviacin tpica y la media.
S
Mide la desviacin tpica en forma de CV
qu tamao tiene con respecto a la media
Tambin se la denomina variabilidad relativa. x
Es frecuente mostrarla en porcentajes
Si la media es 80 y la desviacin tpica 20 entonces CV=20/80=0,25=25%
(variabilidad relativa)

Es una cantidad adimensional. Interesante para comparar la variabilidad


de diferentes variables.
Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos
presentan ms dispersin en peso que en altura.

No debe usarse cuando la variable presenta valores negativos o donde el


valor 0 sea una cantidad fijada arbitrariamente.
Por ejemplo 0C 0F
Coeficiente de Variacin


PARA LA POBLACION
CV

S
PARA LA MUESTRA
cv
X
SIMBOLOGI
A POBLACION
ESTADISTICAS MUESTRA
DESCRIPTIVAS
MEDIA
x
VARIANZA

2 2
S
DESVIACION
S
STANDARD
COEFICIENTE cv
CV
DE VARIACION
Otras Medidas de Dispersin

Miden el grado de dispersin (variabilidad)


de los datos, independientemente de su causa.

Amplitud o Rango (range):


La diferencia entre las
% 5% 25% %
observaciones extremas. 25 2 25
2,1,4,3,8,4. El rango es 8-1=7
Es muy sensible a los valores
extremos.
Rango intercuartlico (interquartile range):
Es la distancia entre el primer y tercer cuartil.
Rango intercuartlico = P75 - P25
Parecida al rango, pero eliminando las observaciones ms extremas
inferiores y superiores.
No es tan sensible a valores extremos.
Fr

0.75

0.5

0.25
Recorrido o rango
intercuartlico
0

P25 P50 P75 x


Q1 Q2 Q3
mediana
Medidas de forma: Grado de concentracin

Las medidas de forma permiten conocer que forma tiene la curva que representa la
serie de datos de la muestra. Forma es el patrn de distribucin de los valores de los
datos a travs del rango de todos los valores.

La distribucin puede ser simtrica cuando los valores pequeos y grandes se


equilibran entre si. Puede ser asimtrica cuando muestra un desequilibrio entre los
valores pequeos y grandes.

En concreto, podemos estudiar las siguientes caractersticas de la curva:


Concentracin: mide si los valores de la variable estn ms o menos uniformemente
repartidos a lo largo de la muestra.

Asimetra: mide si la curva tiene una forma simtrica, es decir, si respecto al centro de
la misma (centro de simetra) los segmentos de curva que quedan a derecha e izquierda
son similares.

Curtosis: mide si los valores de la distribucin estn ms o menos concentrados


alrededor de los valores medios de la muestra.
Coeficiente de concentracin o Indice de GINI

Para medir el nivel de concentracin de una distribucin de


frecuencia se pueden utilizar distintos indicadores, entre
ellos el Indice de Gini.
Este ndice se calcula aplicando la siguiente frmula:

En donde los valores de la frmula se basan en las


proporciones acumuladas de las dos variables que se analizan.
Interpretacin del Indice de Gini

El Indice Gini (IG) puede tomar valores entre 0 y 1:

IG = 0 : concentracin mnima. La muestra est


uniformemente repartida a lo largo de todo su rango.

IG = 1 : concentracin mxima. Un slo valor de la


muestra acumula el 100% de los resultados.
Asimetra
El concepto de asimetra se refiere a si la curva que forman los
valores de la serie presenta la misma forma a izquierda y derecha
de un valor central (media aritmtica)

Para medir el nivel de asimetra se utiliza el llamado Coeficiente de


Asimetra de Fisher, que viene definido:
Interpretacin del Coeficiente de Fisher

Los resultados pueden ser los siguientes:


g1 = 0 (distribucin simtrica; existe la misma
concentracin de valores a la derecha y a la izquierda de la
media)

g1 > 0 (distribucin asimtrica positiva; existe mayor


concentracin de valores a la izquierda de la media que a
su derecha)

g1 < 0 (distribucin asimtrica negativa; existe mayor


concentracin de valores a la derecha de la media que a su
izquierda)
Asimetra o sesgo

Una distribucin es simtrica si la mitad izquierda de su distribucin es la imagen


especular de su mitad derecha.
En las distribuciones simtricas la media y la mediana coinciden. Si slo hay una moda
tambin coincide.
La asimetra es positiva o negativa en funcin de a qu lado se encuentra la cola de la
distribucin.
La media tiende a desplazarse hacia las valores extremos (colas).

Media < mediana asimtrica negativa o sesgo negativo


La mayora de los valores estn en la parte inferior de la distribucin. La distorsin
hacia la izquierda es provocada por algunos valores muy pequeos.

Media = mediana simtrica o asimetra cero


.
Media > mediana asimtrica o positiva o sesgo derecho
La mayora de los valores estn en la parte superior de la distribucin. La distorsin
hacia la derecha es provocada por algunos valores muy grandes.

Las discrepancias entre las medidas de centralizacin son indicacin de asimetra.


ASIMETRA

Las curvas que representan los puntos de datos de un conjunto de datos


pueden ser simtricas o sesgadas.

Las curvas simtricas, tienen una forma tal que una lnea vertical que pase
por el punto ms alto de la curva dividir el rea de sta en dos partes iguales.
Cada parte es una imagen espejo de la otra.

En las curvas sesgadas, los valores de su distribucin de frecuencias estn


concentrados en el extremo inferior o en el superior de la escala de medicin
del eje horizontal. Los valores no estn igualmente distribuidos.

Las curvas pueden estar sesgadas hacia la derecha (positivamente sesgadas) o


sesgadas hacia la izquierda (negativamente sesgadas).
Coeficiente de Curtosis

El Coeficiente de Curtosis analiza el grado de concentracin


que presentan los valores alrededor de la zona central de la
distribucin. La curtosis nos indica el grado de apuntamiento
(aplastamiento) de una distribucin con respecto a la
distribucin normal o gaussiana. Es adimensional.
Se definen 3 tipos de distribuciones segn su grado de
curtosis:
Distribucin mesocrtica: presenta un grado de
concentracin medio alrededor de los valores centrales de la
variable (el mismo que presenta una distribucin normal).
Distribucin leptocrtica: presenta un elevado grado de
concentracin alrededor de los valores centrales de la variable.
Distribucin platicrtica: presenta un reducido grado de
concentracin alrededor de los valores centrales de la variable.
El Coeficiente de Curtosis viene definido por la siguiente
frmula:
Interpretacin del Coeficiente de Curtosis

Los resultados pueden ser los siguientes:

g2 = 0 (distribucin mesocrtica)
.
g2 > 0 (distribucin leptocrtica)
.
g2 < 0 (distribucin platicrtica

Cuando medimos la curtosis de una distribucin, estamos


midiendo su grado de agudeza.
Coeficiente de Curtosis

Los grficos poseen la misma media y desviacin tpica, pero


diferente grado de apuntamiento o curtosis.
300
400
160

140
300
200
120

100 200

100
80
Frecuencia

100

Frecuencia
Frecuencia

60

0
40 0
27 37 45 53 61 69 77 85 93
45 48 51 54 57 60 63 66 69 72 75 78 81 84 3 27 37 47 57 67 77 87 97 108
32 41 49 57 65 73 81 89 99
16 32 42 52 62 72 82 92 102 138
Platicrtica
Mesocrtica
Leptocrtica
Cmo seleccionar una medida de tendencia que represente los datos?

Cuando trabajamos un problema de estadstica, debemos decidir si vamos a utilizar la media, la


mediana o la moda como medidas de tendencia central. Las distribuciones simtricas que slo
contienen una moda, siempre tienen el mismo valor para la media, la mediana y la moda. En
tales casos, no es necesario escoger la medida de tendencia central, pues ya est hecha la
seleccin.

En una distribucin positivamente sesgada (es decir, sesgada hacia la derecha), la moda todava
se encuentra en el punto ms alto de la distribucin, la mediana est hacia la derecha de la moda
y la media se encuentra todava ms a la derecha de la moda y la mediana.

En una distribucin negativamente sesgada, la moda sigue siendo el punto ms alto de la


distribucin, la mediana est hacia la izquierda de ella y la media se encuentra todava ms a la
izquierda de la moda y la mediana.

Cuando la poblacin est sesgada negativa o positivamente, con frecuencia la mediana resulta
ser la mejor medida de posicin, debido a que siempre est entre la moda y la media. La mediana
no se ve altamente influida por la frecuencia de aparicin de un solo valor como es el caso de la
moda, ni se distorsiona con la presencia de valores extremos como la media.

Resumiendo

Vous aimerez peut-être aussi