Vous êtes sur la page 1sur 15

Clase 4 - 5

Estadstica Descriptiva

Cuantiles
Cuartiles
Deciles y percentiles
Medidas de Dispersin
Recorrido o rango de la variable
Recorrido o rango semi-intercuartlico y amplitud intercuartil
Varianza muestral
Desviacin tpica
Cuasivarianza muestral
Desviacin media respecto de la mediana
Coeficiente de variacin
Medidas de forma
Asimetra
Apuntamiento o curtosis
Estadstica descriptiva bidimensional
Distribucin de Frecuencias Bidimensional
Frecuencia Absoluta
Frecuencia Relativa
Distribuciones marginales
Distribucin Marginal de X
Frecuencia Marginal Absoluta de xi, y
Frecuencia Marginal Relativa de xi .
Media Marginal de X
Varianza marginal de X
Distribucin Marginal de Y
Frecuencia Marginal Absoluta de yj,
Frecuencia Marginal Relativa de yj.
Media Margina de Y
Varianza Marginal de Y
Distribuciones condicionadas
Distribucin Condicionada de X a Y = yj
Media de X condicionada a Y = yj
Varianza de X condicionada a Y = yj
Media de Y condicionada a X = xi
Varianza de Y condicionada a X = xi

Parntesis. Observaciones asociadas a los histogramas


a) No existen criterios ptimos para elegir la cantidad de intervalos. Utilizar
muchos o muy pocos intervalos puede ser poco informativo. Se debe
buscar un equilibrio entre un histograma muy irregular y uno demasiado
suavizado.
b) No es necesario que todos los intervalos tengan la misma longitud, pero
es recomendable que as sea. Esto facilita su interpretacin.
c) El histograma representa la frecuencia o la frecuencia relativa a travs
del rea y no a travs de la altura.
d) Es recomendable tomar:

De esta manera el rea es 1 y dos histogramas son fcilmente comparables


independientemente de la cantidad de observaciones en las que se basa cada
uno.
Fin del parntesis.
Ejemplo. Una red comercial dispone de 200 establecimientos. Se han
observado las ventas mensuales, en miles de pesos, de cada uno de ellos y se
ha obtenido la siguiente tabla:

a) Calcular las ventas medias por establecimiento, la mediana de las ventas


y la cifra de ventas ms frecuente de dichos establecimientos.
b) Si, una vez ordenados los establecimientos por orden ascendente de sus
ventas, se quiere clasificar en cuatro grupos de igual nmero de
establecimientos cada uno, Cules seran las cifras de ventas que
delimitaran el grupo de establecimientos con las ventas ms altas?
Solucin. a) En primer lugar, presentamos en la tabla los clculos necesarios
para obtener las ventas medias, la mediana y la moda de la distribucin.

Para obtener la media:

Las ventas medias por establecimiento son de 186.750 pesos.


Para obtener la mediana:
a) Calculamos n/2 = 200/2 = 100
b) Se busca la primera frecuencia absoluta acumulada ascendente que
supere a n/2 que, en este caso, corresponde a N3 = 146, luego la
mediana pertenece al intervalo [150, 200[.
c) Finalmente, con la frmula que parte de la hiptesis de una distribucin
uniforme de los datos a lo largo de cada intervalo, se obtiene:

As, podemos decir que aproximadamente el 50 % de los establecimientos


tienen ventas superiores a 186.493 pesos, y el otro 50 % no supera esta cifra de
ventas.
Para obtener la moda:
Cuando la amplitud de los intervalos no es constante, la moda requiere para su
obtencin de clculo la siguiente relacin:

que nos permiten la determinacin del intervalo modal.


En los resultados que se presentan en la tabla, comprobamos que
mx {hi } = 1,46,
luego el intervalo modal ser [150, 200[.

Para obtener una aproximacin de la moda, dentro del intervalo modal,


utilizamos la frmula:

que desplaza el valor de la moda hacia uno de los extremos del intervalo modal.
As, en este caso:
Mo = 150 + 0,3 / (0,94 + 0,3) * 50 = 162,097
Mediante la aproximacin calculada, tenemos que la cifra de ventas ms
frecuente de los establecimientos considerados es de 162.097 pesos.
4.2. Cuantiles
Se calculan para variables cuantitativas y al igual que la mediana slo tienen en
cuenta la posicin de los valores en la muestra. Casos particulares de cuantiles
son los cuartiles, los percentiles y los deciles (estos ltimos dividen la muestra,
ordenada, en 10 partes).
Caso de datos puntuales
Comenzaremos por definir los percentiles. El percentil * 100 % de la muestra
es el valor por debajo del cual se encuentra el * 100 % de los datos en la
muestra ordenada.
Para calcularlo:
a) Ordenamos la muestra de menor a mayor
b) Buscamos el dato que ocupa la posicin
es entero se interpolan los dos adyacentes.

Si este nmero no

Ejemplo. Tenemos 19 datos que ordenados son:


1 1 2 2 3 4 4 5 5 6 7 7 8 8 9 9 10 10 11

Notemos que el percentil 50% (o segundo cuartil) coincide con la mediana.


Llamaremos cuartil inferior (o primer cuartil) al percentil 25% y cuartil superior (o
tercer cuartil) al percentil 75%

Los cuartiles y la mediana dividen a la muestra ordenada en cuatro partes


igualmente pobladas (aproximadamente un 25 % de los datos en cada una de
ellas). Entre los cuartiles se hallan aproximadamente el 50% central de los datos
y el rango de stos es:
di = distancia intercuartil = cuartil superior - cuartil inferior
Caso de datos agrupados
4.2.1. Cuartiles
Dividen la muestra, ordenada de menor a mayor, en 4 partes.
Q1, primer cuartil, al menos el 25% de los datos son menores o iguales
que l y al menos el 75% de los datos son mayores o iguales que l.

Para identificar el intervalo donde se halla Q1, habr que determinar la


frecuencia acumulada inmediatamente superior a n/4. El clculo es similar al
de la mediana.
Q2, segundo cuartil, es la mediana, Q2 = Me.

No detallamos como calcular este cuartil, porque coincide con la mediana.


Q3, tercer cuartil, al menos el 75% de los datos son menores o iguales
que l y al menos el 25% de los datos son mayores o iguales que l.

Para identificar el intervalo que comprende a Q3, habr que averiguar cul es la
frecuencia acumulada Nk, inmediatamente superior a 3n/4.
Ejemplo. Parte b) de lo pedido en el ejemplo de los 200 establecimientos.
Nos piden el tercer cuartel, as, para la obtencin:
Calculamos 3n/4 = 3*200/4 = 150
Buscamos la primera frecuencia absoluta acumulada ascendente que supere
esta cifra que es N4 = 176, luego:
Q3 est en el intervalo [200, 300[
Q3 = 200 + (150 146) / 30 * 100 =213,333

El grupo al que pertenece la cuarta parte de los establecimientos con ventas


ms elevadas queda delimitado por unas cifras de ventas entre 213.333 y
600.000 pesos.
4.2.2. Deciles y Percentiles
En forma similar se pueden encontrar estadsticos que dividan al total de las
observaciones en dcimas partes (deciles), en centsimas partes (percentiles),
etc.. Las frmulas correspondientes pueden deducirse por analoga con la de los
cuarteles.
As, el 7 decil estar dado por:

El 35 percentil estar dado por:

5. Medidas de dispersin
Slo tienen sentido para variables cuantitativas y las definimos para variables
no agrupadas. Interesa tener indicaciones acerca del grado de heterogeneidad
con que la variable se distribuye en un conjunto de observaciones. Dos
distribuciones pueden tener iguales estadsticos de tendencia central, sin
embargo pueden mostrar grados de dispersin diferente, como puede
observarse en la grfica que a continuacin se muestra.

Evidentemente en la curva B los valores aparecen ms concentrados en torno al


eje central, en tanto que en la otra aparecen mucho ms dispersos. Si ambas
distribuciones representaran ingresos de dos poblaciones, se concluira que en
la segunda distribucin los ingresos son ms homogneos, mientras que en la
primera se observara gran disparidad entre ingresos altos, medios y bajos.
Parecera innecesario destacar la importancia que tiene contar con indicadores
que pudieran mostrar este tipo de caractersticas en una distribucin.

5.1. Recorrido o rango de la variable


Cuando se aborda el problema de la dispersin, lo primero que se piensa es el
campo de recorrido de la variable: La diferencia entre el mayor y menor valor de
la muestra, x(k) - x(1)
Puede suceder que uno de los valores extremos est accidentalmente
desplazado y no constituya por tanto un valor representativo.
5.2. Recorrido o rango semi-intercuartlico y amplitud intercuartil
Como una manera de subsanar el inconveniente de los valores extremos que
presentaba el estadstico anterior, se define un nuevo indicador, que toma en
cuenta el recorrido entre el primer y el tercer cuartel. El rango semi-intercuartlico
es la mitad de la diferencia entre el tercer y primer cuartil, Q = (Q3 Q1)/2. La
amplitud intercuartil es el doble del valor anterior, 2Q = IQR = (Q3 Q1).
5.3. Varianza muestral
Se define este estadstico en virtud de la propiedad de la media que minimiza la
suma de las desviaciones al cuadrado. Se simboliza s2.

s2 =

( xi x) 2 fi

i =1

La varianza poblacional suele denotarse por 2.


Propiedad. El clculo puede realizarse de la siguiente manera:

s2 =

k
i =1

fixi2 x

5.4. Desviacin tpica


Cuantifica el error que cometemos si representamos una muestra nicamente
por su media.

s=

( xi x) 2 fi

i =1

La desviacin tpica poblacional suele denotarse por . Mientras ms dispersa


sea la variable, mayor ser la magnitud de la desviacin tpica puesto que
mayores sern los desvos respecto de la media, sin posibilidad de
compensacin de desvos por tratarse de suma de cuadrados.
5.5. Cuasivarianza muestral
k
*2

s =

i =1

ni ( xi x) 2
n 1

n 2
s
n 1

5.6. Desviacin media respecto de la mediana


k

DMMe =

i =1

ni | xi Me |
n

5.7. Coeficiente de variacin


Obsrvense las dos distribuciones que aparecen a continuacin.

Ambas distribuciones muestran la misma dispersin en torno a la media, es


decir, tienen igual varianza y desviacin tpica; sin embargo, en trminos
relativos, una distribucin donde el menor ingreso es 1000 y el mayor es 1100,
es mucho ms homognea que otra distribucin donde el menor ingreso es 100
y el mayor es 200. En un caso la diferencia entre el mayor y el menor ingreso es
10%, mientras que en el otro es el 100%. Surge, por consiguiente, la necesidad
de disponer de un estadstico que tome en cuenta la tendencia central de la
distribucin. Se define as el coeficiente de variabilidad, como la razn entre la
desviacin tpica y la media:

CV =

S
|X|

En el ejemplo anterior, si ambas distribuciones tuvieran, por ejemplo, una


desviacin tpica de 60, los coeficientes de variabilidad seran:
CV1 = 60/150 = 0.4 = 40% y CV2 = 60/1050 = 0.057 = 5.7%
Las medidas de dispersin anteriores dependen de las unidades de medida, el
coeficiente de variacin es, en cambio, una medida de dispersin relativa y
adimensional.

6.

Medidas de forma

6.1. Asimetra

El coeficiente de asimetra de una variable mide el grado de asimetra de la


distribucin de sus datos en torno a su media. Es adimensional y se define como
sigue:

m
As = 33 =
s

k
i =1

ni ( xi x) 3
ns 3

Moda < Mediana < Media

Media < Mediana < Moda

Las colas de una variable estn constituidas por los valores alejados de la media
(valores extremos). Una variable es asimtrica si su cola a un lado es ms larga
que su cola al otro y simtrica si ambas colas son igual de largas.
si As > 0 la distribucin ser asimtrica a la derecha. La cola a la
derecha es ms larga que la cola a la izquierda. Adems x > Me .
si As = 0 la distribucin ser simtrica. Ambas colas son igual de largas.
si As < 0 la distribucin ser asimtrica a la izquierda. La cola a la
izquierda es ms larga que la cola a la derecha. ( x < Me )
6.2. Apuntamiento o curtosis
El coeficiente de apuntamiento o curtosis de una variable sirve para medir el
grado de concentracin de los valores que toma en torno a su media. Se elige
como referencia una variable con distribucin normal, ya que para ella el
coeficiente de apuntamiento es 0.

m
Ap = 44 3 =
s

k
i =1

ni ( xi x) 4
ns 4

Segn su apuntamiento, una variable puede ser:


Leptocrtica, si Ap > 0, es decir, es ms apuntada que la normal. Los
valores que toma la variable estn muy concentrados en torno a su media
y hay pocos valores extremos.
Mesocrtica, si Ap = 0, es decir, es tan apuntada como la normal.
Platicrtica, si Ap < 0, es decir, es menos apuntada que la normal. Hay
muchos valores extremos, y las colas de la variable son muy pesadas.

7. Estadstica descriptiva bidimensional


Distribucin de Frecuencias Bidimensional
Sea una poblacin de n individuos donde estudiamos, simultneamente, dos
variables X e Y .Sean x1, x2,...,xk las modalidades de X e y1, y2, ...,yp las
modalidades de Y .
La distribucin de frecuencias bidimensional de estas dos variables se presenta
mediante una tabla de doble entrada

Frecuencias Absolutas
Se define la frecuencia absoluta correspondiente a la pareja de valores (xi, yj)
como:
nij = nmero de individuos que presenta la modalidad xi de X e yj de Y
para i =1,...,k, j =1,...,p.
Claramente, se verifica que:

Frecuencias Relativas
Se define la frecuencia relativa correspondiente a la pareja de valores (xi, yj)
como:

fij =

nij
, proporcin de individuos que presenta la modalidad xi de X e yj de Y
n

para i =1,...,k, j =1,...,p.

Claramente se cumple:

7.1. Distribuciones marginales


Las distribuciones marginales corresponden al estudio, por separado, de cada
una de las dos variables que componen una variable estadstica bidimensional.
Cada distribucin marginal ser, por tanto, una distribucin unidimensional y,
consecuentemente, se le podr aplicar cualquiera de los resultados ya
estudiados.
Distribucin Marginal de X
Es la distribucin de todas las observaciones de X independientemente de las de
Y. Se obtiene sumando, para cada xi, las frecuencias correspondientes a todos
los valores de Y. Es decir:

donde, para cada i =1,...,k,

se denomina Frecuencia Marginal Absoluta de xi, y

fi . =

ni .
n

se denomina Frecuencia Marginal Relativa de xi .


Se verifica que:

Media Marginal de X

Varianza marginal de X

Distribucin Marginal de Y
Es la distribucin de todas las observaciones de Y independientemente de las de
X, se obtiene sumando, para cada yj, las frecuencias correspondientes a todos
los valores de X, es decir:

donde, para cada j =1,...,p,

se denomina Frecuencia Marginal Absoluta de yj, y

f .j =

n. j
n

se denomina Frecuencia Marginal Relativa de yj.


Se verifica que:

Media Margina de Y

Varianza Marginal de Y

7.2. Distribuciones condicionadas


Las distribuciones condicionadas corresponden al estudio de una variable
cuando la otra presenta, exactamente, un valor o conjunto de valores concreto.
Cada distribucin condicionada ser, por tanto, una distribucin unidimensional
y, consecuentemente, se le podr aplicar cualquiera de los resultados ya
estudiados.
Distribucin Condicionada de X a Y = yj
Para cada j =1,...,p fijo, la distribucin de X condicionada a Y = yj es la
distribucin de la variable X restringida a los individuos que presentan modalidad
yj de Y , es decir

Observemos que existen p distribuciones condicionadas de X a Y (una para


cada valor de Y).
Media de X condicionada a Y = yj

Varianza de X condicionada a Y = yj

Distribucin condicionada de Y a X = xi
Para cada i =1,...,k fijo, la distribucin de Y condicionada a X = xi es la
distribucin de la variable Y restringida a los individuos que presentan modalidad
xi de X, es decir:

Observemos que existen k distribuciones condicionadas de Y a X (una para cada


valor de X),
Media de Y condicionada a X = xi

Varianza de Y condicionada a X = xi

Nota 1. Se verifican las siguientes relaciones


(la demostracin queda propuesta).
Nota 2. Observemos que slo hemos considerado las distribuciones
condicionadas de una variable cuando la otra presenta un valor fijado. Este
estudio se puede generalizar al caso en que se condiciona, no a un nico valor
de la variable, sino a todo un conjunto de valores.