Vous êtes sur la page 1sur 61

Estadstica Descriptiva

Profesores:
Marcelo Rodrguez G.
Marco Riquelme A.
Universidad Catlica del Maule
Facultad de Ciencias Bsicas
Administracin
Estadstica I
7 de agosto de 2012
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 1 / 61
Introduccin a SPSS
Denicin (IBM-SPSS)
SPSS (Statistical Package for the
Social Sciences) es un programa
potente con una gran cantidad de
mtodos implementados que requiera
predicciones rpidas y ables. Para
mayor detalles ir al sitio web
http://www.spss.com/es/.
Denicin
Es un programa estadstico que
permite realizar el proceso de
descripcin de los datos, en forma
automatizada, (no recolecta ni
interpreta los datos).
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 2 / 61
Ejemplo de una base de datos: Libro de cdigos
Se ha realizado un estudio para detectar cuales son los motivos por los
cuales los clientes se han cambiado de establecimiento comercial donde
realizan sus compras. Se consideraron 2000 casos y las variables medidas
fueron:
Variable Caracterstica Escala
Edad Edad de los individuos Ordinal
Estudios Estudios realizados por el entrevistado, las categoras son: Ordinal
sin estudio, primarios, medios, diplomado y licenciado
Gnero Masculino y femenino Nominal
Situlabo Empleado o desempleado Nominal
Nios Pertenece a una familia, con o sin hijos menores de 4 aos Nominal
Estrucf Estructura familiar distinguiendo entre: unipersonal Nominal
matrimonio con hijos, bigeneracional, slo hijos y otros
Reclamo Ha realizado un reclamo el ltimo ms Nominal
Fidelidad Nivel de delidad con el establecimiento Nominal
Camest En los ltimos dos aos ha cambiado (o no) de establecimiento Nominal
comercial habitual donde realiza sus compras.
Puede descargar los datos desde http://bit.ly/data_camest
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 3 / 61
Ejemplo de una base de datos en SPSS
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 4 / 61
Ejemplo de una base de datos en SPSS
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 5 / 61
Ejemplo de una base de datos en SPSS
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 6 / 61
Ejemplo de una base de datos en SPSS
Cuando se inicia SPPS, aparece esta ventana, que es llamada Vista de
datos en ella slo se debe ingresar los datos. Para entregarle las
caractersticas de las variables (nombre, escala, decimales, etc), hay que
ingresar a Vista de variables. Existe una tercera vista que es llamada
Vista de resultados, es donde SPSS entrega todos los resultados.
En Vista de variable debe modicar:
La Anchura en 8.
Los Decimales (segn el caso).
La Etiqueta (nombre completo de la variable, este nombre es el que
aparece en los grcos y salidas).
Los Valores, si la variable es nominal u ordinal, hay denir que
signican los valores.
En Medida, debe ingresar la escala de medicin de las variables
(nominal, ordinal, intervalo y razn). SPSS no distingue entre las de
intervalo o razn y simplemente le llama escala.
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 7 / 61
Medidas de tendencia central: Media
Denicin (Media)
La media o promedio aritmtico de un conjunto de n datos digamos
x
1
, x
2
, . . . , x
n
, viene dado por:
x =
n

i=1
x
i
n
.
Denicin (Media Recortada al 5%)
Es el promedio de los datos sin considerar el 5% ms pequeo, ni el 5%
ms alto.
El uso de la media es exclusivamente para variables cuantitativas.
La media puede ser afectado de manera desproporcionada por la
existencia de datos atpicos (fuera de lo comn).
La media recortada al 5%, comnmente no es afectada por valores
atpicos.
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 8 / 61
Medidas de tendencia central: Mediana
Denicin (Mediana)
Corresponde al valor central cuando las n observaciones se ordenan de
menor a mayor. Es decir, considere las siguientes observaciones
x
1
, x
2
, ..., x
n
, adems si ordenamos estas observaciones de menor a mayor
tenemos x
(1)
, x
(2)
, ..., x
(n)
, entonces la mediana sera
M
e
=
_
_
_
x
(
n+1
2
)
, si n es impar;
x
(
n
2
)
+x
(
n
2
+1)
2
, si n es par.
No se puede usar esta medida si la escala de medicin de la variables
es nominal.
Su clculo no es afectado por la existencia de datos atpicos.
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 9 / 61
Medidas de tendencia central: Moda
Denicin (Moda (M
o
))
Corresponde al valor o categora con ms alta frecuencia en los datos.
El uso de esta medida es para cualquier tipo de variable.
En el caso de variables cuantitativas, los datos pueden ser agrupados
en clases y la moda se dene como la marca de clase que tiene la
mayor frecuencia.
Puede existir ms de una moda en un conjunto de datos.
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 10 / 61
Ejemplo: Inversin en publicidad
Los responsables de una empresa estudian la planicacin de su estrategia
comunicacional para el ao 2009. El jefe de comunicacin sabe que hay
una relacin muy estrecha entre los resultados en trminos monetarios que
consigue una empresa y el manejo de su estrategia de comunicacin. Este
directivo desea saber ms informacin sobre los factores, derivados de su
estrategia de comunicacin, que sirvan para discriminar entre las empresas
segn sus resultados. Se dispone de un estudio en el que gura informacin
relativa a 35 empresas competidoras. La base de datos contiene
informacin acerca de:
Variable Caracterstica Escala
resultado Resultado de la campaa Nominal
promocin Duracin en das de las actividades promocionales de la empresa Razn
publicidad Duracin en das de las actividades publicitarias de la empresa Razn
incprom Incremento (%) en el presupuesto promocional respecto al periodo anterior Razn
incpubli Incremento (%) en el presupuesto publicitario respecto al periodo anterior Razn
patrocinio Inversin (millones de euros) en actividades de patrocionio en el ao 2007 Razn
Puede descargar los datos desde http://bit.ly/inv_publi
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 11 / 61
Solucin en SPSS
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 12 / 61
Solucin en SPSS
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 13 / 61
Solucin en SPSS
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 14 / 61
Solucin en SPSS
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 15 / 61
Solucin en SPSS
La inversin promedio fue de 21,123 (me)
El 50% de las empresas tuvo una inversin inferior a 21,100 (me)
Una de las inversiones ms bajas y frecuente fue 20,300 (me)
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 16 / 61
Medidas de posicin: Los Percentiles
Denicin (Percentil )
Los percentiles cumplen con la condicin de superar a no ms del
(1 )100% de los datos y de ser superado, a los ms por el porcentaje
complementario de las observaciones.
Considere los siguientes datos ordenados de menor a mayor
x
(1)
, x
(2)
, ..., x
(n)
. Entonces,
P

= (1 d) x
(e)
+d x
(e+1)
.
Donde,
i = (n + 1),
e = parte entera de i,
d = i e.
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 17 / 61
Medidas de posicin: Cuartiles
Denicin (Cuartiles)
Los cuartiles dividen a un conjunto ordenado de datos en 4 grupos de igual
tamao:
El cuartil 1 (Q
1
) marca la parte alta del primer cuarto de los datos,
corresponde al P
0,25
.
El cuartil 3 (Q
3
) marca la parte baja del ltimo cuarto de los datos,
corresponde al P
0,75
.
El cuartil 2 (Q
2
) corresponde a la P
0,50
= M
e
.
Metodologa para el clculo aproximado de Q
1
y Q
3
Paso 1: Ordene los datos de menor a mayor y encuentre la M
e
.
Paso 2: Divida los datos en 2 mitades, por encima y por debajo de la
M
e
. Si n es impar incluya la mediana en ambas mitades.
Paso 3: Encuentre la mediana en ambas mitades, estas son Q
1
y Q
3
.
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 18 / 61
Solucin en SPSS
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 19 / 61
Solucin en SPSS
El 25% de las empresas tuvo una inversin inferior a 20,500 (me)
El 50% de las empresas tuvo una inversin inferior a 21,100 (me)
El 75% de las empresas tuvo una inversin inferior a 21,800 (me)
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 20 / 61
Medidas de dispersin
Las segundas medidas estadsticas de resumen, las de dispersin, nos
entregan el grado de dispersin, variabilidad u homogeneidad que poseen
los datos dentro del conjunto, generalmente respecto de una medida de
tendencia central, entre las que se encuentran:
El rango o desviacin mxima
El rango intercuartil.
La varianza.
La desviacin estndar o tpica.
El coeciente de variacin.
Entre otras.
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 21 / 61
Medidas de Dispersin: Rango y Rango Intercuartil
Denicin (Rango)
Corresponde a la diferencia entre el mayor y menor de los datos.
R = Mx Mn
Denicin (Rango Intercuartil)
Esta medida de variabilidad es resistente a valores atpicos y se concentra
en el 50% de los datos. Tambin llamado Amplitud Intercuartil.
RI = Q
3
Q
1
El uso de R y RI no es para variables nominales.
R es afectado por la existencia de datos atpicos.
RI no es afectado por la existencia de datos atpicos.
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 22 / 61
Medidas de Dispersin: Varianza
Denicin (Varianza)
La varianza de las observaciones x
1
, x
2
, ..., x
n
es
s
2
=
1
n 1
n

i=1
(x
i
x)
2
.
Esta mide las variaciones promedio que existen en los datos con respecto a
la media de la muestra.
Su calculo es afectado por la existencia de datos atpicos.
El uso de esta medida es exclusivamente para variables cuantitativas.
Esta medida no se puede interpreta, pues tiene unidades de medida al
cuadrado.
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 23 / 61
Medidas de dispersin: Desviacin Estndar
Denicin (Desviacin estndar)
Se dene la desviacin estndar (tpica) como
s =

s
2
=

_
1
n 1
n

i=1
(x
i
x)
2
.
Su calculo es afectado por la existencia de datos atpicos.
El uso de esta medida es exclusivamente para variables cuantitativas.
Se interpreta como la cantidad de desviaciones promedio de los datos
con respecto a la media.
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 24 / 61
Solucin en SPSS
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 25 / 61
Solucin en SPSS
Existe una desviacin de 0,9334 (me) con respecto a la inversin
promedio.
La inversin mnima fue de 19,0 y la mxima de 23,1.
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 26 / 61
Medidas de Dispersin: Coeciente de variacin
Denicin (Coeciente de variacin)
Corresponde a una medida de dispersin relativa a la media. Esta dada por
CV =
s
x
100%
No depende de la unidad de medida.
x > 0.
til para comparar variabilidad entre grupos.
Mientras ms pequeo es el valor del CV ms homogneos (parecidos
entre si) son los datos.
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 27 / 61
Relacin entre el promedio y la desviacin estndar
Denicin (Regla emprica )
Para un conjunto de datos (n
grande) que tienen un histograma
simtrico, con forma de campana,
los intervalos, que se presenta a
continuacin, contienen
aproximadamente los siguientes
porcentajes de los datos.
Intervalo Porcentaje
[x s; x +s] 68, 27%
[x 2s; x + 2s] 95, 45%
[x 3s; x + 3s] 99, 73%
Normal
3 2 1 0 -1 -2 -3
F
r
e
c
u
e
n
c
i
a
1.250
1.000
750
500
250
0
Regla emprica
Media = 0 y Desviacin Estndar =1.
Pgina 1
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 28 / 61
Intervalo de Conanza del 95% para la verdadera media
poblacional (para muestras grandes)
Denicin (Intervalo de Conanza para )
Intervalo de Conanza del 95% para la verdadera media poblacional
(para muestras grandes), se dene como
_
x 1, 96
s

n
; x + 1, 96
s

n
_
Se recomienda utilizar este intervalo para n 30.
1, 96
s

n
es llamado error de estimacin.
s

n
es llamado error tpico de la media.
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 29 / 61
Medidas de Forma
Denicin (Sesgo)
ndice que expresa el grado de asimetra de la distribucin de los datos
(histograma). La asimetra positiva indica que los valores ms extremos se
encuentran por encima de la media. La asimetra negativa indica que los
valores ms extremos se encuentran por debajo de la media. Su formula es
sk =
_
n
(n 1)(n 2)
_
_

_
n

i=1
(x
i
x)
3
s
3
_

_
.
Si sk = 0, entonces la distribucin es simtrica.
Si sk < 0, entonces la distribucin es asimtrica negativa.
Si sk > 0, entonces la distribucin es asimtrica positiva.
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 30 / 61
Medidas de Forma: Relacin Entre Promedio y la Mediana
Distribucin Simtrica (No Sesgada):
x = M
e
Distribucin Asimtrica Positiva, :
M
e
< x
Distribucin Asimtrica Negativa:
x < M
e
Una distribucin es simtrica si la mitad izquierda de su distribucin es
la imagen de su mitad derecha.
La asimetra es positiva o negativa en funcin de a qu lado se
encuentra la cola de la distribucin.
La media tiende a desplazarse hacia las valores extremos (colas).
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 31 / 61
Medidas de Forma: Error tpico del sesgo
Denicin (Error tpico del sesgo)
Es la desviacin tpica de la distribucin muestral del ndice de asimetra, el
cual permite tipicar el valor del ndice de asimetra e interpretarlo como
una puntuacin z. ndices tipicados mayores que 1,96 en valor absoluto
permiten armar que existe asimetra (positiva o negativa, dependiendo del
signo del ndice). Su formula es
e
sk
=

6n(n 1)
(n 2)(n + 1)(n + 3)
.
Si,

sk
e
sk

1, 96, entonces la distribucin de los datos es simtrica.


mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 32 / 61
Resumen de los datos: Coecientes de apuntamiento
Denicin (Curtosis)
ndice que expresa el grado en que una distribucin acumula casos en sus
colas en comparacin con los casos acumulados en las colas de una
distribucin normal con la misma varianza. Su formula es
k =
_
n(n + 1)
(n 1)(n 2)(n 3)
_
_

_
n

i=1
(x
i
x)
4
s
4
_

_
n(n 1)
2
(n 2)(n 3)
_
.
Si k > 0, entonces la distribucin es ms puntiagudas (Leptocurtica)..
Si k = 0, (proximos a cero) entonces indican semejanza con la curva
normal.
Si k < 0, entonces la distribucin es ms aplanada (Mesocurtica).
.
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 33 / 61
Medidas de Forma: Error tpico de la curtosis
Denicin (Error tpico de la curtosis)
El error tpico del ndice de curtosis, el cual puede utilizarse para tipicar el
valor del ndice de curtosis y poder interpretarlo como una puntuacin z..
ndices mayores que 1,96 en valor absoluto permiten armar que la
distribucin se aleja de la distribucin normal. Su formula es
e
k
=

24n(n 1)
2
(n 3)(n 2)(n + 3)(n + 5)
.
Si,

k
e
k

1, 96, entonces la distribucin de los datos es como la normal.


Dependiendo del signo de k, se identica si es platicurtica o mecocurtica.
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 34 / 61
Solucin en SPSS
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 35 / 61
Solucin en SPSS
La distribucin de la inversin es simtrica
(0, 166/0, 398 = 0, 41 < 1, 96).
La distribucin de la inversin es como la normal en curtosis
(0, 201/0, 778 = 0, 26 < 1, 96)
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 36 / 61
Identicacin de Datos Atpicos: Mtodo de la puntuacin z
Denicin (Mtodo de la puntuacin z:)
Si consideramos la regla emprica, sabemos que aproximadamente el 100%
de los datos est en el intervalo [x 3s; x +3s]. Es muy improbable que un
dato est fuera de este intervalo, y en caso que fuese, ste se llamara un
dato atpico. Es decir, un dato es no atpico si
x
i
[x 3s; x + 3s]
x
i
x
s
[3; 3]

x
i
x
s

3
Si consideramos la transformacin z
i
=
x
i
x
s
, entonces un dato x
i
es
atpico si |z
i
| > 3.
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 37 / 61
Solucin en SPSS
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 38 / 61
Solucin en SPSS
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 39 / 61
Solucin en SPSS
Como x = 21, 123 y s = 0, 9334, entonces todas las puntuaciones |z| son
inferiores a 3. Por lo tanto, no existirian datos atpicos.
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 40 / 61
Identicacin de Datos Atpicos: Mtodo de Tukey
Denicin (Mtodo de Tukey:)
Considere las siguientes barreras (bisagras),
Barrera Interior Inferior: BII = Q
1
1, 5RI
Barrera Interior Superior: BIS = Q
3
+ 1, 5RI
Barrera Exterior Inferior: BEI = Q
1
3RI
Barrera Exterior Superior: BES = Q
3
+ 3RI
Identique los datos en este diagrama
[
. .
Potencial
[BEI [
. .
Posible
No atpico
..
[BII BIS] ] BES]
. .
Posible
]
. .
Potencial
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 41 / 61
Identicacin de Datos Atpicos: Diagrama de Caja
Denicin (Diagrama de caja)
El diagrama de caja, entrega informacin sobre
centralidad, dispersin y la forma de la distribucin de los datos,
identica valores atpicos
y es til para comparar dos distribuciones.
(Procedimiento para realizar esta grca)
Paso 1: Los bordes de la caja se representan por Q
1
y Q
3
, se debe
trazar una linea vertical que atraviese la caja en la M
e
.
Paso 2: Trazar lneas desde los bordes de la caja hasta los valores
adyacentes (el menor y mayor de los datos no atpicos).
Paso 3: Marque los posibles valores atpicos con o y los potenciales
con .
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 42 / 61
Identicacin de Datos Atpicos: Diagrama de Caja
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 43 / 61
Diagrama de caja en SPSS
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 44 / 61
Diagrama de caja en SPSS
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 45 / 61
Diagrama de caja en SPSS
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 46 / 61
Diagrama de caja en SPSS
Segn el mtodo de Tukey, las barreras interiores son BII = 20,5 - 1,5 *
(21,8-20,5) = 18,55 y BIS = 21,8 - 1,5 * (21,8-20,5) = 23,75. Todos los
datos estn en este intervalo, por lo tanto, no existen datos atpicos.
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 47 / 61
Solucin en SPSS de una estudio segmentado
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 48 / 61
Solucin en SPSS de una estudio segmentado
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 49 / 61
Solucin en SPSS de una estudio segmentado
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 50 / 61
Solucin en SPSS de una estudio segmentado
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 51 / 61
Tablas y grcos: Diagrama de barra
Una tabla de frecuencia es el arreglo de los distintos valores que toma una
variable con sus respectivas frecuencias (n

de veces que se repite la


caracterstica). Considere los datos http://bit.ly/data_camest y
analicemos el nivel de delidad.
EL valor 514 (frecuencia absoluta), indica que 514 de los clientes son
indiferentes en el nivel de delidad, lo cual representara un 25,7%
(frecuencia relativa).
El 46,4% (frecuencia relativa acumulada) es bastante el o indiferente.
Al gracar la variable v/s las frecuencias se obtiene un diagrama de
barra.
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 52 / 61
Tablas y grcos: Diagrama de barra en SPSS
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 53 / 61
Tablas y grcos: Diagrama de barra en SPSS
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 54 / 61
Tablas y grcos: Diagrama de barra en SPSS
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 55 / 61
Tablas y grcos: Diagrama de barra en SPSS
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 56 / 61
Tablas y grcos: Diagrama de barra en SPSS
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 57 / 61
Tablas y grcos: Histograma
En el caso que la variable sea cuantitativa continua, se debe denir un
intervalo de clase, y se realiza un conteo de cuanto datos estn dentro de
cada intervalo. Cuando se graca la variable (intervalos de clase), v/s sus
frecuencias, se dice que es un histograma. Considere los datos
http://bit.ly/inv_publi, a continuacin se presenta un histograma de
la variable inversin en patrocinio.
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 58 / 61
Tablas y grcos: Histograma en SPSS
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 59 / 61
Tablas y grcos: Histograma en SPSS
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 60 / 61
Tablas y grcos: Histograma en SPSS
mrodriguez@ucm.cl (UCM) Estadstica Descriptiva 07/08/2012 61 / 61