Académique Documents
Professionnel Documents
Culture Documents
TALLER
Introduccin al anlisis estadstico
inferencial con el software SPSS
Anlisis Exploratorio
Anlisis Exploratorio
INTRODUCCIN
El anlisis exploratorio de datos es un mtodo que se utiliza para analizar datos
que requieren de muy pocas suposiciones iniciales. As por ejemplo, la distribucin de
los datos no tiene que ser simtrica ni normal.
El procedimiento Explorar genera estadsticos de resumen y representaciones
grficas, para todos los casos o bien de forma separada para grupos de casos.
Existen numerosas razones para utilizar este procedimiento: para inspeccionar
los datos, identificar valores atpicos, obtener descripciones, comprobar supuestos y
caracterizar diferencias entre subpoblaciones (grupos de casos).
La exploracin de los datos puede:
a) Mostrar que existen valores inusuales, valores extremos, discontinuidades en los
datos u otras peculiaridades.
b) Ayudar a determinar si son adecuadas las tcnicas estadsticas que se estn
teniendo en consideracin para el anlisis de los datos.
c) Indicar que se necesitan preparar y transformar los datos que van a ser
analizados.
2
Anlisis Exploratorio
- Seleccionar una o ms variables de factor si queremos dividir los datos en
grupos de casos. Una variable de factor debe tener un nmero razonable de valores
distintivos (categoras). Estos valores pueden ser de cadena corta o numricos.
- Seleccionar una variable de identificacin para etiquetar los casos con sus
valores. Por defecto los casos se identifican mediante su nmero secuencial dentro
del archivo de datos. La variable de etiquetas de caso se utiliza para etiquetar
valores atpicos en los diagramas de caja y puede ser de cadena numrica.
Botn Estadsticos
Muestra slo los estadsticos y elimina los grficos. Por defecto, se muestran los
estadsticos descriptivos bsicos para cada variable.
Botn Grficos
Muestra slo los grficos y suprime todos los estadsticos. Por defecto, se muestran
los diagramas de caja y los grficos de tallo y hojas, para cada variable.
Botn Ambos
Muestra tanto los grficos como los estadsticos.
Adems, podemos:
- Pulsar en el botn Estadsticos para obtener estimadores robustos, valores
atpicos y percentiles.
- Pulsar en el botn Grficos para obtener histogramas, pruebas y grficos de
probabilidad normal y diagramas de dispersin por nivel con estadsticos de Levene.
3
Anlisis Exploratorio
- Pulsar en el botn Opciones para manipular los valores perdidos.
a) Explorar: Estadsticos
Pulsar a continuacin el botn Estadsticos. Se abre una nueva ventana con
las siguientes opciones:
1. Descriptivos
Por defecto se muestran los estadsticos descriptivos bsicos para cada
variable, es decir, medidas de tendencia central, de dispersin y de forma.
Estadsticos de dispersin:
- Errores Tpicos,
- Varianza,
- Desviacin tpica,
- Mximo,
- Mnimo,
- Rango y
- Amplitud intercuartil: Es la distancia entre el primer cuartil y el tercer
cuartil. No le afecta la presencia de casos extremos.
4
Anlisis Exploratorio
Estadsticos de forma:
- Asimetra y
- Curtosis
A la derecha de la asimetra y la curtosis se muestran sus correspondientes
errores tpicos. La presencia de valores extremos dispara la asimetra y el
apuntamiento (curtosis). Estos coeficientes son pues, indicadores de anomalas en
las distribuciones de datos.
Tambin se muestra un Intervalo de Confianza para la media (un rango de
1
valores basado en la media muestral) a un nivel del 95% , aunque se puede
especificar otro porcentaje, entre 1 y 99. Son valores comunes 90, 95 99.
1
Es la probabilidad de que el intervalo de confianza incluya la media poblacional.
2. Valores atpicos
Son los valores extremos de la distribucin (muy alejados del resto). Se muestran
los cinco valores mayores y los cinco menores, con las etiquetas de caso para cada
uno de los grupos.
5
Anlisis Exploratorio
3
Figura 7: Tabla con percentiles
3
En la Figura 7se ha cambiado el orden de visualizacin de los datos. Para ello se edit la tabla y
se seleccionaron las opciones Paneles de Pivotado primero y Transformar filas y columnas
despus, en el men Pivotar de la ventana de resultados.
b) Explorar: Grficos
Pulsar a continuacin el botn Grficos.
6
Anlisis Exploratorio
Con esta opcin podemos explorar los datos mediante tres grficos
exploratorios:
- Histograma,
- Grfico de tallo y hojas (Stem-and-Leaf), sobre el cual no vamos a
realizar un anlisis exhaustivo y
- Diagramas de caja (Box-plot).
Histograma
Diagramas de caja
7
Anlisis Exploratorio
alejados del centro son identificados.
8
Anlisis Exploratorio
borde inferior de la caja y, asimtrica negativa o a la izquierda si est prxima al
borde superior
e) Los valores que no son considerados extremos son aqullos
comprendidos entre el lmite inferior y el lmite superior.
Lmite inferior = Q1 1,5*IQR
Lmite superior = Q3 + 1,5IQR
Los valores de las patillas corresponden a la primera y ltima observacin dentro
de dichos lmites.
9
Anlisis Exploratorio
En la figura 13 se muestran los dos grficos usados para comprobar la
normalidad: El grfico Q-Q normal y el grfico Q-Q normal sin tendencia.
- -Grfico Q-Q normal: Crea un grfico con los cuantiles reales y tericos de
una distribucin normal. Si la variable se distribuye normalmente, los puntos
se concentran en torno a una lnea recta diagonal. Cuanto ms se aproximen
los puntos a la recta mejor ser el ajuste y al revs, cuanto ms se
alejen stos de la misma.
- -Grfico Q-Q normal sin tendencia: En este grfico se recogen las
diferencias (desviaciones) entre los valores observados y los
esperados. Si la muestra procede de una distribucin normal, los
puntos deben concentrarse en una banda horizontal alrededor del cero y sin
seguir ningn patrn. En caso contrario deben alejarse de la normalidad.
-
10