Vous êtes sur la page 1sur 10

> CURSO -

TALLER
Introduccin al anlisis estadstico
inferencial con el software SPSS
Anlisis Exploratorio
Anlisis Exploratorio

INTRODUCCIN
El anlisis exploratorio de datos es un mtodo que se utiliza para analizar datos
que requieren de muy pocas suposiciones iniciales. As por ejemplo, la distribucin de
los datos no tiene que ser simtrica ni normal.
El procedimiento Explorar genera estadsticos de resumen y representaciones
grficas, para todos los casos o bien de forma separada para grupos de casos.
Existen numerosas razones para utilizar este procedimiento: para inspeccionar
los datos, identificar valores atpicos, obtener descripciones, comprobar supuestos y
caracterizar diferencias entre subpoblaciones (grupos de casos).
La exploracin de los datos puede:
a) Mostrar que existen valores inusuales, valores extremos, discontinuidades en los
datos u otras peculiaridades.
b) Ayudar a determinar si son adecuadas las tcnicas estadsticas que se estn
teniendo en consideracin para el anlisis de los datos.
c) Indicar que se necesitan preparar y transformar los datos que van a ser
analizados.

DESCRIPCIN DETALLADA DE VARIABLES Y GRUPOS


Para explorar los datos hay que elegir en los mens las opciones:
Analizar Estadsticos Descriptivos Explorar...

Figura 1: Opcin del men Analizar

Se seleccionan una o ms variables cuantitativas de la lista y se transfieren a la


ventana Dependientes. Si lo desea, adems tiene la posibilidad de:

2
Anlisis Exploratorio
- Seleccionar una o ms variables de factor si queremos dividir los datos en
grupos de casos. Una variable de factor debe tener un nmero razonable de valores
distintivos (categoras). Estos valores pueden ser de cadena corta o numricos.

- Seleccionar una variable de identificacin para etiquetar los casos con sus
valores. Por defecto los casos se identifican mediante su nmero secuencial dentro
del archivo de datos. La variable de etiquetas de caso se utiliza para etiquetar
valores atpicos en los diagramas de caja y puede ser de cadena numrica.

Figura 2: Cuadro de dilogo del procedimiento Explorar

En Mostrar (VISUALIZACIN) tenemos tres botones de radio:

Botn Estadsticos
Muestra slo los estadsticos y elimina los grficos. Por defecto, se muestran los
estadsticos descriptivos bsicos para cada variable.
Botn Grficos
Muestra slo los grficos y suprime todos los estadsticos. Por defecto, se muestran
los diagramas de caja y los grficos de tallo y hojas, para cada variable.
Botn Ambos
Muestra tanto los grficos como los estadsticos.

Adems, podemos:
- Pulsar en el botn Estadsticos para obtener estimadores robustos, valores
atpicos y percentiles.
- Pulsar en el botn Grficos para obtener histogramas, pruebas y grficos de
probabilidad normal y diagramas de dispersin por nivel con estadsticos de Levene.

3
Anlisis Exploratorio
- Pulsar en el botn Opciones para manipular los valores perdidos.

a) Explorar: Estadsticos
Pulsar a continuacin el botn Estadsticos. Se abre una nueva ventana con
las siguientes opciones:

Figura 3: Cuadro de dilogo de la opcin Explorar: Estadsticos

1. Descriptivos
Por defecto se muestran los estadsticos descriptivos bsicos para cada
variable, es decir, medidas de tendencia central, de dispersin y de forma.

Estadsticos de tendencia central:


- Media,
- Mediana y
- Media recortada al 5%: media aritmtica calculada omitiendo el 5% de las
observaciones con frecuencias ms bajas y el 5% de las observaciones con
frecuencias ms altas.

A la derecha de la media se muestra su error tpico (Error tp.).

Estadsticos de dispersin:
- Errores Tpicos,
- Varianza,
- Desviacin tpica,
- Mximo,
- Mnimo,
- Rango y
- Amplitud intercuartil: Es la distancia entre el primer cuartil y el tercer
cuartil. No le afecta la presencia de casos extremos.

4
Anlisis Exploratorio
Estadsticos de forma:
- Asimetra y
- Curtosis
A la derecha de la asimetra y la curtosis se muestran sus correspondientes
errores tpicos. La presencia de valores extremos dispara la asimetra y el
apuntamiento (curtosis). Estos coeficientes son pues, indicadores de anomalas en
las distribuciones de datos.
Tambin se muestra un Intervalo de Confianza para la media (un rango de
1
valores basado en la media muestral) a un nivel del 95% , aunque se puede
especificar otro porcentaje, entre 1 y 99. Son valores comunes 90, 95 99.

1
Es la probabilidad de que el intervalo de confianza incluya la media poblacional.

Figura 4: Estadsticos de la variable consurb

2. Valores atpicos
Son los valores extremos de la distribucin (muy alejados del resto). Se muestran
los cinco valores mayores y los cinco menores, con las etiquetas de caso para cada
uno de los grupos.

5
Anlisis Exploratorio

Figura 6: Tabla con valores extremos


3. Percentiles
Se muestran los valores de los percentiles 5, 10, 25, 50, 75, 90 y 95.
Calcula tambin las bisagras de Tukey, que define los cuartiles de la
distribucin segn una transformacin realizada por Tukey.

3
Figura 7: Tabla con percentiles

3
En la Figura 7se ha cambiado el orden de visualizacin de los datos. Para ello se edit la tabla y
se seleccionaron las opciones Paneles de Pivotado primero y Transformar filas y columnas
despus, en el men Pivotar de la ventana de resultados.

b) Explorar: Grficos
Pulsar a continuacin el botn Grficos.

6
Anlisis Exploratorio

Figura 8: Cuadro de dilogo de la opcin Explorar: Grficos

Con esta opcin podemos explorar los datos mediante tres grficos
exploratorios:

- Histograma,
- Grfico de tallo y hojas (Stem-and-Leaf), sobre el cual no vamos a
realizar un anlisis exhaustivo y
- Diagramas de caja (Box-plot).

Adems solicita grficos opcionales, incluyendo:


- Diagramas de normalidad,
- Diagramas de dispersin por nivel con el estadstico de Levene y
transformaciones, los cuales no son objeto de estudio en esta prctica.

Histograma

El histograma es una representacin grfica de una nica variable que


muestra el nmero de casos que se encuentran dentro de cada intervalo.

Diagramas de caja

El diagrama de caja es un grfico de resumen de la distribucin basado en la


mediana, los cuartiles y los valores extremos.

Ofrece una gran cantidad de informacin, incluso los casos muy

7
Anlisis Exploratorio
alejados del centro son identificados.

Son especialmente tiles para comparar la distribucin de los valores entre


diferentes grupos.
Est formada por una caja, patillas que salen de ella y lmites. La caja
representa la amplitud intercuartil que contiene el 50% de los valores centrales.
Las patillas o bigotes (whiskers) son las lneas que se extienden
desde la caja hasta los valores ms altos y ms bajos (los valores
extremos), excluyendo los valores atpicos (en ingls se denominan outliers).
Una lnea que atraviesa la caja indica la situacin de la mediana.

Figura 9: Diagramas de caja de la variable consurb segn la variable n de cilindros

Sus caractersticas son:

a) La altura de la caja refleja la amplitud intercuartil (abreviado como IQR o


como RI), en ella est representado el 50% de la muestra.
b) El borde superior de la caja es el percentil 75 (Q3).
c) El borde inferior es el percentil 25 (Q1).
d) La lnea central de la caja es la mediana. Cuando el valor de la mediana
coincide con el punto medio de la caja (IQR/2 + Q1), la variable representada es
simtrica. Diremos que es asimtrica positiva o a la derecha si est prxima al

8
Anlisis Exploratorio
borde inferior de la caja y, asimtrica negativa o a la izquierda si est prxima al
borde superior
e) Los valores que no son considerados extremos son aqullos
comprendidos entre el lmite inferior y el lmite superior.
Lmite inferior = Q1 1,5*IQR
Lmite superior = Q3 + 1,5IQR
Los valores de las patillas corresponden a la primera y ltima observacin dentro
de dichos lmites.

Figura 11: Esquema explicativo de un diagrama de caja

Grficos con pruebas de normalidad


Este procedimiento trata de averiguar si nuestros datos proceden
de una poblacin normal, y para ello se emplean dos grficos de
probabilidad y el contraste de Kolmogorov-Smirnov con el nivel de
significacin de Lilliefors. Si el tamao de la muestra no excede de 50
observaciones (50 o menos), se calcula tambin el estadstico de Shapiro-
Wilk.

Figura 13: Pruebas de Normalidad de la variable consurb

9
Anlisis Exploratorio
En la figura 13 se muestran los dos grficos usados para comprobar la
normalidad: El grfico Q-Q normal y el grfico Q-Q normal sin tendencia.
- -Grfico Q-Q normal: Crea un grfico con los cuantiles reales y tericos de
una distribucin normal. Si la variable se distribuye normalmente, los puntos
se concentran en torno a una lnea recta diagonal. Cuanto ms se aproximen
los puntos a la recta mejor ser el ajuste y al revs, cuanto ms se
alejen stos de la misma.
- -Grfico Q-Q normal sin tendencia: En este grfico se recogen las
diferencias (desviaciones) entre los valores observados y los
esperados. Si la muestra procede de una distribucin normal, los
puntos deben concentrarse en una banda horizontal alrededor del cero y sin
seguir ningn patrn. En caso contrario deben alejarse de la normalidad.
-

Figura 14: Grficos de Normalidad de la variable consurb

Nota: Se crear un grfico distinto para cada variable numrica.

10

Vous aimerez peut-être aussi