Vous êtes sur la page 1sur 35

Análisis exploratorio de datos

Estadística básica y avanzada para la


investigación en trastornos mentales
Introducción
 Cuando iniciamos una investigación, y antes de extraer
conclusiones acerca de los objetivos e hipótesis planteados, es
necesario llevar a cabo un análisis previo y exploratorio de los
datos
 El objetivo será:
 Detectar errores en la codificación de las variables,
 Eliminar inconsistencias,
 Evaluar la magnitud y tipo de datos perdidos (ausentes),
 Conocer características básicas de la distribución de las variables
(normalidad, igualdad de varianzas, presencia de valores atípicos,
linealidad, etc)
 Explorar las relaciones entre ellas.
Introducción
 El Análisis Exploratorio de Datos (A.E.D.) es un
conjunto de técnicas estadísticas cuya finalidad es
conseguir un entendimiento básico de los datos y de las
relaciones existentes entre las variables analizadas
 El examen previo de los datos es un paso necesario,
que lleva tiempo, y que habitualmente se descuida por
parte de los analistas de datos

 Antes de empezar a trabajar con datos, vamos a


asegurarnos que recordáis algunas cosas básicas
Recordatorio
 Población: conjunto de individuos que deseamos estudiar y
generalmente suele ser inaccesible. Es, en definitiva, un colectivo
homogéneo que reúne unas características determinadas.
 Muestra: conjunto menor de individuos (subconjunto de la
población accesible y limitado sobre el que realizamos las
mediciones o el experimento con la idea de obtener conclusiones
generalizables a la población).

 Parámetro vs Estadístico

 Escalas ------ Variables


 Nominal -------- ….
 Ordinal
 De intervalo
 Razón
Recordatorio
 Variables cualitativas. Este tipo de variables representan una
cualidad o atributo que clasifica a cada caso en una de varias
categorías.
 Escalas nominales: los datos se ajustan por categorías (color
de los ojos, sexo, profesión, presencia o ausencia de un factor
de riesgo o enfermedad, etcétera).
 Escalas ordinales: en las escalas utilizadas, existe un cierto
orden o jerarquía entre las categorías (grados de disnea,
estadiaje de un tumor, etcétera).
 Variables cuantitativas. Son las variables que pueden medirse,
cuantificarse o expresarse numéricamente.
 Cuantitativas continuas, si admiten tomar cualquier valor
dentro de un rango numérico determinado (edad, peso, talla).
 Cuantitativas discretas, si no admiten todos los valores
intermedios en un rango. Suelen tomar solamente valores
enteros (nº de hijos, nº de partos, nº de hermanos, etc).
1. Preparación de datos

 Lo primero hacer accesible los datos a


cualquier técnica estadística.
 Ello conlleva la selección del método de
entrada (por teclado o importados de un
archivo) y codificación de los datos así
como la de un paquete estadístico
adecuado para procesarlos.
 Nosotros vamos a trabajar con Stata
1. Preparación de datos

 Vamos a recordar las operaciones


básicas con Stata:
 Introducir datos en una matriz Stata
 Importar un archivo de datos Excell o
SPSS
 Generar nuevas variables
 Recodificar variables
 Guardar datos y/o resultados
1. Preparación de datos

1. Practica 1: Vamos a repasar estas


tareas con la practica “tabaco” y el
fichero “tabaco.dta”

2. Practica: crear bases de datos a partir


de datos introducidos
2. Análisis estadístico unidimensional

 Una vez organizados los datos, el segundo paso de un A.E.D. consiste en realizar
un análisis estadístico gráfico y numérico de las variables del problema con el fin
de tener una idea inicial de la información contenida en el conjunto de datos así
como detectar la existencia de posibles errores en la codificación de los mismos.
 El tipo de análisis a realizar depende de la escala de medida de la variable
analizada.

Tipo de variable Índices analíticos Representaciones Comandos STATA


gráficas
Cuantitativa media, mediana, moda, histograma, gráfico de Summarize, detail
desviación típica, rango, caja
amplitud intercuartílica,
prueba de normalidad

Cualitativa frecuencias, porcentajes, diagrama de barras, tabulate


moda, etc. diagrama de sectores
2. Análisis estadístico unidimensional

• Una de las principales funciones es la localización de errores de


codificación: Entendemos por errores de codificación a todos
aquellos valores que están fuera del rango de las variables
cuantitativas y a códigos numéricos o no numéricos no definidos
para representar a categorías de las variables cualitativas.
• El AED nos informará de:
• La localización, desviación y forma de la distribución de los datos
• La simetría o asimetría de los datos ---- primera aproximación a la
normalidad
• Número y localización de casos missing
• Presencia y número de casos atípicos
2. Análisis estadístico unidimensional
 Estadisticos de tendencia central:
 Media aritmética.
 Mediana: una vez ordenados los datos, es el valor que deja el mismo
número de observaciones a su derecha que a su izquierda.
 Media truncada: es la media de la variable eliminando el 5% de las colas
inferior y superior de la distribución, de esta forma se eliminan valores
extremos y es por tanto un estadístico robusto.
 Estadísticos de posición: cuartiles, centiles
 Estadísticos de dispersión:
 Rango
 Varianza
 Desviación tipo
 Amplitud intercuartílica (AI)

 Estadísticos de forma:
 Asimetría.
 Curtosis
2. Análisis estadístico unidimensional
 De forma gráfica es también importante recordar

 Diferencia entre histograma y gráfico de barras


 ¿Qué gráficos podemos hacer con variables cualitativas?
 Cuando pidamos un histograma es útil pedir superponer la curva
normal, puesto que es una primera aproximación al estudio de la
normalidad
 Comando STATA: histogram varname, normal
2. Análisis estadístico unidimensional

16

14

12

10

Desv. típ. = 3.57


2
Media = 7.1

0 N = 49.00
0.0 2.5 5.0 7.5 10.0 12.5 15.0

DIG
3. Evaluación de la normalidad

 Muchos métodos estadísticos se basan en la hipótesis de normalidad de la


variable objeto de estudio.
 Si la falta de normalidad de la variable es suficientemente fuerte, muchos de los
contrastes utilizados no son válidos.
 Incluso aunque las muestras grandes tiendan a disminuir los efectos perniciosos de
la no normalidad, el investigador debería evaluar la normalidad de todas las
variables incluidas en el análisis.
 Existen varios métodos para evaluar la normalidad: los métodos gráficos y los
contrastes de hipótesis.

 El método gráfico univariante más simple para diagnosticar la normalidad es una


comprobación visual del histograma que compare los valores de los datos
observados con una distribución normal. Aunque atractivo por su simplicidad, este
método es problemático para muestras pequeñas, donde la construcción del
histograma puede distorsionar la representación visual de tal forma que el análisis
sea poco fiable.
 Otras posibilidades, también basadas en información gráfica, consisten en realizar
diagramas de cuantiles (Q-Q plots).
 COMANDO STATA: qnorm varname
3. Evaluación de la normalidad
 Gráfico Q-Q: permite comparar los cuantiles obtenidos
de la muestra con los de la distribución teórica. Este
gráfico sirve para determinar si un conjunto de datos
se ajusta a una distribución normal. La normalidad
de los datos será perfecta cuando los puntos estén
sobre la línea recta
3. Evaluación de la normalidad

Tipologías de gráficos Q-Q


3. Evaluación de la normalidad

 La segunda de las formas para comprobar la normalidad de una


distribución se efectúa a través de un contraste de hipótesis. No
existe un contraste óptimo para probar la hipótesis de normalidad.
La razón es que la potencia relativa depende del tamaño
muestral y de la verdadera distribución que genera los datos.
 El contraste de Shapiro y Wilks es, en términos generales, el
más conveniente en muestras pequeñas (n < 30), mientras que
el contraste de Kolmogorov-Smirnov, es adecuado para
muestras grandes.
 En el test de Shapiro – wilks la hipótesis nula que se pone a
prueba es que los datos proceden de una población con
distribución normal frente a una alternativa de que no es así.
Este contraste calcula la distancia máxima entre la función de
distribución empírica de la muestra y la teórica. Si la distancia
calculada es mayor que la encontrada en las tablas, fijado un
nivel de significación, se rechaza el modelo normal.

 En ocasiones la falta de normalidad de una variable puede


arreglarse mediante una transformación de la misma
4. Detectar datos atípicos:
Llamamos datos atípicos a aquellas observaciones que se encuentran alejadas del
resto de las observaciones en una variable (atípico univariable) o en la distribución
conjunta de dos o más variables (atípico multivariable).
Las consecuencias de una sola observación atípica pueden ser graves pues
pueden distorsionar las medias y desviaciones típicas de las variables y destruir o
construir relaciones entre ellas.
Los valores atípicos pueden deberse a
2.1. Errores en la codificación errores de medida, errores en la
transcripción.
2.2. Observaciones que no proceden de la población de la que se ha
extraído la muestra.
2.3. Observaciones atípicas debidas a que la distribución de la variable en la
población tiene valores más extremos que los de una distribución normal.
Los valores atípicos debidos a 2.1. y 2.2., una vez detectados deben ser eliminados
o recodificados como valores perdidos. En el caso 2.3 suelen retenerse y analizar
su incidencia en los análisis posteriores.
4. Detectar datos atípicos:

 Para considerar a una observación como atípica existen


diferentes criterios:
Se consideran atípica aquellas observaciones que
están, en valores absolutos, a más de 3 desviaciones
tipo de la media (Z>3 o Z<-3) pero la aplicación de
este criterio depende del tamaño de la muestra.
 En el gráfico de caja, como ya hemos vistos, son
atípicos observaciones con puntuaciones superiores o
inferiores a 1,5*AI.
 A partir de 3*AI se califican de extremos.
PRACTICA

 Abre la practica 2 y el fichero


depuracion.dta, vamos a practicar el
analisis exploratorio univariable.

 Analiza las variables incluidas para


detectar casos extremos, errores de
codifiación y averiguar si las variables
cumplen el criterio de normalidad
5. Análisis estadístico bidimensional

 Una vez realizado el estudio unidimensional de


cada variable por separado, el siguiente paso
consiste en analizar la existencia de posibles
relaciones entre ellas.
 Dicho estudio puede realizarse desde una óptica
bidimensional o multidimensional
 Las tres situaciones generales que pueden
presentarse en este caso son las siguientes:
 1) Ambas variables son cualitativas.
 2) Ambas variables son cuantitativas.
 3) Una variable es cuantitativa y la otra cualitativa
5. Análisis estadístico bidimensional
análisis previo y exploratorio

Univariable Bivariado Multivariado

a) Dos Variables Cualitativas: Tablas de contingencia y


gráficos de barras
a) Variable Cualitativa
b) Una Variable Cuantitativa y otra Cualitativa: Explorar
b) Variable Cuantitativa
c) Dos Variables Cuantitativa: correlaciones bivariadas,
gráficos de dispersión
5.1. Dos cualitativas

 Se puede utilizar una tabla de contingencia que


contiene en cada casilla la correspondiente frecuencia
conjunta que representa el número de datos que
pertenecen a la modalidad iésima de la primera variable
y a la modalidad j-ésima de la segunda.
 Interesa por que informa de la frecuencia y porcentaje
de sujetos en cada condicion.

 A partir de dicha tabla podemos estudiar si las dos


variables son o no independientes. (esto ya entra en el
analisis inferencial)
 Si son independientes no existe relación alguna entre
ellas; en caso contrario analizaríamos el tipo y el grado
de su dependencia tanto gráfica como numéricamente
5.2. Dos cuantitativas

 La distribución conjunta de dos variables puede expresarse


gráficamente mediante un diagrama de dispersión que
proporciona una buena descripción de la relación entre las dos
variables.
 La relación entre las variables también puede expresarse de forma
numérica. Una medida de la relación entre dos variables que
resuma la información del gráfico de dispersión y que no dependa
de las unidades de medida es el coeficiente de correlación lineal.
Cuando las variables están relacionadas linealmente de forma
exacta, el coeficiente de correlación lineal será igual a uno en valor
absoluto.
 Cuando las variables no están relacionadas linealmente entre sí, el
coeficiente de correlación lineal es cero. Para interpretar este
coeficiente conviene mirar siempre el diagrama de dispersión de los
datos para comprobar que son homogéneos y que no existen datos
atípicos
Linealidad

Muchos procedimientos de análisis se basan en el patrón de correlaciones de Pearson


entre variables cuantitativas. El coeficiente de correlación mide el grado de asociación
lineal entre variables y no es adecuado utilizarlo cuando el patrón de covariación no es
lineal.
.
Variables compuestas: En muchas investigaciones es frecuente utilizar variables
compuestas (sumas, promedios, etc) que se obtienen a partir de varios items, las
correlaciones entre variables compuestas que comparten items individuales en su
definición suelen estar infladas.
La presencia de valores atípicos: los valores atípicos como ya hemos demostrado
pueden inflar o reducir significativamente las correlaciones entre variables.
Restricción de rango: las correlaciones muestrales pueden ser inferiores a las
poblacionales cuando en la muestra el rango de respuestas de uno o ambas de las
variables analizadas está restringido.
Linealidad

 La herramienta más útil para obtener


información, a nivel exploratorio, de la
relación entre dos variables
80,00

cuantitativas es el diagrama de
dispersión, o nube de puntos. Se
60,00 construye representando, en el plano
hrv_b

cartesiano, los valores de las variables


medidas. La inspección visual del
40,00

gráfico de dispersión nos permite


identificar valores atípicos y el tipo de
20,00 relación entre las variables.

20,00 40,00 60,00 80,00 100,00


hrv_a
100 10

80 5

60 0

40 -5

20 -10

0 -15

0 1

40
30 35
25 30
25
20 20
15 15
10
10 5
5 0
0 5 10 15 20
0

300
250
200
150
100
50
0
0 5 10 15 20
Linealidad

Gráfico

hrv_a
hrv_b
hrv_c
hrv_d
hrv_fa
imp_a
imp_b
imp_c
imp_d

hrv_a hrv_b hrv_c hrv_d hrv_fa imp_a imp_b imp_c imp_d


Linealidad

grup
ctrl
phob

80,00

60,00

hrv_b
40,00

20,00

20,00 40,00 60,00 80,00 100,00


hrv_a
5.3. Una cualitativa y una
cuantitativa

 Cuando se dispone de una variable cuantitativa y otra


cualitativa, el estudio se enfoca como un problema de
comparación del comportamiento de la variable
numérica en las diferentes subpoblaciones que define la
variable cualitativa
 Una forma de realizar dicho análisis exploratorio es
mediante los diagramas de cajas y la comparación de
estadísticos descriptivos

 Herramientas más avanzadas, comparación de medias


a través del contraste de hipótesis lo veremos mas
adelante
PRACTICA

 Abre la practica 2 y el fichero


habitos.dta, vamos a practicar el
analisis exploratorio bivariable.

Vous aimerez peut-être aussi