Vous êtes sur la page 1sur 35

ANALISIS EXPLORATORIO

DE DATOS

LIC. ESPERANZA GARCIA CRIBILLEROS

2006

ENFOQUES DE ANALISIS
ESTADISTICO
Confirmatorio
Exploratorio

(Clsico)

(Tukey, 1977)

COMPARACION DE LOS ENFOQUES DE


ANALISIS (Bertrand)
EXPLOTARIO
Enfoque descriptivo
Indica las hiptesis a
probar
Usa estadsticos
Plan de investigacin
flexible y poco definido
Usa los datos
disponibles
Privilegia la
representacin grfica.
Tiene visin intuitiva de
los datos
Semeja una
investigacin policial.

CONFIRMATORIO
Enfoque inferencial
Prueba hiptesis
Usa estadsticos
Plan de investigacin
riguroso y bien definido.
Usa datos sin error
(ideal).
Poca importancia a la
representacin grfica.
Tiene una visin precisa
de los datos.
Semeja a un juicio

Definicin de anlisis exploratorio


de datos:

Conjunto de herramientas estadsticas que


permiten una visualizacin previa al anlisis
definitivo de los datos en estudio. Este anlisis
tiene los siguientes objetivos:
Evaluar la calidad y la consistencia de
los datos.
Determinar la distribucin de las
variables en estudio.
Aplicar el tratamiento de datos
ausentes.
Detectar datos atpicos (outliers).

Comprobar supuestos: normalidad,


linealidad, homocedasticidad.
Resumir los datos mediante el uso conjunto
de medidas de resumen y sus grficos.
Explorar formas de categorizar variables a
travs de bsqueda de puntos de corte.

El anlisis exploratorio de datos puede ser:

Univariado: Estatura, peso, pulso,


temperatura, etc.
Bivariado: Estatura y peso, frecuencia
cardiaca y nivel de colesterol.
Multivariado: Se quiere medir la
relacin entre la presin arterial,
edad, peso y estrs.

El anlisis exploratorio de datos se


puede realizar en:
Forma

de grficos

Pruebas

de contraste

ANLISIS EXPLORATORIO UNIVARIADO


HISTOGRAMA:
Muestra la forma de distribucin de
los datos.
Revela la presencia o no de simetra
Proporciona informacin respecto a
la variabilidad de los datos.

Ejemplo:

Edades de un grupo de pacientes que


participaron en un trabajo de
investigacin.
1
20
34
41
48
57

2
23
34
42
48
57

3
24
34
42
49
57

4
25
34
42
49
57

5
25
34
42
49
57

6
26
35
43
50
58

7
26
35
43
50
58

8
28
36
43
51
58

9
28
36
44
52
59

10
29
36
44
52
59

11
30
37
44
53
60

12
30
37
44
53
60

13
30
37
45
54
61

14
30
38
45
55
62

15
30
38
46
55
62

16
30
39
46
55
63

17
32
39
47
56
64

18
32
40
47
56
64

19
33
40
47
56
65

20
33
41
48
57
65

Histograma

Histograma y
curva normal

Asimetra

Identifica datos
extremos

Se observa
simetra

Normalidad

Ausencia de
datos
extremos

Diagrama de tallo y hojas


Permite observar al conjunto de
datos como un todo y destacar
algunas caractersticas, tales como:
La simetra del conjunto de datos
La variabilidad de los datos
La presencia o no de outliers
Concentracin de los datos
Brechas en el conjunto de datos

Ejemplo: Se tienen las edades de 100 pacientes


que participaron en un estudio de investigacin.
1

9 10 11 12 13 14 15 16 17 18 19 20

20 23 24 25 25 26 26 28 28 29 30 30 30 30 30 30 32 32 33 33
34 34 34 34 34 35 35 36 36 36 37 37 37 38 38 39 39 40 40 41
41 42 42 42 42 43 43 43 44 44 44 44 45 45 46 46 47 47 47 48
48 48 49 49 49 50 50 51 52 52 53 53 54 55 55 55 56 56 56 57
57 57 57 57 57 58 58 58 59 59 60 60 61 62 62 63 64 64 65 89

Diagrama de tallo y hojas en


forma compacta:
Stem-and-leaf of EDAD
Leaf Unit = 1.0
10
37
(28)
35
10

N = 100

2 0345566889
3 000000223344444556667778899
4 0011222233344445566777888999
5 0012233455566677777788899
6 001223445

HI 89,

Simetra

Normalidad

Valor extremo alto (89)

Tallo desdoblada
Edad de los pacientes
Stem-and-Leaf Plot
Frec.

Tallo

Hojas

3
2 . 034
7
2 . 5566889
15
3 . 000000223344444
12
3 . 556667778899
15
4 . 001122223334444
13
4 . 5566777888999
8
5 . 00122334
17
5 . 55566677777788899
8
6 . 00122344
1
6. 5
1 Extremes (>=89)
Stem width:
Each leaf:

10
1 case(s)

Cumple las mismas


funciones que el
histograma.
Conserva todos los
datos y se pueden
determinar los datos
extremos.
Adecuado para
muestras grandes y
pequeas.

Tallo y hojas con brechas


Stem-and-leaf of Edad
Leaf Unit = 1.0
2
2
7
(4)
9
9

1 79
2
3 02579
4 1356
5
6 002345789

N = 20

GRFICO DE CAJAS
(BOXPLOT)
Es una presentacin simple de la
informacin que permite conocer:
La

localizacin del centro de los


datos
Dispersin

DIAGRAMA O GRFICO DE
CAJAS (BOXPLOT)

Simetra
La extensin:
Limite Superior = (Q3 +1.5*dQ);
Limite inferior =(Q1-1.5*dQ
La existencia de los valores extremos
(outliers).

valor max=65
Q3=55
Me=44
Q1=34.25

Valor min=20

DATOS ATPICOS (OUTLIERS)


TIPOS:
Aquellos que surgen de un error de
procedimiento.
Los que ocurren por un hecho

extraordinario, tiene explicacin.


Observaciones extraordinaria sin

explicacin.

Normalidad

de los datos:

Se considera que los datos son normales si


la distribucin de la poblacin de la cual ha
sido extrada la muestra se aproxima a la
distribucin terica.
Se puede verificar esta propiedad por:

Mtodos grficos para ver normalidad


Contrastes de normalidad

MTODOS GRFICOS PARA VER


NORMALIDAD:
Histogramas
Grfico P-P
Grfico QQ plot.
CONTRASTES DE NORMALIDAD:
Prueba Chi cuadrado: Bondad de ajuste
(
o E )
Z = (x x) / s
=
i

Ei

Prueba de Colmogorov-Smirnov
D = max Fn (x ) Fo (x )

Prueba de Shapiro Wilks


W

D
=
ns

2
2

Todas las pruebas plantean Ho de


normalidad.

TRASFORMACIN DE LOS
DATOS
En este grfico se
observa que los
datos son normales.
Si existe normalidad
la recta del
diagrama pasa por
el origen.
Es un artificio para
normalizar datos.
Se construye a
partir de la
transformacin de
los datos a su log
natural.

Tests of Normality
a

Kolmogorov-Smirnov
Shapiro-Wilk
Statistic
df
Sig.
Statistic
df
Sig.
Edad de los pacien
.072
100
.200*
.971
100
.024
*. This is a lower bound of the true significance.
a. Lilliefors Significance Correction

Para este caso es conveniente interpretar el resultado


con la prueba de Kolmogorov-Smirnov. La de ShapiroWilk es til con muestras no mayores de 50.
Ho, (normalidad) no se puede rechazar porque el valor
calculado es mayor que 0.05.

En el grfico P-P se observa la normalidad de los


datos.

ANALISIS BIVARIADO
No
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

Sexo
1
1
1
2
2
1
2
2
1
1
1
1
1
1
1
2
2
2
2
1

Peso
18.2
14.6
19.4
15.7
18.7
16.6
20.7
19.3
16.6
20.6
18.2
20.4
21.8
22.6
20.7
15.5
18.9
15.4
18.4
18.3

Estatura
112
103.4
114.9
104.1
104.9
105.5
113
109.4
104.7
114.4
112.9
110.1
122.5
116.3
115.9
107.2
110.4
113.2
109.5
110.4

No
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40

Sexo
1
1
1
1
1
2
2
1
1
1
1
2
2
1
1
2
1
1
1
1

Peso
18.3
21.3
16.2
23.31
20
22.3
25.4
17.6
19.8
17.1
18.2
25.1
16.9
18.4
18.8
17.5
21.4
19.4
18.9
20.2

Estatura
114.3
115
103
117.7
113.4
114.3
121
106.6
111.4
108.3
109.6
114.6
104.5
107.3
106.8
108.5
112.9
111.6
106.8
115.8

Anlisis

exploratorio bivariado:

Grfico de dispersin de estatura


y peso por sexo

NIOS SEGN PESO Y SEXO

ANLISIS EXPLORATORIO
MULTIVARIADO

FIN

Vous aimerez peut-être aussi