Vous êtes sur la page 1sur 15

PRIMER TALLER DE BIOESTADISTICA FUNDAMENTAL

1. Consulte el conjunto de datos Diabetes. Obtenga las principales estadísticas


descriptivas de localización (media y mediana) y dispersión (rango, rango
intercuartílico, varianza, desviación estándar y cuartiles) para cada una de las
variables.

MEDIANA
> with(Dataset, tapply(age, list(type), median, na.rm=TRUE))
No 26 Yes 36
> with(Dataset, tapply(bmi, list(type), median, na.rm=TRUE))
No 31.05 Yes 34.60
> with(Dataset, tapply(bp, list(type), median, na.rm=TRUE))
No 70 Yes 76
> with(Dataset, tapply(glu, list(type), median, na.rm=TRUE))
No 109.5 Yes 144.0
> with(Dataset, tapply(npreg, list(type), median, na.rm=TRUE))
No 2.0 Yes 4.5
> with(Dataset, tapply(ped, list(type), median, na.rm=TRUE))
No 0.3235 Yes 0.4495
> with(Dataset, tapply(skin, list(type), median, na.rm=TRUE))
No 27 Yes 32
VARIANZAS
> with(Dataset, tapply(age, list(type), var, na.rm=TRUE))
No 91.48115 Yes 131.79873
> with(Dataset, tapply(bmi, list(type), var, na.rm=TRUE))
No 40.72300 Yes 23.14529
> with(Dataset, tapply(bp, list(type), var, na.rm=TRUE))
No 122.8452 Yes 134.1861
> with(Dataset, tapply(glu, list(type), var, na.rm=TRUE))
No 709.5612 Yes 907.2502
> with(Dataset, tapply(npreg, list(type), var, na.rm=TRUE))
No 7.878499 Yes 15.779412
> with(Dataset, tapply(ped, list(type), var, na.rm=TRUE))
No 49134.41 Yes 171398.87
> with(Dataset, tapply(skin, list(type), var, na.rm=TRUE))
No 119.4464 Yes 151.3292
RANGOS
> with(Dataset, tapply(age, list(type), range, na.rm=TRUE))
$No [1] 21 63 $Yes [1] 21 62
> with(Dataset, tapply(bmi, list(type), range, na.rm=TRUE))
$No [1] 18.2 47.9 $Yes [1] 22.9 46.1
> with(Dataset, tapply(bp, list(type), range, na.rm=TRUE))
$No [1] 38 110 $Yes [1] 40 106
> with(Dataset, tapply(glu, list(type), range, na.rm=TRUE))
$No [1] 56 193 $Yes [1] 80 199
> with(Dataset, tapply(npreg, list(type), range, na.rm=TRUE))
$No [1] 0 13 $Yes [1] 0 14
> with(Dataset, tapply(ped, list(type), range, na.rm=TRUE))
$No [1] 0.085 1698.000 $Yes [1] 0.15 2288.00
> with(Dataset, tapply(skin, list(type), range, na.rm=TRUE))
$No [1] 8 60 $Yes [1] 7 99
2. Para cada variable obtenga: diagrama de tallos y hojas e histograma. A partir de
los mismos ¿identifica algún tipo de asimetría? ¿Qué tipo de información da cada
tipo de gráfico?
HISTOGRAMA Los Histogramas a continuación nos muestran una variable de interés en forma de
barras y la superficie de cada barra corresponde a la frecuencia de los valores de la variable.

Por ejemplo: Este histograma nos indica que el índice de masa corporal de una muestra de 200
personas, el 70% está entre 30 y 35.
100
80

150
60
frecuencia

frecuencia

100
40

50
20
0

0 2 4 6 8 10 12 14
0 500 1000 1500 2000
cantidad de embarazos
función de pedigri de la diabetes
60
50
40
frecuencia

30
20
10
0
40 60 80 100

presión arteria diastolica


60
50
40
frecuencia

30
20
10
0

0 20 40 60 80 100

Espesor de pliegue piel de triceps


(18) 2. | 888888888888999999

DIAGRAMA DE HOJAS Y TALLOS 90 3* | 0000001111111

Variable: Cantidad de embarazos 77 t | 222233333

n: 200 68 f | 444455

28 0 | 0000000000000000000000000000 62 s | 667777

73 1 | 56 3. | 888999
000000000000000000000000000000000000
50 4* | 0000011111111
000000000
37 t | 222333
(30) 2 |
000000000000000000000000000000 31 f | 4555
97 3 | 0000000000000000000 27 s | 66666
78 4 | 0000000000000000 22 4. | 89
62 5 | 00000000000 20 5* | 011
51 6 | 0000000000 17 t | 222
41 7 | 000000000000 14 f | 455
29 8 | 000000000 11 s|7
20 9 | 0000000 10 5. | 88899
13 10 | 000 5 6* | 00
10 11 | 0 3 t | 223
9 12 | 000000 Concentración de glucosa en plasma en una
prueba oral de tolerancia a la glucosa.
3 13 | 0
n: 200
HI: 14 14
2 5 | 67
Edad en años.
3 6|1
n: 199
10 7 | 1147999
21 2* | 111111111111111111111
24 8 | 00133345566678
50 t
|22222222222222222333333333333 48 9 | 012223455556677777999999
73 f | 44444444444444444555555 75 10 | 000000011233555666777789999
91 s | 666666666677777777 98 11 | 00111222224445556677899

(27) 12 | 001112223334444455567889999
75 13 | 001345677778999 1 s|7

60 14 | 000012233444558889 2 0. | 8

42 15 | 011244444557888 7 1* | 00111

27 16 | 4457788 17 t | 2222223333

20 17 | 15679 26 f | 444555555

15 18 | 01447899 36 s | 6677777777

7 19 | 1345789 45 1. | 888889999

Presión arterial diastólica (mm Hg). 54 2* | 000001111

LO: 38 66 t | 222223333333

2 4* | 0 73 f | 4555555

5 4. | 888 88 s | 666666777777777

14 5* | 002224444 (16) 2. | 8888888899999999

25 5. | 56668888888 96 3* | 0000000001111111

57 6* | 80 t | 22222222223333333
00000000000002222222222444444444
63 f | 444455555
85 6. |
54 s | 66666777
5666666666666888888888888888
46 3. | 89999
(41) 7* |
000000000000000002222222222444444444 41 4* | 0000000011111
44444
28 t | 222333333
74 7. | 56666666666668888888888888
19 f | 44555
48 8* | 000000000022222222222444444
14 s | 66666
21 8. | 556668888
9 4. | 8899
12 9* | 00000244
5 5* | 00
4 9. | 5
3 t|2
3 10* | 2
f|
HI: 106 110
s|

5. |

2 6* | 0
Espesor del pliegue de la piel del tríceps
(mm). HI: 99
Índice de masa corporal (peso en kg / 14 1* | 0013333444
(altura en m) \ ^ 2 ).
27 1. | 5556666666999
n: 200
49 2* | 0000011223333333444444
3 1. | 889
77 2. |
7 2* | 0011 5555555555666666688888899999

16 t | 222223333 95 3* | 001111222333334444

38 f | 4444444445555555555555 (14) 3. | 56667777899999

55 s | 66666667777777777 91 4* | 001112233444

68 2. | 8888888899999 79 4. | 5566689999

87 3* | 0000000000001111111 69 5* | 02222344

(27) t | 222222222222222333333333333 61 5. | 5677889

86 f | 54 6* | 011113344
44444444444444444444555555555555
45 6. | 5567788899999
54 s | 66666666677777777777
32 7* | 12444
34 3. | 8888888899999999
27 7. | 68
18 4* | 00111
25 8* | 12233
13 t | 22222333
20 8. | 589
f|
17 9* | 0124
5 s | 66667
13 9. | 666
Función de pedigrí de la diabetes.
HI: 1001 1072 1095 1096 1162 1224 1292
n: 200 1394 1698 2288

4 0. | 8899
3. Obtenga el Boxplot para todas las variables, ¿cuáles presentan asimetría o
datos atípicos?
Las variables AGE, NPREG, GLU y BMI tienen asimetría hacia la derecha (o la máxima) y las
variables BP, NPREG (también tiene asimetría hacia la derecha), PED y SKIN tienen datos
atípicos.

4. Calcule el coeficiente de asimetría para las variables ¿Concuerdan sus resultados


con lo que observó gráficamente?
5. Para cada una de las variables de la base de datos: ¿se tiene algún dato
considerablemente mayor al resto? ¿Cómo se ven afectadas las diferentes medidas
de centralidad y dispersión cuando se consideran todos los datos y cuando se
excluye el dato atípico?

La variable; Función de pedigrí de la diabetes, es la variable que


presenta más datos atípicos, el valor 2288 es considerablemente mayor
al resto .Otra variable que presenta un dato atípico mayor es; “Espesor
del pliegue de la piel” donde encontramos un valor de 99 mm, un valor
anormal para el espesor de la piel de una persona. Por último la
variable;” cantidad de embarazos” nos muestra un dato atípico que
corresponde a 14 embarazos, lo cual indica que la persona ha tenido 14
embarazos comparado con la media que está en 2 embarazos.

Cuando consideramos todos los datos y calculamos las diferentes


medidas de centralidad la que se ve más afectada es la media. Ya que
al considerar todos los datos, tendremos en cuenta los datos atípicos y
estos datos afectan la media. La media se ve alterada por estos valores
extremos perdiendo representatividad. Al observar los diferentes
histogramas y diagramas de cajas observamos asimetría hacia la
derecha y la media no se encuentra ubicada en la mitad como en una
gráfica con simetría sino que se encuentra ubicada con un corrimiento
hacia la derecha arrastrada por los datos atípicos hacia la derecha. Sí
se excluyeran los datos atípicos se espera observar una simetría y una
menor dispersión de los datos, asimismo una media ubicada hacia el
centro de la distribución.
Las medidas de dispersión que son susceptibles de los datos atípicos
esta; el rango y la desviación estándar. Cuanto mayor sea la deviación,
más lejos está un dato de la media. Dentro de las variables,
encontramos la de “función de pedigrí de la diabetes” con un valor
demasiado alto de la desviación estándar igual a 302,683 y
efectivamente en esta variable encontramos un dato alejado de la media
que corresponde a 2288, Sí se excluyera este valor y otros dos datos
atípicos de esta variable, se tendría un valor menor de la desviación
estándar, así como de su rango, este último también tiene un valor
considerablemente grande.
6. Calcule la matriz de correlaciones de las variables de la base de datos, realice
una matriz con los diagramas de dispersión para todas las variables y analice la
relación de todos los pares de variables.

MATRIZ DE CORRELACIONES

MATRIZ CON LOS DIAGRAMAS DE DISPERCION


7. Analice en cada caso si las variables npreg, glu, bp, skin y bmi toman valores
mayores para aquellas personas con diabetes.

Podemos observar de los histogramas que el índice de masa corporal no tiene tantos valores de
personas con diabetes, es decir el 10% de las personas con índices de masa corporal alto
corresponde a aquellas personas que no tienen diabetes, mientras que el 5% si tienen Diabetes y
tiene un alto índice de masa corporal.
Los histogramas nos muestran la concentración de glucosa en el plasma y su relación con si tiene
Diabetes o no. Como podemos observar los valores más altos de glucosa tienen una relación positiva
con que la persona si tiene Diabetes.
En los histogramas de cantidad de embarazos podemos observar que un gran porcentaje
corresponde a que no tiene Diabetes. Es decir el hecho de que una persona tenga muchos
embarazos su probabilidad que tenga diabetes es mínima.

La variable “espesor de la piel (mm)” no tiene una relación positiva con tener Diabetes. Ya que
encontramos una mayor frecuencia en los diferentes valores de espesor altos con no tener Diabetes.
Los valores de La presión arterial diastólica no tiene incidencia con la tenencia de Diabetes, ya que
su frecuencia es considerablemente mayor.

Vous aimerez peut-être aussi