Vous êtes sur la page 1sur 13

Análisis de Datos Curso 2o10/2o11

Licenciatura en Biologı́a

Práctica 1

El fichero de datos necesario para realizar esta práctica, alligator.xls, se encuentra en la


página web http://www.uam.es/daniel.faraco/AD11. Guardamos este fichero en el escrito-
rio de Windows, por ejemplo. No hay que abrir el fichero con el Excel.

IIIPara comenzar esta práctica abrimos el programa SPSS. JJJ

1 ¿Cómo introducir datos de archivos de Excel (∗.xls) en SPSS/PC?

A continuación se ilustra cómo introducir los datos utilizando el fichero de datos en formato
Excel: alligator.xls. La estructura de este fichero es la siguiente:

Notemos que en este fichero aparecen los nombres de las variables y los valores perdidos son
celdas vacı́as. Para importar los datos se procede como sigue:

1. Archivo ,→ Abrir ,→ Datos .

2. En la ventana Abrir Archivo, en Tipos de archivos: elegir la extensión Excel


(*.xls), y seleccionar el archivo alligator.xls ,→ Abrir .

3. En la ventana Apertura de fuente de datos de Excel marcar la opción þ Leer


nombre de variables de la primera fila de datos ,→ Continuar .

1
2 Análisis exploratorio numérico

2.1 Estadı́sticos descriptivos univariantes

Para obtener los estadı́sticos descriptivos (media, mediana, moda, varianza, cuartiles, etc.)
univariantes una posible secuencia de pasos es la siguiente (como antes, desarrollaremos la
explicación basados en el fichero alligator.sav):

1. Analizar ,→ Estadı́sticos descriptivos ,→ Descriptivos ... .

2. Pasar todas las variables del recuadro izquierdo (o el subconjunto que deseamos estudiar)
al recuadro derecho Variables .

3. Seleccionar Opciones ... , y marcar los estadı́sticos que se deseen calcular, por ejem-
plo: þ media, þ desviación tı́pica, þ varianza, þ mı́nimo, y þ máximo, y ,→
Continuar .

4. Marcar la opción þ Guardar los valor tipificados como variables.

5. Por último, ,→ Aceptar .

Los resultados de la secuencia anterior son:

• Una tabla de Estadı́sticos descriptivos como la siguiente:


Estadísticos descriptivos

N Mínimo Máximo Media Desv. típ. Varianza


CL 41 72 800 302,86 168,780 28486,617
CW 37 30 416 168,19 97,855 9575,658
SW 44 22 324 120,51 70,177 4924,814
SL 43 35 516 188,84 115,845 13420,044
DCL 42 71 740 285,80 156,017 24341,403
OW 44 13 63 35,79 9,600 92,152
OIW 44 4 90 26,54 20,425 417,189
OL 44 17 100 51,32 17,560 308,362
LCR 43 15 105 47,77 19,462 378,754
WCR 39 20 204 85,43 42,374 1795,581
WN 40 4 75 32,54 16,948 287,223
N válido (según lista) 32

Donde vemos los valores de los estadı́sticos seleccionados y el número de datos, N, que se han
utilizado para su cálculo, por ejemplo, en la variable CL se han utilizado 41 observaciones
pues hay 3 valores faltantes. También aparece el número de datos sin ningún valor faltante:
N válido (según lista).

2
• Se obtienen 11 nuevas variables (que se encuentran en vista de datos y vista de
variables y no en el visor de resultados) que corresponden a la estandarización uni-
variante de las 11 variables originales. Los nombres (por defecto) de las nuevas variables
son: zcl, zcw, . . . , zwn. Por tanto, zcl = (cl − x̄cl )/scl , . . . , zwn = (zwn − x̄zwn )/szwn .

Nota: Cuando se calculen posteriormente estadı́sticos descriptivos de algunas variables es im-


portante eliminar la marca en la opción Guardar los valor tipificados como variables
ya que de lo contrario generarı́amos más y más variables tipificadas.

Ejercicio 1. Obtenga los estadı́sticos descriptivos de las variables tipificadas (zcl,


zcw, . . . , zwn) y responda la Pregunta 1 de esta práctica. Téngase en cuenta la
nota anterior y elimı́nese la marca en la opción Guardar los valor tipificados
como variables.

2.2 Matrices de covarianzas y correlaciones

Para obtener la matriz de varianzas y covarianzas o la matriz de correlaciones podemos seguir


la siguiente secuencia de pasos:

1. Analizar ,→ Correlaciones ,→ Bivariadas ... .

2. Pasar todas las variables originales (cl, cw,..., wn) del recuadro izquierdo al recuadro
derecho Variables .

3. Seleccionar Opciones ... , y marcar: þ Productos cruzados y covarianzas y


Excluir casos según pareja, y ,→ Continuar .

4. Por último, ,→ Aceptar .

A modo de ejemplo, presentamos los resultados de la secuencia anterior utilizando las tres
primeras variables originales:

3
Correlaciones

CL CW SW
CL Correlación de Pearson 1 ,991** ,976**
Sig. (bilateral) . ,000 ,000
Suma de cuadrados y
1139464,7 596131,58 471663,12
productos cruzados
Covarianza 28486,617 17533,282 11791,578
N 41 35 41
CW Correlación de Pearson ,991** 1 ,987**
Sig. (bilateral) ,000 . ,000
Suma de cuadrados y
596131,58 344723,68 256736,95
productos cruzados
Covarianza 17533,282 9575,658 7131,582
N 35 37 37
SW Correlación de Pearson ,976** ,987** 1
Sig. (bilateral) ,000 ,000 .
Suma de cuadrados y
471663,12 256736,95 211766,99
productos cruzados
Covarianza 11791,578 7131,582 4924,814
N 41 37 44
**. La correlación es significativa al nivel 0,01 (bilateral).

Ejercicio 2. Obtenga la matriz de correlaciones de las tres primeras variables


tipificadas y responda la Pregunta 2 de esta práctica.

2.3 Combinaciones lineales

Supongamos que deseamos construir combinaciones lineales de las variables originales, por
ejemplo:
cl + sl + dcl
CLL = ,
3
es decir la variable CLL es una combinación lineal de las variables cl, sl y dcl con pesos 1/3.
Por tanto, es una media de las medidas de longitud del cráneo, lo cual nos proporciona una
medida global del tamaño del cráneo.

La siguiente secuencia de pasos permite obtener esta combinación lineal.

1. Transformar ,→ Calcular variable ... .

2. En el recuadro Variable de destino escribir el nombre de la nueva variable, por ejem-


plo, CLL , acrónimo de (C)ombinación (L)ineal de (L)ongitudes.

4
3. En el recuadro Expresión numérica: escribir la formula de la combinación lineal:

(1/3)*cl + (1/3)*sl + (1/3)*dcl,


de esta forma, la nueva variable CLL nos dará una medida del tamaño global del cráneo.

4. Por último, ,→ Aceptar . De esta manera se genera una nueva variable, CLL, que
aparece al final tanto en la vista de datos como en la vista de variables, pero no
en el visor de resultados, ya que la salida es una variable y no un nuevo resultado.

Ejercicio 3. Obtenga la combinación lineal de las variables tipificadas zcl, zsl


y zdcl con pesos 1/3 (cada variable). Nómbrela ZCLL. Obtenga los estadı́sticos
descriptivos de las variables CLL y ZCLL y responda la Pregunta 3 de esta práctica.

2.4 Distancias estadı́sticas

La siguiente secuencia de pasos permite calcular un conjunto de distancias entre observaciones.


Por ejemplo, utilizando la distancia euclı́dea o usual al cuadrado calcuları́amos:

d2ij = (xi − xj )0 (xi − xj ),


donde xi y xj representan a la variable vectorial p-dimensional medida en los elementos i y j
de la muestra, respectivamente. Notemos que la expresión anterior define una distancia entre
la observación i y la observación j, y no entre una observación i y el vector de medias, x̄.
Una opción para calcular esto último es añadir una observación x45 = x̄, en tal caso la última
columna o fila de la matriz de distancias contendrá las distancia de las observaciones al vector
de medias.

1. Analizar ,→ Correlaciones ,→ Distancias ... .

2. Pasar todas las variables originales (cl, cw,..., wn) del recuadro izquierdo (o el sub-
conjunto que deseamos estudiar) al recuadro derecho Variables .

3. Pasar la variable id al recuadro Etiquetar los casos mediante: .

4. Seleccionar Medidas ... , marcar Intervalo y en el menú a su derecha seleccionar


Distancia euclı́dea al cuadrado. Pulsamos ,→ Continuar .

5. Por último, ,→ Aceptar .

El resultado es una matriz de distancias de dimensión 32×32 de la que presentamos la esquina


superior izquierda:

5
Matriz de distancias

Distancia euclídea al cuadrado


1:cn1 2:cn2 4:cn4 5:cn5 6:cn6 7:cn7
1:cn1 ,000 4673,000 23342,000 211837,000 245757,000 419752,000
2:cn2 4673,000 ,000 7799,000 154374,000 183604,000 337343,000
4:cn4 23342,000 7799,000 ,000 95929,000 118877,000 246880,000
5:cn5 211837,000 154374,000 95929,000 ,000 1504,000 35859,000
6:cn6 245757,000 183604,000 118877,000 1504,000 ,000 24217,000
7:cn7 419752,000 337343,000 246880,000 35859,000 24217,000 ,000
9:cn9 620822,000 519201,000 406174,000 108351,000 86717,000 21250,000
Por ejemplo, la distancia euclı́dea al cuadrado entre el elemento 1, etiquetado con cn1, y el
10:cp1 19355,250 42004,250 84806,250 356915,250 400489,250 616760,250
elemento 2, etiquetado con cn2 es igual a 4673. Los elementos de la diagonal de esta matriz,
13:cp4 185273,000 132508,000 77769,000 2336,000 5832,000 48305,000
como es evidente,
15:cp6
son521259,000
iguales a cero430016,000
ya que miden la distancia71308,000
325575,000
de un elemento a sı́ mismo.
54260,000 7255,000
Notemos 16:cp7
que los elementos de
808684,000
la muestra con
692051,000
valores faltantes
560196,000
no aparecen,
193679,000
por ejemplo,
164583,000
el
63800,000
tercer elemento
17:cp8 etiquetado con cn3,
1178881,000
puesto que 872589,000
1038020,000
no podemos 393128,000
calcular la distancia si existen
350668,000 193393,000
valores perdidos.
18:ot1 2571,000 3190,000 19183,000 191646,000 223394,000 391351,000
20:ot3 3213,000 2134,000 15929,000 180424,000 211312,000 375179,000
La distancia
22:ot5de Mahalanobis
4029,000 no se 1988,000
puede calcular de esta manera
14547,000 directa204908,000
174610,000 con el SPSS como
366539,000
serı́a deseable.
23:ot6 Para obtener la
5182,000 distancia de Mahalanobis,
1249,000 11392,000debemos dar
162809,000 un rodeo y seguir
192243,000 los
349652,000
siguientes24:ot7
pasos: 5134,000 1199,000 11394,000 162651,000 192083,000 349450,000
26:ot9 5931,000 1180,000 10229,000 157752,000 186726,000 341973,000
27:ot10 ,→ Regresión
1. Analizar 6552,000 ,→ Lineales
1177,000 ... .
9492,000 154243,000 182869,000 336836,000
28:ot11 7394,000 1253,000 8636,000 149967,000
178199,000 330404,000
2. Pasar una variable9118,000
29:ot22 al recuadro Dependiente:
2015,000 , por ejemplo
8894,000 zcl.
146029,000 173939,000 324196,000
30:ot23 9544,000 1627,000 6680,000 139719,000 167033,000 315096,000
3. Pasar todas las variables
32:ot25 cuantitativas
19733,000 originales
5838,000 (cl,
4075,000 cw,..., wn)
110270,000 del recuadro
134586,000 izquierdo
269847,000
(o el33:ot26
subconjunto22673,000
que deseamos 7190,000
estudiar) al recuadro
2385,000 Independientes:
101056,000 .
124176,000 255757,000
34:am1 19838,170 41615,570 84841,570 353956,570 397292,370 612855,970
4. Pasar la variable 15891,000
35:am2 id al recuadro 3636,000 de caso: .115340,000
Etiquetas 2983,000 140650,000 277849,000
37:am4 44856,000 20947,000 5314,000 63697,000 82867,000 193110,000
5. Seleccionar
38:am5 Guardar ...
55943,000 , marcar þ Mahalanobis
28574,000 8839,000,→ Continuar
52276,000 . 69598,000 172631,000
41:am8 79372,000 46211,000 17590,000 33357,000 47459,000 136146,000
6. Seleccionar
42:am9 Opciones ... , marcar
119982,000 Excluir
78169,000 casos según
38634,000 ,→ Continuar
pareja 24169,000
14619,000 .
92754,000
43:am10 134764,000 89863,000 47732,000 10099,000 18267,000 80992,000
7. Por44:am11
último, ,→ 179653,000
Aceptar . 126856,000 78703,000 7182,000 11942,000 59351,000
Esta es una matriz de disimilaridades

Como resultado obtenemos una nueva variable mah 1 con las 32 distancias de Mahalanobis
de los datos sin valores faltantes al vector media x que se encuentre en la vista de datos.
Calcúlense los estadı́sticos descriptivos y el diagrama de cajas de la variable mah 1.
Nota: Para obtener un diagrama de caja de una variable seleccionar Gráficos ,→
Cuadro de diálogo antiguos ,→ Diagramas de caja y elegir las opciones Simple y
Resúmenes para distintas variables. Seleccionar, Definir y pasar la variable de in-
terés (MAH 1) a la derecha. También pasar la variable ID a Etiquetar casos mediante. Por
último pulsar Aceptar .

6
En la tabla siguiente mostramos los estadı́sticos descriptivos de mah 1:
Estadísticos descriptivos

N Mínimo Máximo Media Desv. típ. Varianza


Mahalanobis Distance 32 2,39067 72,51318 15,9377060 15,53528385 241,345
N válido (según lista) 32

El gráfico siguiente presenta el diagrama de caja de la variable mah 1 donde podemos detectar
un posible atı́pico multidimensional, el dato etiquetado como cp6.

80,00000

cp6

60,00000

40,00000

20,00000

0,00000

Mahalanobis Distance

Ejercicio 4. Obtenga las distancias de Mahalanobis de las variables tipificadas


(zcl, zcw,..., zwn) y responda la Pregunta 4 de esta práctica.
Nota: Para calcular las distancias de Mahalanobis de las variables tipificadas
primero hay que eliminar la selección anterior y después se tiene que seleccionar
una variable distinta a éstas como dependiente, por ejemplo la variable cl.

3 Análisis exploratorio gráfico

3.1 Matriz de diagramas de dispersión

Para obtener la matriz de diagramas de dispersión seguimos la siguiente secuencia de pasos:

1. Gráficos ,→ Cuadro de diálogo antiguos ,→ Dispersión/Puntos .


Página 1

7
2. En la ventana Diagrama de dispersión seleccionar la opción Matricial ,→ Definir .

3. Pasar el subconjunto que deseamos estudiar de las variables originales (cl, cw,...,
wn) del recuadro izquierdo al recuadro derecho Variables en la matriz . A modo
de ejemplo podemos pasar las tres primeras variables numéricas (cl, cw, sw) ya que
si pasamos las 11 obtenemos unos gráficos demasiado pequeños para poder extraer
conclusiones.

4. Pasar la variable id al recuadro Etiquetar los casos mediante: .

5. Seleccionar Opciones y marcar: Excluir caso variable por variable ,→ Continuar .

6. Por último, ,→ Aceptar .

Repetimos la secuencia anterior con las variables ow, oiw y ol. Los resultados serán las
siguientes matrices de diagramas de dimensión 3 × 3:

cp8 cp8
am11
cn9 cn9
am11
OW
CL

cn9 cn9
cp8 cp8

am11 am11
OIW
CW

cp8 cp8
cn9 cn9

am11 am11
SW

OL

CL CW SW OW OIW OL

Notemos que el gráfico de arriba a la derecha aparecen señalados algunos puntos (posibles
atı́picos): am11, cp8, y cn9. Esto se logra utilizando el Editor de gráficos mediante la
secuencia:

6. Hacer doble click sobre el gráfico que deseamos abrir.

7. Seleccionar el dato que nos interese con el botón izquierdo del ratón (aparecerá entonces
una circunferencia azul alrededor del punto).

8. Elegir la opción Mostrar etiquetas de datos. Eliminar Recuento de la pestaña


Mostrado y añadir id. Pulsar el botón Aplicar .

8
Página 1
9. Una vez hecho lo anterior, se puede seleccionar el botón y marcar los puntos direc-
tamente cuya etiqueta deseamos conocer.

Ejercicio 5. Obtenga la matriz de diagramas de dispersión de las las variables


tipificadas zcl, zsl, zdcl por un lado y zow, zoiw y zol por otro lado, y responda
la Pregunta 5 de esta práctica.

4 Análisis exploratorio por categorı́as

En esta sección veremos otra manera de realizar el análisis exploratorio numérico y gráfico
teniendo en cuenta los grupos o categorı́as presentes en los datos.

1. Datos ,→ Segmentar archivo ... .

2. Seleccionar la opción Comparar los grupos.

3. Pasar la variable especie del recuadro izquierdo al recuadro Grupos basados en: .

4. Por último, ,→ Aceptar .

Aunque no hayamos notado nada al hacer esto, el ordenador ha realizado una división de los
datos en 4 grupos (uno por cada especie de cocodrilos). Por tanto, si ahora, por ejemplo,
repetimos el análisis exploratorio de las 11 variables originales Estadı́sticos descriptivos
obtenemos un análisis por especie (solo mostramos los resultados de dos especies):

9
Estadísticos descriptivos

ESPECIE N Mínimo Máximo Media Desv. típ. Varianza


Alligator_mississippien CL 10 72 380 278,93 90,980 8277,427
sis CW 10 40 236 148,80 50,721 2572,622
SW 11 37 210 122,30 42,808 1832,510
SL 11 35 240 175,45 58,812 3458,873
DCL 11 71 358 268,23 80,860 6538,368
OW 11 17 52 36,79 10,390 107,961
OIW 11 5 32 21,84 7,176 51,495
OL 11 20 69 54,73 13,432 180,418
LCR 11 15 63 43,73 12,158 147,818
WCR 10 25 120 80,36 24,442 597,429
WN 10 11 64 39,55 14,618 213,692
N válido (según lista) 8
Crocodylus_niloticus CL 9 160 610 381,89 171,290 29340,111
CW 8 64 345 216,00 111,115 12346,571
SW 9 46 268 145,44 81,390 6624,278
SL 9 100 400 247,78 116,815 13645,694
DCL 9 153 564 360,22 160,877 25881,444
OW 9 20 48 35,67 10,235 104,750
OIW 9 9 90 38,00 26,921 724,750
OL 9 22 85 54,22 21,458 460,444
LCR 9 30 82 57,56 20,731 429,778
WCR 7 39 164 98,00 48,594 2361,333
WN 9 9 57 34,33 20,797 432,500
N válido (según lista) 7

También con este procedimiento podemos obtener gráficos de caja para las distintas especies:

1. Gráficos ,→ Cuadro de diálogo antiguos ,→ Diagramas de caja ... .

2. En la ventana Diagrama de cajas seleccionar las opciones Agrupado y Resúmenes


para distintas variables ,→ Definir .

3. Pasar todas las variables cuantitativas originales (cl, cw,..., wn) del recuadro izquierdo
(o el subconjunto que deseamos estudiar) al recuadro derecho Las cajas representan: .

4. Pasar la variable especie al recuadro Eje de categorı́as: .

5. Pasar la variable id al recuadro Etiquetar los casos mediante: .

6. Seleccionar Opciones ... y marcar: Excluir caso variable por variable ,→


Continuar .

7. Por último, ,→ Aceptar .

10
El resultado es un diagramas de cajas para cada una de las especies (solo mostramos los
resultados de las dos primeras especies):
ESPECIE = Alligator_mississippiensis ESPECIE = Crocodylus_niloticus

ESPECIE: Alligator_mississippiensis ESPECIE: Crocodylus_niloticus


CL DCL LCR CL DCL LCR
400 CW OW WCR CW OW WCR
SW OIW WN SW OIW WN
SL OL SL OL

600

300

am11 400

200

am11
200
100
am1

am1 am1 am1


am1 am1
am1
am1
0 0

Alligato Crocodyl

ESPECIE ESPECIE

Ejercicio 6. Responde al Ejercicio 6 del cuestionario.

Página 1 Página 1

11
Análisis de Datos 2010-2011 Práctica de Laboratorio 1

Apellidos, nombre y grupo:

Apellidos, nombre y grupo:

1. ¿Cuál de las siguientes afirmaciones es falsa?


La teorı́a predice el resultado obtenido sobre las medias y varianzas de las variables
estandarizadas. Es decir, la media de cada variable estadarizada debe ser 0 y la
varianza debe ser 1.
El resultado obtenido sobre las medias y varianzas de las variables estandarizadas
(la media igual a 0 y la varianza igual 1) es casual.
Las observaciones donde se alcanza el valor máximo en las variables originales co-
inciden con las observaciones donde se alcanza el valor máximo en las variables
estandarizadas.

2. ¿Cuál de las siguientes afirmaciones es falsa?


La matriz de correlaciones de las variables estandarizadas coincide con la matriz de
correlaciones de las variables originales, es decir, RY = RX .
Las correlaciones no triviales (es decir, entre variables diferentes) entre las variables
estandarizadas son 0, ya que para eso hemos efectuado la tipificación.
La menor correlación se da entre las variables ow y oiw.

3. ¿Cuál de las siguientes afirmaciones es falsa?


La teorı́a predice el siguiente resultado sobre las medias de las combinaciones lineales:
las medias de CLL y ZCLL deben ser aproximadamente (x̄cl + x̄sl + x̄dcl )/3 = (302.86+
188.84 + 285.80)/3 y (x̄zcl + x̄zsl + x̄zdcl )/3 = 0, respectivamente.
La teorı́a predice el siguiente resultado sobre las varianzas de las combinaciones li-
neales: las varianzas de CLL y ZCLL deben ser aproximadamente (s2cl +s2sl +s2dcl )/3 =
(28486.61 + 13420.04 + 24341.40)/3 y (s2zcl + s2zsl + s2zdcl )/3 = (1 + 1 + 1)/3, respec-
tivamente.
La observación donde se alcanza el valor mı́nimo en la variable CLL es justamente
el dato am1 y coincide con la observación donde se alcanza el valor mı́nimo en la
variable ZCLL.
Nota: Recuérdese que la combinación lineal de las medias es la media de la com-
binación lineal. Esto no ocurre en general con la varianza. Consúltense los apuntes
sobre este tema de cursos anteriores.

1
4. ¿Cuál de las siguientes afirmaciones es falsa?
Las distancias de Mahalanobis utilizando las variables originales coinciden con las
distancias de Mahalanobis utilizando las variables tipificadas.
Teniendo en cuenta el diagrama de caja de la variable mah 1, las observaciones am1
y cp8 y cn9 no son atı́picos multivariantes.
En el conjunto de 32 datos sin valores perdidos existe un dato cuyos valores coinciden
con la media de las variables, es decir, x = x̄.

5. ¿Cuál de las siguientes afirmaciones es falsa?


Los posibles atı́picos detectados en los diagramas de dispersión con las variables ori-
ginales coinciden con los posibles atı́picos detectados en los diagramas de dispersión
con las variables tipicadas.
La relación entre las variables cl, cw y sw es aproximadamente lineal.
La relación no lineal observada en las variables ow, oiw y ol no se mantiene en las
variables zow, zoiw y zol.

6. Utilizando sólo los especı́menes de Alligator mississippiensis responda las siguientes pre-
guntas:
(a) ¿Cuál es la dimensión de la matriz de datos?
(b) Escriba el vector de medias de las variables originales, x̄AM . Basta escribir las primeras
medidas y la última.
(c) Escriba el vector de medias de las variables estandarizadas calculadas al principio de
la práctica, ȳAM . Téngase en cuenta que dentro de una especie concreta el vector de
medias de las variables estandarizadas no tiene que ser el vector nulo.

Vous aimerez peut-être aussi