Iuyg

Análisis de Datos Curso 2o10/2o11
Licenciatura en Biologı́a
Práctica 1
El fichero de datos necesario para realizar esta práctica, alligator.xls, se encuentra en la

página web http://www.uam.es/daniel.faraco/AD11. Guardamos este fichero en el escrito-
rio de Windows, por ejemplo. No hay que abrir el fichero con el Excel.
IIIPara comenzar esta práctica abrimos el programa SPSS. JJJ
1 ¿Cómo introducir datos de archivos de Excel (∗.xls) en SPSS/PC?
A continuación se ilustra cómo introducir los datos utilizando el fichero de datos en formato
Excel: alligator.xls. La estructura de este fichero es la siguiente:
Notemos que en este fichero aparecen los nombres de las variables y los valores perdidos son
celdas vacı́as. Para importar los datos se procede como sigue:
1. Archivo ,→ Abrir ,→ Datos .
2. En la ventana Abrir Archivo, en Tipos de archivos: elegir la extensión Excel

(*.xls), y seleccionar el archivo alligator.xls ,→ Abrir .
3. En la ventana Apertura de fuente de datos de Excel marcar la opción þ Leer

nombre de variables de la primera fila de datos ,→ Continuar .
1
2 Análisis exploratorio numérico
2.1 Estadı́sticos descriptivos univariantes
Para obtener los estadı́sticos descriptivos (media, mediana, moda, varianza, cuartiles, etc.)
univariantes una posible secuencia de pasos es la siguiente (como antes, desarrollaremos la
explicación basados en el fichero alligator.sav):
1. Analizar ,→ Estadı́sticos descriptivos ,→ Descriptivos ... .
2. Pasar todas las variables del recuadro izquierdo (o el subconjunto que deseamos estudiar)
al recuadro derecho Variables .
3. Seleccionar Opciones ... , y marcar los estadı́sticos que se deseen calcular, por ejem-
plo: þ media, þ desviación tı́pica, þ varianza, þ mı́nimo, y þ máximo, y ,→
Continuar .
4. Marcar la opción þ Guardar los valor tipificados como variables.
5. Por último, ,→ Aceptar .
Los resultados de la secuencia anterior son:
• Una tabla de Estadı́sticos descriptivos como la siguiente:

Estadísticos descriptivos
N Mínimo Máximo Media Desv. típ. Varianza

CL 41 72 800 302,86 168,780 28486,617
CW 37 30 416 168,19 97,855 9575,658
SW 44 22 324 120,51 70,177 4924,814
SL 43 35 516 188,84 115,845 13420,044
DCL 42 71 740 285,80 156,017 24341,403
OW 44 13 63 35,79 9,600 92,152
OIW 44 4 90 26,54 20,425 417,189
OL 44 17 100 51,32 17,560 308,362
LCR 43 15 105 47,77 19,462 378,754
WCR 39 20 204 85,43 42,374 1795,581
WN 40 4 75 32,54 16,948 287,223
N válido (según lista) 32
Donde vemos los valores de los estadı́sticos seleccionados y el número de datos, N, que se han
utilizado para su cálculo, por ejemplo, en la variable CL se han utilizado 41 observaciones
pues hay 3 valores faltantes. También aparece el número de datos sin ningún valor faltante:
N válido (según lista).
2
• Se obtienen 11 nuevas variables (que se encuentran en vista de datos y vista de
variables y no en el visor de resultados) que corresponden a la estandarización uni-
variante de las 11 variables originales. Los nombres (por defecto) de las nuevas variables
son: zcl, zcw, . . . , zwn. Por tanto, zcl = (cl − x̄cl )/scl , . . . , zwn = (zwn − x̄zwn )/szwn .
Nota: Cuando se calculen posteriormente estadı́sticos descriptivos de algunas variables es im-

portante eliminar la marca en la opción Guardar los valor tipificados como variables
ya que de lo contrario generarı́amos más y más variables tipificadas.
Ejercicio 1. Obtenga los estadı́sticos descriptivos de las variables tipificadas (zcl,

zcw, . . . , zwn) y responda la Pregunta 1 de esta práctica. Téngase en cuenta la
nota anterior y elimı́nese la marca en la opción Guardar los valor tipificados
como variables.
2.2 Matrices de covarianzas y correlaciones
Para obtener la matriz de varianzas y covarianzas o la matriz de correlaciones podemos seguir

la siguiente secuencia de pasos:
1. Analizar ,→ Correlaciones ,→ Bivariadas ... .
2. Pasar todas las variables originales (cl, cw,..., wn) del recuadro izquierdo al recuadro
derecho Variables .
3. Seleccionar Opciones ... , y marcar: þ Productos cruzados y covarianzas y

Excluir casos según pareja, y ,→ Continuar .
A modo de ejemplo, presentamos los resultados de la secuencia anterior utilizando las tres
primeras variables originales:
3
Correlaciones
CL CW SW
CL Correlación de Pearson 1 ,991** ,976**
Sig. (bilateral) . ,000 ,000
Suma de cuadrados y
1139464,7 596131,58 471663,12
productos cruzados
Covarianza 28486,617 17533,282 11791,578
N 41 35 41
CW Correlación de Pearson ,991** 1 ,987**
Sig. (bilateral) ,000 . ,000
Suma de cuadrados y
596131,58 344723,68 256736,95
productos cruzados
Covarianza 17533,282 9575,658 7131,582
N 35 37 37
SW Correlación de Pearson ,976** ,987** 1
Sig. (bilateral) ,000 ,000 .
Suma de cuadrados y
471663,12 256736,95 211766,99
productos cruzados
Covarianza 11791,578 7131,582 4924,814
N 41 37 44
**. La correlación es significativa al nivel 0,01 (bilateral).
Ejercicio 2. Obtenga la matriz de correlaciones de las tres primeras variables

tipificadas y responda la Pregunta 2 de esta práctica.
2.3 Combinaciones lineales
Supongamos que deseamos construir combinaciones lineales de las variables originales, por
ejemplo:
cl + sl + dcl
CLL = ,
3
es decir la variable CLL es una combinación lineal de las variables cl, sl y dcl con pesos 1/3.
Por tanto, es una media de las medidas de longitud del cráneo, lo cual nos proporciona una
medida global del tamaño del cráneo.
La siguiente secuencia de pasos permite obtener esta combinación lineal.
1. Transformar ,→ Calcular variable ... .
2. En el recuadro Variable de destino escribir el nombre de la nueva variable, por ejem-

plo, CLL , acrónimo de (C)ombinación (L)ineal de (L)ongitudes.
4
3. En el recuadro Expresión numérica: escribir la formula de la combinación lineal:
(1/3)*cl + (1/3)*sl + (1/3)*dcl,

de esta forma, la nueva variable CLL nos dará una medida del tamaño global del cráneo.
4. Por último, ,→ Aceptar . De esta manera se genera una nueva variable, CLL, que
aparece al final tanto en la vista de datos como en la vista de variables, pero no
en el visor de resultados, ya que la salida es una variable y no un nuevo resultado.
Ejercicio 3. Obtenga la combinación lineal de las variables tipificadas zcl, zsl

y zdcl con pesos 1/3 (cada variable). Nómbrela ZCLL. Obtenga los estadı́sticos
descriptivos de las variables CLL y ZCLL y responda la Pregunta 3 de esta práctica.
2.4 Distancias estadı́sticas
La siguiente secuencia de pasos permite calcular un conjunto de distancias entre observaciones.

Por ejemplo, utilizando la distancia euclı́dea o usual al cuadrado calcuları́amos:
d2ij = (xi − xj )0 (xi − xj ),

donde xi y xj representan a la variable vectorial p-dimensional medida en los elementos i y j
de la muestra, respectivamente. Notemos que la expresión anterior define una distancia entre
la observación i y la observación j, y no entre una observación i y el vector de medias, x̄.
Una opción para calcular esto último es añadir una observación x45 = x̄, en tal caso la última
columna o fila de la matriz de distancias contendrá las distancia de las observaciones al vector
de medias.
1. Analizar ,→ Correlaciones ,→ Distancias ... .
2. Pasar todas las variables originales (cl, cw,..., wn) del recuadro izquierdo (o el sub-
conjunto que deseamos estudiar) al recuadro derecho Variables .
3. Pasar la variable id al recuadro Etiquetar los casos mediante: .
4. Seleccionar Medidas ... , marcar Intervalo y en el menú a su derecha seleccionar

Distancia euclı́dea al cuadrado. Pulsamos ,→ Continuar .
El resultado es una matriz de distancias de dimensión 32×32 de la que presentamos la esquina

superior izquierda:
5
Matriz de distancias
Distancia euclídea al cuadrado

1:cn1 2:cn2 4:cn4 5:cn5 6:cn6 7:cn7
1:cn1 ,000 4673,000 23342,000 211837,000 245757,000 419752,000
2:cn2 4673,000 ,000 7799,000 154374,000 183604,000 337343,000
4:cn4 23342,000 7799,000 ,000 95929,000 118877,000 246880,000
5:cn5 211837,000 154374,000 95929,000 ,000 1504,000 35859,000
6:cn6 245757,000 183604,000 118877,000 1504,000 ,000 24217,000
7:cn7 419752,000 337343,000 246880,000 35859,000 24217,000 ,000
9:cn9 620822,000 519201,000 406174,000 108351,000 86717,000 21250,000
Por ejemplo, la distancia euclı́dea al cuadrado entre el elemento 1, etiquetado con cn1, y el
10:cp1 19355,250 42004,250 84806,250 356915,250 400489,250 616760,250
elemento 2, etiquetado con cn2 es igual a 4673. Los elementos de la diagonal de esta matriz,
13:cp4 185273,000 132508,000 77769,000 2336,000 5832,000 48305,000
como es evidente,
15:cp6
son521259,000
iguales a cero430016,000
ya que miden la distancia71308,000
325575,000
de un elemento a sı́ mismo.
54260,000 7255,000
Notemos 16:cp7
que los elementos de
808684,000
la muestra con
692051,000
valores faltantes
560196,000
no aparecen,
193679,000
por ejemplo,
164583,000
el
63800,000
tercer elemento
17:cp8 etiquetado con cn3,
1178881,000
puesto que 872589,000
1038020,000
no podemos 393128,000
calcular la distancia si existen
350668,000 193393,000
valores perdidos.
18:ot1 2571,000 3190,000 19183,000 191646,000 223394,000 391351,000
20:ot3 3213,000 2134,000 15929,000 180424,000 211312,000 375179,000
La distancia
22:ot5de Mahalanobis
4029,000 no se 1988,000
puede calcular de esta manera
14547,000 directa204908,000
174610,000 con el SPSS como
366539,000
serı́a deseable.
23:ot6 Para obtener la
5182,000 distancia de Mahalanobis,
1249,000 11392,000debemos dar
162809,000 un rodeo y seguir
192243,000 los
349652,000
siguientes24:ot7
pasos: 5134,000 1199,000 11394,000 162651,000 192083,000 349450,000
26:ot9 5931,000 1180,000 10229,000 157752,000 186726,000 341973,000
27:ot10 ,→ Regresión
1. Analizar 6552,000 ,→ Lineales
1177,000 ... .
9492,000 154243,000 182869,000 336836,000
28:ot11 7394,000 1253,000 8636,000 149967,000
178199,000 330404,000
2. Pasar una variable9118,000
29:ot22 al recuadro Dependiente:
2015,000 , por ejemplo
8894,000 zcl.
146029,000 173939,000 324196,000
30:ot23 9544,000 1627,000 6680,000 139719,000 167033,000 315096,000
3. Pasar todas las variables
32:ot25 cuantitativas
19733,000 originales
5838,000 (cl,
4075,000 cw,..., wn)
110270,000 del recuadro
134586,000 izquierdo
269847,000
(o el33:ot26
subconjunto22673,000
que deseamos 7190,000
estudiar) al recuadro
2385,000 Independientes:
101056,000 .
124176,000 255757,000
34:am1 19838,170 41615,570 84841,570 353956,570 397292,370 612855,970
4. Pasar la variable 15891,000
35:am2 id al recuadro 3636,000 de caso: .115340,000
Etiquetas 2983,000 140650,000 277849,000
37:am4 44856,000 20947,000 5314,000 63697,000 82867,000 193110,000
5. Seleccionar
38:am5 Guardar ...
55943,000 , marcar þ Mahalanobis
28574,000 8839,000,→ Continuar
52276,000 . 69598,000 172631,000
41:am8 79372,000 46211,000 17590,000 33357,000 47459,000 136146,000
6. Seleccionar
42:am9 Opciones ... , marcar
119982,000 Excluir
78169,000 casos según
38634,000 ,→ Continuar
pareja 24169,000
14619,000 .
92754,000
43:am10 134764,000 89863,000 47732,000 10099,000 18267,000 80992,000
7. Por44:am11
último, ,→ 179653,000
Aceptar . 126856,000 78703,000 7182,000 11942,000 59351,000
Esta es una matriz de disimilaridades
Como resultado obtenemos una nueva variable mah 1 con las 32 distancias de Mahalanobis
de los datos sin valores faltantes al vector media x que se encuentre en la vista de datos.
Calcúlense los estadı́sticos descriptivos y el diagrama de cajas de la variable mah 1.
Nota: Para obtener un diagrama de caja de una variable seleccionar Gráficos ,→
Cuadro de diálogo antiguos ,→ Diagramas de caja y elegir las opciones Simple y
Resúmenes para distintas variables. Seleccionar, Definir y pasar la variable de in-
terés (MAH 1) a la derecha. También pasar la variable ID a Etiquetar casos mediante. Por
último pulsar Aceptar .
6
En la tabla siguiente mostramos los estadı́sticos descriptivos de mah 1:
N Mínimo Máximo Media Desv. típ. Varianza

Mahalanobis Distance 32 2,39067 72,51318 15,9377060 15,53528385 241,345
El gráfico siguiente presenta el diagrama de caja de la variable mah 1 donde podemos detectar
un posible atı́pico multidimensional, el dato etiquetado como cp6.
80,00000
cp6
60,00000
40,00000
20,00000
0,00000
Mahalanobis Distance
Ejercicio 4. Obtenga las distancias de Mahalanobis de las variables tipificadas

(zcl, zcw,..., zwn) y responda la Pregunta 4 de esta práctica.
Nota: Para calcular las distancias de Mahalanobis de las variables tipificadas
primero hay que eliminar la selección anterior y después se tiene que seleccionar
una variable distinta a éstas como dependiente, por ejemplo la variable cl.
3 Análisis exploratorio gráfico
3.1 Matriz de diagramas de dispersión
Para obtener la matriz de diagramas de dispersión seguimos la siguiente secuencia de pasos:
1. Gráficos ,→ Cuadro de diálogo antiguos ,→ Dispersión/Puntos .

Página 1
7
2. En la ventana Diagrama de dispersión seleccionar la opción Matricial ,→ Definir .
3. Pasar el subconjunto que deseamos estudiar de las variables originales (cl, cw,...,
wn) del recuadro izquierdo al recuadro derecho Variables en la matriz . A modo
de ejemplo podemos pasar las tres primeras variables numéricas (cl, cw, sw) ya que
si pasamos las 11 obtenemos unos gráficos demasiado pequeños para poder extraer
conclusiones.
5. Seleccionar Opciones y marcar: Excluir caso variable por variable ,→ Continuar .
Repetimos la secuencia anterior con las variables ow, oiw y ol. Los resultados serán las
siguientes matrices de diagramas de dimensión 3 × 3:
cp8 cp8
am11
cn9 cn9
am11
OW
CL
cn9 cn9
cp8 cp8
am11 am11
OIW
CW
cp8 cp8
cn9 cn9
am11 am11
SW
OL
CL CW SW OW OIW OL
Notemos que el gráfico de arriba a la derecha aparecen señalados algunos puntos (posibles
atı́picos): am11, cp8, y cn9. Esto se logra utilizando el Editor de gráficos mediante la
secuencia:
6. Hacer doble click sobre el gráfico que deseamos abrir.
7. Seleccionar el dato que nos interese con el botón izquierdo del ratón (aparecerá entonces
una circunferencia azul alrededor del punto).
8. Elegir la opción Mostrar etiquetas de datos. Eliminar Recuento de la pestaña

Mostrado y añadir id. Pulsar el botón Aplicar .
8
Página 1
9. Una vez hecho lo anterior, se puede seleccionar el botón y marcar los puntos direc-
tamente cuya etiqueta deseamos conocer.
Ejercicio 5. Obtenga la matriz de diagramas de dispersión de las las variables

tipificadas zcl, zsl, zdcl por un lado y zow, zoiw y zol por otro lado, y responda
la Pregunta 5 de esta práctica.
4 Análisis exploratorio por categorı́as
En esta sección veremos otra manera de realizar el análisis exploratorio numérico y gráfico
teniendo en cuenta los grupos o categorı́as presentes en los datos.
1. Datos ,→ Segmentar archivo ... .
2. Seleccionar la opción Comparar los grupos.
3. Pasar la variable especie del recuadro izquierdo al recuadro Grupos basados en: .
Aunque no hayamos notado nada al hacer esto, el ordenador ha realizado una división de los
datos en 4 grupos (uno por cada especie de cocodrilos). Por tanto, si ahora, por ejemplo,
repetimos el análisis exploratorio de las 11 variables originales Estadı́sticos descriptivos
obtenemos un análisis por especie (solo mostramos los resultados de dos especies):
9
ESPECIE N Mínimo Máximo Media Desv. típ. Varianza

Alligator_mississippien CL 10 72 380 278,93 90,980 8277,427
sis CW 10 40 236 148,80 50,721 2572,622
SW 11 37 210 122,30 42,808 1832,510
SL 11 35 240 175,45 58,812 3458,873
DCL 11 71 358 268,23 80,860 6538,368
OW 11 17 52 36,79 10,390 107,961
OIW 11 5 32 21,84 7,176 51,495
OL 11 20 69 54,73 13,432 180,418
LCR 11 15 63 43,73 12,158 147,818
WCR 10 25 120 80,36 24,442 597,429
WN 10 11 64 39,55 14,618 213,692
Crocodylus_niloticus CL 9 160 610 381,89 171,290 29340,111
CW 8 64 345 216,00 111,115 12346,571
SW 9 46 268 145,44 81,390 6624,278
SL 9 100 400 247,78 116,815 13645,694
DCL 9 153 564 360,22 160,877 25881,444
OW 9 20 48 35,67 10,235 104,750
OIW 9 9 90 38,00 26,921 724,750
OL 9 22 85 54,22 21,458 460,444
LCR 9 30 82 57,56 20,731 429,778
WCR 7 39 164 98,00 48,594 2361,333
WN 9 9 57 34,33 20,797 432,500
También con este procedimiento podemos obtener gráficos de caja para las distintas especies:
1. Gráficos ,→ Cuadro de diálogo antiguos ,→ Diagramas de caja ... .
2. En la ventana Diagrama de cajas seleccionar las opciones Agrupado y Resúmenes

para distintas variables ,→ Definir .
3. Pasar todas las variables cuantitativas originales (cl, cw,..., wn) del recuadro izquierdo
(o el subconjunto que deseamos estudiar) al recuadro derecho Las cajas representan: .
4. Pasar la variable especie al recuadro Eje de categorı́as: .
6. Seleccionar Opciones ... y marcar: Excluir caso variable por variable ,→

Continuar .
10
El resultado es un diagramas de cajas para cada una de las especies (solo mostramos los
resultados de las dos primeras especies):
ESPECIE = Alligator_mississippiensis ESPECIE = Crocodylus_niloticus
ESPECIE: Alligator_mississippiensis ESPECIE: Crocodylus_niloticus

CL DCL LCR CL DCL LCR
400 CW OW WCR CW OW WCR
SW OIW WN SW OIW WN
SL OL SL OL
600
300
am11 400
200
am11
200
100
am1
am1 am1 am1

am1 am1
am1
am1
0 0
Alligato Crocodyl
ESPECIE ESPECIE
Ejercicio 6. Responde al Ejercicio 6 del cuestionario.
Página 1 Página 1
11
Análisis de Datos 2010-2011 Práctica de Laboratorio 1
Apellidos, nombre y grupo:
Apellidos, nombre y grupo:
1. ¿Cuál de las siguientes afirmaciones es falsa?

La teorı́a predice el resultado obtenido sobre las medias y varianzas de las variables
estandarizadas. Es decir, la media de cada variable estadarizada debe ser 0 y la
varianza debe ser 1.
El resultado obtenido sobre las medias y varianzas de las variables estandarizadas
(la media igual a 0 y la varianza igual 1) es casual.
Las observaciones donde se alcanza el valor máximo en las variables originales co-
inciden con las observaciones donde se alcanza el valor máximo en las variables
estandarizadas.

La matriz de correlaciones de las variables estandarizadas coincide con la matriz de
correlaciones de las variables originales, es decir, RY = RX .
Las correlaciones no triviales (es decir, entre variables diferentes) entre las variables
estandarizadas son 0, ya que para eso hemos efectuado la tipificación.
La menor correlación se da entre las variables ow y oiw.

La teorı́a predice el siguiente resultado sobre las medias de las combinaciones lineales:
las medias de CLL y ZCLL deben ser aproximadamente (x̄cl + x̄sl + x̄dcl )/3 = (302.86+
188.84 + 285.80)/3 y (x̄zcl + x̄zsl + x̄zdcl )/3 = 0, respectivamente.
La teorı́a predice el siguiente resultado sobre las varianzas de las combinaciones li-
neales: las varianzas de CLL y ZCLL deben ser aproximadamente (s2cl +s2sl +s2dcl )/3 =
(28486.61 + 13420.04 + 24341.40)/3 y (s2zcl + s2zsl + s2zdcl )/3 = (1 + 1 + 1)/3, respec-
tivamente.
La observación donde se alcanza el valor mı́nimo en la variable CLL es justamente
el dato am1 y coincide con la observación donde se alcanza el valor mı́nimo en la
variable ZCLL.
Nota: Recuérdese que la combinación lineal de las medias es la media de la com-
binación lineal. Esto no ocurre en general con la varianza. Consúltense los apuntes
sobre este tema de cursos anteriores.
1
Las distancias de Mahalanobis utilizando las variables originales coinciden con las
distancias de Mahalanobis utilizando las variables tipificadas.
Teniendo en cuenta el diagrama de caja de la variable mah 1, las observaciones am1
y cp8 y cn9 no son atı́picos multivariantes.
En el conjunto de 32 datos sin valores perdidos existe un dato cuyos valores coinciden
con la media de las variables, es decir, x = x̄.

Los posibles atı́picos detectados en los diagramas de dispersión con las variables ori-
ginales coinciden con los posibles atı́picos detectados en los diagramas de dispersión
con las variables tipicadas.
La relación entre las variables cl, cw y sw es aproximadamente lineal.
La relación no lineal observada en las variables ow, oiw y ol no se mantiene en las
variables zow, zoiw y zol.
6. Utilizando sólo los especı́menes de Alligator mississippiensis responda las siguientes pre-
guntas:
(a) ¿Cuál es la dimensión de la matriz de datos?
(b) Escriba el vector de medias de las variables originales, x̄AM . Basta escribir las primeras
medidas y la última.
(c) Escriba el vector de medias de las variables estandarizadas calculadas al principio de
la práctica, ȳAM . Téngase en cuenta que dentro de una especie concreta el vector de
medias de las variables estandarizadas no tiene que ser el vector nulo.

Iuyg

Transféré par

Informations du document

Description originale:

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Iuyg

Transféré par

Droits d'auteur :

Formats disponibles

Análisis de Datos Curso 2o10/2o11

El fichero de datos necesario para realizar esta práctica, alligator.xls, se encuentra en la

IIIPara comenzar esta práctica abrimos el programa SPSS. JJJ

1 ¿Cómo introducir datos de archivos de Excel (∗.xls) en SPSS/PC?

1. Archivo ,→ Abrir ,→ Datos .

2. En la ventana Abrir Archivo, en Tipos de archivos: elegir la extensión Excel

3. En la ventana Apertura de fuente de datos de Excel marcar la opción þ Leer

2.1 Estadı́sticos descriptivos univariantes

1. Analizar ,→ Estadı́sticos descriptivos ,→ Descriptivos ... .

4. Marcar la opción þ Guardar los valor tipificados como variables.

5. Por último, ,→ Aceptar .

Los resultados de la secuencia anterior son:

• Una tabla de Estadı́sticos descriptivos como la siguiente:

N Mínimo Máximo Media Desv. típ. Varianza

Nota: Cuando se calculen posteriormente estadı́sticos descriptivos de algunas variables es im-

Ejercicio 1. Obtenga los estadı́sticos descriptivos de las variables tipificadas (zcl,

2.2 Matrices de covarianzas y correlaciones

Para obtener la matriz de varianzas y covarianzas o la matriz de correlaciones podemos seguir

1. Analizar ,→ Correlaciones ,→ Bivariadas ... .

3. Seleccionar Opciones ... , y marcar: þ Productos cruzados y covarianzas y

4. Por último, ,→ Aceptar .

Ejercicio 2. Obtenga la matriz de correlaciones de las tres primeras variables

2.3 Combinaciones lineales

La siguiente secuencia de pasos permite obtener esta combinación lineal.

1. Transformar ,→ Calcular variable ... .

2. En el recuadro Variable de destino escribir el nombre de la nueva variable, por ejem-

(1/3)*cl + (1/3)*sl + (1/3)*dcl,

Ejercicio 3. Obtenga la combinación lineal de las variables tipificadas zcl, zsl

2.4 Distancias estadı́sticas

La siguiente secuencia de pasos permite calcular un conjunto de distancias entre observaciones.

d2ij = (xi − xj )0 (xi − xj ),

1. Analizar ,→ Correlaciones ,→ Distancias ... .

3. Pasar la variable id al recuadro Etiquetar los casos mediante: .

4. Seleccionar Medidas ... , marcar Intervalo y en el menú a su derecha seleccionar

5. Por último, ,→ Aceptar .

El resultado es una matriz de distancias de dimensión 32×32 de la que presentamos la esquina

Distancia euclídea al cuadrado

N Mínimo Máximo Media Desv. típ. Varianza

Ejercicio 4. Obtenga las distancias de Mahalanobis de las variables tipificadas

3 Análisis exploratorio gráfico

3.1 Matriz de diagramas de dispersión

Para obtener la matriz de diagramas de dispersión seguimos la siguiente secuencia de pasos:

1. Gráficos ,→ Cuadro de diálogo antiguos ,→ Dispersión/Puntos .

4. Pasar la variable id al recuadro Etiquetar los casos mediante: .

5. Seleccionar Opciones y marcar: Excluir caso variable por variable ,→ Continuar .

6. Por último, ,→ Aceptar .

6. Hacer doble click sobre el gráfico que deseamos abrir.

8. Elegir la opción Mostrar etiquetas de datos. Eliminar Recuento de la pestaña

Ejercicio 5. Obtenga la matriz de diagramas de dispersión de las las variables

4 Análisis exploratorio por categorı́as

1. Datos ,→ Segmentar archivo ... .

2. Seleccionar la opción Comparar los grupos.

4. Por último, ,→ Aceptar .

ESPECIE N Mínimo Máximo Media Desv. típ. Varianza

1. Gráficos ,→ Cuadro de diálogo antiguos ,→ Diagramas de caja ... .

2. En la ventana Diagrama de cajas seleccionar las opciones Agrupado y Resúmenes

4. Pasar la variable especie al recuadro Eje de categorı́as: .

5. Pasar la variable id al recuadro Etiquetar los casos mediante: .

6. Seleccionar Opciones ... y marcar: Excluir caso variable por variable ,→

7. Por último, ,→ Aceptar .

ESPECIE: Alligator_mississippiensis ESPECIE: Crocodylus_niloticus

am1 am1 am1

(1/3)cl + (1/3)sl + (1/3)*dcl,