Académique Documents
Professionnel Documents
Culture Documents
Licenciatura en Biologı́a
Práctica 1
A continuación se ilustra cómo introducir los datos utilizando el fichero de datos en formato
Excel: alligator.xls. La estructura de este fichero es la siguiente:
Notemos que en este fichero aparecen los nombres de las variables y los valores perdidos son
celdas vacı́as. Para importar los datos se procede como sigue:
1
2 Análisis exploratorio numérico
Para obtener los estadı́sticos descriptivos (media, mediana, moda, varianza, cuartiles, etc.)
univariantes una posible secuencia de pasos es la siguiente (como antes, desarrollaremos la
explicación basados en el fichero alligator.sav):
2. Pasar todas las variables del recuadro izquierdo (o el subconjunto que deseamos estudiar)
al recuadro derecho Variables .
3. Seleccionar Opciones ... , y marcar los estadı́sticos que se deseen calcular, por ejem-
plo: þ media, þ desviación tı́pica, þ varianza, þ mı́nimo, y þ máximo, y ,→
Continuar .
Donde vemos los valores de los estadı́sticos seleccionados y el número de datos, N, que se han
utilizado para su cálculo, por ejemplo, en la variable CL se han utilizado 41 observaciones
pues hay 3 valores faltantes. También aparece el número de datos sin ningún valor faltante:
N válido (según lista).
2
• Se obtienen 11 nuevas variables (que se encuentran en vista de datos y vista de
variables y no en el visor de resultados) que corresponden a la estandarización uni-
variante de las 11 variables originales. Los nombres (por defecto) de las nuevas variables
son: zcl, zcw, . . . , zwn. Por tanto, zcl = (cl − x̄cl )/scl , . . . , zwn = (zwn − x̄zwn )/szwn .
2. Pasar todas las variables originales (cl, cw,..., wn) del recuadro izquierdo al recuadro
derecho Variables .
A modo de ejemplo, presentamos los resultados de la secuencia anterior utilizando las tres
primeras variables originales:
3
Correlaciones
CL CW SW
CL Correlación de Pearson 1 ,991** ,976**
Sig. (bilateral) . ,000 ,000
Suma de cuadrados y
1139464,7 596131,58 471663,12
productos cruzados
Covarianza 28486,617 17533,282 11791,578
N 41 35 41
CW Correlación de Pearson ,991** 1 ,987**
Sig. (bilateral) ,000 . ,000
Suma de cuadrados y
596131,58 344723,68 256736,95
productos cruzados
Covarianza 17533,282 9575,658 7131,582
N 35 37 37
SW Correlación de Pearson ,976** ,987** 1
Sig. (bilateral) ,000 ,000 .
Suma de cuadrados y
471663,12 256736,95 211766,99
productos cruzados
Covarianza 11791,578 7131,582 4924,814
N 41 37 44
**. La correlación es significativa al nivel 0,01 (bilateral).
Supongamos que deseamos construir combinaciones lineales de las variables originales, por
ejemplo:
cl + sl + dcl
CLL = ,
3
es decir la variable CLL es una combinación lineal de las variables cl, sl y dcl con pesos 1/3.
Por tanto, es una media de las medidas de longitud del cráneo, lo cual nos proporciona una
medida global del tamaño del cráneo.
4
3. En el recuadro Expresión numérica: escribir la formula de la combinación lineal:
4. Por último, ,→ Aceptar . De esta manera se genera una nueva variable, CLL, que
aparece al final tanto en la vista de datos como en la vista de variables, pero no
en el visor de resultados, ya que la salida es una variable y no un nuevo resultado.
2. Pasar todas las variables originales (cl, cw,..., wn) del recuadro izquierdo (o el sub-
conjunto que deseamos estudiar) al recuadro derecho Variables .
5
Matriz de distancias
Como resultado obtenemos una nueva variable mah 1 con las 32 distancias de Mahalanobis
de los datos sin valores faltantes al vector media x que se encuentre en la vista de datos.
Calcúlense los estadı́sticos descriptivos y el diagrama de cajas de la variable mah 1.
Nota: Para obtener un diagrama de caja de una variable seleccionar Gráficos ,→
Cuadro de diálogo antiguos ,→ Diagramas de caja y elegir las opciones Simple y
Resúmenes para distintas variables. Seleccionar, Definir y pasar la variable de in-
terés (MAH 1) a la derecha. También pasar la variable ID a Etiquetar casos mediante. Por
último pulsar Aceptar .
6
En la tabla siguiente mostramos los estadı́sticos descriptivos de mah 1:
Estadísticos descriptivos
El gráfico siguiente presenta el diagrama de caja de la variable mah 1 donde podemos detectar
un posible atı́pico multidimensional, el dato etiquetado como cp6.
80,00000
cp6
60,00000
40,00000
20,00000
0,00000
Mahalanobis Distance
7
2. En la ventana Diagrama de dispersión seleccionar la opción Matricial ,→ Definir .
3. Pasar el subconjunto que deseamos estudiar de las variables originales (cl, cw,...,
wn) del recuadro izquierdo al recuadro derecho Variables en la matriz . A modo
de ejemplo podemos pasar las tres primeras variables numéricas (cl, cw, sw) ya que
si pasamos las 11 obtenemos unos gráficos demasiado pequeños para poder extraer
conclusiones.
Repetimos la secuencia anterior con las variables ow, oiw y ol. Los resultados serán las
siguientes matrices de diagramas de dimensión 3 × 3:
cp8 cp8
am11
cn9 cn9
am11
OW
CL
cn9 cn9
cp8 cp8
am11 am11
OIW
CW
cp8 cp8
cn9 cn9
am11 am11
SW
OL
CL CW SW OW OIW OL
Notemos que el gráfico de arriba a la derecha aparecen señalados algunos puntos (posibles
atı́picos): am11, cp8, y cn9. Esto se logra utilizando el Editor de gráficos mediante la
secuencia:
7. Seleccionar el dato que nos interese con el botón izquierdo del ratón (aparecerá entonces
una circunferencia azul alrededor del punto).
8
Página 1
9. Una vez hecho lo anterior, se puede seleccionar el botón y marcar los puntos direc-
tamente cuya etiqueta deseamos conocer.
En esta sección veremos otra manera de realizar el análisis exploratorio numérico y gráfico
teniendo en cuenta los grupos o categorı́as presentes en los datos.
3. Pasar la variable especie del recuadro izquierdo al recuadro Grupos basados en: .
Aunque no hayamos notado nada al hacer esto, el ordenador ha realizado una división de los
datos en 4 grupos (uno por cada especie de cocodrilos). Por tanto, si ahora, por ejemplo,
repetimos el análisis exploratorio de las 11 variables originales Estadı́sticos descriptivos
obtenemos un análisis por especie (solo mostramos los resultados de dos especies):
9
Estadísticos descriptivos
También con este procedimiento podemos obtener gráficos de caja para las distintas especies:
3. Pasar todas las variables cuantitativas originales (cl, cw,..., wn) del recuadro izquierdo
(o el subconjunto que deseamos estudiar) al recuadro derecho Las cajas representan: .
10
El resultado es un diagramas de cajas para cada una de las especies (solo mostramos los
resultados de las dos primeras especies):
ESPECIE = Alligator_mississippiensis ESPECIE = Crocodylus_niloticus
600
300
am11 400
200
am11
200
100
am1
Alligato Crocodyl
ESPECIE ESPECIE
Página 1 Página 1
11
Análisis de Datos 2010-2011 Práctica de Laboratorio 1
1
4. ¿Cuál de las siguientes afirmaciones es falsa?
Las distancias de Mahalanobis utilizando las variables originales coinciden con las
distancias de Mahalanobis utilizando las variables tipificadas.
Teniendo en cuenta el diagrama de caja de la variable mah 1, las observaciones am1
y cp8 y cn9 no son atı́picos multivariantes.
En el conjunto de 32 datos sin valores perdidos existe un dato cuyos valores coinciden
con la media de las variables, es decir, x = x̄.
6. Utilizando sólo los especı́menes de Alligator mississippiensis responda las siguientes pre-
guntas:
(a) ¿Cuál es la dimensión de la matriz de datos?
(b) Escriba el vector de medias de las variables originales, x̄AM . Basta escribir las primeras
medidas y la última.
(c) Escriba el vector de medias de las variables estandarizadas calculadas al principio de
la práctica, ȳAM . Téngase en cuenta que dentro de una especie concreta el vector de
medias de las variables estandarizadas no tiene que ser el vector nulo.