Vous êtes sur la page 1sur 5

Gigi Causio Voinea

Business Intelligence
Cubos OLAP con SPSS

2013

Estadstica Aplicada
Gigi Causio Voinea Cubos OLAP con SPSS

Cubos OLAP con SPSS

Analizar los datos del fichero EncuestaUSA 1991.sav


Dar un resumen estadstico de la informacin almacenada en este fichero mediante la utilizacin
de Cubos OLAP. Analizar las variables:
_ edad (Edad del encuestado)
_ educ (Nmero de aos de escolarizacin)
_ educpad (Nmero de aos de escolarizacin del padre)
_ educesp (Nmero de aos de escolarizacin del cnyugue)
_ prestg80 (Puntuacin de prestigio profesional (1980)
agrupadas segn:
_ sexo (Sexo del encuestado)
_ catocu80 (Categora ocupacional)
_ obedecer (Obedecer es)
_ trabajar (Trabajar duro es)
Definir y explicar el comportamiento y uso de las rdenes y reglas de sintaxis empleadas por
SPSS.

Un cubo OLAP (OnLine Analytical Processing o procesamiento Analtico En Lnea), trmino


acuado por Edgar Frank Codd de EF Codd & Associates, encargado por Arbor Software (en la
actualidad Hyperion Solutions), es una base de datos multidimensional, en la cual el
almacenamiento fsico de los datos se realiza en un vector multidimensional. Los cubos OLAP se
pueden considerar como una ampliacin de las dos dimensiones de una hoja de clculo.
En los sistemas OLAP la informacin ya no se almacena en tablas, sino en cubos de n
dimensiones. Se construye a partir de una tabla principal, llamada tabla de hechos, que
enumera los hechos ciertos en el sistema. A ella se va aadiendo una dimensin por relacin
cuya informacin que se quiera almacenar, de manera que todas estn pre calculadas en el
sistema.
Los sistemas OLAP son los que implementa finalmente los llamados Data Warehouse o
depsitos de datos que podemos definir como un almacn de datos transformados y separados
fsicamente de la aplicacin donde se encontraron los datos en el ambiente operacional.
En SPSS obtenemos cubos OLAP mediante el men: Analizar-Informes- Cubos OLAP. En el
cuadro de dilogo obtenido tenemos que introducir en primer lugar las variables de resumen y
las variables de agrupacin. Mencionamos que las variables de resumen deben ser cuantitativas
(variables continuas medidas en una escala de intervalo o de razn) y las variables de
agrupacin deben ser categricas (los valores de las variables categricas pueden ser
numricos). Nosotros seleccionamos como variables resumen las variables: edad, educ,
educpad, educesp y prestg80, y como variables de agrupacin seleccionamos las variables: sexo,
catocu80, obedecer y trabajar, justamente lo que se nos pide en el ejercicio.

Pgina 1
Gigi Causio Voinea Cubos OLAP con SPSS

Figura 1. Cuadro de dilogo Cubos OLAP

Una vez seleccionadas las variables, con el botn Estadsticos podemos calcular una serie de
estadsticos, como bien se puede ver en la siguiente ventana. Nosotros, para la prctica, vamos
a seleccionar algunos de estos estadsticos, pero hay que tener en cuenta que los estadsticos se
seleccionan en funcin de las caractersticas de los datos y en funcin de los objetivos finales del
anlisis estadstico.

Figura 2. Cuadro de dilogo Cubos OLAP: Estadsticos

A continuacin podemos pedir mediante el botn Diferencias que nos calcule el porcentaje y las
diferencias aritmticas entre las variables de resumen o entre los grupos definidos por una
variable de agrupacin.

Pgina 2
Gigi Causio Voinea Cubos OLAP con SPSS

Figura 3. Cuadro de dilogo Cubos OLAP: Diferencias

Antes de aceptar todos estos rdenes podemos seleccionar con el botn Ttulo el ttulo del
cubo y si queremos algn subttulo.

Figura 4. Ttulo del cubo OLAP

En la Tabla 1 tenemos la primera tabla devuelta por el SPSS, donde tenemos los estadsticos
pedidos.
Las medias de cada variable resumen con sus desviaciones tpicas, los coeficientes de asimetra
que nos dice si las distribuciones de cada variable son normales, y en tal caso el coeficiente es
igual a cero, donde se observa que las variables que ms se acerca a la normalidad son las educ,
educpad y educesp, las otras dos tienen una cola a la derecha. El coeficiente de curtosis mide el
grado de apuntamiento de la curva de distribucin, por si los datos se agrupan o no en torno a
un punto central Si el coeficiente es igual a cero la distribucin es normal (mesocrtica), como
puede ser el caso de la variable educpad. Si el coeficiente de curtosis es positivo, como es el
caso de la variable educ y educcesp, significa que las observaciones se concentran ms
(leptocrtica), y presentas colas ms largas que en el caso de la distribucin normal, y en el caso
en que los coeficientes son negativos, como es el caso de las variables edad e incluso prestg80
hay menos colas (platicrtica). Tambin tenemos los coeficientes de varianza, que miden la

Pgina 3
Gigi Causio Voinea Cubos OLAP con SPSS

dispersin en torno a la media, la mediana que es el valor que tiene por encima y por debajo la
mitad de los valores, y varios errores de clculo.

Tabla 1. Cubos OLAP


N Media Desv. % de la % del Cur Error Asimetr Error Varia Median Error
tp. suma total de tosis tp. de a tp. de nza a tp. de
total N la la la
curtosis asimetr media
a

916 45,39 17,178 100,0% 100,0% -,656 ,161 ,587 ,081 295,0 41,00 ,568
Edad
85
Educ. 915 13,08 2,937 100,0% 100,0% ,829 ,162 -,187 ,081 8,623 12,00 ,097
651 10,98 4,113 100,0% 100,0% -,095 ,191 -,160 ,096 16,91 12,00 ,161
Educpad.
7
Educesp. 513 13,08 2,988 100,0% 100,0% 1,184 ,215 -,203 ,108 8,930 12,00 ,132
917 43,36 13,037 100,0% 100,0% -,364 ,161 ,430 ,081 169,9 42,00 ,431
Prestg80
55
edad- 0,1% 247,0% 485,0% 0,0% 0,0% - -0,1% - -0,1% 3322, 241,7% 484,7%
educacin 179,1% 413,7% 0%

Pero, en la Tabla 1 se presentan los estadsticos deseados solamente para el total, y si queremos
obtener los valores en funcin de las variables agrupadas, previamente seleccionadas, (por cada
categora o por total) solamente tenemos que pinchar en la tabla y seleccionar en la nueva
ventana en funcin de que variable queremos los estadsticos. La Tabla Pivote Cubos OLAP es de
la siguiente forma:

Figura 5. Tabla pivote Cubos OLAP

Pgina 4