Vous êtes sur la page 1sur 49

ANALISIS CON MULTIPLES VARIABLES Tablas de Contingencia o Cruzadas con SPSS

Hasta ahora hemos analizado cada una de las variables por separado, sin tener en cuenta las consecuencias de la interaccin con las dems variables. Para esta labor, SPSS cuenta con una variedad de procedimientos que nos permiten analizar los efectos de la interaccin en el comportamiento de las variables, a travs de procesos de relacin o mediante comparaciones de grupos. Dentro de los procedimientos ms tiles y empleados para realizar este tipo de actividades, encontramos las tablas de contingencia, las variables de respuesta mltiple y los cubos OLAP. Las tablas de contingencia nos permiten examinar o comparar los datos de dos o ms variables a travs de la frecuencia o el porcentaje de cada uno de los cruces de las categoras de las variables involucradas. Por el contrario, las variables de respuesta mltiple nos permiten examinar las diferentes respuestas que nos ofrece cada uno de los encuestados a una pregunta especfica, determinando aspectos caractersticos como la marca de mayor recordacin, el porcentaje de reconocimiento, etc. Por ltimo, los cubos OLAP nos permiten identificar el comportamiento de los datos de una o varias variables de escala a travs de las diferentes combinaciones de las opciones mltiples variables categricas. Cada uno de estos procedimientos ser abordado en el transcurso del captulo, intentando hacer una pequea explicacin de sus propiedades, aplicaciones y la forma de obtenerlo a travs del paquete. Indice Temtico -Captulo VI: Anlisis con Mltiples Variables Tablas Contingencia Leccin 1 Leccin 2 Leccin 3 Leccin 4 Leccin 5 Leccin 6 Leccin 7 Leccin 8 Leccin 9 Leccin 10 Leccin 11 Leccin 12 Leccin 13 Cruzadas 3 Variables Tablas 2 Var en Filas Grficos Cruzadas Opciones Contingencia Porcentaje Fila Columna Porcentajes Cruzadas Pruebas Estadsticas Respuestas Mltiples Dicotomas Mltiples Conjuntos Mltiples Frecuencia Mltiples Cruzadas Mltiples

Leccin 14 Leccin 15 Leccin 16 Leccin 17 Leccin 18 Leccin 19 Leccin 20

Estadsticos Mltiples Cubos OLAP de SPSS Estadsticos OLAP Diferencias OLAP Diferencias Escala Diferencia Categoras Ttulos Cubos OLAP

Las tablas de contingencia nos permiten realizar comparaciones de Relacin / Independencia entre dos o ms variables categricas, ya sean de tipo Nominal u Ordinal. En este tipo de tablas se definen las categoras de una variable a travs de la frecuencia o el porcentaje de las categoras de una segunda variable. Para comprender el concepto nos apoyaremos en los resultados de la encuesta piloto realizada a 20 personas cuyas preguntas son Gnero del encuestado? y Tiene telfono celular?. Los resultados de estas preguntas se plasman en las tablas de la figura [6-1]. Si nos fijamos en los resultados de la tabla del Gnero, notaremos que el 35 % de los encuestados corresponde a los hombres, mientras el 65 % restante corresponde a las mujeres. As mismo, si nos fijamos en la tabla de tenencia de telfono celular, observaremos que el 40 % de los encuestados si tiene, mientras el 60 % no tiene. A travs de una tabla de contingencia podemos obtener la relacin de estas dos preguntas, identificando aspectos como cuntos hombres tienen telfono celular? o cuantas mujeres no tienen telfono celular?.

Figura 6-1 Para generar una tabla de contingencia, es necesario vincular las categoras de una de las variables en las Filas y las categoras de la segunda variable en las Columnas. Si introducimos las categoras de la variable Gnero en las Filas y las categoras de la variable Telfono celular en las Columnas obtendramos la tabla de la figura [6-2], en donde la posicin uno (1) representa a los hombres que tienen telfono, la posicin dos (2) representa a los hombres que No tienen telfono; la posicin tres (3) representa a las mujeres que tienen telfono y la posicin cuatro (4) a las mujeres que No tienen telfono. Para hallar la frecuencia de cada una de estas opciones, es necesario acudir a los datos y verificar cuantos de los hombres y mujeres tienen telfono y cuantos no. Los resultados de este procedimiento son expuestos en la figura 6-3. Adems de las frecuencias de cada uno de los cruces de categoras, tambin se acostumbra introducir Totales en las filas y columnas, con el fin de obtener la mayor cantidad de informacin posible de las variables.

Figuras 6-2 y 6-3 Si nos fijamos en la tabla de la figura [6-3], notaremos que los dos totales dan como resultado final, el nmero de encuestados (que para el caso corresponde a 20). La nica condicin que debe cumplir un caso (Respuestas de un encuestado) para ser incluido en la tabla de contingencia, es tener una respuesta o valor valido en las dos o ms variables que compongan la tabla de lo contrario, el caso ser excluido. Por ejemplo, si uno de los encuestados no responde la pregunta del Gnero, pero si la del Telfono o viceversa, el caso ser excluido al momento de generar la tabla de contingencia. Las tablas de contingencia pueden servir a diferentes propsitos como el anlisis descriptivo, en cuyo caso el objetivo es proporcionar informacin condensada que describa las categoras de las variables involucradas, sin realizar comparaciones explicitas que generen conclusiones de una poblacin. A su vez este tipo de tablas tambin pueden ser empleadas para la generacin de anlisis de Inferencia, en donde se intenta extraer conclusiones sobre las relaciones de las variables que puedan ser aplicadas a una poblacin. Para este objetivo se emplean pruebas estadsticas a los datos de una muestra (por lo general la prueba de independencia de Chi-cuadrado). Para generar una tabla de contingencia es necesario tener un archivo de datos abierto en el Editor de datos de SPSS. Los ejemplos de este captulo se realizarn con los datos del archivo Cruces.sav incluido en la carpeta Captulo6 del CD adjunto, por lo que debemos ir al men Archivo..Abrir..Datos y por medio de la ventana de navegacin ubicar el archivo en la unidad de CD ROM. Una vez abierto el archivo, podemos ejecutar el procedimiento, el cual se encuentra en el men Analizar... Estadsticos descriptivos...Tablas de contingencia [Fig.6-4]; al hacer clic sobre el procedimiento aparece el cuadro de dilogo correspondiente [Fig.6-5]. Este cuadro de dilogo esta dividido en cuatro secciones (Lista de variables, Casillas de seleccin, Opciones de resultados y Botones de opcin).

Figuras 6-4 y 6-5 En la seccin Casillas de seleccin, encontramos las tres ubicaciones que podemos emplear para las variables de la tabla (Filas, Columnas o Capas); al ingresar una variable a la casilla Filas, sus categoras definen cada una de las filas de datos de la tabla; a su vez al ingresar una variable en la casilla Columnas, sus categoras definen cada una de las columnas de la tabla. Si se ingresan mltiples variables a una de las casillas, el programa genera una tabla de contingencia para cada combinacin de variables de fila y columna. Por ltimo encontramos la casilla de Capa; al ingresar una variable en esta casilla, el programa genera una tabla de contingencia para cada una de las categoras de la variable de Capa. Para comprender mejor la metodologa empleada en las tablas de contingencia y los elementos que nos facilita el procedimiento, en las siguientes lecciones vamos a generar una serie de ejemplos, intentando aumentar la complejidad de forma gradual.

Tablas Cruzadas con 2 y 3 Variables en SPSS


Para comprender mejor la metodologa empleada en las tablas de contingencia y los elementos que nos facilita el procedimiento, vamos a generar una serie de ejemplos, intentando aumentar la complejidad de forma gradual. Para nuestro primer ejemplo, vamos a generar una tabla de contingencia simple.

TablPara realizarlo, debemos ubicar en la lista de variables la variable Estado civil y la ingresamos en la casilla de las filas; sucesivamente ubicamos la variable Gnero del encuestado y la ingresamos en la casilla Columnas. Despus de introducir las variables en las casillas hacemos clic en Aceptar con lo que la tabla ser creada en el visor de resultados de SPSS [Fig.6-6].
Por defecto el programa genera dos tablas; la primera resume el procesamiento de los casos, mostrando el nmero de casos validos y perdidos, as como sus respectivos porcentajes. Esta tabla

es meramente informativa y su utilidad radica en la capacidad de informarnos el nmero casos que son tenidos en cuenta en los resultados de la tabla de contingencia (Frecuencias o porcentajes). Si nos fijamos en la columna correspondiente a perdidos, notaremos que en esta ocasin no existe ningn valor perdido; para que un caso sea tomado como perdido, debe contar con un valor perdido en alguna de las dos variables involucradas en la tabla.

Figura 6-6 La segunda tabla que aparece en los resultados corresponde directamente a la tabla de contingencia, en ella se ubican cada una de las variables en sus respectivas dimensiones (Estado civil en las filas y Gnero en las columnas); adems, en la tabla se vinculan los totales de las dimensiones, especificando el contenido de cada categora. Esta es sin ninguna duda la aplicacin ms sencilla de una tabla de contingencia, ya que su finalidad es netamente descriptiva. Ahora generaremos una tabla un poco ms compleja ingresando una nueva variable en la dimensin de capa. Para lograrlo debemos volver al cuadro de dilogo, ubicar la variable Clase social (Claseso) en la lista e ingresarla en la casilla de capa; despus de ingresarla hacemos clic en Aceptar con lo que la tabla se genera en el visor de resultados [Fig.6-7].

Figura 6-7 Si nos fijamos en la tabla de resumen del procesamiento de los datos, notaremos que en esta ocasin slo se tuvieron en cuenta 299 casos correspondientes al 99.7 % de los datos; esto se debe a que uno de los casos no cuenta con respuestas validas para las tres variables y por lo tanto es omitido del anlisis. Asimismo, si nos fijamos en la tabla de contingencia, notaremos que el programa ha generado cuatro diferentes divisiones (una por cada categora de la variable Clase social), ubicndolas una debajo de otra. Cada una de estas divisiones describe las caractersticas del Gnero y estado civil de los individuos pertenecientes a la categora o clase social (Alta, Media, Trabajadora y Baja). Si observamos los totales de cada categora de la Clase Social, apreciaremos que cada uno de ellos cuenta con un valor diferente, este suceso se debe a que en las tablas de contingencia de mltiples variables, los totales no representan la frecuencia de las variables de Fila sino describen las frecuencias de las categoras de la variable de Capa. Gracias a esta propiedad podemos conocer informacin especifica como Cuantos individuos de clase baja estn casados? Cuntas mujeres de clase media viven en Unin libre?; para ubicar esta informacin en la tabla de contingencia, debemos partir de las caractersticas de mayor rango e ir ubicando dentro de ella las de menor rango; es decir, si por ejemplo queremos conocer el nmero de individuos de clase media que se encuentran Divorciados, lo primero que debemos hacer es ubicar la clase social Media, dentro de ella ubicamos la categora de inters (estado civil Divorciado) y una vez ubicada seguimos la fila hasta encontrar la columna Total; el valor que se ubique en esta

posicin corresponde al nmero de personas que cumplen con las condiciones requeridas, que para el caso seria (19); lo que nos indicara que 19 personas de la encuesta son de clase media y a su vez se encuentran divorciados. Si por el contrario lo que deseamos es conocer el nmero de hombres de la clase trabajadora que son solteros, lo que debemos hacer es ubicar primero la divisin correspondiente a la clase trabajadora, en ella ubicamos el Estado civil Soltero y seguimos su fila hasta llegar a la columna Masculino; el valor que se encuentra en esta casilla (39), representa al nmero de hombres de clase trabajadora que son solteros [Fig.6-8].

Figura 6-8 En algunas ocasiones parte de las categoras de la variable de Fila, no son incluidas dentro de las divisiones debido a que no se encuentran valores pertenecientes a estas categoras dentro de los datos. Si nos fijamos en la categora correspondiente a la Clase social Baja de la tabla de contingencia [Fig.6-9], notaremos que las categoras del Estado civil (Divorciado y Unin libre), no son incluidas en los resultados.

Figura 6-9 Debemos tener cuidado de no sacar conclusiones apresuradas de este tipo de sucesos, ya que este fenmeno no necesariamente es un reflejo del comportamiento de la poblacin, sino que puede ser producido por un error en la aleatoriedad de los individuos seleccionados para la encuesta, comnmente denominado Sesgo muestral (Tendencia a favorecer una clase social por parte del investigador).

as Cruzadas con 3 Variables en SPSS


Otra de las aplicaciones que se pueden generar con las tablas de contingencia se presenta cuando se ingresan mltiples variables en las casillas de Fila o Columna; en este caso el programa genera una

tabla de contingencia por cada una de las posibles combinaciones entre las variables. Para comprender este procedimiento, vamos efectuar un ejemplo ingresando dos (2) variables dentro de la casilla columnas. Para realizarlo debemos volver al cuadro de dilogo e ingresar la variable Clase social (Claseso) dentro de la casilla Columnas; dado que esta variable se encuentra en el panel de Capa, debemos primero devolverla a la lista de variables (Seleccionarla y hacer clic en el botn flecha de desplazamiento) y una vez se encuentra en la lista, la ingresamos a la casilla Columnas. Para finalizar hacemos clic en Aceptar con lo cual las tablas sern creadas en el visor de resultados de SPSS [Fig.6-10].

Figura 6-10 Como de costumbre, el programa nos ofrece primero la tabla correspondiente al resumen del procesamiento de los casos; si nos fijamos en la combinacin Estado civil * Clase social, notaremos que se excluy uno de los casos, debido a que cuenta con un valor perdido para la variable Clase social. Ahora si observamos los resultados subsecuentes, notaremos como aparecen las tablas de contingencia de cada una de las posibles combinaciones entre las variables (Estado civil * Gnero y Estado civil * Clase social). Cada una de estas tablas son independientes y los resultados de las casillas no se ven afectados por la variable que no sea relacionada.

Ahora, si por el contrario se ingresan mltiples variables en la casilla de Capa, tendramos dos opciones; la primera es generar tablas de contingencia diferentes para cada una de las variables de capa y la segunda corresponde a seguir aumentando el nmero de variables de control dentro de la misma tabla; es decir, apareceran ms divisiones en las que se incluiran las variables de filas y columnas, as como las categoras de la primera variable de Capa, aumentando el tamao de la tabla. Para definir variables de capa de segundo nivel debemos primero ingresar una variable a la casilla de capa (esta primera variable queda automticamente definida como variable de control de primer nivel), para definir una segunda variable de control de segundo nivel debemos hacer clic en el botn siguiente que aparece al costado derecho de la seccin, antes de ingresarla a la casilla [Fig.6-11]. SPSS nos permite definir hasta 8 diferentes niveles de variables de control con un mximo de seis variables por nivel. Desde luego a medida que se aumente el nmero de variables de capa, aumentar la complejidad de la tabla y sucesivamente se reduce el valor de los totales, ya que se hace una descripcin ms especfica de los datos.

Figura 6-11 Por el momento no profundizaremos en los efectos de incluir mltiples variables en las capas y por el contrario nos enfocaremos en las dems secciones del procedimiento. La segunda seccin del cuadro de dilogo de las tablas de contingencia corresponde a las Opciones de resultados; en esta seccin se encuentran las opciones Mostrar grfico de barras agrupado y Suprimir tablas. Al activar la primera de las opciones aparecern en los resultados los grficos de cada una de las tablas de contingencia; si se emplean variables de capa, el programa genera un grfico de barras por cada una de las divisiones o categoras de esta variable (Capa). Los grficos de barras de este procedimiento, slo se realizan en dos dimensiones y sus ejes estn definidos por la variable preincorporada Recuento en el eje vertical, la variable de Filas en el eje horizontal y la variable que se encuentre en las Columnas como variable de leyenda de Color. Si a su vez se selecciona la opcin Suprimir tablas, los resultados del procedimiento slo contendrn los grficos de las tablas de contingencia. Para comprender estas opciones en la siguiente leccion generaremos algunos ejemplos.

Graficos en las Tablas Cruzadas con SPSS


Para comprender los efectos de estas opciones generaremos algunos ejemplos. Antes de crear la tabla debemos volver al cuadro de dilogo y hacer clic en el botn Restablecer con lo cual se retoma la configuracin original del procedimiento. Para el primer ejemplo ingresaremos la variable Estado civil (Estciv) en la casilla Filas y la variable Gnero del encuestado en la casilla Columnas, a continuacin activamos la opcin Mostrar los grficos de barras agrupado, haciendo clic sobre la opcin; para comprobar que la opcin ha sido activada aparece un visto bueno en la casilla ( ); para finalizar hacemos clic en Aceptar con lo que los resultados se crean en el visor [Fig.6-12].

Figura 6-12 Si nos fijamos en los resultados notaremos que ahora aparece adems de las tablas de recuento y contingencia, su respectivo grfico; es necesario resaltar que el grfico hace una comparacin de la frecuencia del Gnero por cada uno de los estados civiles. Si observamos cada una de las barras notaremos que cuentan con colores distintos para el gnero Femenino y Masculino, esto se debe a que la variable Gnero define la leyenda de color y por lo tanto sus categoras cuentan con colores distintos para facilitar su reconocimiento. Ahora generaremos un ejemplo con variables de Capa, para lo que volvemos al cuadro de dilogo e ingresamos la variable Clase social en la casilla de Capa y posteriormente activamos la opcin Suprimir tablas; para finalizar hacemos clic en Aceptar con lo cual los grficos sern creados en el visor de resultados [Fig.6-13].

Figura 6-13 Si nos fijamos en los resultados notaremos que cada uno de los grficos representa la distribucin de frecuencias de una de las categoras de las variables de capa (para el caso Clase social); en estos grficos el nmero de casos que se incluyen depende de la frecuencia de la variable de capa, adems es posible que algunas de las Categoras de la variable de Filas (eje horizontal), no sean incluidas, debido a que no aparecen en los datos de encuestados con estas caractersticas. La ltima seccin que encontramos en el cuadro de dilogo del procedimiento Tablas de contingencia corresponde a los Botones de opcin; en ellos se localizan las propiedades para definir el orden, la forma de los resultados, las pruebas estadsticas o la precisin de los anlisis. Para describir estas opciones, en la siguiente leccion realizaremos una serie de ejemplos iniciando por las propiedades ms sencillas e iremos aumentando la complejidad.

Opciones de las Tablas Cruzadas de SPSS


La ltima seccin que encontramos en el cuadro de dilogo del procedimiento Tablas de contingencia corresponde a los Botones de opcin; en ellos se localizan las propiedades para definir el orden, la forma de los resultados, las pruebas estadsticas o la precisin de los anlisis. Para describir estas opciones, en la siguiente leccion realizaremos una serie de ejemplos iniciando por las propiedades ms sencillas e iremos aumentando la complejidad. Para activar la totalidad de los botones de opcin es necesario que la propiedad Suprimir tablas este desactivada.. La primera opcin que observaremos corresponde al Botn de Formato; al hacer clic en l, aparece el cuadro de dilogo correspondiente [Fig.6-14]. En este cuadro encontramos las opciones de orden de la tabla de contingencia, a travs de ellas podemos elegir la forma en que sern ordenados los resultados, contando con slo dos posibilidades (Ascendente o Descendente); las opciones de orden hacen referencia a la manera como se ubican las categoras de la variable de

Filas y se determina de acuerdo al valor (Nmero) que se le haya asignado a cada categora en las propiedades de variables.

Figura 6-14 Por defecto el programa mantiene la opcin Ascendente preseleccionada, lo que nos garantiza que las categoras mantendrn el mismo orden que se le haya definido a las variables. Por el momento no variaremos el orden de las filas por lo que hacemos clic en el botn Continuar, de manera que volvemos al cuadro de dilogo principal. El segundo botn de opcin que encontramos corresponde a Casillas; al hacer clic en l aparece el cuadro de dilogo Mostrar en casillas [Fig.6-15]. En este cuadro encontramos tres secciones de seleccin para las casillas identificadas como Frecuencias, Porcentajes y Residuos.

Figura 6-15 En la seccin Frecuencias encontramos las opciones Observadas y esperadas; las frecuencias Observadas corresponden a los recuentos de los datos del archivo, mientras las frecuencias Esperadas hacen referencia al nmero de observaciones que deberan hallarse en cada casilla para que no exista una relacin estadsticamente significativa entre las variables de Columnas y Filas; desde luego esta opcin es slo aplicable al anlisis de inferencia. La segunda seccin corresponde a Porcentajes, en ella se puede definir los porcentajes que se anexarn a la tabla de contingencia; entre las opciones que nos brinda el procedimiento estn los porcentajes de Fila, Columna y Total (Capa). La ltima seccin corresponde a los Residuos; entre

las opciones de residuo encontramos No tipificados (representan la diferencia entre las frecuencias observadas y las esperadas; un residuo positivo indica que la frecuencia en la casilla es ms alta de los que habra en ella si las variables de fila y columna fueran independientes), Tipificados (El residuo dividido por una estimacin de su error tpico; estos residuos tienen una media de 0 y una desviacin tpica de 1) y Tipificados corregidos (corresponde al valor no tipificado dividido por una estimacin de su error tpico. Estos valores expresan unidades de desviacin tpica, por encima o por debajo de la media); Los residuos son empleados para la comprobacin de ciertos parmetros de la estadstica de inferencia, por el momento no profundizaremos en este tema ya que no se encuentra dentro de los objetivos del libro. Para la versin 12.0 de SPSS, el procedimiento Tablas de contingencia anexa en el cuadro de dilogo Mostrar en las casillas una cuarta seccin identificada como Ponderaciones no enteras. Esta nueva seccin se incluye debido a que generalmente los recuentos de las casillas suelen ser valores enteros, ya que representan el nmero de casos de cada casilla. Sin embargo, si el archivo de datos est ponderado en un momento determinado, por una variable de ponderacin con nmeros fraccionarios (por ejemplo, 1,25), los recuentos de las casillas pueden resultar con valores decimales. A travs de esta seccin se puede truncar o redondear estos valores antes o despus de calcular los recuentos de las casillas o bien utilizar recuentos de casillas fraccionarios en la presentacin de las tablas y los clculos de los estadsticos. Si se selecciona la opcin Redondear frecuencias de casillas, las ponderaciones de los casos se utilizan tal cual, pero los valores de las casillas se redondean antes de calcular cualquier estadstico. Si por el contrario se emplea la opcin Truncar frecuencias de casillas, las ponderaciones de los casos se utilizan tal cual, pero las ponderaciones acumuladas de las casillas se omiten antes de calcular cualquier estadstico. Si se selecciona la opcin Redondear ponderaciones de casos, las ponderaciones de los casos se redondean antes de utilizarlas. Al seleccionar la opcin Truncar ponderaciones de casos, las ponderaciones de los casos se cortan antes de utilizarlas por lo que la tabla no tendr en cuenta los valores de ponderacin. Si se utiliza la ltima opcin (Sin ajustes), las ponderaciones de los casos se utilizan sin cambios y se emplean valores fraccionarios en las frecuencias de cada casilla. Sin embargo, cuando se solicitan estadsticos exactos (disponibles slo con el mdulo Pruebas exactas), las ponderaciones acumuladas de las casillas se trucan o se redondean antes de calcular los estadsticos de la prueba exacta.

Porcentajes de Fila, Columna y Tabla de SPSS


Una de las principales dificultades que se pueden presentar con una tabla de contingencia, surge al momento de vincular dentro de los resultados las opciones de porcentaje (Fila, Columna y Total); generalmente la interpretacin de estos porcentajes ocasiona confusin al momento de extraer las conclusiones.

Para comprender la metodologa empleada por el programa para la generacin de estos parmetros, nos apoyaremos en el primer ejemplo de este captulo, correspondiente a la encuesta piloto realizada a 20 personas con las preguntas Gnero del encuestado? y Tiene telfono celular?. Los resultados del cruce de estas dos variables se exponen en la tabla de la figura 6-16. Es necesario aclarar que en las tablas de contingencia, el total que se ubica en las columnas representa las sumas de las frecuencias de las categoras de la variable de fila y el que se encuentran en las Filas representa la suma de las categoras de la variable de columna.

Figura 6-16 En cada una de las casillas de una tabla de contingencia se pueden incluir los valores de los porcentajes de Fila, Columna y Total (Tabla); para facilitar la ubicacin e interpretacin, emplearemos como gua en la obtencin de los porcentajes, los nmeros de identificacin de casilla de la tabla de la figura [6-17].

Figura 6-15 A manera de ejemplo hallaremos el valor de cada uno de los porcentajes de Fila, Columna y Total, empleando la metodologa del programa para la obtencin de los clculos, en los datos de la tabla de la figura [6-16]. El porcentaje de fila se obtiene al dividir la frecuencia de la casilla por el total de la fila (los totales de fila se ubican en las casillas 5 y 6), y multiplicar este resultado por el 100%. Por ejemplo, para sacar el porcentaje de fila de la casilla 1 (Hombre y si tiene telfono celular), se debe dividir el valor de la frecuencia (4), en el total de hombres (7) y multiplicar este resultado por el 100%, es decir

Para las casillas 2, 3 y 4 sera:

Para los totales de columna (Casillas 7 y 8) seran:

Note que en los porcentajes de fila para los totales de columna, los valores son divididos por el total de casos involucrados en la encuesta (20). Al contrario de los totales de columna, para calcular el porcentaje de fila de los totales que representan la dimensin (Filas), se debe realizar la suma de los valores porcentuales de las casillas de la fila. Por ejemplo, el valor del porcentaje de fila para el total de los hombres es igual a la suma de los porcentajes de las columnas Si y No (Casillas 1 y 2 de la tabla de la figura 6-16); es decir

Al ingresar estos valores dentro de las respectivas casillas de la tabla de contingencia obtendramos los resultados de la tabla de la figura [6-18].

Figura 6-18 Para obtener los porcentajes de Columna se aplica el mismo principio con la diferencia que las frecuencias se dividen por los totales de columna (Valores de la ltima fila casillas 7 y 8); al realizar los clculos obtendramos:

Para calcular los porcentajes de columna de los totales de la dimensin (Columnas) casillas 7, 8 y 9 [Fig.6-16], se deben sumar los porcentajes de las casillas de las columnas, con lo que tenemos

Al ingresar los valores a la tabla de contingencia obtendremos los resultados de la figura [6-19].

Figura 6-19 Ahora, para obtener el porcentaje del Total (comnmente denominado % de Tabla), es necesario dividir cada uno de los valores del recuento de cada casilla por el nmero total de casos que se incluyeron en la tabla de contingencia. Aplicado en el ejemplo, equivale a tomar la frecuencia de cada casilla y dividirla por el nmero de encuestas que para el caso corresponde al nmero 20; los resultados de los clculos se observan en la tabla de la figura 6-20. Dado que este tipo de porcentaje determina la proporcin de cada casilla respecto al total de los datos (Encuestados), slo es posible encontrar un valor del 100%, el cual equivale al total de casos.

Figura 6-20

Ahora que conocemos la metodologia empleada para calcular los distintos porcentajes, en el siguiente capitulo nos concentraremos en la forma de sacarlos con SPSS.

Porcentajes de Fila, Columna y Tabla con SPSS


Ahora que conocemos la metodologa empleada por el programa para la obtencin del valor de los porcentajes de Fila, Columna y Total (Tabla), nos concentraremos en la forma de generarlos a travs del procedimiento, as como la manera de interpretar los resultados en una tabla de contingencia. Antes de sacar las conclusiones es necesario generar la tabla, por lo que debemos volver al cuadro de dilogo ya sea mediante el botn Recuperar cuadro de dilogo ( )o a travs de la ruta Anlisis..Estadsticos descriptivos..Tablas de contingencia. Una vez aparece el cuadro de dilogo, hacemos clic en el botn Restablecer para retomar la configuracin inicial del procedimiento. Para obtener los porcentajes es necesario definir primero las variables que sern involucradas en la tabla, por lo que nos dirigimos a la lista de variables, ubicamos la variable Estado civil (Estciv) y la ingresamos en la casilla Filas; posteriormente ubicamos en el listado la variable Gnero del encuestado y la ingresamos en la casilla Columnas. A continuacin hacemos clic en el botn Casillas, de manera que aparezca el cuadro de dilogo correspondiente, donde activamos las opciones de porcentajes para Fila, Columna y Total. Podemos cercioramos que los porcentajes han sido activados si aparece un visto bueno en la casilla de seleccin ( ). Despus de activar las opciones, hacemos clic en el botn Continuar con lo que volveremos al cuadro de dilogo principal. Para finalizar hacemos clic en Aceptar de modo que la tabla se crea en el visor de resultados de SPSS [Fig.6-21]. Las tablas de contingencia suelen introducir las etiquetas de las variables de dimensin (Filas, Columnas) dentro de las leyendas de los porcentajes; esta es una propiedad exclusiva de este procedimiento ya que en los dems mtodos de creacin de tablas del paquete, aparecen generalmente las leyendas %Fila, %Col y %Total. Para la tabla de la figura [6-21], la leyenda (% de Estado civil) corresponde al porcentaje de Fila, la leyenda (% de Gnero) al porcentaje de columna y la leyenda (% del total) al porcentaje de tabla.

Figura 6-21 Si nos fijamos en los resultados de la tabla de contingencia, notaremos que aparecen dentro de cada casilla tres porcentajes distintos (% de Estado civil, %del Gnero y % del Total), cada uno de estos valores nos indica una conclusin diferente y su interpretacin debe realizarse teniendo en cuenta el tipo de porcentaje que representa. A manera de ejercicio se han resaltado algunos valores en la tabla, Podra interpretarlos?. Para interpretar el valor del porcentaje de Fila en una casilla, debemos leer primero la categora de la fila y despus concluir sobre la categora de la columna. Por ejemplo, si queremos interpretar el valor del % de Estado civil (% de fila) resaltado en la figura [6-22], debemos leer primero el valor 48.5%, sucesivamente la categora de la fila a la que pertenece Soltero y concluir sobre la categora de la columna Masculino; al organizar la oracin obtendramos (48.5% Soltero Masculino), lo que nos indicara que el 48.5% de las personas solteras son hombres o tambin (de las personas solteras el 48.5% corresponden al gnero masculino). Debemos tener cuidado de no confundir el nombre de la categora con las leyendas del valor, para aclarar la ubicacin de estos dos parmetros se anexan los ttulos de cada parmetro dentro de la tabla de la figura [6-22].

Figura 6-22 Para interpretar el valor del porcentaje de columna se invierte la accin; es decir, se lee primero la categora de columna y se concluye sobre la categora de la fila. Por ejemplo, para interpretar el valor del % de Gnero (% Col) resaltado en la tabla de la figura 6-22, debemos leer primero el valor (15.6%), sucesivamente la categora de columna a la que pertenece (Femenino) y concluir sobre la categora de la fila (Casado); al organizar la oracin obtendramos (15.6% Femenino Casado), lo que nos indicara que el 15.6 % de las mujeres son casadas. Por ltimo encontramos el porcentaje del total; para la interpretacin de estos valores se debe tener en cuenta que sus conclusiones se hacen sobre la totalidad de los encuestados y no sobre las categoras de cruce, por lo que el orden de las categoras se basa en la gramtica de la oracin. Por ejemplo, al interpretar el valor del % del total resaltado en la figura [6-22], obtendramos que el 1.0% de los Encuestados son hombres casados los hombres casados corresponden al 1 % de los encuestados.

Pruebas Estadisticas - Tablas de Contingencia


Hasta ahora slo hemos empleado las tablas de contingencia de manera descriptiva, sin involucrar las pruebas estadsticas de asociacin e independencia. Para poder determinar si existe una relacin entre dos variables no basta con los porcentajes o los recuentos, la relacin debe ser comprobada mediante una prueba estadstica. Todas las pruebas con que cuenta las tablas de contingencia se encuentran ubicadas dentro de las opciones del botn Estadstico. Al hacer clic en l aparece el cuadro de dilogo correspondiente [Fig.6-23].

Figura 6-23 Dentro de las diferentes pruebas estadsticas de asociacin que nos ofrece el procedimiento encontramos el Chi-cuadrado de Pearson, Chi-cuadrado de la razn de verosimilitud, prueba de asociacin lineal por lineal, prueba exacta de Fisher, Chi-cuadrado corregido de Yates, r de Pearson, rho de Spearman, coeficiente de contingencia, phi, V de Cramer, lambdas simtricas y asimtricas, tau de Kruskal y Goodman, coeficiente de incertidumbre, gamma, d de Somers, tau-b de Kendall, tau-c de Kendall, coeficiente eta, kappa de Cohen, estimacin de riesgo relativo, razn de ventajas, prueba de McNemar, estadsticos de Cochran y Mantel-Haenszel. La mayora de estas pruebas nos permiten comprobar si existe alguna relacin entre las variable, generando un nmero para representar la fuerza de la relacin. Por el momento slo haremos nfasis en el Chi-cuadrado de Pearson, la cual es la ms utiliza. Esta prueba nos permite determinar si el comportamiento de las categoras de una variable presentan diferencias Estadsticamente significativas. Para establecer la diferencia a travs de SPSS, debemos partir de la teora que no existe relacin entre las variables de la tabla de contingencia (Hiptesis nula); es decir, debemos asumir que los resultados de las categoras de una variable no se ven afectados o influenciados por las categoras de la segunda variable. El clculo del Chi-cuadrado arroja como resultado un valor numrico denominado alfa (a), el cual debe ser comparado con el valor terico de 0.05. Cuando el valor calculado es menor que el 0.05 se rachaza la hiptesis nula, con lo cual podemos concluir que si existe una relacin entre las variables; por el contrario si el valor calculado es mayor que 0.05 no se rechaza la hiptesis nula aceptando que no existe ninguna relacin entre las variables. A manera de ejemplo vamos a generar la prueba de asociacin del Chi-cuadrado para las variables Gnero y Estado civil; para lograrlo debemos volver al cuadro de dilogo y hacer clic en el botn Restablecer de manera que se retome la configuracin inicial del procedimiento. Una vez se habilita el cuadro, ubicamos en el listado la variable Estado civil y la ingresamos en la casilla Filas; sucesivamente ubicamos la variable Gnero y la ingresamos en la casilla Columnas. A continuacin seleccionamos el botn Estadsticos y activamos la opcin Chi-cuadrado, haciendo clic sobre la opcin. Para finalizar hacemos clic en Continuar y luego en Aceptar con lo que los resultados son creados en el visor [Fig.6-24].

Figura 6-24 Como de costumbre el programa genera la tabla del resumen del procesamiento y la tabla de contingencia, pero adicionalmente genera una tercera tabla denominada Pruebas de Chi-cuadrado. En ella aparecen los valores del Chi-cuadrado y la razn de verosimilitud los cuales son calculados con base a la diferencia entre las frecuencias observadas y las esperadas. De todos los valores que se incluyen en la tabla, slo hay uno que realmente nos interesa y es el valor correspondiente a la significacin asinttica (Bilateral) de la prueba Chi-cuadrado de Pearson; este valor es el resultado de la prueba y es el que se emplea para realizar la comparacin. De acuerdo al resultado podemos concluir que las variables Estado civil y Gnero si tienen relacin ya que el valor obtenido es menor que [0.05]. Existen tres factores que pueden alterar el resultado de las pruebas de asociacin e independencia como lo son el tamao de la muestra, la fidelidad de los datos y el sesgo muestral; antes de sacar alguna conclusin es necesario revisar estos factores ya que cualquiera de ellos puede distorsionar severamente el resultado. Para concluir con las tablas de contingencia vamos a revisar el ltimo botn de opcin que podemos encontrar en el cuadro de dilogo, el cual corresponde a Exactas (Este botn slo est disponible si se ha instalado el mdulo de pruebas exactas). Al seleccionar este botn, aparece el cuadro de dilogo correspondiente [Fig.6-25]; a travs de sus opciones se proporcionan dos mtodos adicionales para calcular los niveles de significacin de los estadsticos disponibles en los procedimientos Tablas de contingencia y Pruebas no paramtricas. Estos mtodos (el mtodo exacto y el de Monte Carlo), proporcionan el medio para obtener resultados exactos cuando los datos no cumplen alguno de los supuestos subyacentes necesarios para obtener resultados fiables.

Figura 6-25 Las pruebas exactas permiten obtener un nivel de significacin exacto sin confiar en supuestos que los datos podran no cumplir. Por ejemplo, los resultados de un examen de calidad de 20 empaques en una fbrica muestran que los cinco empaques plsticos superaron la prueba, mientras que los resultados de los empaques de papel son diversos. Una prueba de Chi-cuadrado de Pearson, que contrasta la hiptesis nula de que los resultados son independientes del material, produce un nivel de significacin asinttico del 0,07. Este resultado lleva a la conclusin de que los resultados del examen son independientes del material del empaque. Sin embargo, dado que los datos incluyen slo 20 casos y las casillas tienen frecuencias esperadas menores que 5, este resultado no es fidedigno. Al realizar una prueba exacta a la muestra obtenemos que el Chi-cuadrado de Pearson es de 0,04, lo que conduce a la conclusin contraria. Segn la significacin exacta, se concluir que los resultados del examen y el material del empaque estn relacionados. Esto demuestra la importancia de la obtencin de resultados exactos cuando no se pueden cumplir los supuestos del mtodo asinttico. La significacin exacta es siempre fiable, independientemente del tamao, la distribucin, la dispersin o el equilibrio de los datos. En conclusin, el procedimiento Tablas de contingencia nos permite realizar tablas en las que se describan las categoras de una variable a travs de las categoras de una segunda variable. Para efectuar la descripcin se pueden emplear diferentes medidas como el recuento, el porcentaje de fila, el porcentaje de columna o el porcentaje de tabla. Adicionalmente este procedimiento nos permite generar grficos de barras con las variables involucradas en la tabla, as como tambin pruebas estadsticas de independencia como el Chi-cuadrado de Pearson e incluso generar pruebas estadsticas de precisin como el mtodo de Monte Carlo o el mtodo Exacto.

Preguntas de Respuesta Multiple con SPSS


Es posible que en algunas ocasiones al momento de recolectar los datos nos topemos con varias respuestas o mediciones para la misma pregunta, a este tipo de sucesos se les denomina Preguntas de Respuesta mltiple. Una de las principales dificultades que se presentan con este tipo de preguntas radica en la forma de estructurar las respuestas de manera que toda la informacin pueda

ser empleada en los anlisis. Generalmente las preguntas de respuesta mltiple se pueden realizar de dos formas diferentes denominadas Abiertas y Cerradas. Se asume que una pregunta es abierta, cuando se le permite al individuo ingresar libremente todas las respuestas que considere convenientes; por ejemplo, si le preguntamos a una persona cuantas marcas de gaseosas conoce, el individuo nos responder las marcas que recuerde; en este tipo de preguntas el nmero de respuestas no esta delimitado y varia de acuerdo a cada entrevistado. Por el contrario, en las preguntas cerradas se le ofrece al individuo un listado de opciones de las cuales l puede seleccionar las que considere pertinentes; para este tipo de preguntas el nmero de respuestas esta delimitado por el nmero de opciones que el investigador incluya en el listado. El Mdulo Base de SPSS nos permite realizar anlisis descriptivos con los dos tipos de preguntas de respuesta mltiple y generar con ellas tablas de frecuencia y/o de contingencia. Antes de realizar anlisis mediante SPSS, es necesario ingresar la informacin recolectada a travs de este tipo de preguntas en un archivo de datos. Para comprender la forma adecuada de estructurar los resultados dentro de un archivo de datos de SPSS, vamos a generar ejemplo apoyndonos en los resultados del sondeo realizado a cinco personas con las preguntas

Las respuestas de cada uno de los encuestados a estas preguntas se exponen en las tablas de las figuras [6-26] y [6-27]. Si nos fijamos en los resultados de la primera pregunta [Fig.6-26], notaremos que cada uno de los encuestados cuenta con un nmero distinto de respuestas y a su vez las marcas que cada encuestado menciona son diferentes, lo que nos indica que es esta pregunta es de tipo Abierta; la principal dificultad de las preguntas Abiertas radica precisamente en la cantidad de diferentes respuestas que podemos obtener. Para la segunda pregunta [Fig.6-27], slo se incluyen las marcas que cada uno de los encuestados confirmo que conoca; para facilitar la interpretacin, hemos incluido dentro de la tabla nicamente las letras representativas de cada marca, por lo que debemos recordar que la letra A equivale a la marca Mercedes benz, la letra B a Audi, la C a Mazda y as sucesivamente.

Figura 6-26

Figura 6-27 SPSS cuenta con un mtodo especfico para organizar la informacin que recoge cada uno de los tipos de preguntas de respuesta mltiple. Cuando se trata de una pregunta Abierta, es necesario ubicar dentro de la totalidad de los encuestados, el individuo con mayor nmero de respuestas y crear una variable por cada una de las respuesta que haya dado. Por ejemplo, si nos fijamos en la figura [6-26], notaremos que el tercer individuo cuenta con el mayor nmero de respuestas (siete diferentes marcas), por lo que debemos crear siete (7) variables. Para facilitar la identificacin de las variables que contienen las diferentes respuestas de la pregunta, se suele emplear una frase comn para todas y distinguir el orden por un nmero consecutivo; por ejemplo, Marca1, Marca2, Marca3,...., Marca7. Una vez se han establecido las variables, debemos ingresar los resultados; en la primera variable (Marca1), ingresamos la primera respuesta (Marca de automvil) que haya dado cada individuo; en la segunda variable ingresamos la segunda respuesta de cada individuo y as sucesivamente hasta terminar con las respuestas. Dado que el nmero de respuestas de cada individuo es diferente, cuando se terminen las respuestas del individuo debemos dejar en blanco las casillas de las variables restantes que se encuentren en la fila del sujeto (Caso). Por ejemplo, para el primer individuo de la figura [6-26], debemos introducir la respuesta Ford en la variable Marca1, Mazda en Marca2, Mercedes en Marca3, BMW en Marca4 y Renault en Marca5; para las variables Marca6 y Marca7 dejamos el espacio en blanco. Si ingresamos las respuestas de los dems individuos obtenemos la tabla de la figura 6-28.

Figura 6-28 Cuando se trabaja con preguntas de respuesta mltiple de tipo Abierto, es de gran importancia mantener el orden de las respuestas al momento de ingresar la informacin al archivo de datos, ya que cuando se realizan preguntas abiertas la primera respuesta de cada individuo puede ser empleada para hallar el Top of mine o Marca de mayor recordacin, cuya teora nos indica que generalmente la primera respuesta corresponde a la marca que el individuo habitualmente consume. La otra gran ventaja de las preguntas abiertas radica en la obtencin de conclusiones ms acertadas

ya que las respuestas de cada individuo no se ven influenciadas por el investigador; generalmente es tipo de preguntas son empleadas en las encuestas piloto ya que brindan una orientacin clara sobre los temas que se deben incluir en el estudio.

Preguntas de Respuesta Multiple: Dicotomicas


Cuando por el contrario se trata de preguntas Cerradas, antes de ingresar la informacin se debe crear una variable por cada una de las opciones de respuesta que contenga la encuesta o estudio. Por ejemplo, para la pregunta Cules de las siguientes marcas de automviles conoce o ha escuchado mencionar?, se incluyen nueve (9) posibilidades de respuesta, siendo necesario crear una variable por cada opcin; es decir, nueve (9) variables en total. Para el nombre de cada variable se recomienda incluir una frase comn para todas y distinguirlas con las iniciales de la marca o nombre a la que corresponde; por ejemplo, PGMerce, PGAudi, PGMazda, PGPeug, PGBMW, PGToyota, PGNissan, PGChevro, PGFord. Debemos recordar que los nombres de las variables no deben superar los ocho (8) caracteres (64 para la versin 12.0) y que a su vez no debe comenzar con un nmero. En este tipo de preguntas las respuestas slo toman dos estados o valores (Si o No, Verdadero o Falso, etc); para ingresar las respuestas de cada individuo se debe colocar un Valor Si en cada una de las variables (Opciones) que halla seleccionado el encuestado y un Valor No en las que halla omitido. Despus de ingresar las respuestas de los cinco (5) encuestados obtenemos los resultados de la figura [6-29].

Figura 6-29 Este tipo de preguntas suelen ser denominadas Dicotomas mltiples dado que cada una de las opciones es seleccionada o no por parte del encuestado. Las preguntas cerradas nos ofrecen menor cantidad de informacin, pero a pesar de esto son ms utilizadas debido a que los costos de recoleccin, ordenamiento y anlisis son menores comparados con los de las preguntas abiertas. Desde luego cuando el nmero de opciones es demasiado elevado, es preferible emplear las preguntas abiertas. Una vez se han ingresado todas las respuestas y se han definido todas las propiedades a cada una de las variables, estamos listos para comenzar con el anlisis. Antes de realizar cualquier tipo de clculo con los datos, es necesario definirle al programa los conjuntos de variables que conforman las respuestas de una pregunta. Para comprender el procedimiento que conllevan las variables de repuestas mltiples vamos a emplear el contenido del archivo de datos Multi.sav que se anexa en la carpeta Captulo6 del CD adjunto. Para abrirlo podemos emplear la ruta Archivo... Abrir... Datos, al activarse la ventana de navegacin, ubicamos el archivo en la unidad de CD ROM y posteriormente hacemos clic en Abrir. Despus de abrir el archivo de datos, debemos acceder al procedimiento de respuestas mltiples por

lo que nos dirigimos al men Analizar y seleccionar la opcin Respuestas mltiples; al seleccionarlo aparece una sola opcin activa correspondiente a Definir conjuntos, las otras dos opciones (Frecuencias y Tablas de contingencia), se activan nicamente cuando se haya definido con antelacin por lo menos un conjunto de variables. Al seleccionar la opcin Definir Conjuntos aparece el cuadro de dilogo correspondiente [Fig.6-30]; a travs de este cuadro se definen las propiedades del conjunto de variables que contienen las respuestas de una pregunta Abierta o Cerrada. Este cuadro se divide en cinco secciones entre las que encontramos la lista de variables, la casilla de seleccin, la definicin del tipo de pregunta, las propiedades del conjunto y la casilla de conjuntos.

Figura 6-30 Al igual que en la mayora de procedimientos del programa, en la casilla de seleccin se deben ingresar todas las variables de inters, que para el caso corresponden a las variables que contienen las respuestas de una misma pregunta. Las variables que se introduzcan en esta casilla definirn un conjunto, por lo que es de gran importancia verificar que no se agregue por error una variable que no contenga respuestas de la misma pregunta, ya que esto implicara que no cuenta con las mismas propiedades de las variables de inters (Tipo, Medida, Valores, Perdidos), lo que puede causar que se presenten problemas al momento de generar las tablas de frecuencia o de contingencia. Una vez se han ingresado las variables, es necesario definirle al programa el tipo de respuestas que contienen. En la seccin Las variables estn codificadas como, encontramos las opciones Dicotomas y Categoras. SPSS denomina Dicotomas a las respuestas de una pregunta cerrada y Categoras a las respuestas de preguntas Abiertas. Cuando se selecciona la opcin Dicotomas, se activa la casilla Valor contado, en esta casilla se debe ingresar el valor que representa a las respuestas validas (Si, existencia), el cual ser tenido en cuenta para los clculos. Cuando se selecciona la opcin Categoras se activan las casillas del rango (Desde, Hasta); en estas casillas se deben ingresar los valores (Mnimo y Mximo) de los datos. Despus de especificar la codificacin de las variables, se debe definir el nombre y la etiqueta del

conjunto de datos, ingresando los caracteres en las respectivas casillas. Para el nombre del conjunto SPSS nos permite ingresar hasta un mximo de siete (7) caracteres, teniendo en cuenta no utilizar palabras clave como casenum, sysmis, jdate, date, time, length y width. Para la etiqueta del conjunto, por el contrario se puede ingresar hasta un mximo de 40 caracteres. La ltima seccin que encontramos en el cuadro de dilogo corresponde a la casilla de conjuntos, en ella aparecern todos los conjuntos de variables que hayan sido definidos satisfactoriamente. Para facilitar su identificacin cada nombre de conjunto esta precediendo con un signo de dlar ($); es necesario recalcar que el programa no crea una nueva sper-variable en el editor de datos para guardar toda la informacin del conjunto, sino por el contrario cuando el nombre del conjunto es empleado en un procedimiento, SPSS lo sustituye por las variables que lo componen al momento de realizar los clculos de los estadsticos (Tablas de frecuencia o Tablas de contingencia). Para comprender la metodologa empleada en la definicin de los conjuntos de respuesta mltiple, en la siguiente leccion vamos a generar algunos ejemplos, empleando las variables de Marca.

Conjuntos de Respuesta Multiple en SPSS


Para comprender la metodologa empleada en la definicin de los conjuntos de respuesta mltiple, vamos a generar algunos ejemplos, empleando las variables de Marca (desde Marca1 hasta Marca7) para estipular un conjunto de respuestas categricas (Abiertas) y las variables PG (PGMerce, PGAudi, PGMazda, PGPeug, PGBMW, PGToyota, PGNissan, PGChevro, PGFord), para definir un conjunto de respuestas Dicotmicas (Cerradas). Antes de comenzar es importante resaltar que a travs de este procedimiento se puede definir hasta un mximo de 20 conjuntos, con la condicin que cada uno de ellos cuente con un nombre diferente. Para definir el primer conjunto debemos ubicar en el listado las variables de Marca1 hasta Marca7 y sucesivamente ingresarlas en la casilla de seleccin; posteriormente en la seccin Las variables estn codificadas como activamos la opcin Categoras. Para ingresar los valores de los limites del rango (Inferior y Superior) es necesario conocer los valores que se le han asignado a cada una de las respuestas o categoras; para facilitar su identificacin, en la tabla de la figura 6-31 se incluyen cada una de las marcas que aparecen en las respuestas, adicionalmente se anexa el respectivo valor representativo.

Figura 6-31 Si nos fijamos en los datos de la tabla notaremos que el valor ms bajo (Mnimo) corresponde al nmero uno (1) y el ms alto (Mximo) al nmero veintiocho (28); estos valores deben ser ingresados en las casillas de rango. Una vez estipulado el tipo de respuestas y el rango de los valores ingresamos en la casilla Nombre la palabra Marcas y en la casilla Etiqueta la leyenda

Marcas de automviles. Despus de definir todas las propiedades del conjunto debemos obtener los mismos resultados de la figura 6-32. Para finalizar hacemos clic en el botn Aadir con lo que aparece en la casilla de conjuntos la variable $Marcas.

Figura 6-32 Una vez se hace clic en el botn Aadir, los parmetros definidos para el conjunto de variables desaparecen restableciendo la configuracin original del cuadro. Para definir el segundo conjunto debemos ubicar las variables PGMerce, PGAudi, PGMazda, PGPeug, PGBMW, PGToyota, PGNissan, PGChevro, PGFord en la lista de variables e ingresarlas en la casilla de seleccin; despus de ingresadas seleccionamos en la seccin Las variables estn codificadas como la opcin Dicotomas, al activarse la casilla valor contado ingresamos el nmero uno (1) el cual corresponde al Si (Reconoce la marca); sucesivamente en la casilla Nombre ingresamos la palabra Conoce y en la casilla de Etiqueta ingresamos la leyenda Marcas que reconoce. Despus de definir todas las propiedades del conjunto obtenemos los resultados de la figura [6-33]. Para finalizar hacemos clic en Aadir de tal manera que el nombre del conjunto aparezca en la casilla de conjuntos ($conoce).

Figura 6-33 Una vez aparecen los nombres en la casilla de conjuntos, podemos terminar la definicin haciendo clic en el botn Cerrar. Es necesario recalcar que las declaraciones de conjuntos de respuesta mltiple estarn disponibles solamente el tiempo que dure abierta la sesin, hasta que se abra otro

archivo de datos o salga de SPSS. Los conjuntos no son conservados a travs de las distintas sesiones de SPSS, ni almacenados en el editor de datos. (Este inconveniente quedo solucionado para las ultimas versiones de SPSS por lo que los conjuntos son guardados con el archivo o ficheros de datos).

Frecuencias Conjuntos de Respuesta Multiple


El mdulo Base de SPSS nos ofrece dos procedimientos para el anlisis descriptivo de las preguntas de respuesta mltiple (Frecuencias y Tablas de contingencia); para acceder a estos procedimientos debemos ir al men Analizar y seleccionar el submen Respuestas mltiples [Fig.6-34]; al desplegarse las opciones aparecen activos los procedimientos descriptivos, esto se debe a que ya se ha definido por lo menos un conjunto de variables. Para continuar con la exploracin de estos procedimientos seleccionamos la opcin Frecuencias con lo que aparecer el cuadro de dilogo correspondiente [Fig.6-35].

Figuras 6-34 y 6-35 Este cuadro se encuentra dividido en tres secciones (Lista de conjuntos, casilla de seleccin y Valores perdidos). En la lista de conjuntos slo aparecen los nombres de los conjuntos que se hayan definido con antelacin. En la casilla de seleccin se deben ingresar los conjuntos a los que se desea realizar el anlisis descriptivo (Tabla de frecuencias). En la ltima seccin (Valores perdidos) encontramos las opciones para limitar el nmero de casos que sern tenidos en cuenta para los clculos, cuando se selecciona la opcin Excluir los casos segn lista dentro de las dicotomas el programa omitir de los clculos los casos que en la totalidad de las variables no tenga un valor positivo (Valor contado); es decir, excluye los casos en que aparezca una respuesta o valor diferente al nmero que se haya definido como valor contado dentro de los parmetros del conjunto; esta opcin se suele emplear cuando se requiere una repuesta positiva en la totalidad de las preguntas. La segunda opcin corresponde a Excluir los casos segn lista dentro de las categoras, al seleccionarla el programa omite los casos en los que encuentra en alguna de las variables un valor fuera del rango establecido. Adems de las opciones de esta seccin, el programa tambin omite los casos en los que no se encuentre un valor valido dentro de la totalidad de las variables (Valor contado en Dicotomas o un valor del rango en Categoras). A manera de ejemplo vamos a generar las tablas de frecuencia para los conjuntos ($Marcas y

$Conoce), por lo que debemos seleccionarlos e ingresarlos en la casilla de seleccin; por el momento no emplearemos las opciones de limitacin de casos as que hacemos clic en Aceptar de manera que las tablas son creadas en el visor de resultados de SPSS [Fig.6-36].

Figura 6-36

El procedimiento Frecuencias para los conjuntos de variables de respuesta mltiple, genera tablas en formato de texto, en las que se incluyen los estadsticos Recuento (Count), Porcentaje de respuestas (Pct of Responses), Porcentaje de casos (Pct of cases), Nmero de casos perdidos (Missing cases) y Nmero de casos validos (Valid cases). Para los conjuntos de categoras, los nombres de cada categora provienen de las etiquetas de valor que se hayan definido para la primera variable del conjunto (Columna Valores en la vista de variables). Para los conjuntos de dicotomas mltiples, los nombres de las categoras que se muestran en los resultados provienen de las etiquetas que se hayan definido para cada variable que compone el conjunto. Para facilitar la identificacin del tipo de pregunta (Dicotoma o Categrica) se incluye dentro de cada tabla una leyenda en la parte superior izquierda, que nos informa el tipo de conjunto; adems, cuando se trata de un conjunto de dicotomas mltiples se incluye una leyenda con el valor contado (Value Tabulated). Si nos fijamos en los resultados de las tablas de frecuencia de la figura [6-36], notaremos que el recuento (Count) y el porcentaje de casos (Ptc of cases) cuentan con cifras bastante altas, esto se debe a que cada encuestado tiene la posibilidad de dar hasta nueve (9) respuestas para las preguntas de Dicotomas y hasta siete (7) respuestas para las preguntas Categricas. Una de las principales dificultades de este tipo de tablas radica en la interpretacin de los porcentajes; si observamos los resultados del porcentaje de casos para la marca Mercedes Benz en las dos tablas (Dicotomas y Categricas) notaremos una amplia diferencia porcentual entre ellas, a pesar que el objetivo de los dos tipos de preguntas es identificar la aceptacin o reconocimiento de las marcas en los encuestados. Generalmente las preguntas de Dicotomas mltiples (Cerradas) tienden a mostrar porcentajes ms altos debido a que el entrevistado puede ser influenciado a recordar la marca que se le pregunta, este fenmeno no se presenta en las preguntas categricas (Abiertas) ya que no existe ningn tipo de leyenda o frase que pueda influenciar las respuestas. Sin importar que tipo de pregunta sea, las conclusiones deben ser obtenidas de acuerdo al porcentaje de casos; por ejemplo, si asumimos que el objetivo de las dos preguntas es identificar el reconocimiento de las marcas en el mercado, de la tabla de Dicotomas mltiples concluiramos que el 75.0% de los encuestados reconocen la marca de automviles Mercedes Benz, mientras que de la tabla de Categricas concluiramos que el 25.8% de los encuestados reconoce la marca de automviles Mercedes Benz. Por otro lado, el porcentaje de respuestas nos indica la porcin o fraccin de respuestas que se puede esperar si se realizan estas mismas preguntas a otro grupo de personas, dando una orientacin sobre las tendencias de las respuestas; este porcentaje no se debe tomar como una conclusin del reconocimiento de cada marca por parte de los encuestados, sino como un parmetro informativo para futuras encuestas. A pesar que las preguntas abiertas suelen ser ms confiables y precisas, no se emplean con regularidad, debido principalmente a los altos costos que implican su recoleccin, organizacin y anlisis. Para finalizar con este procedimiento es necesario resaltar que los resultados de este ejemplo no son representativos del mercado ya que los datos que se incluyen en el archivo han sido manipulados a voluntad del autor, para facilitar la interpretacin de los efectos del procedimiento.

Tablas Cruzadas - Conjuntos Respuesta Multiple


El segundo procedimiento con que cuenta SPSS para el anlisis descriptivo de las preguntas de respuesta mltiple corresponde a las tablas de contingencia. A travs de este procedimiento se puede describir las respuestas del conjunto de acuerdo a las categoras de una o varias variables, as como tambin se puede crear una tabla de contingencia con dos o ms conjuntos de respuesta mltiple. Para generar una tabla de contingencia con conjuntos de variables, debemos ir al men Analizar, activar el submen Respuestas mltiples y seleccionar la opcin Tablas de contingencia; al hacer clic en esta opcin aparece el cuadro de dilogo correspondiente [Fig.6-37]. Este cuadro se encuentra dividido en cuatro secciones (Lista de variables, Lista de conjuntos, Casillas de seleccin y Botones de opcin), a travs de estas secciones se definen las caractersticas estructurales de la tabla de contingencia.

Figura 6-37 Al igual que en la mayora de los cuadros de dialogo de los diferentes procedimientos del programa, en la lista de variables aparecen todas las variables con que cuenta el archivo de datos. Por el contrario, en la lista de conjuntos aparecen slo los conjuntos de variables que se hayan definido durante la sesin de trabajo. La tercera seccin corresponde a las casillas de seleccin, en ella encontramos las casillas filas, columnas y capa; las variables que se ingresen en cada una de las casillas de dimensin (Fila, Columna o Capa) definirn las categoras de cada una de las dimensiones. Por ltimo encontramos la seccin Botones de opcin, en donde encontramos el botn Definir rangos, el cual se emplea para especificar las categoras de la variable que sern incluidas en la tabla; mientras que en el botn Opciones aparecen las posibilidades de los estadsticos y los valores perdidos. Para comprender la metodologa empleada en la definicin de las propiedades de las tablas de

contingencia para las preguntas de respuesta mltiple vamos a generar un ejemplo con el conjunto de dicotomas $Conoce y la variable Gnero del encuestado. Para realizarlo, vamos a ingresar en la casilla Filas el conjunto $Conoce, por lo que lo seleccionamos en la lista de conjuntos y sucesivamente hacemos clic en el botn Flecha ( ) ubicado al costado izquierdo de la respectiva casilla de dimensin (Filas), a continuacin ingresamos la variable Gnero en la casilla columnas; note como una vez que es ingresada la variable en la casilla de columnas aparece a su lado dos signos de interrogacin entre parntesis (??), esto se debe a que el programa requiere que se le estipule las categoras que se desean incluir en la tabla. Para realizarlo debemos hacer clic en el botn Definir rangos con lo que aparece el cuadro de dilogo correspondiente [Fig.6-38]; en este cuadro se encuentran las casillas Mnimo y Mximo, a travs de las cuales se define el rango de las categoras de la variable gnero que sern incluidas en la tabla.

Figura 6-38 Si no se conoce o no se recuerda los valores de las categoras de inters de una variable, SPSS nos ofrece la oportunidad de obtener informacin de ella sin salir del procedimiento. Para acceder a esta informacin es necesario volver al cuadro principal y hacer clic derecho sobre la variable de inters de manera que surja el men desplegable y sucesivamente elegir la opcin Informacin de las variables con lo que aparece el cuadro de dilogo correspondiente [Fig.6-39], en este cuadro se incluye el Nombre, la etiqueta, la Medida y las Etiquetas de valor de la variable seleccionada. Para continuar con el ejemplo, seleccionaremos nuevamente el botn Definir rangos e ingresamos en la casilla Mnimo el nmero 1 y en la casilla Mximo el nmero 2, para finalizar hacemos clic en el botn Continuar con lo que los valores (Nmeros) aparecen dentro del parntesis de la variable Gnero.

Figura 6-39 Despus de definir los valores de la variable Gnero que sern incluidos en la tabla de contingencia, debemos estipular los estadsticos del procedimiento. En la siguiente leccion aprendermos como definir los estadisticos de las tablas de Contingencia con Conjuntos de variables de Respuesta multiple.

Estadisticos: Tablas Cruzadas - Conjuntos


Despus de definir los valores de la variable Gnero que sern incluidos en la tabla de contingencia, debemos estipular los estadsticos del procedimiento. Para realizarlo debemos hacer clic en el botn Opciones con lo que aparece el cuadro de dilogo correspondiente [Fig.6-40]. A travs de este cuadro podemos pedirle al procedimiento que incluya los porcentajes de Fila, Columna y Total; estos porcentajes son calculados de la misma manera que se especifico en los apartados anteriores.

Figura 6-40 Adems de los porcentajes, el procedimiento tambin nos ofrece otras opciones como Emparejar las variables entre los conjuntos de respuesta; al activar esta opcin el programa empareja la primera variable del primer grupo con la primera variable del segundo grupo, la segunda variable del primer grupo con la segunda variable del segundo grupo, y as sucesivamente. Desde luego esta opcin slo es aplicable cuando se genera una tabla de contingencia con conjuntos de preguntas de respuesta mltiple Categricas y los porcentajes de las casillas se deducen a partir de las respuestas en lugar de obtenerlos a partir de los casos (los entrevistados). La tercera opcin de este cuadro corresponde a Porcentajes basados en; a travs de estas opciones se define si los estadsticos (porcentajes) que se incluyen en la tabla estarn basados en el nmero de casos (Entrevistados) o el nmero de respuestas; estas opciones corresponden al porcentaje de casos y el porcentaje de respuestas que aparecen en las tablas de frecuencia de las variables de respuesta mltiple. La ultima opcin que encontramos corresponde a los valores perdidos y cuentan con las mismas caractersticas que en las tablas de Frecuencia de respuesta mltiple (Discutidas anteriormente). Continuando con el ejemplo seleccionaremos la opcin Porcentaje de columna y en la seccin Porcentajes basados en, la opcin Casos; para finalizar hacemos clic en el botn Continuar, con lo que volveremos al cuadro de dilogo principal. Para finalizar el procedimiento hacemos clic en Aceptar con lo que la tabla es creada en visor de resultados de SPSS [Fig.6-41].

Figura 6-41 De igual manera que en las tablas de frecuencia, los resultados de las tablas de contingencia para preguntas de respuesta mltiple se generan en formato de texto, en donde se incluyen las etiquetas y los nombres de las variables de cada dimensin (Fila y Columna). As mismo, los valores de cada casilla corresponden a una combinacin especfica entre las categoras de las variables de las dos dimensiones (Fila y Columna). Para la interpretacin de los valores de cada casilla se debe realizar el mismo procedimiento que se explico para las tablas de contingencia de variables convencionales; por ejemplo, para interpretar el porcentaje de la primera casilla de la tabla, debemos leer primero el valor (80.7%), sucesivamente la categora de la variable de la columna (Femenino) y concluir sobre la categora de la fila (Mercedes Benz); ordenando la oracin obtendramos que el 80.7% de las mujeres reconocen la marca de automviles Mercedes Benz. Si nos fijamos en los resultados de la tabla notaremos que los valores que aparecen en la columna Total de Fila (Row total), corresponden a los valores del recuento (Count) y porcentaje de casos (Pct of cases) obtenidos para el conjunto de variables de dicotomas a travs del procedimiento Frecuencias.

Las tablas de contingencia para variables de respuesta mltiple, no nos permiten generar pruebas estadsticas de Asociacin/independencia como el Chi-cuadrado o las correlaciones, debido en gran medida a que estas pruebas no son aplicables a este tipo de variables. Antes de finalizar es necesario recalcar que los estadsticos (Porcentajes de resumen) que sean empleados en las tablas de contingencia deben ser elegidos teniendo como prioridad la utilidad que proporcionen a la explicacin del comportamiento de la preguntas de respuesta mltiple, por lo que es aconsejable emplear en la mayora de las ocasiones el porcentaje de casos. En conclusin, el procedimiento Conjuntos de respuesta mltiple nos permite generar tablas de frecuencia y/o tablas de contingencia para grupos de variables que contengan las respuestas de un grupo de individuos a una pregunta de mltiple seleccin. La principal ventaja de este tipo de variables es la gran cantidad de informacin que le proporciona al investigador, ya que ofrece la posibilidad de determinar de forma precisa los gustos o tendencias de los encuestados, permitindoles elegir entre un elevado nmero de opciones.

Cubos OLAP en SPSS


El procedimiento Cubos OLAP (siglas en ingles de On-Line Analytic Processing, Procesamiento Analtico Interactivo) es uno de los mtodos ms empleados en la exploracin de datos. A travs de los Cubos OLAP se puede observar el comportamiento de los datos de varias variables de escala de a cuerdo a una combinacin especfica de categoras de mltiples variables categricas. La utilidad de este procedimiento radica en la capacidad de actualizar la tabla de resultados a medida que se va modificando la combinacin de categoras, sin necesidad de redefinirlas en el cuadro de dilogo del procedimiento. Para el anlisis de las variables de escala el programa cuenta con una serie de medidas estadsticas como la media, la mediana o la desviacin estndar, a su vez para las variables categricas el procedimiento genera listas desplegables en las que se incluye cada una de las categoras de la variable, as como la opcin total. Para comprender la metodologa empleada en la definicin y creacin de los cubos OLAP, vamos a generar un ejemplo con los datos contenidos en el archivo Cubos.sav incluido en la carpeta Captulo6 del CD adjunto. Antes de iniciar con el procedimiento, es necesario contar con el archivo de datos abierto en el editor de SPSS, por lo que debemos abrirlo a travs de la ruta Archivo.. Abrir.. Datos. Una vez cargado el archivo, estamos listos para la generacin del ejemplo. Para acceder al procedimiento, debemos ir al men Analizar... Informes... Cubos OLAP; al seleccionarlo aparece el cuadro de dilogo correspondiente [Fig.6-42]. Este cuadro se encuentra dividido en tres secciones definidas como la Lista de variables, las Casillas de seleccin y los Botones de opcin.

Figura 6-42 Dentro de la seccin casillas de seleccin se definen las variables que harn parte del procedimiento. En la casilla de resumen (Variables de resumen), se deben ingresar las variables de escala que sern empleadas en el cubo; el contenido de estas variables se resume a travs de los diferentes estadsticos que se seleccionen; si por algn motivo se ingresa una variable categrica en esta casilla, el programa asume que es de escala y le realiza los clculos de los estadsticos de resumen. En la casilla Agrupacin, se deben ingresar las variables categricas que definirn los subgrupos de datos que sern descritos a travs de los resultados de los estadsticos de resumen de las variables de escala; si por algn motivo se ingresa una variable de escala en esta casilla, el programa asume que cada valor de la variable corresponde a una categora. Para comprender mejor el funcionamiento vamos a generar un Cubo OLAP con las variables Edad del entrevistado (Escala) y Gnero (Categrica). Para realizarlo, debemos ingresar la variable Edad del entrevistado en la casilla Resumen y la variable Gnero la ingresamos en la casilla Agrupacin; para finalizar hacemos clic en Aceptar con lo que el cubo ser creado en el visor de resultados de SPSS [Fig.6-43].

Figura 6-43

Para poder observar los resultados de las diferentes categoras de la variable gnero, es necesario activar el Cubo haciendo doble clic en l, de manera que aparezca al lado de la variable Gnero la lista desplegable de las categoras [Fig.6-44]. Al hacer clic sobre el icono de la lista ( ), aparecen todas las categoras de la variable que para el caso corresponden a Femenino, Masculino y Total, para seleccionar alguna de ellas basta con hacer clic sobre la categora deseada, con lo cual los resultados de la tabla cambiarn y harn referencia exclusivamente a los casos de la categora seleccionada.

Figura 6-44 Si seleccionamos la categora Femenino obtendremos los valores de la figura [6-45]. Si nos fijamos en los resultados notaremos que todos los valores han cambiado y ahora hacen referencia nicamente a los casos de la categora Femenino. A partir de estas respuestas podemos deducir que en el archivo de datos hay un total de 154 mujeres, con un promedio de edad de 31.82 32 aos, con una desviacin tpica de 7.066 y que a su vez conforman el 51.3% de las respuestas validas.

Figura 6-45 De igual manera ocurre si seleccionamos la categora Masculino, en cuyo caso los valores de cada casilla cambiaran expresando el comportamiento de la edad para los hombres. Para realizar los clculos de los estadsticos de resumen de las variables de escala, el programa toma exclusivamente los casos que correspondan a la categora que se haya seleccionado. Para desactivar el Cubo basta con hacer clic fuera del rea de la tabla. Desde luego esta es la aplicacin ms sencilla que se puede realizar con un Cubo OLAP, ya que slo vincula una variable de escala (Resumen) y una variable categrica (Agrupacin). En las siguientes lecciones haremos ejemplos de Cubos OLAP mas complejos.

Estadisticos en los Cubos OLAP de SPSS


En algunas ocasiones los estadsticos de resumen que el procedimiento emplea por defecto no son realmente tiles, ya sea por el objetivo del anlisis o por la naturaleza de los datos. Por ejemplo, si nos fijamos en el estadstico Suma generado en el ejercicio anterior, notaremos que nos da como resultado 4900, lo que nos indicara el total de aos que acumulan las mujeres de la encuesta; por mltiples motivos este valor no es de utilidad dada la naturaleza de los datos, sin embargo si se tratase de los ingresos o las ventas de las mujeres si tendra una aplicacin ms apropiada. Para modificar estos parmetros debemos volver al cuadro de dilogo, ya sea mediante la ruta Analizar.. Informes.. Cubos OLAP por medio del botn Recuperar cuadro de dilogo ( ). La segunda seccin del cuadro de dilogo corresponde a los Botones de opcin, a travs de ellos se puede definir diferentes parmetros del procedimiento como los estadsticos de resumen, las diferencias entre grupos o variables y los ttulos de los resultados. Es necesario resaltar que el botn Estadsticos slo se activa cuando se han ingresado variables a las casillas de seleccin (Resumen y Agrupacin). Al seleccionar el botn Estadsticos, aparece el cuadro de dilogo correspondiente [Fig.6-46].

Figura 6-46 A travs de este cuadro podemos definir los estadsticos de resumen que sern incluidos en el Cubo; dentro del cuadro encontramos dos casillas, la primera corresponde a la Lista de estadsticos y la segunda a la casilla de seleccin (Estadsticos de casilla). El procedimiento Cubos OLAP, nos ofrece una gran variedad de estadsticos de resumen entre los que encontramos la Suma, Nmero de casos, Media, Mediana, Mediana agrupada, Error tpico de la media, Mnimo, Mximo, Rango, Valor de la variable para la primera categora de la variable de agrupacin, Valor de la variable para la ltima categora de la variable de agrupacin, Desviacin tpica, Varianza, Curtosis, Error tpico de Curtosis, Asimetra, Error tpico de asimetra, Porcentaje de casos totales, Porcentaje de la suma total, Porcentaje de casos totales dentro de las variables de agrupacin, Porcentaje de la suma total dentro de las variables de agrupacin, Media geomtrica y Media armnica.

Todos los estadsticos de resumen que se seleccionen mantendrn en los resultados el mismo orden al que aparece en la casilla de seleccin. Par ingresar una estadstico se debe resaltar en la lista haciendo clic sobre l y posteriormente hacer clic en el botn flecha ( ) simplemente haciendo doble clic sobre el estadstico de inters. Por el momento no seleccionaremos ninguno por lo cual hacemos clic en el botn Continuar. El segundo botn de opcin que encontramos corresponde a Diferencias, al seleccionarlo aparece el cuadro de dilogo correspondiente [Fig.6-47]; este cuadro se encuentra dividido en cuatro secciones correspondientes a Diferencias para estadsticos de resumen, Tipo de diferencia, Diferencias entre variables y Diferencias entre grupos de casos. Mediante estas secciones podemos especificarle al programa que realice comparaciones de porcentaje o aritmticas entre las variables de resumen o entre las categoras de una variable.

Figura 6-43 Mediante la seccin Diferencias para estadsticos de resumen se define la clase de comparacin que se realizar en el Cubo; en esta seccin encontramos las opciones Ninguna, Diferencias entre variables y Diferencias entre grupos de casos. Para que la opcin diferencias entre variables se active es necesario ingresar en la casilla de Resumen dos o ms variables de escala y para activar la opcin Diferencias entre grupos de casos se deben ingresar una o ms variables categricas en la casilla de agrupacin. Al seleccionar alguna de estas dos opciones (Diferencias), se activa la seccin correspondiente, habilitando cada una de las casillas de definicin que contienen. La segunda parte de este cuadro de dilogo corresponde al Tipo de diferencia, a travs de ella podemos especificarle al programa que tipo de comparacin se realizar eligiendo alguna de las opciones de porcentaje (Calcula la diferencia porcentual) o aritmtica (Calcula la diferencia aritmtica entre las medidas) o ambas si se desea. Para comprender mejor el funcionamiento de las secciones de este cuadro de dilogo, en las siguientes lecciones vamos a generar algunos ejemplos tratando de involucrar la mayor cantidad de

opciones posibles.

Diferencias: Cubos OLAP en SPSS


Para el primer ejemplo debemos volver al cuadro de dilogo principal, por lo que hacemos clic en el botn Continuar; una vez volvemos al cuadro principal, hacemos clic en el botn Restablecer con el fin de retomar la configuracin inicial del procedimiento. Despus de reiniciaiar el cuadro, ubicamos en la lista las variables Aos totales estudiados (Educaos), Edad del entrevistado (Edad), Ingresos e ingresos anuales (Inganual) y las ingresamos en la casilla de resumen, de igual manera ubicamos las variables Gnero y Estado civil y la ingresamos en la casilla de agrupacin. Una vez ingresadas las variables en sus respectivas casilla debemos obtener los resultados de la figura [6-48]; sucesivamente activamos el botn de estadsticos y eliminamos de la casilla de seleccin las los estadsticos Suma y Porcentaje total de la suma, e ingresamos la Mediana [Fig.649]; para finalizar hacemos clic en Continuar y luego en Aceptar con lo que el Cubo se crea en el visor de resultados de SPSS [Fig.6-50].

Figuras 6-48 y 6-49

Figura 6-50 Como de costumbre el programa genera primero la tabla del resumen del procesamiento de casos, en la que incluye los recuentos para los valores validos y perdidos de cada una de las variables de escala (Resumen) que se hayan involucrado en el procedimiento. Si nos fijamos en los resultados de esta tabla, notaremos que para los clculos de las variables Edad en aos se tuvieron en cuenta 300 casos, mientras que para la variable Aos estudiados (Educaos) slo se tuvieran en cuenta 296 casos y para las variables Ingresos mensuales e Ingresos anuales (Inganual) se tomaron 298 casos respectivamente. La segunda tabla corresponde directamente al Cubo OLAP; en ella tambin se incluyen los recuentos y sus respectivos porcentajes. Si comparamos los valores porcentuales de las dos tablas notaremos que son diferentes, debido a que los porcentajes de la tabla de resumen representan la porcin de los casos del archivo que se incluyeron en el procedimiento, mientras los porcentajes del Cubo corresponden al total de casos validos del cruce de las variables categricas con cada variable de escala. Para poder acceder al cubo es necesario hacer doble clic sobre l, con lo que cada una de sus opciones se activar [Fig.6-51]. Si observamos las columnas de la tabla notaremos que han desaparecido los estadsticos (Suma y Porcentaje de suma) y en su lugar aparece la mediana. Es necesario resaltar que los valores de los estadsticos de cada una de las variables de escala son calculados por separado basado en las condiciones (Categoras) de las variables de Agrupacin.

Figura 6-51 Por el momento no entraremos a realizar el anlisis de los datos y nos enfocaremos en las opciones del botn Diferencias. En la siguiente leccion le pediremos al programa que incluya diferencias entre las variables para exponer los efectos de esta opcion.

Diferencias: Variables de Escala - Cubos OLAP


Para comprender las opciones del botn Diferencias es necesario que nos fijemos en las posibilidades de cada una de las listas desplegables de las variables de agrupacin [Fig.6-52], ya que los resultados de las diferencias entre categoras de una variable aparecen dentro de ellos. Si observamos los listados, notaremos que cuentan con las categoras de cada variable y adicionalmente se anexa la categora Total; despus de realizar el ejemplo compararemos los listados con el fin de hacer notar los cambios.

Figura 6-52 Los resultados de cada una de las combinaciones de las categoras de las variables de agrupacin sern explorados ms adelante, por el momento nos concentraremos en generar comparaciones entre las variables de escala y entre las categoras de una variable de agrupacin. Para realizarlo debemos desactivar el Cubo haciendo clic fuera del rea de seleccin y posteriormente debemos volver al cuadro de dilogo del procedimiento ya sea a travs del botn Recuperar cuadro de dilogo ( ) o mediante la ruta Analizar.. Informes.. Cubos OLAP. Una vez aparece el cuadro hacemos clic en el botn Diferencias con lo cual se activa el cuadro

correspondiente. Dado que existen cuatro variables de escala en la casilla de resumen la opcin Diferencias entre variables se encuentra disponible; al seleccionar esta opcin la seccin Diferencias entre variables se activa, debemos observar que la ultima casilla de esta seccin se encuentra aun deshabilitada debido a que en la Seccin tipo de diferencia slo se encuentra seleccionada la opcin diferencia porcentual, al activar la opcin diferencia aritmtica se activa la casilla Etiqueta aritmtica [Fig.6-53].

Figura 6-51 Despus de activar los dos tipos de diferencias debemos definir las variables que sern comparadas, para lo cual nos dirigimos a la casilla variable de la seccin Diferencias entre variables y por medio del botn desplegable ( ) ubicamos la variable Ingresos anuales (Inganual); posteriormente, en la casilla Menos variable seleccionamos la variable Ingresos mensuales (Ingrsos). A continuacin introducimos en la etiqueta de porcentaje la leyenda Diferencia porcentual entre los ingresos y en la casilla etiqueta aritmtica la leyenda Diferencia aritmtica entre los ingresos. Una vez especificadas cada una de las casillas, hacemos clic en el botn flecha ( ) con lo que la diferencia queda definida en la casilla Pares [Fig.6-54]. Para finalizar hacemos clic en el botn Continuar y luego en Aceptar con lo que los resultados son expuestos en el visor [Fig.6-55]. Si nos fijamos en los resultados notaremos que ahora aparecen dos nuevas filas correspondientes a la diferencia porcentual y la diferencia aritmtica entre las variables Ingresos anuales y la variable Ingresos mensuales.

Figura 6-55 Cada una de las casillas de estas filas contiene la diferencia aritmtica o porcentual que existe entre los valores de las dos variables. Para hallar la diferencia aritmtica el programa toma el valor de la

primera variable (Inganual) y le resta el valor de la segunda variable (Ingresos); mientras que para la diferencia porcentual toma el resultado de la diferencia aritmtica y lo divide por el valor de la casilla de la segunda variable (Ingresos) y el resultado se multiplica por el 100 %. La diferencia entre variables de escala es de gran utilidad cuando trabajamos con variables como las ventas, ya que nos permite determinar las variaciones entre dos grupos de ventas. El programa nos permite definir varios grupos de variables siempre y cuando las variables tengan la misma dimensin; es decir, no debemos definir variables que no estn relacionadas como la edad y los ingresos ya que la primera se expresa en aos y la segunda representa cantidades de dinero (en este caso dlares). El nmero mximo de diferencias esta limitado por el nmero de variables de escala que se hayan definido para el procedimiento. El programa no permite que las diferencias entre variables sean empleadas al mismo tiempo que las diferencias entre categoras de una variable, por este motivo si desplegamos las listas de categoras de cada variable no aparecern ninguna diferencia. En la siguiente leccion conoceremos la forma de crear una diferencia entre las categorias de una variable de agrupacin.

Diferencias: Variables Categoricas - Cubos OLAP


Para crear una comparacin entre las categoras de una variable debemos volver al cuadro de dilogo y seleccionar el botn Diferencias con lo que aparecer el cuadro correspondiente. Antes de definir las categoras y la variable debemos seleccionar en la seccin Diferencias entre estadsticos de resumen la opcin Diferencias entre grupos de variables con lo que se activaran las casillas de la seccin correspondiente. En la casilla variable debemos elegir de la lista desplegable la variable Gnero; a continuacin introducimos en la casilla categora el nmero que representa a la categora que deseamos vincular, este valor se debi estipular con anterioridad en la vista de variables, para el ejemplo este valor corresponde al nmero 1 que representa la categora Femenino, sucesivamente en la casilla Menos categora ingresamos el valor 2 que identifica la categora Masculino; en la casilla etiqueta de porcentaje ingresamos la leyenda Diferencia porcentual y en la etiqueta aritmtica la leyenda Diferencia aritmtica. Una vez hemos definido cada una de las casillas satisfactoriamente hacemos clic en el botn flecha con lo que la comparacin queda declarada en la casilla pares [Fig.6-56].

Figura 6-56 Es necesario aclarar que a pesar que las dos diferencias se encuentran declaradas en el mismo cuadro de dilogo, el programa slo realiza la comparacin que coincida con la opcin seleccionada en la seccin Diferencias para estadsticos de resumen omitiendo la otra; es decir, el programa slo realiza la comparacin correspondiente a la opcin que se encuentre seleccionada en la seccin Diferencia para estadsticos de resumen al momento de hacer clic en el botn Continuar. Para terminar hacemos clic en Continuar y luego en Aceptar con lo que los resultados son creados en el visor de SPSS [Fig.6-57].

Figura 6-57 A simple vista es imperceptible notar los resultados de este procedimiento, para poderlos observar debemos activar el cubo y seleccionar la lista desplegable de la variable Gnero, en donde encontraremos dos nuevas opciones denominadas Diferencia porcentual y Diferencia aritmtica. Al seleccionar la diferencia porcentual, los resultados de cada casilla de la tabla cambiaran enseando

valores porcentuales [Fig.6-58]; si nos fijamos en los resultados notaremos que algunos de estos valores cuentan con signo negativo, lo que nos indica que en esa casilla el resultado del Gnero Masculino es mayor que el Gnero Femenino. Cada uno de los valores de casilla representa la diferencia porcentual de los resultados de los Gneros y el signo nos indica cual de ellos es mayor.

Figura 6-58 Ahora si seleccionamos la opcin Diferencia aritmtica los valores de cada casilla representarn la diferencia numrica de los Gneros obteniendo los resultados de la figura [6-59].

Figura 6-59 Es necesario recalcar que para estos valores los signos cuentan con la misma utilidad (El signo positivo representan que el gnero femenino es mayor que el masculino y el signo negativo representa el sentido contrario) y a su vez los valores representan la diferencia que existe entre los dos gneros, es decir, si por ejemplo observamos la Media de la edad del entrevistado, este valor nos indicara que los hombres cuentan con un promedio de edad ms alto que el de las mujeres y su diferencia es de 1.6 Aos en promedio. Para observar los valores de cada Gnero (Masculino o Femenino) debemos seleccionarlo en la lista desplegable, con lo cual los valores de la tabla representarn el comportamiento de sus datos a travs de las variables de resumen. Las diferencias (Porcentual y Aritmtica), tambin pueden ser realizadas combinando las categoras de la variable estado civil; es decir, podemos comparar el comportamiento de la edad, los aos estudiados o las ingresos de los gneros de las personas casadas. Para realizarlo debemos seleccionar la lista desplegable de la variable Estado civil y elegir la categora casado, con lo que obtendramos los resultados de la tabla de le figura [6-60].

Figura 6-60 En la siguiente leccin conoceremos el ltimo boton de opcin conque cuenta el procedimiento Cubos OLAP de SPSS.

Titulos en los Cubos OLAP de SPSS


El ultimo botn de opcin que encontramos en el cuadro de dialogo de Cubos OLAP corresponde a Ttulo, a travs de l, podemos editar el ttulo y las notas al pie que sern incluidas en el cubo. Al seleccionarlo aparece el cuadro de dilogo correspondiente [Fig.6-61]; en este cuadro encontramos dos casillas, la primera corresponde al ttulo y la segunda a las notas al pie. En cualquiera de estas casillas podemos ingresar leyendas informativas alfanumricas (letras, nmeros o smbolos) con un mximo de 255 caracteres.

Figura 6-61 A manera de ejemplo vamos a ingresar en los resultados del cubo algunas leyendas informativas. Para realizarlo debemos volver al cuadro de dilogo y seleccionar el botn Ttulo; al aparecer el cuadro ingresamos en la casilla ttulo la leyenda Exploracin de las variables Gnero y Estado civil, y en el casilla Pie ingresamos la leyenda Las diferencias Porcentual y Aritmtica estn estipuladas para los Gneros de los entrevistados; para finalizar hacemos clic en el botn Continuar y luego en Aceptar con lo que los resultados se generan en el visor [Fig.6-62].

Figura 6-62 En conclusin, el procedimiento Cubos OLAP nos permite explorar el comportamiento de varias variables de escala a travs de estadsticos de resumen, los cuales son expresados de acuerdo a una combinacin especfica de categoras de mltiples variables categricas. La utilidad de los cubos, radica en la posibilidad de apreciar el comportamiento de los datos a medida que se definen nuevas combinaciones de categoras, permitindonos observar aspectos especficos de la informacin como la edad o los ingresos de las mujeres casadas. Adicionalmente, el programa nos permite realizar comparaciones porcentuales o aritmticas entre las variables de escala o inclusive entre las categoras de una variable categrica.

Vous aimerez peut-être aussi