Vous êtes sur la page 1sur 332

i

IBM SPSS Categories 19


Jacqueline J. Meulman Willem J. Heiser SPSS Inc.

Note: Before using this information and the product it supports, read the general information under Notices el p. 307. This document contains proprietary information of SPSS Inc, an IBM Company. It is provided under a license agreement and is protected by copyright law. The information contained in this publication does not include any product warranties, and any statements provided in this manual should not be interpreted as such. When you send information to IBM or SPSS, you grant IBM and SPSS a nonexclusive right to use or distribute the information in any way it believes appropriate without incurring any obligation to you.
Copyright SPSS Inc. 1989, 2010.

Prefacio

IBM SPSS Statistics es un sistema global para el anlisis de datos. El mdulo adicional opcional Categoras proporciona las tcnicas de anlisis adicionales que se describen en este manual. El mdulo adicional Categoras se debe utilizar con el sistema bsico de SPSS Statistics y est completamente integrado en dicho sistema.

Acerca de SPSS Inc., an IBM Company


SPSS Inc., an IBM Company, es uno de los principales proveedores globales de software y soluciones de anlisis predictivo. La gama completa de productos de la empresa (recopilacin de datos, anlisis estadstico, modelado y distribucin) capta las actitudes y opiniones de las personas, predice los resultados de las interacciones futuras con los clientes y, a continuacin, acta basndose en esta informacin incorporando el anlisis en los procesos comerciales. Las soluciones de SPSS Inc. tratan los objetivos comerciales interconectados en toda una organizacin centrndose en la convergencia del anlisis, la arquitectura de TI y los procesos comerciales. Los clientes comerciales, gubernamentales y acadmicos de todo el mundo confan en la tecnologa de SPSS Inc. como ventaja ante la competencia para atraer, retener y hacer crecer los clientes, reduciendo al mismo tiempo el fraude y mitigando los riesgos. SPSS Inc. fue adquirida por IBM en octubre de 2009. Para obtener ms informacin, visite http://www.spss.com.

Asistencia tcnica
El servicio de asistencia tcnica est a disposicin de todos los clientes de mantenimiento. Los clientes podrn ponerse en contacto con este servicio de asistencia tcnica si desean recibir ayuda sobre la utilizacin de los productos de SPSS Inc. o sobre la instalacin en alguno de los entornos de hardware admitidos. Para ponerse en contacto con el servicio de asistencia tcnica, consulte el sitio web de SPSS Inc. en http://support.spss.com o encuentre a su representante local a travs del sitio web http://support.spss.com/default.asp?refpage=contactus.asp. Tenga a mano su identicacin, la de su organizacin y su contrato de asistencia cuando solicite ayuda.

Servicio de atencin al cliente


Si tiene cualquier duda referente a la forma de envo o pago, pngase en contacto con su ocina local, que encontrar en el sitio Web en http://www.spss.com/worldwide. Recuerde tener preparado su nmero de serie para identicarse.

Copyright SPSS Inc. 1989, 2010

iii

Cursos de preparacin
SPSS Inc. ofrece cursos de preparacin, tanto pblicos como in situ. Todos los cursos incluyen talleres prcticos. Los cursos tendrn lugar peridicamente en las principales ciudades. Si desea obtener ms informacin sobre estos cursos, pngase en contacto con su ocina local que encontrar en el sitio Web en http://www.spss.com/worldwide.

Publicaciones adicionales
Los documentos SPSS Statistics: Guide to Data Analysis, SPSS Statistics: Statistical Procedures Companion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por Marija Noruis y publicados por Prentice Hall, estn disponibles y se recomiendan como material adicional. Estas publicaciones cubren los procedimientos estadsticos del mdulo SPSS Statistics Base, el mdulo Advanced Statistics y el mdulo Regression. Tanto si da sus primeros pasos en el anlisis de datos como si ya est preparado para las aplicaciones ms avanzadas, estos libros le ayudarn a aprovechar al mximo las funciones ofrecidas por IBM SPSS Statistics. Si desea informacin adicional sobre el contenido de la publicacin o muestras de captulos, consulte el sitio web de la autora: http://www.norusis.com

Agradecimientos
Los procedimientos de escalamiento ptimo y su implementacin en IBM SPSS Statistics han sido desarrollados por el grupo Data Theory Scaling System Group (DTSS), formado por miembros de los departamentos de educacin y psicologa de la facultad de ciencias sociales y del comportamiento de la Universidad de Leiden. Willem Heiser, Jacqueline Meulman, Gerda van den Berg y Patrick Groenen colaboraron en los procedimientos originales de 1990. Jacqueline Meulman y Peter Neufeglise participaron en el desarrollo de procedimientos de regresin categrica, anlisis de correspondencias, anlisis de componentes principales categrico y escalamiento multidimensional. Adems, Anita van der Kooij contribuy especialmente a CATREG, CORRESPONDENCE y CATPCA. Willem Heiser, Jacques Commandeur, Frank Busing, Gerda van den Berg y Patrick Groenen participaron en el desarrollo del procedimiento PROXSCAL. Frank Busing, Willem Heiser, Patrick Groenen y Peter Neufeglise participaron en el desarrollo del procedimiento PREFSCAL.

iv

Contenido
Parte I: Manual del usuario 1 Introduccin a los procedimientos de escalamiento ptimo de datos categricos 1
Qu es el escalamiento ptimo? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Por qu utilizar el escalamiento ptimo? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Nivel de escalamiento ptimo y nivel de medida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Seleccin del nivel de escalamiento ptimo. . . . . Grficos de transformacin . . . . . . . . . . . . . . . . . Cdigos de la categora . . . . . . . . . . . . . . . . . . . . Qu procedimiento es el mejor para la aplicacin? . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 3 3 4 6 7 8 9 10 11 12 13 13

Regresin categrica . . . . . . . . . . . . . . . . . . . . . . . . Anlisis de componentes principales categrico . . . . Anlisis de correlacin cannica no lineal . . . . . . . . . Anlisis de correspondencias . . . . . . . . . . . . . . . . . . Anlisis de correspondencias mltiple. . . . . . . . . . . . Escalamiento multidimensional . . . . . . . . . . . . . . . . . Desplegamiento multidimensional . . . . . . . . . . . . . . . Relacin de aspecto en grficos de escalamiento ptimo .

Lecturas recomendadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

Regresin categrica (CATREG)

15

Para definir la escala en regresin categrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 Discretizacin de regresin categrica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 Valores perdidos de regresin categrica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 Opciones de regresin categrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 Regularizacin de regresin categrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 Resultados de la regresin categrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 Regresin categrica: Guardar. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 Grficos de transformacin en regresin categrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 Funciones adicionales del comando CATREG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

Anlisis de componentes principales categrico (CATPCA) 27


Definir escala y ponderacin en CATPCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 Anlisis de componentes principales categrico: Discretizacin . . . . . . . . . . . . . . . . . . . . . . . . . 31 Anlisis de componentes principales categrico: Valores perdidos . . . . . . . . . . . . . . . . . . . . . . . 32 Anlisis de componentes principales categrico: Opciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 Anlisis de componentes principales categrico: Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 Anlisis de componentes principales categrico: Guardar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 Anlisis de componentes principales categrico: Grficos de objetos . . . . . . . . . . . . . . . . . . . . . 38 Anlisis de componentes principales categrico: Grficos de categoras . . . . . . . . . . . . . . . . . . . 39 Anlisis de componentes principales categrico: grfico de saturaciones . . . . . . . . . . . . . . . . . . 40 Funciones adicionales del comando CATPCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

Anlisis de correlacin cannica no lineal (OVERALS)

42

Definir rango y escala. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 Definir rango . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 Anlisis de correlacin cannica no lineal: Opciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 Funciones adicionales del comando OVERALS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

Anlisis de correspondencias

49

Definir rango de filas en Anlisis de correspondencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 Definir rango de columnas en Anlisis de correspondencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 Anlisis de correspondencias: Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 Anlisis de correspondencias: Estadsticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 Anlisis de correspondencias: Grficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 Funciones adicionales del comando CORRESPONDENCE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

Anlisis de correspondencias mltiple

58

Definir ponderacin de la variable en el anlisis de correspondencias mltiple. . . . . . . . . . . . . . . 60 Discretizacin en el anlisis de correspondencias mltiple. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 Valores perdidos en el anlisis de correspondencias mltiple. . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 Opciones de anlisis de correspondencias mltiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

vi

Resultados del anlisis de correspondencias mltiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 Anlisis de correspondencias mltiple: Guardar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 Anlisis de correspondencias mltiple: Grficos de objetos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 Anlisis de correspondencias mltiple: Grficos de variables. . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 Funciones adicionales del comando MULTIPLE CORRESPONDENCE. . . . . . . . . . . . . . . . . . . . . . . 68

Escalamiento multidimensional (PROXSCAL)

70

Proximidades en matrices a travs de columnas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 Proximidades en columnas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 Proximidades en una columna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 Crear proximidades de los datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 Crear la medida a partir de los datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 Definir un modelo de escalamiento multidimensional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 Escalamiento multidimensional: Restricciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 Escalamiento multidimensional: Opciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 Escalamiento multidimensional: Grficos, Versin 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 Escalamiento multidimensional: Grficos, Versin 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 Escalamiento multidimensional: Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 Funciones adicionales del comando PROXSCAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

Desplegamiento multidimensional (PREFSCAL)

85

Definir un modelo de desplegamiento multidimensional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 Restricciones del desplegamiento multidimensional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 Opciones de desplegamiento multidimensional. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 Grficos de desplegamiento multidimensional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 Resultados del desplegamiento multidimensional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 Funciones adicionales del comando PREFSCAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

vii

Parte II: Ejemplos 9 Regresin categrica 96

Ejemplo: Datos de limpiadores de alfombras. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 Anlisis de regresin lineal ordinario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 Anlisis de regresin categrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 Ejemplo: Datos sobre el ozono . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 Discretizacin de las variables . . . . . Seleccin del tipo de transformacin. Optimalidad de las cuantificaciones. . Efectos de las transformaciones . . . . Lecturas recomendadas . . . . . . . . . . . . . . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. .. .. .. .. 116 116 129 131 139

10 Anlisis de componentes principales categrico


Ejecucin del anlisis . . . . . . . . . . . . . . . . . . . . . . . . . . . Nmero de dimensiones . . . . . . . . . . . . . . . . . . . . . . . . . Cuantificaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Puntuaciones de los objetos . . . . . . . . . . . . . . . . . . . . . . Saturaciones en componentes . . . . . . . . . . . . . . . . . . . . Dimensiones adicionales . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo: sintomatologa de los trastornos de la alimentacin . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...

141
.. .. .. .. .. .. .. .. .. .. .. .. .. .. 142 146 147 149 150 152 154 155 167 169 170 171 173 189

Ejemplo: Examen de las interrelaciones de los sistemas sociales . . . . . . . . . . . . . . . . . . . . . . . . 141

Ejecucin del anlisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Grficos de transformacin . . . . . . . . . . . . . . . . . . . . . . . . . . Resumen del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Saturaciones en componentes . . . . . . . . . . . . . . . . . . . . . . . Puntuaciones de los objetos . . . . . . . . . . . . . . . . . . . . . . . . . Examen de la estructura del transcurso de la enfermedad . . . Lecturas recomendadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

11 Anlisis de correlacin cannica no lineal

191

Ejemplo: Un anlisis de los resultados de una encuesta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191 Examen de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192 Explicacin de la similitud entre los conjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198 Saturaciones en componentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202

viii

Grficos de transformacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Coordenadas de categora simples frente a categoras mltiples . Centroides y centroides proyectados. . . . . . . . . . . . . . . . . . . . . . Un anlisis alternativo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Sugerencias generales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Lecturas recomendadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

... ... ... ... ... ...

... ... ... ... ... ...

... ... ... ... ... ...

... ... ... ... ... ...

... ... ... ... ... ...

... ... ... ... ... ...

.. .. .. .. .. ..

203 205 206 209 214 215

12 Anlisis de correspondencias

216

Correspondence analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216 Normalizacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217 Ejemplo: Percepciones de marcas de caf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218 Ejecucin del anlisis . . . Dimensionalidad . . . . . . . Contribuciones . . . . . . . . Grficos. . . . . . . . . . . . . . Normalizacin simtrica . Lecturas recomendadas . . . . . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. .. .. .. .. .. 218 222 223 224 225 227

13 Anlisis de correspondencias mltiple


Ejecucin del anlisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Resumen del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Puntuaciones de los objetos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Medidas de discriminacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Cuantificaciones de categoras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Una observacin ms detallada de las puntuaciones de los objetos. . Omisin de valores atpicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Lecturas recomendadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...

228
.. .. .. .. .. .. .. .. 229 231 232 233 234 236 239 242

Ejemplo: Caractersticas de la ferretera . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228

14 Multidimensional Scaling

244

Ejemplo: Un examen de los trminos de parentesco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244 Eleccin del nmero de dimensiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245 Una solucin tridimensional. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251

ix

Una solucin tridimensional con transformaciones que no son por defecto . . . . . . . . . . . . . 257 Discusin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260 Lecturas recomendadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260

15 desplegamiento multidimensional
Creacin de una solucin degenerada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Medidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Espacio comn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejecucin de un anlisis no degenerado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Medidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Espacio comn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo: Desplegamiento triple de las preferencias de los elementos del desayuno . . Ejecucin del anlisis . . . . . . . . . . . . . . . . . . . . . . . . . . . Medidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Espacio comn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Espacios individuales . . . . . . . . . . . . . . . . . . . . . . . . . . . Uso de una configuracin inicial diferente . . . . . . . . . . . . Medidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Espacio comn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Espacios individuales . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo: Examen de lo apropiado de conducta y situacin . . . Ejecucin del anlisis . . . . . . . . . . . . . . . . . . . . . . . . . . . Medidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Espacio comn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Transformaciones de proximidades . . . . . . . . . . . . . . . . . Cambio de la transformacin de proximidades (ordinal) . . Medidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Espacio comn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Transformaciones de proximidades . . . . . . . . . . . . . . . . . Lecturas recomendadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...

262
.. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. 262 265 266 267 268 269 269 270 274 275 276 279 281 282 283 285 285 290 291 292 292 294 295 296 296

Ejemplo: Preferencias del elemento de desayuno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262

Apndices A Archivos muestrales B Notices Bibliografa ndice 297 307 309 315

xi

Parte I: Manual del usuario

Captulo

Introduccin a los procedimientos de escalamiento ptimo de datos categricos

Los procedimientos de categoras utilizan el escalamiento ptimo para analizar datos que son difciles o imposibles de analizar mediante los procedimientos estadsticos estndar. Este captulo describe lo que hace cada procedimiento, las situaciones en las que cada procedimiento es ms apropiado, las relaciones entre los procedimientos y las relaciones de estos procedimientos con sus procedimientos estadsticos anlogos estndar. Nota: estos procedimientos y su implementacin en IBM SPSS Statistics han sido desarrollados por el grupo Data Theory Scaling System Group (DTSS), formado por miembros de los departamentos de educacin y psicologa de la facultad de ciencias sociales y del comportamiento de la Universidad de Leiden.

Qu es el escalamiento ptimo?
La idea que subyace tras el escalamiento ptimo es asignar cuanticaciones numricas a las categoras de cada variable, lo que permite utilizar los procedimientos estndar para obtener una solucin con las variables cuanticadas. Los valores de escala ptimos se asignan a las categoras de cada variable de acuerdo con el criterio de optimizacin del procedimiento que se est utilizando. A diferencia de las etiquetas originales de las variables nominales u ordinales del anlisis, estos valores de escala tienen propiedades mtricas. En la mayora de los procedimientos de categoras, la cuanticacin ptima de cada variable escalada se obtiene mediante un mtodo iterativo denominado mnimos cuadrados alternantes en el que, despus de que se utilicen las cuanticaciones actuales para encontrar una solucin, las cuanticaciones se actualizan utilizando dicha solucin. A continuacin, se utilizan las cuanticaciones actualizadas para buscar una nueva solucin, que a su vez se utiliza para actualizar las cuanticaciones y as sucesivamente, hasta que se alcanza algn criterio que indica al proceso que nalice.

Por qu utilizar el escalamiento ptimo?


Los datos categricos se utilizan con frecuencia en los estudios de mercado, los estudios de encuestas y la investigacin en las ciencias sociales y del comportamiento. De hecho, muchos investigadores trabajan casi exclusivamente con datos categricos.
Copyright SPSS Inc. 1989, 2010 1

2 Captulo 1

Aunque existen adaptaciones de la mayora de los modelos estndar que permiten analizar especcamente datos categricos, con frecuencia no funcionan bien con conjuntos de datos con las siguientes caractersticas:

Observaciones insucientes Demasiadas variables Demasiados valores por cada variable

Mediante la cuanticacin de categoras, las tcnicas de escalamiento ptimo evitan los problemas de estas situaciones. Adems, son muy tiles incluso cuando es apropiado utilizar tcnicas especializadas. En vez de interpretar las estimaciones de los parmetros, la interpretacin de los resultados del escalamiento ptimo muchas veces se basa en representaciones grcas. Las tcnicas de escalamiento ptimo ofrecen excelentes anlisis exploratorios, que complementan tambin a otros modelos de IBM SPSS Statistics. Mediante el acotamiento del objetivo de la investigacin, la visualizacin de los datos mediante el escalamiento ptimo puede formar la base de un anlisis que se centre en la interpretacin de los parmetros del modelo.

Nivel de escalamiento ptimo y nivel de medida


Este concepto puede resultar muy confuso cuando se utilizan por primera vez los procedimientos de categoras. Al especicar el nivel, no se especica el nivel al que se miden las variables, sino el nivel al que se escalan. La idea es que las variables que se van a cuanticar pueden tener relaciones no lineales independientemente de cmo se midan. En categoras, hay tres niveles bsicos de medidas:

El nivel nominal implica que los valores de una variable representan categoras desordenadas. Algunos ejemplos de variables que pueden ser nominales seran la regin, el rea del cdigo postal, la confesin religiosa y las categoras con varias opciones. El nivel ordinal implica que los valores de una variable representan categoras ordenadas. Entre los ejemplos se incluyen escalas de actitud que representan el grado de satisfaccin o conanza y las puntuaciones de evaluacin de las preferencias. El nivel numrico implica que los valores de una variable representan categoras ordenadas con una mtrica signicativa, de modo que las comparaciones de distancia entre categoras son adecuadas. Entre los ejemplos se incluyen la edad en aos y los ingresos en dlares.

Por ejemplo, suponga que las variables regin, trabajo y edad se codican como se muestra en la siguiente tabla.
Tabla 1-1 Esquema de codificacin para regin, trabajo y edad

Regin 1 2 3 4 Norte Sur Este Oeste 1 2 3

Trabajo trabajador en prcticas vendedor administrador 20 22 25 27

Edad veinte aos veintids aos veinticinco aos veintisiete aos

3 Introduccin a los procedimientos de escalamiento ptimo de datos categricos

Los valores mostrados representan las categoras de cada variable. Regin sera una variable nominal. Hay cuatro categoras de regin, sin ningn orden intrnseco. Los valores del 1 al 4 sencillamente representan las cuatro categoras; el esquema de codicacin es completamente arbitrario. Trabajo, por otra parte, se podra considerar como variable ordinal. Las categoras originales forman una progresin desde trabajador en prcticas hasta administrador. Los cdigos mayores representan un trabajo superior en la escala corporativa. Sin embargo, slo se conoce la informacin acerca del orden, no se puede decir nada acerca de la distancia existente entre categoras adyacentes. Por el contrario, edad se podra considerar como una variable numrica. En el caso de edad, las distancias entre los valores son intrnsecamente signicativas. La distancia entre 20 y 22 es la misma que la que hay entre 25 y 27, mientras que la distancia entre 22 y 25 es superior a las dos anteriores.

Seleccin del nivel de escalamiento ptimo


Es importante comprender que no hay propiedades intrnsecas de una variable que predenan automticamente el nivel de escalamiento ptimo que se debera denir para ella. Puede explorar los datos de cualquier manera lgica que facilite la interpretacin. Mediante el anlisis de una variable de nivel numrico a nivel ordinal, por ejemplo, el uso de una transformacin no lineal puede permitir una solucin con menos dimensiones. Los dos ejemplos siguientes ilustran cmo el nivel de medida obvio no siempre es el mejor nivel de escalamiento ptimo. Supongamos que una variable ordena objetos en dos grupos de edad. Aunque la edad se puede escalar como una variable numrica, puede ocurrir que en las personas menores de 25 aos, la seguridad tenga una relacin positiva con la edad, mientras que en las personas mayores de 60 aos, la seguridad tenga una relacin negativa con la edad. En este caso, puede ser mejor tratar la edad como una variable nominal. Tomemos otro ejemplo, una variable que ordena a las personas por preferencia poltica parece ser bsicamente nominal. Sin embargo, si se ordenan los partidos desde la izquierda poltica hasta la derecha poltica, puede que le interese que la cuanticacin de los partidos respete este orden mediante un nivel ordinal de anlisis. Aunque no haya propiedades predenidas de una variable que la coloquen exclusivamente en un nivel o en otro, existen algunas normas generales que pueden ayudar al usuario inexperto. Con la cuanticacin nominal simple, habitualmente no se conoce el orden de las categoras pero se desea que el anlisis imponga una. Si se conoce el orden de las categoras, debera intentarse la cuanticacin ordinal. Si las categoras no se pueden ordenar, puede intentar la cuanticacin nominal mltiple.

Grficos de transformacin
Los diferentes niveles en los que se puede escalar cada variable imponen diferentes restricciones sobre las cuanticaciones. Los grcos de transformacin ilustran la relacin entre las cuanticaciones y las categoras originales que resultan del nivel de escalamiento ptimo seleccionado. Por ejemplo, se genera un grco de transformacin lineal cuando una variable se trata como numrica. Las variables tratadas como ordinales generan grcos de transformacin no decreciente. Los grcos de transformacin de variables tratadas nominalmente que tienen forma de U (o la inversa) muestran una relacin cuadrtica. Las variables nominales tambin pueden

4 Captulo 1

generar grcos de transformacin sin tendencias aparentes mediante el cambio completo del orden de las categoras. La siguiente gura muestra un grco de transformacin de ejemplo. Los grcos de transformacin son especialmente adecuados para determinar si funciona bien el nivel de escalamiento ptimo seleccionado. Si varias categoras reciben cuanticaciones similares, la agrupacin de estas categoras en una categora puede estar justicada. Otra posibilidad, si una variable tratada como nominal recibe cuanticaciones que muestran una tendencia creciente, una transformacin ordinal puede generar un ajuste similar. Si esta tendencia es lineal, el tratamiento numrico puede resultar adecuado. Sin embargo, si la agrupacin de categoras o el cambio de los niveles de escalamiento estn justicados, el anlisis no cambiar de manera signicativa.
Figura 1-1 Transformacin del grfico del precio (numrico)

Cdigos de la categora
Se debe tener cierto cuidado al codicar las variables categricas ya que algunos esquemas de codicacin pueden generar resultados no deseados o anlisis incompletos. En la siguiente tabla se muestran algunos posibles esquemas de codicacin para el trabajo.
Tabla 1-2 Esquemas de codificacin alternativos para el trabajo

Esquema Categora trabajador en prcticas vendedor administrador A 1 2 3 B 1 2 7 C 5 6 7 D 1 5 3

Algunos procedimientos de categoras requieren que se dena el rango de cada variable. Todo valor fuera de este rango se tratar como un valor perdido. El valor de categora mnima es siempre 1. El valor de categora mxima lo indica el usuario. Este valor no es el nmero de categoras de una variable, sino el valor mayor de la categora. Por ejemplo, en la tabla, el

5 Introduccin a los procedimientos de escalamiento ptimo de datos categricos

esquema A tiene un valor de categora mxima de 3 y el esquema B tiene un valor de categora mxima de 7, aunque ambos esquemas codican las mismas tres categoras. El rango de la variable determina las categoras que se omitirn del anlisis. Todas las categoras con cdigos fuera del rango denido se omitirn del anlisis. Se trata de un mtodo sencillo de omitir categoras, pero puede generar anlisis no deseados. Una categora mxima incorrectamente denida puede omitir categoras vlidas del anlisis. Por ejemplo, para el esquema B, si se dene que el valor de categora mxima sea 3 indica que trabajo tiene categoras codicadas de 1 a 3; la categora administrador se tratar como valor perdido. Como no hay ninguna categora que se haya codicado realmente como 3, la tercera categora del anlisis no contendr ningn caso. Si desea omitir todas las categoras de administrador, este anlisis sera adecuado. Sin embargo, si desea incluir a los administradores, la categora mxima deber denirse como 7 y los valores perdidos debern codicarse con valor por encima de 7 o por debajo de 1. Para las variables tratadas como nominales u ordinales, el rango de las categoras no afecta a los resultados. Para las variables nominales, es importante slo la etiqueta y no el valor asociado con dicha etiqueta. Para las variables ordinales, se conserva el orden de las categoras en las cuanticaciones; los propios valores de las categoras no son importantes. Todos los esquemas de codicacin que produzcan el mismo orden de categoras tendrn resultados idnticos. Por ejemplo, los tres primeros esquemas de la tabla son funcionalmente equivalentes si trabajo se analiza a nivel ordinal. El orden de las categoras es idntico en estos esquemas. El esquema D, por otra parte, invierte las categoras segunda y tercera y generar resultados diferentes de los de los otros esquemas. Aunque muchos esquemas de codicacin de una variable son funcionalmente equivalentes, se preeren aquellos esquemas con pequeas diferencias entre los cdigos, ya que los cdigos afectan a la cantidad de resultados que genera un procedimiento. Todas las categoras codicadas con valores entre 1 y el mximo denido por el usuario son vlidas. Si alguna de estas categoras est vaca, las cuanticaciones correspondientes sern valores perdidos por el sistema o 0, dependiendo del procedimiento. Aunque ninguna de estas asignaciones afecta a los anlisis, se generarn los resultados correspondientes a estas categoras. Por tanto, para el esquema B, trabajo tiene cuatro categoras que reciben valores perdidos por el sistema. Para el esquema C, tambin hay cuatro categoras que reciben indicadores de valores perdidos por el sistema. Por el contrario, para el esquema A no hay ninguna cuanticacin de valores perdidos por el sistema. El uso de nmeros enteros consecutivos como cdigos de las variables tratadas como nominales u ordinales genera una cantidad mucho menor de resultados sin que stos se vean afectados. Los esquemas de codicacin de las variables tratadas como numricas son mucho ms restringidos que cuando se trata de una variable ordinal. Para estas variables, las diferencias entre las categoras consecutivas son importantes. La siguiente tabla muestra tres esquemas de codicacin para edad.
Tabla 1-3 Esquemas de codificacin alternativos para la edad

Esquema Categora 20 22 25 27 A 20 22 25 27 B 1 3 6 8 C 1 2 3 4

6 Captulo 1

Toda recodicacin de las variables numricas debe conservar las diferencias entre las categoras. El uso de los valores originales es un mtodo para asegurarse de la conservacin de las diferencias. Sin embargo, esto puede generar que muchas categoras tengan indicadores de valores perdidos por el sistema. Por ejemplo, el esquema A utiliza los valores originales observados. Para todos los procedimientos de categoras salvo para el anlisis de correspondencias, el valor de categora mxima es 27 y el valor de categora mnimo se establece en 1. Las primeras 19 categoras estn vacas y reciben indicadores de valores perdidos por el sistema. Los resultados pueden volverse rpidamente bastante engorrosos si la categora mxima es mucho mayor que 1 y hay muchas categoras vacas entre 1 y el mximo. Para reducir la cantidad de resultados, se puede aplicar una recodicacin. Sin embargo, en el caso numrico, la funcin Recodicacin automtica no se debe utilizar. La codicacin en enteros consecutivos generar diferencias de 1 entre todas las categoras consecutivas y, por tanto, todas las cuanticaciones tendrn idntica separacin. Las caractersticas mtricas que se consideraban importantes al tratar una variable como numrica desaparecen al recodicarla mediante enteros consecutivos. Por ejemplo, el esquema C de la tabla corresponde a la recodicacin automtica de edad. La diferencia entre las categoras 22 y 25 ha cambiado de tres a uno y las cuanticaciones reejarn esta ltima diferencia. Un esquema de recodicacin alternativa que conserva las diferencias entre las categoras consiste en restar el valor de la categora ms pequea a cada categora y sumar 1 a cada diferencia. El esquema B surge de esta transformacin. El valor de categora ms pequeo, 20, se ha restado a cada categora y se sumado 1 a cada resultado. Los cdigos transformados tienen un mnimo de 1 y todas las diferencias son idnticas a los datos originales. El valor de categora mxima es ahora 8 y se eliminan todas las cuanticaciones de cero antes de la primera cuanticacin que no es cero. An as, las cuanticaciones que no son cero correspondientes a cada categora que resultan del esquema B son idnticas a las cuanticaciones del esquema A.

Qu procedimiento es el mejor para la aplicacin?


Las tcnicas que se incluyen en cuatro de estos procedimientos (Anlisis de correspondencias, Anlisis de correspondencias mltiple, Anlisis de componentes principales categrico y Anlisis de correlacin cannica no lineal) corresponden al rea general del anlisis de datos multivariantes conocido como reduccin de dimensiones. Es decir, las relaciones entre las variables se representan en un nmero pequeo de dimensiones (digamos, dos o tres) con tanta frecuencia como sea posible. Esto permite describir las estructuras o patrones de las relaciones que seran extremadamente difcil de descubrir con su riqueza y complejidad original. En las aplicaciones de investigacin de mercados, estas tcnicas pueden ser una forma de asignacin perceptual. Una importante ventaja de estos procedimientos es que se adaptan a los datos con diferentes niveles de escalamiento ptimo. La regresin categrica describe la relacin entre una variable de respuesta categrica y una combinacin de predictores categricos. La inuencia de cada predictor sobre la variable de respuesta la describe la correspondiente ponderacin de regresin. Como en los dems procedimientos, los datos se pueden analizar con diferentes niveles de escalamiento ptimo. El escalamiento multidimensional y el desplegamiento multidimensional describe las relaciones entre objetos en un espacio conceptual de pocas dimensiones utilizando las proximidades entre los objetos.

7 Introduccin a los procedimientos de escalamiento ptimo de datos categricos

A continuacin, se indican unas breves normas generales para cada uno de los procedimientos:

Utilice la regresin categrica para pronosticar los valores de una variable dependiente categrica a partir de una combinacin de variables independientes categricas. Utilice el anlisis de componentes principales categrico para tener en cuenta los patrones de variacin de un nico conjunto de variables con varios tipos de niveles de escalamiento ptimos. Utilice el anlisis de correlacin cannica no lineal para evaluar el grado de correlacin entre dos o ms conjuntos de variables de varios tipos de niveles de escalamiento ptimo. Utilice el anlisis de correspondencias para analizar tablas de contingencia de doble clasicacin o datos que se puedan expresar como una tabla de doble clasicacin, como la preferencia por una u otra marca o datos de opcin sociomtricos. Utilice el anlisis de correspondencias mltiple para analizar una matriz de datos multivariantes categricos cuando no se est dispuesto a suponer que todas las variables se analizan a nivel nominal. Utilice el escalamiento multidimensional para analizar datos de proximidad para buscar una representacin de un solo conjunto de los objetos en un espacio de pocas dimensiones. Utilice el desplegamiento multidimensional para analizar datos de proximidad para buscar una representacin de dos conjuntos de los objetos en un espacio de pocas dimensiones.

Regresin categrica
El uso de la regresin categrica es especialmente adecuado cuando el objetivo del anlisis es pronosticar una variable dependiente (de respuesta) a partir de un conjunto de variables (predictoras) independientes. Al igual que ocurre con todos los procedimientos de escalamiento ptimo, los valores de escala se asignan a cada categora de cada variable de manera que estos valores sean ptimos respecto a la regresin. La solucin de una regresin categrica maximiza la correlacin de los cuadrados entre la respuesta transformada y la combinacin ponderada de los predictores transformados.
Relacin con otros procedimientos de categoras. La regresin categrica con escalamiento ptimo

se puede comparar con el anlisis de correlacin cannica mediante escalamiento ptimo con dos conjuntos, uno de los cuales slo contiene la variable dependiente. En esta ltima tcnica, la similitud de los conjuntos se determina mediante la comparacin de cada conjunto con una variable desconocida que se encuentra en algn sitio entre todos los conjuntos. En la regresin categrica, la similitud de la respuesta transformada y la combinacin lineal de los predictores transformados se evala directamente.
Relacin con las tcnicas estndar. En la regresin lineal estndar, las variables categricas se pueden recodicar como variables indicadoras o se pueden tratar de la misma manera que las variables de nivel de intervalo. En el primer mtodo, el modelo contiene una pendiente y un punto de corte diferentes para cada combinacin de los niveles de las variables categricas. Esto implica que es necesario interpretar un gran nmero de parmetros. En el segundo enfoque, slo se estima un parmetro para cada variable. Sin embargo, la naturaleza arbitraria de las codicaciones de categoras hace imposibles las generalizaciones.

8 Captulo 1

Si algunas de las variables no son continuas, habr disponibles anlisis alternativos. Si la respuesta es continua y los predictores son categricos, se suele utilizar el anlisis de la varianza. Si la respuesta es categrica y los predictores son continuos, puede que sean adecuados el anlisis discriminante o la regresin logstica. Si la respuesta y los predictores son ambos categricos, se suelen utilizar modelos loglineales. La regresin con el escalamiento ptimo ofrece tres niveles de escalamiento para cada variable. Las combinaciones de estos niveles pueden tener en cuenta una gran variedad de relaciones no lineales para las que cualquier mtodo estndar no se adapte bien. Por tanto, el escalamiento ptimo ofrece una mayor exibilidad que los enfoques estndar con una mnima complejidad adicional. Adems, las transformaciones no lineales de los predictores suelen reducir las dependencias entre los predictores. Si compara los autovalores de la matriz de correlaciones de los predictores con los autovalores de la matriz de correlaciones de los predictores escalados ptimamente, este ltimo conjunto normalmente ser menos variable que el anterior. Dicho de otra manera, en la regresin categrica, el escalamiento ptimo hace que los autovalores mayores de la matriz de correlaciones de los predictores sean ms pequeos y que los autovalores ms pequeos sean ms grandes.

Anlisis de componentes principales categrico


El uso del anlisis de componentes principales categrico es especialmente adecuado cuando se desea tener en cuenta los patrones de variacin de un nico conjunto de variables con varios tipos de niveles de escalamiento ptimos. Esta tcnica intenta reducir la dimensionalidad de un conjunto de variables al mismo tiempo que tiene en cuenta toda la variacin que sea posible. Se asignan valores de escala a cada categora de cada variable de manera que estos valores sean ptimos respecto a la solucin de componentes principales. Los objetos del anlisis reciben puntuaciones de componentes en funcin de los datos cuanticados. Los grcos de las puntuaciones de componentes revelan los patrones de los objetos del anlisis y pueden revelar objetos poco habituales en los datos. La solucin de un anlisis de componentes principales categrico maximiza las correlaciones de las puntuaciones de objetos con cada una de las variables cuanticadas para el nmero de componentes (dimensiones) especicado. Una aplicacin importante de los componentes principales categricos es el estudio de los datos de preferencias, en el que los encuestados clasican o evalan un nmero de elementos de acuerdo con sus preferencias. En la conguracin de datos de IBM SPSS Statistics habitual, las las son individuos, las columnas son medidas de los elementos y las puntuaciones a travs de las las son puntuaciones de preferencias (en una escala de 0 a 10, por ejemplo), lo que hace que los datos sean condicionales respecto a las las. Para los datos de preferencias, es posible que quiera tratar a los individuos como variables. Mediante el procedimiento Transponer, puede transponer los datos. Los evaluadores se convierten en las variables y todas las variables se declaran como ordinales. No hay ningn problema en utilizar ms variables que objetos en CATPCA.
Relacin con otros procedimientos de categoras. Si todas las variables se declaran como nominales mltiples, el anlisis de componentes principales categrico produce un anlisis equivalente a un anlisis de correspondencias mltiple ejecutado sobre las mismas variables. Por tanto, el anlisis de componentes principales categrico se puede considerar como un tipo de anlisis de correspondencias mltiple en el que algunas de las variables se declaran como ordinales o numricas.

9 Introduccin a los procedimientos de escalamiento ptimo de datos categricos

Relacin con las tcnicas estndar. Si todas las variables se escalan a nivel numrico, el anlisis de componentes principales categrico es equivalente al anlisis de componentes principales estndar. De manera ms general, el anlisis de componentes principales categricos es una alternativa al clculo de las correlaciones entre las escalas no numricas y su anlisis mediante un enfoque de anlisis de factores o de componentes principales estndar. El uso simplista del coeciente de correlacin de Pearson habitual como medida de la asociacin de los datos ordinales puede llevar a un sesgo de importancia a la hora de estimar las correlaciones.

Anlisis de correlacin cannica no lineal


El anlisis de correlacin cannica no lineal es un procedimiento muy general con numerosas aplicaciones diferentes. El objetivo del anlisis de correlacin cannica no lineal es analizar las relaciones existentes entre dos o ms conjuntos de variables en vez de entre las propias variables, como ocurre en el anlisis de componentes principales. Por ejemplo, imaginemos que tiene dos conjuntos de variables, donde un conjunto de variables pueden contener elementos de informacin demogrca general en un conjunto de encuestados, mientras que un segundo puede contener las respuestas a un conjunto de elementos de actitud. Los niveles de escalamiento del anlisis pueden ser cualquier combinacin de nominal, ordinal y numrico. El anlisis de correlacin cannica mediante escalamiento ptimo determina la similitud existente entre los conjuntos mediante la comparacin de manera simultnea de las variables cannicas de cada conjunto con un conjunto de puntuaciones de compromiso asignadas a los objetos.
Relacin con otros procedimientos de categoras. Si hay dos o ms conjuntos de variables con nicamente una variable por conjunto, el anlisis de correlacin cannica mediante escalamiento ptimo es equivalente al anlisis de componentes principales mediante escalamiento ptimo. Si todas las variables en un anlisis de una variable por conjunto son nominales mltiples, el anlisis de correlacin cannica mediante escalamiento ptimo es equivalente al anlisis de correspondencias mltiple. Si hay dos conjuntos de variables, uno de los cuales contiene nicamente una variable, el anlisis de correlacin cannica categrica mediante escalamiento ptimo es equivalente a una regresin categrica mediante escalamiento ptimo. Relacin con las tcnicas estndar. El anlisis de correlacin cannica tpico es una tcnica

estadstica que busca una combinacin lineal de un conjunto de variables y una combinacin lineal de un segundo conjunto de variables de correlacin mxima. Dado este conjunto de combinaciones lineales, el anlisis de correlacin cannica puede buscar otros conjuntos independientes de combinaciones lineales, a los que se denominan variables cannicas, hasta un nmero mximo que es igual que el nmero de variables del conjunto ms pequeo. Si hay dos conjuntos de variables en el anlisis y todas las variables se denen como numricas, el anlisis de correlacin cannica mediante escalamiento ptimo es equivalente a un anlisis de correlacin cannica tpico. Aunque IBM SPSS Statistics no tiene un procedimiento de anlisis de correlacin cannica, muchos de los estadsticos pertinentes se pueden obtener mediante un anlisis multivariante de la varianza. El anlisis de correlacin cannica mediante escalamiento ptimo tiene otras aplicaciones. Si tiene dos conjuntos de variables y uno de los conjuntos contiene una variable nominal declarada como nominal simple, los resultados del anlisis de correlacin cannica mediante escalamiento ptimo se pueden interpretar de manera similar al anlisis de regresin. Si considera que la variable es nominal mltiple, el anlisis mediante escalamiento ptimo es una alternativa al

10 Captulo 1

anlisis discriminante. La agrupacin de las variables en ms de dos conjuntos proporciona varias maneras de analizar los datos.

Anlisis de correspondencias
El objetivo del anlisis de correspondencias es hacer grcos de dispersin biespacial para las tablas de correspondencias. En una tabla de correspondencias, las variables de las y de columnas se supone que representan categoras desordenadas; por tanto, se utiliza siempre el nivel de escalamiento ptimo nominal. Slo se examina la informacin nominal de ambas variables. Es decir, la nica consideracin es el hecho de que algunos objetos se encuentran en la misma categora, mientras que otros no. No se hace ninguna suposicin acerca de la distancia o el orden entre las categoras de la misma variable. Un uso especco del anlisis de correspondencias es el anlisis de las tablas de contingencia de doble clasicacin. Si una tabla tiene r las activas y c columnas activas, el nmero de dimensiones de la solucin de anlisis de correspondencias es el mnimo de r menos 1 o c menos 1, el que sea inferior. Dicho de otra manera, puede representar perfectamente las categoras de la o las categoras de columna de una tabla de contingencias en un espacio de dimensiones. En lo que se reere a la prctica, sin embargo, resulta preferible representar las categoras de la y de columna de una tabla de doble clasicacin en un espacio de pocas dimensiones, por ejemplo de dos dimensiones, ya que los grcos bidimensionales son de ms fcil comprensin que las representaciones espaciales multidimensionales. Cuando se utiliza un nmero menor que el nmero mximo de dimensiones posibles, los estadsticos generados por el anlisis describen la bondad con la que se representan las categoras de la y de columna en la representacin de pocas dimensiones. Siempre que la calidad de la representacin de la solucin de dos dimensiones sea buena, puede examinar los grcos de los puntos de la y de los puntos de columna para conocer las categoras de la variable de la que son similares, las categoras de la variable de columna que son similares y las categoras de la y de columna que son similares entre s.
Relacin con otros procedimientos de categoras. El anlisis de correspondencias simple se limita

a las tablas de doble clasicacin. Si hay ms de dos variables de inters, puede combinar las variables para crear variables de interaccin. Por ejemplo, para las variables regin, trabajo y edad, puede combinar regin y trabajo para crear una nueva variable retrabajo con las 12 categoras que aparecen en la siguiente tabla. Esta nueva variable forma una tabla bidimensional con edad (12 las, 4 columnas), que se pueden analizar en el anlisis de correspondencias.
Tabla 1-4 Combinaciones de regin y trabajo

Cdigo de categora 1 2 3 4 5 6

Denicin de categora Norte, trabajador en prcticas Norte, vendedor Norte, administrador Sur, trabajador en prcticas Sur, vendedor Sur, administrador

Cdigo de categora 7 8 9 10 11 12

Denicin de categora Este, trabajador en prcticas Este, vendedor Este, administrador Oeste, trabajador en prcticas Oeste, vendedor Oeste, administrador

11 Introduccin a los procedimientos de escalamiento ptimo de datos categricos

Un defecto de este enfoque es que se puede combinar cualquier par de variables. Podemos combinar trabajo y edad, lo que generara otra variable de 12 categoras. Tambin podemos combinar regin y edad, lo que generara una nueva variable de 16 categoras. Cada una de estas variables de interaccin forma una tabla de doble clasicacin con la variable restante. El anlisis de correspondencias de estas tres tablas no generar resultados idnticos, aunque cada uno de los enfoques es vlido. Adems, si hay cuatro o ms variables, se pueden generar las tablas de doble clasicacin que comparen una variable de interaccin con otra variable de interaccin. El nmero de posibles tablas que se pueden analizar puede ser bastante grande, incluso cuando hay pocas variables. Puede seleccionar una de estas tablas para analizarla o puede analizarlas todas. Otra posibilidad consiste en utilizar el procedimiento Anlisis de correspondencias mltiple para examinar todas las variables simultneamente sin que sea necesario crear variables de interaccin.
Relacin con las tcnicas estndar. El procedimiento Tablas de contingencia tambin se puede

utilizar para analizar tablas de contingencia, con independencia como un enfoque comn en los anlisis. Sin embargo, incluso en las tablas pequeas, la deteccin de las desviaciones de la independencia puede ser difcil. La utilidad del anlisis de correspondencias reside en la presentacin de tales patrones para tablas de doble clasicacin de cualquier tamao. Si hay una asociacin entre las variables de la y de columna (es decir, el valor de chi-cuadrado es signicativo) el anlisis de correspondencias puede ayudar a revelar la naturaleza de la relacin.

Anlisis de correspondencias mltiple


El anlisis de correspondencias mltiple intenta generar una solucin en la que los objetos de la misma categora se representan cerca los unos de los otros y los objetos de categoras diferentes se representan alejados los unos de los otros. Cada objeto se encuentra lo ms cerca posible de los puntos de categora para las categoras que se aplican a dicho objeto. De esta manera, las categoras dividen los objetos en subgrupos homogneos. Las variables se consideran homogneas cuando clasican objetos de las mismas categoras en los mismos subgrupos. Para una solucin de una sola dimensin, el anlisis de correspondencias mltiple asigna valores de escala ptimos (cuanticaciones de las categoras) a cada categora de cada variable de forma que en general, como media, las categoras tengan una mxima dispersin. Para una solucin de dos dimensiones, el anlisis de correspondencias mltiple busca un segundo conjunto de cuanticaciones de las categoras de cada variable no relacionada con el primer conjunto, volviendo a intentar maximizar la dispersin y as sucesivamente. Como las categoras de una variable reciben tantas puntuaciones como dimensiones haya, se supone que las variables del anlisis son nominales mltiples en el nivel de escalamiento ptimo. El anlisis de correspondencias mltiple tambin asigna puntuaciones a los objetos del anlisis de manera que las cuanticaciones de las categoras son los promedios, o los centroides, de las puntuaciones de los objetos de dicha categora.
Relacin con otros procedimientos de categoras. El anlisis de correspondencias mltiple

tambin se conoce como anlisis de homogeneidad o escalamiento dual. Proporciona resultados comparables, pero no idnticos, al anlisis de correspondencias cuando hay slo dos variables. El anlisis de correspondencias genera resultados nicos que resumen el ajuste y la calidad de la representacin de la solucin, incluida la informacin sobre la estabilidad. Por tanto, el anlisis de correspondencias habitualmente resulta preferible al anlisis de correspondencias mltiple en el caso de dos variables. Otra diferencia entre los dos procedimientos es que la entrada al anlisis

12 Captulo 1

de correspondencias mltiple es una matriz de datos, donde las las son objetos y las columnas son variables, mientras que la entrada al anlisis de correspondencias puede ser la misma matriz de datos, una matriz de proximidades general o una tabla de contingencias conjunta, que es una matriz agregada en la que tanto las las como las columnas representan categoras de variables. El anlisis de correspondencias mltiple tambin se puede considerar como un anlisis de componentes principales de datos escalados al nivel nominal mltiple.
Relacin con las tcnicas estndar. El anlisis de correspondencias mltiple se puede considerar

como el anlisis de una tabla de contingencia de clasicacin mltiple. Las tablas de contingencia de clasicacin mltiple tambin se pueden analizar con el procedimiento Tablas de contingencia, pero Tablas de contingencia proporciona estadsticos de resumen independientes para cada categora de cada variable de control. Con el anlisis de correspondencias mltiple, con frecuencia es posible resumir la relacin entre todas las variables con un nico grco bidimensional. Un uso avanzado del anlisis de correspondencias mltiple es sustituir los valores originales de la categora por los valores de la escala ptimos de la primera dimensin y realizar un anlisis multivariante secundario. Ya que el anlisis de correspondencias mltiple sustituye las etiquetas de categora por valores de escala numricos, se pueden aplicar muchos procedimientos diferentes que requieren datos numricos tras el anlisis de correspondencias mltiple. Por ejemplo, el procedimiento Anlisis factorial produce un primer componente principal que es equivalente a la primera dimensin del anlisis de correspondencias mltiple. Las puntuaciones de los componentes de la primera dimensin son iguales que las puntuaciones de los objetos y las saturaciones en componentes al cuadrado son iguales que las medidas de discriminacin. La segunda dimensin del anlisis de correspondencias mltiple, sin embargo, no es igual que la segunda dimensin del anlisis factorial.

Escalamiento multidimensional
El uso del escalamiento multidimensional es especialmente apropiado cuando el objetivo del anlisis es buscar la estructura de un conjunto de medidas de distancia entre un solo conjunto de objetos o casos. Esto se logra asignando las observaciones a posiciones especcas en un espacio conceptual de pocas dimensiones, de modo que las distancias entre los puntos en el espacio concuerden al mximo con las similaridades (o disimilaridades) dadas. El resultado es una representacin de mnimos cuadrados de los objetos en dicho espacio de pocas dimensiones que, en muchos casos, le ayudar a entender mejor los datos.
Relacin con otros procedimientos de categoras. Cuando tiene datos multivariantes a partir de los que se crean distancias y, a continuacin, los analiza con el escalamiento multidimensional, los resultados son similares al anlisis de los datos mediante el anlisis de componentes principales categricos con la normalizacin principal de objetos. Este tipo de PCA tambin se conoce como anlisis de coordenadas principales. Relacin con las tcnicas estndar. El procedimiento Escalamiento multidimensional

(PROXSCAL) de categoras ofrece varias mejoras sobre el procedimiento de escalamiento disponible en la opcin Estadsticas bsicas (ALSCAL). PROXSCAL ofrece un algoritmo acelerado para ciertos modelos y permite colocar restricciones en el espacio comn. Adems, PROXSCAL intenta minimizar el stress bruto normalizado, en vez del S-stress (tambin denominado tensin). El stress bruto normalizado se preere en general ya que es una medida basada en las distancias, mientras que el S-stress se basa en los cuadrados de las distancias.

13 Introduccin a los procedimientos de escalamiento ptimo de datos categricos

Desplegamiento multidimensional
El uso del desplegamiento multidimensional es especialmente apropiado cuando el objetivo del anlisis es buscar la estructura de un conjunto de medidas de distancia entre dos conjuntos de objetos (denominados objetos de la y de columna). Esto se logra asignando las observaciones a posiciones especcas en un espacio conceptual de pocas dimensiones, de modo que las distancias entre los puntos en el espacio concuerden al mximo con las similaridades (o disimilaridades) dadas. El resultado es una representacin de mnimos cuadrados de los objetos de la y de columna en dicho espacio de pocas dimensiones que, en muchos casos, le ayudar a entender mejor los datos.
Relacin con otros procedimientos de categoras. Si los datos constan de distancias entre un nico conjunto de objetos (una matriz simtrica cuadrada), utilice Escalamiento multidimensional. Relacin con las tcnicas estndar. El procedimiento Desplegamiento multidimensional

(PREFSCAL) de categoras ofrece varias mejoras sobre la funcionalidad de desplegamiento disponible en la opcin Estadsticas bsicas (a travs de ALSCAL). PREFSCAL permite colocar restricciones en el espacio comn; es ms, PREFSCAL intenta minimizar una medida de tensin penalizada que le ayuda a evitar las soluciones degeneradas (a las que los algoritmos antiguos son propensos).

Relacin de aspecto en grficos de escalamiento ptimo


La relacin de aspecto en los grcos de escalamiento ptimo es istropa. En un grco bidimensional, la distancia que representa una unidad en la dimensin 1 es igual que la distancia que representa una unidad en la dimensin 2. Si cambia el rango de una dimensin en un diagrama bidimensional, el sistema cambiar el tamao de la otra dimensin para mantener iguales las distancias fsicas. La relacin de aspecto istropa no se puede omitir para los procedimientos de escalamiento ptimo.

Lecturas recomendadas
Si desea obtener informacin general sobre las tcnicas de escalamiento ptimo consulte los siguientes textos: Barlow, R. E., D. J. Bartholomew, D. J. Bremner, y H. D. Brunk. 1972. Statistical inference under order restrictions. Nueva York: John Wiley and Sons. Benzcri, J. P. 1969. Statistical analysis as a tool to make patterns emerge from data. En: Methodologies of Pattern Recognition, S. Watanabe, ed. Nueva York: Academic Press. Bishop, Y. M., S. E. Feinberg, y P. W. Holland. 1975. Discrete multivariate analysis: Theory and practice. Cambridge, Mass.: MIT Press. De Leeuw, J. 1984. The Gi system of nonlinear multivariate analysis. En: Data Analysis and Informatics III, E. Diday, et al., ed.. De Leeuw, J. 1990. Multivariate analysis with optimal scaling. En: Progress in Multivariate Analysis, S. Das Gupta, y J. Sethuraman, eds. Calcuta: Indian Statistical Institute.

14 Captulo 1

De Leeuw, J., y J. Van Rijckevorsel. 1980. HOMALS and PRINCALSSome generalizations of principal components analysis. En: Data Analysis and Informatics, E. Diday, et al., ed. msterdam: North-Holland. De Leeuw, J., F. W. Young, y Y. Takane. 1976. Additive structure in qualitative data: An alternating least squares method with optimal scaling features. Psychometrika, 41, . Gi, A. 1990. Nonlinear multivariate analysis. Chichester: John Wiley and Sons. Heiser, W. J., y J. J. Meulman. 1995. Nonlinear methods for the analysis of homogeneity and heterogeneity. En: Recent Advances in Descriptive Multivariate Analysis, W. J. Krzanowski, ed. Oxford: Oxford University Press. Israls, A. 1987. Eigenvalue techniques for qualitative data. Leiden: DSWO Press. Krzanowski, W. J., y F. H. C. Marriott. 1994. Multivariate analysis: Part I, distributions, ordination and inference. Londres: Edward Arnold. Lebart, L., A. Morineau, y K. M. Warwick. 1984. Multivariate descriptive statistical analysis. Nueva York: John Wiley and Sons. Mx, J. 1960. Quantizing for minimum distortion. Proceedings IEEE (Information Theory), 6, . Meulman, J. J. 1986. A distance approach to nonlinear multivariate analysis. Leiden: DSWO Press. Meulman, J. J. 1992. The integration of multidimensional scaling and multivariate analysis with optimal transformations of the variables. Psychometrika, 57, . Nishisato, S. 1980. Analysis of categorical data: Dual scaling and its applications. Toronto: University of Toronto Press. Nishisato, S. 1994. Elements of dual scaling: An introduction to practical data analysis. Hillsdale, N.J.: Lawrence Erlbaum Associates, Inc. Rao, C. R. 1973. Linear statistical inference and its applications, 2nd ed. Nueva York: John Wiley and Sons. Rao, C. R. 1980. Matrix approximations and reduction of dimensionality in multivariate statistical analysis. En: Multivariate Analysis, Vol. 5, P. R. Krishnaiah, ed. msterdam: North-Holland. Roskam, E. E. 1968. Metric analysis of ordinal data in psychology. Voorschoten: VAM. Shepard, R. N. 1966. Metric structures in ordinal data. Journal of Mathematical Psychology, 3, . Wolter, K. M. 1985. Introduction to variance estimation. Berln: Springer-Verlag. Young, F. W. 1981. Quantitative analysis of qualitative data. Psychometrika, 46, .

Captulo

Regresin categrica (CATREG)

La regresin categrica cuantica los datos categricos mediante la asignacin de valores numricos a las categoras, obtenindose una ecuacin de regresin lineal ptima para las variables transformadas. La regresin categrica se conoce tambin por el acrnimo CATREG, del ingls categorical regression (regresin categrica). El anlisis de regresin lineal ordinario implica minimizar las diferencias de la suma de los cuadrados entre una variable de respuesta (la dependiente) y una combinacin ponderada de las variables predictoras (las independientes). Las variables son normalmente cuantitativas, con los datos categricos (nominales) recodicados como variables binarias o de contraste. Como resultado, las variables categricas sirven para separar grupos de casos y la tcnica estima conjuntos separados de parmetros para cada grupo. Los coecientes estimados reejan cmo los cambios en los predictores afectan a la respuesta. El pronstico de la respuesta es posible para cualquier combinacin de los valores predictores. Un mtodo alternativo incluye la regresin de la respuesta respecto a los propios valores predictores categricos. Como consecuencia, se estima un coeciente para cada variable. Sin embargo, para las variables categricas, los valores categricos son arbitrarios. La codicacin de las categoras de diferentes maneras proporciona diferentes coecientes, dicultando las comparaciones entre los anlisis de las mismas variables. CATREG ampla el mtodo tpico mediante un escalamiento de las variables nominales, ordinales y numricas simultneamente. El procedimiento cuantica las variables categricas de manera que las cuanticaciones reejen las caractersticas de las categoras originales. El procedimiento trata a las variables categricas cuanticadas como si fueran variables numricas. La utilizacin de transformaciones no lineales permite a las variables ser analizadas en varios niveles para encontrar el modelo que ms se ajusta.
Ejemplo. La regresin categrica se puede utilizar para describir cmo la satisfaccin laboral

depende de la categora laboral, de la regin geogrca y del nmero de desplazamientos. Observar que los niveles ms altos de satisfaccin corresponden a ejecutivos y a un nmero bajo de desplazamientos. La ecuacin de regresin resultante se puede utilizar para pronosticar la satisfaccin laboral para cualquier combinacin de las tres variables independientes.
Estadsticos y grficos. Frecuencias, coecientes de regresin, tabla ANOVA, historial de

iteraciones, cuanticaciones de categoras, correlaciones entre predictores no transformados, correlaciones entre predictores transformados, grcos de residuos y grcos de transformacin.
Datos. CATREG trabaja con variables indicadoras de categoras. Los indicadores de las categoras

deben ser enteros positivos. Puede utilizar el cuadro de dilogo Discretizacin para convertir variables con valores fraccionarios y variables de cadena en enteros positivos.

Copyright SPSS Inc. 1989, 2010

15

16 Captulo 2

Supuestos. Slo se permite una variable de respuesta, pero el nmero mximo de predictores es 200. Los datos deben contener al menos tres casos vlidos y el nmero de casos vlidos debe ser superior al nmero de variables predictoras ms uno. Procedimientos relacionados. CATREG es equivalente al anlisis de correlacin cannica

categrico mediante escalamiento ptimo (OVERALS) con dos conjuntos, uno de los cuales contiene slo una variable. Si se escalan todas las variables a nivel numrico, el anlisis se corresponder con el anlisis de regresin mltiple tpico.

Para obtener una regresin categrica


E Elija en los mens: Analizar > Regresin > Escalamiento ptimo (CATREG)... Figura 2-1 Cuadro de dilogo Regresin categrica

E Seleccione la variable dependiente y la variable o variables independientes. E Pulse en Aceptar.

Si lo desea, cambie el nivel de escalamiento de cada variable.

Para definir la escala en regresin categrica


Se puede denir el nivel de escalamiento ptimo de las variables dependientes e independientes. Por defecto, se escalan como lneasSp (ordinales) monotnicas de segundo orden con dos nudos interiores. Asimismo, se puede denir la ponderacin para las variables del anlisis.

17 Regresin categrica (CATREG) Figura 2-2 Cuadro de dilogo Definir escala

Nivel de escalamiento ptimo. Tambin se puede seleccionar el nivel de escalamiento para

cuanticar cada variable.

LneaSp ordinal. El orden de las categoras de la variable observada se conserva en la variable

escalada ptimamente. Los puntos de categora estarn sobre una recta (vector) que pasa por el origen. La transformacin resultante es un polinomio monotnico por tramos suave del orden seleccionado. Las partes se especican por el nmero de nudos interiores denido por el usuario y su posicin es determinada por el procedimiento en funcin del nmero de nudos interiores.

LneaSp nominal. La nica informacin de la variable observada que se conserva en la variable

escalada ptimamente es la agrupacin de los objetos en categoras. No se conserva el orden de las categoras de la variable observada. Los puntos de categora estarn sobre una recta (vector) que pasa por el origen. La transformacin resultante es un polinomio, posiblemente monotnico, por tramos suave del orden seleccionado. Las partes se especican por el nmero de nudos interiores denido por el usuario y su posicin es determinada por el procedimiento en funcin del nmero de nudos interiores.

Ordinal. El orden de las categoras de la variable observada se conserva en la variable escalada

ptimamente. Los puntos de categora estarn sobre una recta (vector) que pasa por el origen. La transformacin resultante se ajusta mejor que la transformacin de lneaSp ordinal pero la suavidad es menor.

Nominal. La nica informacin de la variable observada que se conserva en la variable

escalada ptimamente es la agrupacin de los objetos en categoras. No se conserva el orden de las categoras de la variable observada. Los puntos de categora estarn sobre una recta (vector) que pasa por el origen. La transformacin resultante se ajusta mejor que la transformacin de lneaSp nominal pero la suavidad es menor.

Numrico. Las categoras se tratan como que estn ordenadas y espaciadas uniformemente

(a nivel de intervalo). El orden de las categoras y la equidistancia entre los nmeros de las categoras de la variable observada se conservan en la variable escalada ptimamente. Los puntos de categora estarn sobre una recta (vector) que pasa por el origen. Cuando todas las variables estn a nivel numrico, el anlisis es anlogo al anlisis de componentes principales tpico.

18 Captulo 2

Discretizacin de regresin categrica


El cuadro de dilogo Discretizacin permite seleccionar un mtodo para recodicar las variables. Las variables con valores fraccionarios se agrupan en siete categoras (o en el nmero de valores diferentes de la variable si dicho nmero es inferior a siete) con una distribucin aproximadamente normal, si no se especica lo contrario. Las variables de cadena se convierten siempre en enteros positivos mediante la asignacin de indicadores de categora en funcin del orden alfanumrico ascendente. La discretizacin de las variables de cadena se aplica a estos enteros resultantes. Por defecto, las variables restantes se dejan inalteradas. A partir de ese momento, se utilizan en el anlisis las variables discretizadas.
Figura 2-3 Cuadro de dilogo Discretizacin

Mtodo. Seleccione entre agrupacin, asignacin de rangos y multiplicacin.


Agrupacin. Se recodica en un nmero especicado de categoras o se recodica por

intervalos.
Asignacin de rangos. La variable se discretiza mediante la asignacin de rangos a los casos. Multiplicacin. Los valores actuales de la variable se tipican, multiplican por 10, redondean

y se les suma una constante de manera que el menor valor discretizado sea 1.

19 Regresin categrica (CATREG)

Agrupacin. Se encuentran disponibles las siguientes opciones al discretizar variables por

agrupacin:

Nmero de categoras. Especique un nmero de categoras y si los valores de la variable

deben seguir una distribucin aproximadamente normal o uniforme en dichas categoras.


Intervalos iguales. Las variables se recodican en las categoras denidas por dichos intervalos

de igual tamao. Se debe especicar la longitud de los intervalos.

Valores perdidos de regresin categrica


El cuadro de dilogo Valores perdidos permite seleccionar la estrategia para el tratamiento de los valores perdidos en las variables de anlisis y las suplementarias.
Figura 2-4 Cuadro de dilogo Valores perdidos

Estrategia. Seleccione excluir los objetos con valores perdidos (eliminacin por lista) o imputar

los valores perdidos (tratamiento activo).

Excluir objetos con valores perdidos en esta variable. Los objetos con valores perdidos en la

variable seleccionada se excluyen del anlisis. Esta estrategia no est disponible para las variables suplementarias.

Imputar valores perdidos. Los objetos con valores perdidos en la variable seleccionada tendrn

dichos valores imputados. Se puede seleccionar el mtodo de imputacin. Seleccione Moda para reemplazar los valores perdidos por la categora ms frecuente. Cuando existen varias modas, se utiliza la que tiene el indicador de categora ms pequeo. Seleccione Categora adicional para reemplazar los valores perdidos con la misma cuanticacin de una categora adicional. Esto implica que los objetos con un valor perdido en esta variable se consideran que pertenecen a la misma categora (la adicional).

20 Captulo 2

Opciones de regresin categrica


El cuadro de dilogo Opciones permite seleccionar el estilo para la conguracin inicial, especicar los criterios de iteracin y convergencia, seleccionar los objetos suplementarios y denir el etiquetado de los grcos.
Figura 2-5 Cuadro de dilogo Opciones

Objetos suplementarios. Permite especicar los objetos que se tratarn como suplementarios. Slo

hay que escribir el nmero de un objeto suplementario (o especicar un intervalo de casos) y pulsar en Aadir. No es posible ponderar los objetos suplementarios (se ignoran las ponderaciones especicadas).
Configuracin inicial. Si no se trata ninguna variable como nominal, seleccione la conguracin
Numrica. Si al menos una variable se trata como nominal, seleccione la conguracin Aleatoria.

Adems, si al menos una variable tiene un nivel de escalamiento ordinal o lneaSp ordinal, el algoritmo normal de ajuste de modelo puede dar lugar a una solucin inferior a la ptima. Si selecciona Mltiples inicios sistemticos con todos los patrones de signos de prueba posibles siempre encontrar la solucin ptima, pero el tiempo de procesamiento necesario aumentar rpidamente, al aumentar el nmero de variables ordinales y de lneaSp ordinal del conjunto de datos. Puede reducir el nmero de patrones de prueba especicando un porcentaje de prdida de umbral de varianza, donde mientras mayor sea el umbral, ms patrones de signos se excluirn.

21 Regresin categrica (CATREG)

Con esta opcin, no se garantiza obtener la solucin ptima, pero se reduce la posibilidad de obtener una solucin que no sea ptima. Adems, si no se encuentra la solucin ptima, disminuye la posibilidad de que la solucin encontrada sea muy diferente de la solucin ptima. Cuando se solicitan mltiples inicios sistemticos, los signos de los coecientes de regresin para cada inicio se escriben en un archivo de datos de IBM SPSS Statistics externo en la sesin actual. Si desea obtener ms informacin, consulte el tema Regresin categrica: Guardar el p. 24. Los resultados de una ejecucin anterior con mltiples inicios sistemticos le permiten Utilizar signos fijos para los coeficientes de regresin. Los signos (indicados por 1 y 1) deben estar en una la del conjunto de datos o archivo especicado. El nmero de inicio de valor entero representa el nmero de caso de la la de este archivo que contiene los signos que se utilizarn.
Criterios. Se puede especicar el nmero mximo de iteraciones que la regresin puede realizar durante los clculos. Tambin puede seleccionar un valor para el criterio de convergencia. La regresin detiene la iteracin si la diferencia del ajuste total entre la dos ltimas iteraciones es menor que el valor de convergencia o si se ha alcanzado el nmero mximo de iteraciones. Etiquetar grficos con. Permite especicar si se utilizarn en los grcos las etiquetas de variable y las etiquetas de valor o los nombres de variable y los valores. Tambin se puede especicar una longitud mxima para las etiquetas.

Regularizacin de regresin categrica


Figura 2-6 Cuadro de dilogo Regularizacin

22 Captulo 2

Mtodo. Los mtodos de regularizacin pueden mejorar el error predictivo del modelo reduciendo

la variabilidad de las estimaciones de coeciente de regresin reduciendo las estimaciones hacia 0. Lazo y Red elstica reducen algunas estimaciones de coecientes a exactamente 0, ofreciendo as una forma de seleccin de variables. Cuando se solicita un mtodo de regularizacin, el modelo y los coecientes regularizados para cada valor de coeciente de penalizacin se escriben en un archivo o conjunto de datos de IBM SPSS Statistics externo en la sesin actual. Si desea obtener ms informacin, consulte el tema Regresin categrica: Guardar el p. 24.

Regresin contrada La regresin contrada reduce los coecientes introduciendo un trmino

de penalizacin igual a la suma de coecientes cuadrados por un coeciente de penalizacin. Este coeciente puede variar de 0 (sin penalizacin) a 1; el procedimiento buscar el mejor valor de penalizacin si especica un rango e incremento.

Lazo. El trmino de penalizacin de Lazo se basa en la suma de coecientes absolutos y la

especicacin de un coeciente de penalizacin es similar al de la regresin contrada; sin embargo, Lazo supone un procesamiento ms extenso.

Red elstica. La Red elstica simplemente combina las penalizaciones de Lazo y regresin

contrada, y buscar en la cuadrcula de valores especicada para encontrar los mejores coecientes de penalizacin de Lazo y de regresin contrada. En un par concreto de penalizaciones de Lazo y regresin contrada, la red elstica no requiere mucho ms procesamiento que Lazo.
Grficos de regularizacin de visualizacin. Son grcos de los coecientes de regresin en

comparacin con la penalizacin de regularizacin. Cuando busque un rango de valores para el mejor coeciente de penalizacin, ofrecer una vista de la forma en que los coecientes cambian en dicho rango.
Grficos de red elstica. En el mtodo de Red elstica se producen grcos de regularizacin distintos mediante los valores de la penalizacin de regresin contrada. Todos los grficos posibles utiliza todos los valores del rango determinados por los valores mnimo y mximo especicados de penalizacin de regresin contrada. Para algunas penalizaciones de r. contrada le permite especicar un subconjunto de valores en el rango determinado por el mnimo y el mximo. Slo hay que escribir el nmero de un valor de penalizacin (o especicar un rango de valores) y pulsar en Aadir.

Resultados de la regresin categrica


El cuadro de dilogo Resultados permite seleccionar los estadsticos que aparecern en los resultados.

23 Regresin categrica (CATREG) Figura 2-7 Cuadro de dilogo Resultados

Tablas. Genera tablas correspondientes a:


R mltiple. Incluye R2, R2 corregida y R2 corregida que tiene en cuenta el escalamiento ptimo. ANOVA. Esta opcin incluye las sumas de cuadrados de la regresin y de los residuos, las

medias cuadrticas y F. Se muestran dos tablas ANOVA: una con tantos grados de libertad para la regresin como predictores haya y otra con los grados de libertad de la regresin teniendo en cuenta el escalamiento ptimo.

Coeficientes. Esta opcin produce tres tablas: una tabla de coecientes que incluye betas, error

tpico de las betas, valores t y signicacin; una tabla de escalamiento ptimo de coecientes con el error tpico de las betas que tiene en cuenta los grados de libertad del escalamiento ptimo; y una tabla con las correlaciones de orden cero, parciales y semiparciales, la medida de importancia relativa de Pratt de los predictores transformados y la tolerancia antes y despus de la transformacin.

Historial de iteraciones. Para cada iteracin, incluyendo los valores iniciales del algoritmo,

aparecen la R mltiple y el error de la regresin. El incremento de la R mltiple aparece a partir de la primera iteracin.

Correlaciones de variables originales. Aparece una matriz que muestra las correlaciones entre

las variables no transformadas.

24 Captulo 2

Correlaciones de variables transformadas. Aparece una matriz que muestra las correlaciones

entre las variables transformadas.


Coeficientes y modelos regularizados. Muestra valores de penalizacin, R cuadrado y los

coecientes de regresin de cada modelo regularizado. Si se especica un mtodo de repeticin de muestreo o si se especican objetos suplementarios (casos de prueba), tambin mostrar el error de prediccin o MSE de prueba.
Repeticin de muestreo. Los mtodos de repeticin de muestreo le dan una estimacin del error

de prediccin del modelo.

Validacin cruzada. La validacin cruzada divide la muestra en un nmero de submuestras o

pliegues. A continuacin, se generan los modelos de regresin categrica, que no incluyen los datos de cada submuestra. El primer modelo se basa en todos los casos excepto los correspondientes al primer pliegue de la muestra; el segundo modelo se basa en todos los casos excepto los del segundo pliegue de la muestra y as sucesivamente. Para cada modelo se calcula el error de prediccin aplicando el modelo a la submuestra que se excluy al generarse este.

Autodocimante .632. Con el autodocimante, las observaciones se trazan aleatoriamente a partir

de los datos con reposicin, repitiendo este proceso una serie de veces para obtener muestras de autodocimante. Se ajusta un modelo para cada muestra de autodocimante, y el error de prediccin de cada modelo se estima segn este modelo ajustado y se aplica despus a los casos que no se encuentran en la muestra de autodocimante.
Cuantificaciones de categoras. Aparecen tablas que muestran los valores transformados de las

variables seleccionadas.
Estadsticos descriptivos. Aparecen tablas que muestran las frecuencias, los valores perdidos y los modos de las variables seleccionadas.

Regresin categrica: Guardar


El cuadro de dilogo Guardar permite guardar valores pronosticados, residuos y valores transformados en un conjunto de datos activo y/o guardar datos discretizados, valores transformados, modelos y coecientes regularizados y signos de coecientes de regresin en un archivo de datos o conjunto de datos de IBM SPSS Statistics externo en la sesin actual.

Los conjuntos de datos estn disponibles durante la sesin actual, pero no as en las sesiones posteriores, a menos que los haya guardado explcitamente como archivos de datos. El nombre de un conjunto de datos debe cumplir las normas de denominacin de variables. Los nombres de archivo o de conjunto de datos deben ser distintos para cada tipo de dato guardado.

25 Regresin categrica (CATREG) Figura 2-8 Cuadro de dilogo Guardar

Los coecientes y modelos regularizados se guardan siempre que se selecciona un mtodo de regularizacin en el cuadro de dilogo Regularizacin. Por defecto, el procedimiento crea un nuevo conjunto de datos con un nombre nico, aunque por supuesto podr especicar el nombre que desee seleccionando o escribiendo en un archivo externo. Los signos de coecientes de regresin se guardan siempre que se utilizan mltiples inicios sistemticos como conguracin inicial en el cuadro de dilogo Opciones. Por defecto, el procedimiento crea un nuevo conjunto de datos con un nombre nico, aunque por supuesto podr especicar el nombre que desee seleccionando o escribiendo en un archivo externo.

Grficos de transformacin en regresin categrica


El cuadro de dilogo Grcos permite especicar las variables que generarn grcos de transformacin y de residuos.

26 Captulo 2 Figura 2-9 Cuadro de dilogo Grficos

Grficos de transformacin. Para cada una de estas variables, se representan las cuanticaciones de

las categoras respecto a los valores de categora originales. Las categoras vacas aparecen en el eje horizontal pero no afectan a los clculos. Estas categoras se identican por las rupturas en la lnea que conecta las cuanticaciones.
Grficos de residuos. Para cada una de estas variables, se representan los residuos (calculados

para la variable dependiente pronosticada de todos los predictores salvo del predictor en cuestin) respecto a los indicadores de las categoras y las cuanticaciones de las categoras ptimas multiplicadas por beta respecto a los indicadores de las categoras.

Funciones adicionales del comando CATREG


Se puede personalizar la regresin categrica si se pegan las selecciones en una ventana de sintaxis y se edita la sintaxis del comando CATREG resultante. Con el lenguaje de sintaxis de comandos tambin podr:

Especicar nombres de raz para las variables transformadas al guardarlas en el conjunto de datos activo (con el subcomando SAVE).

Si desea informacin detallada sobre la sintaxis, consulte la referencia de sintaxis de comandos (Command Syntax Reference).

Captulo

Anlisis de componentes principales categrico (CATPCA)

Este procedimiento cuantica simultneamente las variables categricas a la vez que reduce la dimensionalidad de los datos. El anlisis de componentes principales categrico se conoce tambin por el acrnimo CATPCA, del ingls CATegorical Principal Components Analysis. El objetivo de los anlisis de componentes principales es la reduccin de un conjunto original de variables en un conjunto ms pequeo de componentes no correlacionados que representen la mayor parte de la informacin encontrada en las variables originales. La tcnica es ms til cuando un extenso nmero de variables impide una interpretacin ecaz de las relaciones entre los objetos (sujetos y unidades). Al reducir la dimensionalidad, se interpreta un pequeo nmero de componentes en lugar de un extenso nmero de variables. El anlisis tpico de componentes principales asume relaciones lineales entre las variables numricas. Por otra parte, el mtodo de escalamiento ptimo permite escalar las variables a diferentes niveles. Las variables categricas se cuantican de forma ptima en la dimensionalidad especicada. Como resultado, se pueden modelar relaciones no lineales entre las variables.
Ejemplo. El anlisis de componentes principales categrico se puede utilizar para representar

grcamente la relacin entre la categora laboral, la divisin laboral, la provincia, el nmero de desplazamientos (alto, medio y bajo) y la satisfaccin laboral. Observar que con dos dimensiones se puede explicar una gran cantidad de varianza. La primera dimensin podra separar la categora laboral de la provincia, mientras que la segunda dimensin podra separar la divisin laboral del nmero de desplazamientos. Tambin podr observar que la alta satisfaccin laboral est relacionada con un nmero medio de desplazamientos.
Estadsticos y grficos. Frecuencias, valores perdidos, nivel de escalamiento ptimo, moda,

varianza explicada por: las coordenadas del centroide, las coordenadas de vector, total por variable y total por dimensin; saturaciones en componentes para las variables cuanticadas por los vectores, cuanticaciones y coordenadas de categora, historial de iteraciones, correlaciones entre las variables transformadas y los autovalores de la matriz de correlaciones, correlaciones entre las variables originales y los autovalores de la matriz de correlaciones, puntuaciones de objetos, grcos de categoras, grcos de categoras conjuntas, grcos de transformacin, grcos de residuos, grcos de centroides proyectados, grcos de objetos, diagramas de dispersin biespaciales, diagramas de dispersin triespaciales y grcos de las saturaciones en componentes.
Datos. Los valores de las variables de cadena se convierten en enteros positivos por orden alfabtico ascendente. Los valores perdidos denidos por el usuario, los valores perdidos del sistema y los valores menores que 1 se consideran valores perdidos; se puede aadir una constante o recodicar las variables con valores inferiores a 1 para evitar que se pierdan los mismos.

Copyright SPSS Inc. 1989, 2010

27

28 Captulo 3

Supuestos. Los datos deben contener al menos tres casos vlidos. El anlisis se basa en datos

enteros positivos. La opcin de discretizacin categorizar de forma automtica una variable con valores fraccionarios, agrupando sus valores en categoras con una distribucin casi normal y convertir de forma automtica los valores de las variables de cadena en enteros positivos. Se pueden especicar otros esquemas de discretizacin.
Procedimientos relacionados. Si se escalan todas las variables a nivel numrico, el anlisis se

corresponder con el anlisis de componentes principales tpico. Hay funciones de representacin alternativas que estn disponibles si se utilizan las variables transformadas en un anlisis de componentes principales lineal tpico. Si todas las variables tienen un nivel de escalamiento nominal mltiple, el anlisis de componentes principales categrico es idntico al anlisis de correspondencias mltiple (HOMALS). Si hay conjuntos de variables que son de inters, se debe utilizar el anlisis de correlacin cannica categrico (no lineal).
Para obtener un Anlisis de componentes principales categrico
E Elija en los mens: Analizar > Reduccin de dimensiones > Escalamiento ptimo... Figura 3-1 Cuadro de dilogo Escalamiento ptimo

E Seleccione Alguna variable no es nominal mltiple. E Seleccione Un conjunto. E Pulse en Definir.

29 Anlisis de componentes principales categrico (CATPCA) Figura 3-2 Cuadro de dilogo Componentes principales categrico

E Seleccione al menos dos variables de anlisis y especique el nmero de dimensiones en la

solucin.
E Pulse en Aceptar.

Si lo desea, puede especicar variables suplementarias, que sern ajustadas sobre la solucin encontrada, o variables de etiqueta para los grcos.

Definir escala y ponderacin en CATPCA


Se puede denir el nivel de escalamiento ptimo de las variables del anlisis y de las suplementarias. Por defecto, se escalan como lneasSp (ordinales) monotnicas de segundo orden con dos nudos interiores. Asimismo, se puede denir la ponderacin para las variables del anlisis.

30 Captulo 3 Figura 3-3 Definir escala y ponderacin

Ponderacin de la variable. Se puede denir una ponderacin para cada variable. El valor

especicado debe ser un entero positivo. El valor por defecto es 1.


Nivel de escalamiento ptimo. Asimismo, se puede seleccionar el nivel de escalamiento que se utilizar para cuanticar cada variable.

LneaSp ordinal. El orden de las categoras de la variable observada se conserva en la variable

escalada ptimamente. Los puntos de categora estarn sobre una recta (vector) que pasa por el origen. La transformacin resultante es un polinomio monotnico por tramos suave del orden seleccionado. Las partes se especican por el nmero de nudos interiores denido por el usuario y su posicin es determinada por el procedimiento en funcin del nmero de nudos interiores.

LneaSp nominal. La nica informacin de la variable observada que se conserva en la variable

escalada ptimamente es la agrupacin de los objetos en categoras. No se conserva el orden de las categoras de la variable observada. Los puntos de categora estarn sobre una recta (vector) que pasa por el origen. La transformacin resultante es un polinomio, posiblemente monotnico, por tramos suave del orden seleccionado. Las partes se especican por el nmero de nudos interiores denido por el usuario y su posicin es determinada por el procedimiento en funcin del nmero de nudos interiores.

Nominal mltiple. La nica informacin de la variable observada que se conserva en la variable

escalada ptimamente es la agrupacin de los objetos en categoras. No se conserva el orden de las categoras de la variable observada. Los puntos de categora estarn en el centroide de los objetos para las categoras particulares. El trmino Mltiple indica que se obtienen diferentes conjuntos de cuanticaciones para cada dimensin.

Ordinal. El orden de las categoras de la variable observada se conserva en la variable escalada

ptimamente. Los puntos de categora estarn sobre una recta (vector) que pasa por el origen. La transformacin resultante se ajusta mejor que la transformacin de lneaSp ordinal pero la suavidad es menor.

Nominal. La nica informacin de la variable observada que se conserva en la variable

escalada ptimamente es la agrupacin de los objetos en categoras. No se conserva el orden de las categoras de la variable observada. Los puntos de categora estarn sobre una

31 Anlisis de componentes principales categrico (CATPCA)

recta (vector) que pasa por el origen. La transformacin resultante se ajusta mejor que la transformacin de lneaSp nominal pero la suavidad es menor.

Numrico. Las categoras se tratan como que estn ordenadas y espaciadas uniformemente

(a nivel de intervalo). El orden de las categoras y la equidistancia entre los nmeros de las categoras de la variable observada se conservan en la variable escalada ptimamente. Los puntos de categora estarn sobre una recta (vector) que pasa por el origen. Cuando todas las variables estn a nivel numrico, el anlisis es anlogo al anlisis de componentes principales tpico.

Anlisis de componentes principales categrico: Discretizacin


El cuadro de dilogo Discretizacin permite seleccionar un mtodo para recodicar las variables. Las variables con valores fraccionarios se agrupan en siete categoras (o en el nmero de valores diferentes de la variable si dicho nmero es inferior a siete) con una distribucin aproximadamente normal, si no se especica lo contrario. Las variables de cadena se convierten siempre en enteros positivos mediante la asignacin de indicadores de categora en funcin del orden alfanumrico ascendente. La discretizacin de las variables de cadena se aplica a estos enteros resultantes. Por defecto, las variables restantes se dejan inalteradas. A partir de ese momento, se utilizan en el anlisis las variables discretizadas.
Figura 3-4 Cuadro de dilogo Discretizacin

Mtodo. Seleccione entre agrupacin, asignacin de rangos y multiplicacin.

Agrupacin. Se recodica en un nmero especicado de categoras o se recodica por

intervalos.

32 Captulo 3

Asignacin de rangos. La variable se discretiza mediante la asignacin de rangos a los casos. Multiplicacin. Los valores actuales de la variable se tipican, multiplican por 10, redondean

y se les suma una constante de manera que el menor valor discretizado sea 1.
Agrupacin. Se encuentran disponibles las siguientes opciones cuando se discretizan variables

por agrupacin:

Nmero de categoras. Especique un nmero de categoras y si los valores de la variable

deben seguir una distribucin aproximadamente normal o uniforme en dichas categoras.


Intervalos iguales. Las variables se recodican en las categoras denidas por dichos intervalos

de igual tamao. Se debe especicar la longitud de los intervalos.

Anlisis de componentes principales categrico: Valores perdidos


El cuadro de dilogo Valores perdidos permite seleccionar la estrategia para el tratamiento de los valores perdidos en las variables de anlisis y las suplementarias.
Figura 3-5 Cuadro de dilogo Valores perdidos

Estrategia. Seleccione excluir los valores perdidos (tratamiento pasivo), imputar los valores

perdidos (tratamiento activo) o excluir objetos con valores perdidos (eliminacin por lista).

33 Anlisis de componentes principales categrico (CATPCA)

Excluir valores perdidos; para las correlaciones, imputar tras la cuantificacin. Los objetos con

valores perdidos en la variable seleccionada no contribuyen en el anlisis de esta variable. Si a todas las variables se les aplica tratamiento pasivo, los objetos con valores perdidos en todas las variables se tratarn como suplementarios. Si se especican correlaciones en el cuadro de dilogo Resultados, tras el anlisis, los valores perdidos se imputarn con la categora ms frecuente, o moda, de la variable para las correlaciones de las variables originales. Para las correlaciones de la variable escalada ptimamente, se puede seleccionar el mtodo de imputacin. Seleccione Moda para reemplazar los valores perdidos por la moda de la variable escalada ptimamente. Seleccione Categora adicional para reemplazar los valores perdidos por la cuanticacin de una categora adicional. Esto implica que los objetos con un valor perdido en esta variable se consideran que pertenecen a la misma categora (la adicional).

Imputar valores perdidos. Los objetos con valores perdidos en la variable seleccionada tendrn

dichos valores imputados. Se puede seleccionar el mtodo de imputacin. Seleccione Moda para reemplazar los valores perdidos por la categora ms frecuente. Cuando existen varias modas, se utiliza la que tiene el indicador de categora ms pequeo. Seleccione Categora adicional para reemplazar los valores perdidos con la misma cuanticacin de una categora adicional. Esto implica que los objetos con un valor perdido en esta variable se consideran que pertenecen a la misma categora (la adicional).

Excluir objetos con valores perdidos en esta variable. Los objetos con valores perdidos en la

variable seleccionada se excluyen del anlisis. Esta estrategia no est disponible para las variables suplementarias.

Anlisis de componentes principales categrico: Opciones


El cuadro de dilogo de opciones permite seleccionar la conguracin inicial, especicar los criterios de iteracin y convergencia, seleccionar un mtodo de normalizacin, elegir el mtodo para etiquetar los grcos y especicar objetos suplementarios.

34 Captulo 3 Figura 3-6 Cuadro de dilogo Opciones

Objetos suplementarios. Especique el nmero de caso del objeto, o bien los nmeros de caso

primero y ltimo de un rango de objetos que desee convertir en suplementario y, a continuacin, pulse en Aadir. Contine hasta que haya especicado todos los objetos suplementarios. Si se especica un objeto como suplementario, se ignorarn las ponderaciones de caso para dicho objeto.
Mtodo de normalizacin. Se puede especicar una de las cinco opciones para normalizar las

puntuaciones de objeto y las variables. Slo se puede utilizar un mtodo de normalizacin en un anlisis dado.

Principal por variable. Esta opcin optimiza la asociacin entre las variables. Las coordenadas

de las variables en el espacio de los objetos son las saturaciones en componentes (las correlaciones con componentes principales, como son las dimensiones y las puntuaciones de los objetos). Esta opcin es til cuando el inters principal est en la correlacin entre las variables.

Principal por objeto. Esta opcin optimiza las distancias entre los objetos. Esta opcin es til

cuando el inters principal est en las diferencias y similitudes entre los objetos.
Simtrico. Se utiliza esta opcin de normalizacin si el inters principal est en la relacin

entre objetos y variables.

35 Anlisis de componentes principales categrico (CATPCA)

Independiente. Se utiliza esta opcin de normalizacin si se desea examinar por separado las

distancias entre los objetos y las correlaciones entre las variables.


Personalizado. Se puede especicar cualquier valor real en el intervalo cerrado [1, 1]. Un

valor 1 es igual al mtodo Principal por objeto, un valor 0 es igual al mtodo Simtrico y un valor 1 es igual al mtodo Principal por variable. Si se especica un valor mayor que 1 y menor que 1, se puede distribuir el autovalor entre los objetos y las variables. Este mtodo es til para generar diagramas de dispersin biespaciales y triespaciales a medida.
Criterios. Se puede especicar el nmero mximo de iteraciones que el procedimiento puede realizar durante los clculos. Tambin puede seleccionar un valor para el criterio de convergencia. El algoritmo detiene la iteracin si la diferencia del ajuste total entre la dos ltimas iteraciones es menor que el valor de convergencia o si se ha alcanzado el nmero mximo de iteraciones. Etiquetar grficos con. Permite especicar si se utilizarn en los grcos las etiquetas de variable y las etiquetas de valor o los nombres de variable y los valores. Tambin se puede especicar una longitud mxima para las etiquetas. Dimensiones del grfico. Permite controlar las dimensiones que se muestran en los resultados.

Muestra todas las dimensiones de la solucin. Todas las dimensiones de la solucin se muestran

en un diagrama de dispersin matricial.


Restringe el nmero de dimensiones Las dimensiones mostradas se restringen a los pares

representados. Si restringe las dimensiones, deber seleccionar las dimensiones menor y mayor que se van a representar. La dimensin menor puede variar desde 1 hasta el nmero de dimensiones de la solucin menos 1 y se representa respecto a las dimensiones mayores. El valor de la dimensin mayor puede oscilar variar desde 2 hasta el nmero de dimensiones de la solucin e indica la dimensin mayor que se utilizar al representar los pares de dimensiones. Esta especicacin se aplica a todos los grcos multidimensionales solicitados.
Configuracin. Se pueden leer datos de un archivo que contenga las coordenadas de una

conguracin. La primera variable del archivo deber contener las coordenadas para la primera dimensin, la segunda variable las coordenadas para la segunda dimensin, y as sucesivamente.

Inicial. La conguracin del archivo especicado se utilizar como el punto inicial del anlisis. Fija. La conguracin del archivo especicado se utilizar para ajustar las variables. Las

variables que se ajustan se deben seleccionar como variables de anlisis, pero al ser la conguracin ja, se tratan como variables suplementarias (de manera que no es necesario seleccionarlas como variables suplementarias).

Anlisis de componentes principales categrico: Resultados


El cuadro de dilogo Resultados permite generar tablas para las puntuaciones de los objetos, las saturaciones en componentes, el historial de iteraciones, las correlaciones de las variables originales y de las transformadas, la varianza explicada por variable y por dimensin, las cuanticaciones de las categoras para las variables seleccionadas y estadsticos descriptivos para las variables seleccionadas.

36 Captulo 3 Figura 3-7 Cuadro de dilogo Resultados

Puntuaciones de los objetos. Muestra las puntuaciones de los objetos y tiene las siguientes

opciones:

Incluir categoras de. Muestra los indicadores de las categoras de las variables de anlisis

seleccionadas.
Etiquetar puntuaciones de los objetos por. De la lista de variables especicadas como variables

de etiquetado, se puede seleccionar una para etiquetar los objetos.


Saturaciones en componentes. Muestra las saturaciones en componentes para todas las variables

que no recibieron niveles de escalamiento nominal mltiple.


Historial de iteraciones. En cada iteracin, se muestra la varianza explicada, la prdida y el

incremento en la varianza explicada.


Correlaciones de variables originales. Muestra la matriz de correlaciones de las variables originales

y los autovalores de dicha matriz.


Correlaciones de variables transformadas. Muestra la matriz de correlaciones de las variables transformadas (mediante escalamiento ptimo) y los autovalores de dicha matriz. Varianza explicada. Muestra la cantidad de varianza explicada por las coordenadas de los

centroides, las coordenadas de vectores y total (coordenadas de centroides y de vectores combinadas) por variable y por dimensin.

37 Anlisis de componentes principales categrico (CATPCA)

Cuantificaciones de categoras. Muestra las cuanticaciones de las categoras y las coordenadas para cada dimensin de las variables seleccionadas. Estadsticos descriptivos. Muestra las frecuencias, el nmero de valores perdidos y la moda de las variables seleccionadas.

Anlisis de componentes principales categrico: Guardar


El cuadro de dilogo Guardar permite guardar datos discretizados, puntuaciones de objeto, valores transformados y aproximaciones en un archivo de datos o conjunto de datos de IBM SPSS Statistics. Tambin puede guardar estos valores transformados, puntuaciones de objetos y aproximaciones en el conjunto de datos activo.

Los conjuntos de datos estn disponibles durante la sesin actual, pero no as en las sesiones posteriores, a menos que los haya guardado explcitamente como archivos de datos. El nombre de un conjunto de datos debe cumplir las normas de denominacin de variables. Los nombres de archivo o de conjunto de datos deben ser distintos para cada tipo de dato guardado. Si guarda puntuaciones de objeto o valores transformados en el conjunto de datos activo, podr especicar el nmero de dimensiones nominales mltiples.

Figura 3-8 Cuadro de dilogo Guardar

38 Captulo 3

Anlisis de componentes principales categrico: Grficos de objetos


El cuadro de dilogo Grcos de variables y objetos permite especicar los tipos de grcos deseados y las variables para las que se generarn los grcos.
Figura 3-9 Grficos de variables y objetos

Puntos de objetos. Se muestra un grco de los puntos de objetos. Objetos y variables (grfico biespacial). Los puntos de objetos se representan con la seleccin

realizada de las coordenadas de las variables (saturaciones en componentes o centroides de las variables).
Objetos, saturaciones y centroides (grfico triespacial). Los puntos de objetos se representan con

los centroides de las variables con un nivel de escalamiento nominal mltiple y las saturaciones en componentes de las otras variables.
Variables para grficos biespaciales y triespaciales. Puede utilizar todas las variables para los

grcos de dispersin biespacial y triespacial o seleccionar un subconjunto.

39 Anlisis de componentes principales categrico (CATPCA)

Etiquetar objetos. Se puede elegir que los objetos se etiqueten con las categoras de las variables

seleccionadas (se pueden seleccionar entre los valores del indicador de categora o las etiquetas de valor, en el cuadro de dilogo Opciones) o con sus nmeros de caso. Se genera un grco por cada variable si se selecciona Variable.

Anlisis de componentes principales categrico: Grficos de categoras


El cuadro de dilogo Grcos de categoras permite especicar los tipos de grcos deseados y las variables para las que se generarn los grcos.
Figura 3-10 Cuadro de dilogo Grficos de categoras

Grficos de categoras. Para cada variable seleccionada, se representa un grco de las coordenadas de vector y del centroide. Para las variables con nivel de escalamiento nominal mltiple, las categoras estn sobre los centroides de los objetos para las categoras particulares. Para todos los dems niveles de escalamiento, las categoras estn sobre un vector que pasa por el origen. Grficos de categoras conjuntas. Este es un nico grco con el centroide y las coordenadas de

vector de cada variable seleccionada.

40 Captulo 3

Grficos de transformacin. Muestra un grco de las cuanticaciones de las categoras ptimas

en oposicin a los indicadores de las categoras. Se puede especicar el nmero de dimensiones deseado para las variables con nivel de escalamiento nominal mltiple; se generar un grco para cada dimensin. Tambin se puede seleccionar si se muestran los grcos de los residuos para cada variable seleccionada.
Proyectar los centroides de. Se puede seleccionar una variable y proyectar sus centroides sobre las

variables seleccionadas. Las variables con niveles de escalamiento nominal mltiple no se pueden seleccionar para la proyeccin. Al solicitar este grco, aparece una tabla con las coordenadas de los centroides proyectados.

Anlisis de componentes principales categrico: grfico de saturaciones


El cuadro de dilogo Grcos de saturaciones permite especicar las variables que se incluirn en el grco, as como si se van a incluir o no centroides en el grco.
Figura 3-11 Cuadro de dilogo Grficos de saturaciones

Mostrar saturaciones en componentes. Si est seleccionado, se muestra un grco de las

saturaciones en componentes.
Variables de saturaciones. Puede utilizar todas las variables para el grco de saturaciones en

componentes o bien seleccionar un subconjunto.

41 Anlisis de componentes principales categrico (CATPCA)

Incluir centroides. Las variables con un nivel de escalamiento nominal mltiple no tienen saturaciones en componentes, pero se pueden incluir los centroides de dichas variables en el grco. Puede utilizar todas las variables nominales mltiples o bien seleccionar un subconjunto.

Funciones adicionales del comando CATPCA


Se puede personalizar el anlisis de componentes principales categrico si se pegan las selecciones en una ventana de sintaxis y se edita la sintaxis del comando de CATPCA resultante. Con el lenguaje de sintaxis de comandos tambin podr:

Especicar nombres de raz para las variables transformadas, puntuaciones de objetos y aproximaciones al guardarlas en el conjunto de datos activo (con el subcomando SAVE). Especicar una longitud mxima de las etiquetas para cada grco por separado (con el subcomando PLOT). Especicar una lista de variables distinta para los grcos de residuos (con el subcomando PLOT).

Si desea informacin detallada sobre la sintaxis, consulte la referencia de sintaxis de comandos (Command Syntax Reference).

Captulo

Anlisis de correlacin cannica no lineal (OVERALS)

El anlisis de correlacin cannica no lineal coincide con el anlisis de correlacin cannica categrico mediante escalamiento ptimo. El propsito de este procedimiento es determinar la similitud entre los conjuntos de variables categricas. El anlisis de correlacin cannica no lineal se conoce tambin por el acrnimo OVERALS. El anlisis de correlacin cannica tpico es una extensin de la regresin mltiple, en la que el segundo conjunto no contiene una nica variable de respuesta, sino varias. El objetivo es explicar el mximo posible de la varianza sobre las relaciones existentes entre dos conjuntos de variables numricas en un espacio de pocas dimensiones. Inicialmente, las variables de cada conjunto se combinan linealmente de forma que las combinaciones lineales tengan una correlacin mxima entre s. Una vez dadas estas combinaciones, se establece que las combinaciones lineales subsiguientes no estn correlacionadas con las combinaciones anteriores y que tambin tengan la mayor correlacin posible. El enfoque de escalamiento ptimo expande el anlisis estndar de tres formas decisivas. Primera: OVERALS permite ms de dos conjuntos de variables. Segunda: las variables se pueden escalar como nominales, ordinales o numricas. Como resultado, se pueden analizar relaciones no lineales entre las variables. Finalmente, en lugar de maximizar las correlaciones entre los conjuntos de variables, los conjuntos se comparan con un conjunto de compromiso desconocido denido por las puntuaciones de los objetos.
Ejemplo. El anlisis de correlacin cannica categrica mediante escalamiento ptimo se puede

utilizar para representar grcamente la relacin entre un conjunto de variables que contienen la categora laboral y los aos de formacin y otro conjunto de variables con la regin de residencia y el sexo. Podemos encontrar que los aos de formacin y la regin de residencia discriminan mejor que las variables restantes. Tambin podemos encontrar que los aos de formacin es la variable que mejor discrimina en la primera dimensin.
Estadsticos y grficos. Frecuencias, centroides, historial de iteraciones, puntuaciones de objeto,

cuanticaciones de categora, ponderaciones, saturaciones en las componentes, ajuste simple y mltiple, grcos de las puntuaciones de objeto, grcos de las coordenadas de categora, grcos de las saturaciones en las componentes, grcos de los centroides de categora y grcos de transformacin.
Datos. Utilice enteros para codicar las variables categricas (nivel de escalamiento nominal u

ordinal). Para minimizar los resultados, utilice enteros consecutivos, comenzando por el 1, para codicar cada variable. Las variables escaladas a nivel numrico no deben ser recodicadas en enteros consecutivos. Para minimizar los resultados, en cada variable escalada a nivel numrico,

Copyright SPSS Inc. 1989, 2010

42

43 Anlisis de correlacin cannica no lineal (OVERALS)

sustraiga el menor valor observado a todos los valores y smele 1. Los valores fraccionarios se truncarn tras el decimal.
Supuestos. Las variables se pueden clasicar en dos o ms conjuntos. Las variables del anlisis

se escalan como nominales mltiples, nominales simples, ordinales o numricas. El nmero mximo de dimensiones que se utiliza en el procedimiento depende del nivel de escalamiento ptimo de las variables. Si todas las variables se especican como ordinales, nominales simples o numricas, el nmero mximo de dimensiones es el menor de los dos valores siguientes: el nmero de observaciones menos 1 o el nmero total de variables. Sin embargo, si slo se denen dos conjuntos de variables, el nmero mximo de dimensiones es el nmero de variables en el conjunto ms pequeo. Si algunas variables son nominales mltiples, el nmero mximo de dimensiones es el nmero total de categoras nominales mltiples ms el nmero de variables nominales no mltiples menos el nmero de variables nominales mltiples. Por ejemplo, si el anlisis incluye cinco variables, una de las cuales es nominal mltiple con cuatro categoras, el nmero mximo de dimensiones ser (4 + 4 1) o 7. Si se especica un nmero mayor que el mximo, se utilizar el valor mximo.
Procedimientos relacionados. Si cada conjunto contiene una variable, el Anlisis de correlacin

cannica no lineal ser equivalente al Anlisis de componentes principales mediante escalamiento ptimo. Si todas estas variables son nominales mltiples, el anlisis coincidir con el anlisis de correspondencias mltiple. Si hay dos conjuntos de variables implicados y uno de ellos contiene slo una variable, el anlisis ser idntico a la Regresin categrica mediante escalamiento ptimo.
Para obtener un anlisis de correlacin cannica no lineal
E Elija en los mens: Analizar > Reduccin de dimensiones > Escalamiento ptimo... Figura 4-1 Cuadro de dilogo Escalamiento ptimo

E Seleccione Todas las variables son nominales mltiples o Alguna variable no es nominal mltiple.

44 Captulo 4 E Seleccione Mltiples conjuntos. E Pulse en Definir. Figura 4-2 Cuadro de dilogo Anlisis de correlacin cannica no lineal (OVERALS)

E Dena al menos dos conjuntos de variables. Seleccione la variable o variables que desee incluir en el primer conjunto. Para desplazarse al siguiente conjunto, pulse en Siguiente y seleccione las

variables que desee incluir en el segundo conjunto. Puede aadir los conjuntos adicionales que desee. Pulse en Anterior para volver al conjunto de variables denido anteriormente.
E Dena el rango de valores y la escala de medida (nivel de escalamiento ptimo) para cada

variable seleccionada.
E Pulse en Aceptar. E Si lo desea:

Seleccionar una o ms variables para proporcionar etiquetas de punto en los grcos de las puntuaciones de objeto. Cada variable genera un grco diferente, con los puntos etiquetados mediante los valores de dicha variable. Debe denir un rango para cada una de las variables de etiquetado de los grcos. Cuando se usa el cuadro de dilogo, no se puede utilizar una misma variable en el anlisis y como variable de etiquetado. Si se desea etiquetar el grco de las puntuaciones de objeto con una variable ya utilizada en el anlisis, utilice la funcin Calcular (disponible en el men Transformar) para crear una copia de dicha variable. Utilice la nueva variable para etiquetar el grco. Alternativamente, se puede utilizar la sintaxis de comandos. Especique el nmero de dimensiones que desea en la solucin. En general, seleccione el menor nmero de dimensiones que necesite para explicar la mayor parte de la variacin. Si el anlisis incluye ms de dos dimensiones, se generarn grcos tridimensionales de las tres primeras dimensiones. Si se edita el grco, se pueden representar otras dimensiones.

45 Anlisis de correlacin cannica no lineal (OVERALS)

Definir rango y escala


Figura 4-3 Cuadro de dilogo Definir rango y escala

Debe denir un rango para cada variable. El valor mximo especicado debe ser un entero. En el anlisis, se truncarn los valores de los datos fraccionarios. Se ignorar en el anlisis cualquier valor de categora que est fuera del rango especicado. Para minimizar el resultado, utilice la funcin Recodicacin automtica (disponible en el men Transformar) para crear categoras consecutivas, comenzando en el 1, para las variables tratadas como nominales u ordinales. No se recomienda la recodicacin en enteros consecutivos de las variables que se escalan a nivel numrico. Para minimizar el resultado para variables tratadas como numricas, para cada variable sustraiga el valor mnimo de cada valor y adale 1. Asimismo, se puede seleccionar el nivel de escalamiento que se utilizar para cuanticar cada variable.

Ordinal. El orden de las categoras de la variable observada se conserva en la variable

cuanticada.
Nominal simple. En la variable cuanticada, los objetos que se encuentran en la misma

categora reciben la misma puntuacin.


Nominal mltiple. Las cuanticaciones pueden ser distintas para cada dimensin. Numrica discreta. Las categoras se tratan como si estuvieran ordenadas y espaciadas

uniformemente. Las diferencias entre los nmeros de las categoras y el orden de las categoras de la variable observada se conservan en la variable cuanticada.

Definir rango
Figura 4-4 Cuadro de dilogo Definir rango

46 Captulo 4

Debe denir un rango para cada variable. El valor mximo especicado debe ser un entero. En el anlisis, se truncarn los valores de los datos fraccionarios. Se ignorar en el anlisis cualquier valor de categora que est fuera del rango especicado. Para minimizar los resultados, utilice la funcin Recodicacin automtica (disponible en el men Transformar) para crear categoras consecutivas, comenzando en el 1. Tambin debe denir un rango para cada una de las variables utilizadas para etiquetar los grcos de las puntuaciones de objeto. Sin embargo, las etiquetas para las categoras con valores de los datos fuera del rango denido para la variable s aparecen en los grcos.

Anlisis de correlacin cannica no lineal: Opciones


El cuadro de dilogo Opciones permite seleccionar grcos y estadsticos opcionales, guardar las puntuaciones de objeto como variables nuevas en conjunto de datos activo, especicar los criterios de iteracin y convergencia y especicar una conguracin inicial para el anlisis.
Figura 4-5 Cuadro de dilogo Opciones

Mostrar. Los estadsticos disponibles incluyen las frecuencias marginales (los recuentos), los centroides, el historial de iteraciones, las ponderaciones y las saturaciones en las componentes, las cuanticaciones de las categoras, las puntuaciones de objeto y los estadsticos de ajuste simple y mltiple.

Centroides. Las cuanticaciones de las categoras y los promedios proyectados y reales de

las puntuaciones de los objetos para los objetos (los casos) incluidos en cada conjunto, para aquellos que pertenecen a la misma categora de la variable.

47 Anlisis de correlacin cannica no lineal (OVERALS)

Ponderaciones y saturaciones en componentes. Los coecientes de regresin en cada dimensin

para toda variable cuanticada de un conjunto, donde las puntuaciones de los objetos se regresan sobre las variables cuanticadas; y la proyeccin de cada variable cuanticada en el espacio de los objetos. Proporciona una indicacin de la contribucin que cada variable aporta a la dimensin dentro de cada conjunto.

Ajustes simple y mltiple. Medidas de bondad de ajuste simple y mltiple de las coordenadas

de las categoras/cuanticaciones de las categoras, respecto a los objetos.


Cuantificaciones de categoras. Valores de escalamiento ptimo asignados a las categoras

de una variable.
Puntuaciones de los objetos. Puntuacin ptima que se asigna a un objeto (caso) en una

dimensin particular.
Grfico. Puede generar grcos de las coordenadas de las categoras, las puntuaciones de objeto,

las saturaciones en las componentes, los centroides de las categoras y las transformaciones.
Guardar puntuaciones de los objetos. Puede guardar las puntuaciones de los objetos como nuevas

variables en el conjunto de datos activo. Las puntuaciones de objeto se guardan para el nmero de dimensiones especicadas en el cuadro de dilogo principal.
Utilizar configuracin inicial aleatoria. Una conguracin inicial aleatoria debe utilizarse en el caso de que algunas o todas las variables sean nominales simples. Si esta opcin no se selecciona, se utiliza una conguracin inicial anidada. Criterios. Puede especicar el nmero mximo de iteraciones que el anlisis de correlacin

cannica no lineal puede realizar durante los clculos. Tambin puede seleccionar un valor para el criterio de convergencia. El anlisis detiene la iteracin si la diferencia del ajuste total entre la dos ltimas iteraciones es menor que el valor de convergencia o si se ha alcanzado el nmero mximo de iteraciones.

Funciones adicionales del comando OVERALS


Se puede personalizar el anlisis de correlacin cannica no lineal si se pegan las selecciones en una ventana de sintaxis y se edita la sintaxis del comando OVERALS resultante. Con el lenguaje de sintaxis de comandos tambin podr:

Especicar los pares de dimensiones que se van a representar, en lugar de representar todas las dimensiones extradas (mediante la palabra clave NDIM en el subcomando PLOT ). Especicar el nmero de caracteres de la etiqueta del valor utilizado para etiquetar los puntos en los grcos (mediante el subcomando PLOT). Designar ms de cinco variables como variables de etiqueta para los grcos de las puntuaciones de objeto (mediante el subcomando PLOT). Seleccionar las variables utilizadas en el anlisis tambin como variables de etiqueta para los grcos de las puntuaciones de objeto (mediante el subcomando PLOT). Seleccionar variables para proporcionar etiquetas de punto para el grco de las puntuaciones de cuanticacin (mediante el subcomando PLOT). Especicar el nmero de casos que se van a incluir en el anlisis si no desea utilizar todos los casos existentes en el conjunto de datos activo (mediante el subcomando NOBSERVATIONS).

48 Captulo 4

Especicar nombres de raz para las variables creadas al guardar las puntuaciones de objeto (mediante el subcomando SAVE). Especicar el nmero de dimensiones que se van a guardar, en lugar de guardar todas las dimensiones extradas (mediante el subcomando SAVE). Escribir las cuanticaciones de las categoras en un archivo matricial (utilizando el subcomando MATRIX). Generar grcos de baja resolucin ms fciles de leer que los grcos de alta resolucin habituales (mediante el comando SET). Generar grcos de transformacin y de los centroides slo para las variables especicadas (mediante el subcomando PLOT).

Si desea informacin detallada sobre la sintaxis, consulte la referencia de sintaxis de comandos (Command Syntax Reference).

Captulo

Anlisis de correspondencias

Uno de los objetivos del anlisis de correspondencias es describir las relaciones existentes entre dos variables nominales, recogidas en una tabla de correspondencias, sobre un espacio de pocas dimensiones, mientras que al mismo tiempo se describen las relaciones entre las categoras de cada variable. Para cada variable, las distancias sobre un grco entre los puntos de categoras reejan las relaciones entre las categoras, con las categoras similares representadas prximas unas a otras. La proyeccin de los puntos de una variable sobre el vector desde el origen hasta un punto de categora de la otra variable describe la relacin entre ambas variables. El anlisis de las tablas de contingencia a menudo incluye examinar los perles de la y de columna, as como contrastar la independencia a travs del estadstico de chi-cuadrado. Sin embargo, el nmero de perles puede ser bastante grande y la prueba de chi-cuadrado no revelar la estructura de la dependencia. El procedimiento Tablas de contingencia ofrece varias medidas y pruebas de asociacin pero no puede representar grcamente ninguna relacin entre las variables. El anlisis factorial es una tcnica tpica para describir las relaciones existentes entre variables en un espacio de pocas dimensiones. Sin embargo, el anlisis factorial requiere datos de intervalo y el nmero de observaciones debe ser cinco veces el nmero de variables. Por su parte, el anlisis de correspondencias asume que las variables son nominales y permite describir las relaciones entre las categoras de cada variable, as como la relacin entre las variables. Adems, el anlisis de correspondencias se puede utilizar para analizar cualquier tabla de medidas de correspondencia que sean positivas.
Ejemplo. El anlisis de correspondencias se puede utilizar para representar grcamente la

relacin entre la categora laboral y el hbito de fumar. Observar que, en relacin al tabaco, el comportamiento de los subdirectores diere del de las secretarias, pero el comportamiento de stas no diere del de los directores. Asimismo observar, que el tabaquismo pronunciado se encuentra asociado a los subdirectores, mientras que el tabaquismo leve se encuentra asociado a las secretarias.
Estadsticos y grficos. Medidas de correspondencia, perles de la y de columna, valores

propios, puntuaciones de la y de columna, inercia, masa, estadsticos de conanza para las puntuaciones de la y de columna, estadsticos de conanza para los valores propios, grcos de transformacin, grcos de los puntos de la, grcos de los puntos de columna y diagramas de dispersin biespaciales.
Datos. Las variables categricas que se van a analizar se encuentran escaladas a nivel nominal.

Para los datos agregados o para una medida de correspondencia distinta de las frecuencias, utilice una variable de ponderacin con valores de similaridad positivos. De manera alternativa, para datos tabulares, utilice la sintaxis para leer la tabla.

Copyright SPSS Inc. 1989, 2010

49

50 Captulo 5

Supuestos. El mximo nmero de dimensiones utilizado en el procedimiento depende del nmero

de categoras activas de la y de columna y del nmero de restricciones de igualdad. Si no se utilizan criterios de igualdad y todas las categoras son activas, la dimensionalidad mxima es igual al nmero de categoras de la variable con menos categoras menos uno. Por ejemplo, si una variable dispone de cinco categoras y la otra de cuatro, el nmero mximo de dimensiones es tres. Las categoras suplementarias no son activas. Por ejemplo, si una variable dispone de cinco categoras, dos de las cuales son suplementarias, y la otra variable dispone de cuatro categoras, el nmero mximo de dimensiones es dos. Considere todos los conjuntos de categoras con restriccin de igualdad como una nica categora. Por ejemplo, si una variable dispone de cinco categoras, tres de las cuales tienen restriccin de igualdad, dicha variable se debe tratar como si tuviera tres categoras en el momento de calcular la dimensionalidad mxima. Dos de las categoras no tienen restriccin y la tercera corresponde a las tres categoras restringidas. Si se especica un nmero de dimensiones superior al mximo, se utilizar el valor mximo.
Procedimientos relacionados. Si hay implicadas ms de dos variables, utilice el anlisis de

correspondencias mltiple. Si se deben escalar las variables de forma ordinal, utilice el anlisis de componentes principales categrico.
Para obtener un anlisis de correspondencias
E Elija en los mens: Analizar > Reduccin de dimensiones > Anlisis de correspondencias... Figura 5-1 Cuadro de dilogo Anlisis de correspondencias

E Seleccione una variable de las. E Seleccione una variable de columnas. E Dena los rangos para las variables. E Pulse en Aceptar.

51 Anlisis de correspondencias

Definir rango de filas en Anlisis de correspondencias


Debe denir un rango para la variable de las. Los valores mnimo y mximo especicados deben ser nmeros enteros. En el anlisis, se truncarn los valores de los datos fraccionarios. Se ignorar en el anlisis cualquier valor de categora que est fuera del rango especicado.
Figura 5-2 Cuadro de dilogo Definir rango de filas

Inicialmente, todas las variables estarn sin restringir y activas. Puede restringir las categoras de la para igualarlas a otras categoras de la o puede denir cualquier categora de la como suplementaria.

Las categoras deben ser iguales. Las puntuaciones de las categoras deben ser iguales. Utilice

las restricciones de igualdad si el orden obtenido para las categoras no es el deseado o si no se corresponde con lo intuitivo. El mximo nmero de categoras de la que se puede restringir para que sean consideradas iguales es el nmero total de categoras de la activas menos 1. Utilice la sintaxis para imponer restricciones de igualdad a diferentes conjuntos de categoras. Por ejemplo, utilice la sintaxis para imponer la restriccin de que sean consideradas iguales las categoras 1 y 2 y, por otra parte, que sean consideradas iguales las categoras 3 y 4.

La categora es suplementaria. Las categoras suplementarias no inuyen en el anlisis pero se

representan en el espacio denido por las categoras activas. Las categoras suplementarias no juegan ningn papel en la denicin de las dimensiones. El nmero mximo de categoras de la suplementarias es el nmero total de categoras de la menos 2.

Definir rango de columnas en Anlisis de correspondencias


Debe denir un rango para la variable de columnas. Los valores mnimo y mximo especicados deben ser nmeros enteros. En el anlisis, se truncarn los valores de los datos fraccionarios. Se ignorar en el anlisis cualquier valor de categora que est fuera del rango especicado.

52 Captulo 5 Figura 5-3 Cuadro de dilogo Definir rango de columnas

Inicialmente, todas las variables estarn sin restringir y activas. Puede restringir las categoras de columna para igualarlas a otras categoras de columna o puede denir cualquier categora de columna como suplementaria.

Las categoras deben ser iguales. Las puntuaciones de las categoras deben ser iguales. Utilice

las restricciones de igualdad si el orden obtenido para las categoras no es el deseado o si no se corresponde con lo intuitivo. El nmero mximo de categoras de columna al que se puede imponer la restriccin de igualdad es el nmero total de categoras de columna activas menos 1. Utilice la sintaxis para imponer restricciones de igualdad a diferentes conjuntos de categoras. Por ejemplo, utilice la sintaxis para imponer la restriccin de que sean consideradas iguales las categoras 1 y 2 y, por otra parte, que sean consideradas iguales las categoras 3 y 4.

La categora es suplementaria. Las categoras suplementarias no inuyen en el anlisis pero se

representan en el espacio denido por las categoras activas. Las categoras suplementarias no juegan ningn papel en la denicin de las dimensiones. El nmero mximo de categoras de columna suplementarias es el nmero total de categoras de columna menos 2.

Anlisis de correspondencias: Modelo


El cuadro de dilogo Modelo permite especicar el nmero de dimensiones, la medida de distancia, el mtodo de estandarizacin y el mtodo de normalizacin.

53 Anlisis de correspondencias Figura 5-4 Cuadro de dilogo Modelo

Dimensiones en la solucin. Especique el nmero de dimensiones. En general, seleccione el

menor nmero de dimensiones que necesite para explicar la mayor parte de la variacin. El mximo nmero de dimensiones depende del nmero de categoras activas utilizadas en el anlisis y de las restricciones de igualdad. El mximo nmero de dimensiones es el menor entre:

El nmero de categoras de la activas menos el nmero de categoras de la con restriccin de igualdad, ms el nmero de conjuntos de categoras de la que se han restringido. El nmero de categoras de columna activas menos el nmero de categoras de columna con restriccin de igualdad, ms el nmero de conjuntos de categoras de columna que se han restringido.

Medida de distancia. Puede seleccionar la medida de distancia entre las las y columnas de la

tabla de correspondencias. Seleccione una de las siguientes opciones:

Chi-cuadrado. Utiliza una distancia ponderada entre los perles, donde la ponderacin

es la masa de las las o de las columnas. Esta distancia es necesaria para el anlisis de correspondencias tpico.

Eucldea. Utiliza la raz cuadrada de la suma de los cuadrados de las diferencias entre los

pares de las y entre los pares de columnas.


Mtodo de estandarizacin. Seleccione una de las siguientes opciones:

Se eliminan las medias de filas y columnas. Se centran las las y las columnas. Este mtodo es

necesario para el anlisis de correspondencias tpico.


Se eliminan las medias de filas. Slo se centran las las. Se eliminan las medias de columnas. Slo se centran las columnas.

54 Captulo 5

Se igualan los totales de fila y se eliminan las medias. Antes de centrar las las, se igualan

los mrgenes de la.


Se igualan los totales de columna y se eliminan las medias. Antes de centrar las columnas, se

igualan los mrgenes de columna.


Mtodo de normalizacin. Seleccione una de las siguientes opciones:

Simtrico. Para cada dimensin, las puntuaciones de la son la media ponderada de las

puntuaciones de columna divididas por el valor propio coincidente y las puntuaciones de columna son la media ponderada de las puntuaciones de la divididas por el valor propio coincidente. Utilice este mtodo si desea examinar las diferencias o similaridades entre las categoras de las dos variables.

Principal. Las distancias entre los puntos de la y los puntos de columna son aproximaciones

de las distancias en la tabla de correspondencias de acuerdo con la medida de distancia seleccionada. Utilice este mtodo si desea examinar las diferencias entre las categoras de una o de ambas variables en lugar de las diferencias entre las dos variables.

Principal por fila. Las distancias entre los puntos de la son aproximaciones de las distancias

en la tabla de correspondencias de acuerdo con la medida de distancia seleccionada. Las puntuaciones de la son la media ponderada de las puntuaciones de columna. Utilice este mtodo si desea examinar las diferencias o similaridades entre las categoras de la variable de las.

Principal por columna. Las distancias entre los puntos de columna son aproximaciones de las

distancias en la tabla de correspondencias de acuerdo con la medida de distancia seleccionada. Las puntuaciones de columna son la media ponderada de las puntuaciones de la. Utilice este mtodo si desea examinar las diferencias o similaridades entre las categoras de la variable de columnas.

Personalizado. Debe especicar un valor entre 1 y 1. El valor 1 corresponde a Principal por

columna. El valor 1 corresponde a Principal por la. El valor 0 corresponde a simtrico. Todos los dems valores dispersan la inercia entre las puntuaciones de columna y de la en diferentes grados. Este mtodo es til para generar diagramas de dispersin biespaciales a medida.

Anlisis de correspondencias: Estadsticos


El cuadro de dilogo Estadsticos permite especicar los resultados numricos producidos.

55 Anlisis de correspondencias Figura 5-5 Cuadro de dilogo Estadsticos

Tabla de correspondencias. Es la tabla de contingencia de las variables de entrada con los totales

marginales de la y columna.
Inspeccin de los puntos de fila. Para cada categora de la, las puntuaciones, la masa, la inercia, la

contribucin a la inercia de la dimensin y la contribucin de la dimensin a la inercia del punto.


Inspeccin de los puntos de columna. Para cada categora de columna, las puntuaciones, la masa, la inercia, la contribucin a la inercia de la dimensin y la contribucin de la dimensin a la inercia del punto. Perfiles de fila. Para cada categora de la, la distribucin a travs de las categoras de la variable

de columna.
Perfiles de col. Para cada categora de columna, la distribucin a travs de las categoras de la variable de la. Permutaciones de la tabla de correspondencias. La tabla de correspondencias reorganizada de tal manera que las las y las columnas estn en orden ascendente de acuerdo con las puntuaciones en la primera dimensin, Si lo desea, puede especicar el nmero de la dimensin mxima para el que se generarn las tablas permutadas. Se generar una tabla permutada para cada dimensin desde 1 hasta el nmero especicado. Estadsticos de confianza para puntos de fila. Incluye la desviacin tpica y las correlaciones para

todos los puntos de la no suplementarios.


Estadsticos de confianza para puntos de columna. Incluye la desviacin tpica y las correlaciones para todos los puntos de columna no suplementarios.

Anlisis de correspondencias: Grficos


El cuadro de dilogo Grcos permite especicar qu grcos se van a generar.

56 Captulo 5 Figura 5-6 Cuadro de dilogo Grficos

Diagramas de dispersin. Produce una matriz de todos los grcos por parejas de las dimensiones.

Los diagramas de dispersin disponibles incluyen:

Diagrama de dispersin biespacial. Produce una matriz de diagramas conjuntos de los puntos

de la y de columna. Si est seleccionada la normalizacin principal, el diagrama de dispersin biespacial no estar disponible.

Puntos de fila. Produce una matriz de diagramas de los puntos de la. Puntos de columna. Produce una matriz de diagramas de los puntos de columna.

Si lo desea, puede especicar el nmero de caracteres de etiqueta de valor que se va a utilizar al etiquetar los puntos. Este valor debe ser un entero no negativo menor o igual que 20.
Grficos de lnea. Produce un grco para cada dimensin de la variable seleccionada. Los

grcos de lneas disponibles incluyen:


Categoras de fila transformadas. Produce un grco de los valores originales para las

categoras de la frente a las puntuaciones de la correspondientes.


Categoras de columna transformadas. Produce un grco de los valores originales para las

categoras de columna frente a las puntuaciones de columna correspondientes. Si lo desea, puede especicar el nmero de caracteres de etiqueta de valor que se va a utilizar al etiquetar los ejes de categoras. Este valor debe ser un entero no negativo menor o igual que 20.
Dimensiones del grfico. Permite controlar las dimensiones que se muestran en los resultados.

57 Anlisis de correspondencias

Muestra todas las dimensiones de la solucin. Todas las dimensiones de la solucin se muestran

en un diagrama de dispersin matricial.


Restringe el nmero de dimensiones Las dimensiones mostradas se restringen a los pares

representados. Si restringe las dimensiones, deber seleccionar las dimensiones menor y mayor que se van a representar. La dimensin menor puede variar desde 1 hasta el nmero de dimensiones de la solucin menos 1 y se representa respecto a las dimensiones mayores. El valor de la dimensin mayor puede oscilar variar desde 2 hasta el nmero de dimensiones de la solucin e indica la dimensin mayor que se utilizar al representar los pares de dimensiones. Esta especicacin se aplica a todos los grcos multidimensionales solicitados.

Funciones adicionales del comando CORRESPONDENCE


Se puede personalizar el anlisis de correspondencias si se pegan las selecciones en una ventana de sintaxis y se edita la sintaxis del comando CORRESPONDENCE resultante. Con el lenguaje de sintaxis de comandos tambin podr:

Especicar datos tabulares como entrada en lugar de utilizar datos por caso (mediante el subcomando TABLE = ALL). Especicar el nmero de caracteres de etiqueta de valor que se utilizan al etiquetar los puntos para cada tipo de diagrama de dispersin matricial o diagrama de dispersin biespacial matricial (mediante el subcomando PLOT). Especicar el nmero de caracteres de etiqueta de valor que se utilizan al etiquetar los puntos para cada tipo de grco de lneas (mediante el subcomando PLOT). Escribir una matriz de puntuaciones de la y de columna en un archivo de datos matriciales (mediante el subcomando OUTFILE). Escribir una matriz de estadsticos de conanza (varianzas y covarianzas) para los valores propios y las puntuaciones en un archivo de datos matriciales (mediante el subcomando OUTFILE). Especicar varios conjuntos de categoras para igualar (mediante el subcomando EQUAL).

Si desea informacin detallada sobre la sintaxis, consulte la referencia de sintaxis de comandos (Command Syntax Reference).

Captulo

Anlisis de correspondencias mltiple

El anlisis de correspondencias mltiple cuantica los datos nominales (categricos) mediante la asignacin de valores numricos a los casos (objetos) y a las categoras, de manera que los objetos de la misma categora estn cerca los unos de los otros y los objetos de categoras diferentes estn alejados los unos de los otros. Cada objeto se encuentra lo ms cerca posible de los puntos de categora para las categoras que se aplican a dicho objeto. De esta manera, las categoras dividen los objetos en subgrupos homogneos. Las variables se consideran homogneas cuando clasican objetos de las mismas categoras en los mismos subgrupos.
Ejemplo. El anlisis de correspondencias mltiple se puede utilizar para representar grcamente

la relacin entre la categora laboral, la clasicacin tnica y el gnero. Puede que encontremos que la clasicacin tnica y el gnero son capaces de discriminar entre las personas, pero no as la categora laboral. Tambin puede que encontremos que las categoras Latino y Afro-americano son similares entre s.
Estadsticos y grficos. Puntuaciones de objetos, medidas de discriminacin, historial de iteraciones, correlaciones de las variables originales y transformadas, cuanticaciones de categoras, estadsticos descriptivos, grcos de puntos de objetos, grcos de dispersin biespacial, grcos de categoras, grcos de categoras conjuntas, grcos de transformacin y grcos de medidas de discriminacin. Datos. Los valores de las variables de cadena se convierten en enteros positivos por orden alfabtico ascendente. Los valores perdidos denidos por el usuario, los valores perdidos del sistema y los valores menores que 1 se consideran valores perdidos; se puede aadir una constante o recodicar las variables con valores inferiores a 1 para evitar que se pierdan los mismos. Supuestos. Todas las variables tienen un nivel de escalamiento nominal mltiple. Los datos deben

contener al menos tres casos vlidos. El anlisis se basa en datos enteros positivos. La opcin de discretizacin categorizar de forma automtica una variable con valores fraccionarios, agrupando sus valores en categoras con una distribucin casi normal y convertir de forma automtica los valores de las variables de cadena en enteros positivos. Se pueden especicar otros esquemas de discretizacin.
Procedimientos relacionados. Para dos variables, el anlisis de correspondencias mltiple es

anlogo al anlisis de correspondencias. Si piensa que las variables poseen propiedades ordinales o numricas, se debe utilizar el anlisis de componentes principales categrico. Si hay conjuntos de variables que son de inters, se debe utilizar el anlisis de correlacin cannica no lineal.
Para obtener un anlisis de correspondencias mltiple
E Elija en los mens: Analizar > Reduccin de dimensiones > Escalamiento ptimo... Copyright SPSS Inc. 1989, 2010 58

59 Anlisis de correspondencias mltiple Figura 6-1 Cuadro de dilogo Escalamiento ptimo

E Seleccione Todas las variables son nominales mltiples. E Seleccione Un conjunto. E Pulse en Definir. Figura 6-2 Cuadro de dilogo Anlisis de correspondencias mltiple

E Seleccione al menos dos variables de anlisis y especique el nmero de dimensiones en la

solucin.
E Pulse en Aceptar.

60 Captulo 6

Si lo desea, puede especicar variables suplementarias, que sern ajustadas sobre la solucin encontrada, o variables de etiqueta para los grcos.

Definir ponderacin de la variable en el anlisis de correspondencias mltiple


Se puede denir la ponderacin para las variables del anlisis.
Figura 6-3 Cuadro de dilogo Definir ponderacin de la variable

Ponderacin de la variable. Se puede denir una ponderacin para cada variable. El valor

especicado debe ser un entero positivo. El valor por defecto es 1.

Discretizacin en el anlisis de correspondencias mltiple


El cuadro de dilogo Discretizacin permite seleccionar un mtodo para recodicar las variables. Las variables con valores fraccionarios se agrupan en siete categoras (o en el nmero de valores diferentes de la variable si dicho nmero es inferior a siete) con una distribucin aproximadamente normal, si no se especica lo contrario. Las variables de cadena se convierten siempre en enteros positivos mediante la asignacin de indicadores de categora en funcin del orden alfanumrico ascendente. La discretizacin de las variables de cadena se aplica a estos enteros resultantes. Por defecto, las variables restantes se dejan inalteradas. A partir de ese momento, se utilizan en el anlisis las variables discretizadas.

61 Anlisis de correspondencias mltiple Figura 6-4 Cuadro de dilogo Discretizacin

Mtodo. Seleccione entre agrupacin, asignacin de rangos y multiplicacin.


Agrupacin. Se recodica en un nmero especicado de categoras o se recodica por

intervalos.
Asignacin de rangos. La variable se discretiza mediante la asignacin de rangos a los casos. Multiplicacin. Los valores actuales de la variable se tipican, multiplican por 10, redondean

y se les suma una constante de manera que el menor valor discretizado sea 1.
Agrupacin. Se encuentran disponibles las siguientes opciones al discretizar variables por

agrupacin:

Nmero de categoras. Especique un nmero de categoras y si los valores de la variable

deben seguir una distribucin aproximadamente normal o uniforme en dichas categoras.


Intervalos iguales. Las variables se recodican en las categoras denidas por dichos intervalos

de igual tamao. Se debe especicar la longitud de los intervalos.

Valores perdidos en el anlisis de correspondencias mltiple


El cuadro de dilogo Valores perdidos permite seleccionar la estrategia para el tratamiento de los valores perdidos en las variables de anlisis y las suplementarias.

62 Captulo 6 Figura 6-5 Cuadro de dilogo Valores perdidos

Estrategia de valores perdidos. Seleccione excluir los valores perdidos (tratamiento pasivo), imputar los valores perdidos (tratamiento activo) o excluir objetos con valores perdidos (eliminacin por lista).

Excluir valores perdidos; para las correlaciones, imputar tras la cuantificacin. Los objetos con

valores perdidos en la variable seleccionada no contribuyen en el anlisis de esta variable. Si a todas las variables se les aplica tratamiento pasivo, los objetos con valores perdidos en todas las variables se tratarn como suplementarios. Si se especican correlaciones en el cuadro de dilogo Resultados, tras el anlisis, los valores perdidos se imputarn con la categora ms frecuente, o moda, de la variable para las correlaciones de las variables originales. Para las correlaciones de la variable escalada ptimamente, se puede seleccionar el mtodo de imputacin. Seleccione Moda para reemplazar los valores perdidos por la moda de la variable escalada ptimamente. Seleccione Categora adicional para reemplazar los valores perdidos por la cuanticacin de una categora adicional. Esto implica que los objetos con un valor perdido en esta variable se consideran que pertenecen a la misma categora (la adicional).

Imputar valores perdidos. Los objetos con valores perdidos en la variable seleccionada tendrn

dichos valores imputados. Se puede seleccionar el mtodo de imputacin. Seleccione Moda para reemplazar los valores perdidos por la categora ms frecuente. Cuando existen varias modas, se utiliza la que tiene el indicador de categora ms pequeo. Seleccione Categora adicional para reemplazar los valores perdidos con la misma cuanticacin de una categora

63 Anlisis de correspondencias mltiple

adicional. Esto implica que los objetos con un valor perdido en esta variable se consideran que pertenecen a la misma categora (la adicional).

Excluir objetos con valores perdidos en esta variable. Los objetos con valores perdidos en la

variable seleccionada se excluyen del anlisis. Esta estrategia no est disponible para las variables suplementarias.

Opciones de anlisis de correspondencias mltiple


El cuadro de dilogo de opciones permite seleccionar la conguracin inicial, especicar los criterios de iteracin y convergencia, seleccionar un mtodo de normalizacin, elegir el mtodo para etiquetar los grcos y especicar objetos suplementarios.
Figura 6-6 Cuadro de dilogo Opciones

Objetos suplementarios. Especique el nmero de caso del objeto (o bien los nmeros de caso

primero y ltimo de un rango de objetos) que desee convertir en suplementario y, a continuacin, pulse en Aadir. Contine hasta que haya especicado todos los objetos suplementarios. Si se especica un objeto como suplementario, se ignorarn las ponderaciones de caso para dicho objeto.
Mtodo de normalizacin. Se puede especicar una de las cinco opciones para normalizar las

puntuaciones de objeto y las variables. Slo se puede utilizar un mtodo de normalizacin en un anlisis dado.

64 Captulo 6

Principal por variable. Esta opcin optimiza la asociacin entre las variables. Las coordenadas

de las variables en el espacio de los objetos son las saturaciones en componentes (las correlaciones con componentes principales, como son las dimensiones y las puntuaciones de los objetos). Esta opcin es til cuando el inters principal est en la correlacin entre las variables.

Principal por objeto. Esta opcin optimiza las distancias entre los objetos. Esta opcin es til

cuando el inters principal est en las diferencias y similitudes entre los objetos.
Simtrico. Se utiliza esta opcin de normalizacin si el inters principal est en la relacin

entre objetos y variables.


Independiente. Se utiliza esta opcin de normalizacin si se desea examinar por separado las

distancias entre los objetos y las correlaciones entre las variables.


Personalizado. Se puede especicar cualquier valor real en el intervalo cerrado [1, 1]. Un

valor 1 es igual al mtodo Principal por objeto, un valor 0 es igual al mtodo Simtrico y un valor 1 es igual al mtodo Principal por variable. Si se especica un valor mayor que 1 y menor que 1, se puede distribuir el autovalor entre los objetos y las variables. Este mtodo es til para generar diagramas de dispersin biespaciales y triespaciales a medida.
Criterios. Se puede especicar el nmero mximo de iteraciones que el procedimiento puede realizar durante los clculos. Tambin puede seleccionar un valor para el criterio de convergencia. El algoritmo detiene la iteracin si la diferencia del ajuste total entre la dos ltimas iteraciones es menor que el valor de convergencia o si se ha alcanzado el nmero mximo de iteraciones. Etiquetar grficos con. Permite especicar si se utilizarn en los grcos las etiquetas de variable y las etiquetas de valor o los nombres de variable y los valores. Tambin se puede especicar una longitud mxima para las etiquetas. Dimensiones del grfico. Permite controlar las dimensiones que se muestran en los resultados.

Muestra todas las dimensiones de la solucin. Todas las dimensiones de la solucin se muestran

en un diagrama de dispersin matricial.


Restringe el nmero de dimensiones Las dimensiones mostradas se restringen a los pares

representados. Si restringe las dimensiones, deber seleccionar las dimensiones menor y mayor que se van a representar. La dimensin menor puede variar desde 1 hasta el nmero de dimensiones de la solucin menos 1 y se representa respecto a las dimensiones mayores. El valor de la dimensin mayor puede oscilar variar desde 2 hasta el nmero de dimensiones de la solucin e indica la dimensin mayor que se utilizar al representar los pares de dimensiones. Esta especicacin se aplica a todos los grcos multidimensionales solicitados.
Configuracin. Se pueden leer datos de un archivo que contenga las coordenadas de una

conguracin. La primera variable del archivo deber contener las coordenadas para la primera dimensin, la segunda variable las coordenadas para la segunda dimensin, y as sucesivamente.

Inicial. La conguracin del archivo especicado se utilizar como el punto inicial del anlisis. Fija. La conguracin del archivo especicado se utilizar para ajustar las variables. Las

variables que se ajustan se deben seleccionar como variables de anlisis, pero, al ser la conguracin ja, se tratan como variables suplementarias (de manera que no es necesario seleccionarlas como variables suplementarias).

65 Anlisis de correspondencias mltiple

Resultados del anlisis de correspondencias mltiple


El cuadro de dilogo permite generar tablas para las puntuaciones de los objetos, las medidas de discriminacin, el historial de iteraciones, las correlaciones de las variables originales y transformadas, las cuanticaciones de categoras para las variables seleccionadas y los estadsticos descriptivos de las variables seleccionadas.
Figura 6-7 Cuadro de dilogo Resultados

Puntuaciones de los objetos. Muestra las puntuaciones de los objetos (incluidas la masa, la inercia y las contribuciones) y tiene las siguientes opciones:

Incluir categoras de. Muestra los indicadores de las categoras de las variables de anlisis

seleccionadas.
Etiquetar puntuaciones de los objetos por. De la lista de variables especicadas como variables

de etiquetado, se puede seleccionar una para etiquetar los objetos.


Medidas de discriminacin. Muestra las medidas de discriminacin por variable y por dimensin. Historial de iteraciones. En cada iteracin, se muestra la varianza explicada, la prdida y el

incremento en la varianza explicada.


Correlaciones de variables originales. Muestra la matriz de correlaciones de las variables originales

y los autovalores de dicha matriz.


Correlaciones de variables transformadas. Muestra la matriz de correlaciones de las variables transformadas (mediante escalamiento ptimo) y los autovalores de dicha matriz.

66 Captulo 6

Cuantificaciones de categoras y contribuciones. Muestra las cuanticaciones de las categoras (coordenadas), incluidas la masa, la inercia y las contribuciones) para cada dimensin de las variables seleccionadas.

Nota: las coordenadas y contribuciones (incluyendo masa e inercia) se muestran en capas diferentes de los resultados de la tabla pivote, mostrando las coordenadas por defecto. Para mostrar la contribuciones, active (pulse dos veces) la tabla y seleccione Contribuciones de la lista desplegable Capas.
Estadsticos descriptivos. Muestra las frecuencias, el nmero de valores perdidos y la moda de las variables seleccionadas.

Anlisis de correspondencias mltiple: Guardar


El cuadro de dilogo Guardar permite guardar datos discretizados, puntuaciones de objeto, valores transformados en un archivo de datos o conjunto de datos de IBM SPSS Statistics. Tambin puede guardar estos valores transformados y puntuaciones de objetos en el conjunto de datos activo.

Los conjuntos de datos estn disponibles durante la sesin actual, pero no as en las sesiones posteriores, a menos que los haya guardado explcitamente como archivos de datos. El nombre de un conjunto de datos debe cumplir las normas de denominacin de variables. Los nombres de archivo o de conjunto de datos deben ser distintos para cada tipo de dato guardado. Si guarda puntuaciones de objeto o valores transformados en el conjunto de datos activo, podr especicar el nmero de dimensiones nominales mltiples.

Figura 6-8 Cuadro de dilogo Guardar

67 Anlisis de correspondencias mltiple

Anlisis de correspondencias mltiple: Grficos de objetos


El cuadro de dilogo Grcos de objetos permite especicar los tipos de grcos deseados y las variables que se van a representar
Figura 6-9 Cuadro de dilogo Grficos de objetos

Puntos de objetos. Se muestra un grco de los puntos de objetos. Objetos y centroides (diagrama de dispersin biespacial). Los puntos de objetos se representan

con los centroides de las variables.


Variables de diagrama de dispersin biespacial. Puede utilizar todas las variables para los grcos

de dispersin biespacial o seleccionar un subconjunto.


Etiquetar objetos. Se puede elegir que los objetos se etiqueten con las categoras de las variables

seleccionadas (se pueden seleccionar entre los valores del indicador de categora o las etiquetas de valor, en el cuadro de dilogo Opciones) o con sus nmeros de caso. Se genera un grco por cada variable si se selecciona Variable.

Anlisis de correspondencias mltiple: Grficos de variables


El cuadro de dilogo Grcos de variables permite especicar los tipos de grcos deseados y las variables que se van a representar.

68 Captulo 6 Figura 6-10 Cuadro de dilogo Grficos de variables

Grficos de categoras. Para cada variable seleccionada, se representa un grco de las coordenadas del centroide. Las categoras se encuentran en los centroides de los objetos de las categoras particulares. Grficos de categoras conjuntas. Este es un nico grco de las coordenadas del centroide de

cada variable seleccionada.


Grficos de transformacin. Muestra un grco de las cuanticaciones de las categoras ptimas

en oposicin a los indicadores de las categoras. Puede especicar el nmero de dimensiones deseado; se generar un grco para cada dimensin. Tambin se puede seleccionar si se muestran los grcos de los residuos para cada variable seleccionada.
Medidas de discriminacin. Genera un nico grco de las medidas de discriminacin de las

variables seleccionadas.

Funciones adicionales del comando MULTIPLE CORRESPONDENCE


Se puede personalizar el anlisis de correspondencias mltiple si se pegan las selecciones en una ventana de sintaxis y se edita la sintaxis del comando MULTIPLE CORRESPONDENCE. Con el lenguaje de sintaxis de comandos tambin podr:

Especicar nombres de raz para las variables transformadas, puntuaciones de objetos y aproximaciones al guardarlas en el conjunto de datos activo (con el subcomando SAVE).

69 Anlisis de correspondencias mltiple

Especicar una longitud mxima de las etiquetas para cada grco por separado (con el subcomando PLOT). Especicar una lista de variables distinta para los grcos de residuos (con el subcomando PLOT).

Si desea informacin detallada sobre la sintaxis, consulte la referencia de sintaxis de comandos (Command Syntax Reference).

Captulo

Escalamiento multidimensional (PROXSCAL)

El escalamiento multidimensional trata de encontrar la estructura existente en un conjunto de medidas de proximidades entre objetos. Este proceso se logra asignando las observaciones a posiciones especcas en un espacio conceptual de pocas dimensiones, de modo que las distancias entre los puntos en el espacio concuerden al mximo con las similaridades (o disimilaridades) dadas. El resultado es una representacin de mnimos cuadrados de los objetos en dicho espacio de pocas dimensiones que, en muchos casos, le ayudar a entender mejor los datos.
Ejemplo. El escalamiento multidimensional puede ser muy til en la determinacin de relaciones

perceptuales. Por ejemplo, al considerar la imagen de un producto, se puede llevar a cabo un estudio para obtener un conjunto de datos que describa la similaridad percibida (o proximidad) de este producto con el de la competencia. Mediante estas proximidades y las variables independientes (como el precio), puede intentar determinar las variables que son importantes en la visin que el pblico tiene del producto, as como ajustar la imagen de acuerdo con ello.
Estadsticos y grficos. Historial de iteraciones, medidas de stress, descomposicin del stress,

coordenadas del espacio comn, distancias entre objetos dentro de la conguracin nal, ponderaciones del espacio individual, espacios individuales, proximidades transformadas, variables independientes transformadas, grcos del stress, diagramas de dispersin del espacio comn, diagramas de dispersin de la ponderacin del espacio individual, diagramas de dispersin de los espacios individuales, grcos de transformacin, grcos residuales de Shepard y grcos de transformacin de las variables independientes.
Datos. Los datos se pueden suministrar en forma de matrices de proximidades o como variables que se convierten en matrices de proximidades. Las matrices pueden tener formato en columna o a travs de las columnas. Las proximidades se pueden tratar con los niveles de escalamiento de razn, de intervalo, ordinal o de lneaSp. Supuestos. Se deben especicar al menos tres variables. El nmero de dimensiones no puede

superar al nmero de objetos menos uno. Se omite la reduccin de dimensionalidad si se combina con varios inicios aleatorios. Si slo se especica una fuente, todos los modelos son equivalentes al modelo identidad, por consiguiente, el anlisis toma por defecto el modelo identidad.
Procedimientos relacionados. Si se escalan todas las variables a nivel numrico, el anlisis se

corresponder con el anlisis de escalamiento multidimensional tpico.

Copyright SPSS Inc. 1989, 2010

70

71 Escalamiento multidimensional (PROXSCAL)

Para obtener un escalamiento multidimensional


E En los mens, seleccione: Analizar > Escala > Escalamiento multidimensional (PROXSCAL)

Acceder al cuadro de dilogo Formato de datos.


Figura 7-1 Cuadro de dilogo Formato de datos

E Especique el formato de los datos:

Formato de datos. Especique si los datos son medidas de proximidad o si desea crear las

proximidades a partir de los datos.


Nmero de fuentes. Si los datos son proximidades, debe especicar si dispone de una fuente nica

o de varias fuentes de medidas de proximidad.


Una fuente. Si hay una sola fuente de proximidades, especique si el conjunto de datos se

encuentra en un formato con las proximidades en una matriz a travs de las columnas o en una nica columna con dos variables diferentes para identicar la la y la columna de cada proximidad.

Las proximidades estn en una matriz a travs de columnas. La matriz de proximidades est

distribuida en un nmero de columnas igual al nmero de objetos. Lo que conduce al cuadro de dilogo Proximidades en matrices a travs de columnas.

Las proximidades estn en una sola columna. Las matrices de proximidades se contraen en una

nica columna o variable. Se necesitan dos variables adicionales, que identican la la y la columna de cada casilla. Lo que conduce al cuadro de dilogo Proximidades en una columna.
Varias fuentes. Si hay varias fuentes de proximidades, especique si el conjunto de datos se

encuentra en un formato con las proximidades a travs de las columnas en matrices apiladas, en varias columnas con una fuente por cada columna o en una nica columna.

72 Captulo 7

Las proximidades se encuentran en matrices apiladas en las columnas. Las matrices de

proximidades estn distribuidas a lo largo de un nmero de columnas igual al nmero de objetos y apiladas una sobre la otra a lo largo de un nmero de las igual al nmero de objetos por el nmero de fuentes. Lo que conduce al cuadro de dilogo Proximidades en matrices a travs de columnas.

Las proximidades estn en columnas, una fuente por columna. Las matrices de proximidades

se contraen en varias columnas o variables. Se necesitan dos variables adicionales, que identican la la y la columna de cada casilla. Lo que conduce al cuadro de dilogo Proximidades en columnas.

Las proximidades se apilan en una sola columna. Las matrices de proximidades se contraen en

una nica columna o variable. Se necesitan tres variables adicionales, que identican la la, la columna y la fuente de cada casilla. Lo que conduce al cuadro de dilogo Proximidades en una columna.
E Pulse en Definir.

Proximidades en matrices a travs de columnas


Si selecciona el modelo para los datos con las proximidades en matrices, para una o varias fuentes, en el cuadro de dilogo Formato de datos, el cuadro de dilogo principal aparecer de la siguiente manera:
Figura 7-2 Cuadro de dilogo Proximidades en matrices a travs de columnas

E Seleccione tres o ms variables de proximidades. (Asegrese de que el orden de las variables en la

lista coincide con el orden de las columnas para las proximidades.)


E Si lo desea, seleccione un nmero de variables de ponderaciones igual al nmero de variables

de proximidades. (Asegrese de que el orden de las ponderaciones coincide con el orden de las proximidades a las que ponderan.)

73 Escalamiento multidimensional (PROXSCAL) E Como alternativa, si existen varias fuentes, seleccione una variable de fuentes. (El nmero de

casos en cada variable de proximidades debe ser igual al nmero de variables de proximidades multiplicado por el nmero de fuentes.) Adems, puede denir un modelo para el escalamiento multidimensional, establecer restricciones en el espacio comn, establecer criterios de convergencia, especicar la conguracin inicial que se va a utilizar y seleccionar grcos y resultados.

Proximidades en columnas
Si selecciona el modelo de varias columnas para varias fuentes, en el cuadro de dilogo Formato de datos, el cuadro de dilogo principal aparecer de la siguiente manera:
Figura 7-3 Cuadro de dilogo Proximidades en columnas

E Seleccione dos o ms variables de proximidades. (Se asume que cada variable es una matriz de

proximidades de una fuente diferente.)


E Seleccione una variable de la para denir las ubicaciones de la para las proximidades en cada

variable de proximidades.
E Seleccione una variable de columna para denir las ubicaciones de columna para las proximidades

en cada una de las variables de proximidades. (Las casillas de la matriz de proximidades que no reciban una designacin la/columna se tratarn como perdidas.)
E Si lo desea, seleccione un nmero de variables de ponderaciones igual al nmero de variables de

proximidades. Adems, puede denir un modelo para el escalamiento multidimensional, establecer restricciones en el espacio comn, establecer criterios de convergencia, especicar la conguracin inicial que se va a utilizar y seleccionar grcos y resultados.

74 Captulo 7

Proximidades en una columna


Si selecciona el modelo de una columna para una o varias fuentes en el cuadro de dilogo Formato de datos, el cuadro de dilogo principal aparecer de la siguiente manera:
Figura 7-4 Cuadro de dilogo Proximidades en una columna

E Seleccione una variable de proximidades. (Se asume que es una o ms matrices de proximidades.) E Seleccione una variable de la para denir las ubicaciones de la para las proximidades en la

variable de proximidades.
E Seleccione una variable de columna para denir las ubicaciones de columna para las proximidades

en la variable de proximidades.
E Si existen varias fuentes, seleccione una variable de fuentes. (Para cada fuente, las casillas de la

matriz de proximidades que no reciban una designacin la/columna se tratarn como perdidas.)
E Si lo desea, seleccione una variable de ponderaciones.

Adems, puede denir un modelo para el escalamiento multidimensional, establecer restricciones en el espacio comn, establecer criterios de convergencia, especicar la conguracin inicial que se va a utilizar y seleccionar grcos y resultados.

75 Escalamiento multidimensional (PROXSCAL)

Crear proximidades de los datos


Si decide crear proximidades a partir de los datos, en el cuadro de dilogo Formato de datos, el cuadro de dilogo principal aparecer de la siguiente manera:
Figura 7-5 Cuadro de dilogo Crear proximidades de los datos

E Si crea distancias entre variables (consulte el cuadro de dilogo Crear la medida a partir de los

datos), seleccione al menos tres variables. Estas variables se utilizarn para crear la matriz de proximidades (o matrices, si hay varias fuentes). Si crea las distancias entre los casos, slo ser necesaria una variable.
E Si existen varias fuentes, seleccione una variable de fuentes. E Si lo desea, seleccione una medida para crear proximidades.

Adems, puede denir un modelo para el escalamiento multidimensional, establecer restricciones en el espacio comn, establecer criterios de convergencia, especicar la conguracin inicial que se va a utilizar y seleccionar grcos y resultados.

76 Captulo 7

Crear la medida a partir de los datos


Figura 7-6 Cuadro de dilogo Crear la medida a partir de los datos

El escalamiento multidimensional utiliza datos de disimilaridad para crear una solucin de escalamiento. Si los datos son datos multivariantes (los valores de las variables que se han medido), debe crear los datos de disimilaridad para poder calcular una solucin de escalamiento multidimensional. Puede especicar los detalles para la creacin de las medidas de disimilaridad a partir de los datos.
Medida. Le permite especicar la medida de disimilaridad para el anlisis. Seleccione una

opcin del grupo Medida que se corresponda con el tipo de datos y, a continuacin, seleccione una de las medidas de la lista desplegable correspondiente a ese tipo de medida. Las opciones disponibles son:

Intervalo. Distancia eucldea, Distancia eucldea al cuadrado, Chebychev, Bloque, Minkowski

o Personalizada.
Contar apariciones. Medida de chi-cuadrado o Medida de phi-cuadrado. Binaria. Distancia eucldea, Distancia eucldea al cuadrado, Diferencia de tamao, Diferencia

de conguracin, Varianza o Lance y Williams.


Crear matriz de distancias. Le permite elegir la unidad de anlisis. Las opciones son Entre

variables o Entre casos.


Transformar valores. En determinados casos, como cuando las variables se miden en escalas muy

distintas, puede que desee tipicar los valores antes de calcular las proximidades (no es aplicable a datos binarios). Seleccione un mtodo de estandarizacin de la lista desplegable Estandarizar (si no se requiere ninguna estandarizacin, seleccione Ninguna).

77 Escalamiento multidimensional (PROXSCAL)

Definir un modelo de escalamiento multidimensional


El cuadro de dilogo modelo permite especicar un modelo de escalamiento, su nmero de dimensiones mximo y mnimo, la estructura de la matriz de proximidades, la transformacin que se va a utilizar en las proximidades y si las proximidades se transforman dentro de cada fuente por separado o de forma incondicional en la fuente.
Figura 7-7 Cuadro de dilogo Modelo

Modelo de escalamiento. Seleccione entre las siguientes alternativas:


Identidad. Todas las fuentes tienen la misma conguracin. Eucldeo ponderado. ste es un modelo de diferencias individuales. Cada fuente dispone de

un espacio individual en el que cada dimensin del espacio comn se pondera de forma diferenciada.

Eucldeo generalizado. ste es un modelo de diferencias individuales. Cada fuente dispone

de un espacio individual que es igual a la rotacin del espacio comn, seguida de una ponderacin diferencial de las dimensiones.

Rango reducido. Este modelo es un modelo Eucldeo generalizado para el que puede

especicar el rango del espacio individual. Debe especicar un rango que sea mayor o igual que 1 y menor que el mximo nmero de dimensiones.
Forma. Especique si las proximidades deben tomarse de la parte triangular inferior o de la

triangular superior de la matriz de proximidades. Puede especicar que se utilice la matriz completa, en cuyo caso se analizar la suma ponderada de la parte triangular superior y de la parte triangular inferior. En cualquier caso, se debe especicar la matriz completa, incluyendo la diagonal, aunque slo se utilicen las partes especicadas.
Proximidades. Especique si la matriz de proximidades contiene medidas de similaridad o

disimilaridad.

78 Captulo 7

Transformaciones de proximidades. Seleccione entre las siguientes alternativas:


Razn. Las proximidades transformadas son proporcionales a las proximidades originales.

Slo se permite para proximidades con un valor positivo.


Intervalo. Las proximidades transformadas son proporcionales a las proximidades originales,

ms un trmino de interseccin. La interseccin asegura que todas las proximidades transformadas sean positivas.

Ordinal. Las proximidades transformadas tienen el mismo orden que las proximidades

originales. Puede especicar si para las proximidades empatadas se debe mantener el empate o si se deben desempatar.

LneaSp. Las proximidades transformadas son una transformacin polinmica por partes no

decreciente suave de las proximidades originales. Puede especicar el grado del polinomio y el nmero de nudos interiores.
Aplicar transformaciones. Especica si slo las proximidades dentro de cada fuente se comparan

entre s o si las comparaciones son incondicionales respecto a la fuente.


Dimensiones. Por defecto, se calcula una solucin en dos dimensiones (Mnimo=2, Mximo=2). Puede seleccionar un entero mnimo y otro mximo entre 1 y el nmero de objetos menos 1 (siempre y cuando el mnimo sea menor o igual que el mximo). El procedimiento calcula una solucin en las dimensiones mximas y, a continuacin, reduce la dimensionalidad por pasos hasta llegar al mnimo.

Escalamiento multidimensional: Restricciones


El cuadro de dilogo Restricciones permite establecer restricciones en el espacio comn.

79 Escalamiento multidimensional (PROXSCAL) Figura 7-8 Cuadro de dilogo Restricciones

Restricciones en el espacio comn. Especique el tipo de restricciones que desee.


Sin restricciones. No se impone ninguna restriccin en el espacio comn. Algunas coordenadas fijas. La primera variable seleccionada incluye las coordenadas de los

objetos en la primera dimensin, la segunda variable se corresponde con las coordenadas de la segunda dimensin, y as sucesivamente. Un valor perdido indica que una coordenada en una dimensin est libre. El nmero de variables seleccionadas debe ser igual al nmero mximo de dimensiones solicitadas.

Combinacin lineal de variables independientes. El espacio comn se restringe hasta ser una

combinacin lineal de las variables seleccionadas.


Variables de restriccin. Seleccione las variables que denen las restricciones en el espacio comn.

Si se especica una combinacin lineal, se debe especicar una transformacin de intervalo, nominal, ordinal o de lneaSp para las variables de restriccin. En cualquier caso, el nmero de casos para cada variable debe ser igual al nmero de objetos.

Escalamiento multidimensional: Opciones


El cuadro de dilogo Opciones permite seleccionar el estilo para la conguracin inicial, especicar los criterios de iteracin y convergencia y seleccionar entre actualizaciones estndar o relajadas.

80 Captulo 7 Figura 7-9 Cuadro de dilogo Opciones

Configuracin inicial. Seleccione una de las siguientes opciones:

Simplex. Los objetos se colocan a la misma distancia unos de otros en la mxima dimensin.

Se lleva a cabo una iteracin para mejorar esta conguracin de gran dimensionalidad, seguida de una operacin de reduccin de dimensiones para obtener una conguracin inicial que tenga el nmero mximo de dimensiones especicadas en el cuadro de dilogo Modelo.

Torgerson. Se utiliza una solucin de escalamiento clsico como la conguracin inicial. Inicio aleatorio nico. Se selecciona una conguracin aleatoriamente. Inicios aleatorios mltiples. Se seleccionan varias conguraciones aleatoriamente y se utiliza

la que tenga menor stress bruto normalizado como la conguracin inicial.


Personalizado. Seleccione variables que contengan las coordenadas de su propia conguracin

inicial. El nmero de variables seleccionadas debe ser igual al nmero mximo de dimensiones especicadas, correspondiendo la primera variable a las coordenadas en la dimensin 1, la segunda variable a las coordenadas en la dimensin 2 y as sucesivamente. El nmero de casos en cada variable debe ser igual al nmero de objetos.
Criterios de iteracin. Especique los valores de los criterios de iteracin.

Convergencia del stress. El algoritmo detendr la iteracin cuando la diferencia entre valores

consecutivos del stress bruto normalizado sea menor que el nmero aqu especicado, que debe estar entre 0,0 y 1,0.

Stress mnimo. El algoritmo detendr la iteracin cuando el stress bruto normalizado sea

menor que el nmero aqu especicado, que debe estar entre 0,0 y 1,0.

81 Escalamiento multidimensional (PROXSCAL)

Iteraciones mximas. El algoritmo realizar el nmero de iteraciones aqu especicado, a no

ser que antes se satisfaga alguno de los criterios anteriores.


Usar actualizaciones relajadas. Las actualizaciones relajadas acelerarn el algoritmo; no se

pueden utilizar con modelos que no sean el de identidad, ni tampoco con restricciones.

Escalamiento multidimensional: Grficos, Versin 1


El cuadro de dilogo Grcos permite especicar los grcos que se van a generar. Si tiene el formato de los datos: Proximidades en las columnas, aparecer el siguiente cuadro de dilogo. Para los grcos Ponderaciones del espacio individual, Proximidades originales frente a transformadas y Proximidades transformadas frente a distancias, puede especicar las fuentes para las que se generarn los grcos. La lista de fuentes disponibles es la lista de variables de proximidades en el cuadro de dilogo principal.
Figura 7-10 Cuadro de dilogo Grficos, versin 1

Stress. Se genera un grco del stress bruto normalizado frente a las dimensiones. Este grco se genera slo si el nmero mximo de dimensiones es mayor que el nmero mnimo de dimensiones. Espacio comn. Aparecer un diagrama de dispersin matricial de las coordenadas del espacio

comn.
Espacios individuales. Para cada fuente, las coordenadas de los espacios individuales aparecern

diagramas de dispersin matriciales. Esto es posible slo si se especica uno de los modelos de diferencias individuales en el cuadro de dilogo Modelo.
Ponderaciones del espacio individual. Se genera un diagrama de dispersin de las ponderaciones

del espacio individual. Esto es posible slo si se especica uno de los modelos de diferencias individuales en el cuadro de dilogo Modelo. Para el modelo Eucldeo ponderado, las ponderaciones se imprimen en grcos, con una dimensin en cada eje. Para el modelo Eucldeo generalizado, se genera un grco por cada dimensin, indicando la rotacin y la ponderacin de

82 Captulo 7

dicha dimensin, El modelo de rango reducido genera el mismo grco que el modelo Eucldeo generalizado, pero reduce el nmero de dimensiones para los espacios individuales.
Proximidades originales frente a transformadas. Se generan grcos de las proximidades originales

frente a las transformadas.


Proximidades transformadas frente a distancias. Se representan las proximidades transformadas

frente a las distancias.


Variables independientes transformadas. Se generan grcos de transformacin para las variables

independientes.
Correlaciones entre variables y dimensiones. Aparece un grco de las correlaciones entre las

variables independientes y las dimensiones del espacio comn.

Escalamiento multidimensional: Grficos, Versin 2


El cuadro de dilogo Grcos permite especicar los grcos que se van a generar. Si el formato de los datos no es Proximidades en las columnas, aparecer el siguiente cuadro de dilogo Grcos. Para los grcos Ponderaciones del espacio individual, Proximidades originales frente a transformadas y Proximidades transformadas frente a distancias, puede especicar las fuentes para las que se generarn los grcos. Los nmeros de fuentes introducidos deben ser valores de la variable de fuentes especicada en el cuadro de dilogo principal y el rango debe estar entre 1 y el nmero de fuentes.
Figura 7-11 Cuadro de dilogo Grficos, versin 2

Escalamiento multidimensional: Resultados


El cuadro de dilogo Resultados permite controlar la cantidad de resultados mostrados y guardar parte en archivos independientes.

83 Escalamiento multidimensional (PROXSCAL) Figura 7-12 Cuadro de dilogo Resultados

Mostrar. Seleccione uno o varios de los siguientes elementos para su visualizacin:


Coordenadas del espacio comn. Muestra las coordenadas del espacio comn. Coordenadas del espacio individual. Las coordenadas del espacio individual slo aparecen si

no se trata del modelo identidad.


Ponderaciones del espacio individual. Muestra las ponderaciones del espacio individual slo si

se especican modelos de diferencias individuales. En funcin del modelo, las ponderaciones del espacio se descomponen en ponderaciones de rotacin y de dimensin, que tambin se muestran.

Distancias. Muestra las distancias entre los objetos en la conguracin. Proximidades transformadas. Muestra las proximidades transformadas entre los objetos en la

conguracin.
Datos de entrada. Incluye las proximidades originales y, si aparecen, las ponderaciones de los

datos, la conguracin inicial y las coordenadas jas de las variables independientes.


Stress para inicios aleatorios. Muestra la semilla de aleatorizacin y el valor del stress bruto

normalizado para cada inicio aleatorio.


Historial de iteraciones. Muestra el historial de iteraciones del algoritmo principal. Diversas medidas del stress. Muestra distintos valores del stress. La tabla contiene valores

para el stress bruto normalizado, Stress-I, Stress-II, S-Stress, la Dispersin explicada (DAF),
Descomposicin del stress. Muestra la descomposicin por orgenes y por objetos del stress

bruto normalizado nal, incluyendo el promedio por objeto y por origen.

84 Captulo 7

Variables independientes transformadas. Si se ha seleccionado una restriccin de combinacin

lineal, se muestran las variables independientes transformadas y las ponderaciones de regresin correspondientes.

Correlaciones entre variables y dimensiones. Si se ha seleccionado una restriccin de

combinacin lineal, se muestran las correlaciones entre las variables independientes y las dimensiones del espacio comn.
Guardar en archivo nuevo. Puede guardar las coordenadas del espacio comn, las ponderaciones del

espacio individual, las distancias, las proximidades transformadas y las variables independientes transformadas en distintos archivos de datos de IBM SPSS Statistics.

Funciones adicionales del comando PROXSCAL


Se puede personalizar el escalamiento multidimensional del anlisis de proximidades si se pegan las selecciones en una ventana de sintaxis y se edita la sintaxis del comando PROXSCAL resultante. Con el lenguaje de sintaxis de comandos tambin podr:

Especicar una lista de variables distinta para los grcos de transformacin y los de residuos (con el subcomando PLOT). Especicar listas de variables distintas para los grcos de ponderaciones del espacio individual, los de transformaciones y los de residuos (con el subcomando PLOT). Especicar un subconjunto de los grcos de transformacin de las variables independientes que se van a mostrar (con el subcomando PLOT).

Si desea informacin detallada sobre la sintaxis, consulte la referencia de sintaxis de comandos (Command Syntax Reference).

Captulo

Desplegamiento multidimensional (PREFSCAL)

El procedimiento Desplegamiento multidimensional intenta buscar una escala cuantitativa comn que permita examinar visualmente las relaciones entre dos conjuntos de objetos.
Ejemplos. Ha pedido a 21 individuos que clasiquen 15 elementos de desayuno por orden de preferencia, del 1 al 15. Con el desplegamiento multidimensional, puede determinar que los individuos discriminan entre los elementos de desayuno de dos formas principales: entre pan tierno y crujiente, y entre elementos con mucha grasa o con poca grasa.

Por otro lado, tambin ha pedido a un grupo de conductores que evalen 26 modelos de coches respecto a 10 atributos, en una escala de 6 puntos, desde 1=completamente falso hasta 6=totalmente cierto. Los valores promediados respecto a los individuos se toman como similaridades. Utilice el desplegamiento multidimensional para encontrar conglomerados de modelos similares y los atributos con los que ms se asocian.
Estadsticos y grficos. El procedimiento Desplegamiento multidimensional puede producir historial de iteraciones, medidas de stress, descomposicin del stress, coordenadas del espacio comn, distancias entre objetos dentro de la conguracin nal, ponderaciones del espacio individual, espacios individuales, proximidades transformadas, grcos del stress, diagramas de dispersin del espacio comn, diagramas de dispersin de la ponderacin del espacio individual, diagramas de dispersin de los espacios individuales, grcos de transformacin y grcos residuales de Shepard. Datos. Los datos se suministran en forma de matrices de proximidades rectangulares. Cada

columna se considera como un objeto de columna independiente. Cada la de una matriz de proximidades se considera como un objeto de la independiente. Cuando hay varias fuentes de proximidades, las matrices se apilan.
Supuestos. Se deben especicar al menos dos variables. El nmero de dimensiones de la solucin

no puede superar el nmero de objetos menos uno. Si slo se especica una fuente, todos los modelos son equivalentes al modelo identidad, por consiguiente, el anlisis toma por defecto el modelo identidad.
Para obtener un desplegamiento multidimensional
E En los mens, seleccione: Analizar > Escala > Desplegamiento multidimensional (PREFSCAL)... Copyright SPSS Inc. 1989, 2010 85

86 Captulo 8 Figura 8-1 Cuadro de dilogo principal Desplegamiento multidimensional

E Seleccione dos o ms variables que identiquen las columnas en la matriz de proximidades

rectangular. Cada variable representa un objeto de columna distinto.


E Si lo desea, seleccione un nmero de variables de ponderacin que sea igual al nmero de

variables de objeto de columna. El orden de las variables de ponderacin debe coincidir con el orden de los objetos de columna a los que ponderan.
E Si lo desea, seleccione una variable de las. Los valores (o etiquetas de valor) de esta variable

se utilizan para etiquetar los objetos de la en los resultados.


E Si existen varias fuentes, puede seleccionar una variable de fuentes, si lo desea. El nmero de

casos del archivo de datos debe ser igual al nmero de objetos de la multiplicado por el nmero de fuentes. Adems, puede denir un modelo para el desplegamiento multidimensional, establecer restricciones en el espacio comn, establecer criterios de convergencia, especicar la conguracin inicial que se va a utilizar y seleccionar grcos y resultados.

Definir un modelo de desplegamiento multidimensional


El cuadro de dilogo Modelo permite especicar un modelo de escalamiento, su nmero de dimensiones mximo y mnimo, la estructura de la matriz de proximidades, la transformacin que se va a utilizar en las proximidades y si las proximidades se transforman de forma condicional sobre la la, de forma condicional sobre la fuente o de forma incondicional en la la.

87 Desplegamiento multidimensional (PREFSCAL) Figura 8-2 Cuadro de dilogo Modelo

Modelo de escalamiento. Seleccione entre las siguientes alternativas:


Identidad. Todas las fuentes tienen la misma conguracin. Eucldeo ponderado. ste es un modelo de diferencias individuales. Cada fuente dispone de

un espacio individual en el que cada dimensin del espacio comn se pondera de forma diferenciada.

Eucldeo generalizado. ste es un modelo de diferencias individuales. Cada fuente dispone

de un espacio individual que es igual a la rotacin del espacio comn, seguida de una ponderacin diferencial de las dimensiones.
Proximidades. Especique si la matriz de proximidades contiene medidas de similaridad o

disimilaridad.
Dimensiones. Por defecto, se calcula una solucin en dos dimensiones (Mnimo=2, Mximo=2).

Puede seleccionar un entero mnimo y otro mximo entre 1 y el nmero de objetos menos 1, siempre y cuando el mnimo sea menor o igual que el mximo. El procedimiento calcula una solucin en las dimensiones mximas y, a continuacin, reduce la dimensionalidad por pasos hasta llegar al mnimo.
Transformaciones de proximidades. Seleccione entre las siguientes alternativas:

Ninguno. Las proximidades no se transforman. Si lo desea, puede seleccionar Incluir


interseccin, en cuyo caso las proximidades se pueden desplazar segn un trmino constante.

Lineal. Las proximidades transformadas son proporcionales a las proximidades originales,

es decir, la funcin de transformacin estima una pendiente y la interseccin se ja en 0. Tambin se denomina transformacin de la razn. Si lo desea, puede seleccionar Incluir interseccin, en cuyo caso las proximidades tambin se pueden desplazar segn un trmino constante. Tambin se le denomina una transformacin de intervalo.

88 Captulo 8

LneaSp. Las proximidades transformadas son una transformacin polinmica por partes no

decreciente suave de las proximidades originales. Puede especicar el orden del polinomio y el nmero de nudos interiores. Si lo desea, puede seleccionar Incluir interseccin, en cuyo caso las proximidades tambin se pueden desplazar segn un trmino constante.

Suavizado. Las proximidades transformadas tienen el mismo orden que las originales, incluida

una restriccin que tiene en cuenta las diferencias entre los valores posteriores. El resultado es una transformacin ordinal suavizada. Puede especicar si para las proximidades empatadas se debe mantener el empate o si se deben desempatar.

Ordinal. Las proximidades transformadas tienen el mismo orden que las proximidades

originales. Puede especicar si para las proximidades empatadas se debe mantener el empate o si se deben desempatar.
Aplicar transformaciones. Especique si se compararn entre s slo las proximidades dentro de

cada la o slo las proximidades dentro de cada fuente, o las comparaciones ser incondicionales en la la o en la fuente, es decir, si las transformaciones se realizarn por la, por fuente o sobre todas las proximidades a la vez.

Restricciones del desplegamiento multidimensional


El cuadro de dilogo Restricciones permite establecer restricciones en el espacio comn.
Figura 8-3 Cuadro de dilogo Restricciones

89 Desplegamiento multidimensional (PREFSCAL)

Restricciones en el espacio comn. Puede jar las coordenadas de los objetos de la y/o columna

en el espacio comn.
Variables de restriccin de fila/columna. Seleccione el archivo que contiene las restricciones y seleccione las variables que denen las restricciones en el espacio comn. La primera variable seleccionada incluye las coordenadas de los objetos en la primera dimensin, la segunda variable corresponde a las coordenadas de la segunda dimensin, etc. Un valor perdido indica que una coordenada en una dimensin est libre. El nmero de variables seleccionadas debe ser igual al nmero mximo de dimensiones solicitadas. El nmero de casos de cada variable debe ser igual al nmero de objetos.

Opciones de desplegamiento multidimensional


El cuadro de dilogo Opciones permite seleccionar el estilo para la conguracin inicial, especicar los criterios de iteracin y convergencia, y establecer el trmino de penalizacin para el stress.
Figura 8-4 Cuadro de dilogo Opciones

Configuracin inicial. Seleccione una de las siguientes opciones:

Clsica. La matriz de proximidades rectangular se utiliza para complementar los intrabloques

(valores entre las y entre columnas) de la matriz MDS simtrica completa. Despus de formarse la matriz completa, se utiliza una solucin de escalamiento clsico como

90 Captulo 8

conguracin inicial. Los intrabloques se pueden rellenar mediante la imputacin, utilizando la desigualdad de tringulo o las distancias de Spearman.

Ross-Cliff. El inicio Ross-Cliff utiliza los resultados de una descomposicin de valor propio

en la matriz de proximidades cuadrada y doblemente centrada como los valores iniciales de los objetos de la y columna.

Correspondencia. El inicio de correspondencia utiliza los resultados de un anlisis de

correspondencias en los datos invertidos (similaridades en lugar de disimilaridades) con la normalizacin simtrica de las puntuaciones de la y columna.

Centroides. El procedimiento comienza colocando los objetos de la en la conguracin con

una descomposicin de autovalor. A continuacin, los objetos de columna se colocan en el centroide de las opciones especcas. Para el nmero de opciones, especique un entero positivo entre 1 y el nmero de variables de proximidad.

Inicios aleatorios mltiples. Las soluciones se calculan para varias conguraciones iniciales

seleccionadas aleatoriamente y se muestra como la mejor solucin la que tenga la tensin penalizada ms baja.

Personalizado. Puede seleccionar variables que contengan las coordenadas de su propia

conguracin inicial. El nmero de variables seleccionadas debe ser igual al nmero mximo de dimensiones especicadas, correspondiendo la primera variable a las coordenadas en la dimensin 1, la segunda variable a las coordenadas en la dimensin 2 y as sucesivamente. El nmero de casos en cada variable debe ser igual al nmero combinado de objetos de la y columna. Las coordenadas de la y columna deben estar apiladas, con las coordenadas de columna situadas despus de las coordenadas de la.
Criterios de iteracin. Especique los valores de los criterios de iteracin.

Convergencia del stress. El algoritmo detendr la iteracin cuando la diferencia relativa entre

valores consecutivos de tensin penalizada sea menor que el nmero aqu especicado, que debe ser no negativo.

Stress mnimo. El algoritmo detendr la iteracin cuando la tensin penalizada sea menor que

el nmero aqu especicado, que debe ser no negativo.


Iteraciones mximas. El algoritmo realizar el nmero de iteraciones aqu especicado, a no

ser que antes se satisfaga alguno de los criterios anteriores.


Trmino de penalizacin. El algoritmo intenta minimizar la tensin penalizada, una medida de

bondad de ajuste igual al producto del Stress-I de Kruskal y un trmino de penalizacin basado en el coeciente de variacin de las proximidades transformadas. Estos controles permiten especicar la magnitud y el rango del trmino de penalizacin.

Magnitud. Cuanto menor sea el valor del parmetro de magnitud, ms fuerte ser la

penalizacin. Especique un valor entre 0,0 y 1,0.


Rango. Este parmetro establece el momento en el que la penalizacin se vuelve activa.

Si se establece en 0,0, la penalizacin est inactiva. Si se aumenta el valor, el algoritmo buscar una solucin con mayor variacin entre las proximidades transformadas. Especique un valor no negativo.

91 Desplegamiento multidimensional (PREFSCAL)

Grficos de desplegamiento multidimensional


El cuadro de dilogo Grcos permite especicar los grcos que se van a generar.
Figura 8-5 Cuadro de dilogo Grficos

Diagramas. Se encuentran disponibles los siguientes grcos:


Inicios mltiples. Muestra un histograma apilado de tensin penalizada que indica tanto la

tensin como la penalizacin.


Espacio comn inicial. Muestra un diagrama de dispersin matricial de las coordenadas del

espacio comn inicial.


Stress por dimensin. Genera un grco lineal de tensin penalizada frente a dimensionalidad.

Este grco se genera slo si el nmero mximo de dimensiones es mayor que el nmero mnimo de dimensiones.

92 Captulo 8

Espacio comn final. Aparecer un diagrama de dispersin matricial de las coordenadas del

espacio comn.
Ponderaciones del espacio. Se genera un diagrama de dispersin de las ponderaciones del

espacio individual. Esto es posible slo si se especica uno de los modelos de diferencias individuales en el cuadro de dilogo Modelo. Para el modelo Eucldeo ponderado, las ponderaciones de todas las fuentes se muestran en un grco, con una dimensin en cada eje. Para el modelo Eucldeo generalizado, se genera un grco por cada dimensin, indicando la rotacin y la ponderacin de dicha dimensin para cada fuente.

Espacios individuales. Se muestra un diagrama de dispersin matricial de las coordenadas del

espacio individual de cada fuente. Esto es posible slo si se especica uno de los modelos de diferencias individuales en el cuadro de dilogo Modelo.

Grficos de transformacin. Se genera un diagrama de dispersin de las proximidades originales

frente a las transformadas. Segn cmo se apliquen las transformaciones, se asignar un color distinto a cada la o fuente. Una transformacin incondicional genera un solo color.

Grficos de Shepard. Las proximidades originales frente a las distancias y las proximidades

transformadas. Las distancias se indican con puntos y las proximidades transformadas se indican con una lnea. Segn cmo se apliquen las transformaciones, se generar una lnea distinta para cada la o fuente. Una transformacin incondicional produce una lnea.

Diagrama de dispersin del ajuste. Se muestra un diagrama de dispersin de las proximidades

transformadas frente a las distancias. Si se especican varias fuentes, se asignar un color distinto a cada fuente.

Grficos de los residuos. Se muestra un diagrama de dispersin de las proximidades

transformadas frente a los residuos (proximidades transformadas menos las distancias). Si se especican varias fuentes, se asignar un color distinto a cada fuente.
Estilos de objetos fila. Permiten tener un mayor control de la visualizacin de los objetos de la en

los grcos. Los valores de la variable de colores opcional se utilizan para mostrar sucesivamente todos los colores. Los valores de la variable de marcadores opcionales se utilizan para mostrar sucesivamente todos los posibles marcadores.
Grficos de fuentes. Para los grcos de espacios individuales, de diagrama de dispersin del ajuste y de residuos y en caso de que las transformaciones se apliquen por fuente, para los grcos de transformacin y de Shepard se pueden especicar las fuentes para las que se deben generar los grcos. Los nmeros de fuentes introducidos deben ser valores de la variable de fuentes especicada en el cuadro de dilogo principal y el rango debe estar entre 1 y el nmero de fuentes. Grficos de las filas. Si se aplican transformaciones por la, para los grficos de transformacin

y grficos de Shepard, puede especicar la la para la que se deben generar los grcos. Los nmeros de la especicados deben estar comprendidos entre 1 y el nmero de las.

Resultados del desplegamiento multidimensional


El cuadro de dilogo Resultados permite controlar la cantidad de resultados mostrados y guardar parte en archivos independientes.

93 Desplegamiento multidimensional (PREFSCAL) Figura 8-6 Cuadro de dilogo Resultados

Mostrar. Seleccione una o varias de las siguientes opciones para su visualizacin:


Datos de entrada. Incluye las proximidades originales y, si aparecen, las ponderaciones de los

datos, la conguracin inicial y las coordenadas jas.


Inicios mltiples. Muestra la semilla de aleatorizacin y el valor de la tensin penalizada de

cada inicio aleatorio.


Datos iniciales. Muestra las coordenadas del espacio comn inicial. Historial de iteraciones. Muestra el historial de iteraciones del algoritmo principal. Medidas de ajuste. Muestra diferentes medidas. La tabla contiene varias medidas de bondad

de ajuste, maldad de ajuste, correlacin, variacin y medidas de no degeneracin.


Descomposicin del stress. Muestra la descomposicin de objetos, las y fuentes de tensin

penalizada, incluidas las desviaciones tpicas y las medias de la, columna y fuente.
Proximidades transformadas. Muestra las proximidades transformadas. Espacio comn final. Muestra las coordenadas del espacio comn. Ponderaciones del espacio. Muestra las ponderaciones del espacio individual. Esta opcin

est disponible nicamente si se especica uno de los modelos de diferencias individuales. En funcin del modelo, las ponderaciones del espacio se descomponen en ponderaciones de rotacin y de dimensin, que tambin se muestran.

Espacios individuales. Se muestran las coordenadas de los espacios individuales. Esta opcin

est disponible nicamente si se especica uno de los modelos de diferencias individuales.


Distancias ajustadas. Muestra las distancias entre los objetos en la conguracin. Guardar en archivo nuevo. Puede guardar las coordenadas del espacio comn, las ponderaciones

del espacio individual, las distancias y las proximidades transformadas en distintos archivos de datos de IBM SPSS Statistics.

94 Captulo 8

Funciones adicionales del comando PREFSCAL


Se puede personalizar el desplegamiento multidimensional del anlisis de proximidades si se pegan las selecciones en una ventana de sintaxis y se edita la sintaxis del comando PREFSCAL resultante. Con el lenguaje de sintaxis de comandos tambin podr:

Especique varias listas de fuentes para grcos de espacios individuales, diagramas de dispersin del ajuste y grcos de residuos y en el caso de transformaciones condicionales de matriz, para grcos de transformacin y grcos de Shepard cuando varias fuentes estn disponibles (con el subcomando PLOT). Especique varias listas de las para los grcos de transformacin y los grcos de Shepard en caso de transformaciones condicionales de las (subcomando PLOT). Especique un nmero de las en lugar de una variable de ID de la (con el subcomando INPUT). Especique un nmero de fuentes en lugar de una variable de ID de fuente (con el subcomando INPUT).

Si desea informacin detallada sobre la sintaxis, consulte la referencia de sintaxis de comandos (Command Syntax Reference).

Parte II: Ejemplos

Captulo

Regresin categrica

El objetivo de la regresin categrica con el escalamiento ptimo es describir la relacin entre una variable de respuesta y un conjunto de predictores. Mediante la cuanticacin de esta relacin, los valores de la respuesta se pueden predecir para cualquier combinacin de predictores. En este captulo, utilizaremos dos ejemplos para ilustrar los anlisis que implica la regresin con escalamiento ptimo. El primer ejemplo utiliza un pequeo conjunto de datos para ilustrar los conceptos bsicos. El segundo ejemplo utiliza un conjunto mucho ms grande de variables y observaciones en un ejemplo prctico.

Ejemplo: Datos de limpiadores de alfombras


En un ejemplo muy conocido (Green y Wind, 1973), una compaa interesada en sacar al mercado un nuevo limpiador de alfombras desea examinar la inuencia de cinco factores sobre la preferencia del consumidor: diseo del producto, marca comercial, precio, sello de buen producto para el hogar y garanta de devolucin del importe. Hay tres niveles de factores para el diseo del producto, cada uno con una diferente colocacin del cepillo del aplicador; tres nombres comerciales (K2R, Glory y Bissell); tres niveles de precios; y dos niveles (no o s) para los dos ltimos factores. La siguiente tabla muestra las variables utilizadas en el estudio de limpiadores de alfombras, con sus etiquetas de variable y valores.
Tabla 9-1 Variables explicativas en el estudio de limpiadores de alfombras

Nombre de variable formato marca precio sello

Etiqueta de variable Etiqueta de valor Diseo del producto Nombre comercial Precio Sello de buen producto para el hogar Garanta de devolucin del importe A*, B*, C* K2R, Glory, Bissell 1,19 $, 1,39 $, 1,59 $ No, s No, s

importe

Diez consumidores clasicaron 22 perles denidos por estos factores. La variable Preferencia contiene el rango de las clasicaciones medias de cada perl. Las clasicaciones inferiores corresponden a preferencias elevadas. Esta variable reeja una medida global de la preferencia de cada perl. Mediante la regresin categrica, exploraremos cmo estos cinco factores estn relacionados con la preferencia. Este conjunto de datos se puede encontrar en carpet.sav. Si
Copyright SPSS Inc. 1989, 2010 96

97 Regresin categrica

desea obtener ms informacin, consulte el tema Archivos muestrales en el apndice A en IBM SPSS Categories 19.

Anlisis de regresin lineal ordinario


E Para generar resultados de regresin lineal tpica, elija en los mens: Analizar > Regresin > Lineales...

Nota: Esta funcin requiere la opcin Statistics Base.


Figura 9-1 Cuadro de dilogo Regresin lineal

E Seleccione Preferencia como la variable dependiente. E Seleccione desde Diseo del producto hasta Garanta de devolucin del importe como las

variables independientes.
E Pulse en Grficos.

98 Captulo 9 Figura 9-2 Cuadro de dilogo Grficos

E Seleccione *ZRESID como la variable del eje Y. E Seleccione *ZPRED como la variable del eje X. E Pulse en Continuar. E Pulse en Guardar en el cuadro de dilogo Regresin lineal.

99 Regresin categrica Figura 9-3 Cuadro de dilogo Guardar

E Seleccione Tipificados en el grupo Residuos. E Pulse en Continuar. E Pulse en Aceptar en el cuadro de dilogo Regresin lineal.

Resumen del modelo


Figura 9-4 Resumen del modelo para la regresin lineal tpica

El mtodo estndar para describir las relaciones en este problema es la regresin lineal. La medida ms habitual de la bondad de ajuste del modelo de regresin a los datos es R2. Este estadstico representa la parte de la varianza de la respuesta que queda explicada por la combinacin

100 Captulo 9

ponderada de predictores. Cuanto ms cerca est R2 de 1, mejor ser el ajuste del modelo. La regresin de Preferencia sobre los cinco predictores genera una R2 de 0,707, lo que indica que aproximadamente el 71% de la varianza de las clasicaciones de preferencia queda explicada por las variables predictoras en la regresin lineal.

Coeficientes
En la tabla se muestran los coecientes tipicados. El signo del coeciente indica si la respuesta pronosticada aumenta o disminuye cuando aumenta el predictor, mantenindose constantes todos los dems predictores. En el caso de datos categricos, la codicacin de categoras determina el signicado de un aumento en un predictor. Por ejemplo, un aumento de Garanta de devolucin del importe, Diseo del producto o Sello de buen producto para el hogar producirn una disminucin en la clasicacin de preferencia pronosticada. Garanta de devolucin del importe se codica como 1 para sin garanta de devolucin del importe y 2 para garanta de devolucin del importe. Un aumento de Garanta de devolucin del importe corresponde a la incorporacin de una garanta de devolucin del importe. Por tanto, al aadir una garanta de devolucin del importe se reduce la clasicacin de preferencia pronosticada, lo que corresponde a un aumento en la preferencia pronosticada.
Figura 9-5 Coeficientes de regresin

El valor del coeciente reeja la cantidad de cambio en la clasicacin de preferencia pronosticada. Mediante coecientes tipicados, las interpretaciones se basan en las desviaciones tpicas de las variables. Cada coeciente indica el nmero de desviaciones tpicas que la respuesta pronosticada cambia para un cambio de una desviacin tpica en un predictor, si todos los dems predictores permanecen constantes. Por ejemplo, un cambio de una desviacin tpica en Nombre comercial produce un aumento en la preferencia pronosticada de 0,056 desviaciones tpicas. La . desviacin tpica de Preferencia es 6,44, por lo que Preferencia aumenta en Los cambios en Diseo del producto producen los mayores cambios en la preferencia pronosticada.

101 Regresin categrica

Diagrama de dispersin de los residuos


Figura 9-6 Residuos frente a valores pronosticados

Los residuos tipicados se representan frente a los valores pronosticados tipicados. No debe aparecer ningn patrn si el modelo se ajusta correctamente. Aqu vemos una forma de U en la que tanto los valores pronosticados bajos como altos tienen residuos positivos. Los valores pronosticados tipicados cercanos a 0 tienden a tener residuos negativos.
E Para generar un diagrama de dispersin de los residuos por el predictor Diseo del producto,

elija en los mens:


Grficos > Generador de grficos...

102 Captulo 9 Figura 9-7 Generador de grficos

E Seleccione la galera Dispersin/Puntos y elija Dispersin simple. E Seleccione Residuo tipicado como variable y y Diseo del producto como variable x. E Pulse en Aceptar.

103 Regresin categrica Figura 9-8 Residuos frente a diseo del producto

La forma de U es ms pronunciada en el grco de los residuos tipicados frente al formato. Todos los residuos del diseo B* son negativos, mientras que todos menos uno de los residuos son positivos para los otros dos diseos. Como el modelo de regresin lineal ajusta un parmetro para cada variable, no es posible capturar la relacin mediante el mtodo tpico.

Anlisis de regresin categrica


La naturaleza categrica de las variables y la relacin no lineal entre Preferencia y Diseo del producto sugiere que la regresin sobre las puntuaciones ptimas puede funcionar mejor que la regresin tpica. La forma de U de los grcos de residuos indica que se debe utilizar un tratamiento nominal de Diseo del producto. Todos los dems predictores se tratarn a nivel de escalamiento numrico. La variable de respuesta justica una consideracin especial. Desea pronosticar los valores de Preferencia. Por tanto, resulta deseable recuperar tantas propiedades de sus categoras como sea posible en las cuanticaciones. El uso del nivel de escalamiento ordinal o nominal ignora las diferencias entre las categoras de respuesta. Sin embargo, la transformacin lineal de las categoras de repuesta conserva las diferencias de categora. Por consiguiente, se preere en general el escalamiento numrico de la respuesta y se utilizar en este caso.

104 Captulo 9

Ejecucin del anlisis


E Para ejecutar un anlisis de Regresin categrica, elija en los mens: Analizar > Regresin > Escalamiento ptimo (CATREG)... Figura 9-9 Cuadro de dilogo Regresin categrica

E Seleccione Preferencia como la variable dependiente. E Seleccione desde Diseo del producto hasta Garanta de devolucin del importe como las

variables independientes.
E Seleccione Preferencia y pulse en Definir escala. Figura 9-10 Cuadro de dilogo Definir escala

E Seleccione Numrico como nivel de escalamiento ptimo. E Pulse en Continuar.

105 Regresin categrica E Seleccione Diseo del producto y pulse en Definir escala en el cuadro de dilogo Regresin

categrica.
Figura 9-11 Cuadro de dilogo Definir escala

E Seleccione Nominal como nivel de escalamiento ptimo. E Pulse en Continuar. E Seleccione desde Nombre comercial hasta Garanta de devolucin del importe y pulse en Definir escala en el cuadro de dilogo Regresin categrica. Figura 9-12 Cuadro de dilogo Definir escala

E Seleccione Numrico como nivel de escalamiento ptimo. E Pulse en Continuar. E Pulse en Resultados en el cuadro de dilogo Regresin categrica.

106 Captulo 9 Figura 9-13 Cuadro de dilogo Resultados

E Seleccione Correlaciones de variables originales y Correlaciones de variables transformadas. E Anule la seleccin de ANOVA. E Pulse en Continuar. E Pulse en Guardar en el cuadro de dilogo Regresin categrica.

107 Regresin categrica Figura 9-14 Cuadro de dilogo Guardar

E Seleccione Guardar residuos en el conjunto de datos activo. E Seleccione Guardar variables transformadas en el conjunto de datos activo en el grupo Variables

transformadas.
E Pulse en Continuar. E Pulse en Grficos en el cuadro de dilogo Regresin categrica.

108 Captulo 9 Figura 9-15 Cuadro de dilogo Grficos

E Elija crear grcos de transformacin para Diseo del producto y Precio. E Pulse en Continuar. E Pulse en Aceptar en el cuadro de dilogo Regresin categrica.

Intercorrelaciones
Las intercorrelaciones entre los predictores son tiles para identicar la multicolinealidad en la regresin. Las variables que estn muy correlacionadas producirn estimaciones inestables de la regresin. Sin embargo, debido a su alta correlacin, la omisin de una de ellas del modelo slo afecta de manera mnima al pronstico. La varianza de la respuesta que se puede explicar mediante la variable omitida sigue estando explicada por la variable correlacionada que permanece. Sin embargo, las correlaciones de orden cero son sensibles a los valores atpicos y adems tampoco puede identicar la multicolinealidad debido a una alta correlacin entre un predictor y una combinacin de otros predictores.

109 Regresin categrica Figura 9-16 Correlaciones de los predictores originales

Figura 9-17 Correlaciones de los predictores transformados

Se muestran las intercorrelaciones de los predictores tanto para los predictores transformados como sin transformar. Todos los valores estn cerca de 0, lo que indica que la multicolinealidad entre variables individuales no supone una preocupacin. Observe que slo las correlaciones que cambian implican a Diseo del producto. Como el resto de los predictores se tratan numricamente, las diferencias entre las categoras y el orden de las categoras se conservan para estas variables. Por tanto, las correlaciones no pueden cambiar.

Coeficientes y ajuste del modelo


El procedimiento Regresin categrica produce una R2 de 0,948, lo que indica que casi el 95% de la varianza de las clasicaciones de preferencia transformada queda explicada por la regresin sobre los predictores transformados ptimamente. La transformacin de los predictores mejora el ajuste respecto al mtodo tpico.
Figura 9-18 Resumen del modelo de regresin categrica

110 Captulo 9

La siguiente tabla muestra los coecientes de regresin tipicados. La regresin categrica tipica las variables, por lo que slo se informar de los coecientes tipicados. Estos valores aparecen divididos por sus correspondientes errores tpicos, lo que produce una prueba F para cada variable. Sin embargo, la prueba para cada variable depende del resto de los predictores que haya en el modelo. Es decir, la prueba determina si la omisin de una variable predictora del modelo manteniendo todos los dems predictores empeorar signicativamente las capacidades de pronstico del modelo. Estos valores no se deben utilizar para omitir varias variables de una vez para un modelo posterior. Adems, los mnimos cuadrados alternantes optimizan las cuanticaciones, lo que implica que estas pruebas deben interpretarse de manera conservadora.
Figura 9-19 Coeficientes tipificados de los predictores transformados

El coeciente mayor aparece para Diseo del producto. Un aumento de una desviacin estndar en Diseo del producto produce una disminucin de desviacin tpica de 0,748 en la clasicacin de preferencia pronosticada. Sin embargo, Diseo del producto se trata de manera nominal, por lo que un aumento en las cuanticaciones no tiene por qu corresponder con un aumento en los cdigos de las categoras originales. Los coecientes tipicados suelen interpretarse como un reejo de la importancia de cada predictor. Sin embargo, los coecientes de regresin no pueden describir completamente el impacto de un predictor ni las relaciones entre los predictores. Hay que utilizar otros estadsticos junto con los coecientes tipicados para explorar completamente los efectos de los predictores.

Correlaciones e importancia
Para interpretar las contribuciones de los predictores a la regresin, no basta con examinar nicamente los coecientes de regresin. Adems, es necesario examinar las correlaciones, las correlaciones parciales y las correlaciones semiparciales. La siguiente tabla contiene estas medidas de correlacin para cada variable. La correlacin de orden cero es la correlacin entre el predictor transformado y la respuesta transformada. Para este dato, la correlacin ms grande aparece para Diseo del producto. Sin embargo, si puede explicar parte de la variacin en el predictor o en la respuesta, obtendr una mejor representacin de lo bien que funciona el predictor.

111 Regresin categrica Figura 9-20 Correlaciones de orden cero, semiparciales y parciales (variables transformadas)

Las dems variables del modelo pueden afectar negativamente a la capacidad de un determinado predictor de pronosticar la respuesta. El coeciente de correlacin parcial elimina los efectos lineales de los dems predictores tanto del predictor como de la respuesta. Esta medida iguala la correlacin entre los residuos de la regresin del predictor respecto a los dems predictores y los residuos de la regresin de la respuesta respecto a los otros predictores. La correlacin parcial de los cuadrados corresponde a la proporcin de la varianza explicada relativa a la varianza residual de la respuesta que queda tras eliminar los efectos de las dems variables. Por ejemplo, Diseo del producto tiene una correlacin parcial de 0,955. Si se eliminan los efectos de las dems variables, Diseo del producto explica (0,955)2 = 0,91 = 91% de la variacin en las clasicaciones de preferencia. Tanto Precio como Sello de buen producto para el hogar tambin explican una gran parte de la varianza si se eliminan los efectos de las dems variables. Como alternativa a la eliminacin de los efectos de las variables de la respuesta y de un predictor, puede eliminar los efectos de nicamente el predictor. La correlacin entre la respuesta y los residuos de la regresin de un predictor respecto a los otros predictores es la correlacin semiparcial. Si elevamos este valor al cuadrado obtenemos una medida de la proporcin de la varianza explicada relativa a la varianza total de la respuesta. Si elimina los efectos de Nombre comercial, Sello de buen producto para el hogar, Garanta de devolucin del importe y Precio de Diseo del producto, la parte restante de Diseo del producto explica (0,733)2 = 0,54 = 54% de la variacin de las clasicaciones de preferencia.
Importancia

Adems de los coecientes de regresin y de las correlaciones, la medida de Pratt de la importancia relativa (Pratt, 1987) tambin ayuda a interpretar las contribuciones de los predictores a la regresin. Las importancias individuales elevadas relativas a las otras importancias corresponden a predictores que son fundamentales para la regresin. Adems, la presencia de variables supresoras queda indicada por una baja importancia para una variable que tiene un coeciente de tamao similar a los predictores importantes. En contraste con los coecientes de regresin, esta medida dene la importancia de los predictores de manera aditiva, es decir, la importancia de un conjunto de predictores es la suma de las importancias individuales de cada uno de los predictores. La medida de Pratt es igual al producto del coeciente de regresin y la correlacin de orden cero de un predictor. Estos productos se suman a R2, por lo que si se dividen por R2, producen una suma de 1. El conjunto de productores Diseo del producto y Nombre comercial, por ejemplo, tiene una importancia de 0,654. La importancia ms grande corresponde a Diseo del producto, con Diseo del producto,

112 Captulo 9

Precio y Sello de buen producto para el hogar y explica el 95% de la importancia para esta combinacin de predictores.
Multicolinealidad

Las correlaciones grandes entre los predictores reducirn drsticamente la estabilidad de un modelo de regresin. Los predictores correlacionados producirn estimaciones inestables de los parmetros. La tolerancia reeja hasta qu punto estn relacionadas linealmente las variables independientes entre s. La tolerancia de una variable es la proporcin de su varianza no explicada por las otras variables independientes de la ecuacin. Si los dems predictores pueden explicar gran parte de la varianza de un predictor, dicho predictor no es necesario en el modelo. Un valor de la tolerancia cercano a 1 indica que la variable no se puede pronosticar muy bien a partir de los dems predictores. Por el contrario, una variable con una tolerancia muy baja contribuye con poca informacin a un modelo y puede causar problemas de clculo. Adems, valores grandes negativos de la medida de importancia de Pratt indican multicolinealidad. Todas las medidas de tolerancia son muy altas. Ninguno de los predictores queda pronosticado muy bien por los dems predictores, por lo que no existe multicolinealidad.

Grficos de transformacin
La representacin de los valores de categora originales respecto a sus correspondientes cuanticaciones puede mostrar tendencias que podran no detectarse en una lista con las cuanticaciones. A estos grcos se les denomina con frecuencia grcos de transformacin. Hay que prestar atencin a las categoras que reciben cuanticaciones similares. Estas categoras afectan a la respuesta pronosticada de la misma manera. Sin embargo, el tipo de transformacin determina el aspecto bsico del grco. Las variables tratadas como resultado numrico en una relacin lineal entre las cuanticaciones y las categoras originales, correspondientes a una lnea recta en el grco de transformacin. El orden y la diferencia entre las categoras originales se conservan en las cuanticaciones. El orden de las cuanticaciones para las variables tratadas como ordinales corresponde al orden de las categoras originales. Sin embargo, no se conservan las diferencias entre las categoras. Como resultado, el grco de transformacin no es decreciente pero no tiene por qu ser una lnea recta. Si categoras consecutivas corresponden a cuanticaciones similares, la distincin de categoras tal vez no sea necesaria y se puedan combinar las categoras. Tales categoras producen una meseta en el grco de transformacin. Sin embargo, este patrn tambin puede obtenerse imponiendo una estructura ordinal en una variable que deba tratarse como nominal. Si el tratamiento nominal posterior de la variable muestra el mismo patrn, la combinacin de categoras est justicada. Adems, si las cuanticaciones de una variable tratada como ordinal quedan situadas a lo largo de una lnea recta, es posible que resulte ms adecuada una transformacin numrica. Para variables tratadas como nominales, el orden de las categoras a lo largo del eje horizontal corresponde al orden de los cdigos utilizado para representar las categoras. Las interpretaciones del orden de las categoras o de la distancia entre las categoras carecen de fundamento. El grco puede tomar cualquier forma lineal o no. Si aparece una tendencia creciente, debera intentarse un tratamiento ordinal. Si el grco de transformacin nominal muestra una tendencia nominal, puede que sea ms adecuada una transformacin numrica.

113 Regresin categrica

La siguiente gura muestra el grco de transformacin para Precio, que se trat como numrica. Observe que el orden de las categoras a lo largo de la lnea recta corresponde al orden de las categoras originales. Adems, la diferencia entre las cuanticaciones para 1,19 $ y 1,39 $ (1,173 y 0) es la misma que la diferencia entre las cuanticaciones para 1,39 $ y 1,59 $ (0 y 1.173). El hecho de que las categoras 1 y 3 se encuentran a la misma distancia de la categora 2 se conserva en las cuanticaciones.
Figura 9-21 Transformacin del grfico del precio (numrico)

La transformacin nominal de Diseo del producto produce el siguiente grco de transformacin. Observe la ntida forma no lineal en la que la segunda categora tiene la mayor cuanticacin. En trminos de la regresin, la segunda categora disminuye la clasicacin de preferencia pronosticada, mientras que las categoras primera y tercera tienen el efecto opuesto.
Figura 9-22 Grfico de transformacin para diseo del producto (nominal)

114 Captulo 9

Anlisis de los residuos


El uso de los datos transformados y de los residuos que se han guardado en el archivo de datos de trabajo permite crear un diagrama de dispersin de los valores pronosticados por los valores transformados de Diseo del producto. Para obtener este diagrama de dispersin, vuelva a Generador de grcos y pulse en Restablecer para borrar las selecciones anteriores y restaurar las opciones por defecto.
Figura 9-23 Generador de grficos

E Seleccione la galera Dispersin/Puntos y elija Dispersin simple. E Seleccione Residual como la variable del eje Y. E Seleccione Diseo del producto Cuanticacin como variable del eje X. E Pulse en Aceptar.

115 Regresin categrica

El diagrama de dispersin muestra los residuos tipicados representados frente a las puntuaciones ptimas para Diseo del producto. Todos los residuos se encuentran comprendidos entre dos desviaciones tpicas de 0. Una dispersin aleatoria de puntos sustituye a la forma de U que aparece en el diagrama de dispersin de la regresin lineal tpica. Las posibilidades de pronstico se mejoran mediante la cuanticacin ptima de las categoras.
Figura 9-24 Residuos de la regresin categrica

Ejemplo: Datos sobre el ozono


En este ejemplo, utilizaremos un conjunto de datos de mayor tamao para ilustrar la seleccin y los efectos de las transformaciones de escalamiento ptimo. Los datos incluyen 330 observaciones en seis variables meteorolgicas anteriormente analizadas por Breiman y Friedman(Breiman y Friedman, 1985), y Hastie y Tibshirani(Hastie y Tibshirani, 1990), entre otros. La siguiente tabla describe las variables originales. La regresin categrica intenta pronosticar la concentracin de ozono a partir de las variables restantes. Los investigadores anteriores han encontrado que no hay linealidad entre estas variables, lo que diculta los mtodos mediante regresin tpica.
Tabla 9-2 Variables originales

Variable ozono abi

Descripcin nivel diario de ozono; categorizado en una de 38 categoras altura de base de inversin

116 Captulo 9

Variable gdp vis temp dda

Descripcin gradiente de presin (mm Hg) visibilidad (millas) temperatura (grados F) da del ao

Este conjunto de datos se puede encontrar en ozone.sav.Si desea obtener ms informacin, consulte el tema Archivos muestrales en el apndice A en IBM SPSS Categories 19.

Discretizacin de las variables


Si una variable tiene ms categoras de las que se pueden interpretar en la prctica, deber modicar las categoras mediante el cuadro de dilogo Discretizacin para reducir un rango de categoras a un nmero ms manejable. La variable Da del ao tiene un valor mnimo de 3 y un valor mximo de 365. El uso de esta variable en una regresin categrica corresponde a utilizar una variable con 365 categoras. De manera similar, Visibilidad (millas) oscila de 0 a 350. Para simplicar la interpretacin de los anlisis, se pueden discretizar estas variables en intervalos iguales de longitud 10. La variable Altura de base de inversin oscila de 111 a 5000. Una variable con este nmero de categora produce relaciones muy complejas. Sin embargo, si se discretiza esta variable en intervalos iguales de longitud 100 se obtendrn aproximadamente 50 categoras. El uso de una variable de 50 categoras en vez de una variable de 5000 categoras simplica las interpretaciones de manera signicativa. Gradiente de presin (mm Hg) oscila de 69 a 107. El procedimiento omite todas las categoras codicadas con nmeros negativos del anlisis, pero si se discretiza esta variable en intervalos iguales de longitud 10 se obtendrn aproximadamente 19 categoras. Temperatura (grados F) oscila de 25 a 93 en la escala Fahrenheit. Para analizar los datos como si estuvieran en la escala Celsius, discretice esta variable en intervalos iguales de longitud 1,8. Puede ser deseable utilizar diferentes discretizaciones para las variables. Las decisiones que se han tomado aqu son puramente subjetivas. Si desea utilizar menos categoras, elija intervalos de mayor tamao. Por ejemplo, Da del ao se podra haber dividido en meses del ao o en estaciones.

Seleccin del tipo de transformacin


Cada variable se puede analizar a uno de varios niveles diferentes. Sin embargo, como el objetivo es el pronstico de la respuesta, debe escalar la respuesta tal cual utilizando el nivel de escalamiento ptimo numrico. Por consiguiente, el orden y las diferencias entre las categoras se conservarn en la variable transformada.
E Para ejecutar un anlisis de Regresin categrica, elija en los mens: Analizar > Regresin > Escalamiento ptimo (CATREG)...

117 Regresin categrica Figura 9-25 Cuadro de dilogo Regresin categrica

E Seleccione Nivel diario de ozono como la variable dependiente. E Seleccione desde Altura de base de inversin hasta Da del ao como las variables independientes. E Seleccione Nivel diario de ozono y pulse en Definir escala. Figura 9-26 Cuadro de dilogo Definir escala

E Seleccione Numrico como nivel de escalamiento ptimo. E Pulse en Continuar. E Seleccione desde Altura de base de inversin hasta Da del ao y pulse en Definir escala en el

cuadro de dilogo Regresin categrica.

118 Captulo 9 Figura 9-27 Cuadro de dilogo Definir escala

E Seleccione Nominal como nivel de escalamiento ptimo. E Pulse en Continuar. E Pulse en Discretizar en el cuadro de dilogo Regresin categrica. Figura 9-28 Cuadro de dilogo Discretizacin

E Seleccione abi. E Seleccione Intervalos iguales y escriba 100 como longitud del intervalo. E Pulse en Cambiar. E Seleccione dgp, vis y dda.

119 Regresin categrica E Escriba 10 como longitud del intervalo. E Pulse en Cambiar. E Seleccione temp. E Escriba 1,8 como longitud del intervalo. E Pulse en Cambiar. E Pulse en Continuar. E Pulse en Grficos en el cuadro de dilogo Regresin categrica. Figura 9-29 Cuadro de dilogo Grficos

E Seleccione grcos de transformacin para las variables Altura de base de inversin hasta Da

del ao.
E Pulse en Continuar. E Pulse en Aceptar en el cuadro de dilogo Regresin categrica.

120 Captulo 9 Figura 9-30 Resumen del modelo

El tratamiento de todos los predictores como nominales produce una R2 de 0,880. Esta gran cantidad de varianza explicada no resulta sorprendente ya que el tratamiento nominal no impone ninguna restriccin sobre las cuanticaciones. Sin embargo, la interpretacin de los resultados puede ser bastante difcil.
Figura 9-31 Coeficientes de regresin (todos los predictores son nominales)

Esta tabla muestra los coecientes de regresin tipicados de los predictores. Un error que se comete con frecuencia al interpretar estos valores radica en centrarse en los coecientes mientras que se ignoran las cuanticaciones. No puede simplemente armar que, por ejemplo, un valor positivo de Altura de base de inversin implica que a medida que aumenta el predictor, aumenta el Ozono pronosticado. Todas las interpretaciones deben ser relativas a las variables transformadas, de modo que a medida que aumentan las cuanticaciones de Altura de base de inversin, aumenta el Ozono pronosticado. Para examinar los efectos de las variables originales, debe relacionar las categoras con las cuanticaciones.

121 Regresin categrica Figura 9-32 Grfico de transformacin para altura de base de inversin (nominal)

El grco de transformacin de Altura de base de inversin no parece mostrar ningn patrn. Como mostraba el aspecto irregular del grco, el desplazamiento de las categoras inferiores a las categoras superiores produce uctuaciones en las cuanticaciones en ambas direcciones. Por tanto, la descripcin de los efectos de esta variable requiere centrarse en las categoras individuales. La imposicin de restricciones ordinales o lineales sobre las cuanticaciones de esta variable puede reducir considerablemente el ajuste.

122 Captulo 9 Figura 9-33 Grfico de transformacin de gradiente de presin (nominal)

Esta gura muestra el grco de transformacin de Gradiente de presin. Las categoras discretizadas iniciales (desde 1 hasta 6) reciben pequeas cuanticaciones y, por tanto, contribuyen mnimamente a la respuesta pronosticada. Las siguientes tres categoras reciben valores positivos algo ms altos, lo que produce un aumento moderado del ozono pronosticado. Las cuanticaciones disminuyen hasta la categora 16, donde Gradiente de presin tiene el mayor efecto decreciente sobre el ozono pronosticado. Aunque la lnea aumenta despus de esta categora, el uso de un nivel de escalamiento ordinal para Gradiente de presin puede que no reduzca de manera signicativa el ajuste, al tiempo que simplica las interpretaciones de los efectos. Sin embargo, la medida de la importancia de 0,04 y el coeciente de regresin de Gradiente de presin indican que esta variable no es muy til en la regresin.

123 Regresin categrica Figura 9-34 Grfico de transformacin de visibilidad (nominal)

El grco de transformacin de Visibilidad, al igual que el de Altura de base de inversin, no parece mostrar ningn patrn. La imposicin de restricciones ordinales o lineales sobre las cuanticaciones de esta variable puede reducir considerablemente el ajuste.

124 Captulo 9 Figura 9-35 Grfico de transformacin de temperatura (nominal)

El grco de transformacin de Temperatura muestra otro patrn. A medida que aumentan las categoras, las cuanticaciones tienden a aumentar. Como resultado, a medida que aumenta Temperatura, el ozono pronosticado tiende a aumentar. Este patrn sugiere escalar Temperatura a nivel ordinal.

125 Regresin categrica Figura 9-36 Grfico de transformacin de da del ao (nominal)

Esta gura muestra el grco de transformacin de Da del ao. Las cuanticaciones tienden a aumentar hasta el punto medio del grco, en el que tienden a reducirse, produciendo una forma de U. Considerando el signo del coeciente de regresin para Da del ao, las categoras iniciales reciben cuanticaciones que tienen un efecto decreciente sobre el ozono pronosticado. En las categoras intermedias, el efecto de las cuanticaciones sobre el ozono pronosticado aumenta, alcanzando su punto mximo cerca del punto medio del grco. A partir de ese punto, las cuanticaciones tienden a disminuir el ozono pronosticado. Aunque la lnea es bastante irregular, sigue siendo posible identicar la forma general. Por tanto, los grcos de transformacin sugieren escalar Temperatura a nivel ordinal mientras que se siguen escalando todos los dems predictores de manera nominal.

126 Captulo 9

Para volver a calcular la regresin y escalar Temperatura a nivel ordinal, vuelva al cuadro de dilogo Regresin categrica.
Figura 9-37 Cuadro de dilogo Definir escala

E Seleccione Temperatura y pulse en Definir escala. E Seleccione Ordinal como nivel de escalamiento ptimo. E Pulse en Continuar. E Pulse en Guardar en el cuadro de dilogo Regresin categrica. Figura 9-38 Cuadro de dilogo Guardar

E Seleccione Guardar variables transformadas en el conjunto de datos activo en el grupo Variables

transformadas.
E Pulse en Continuar.

127 Regresin categrica E Pulse en Aceptar en el cuadro de dilogo Regresin categrica. Figura 9-39 Resumen del modelo de regresin con Temperatura (ordinal)

Este modelo produce una R2 de 0,872, por lo que la varianza explicada disminuye de manera insignicante cuando se impone a las cuanticaciones de Temperatura la restriccin de estar ordenadas.
Figura 9-40 Coeficientes de regresin con Temperatura (ordinal)

Esta tabla muestra los coecientes del modelo en el que Temperatura se escala como ordinal. Al comparar los coecientes con los del modelo en el que Temperatura se escalaba como nominal, no se ve ningn cambio de importancia.

128 Captulo 9 Figura 9-41 Correlaciones, importancia y tolerancia

Adems, las medidas de la importancia sugieren que Temperatura sigue siendo mucho ms importante en la regresin que las dems variables. Ahora, no obstante, como resultado del nivel de escalamiento ordinal de Temperatura y el coeciente de regresin positivo, puede armar que a medida que aumenta Temperatura, aumenta el ozono pronosticado.
Figura 9-42 Grfico de transformacin de temperatura (ordinal)

El grco de transformacin ilustra la restriccin ordinal sobre las cuanticaciones de Temperatura. La lnea irregular de la transformacin nominal se ve aqu sustituida por una suave lnea ascendente. Adems, ya no aparece ninguna larga meseta, lo que indica que no es necesario agrupar categoras.

129 Regresin categrica

Optimalidad de las cuantificaciones


Las variables transformadas de una regresin categrica se pueden utilizar en la regresin lineal tpica, lo que producira resultados idnticos. Sin embargo, las cuanticaciones son ptimas slo para el modelo que las gener. El uso de un subconjunto de predictores en la regresin lineal no corresponde a una regresin con escalamiento ptimo sobre el mismo subconjunto. Por ejemplo, la regresin categrica que se ha calculado tiene una R2 de 0,875. Ha guardado las variables transformadas, por lo que para ajustar una regresin lineal utilizando nicamente Temperatura, Gradiente de presin y Altura de base de inversin como predictores, elija en los mens:
Analizar > Regresin > Lineales... Figura 9-43 Cuadro de dilogo Regresin lineal

E Seleccione Nivel diario de ozono Cuanticacin como la variable dependiente. E Seleccione Altura de base de inversin Cuanticacin, Gradiente de presin (mm Hg)

Cuanticacin y Temperatura (grados F) Cuanticacin como variables independientes.


E Pulse en Aceptar.

130 Captulo 9 Figura 9-44 Resumen del modelo de regresin con un subconjunto de predictores escalados de manera ptima

Utilizando las cuanticaciones para la respuesta, Temperatura, Gradiente de presin y Altura de base de inversin en una regresin lineal tpica se obtiene un ajuste del 0,732. Para comparar esto con el ajuste de una regresin categrica que utilice nicamente estos tres predictores, vuelva al cuadro de dilogo Regresin categrica.
Figura 9-45 Cuadro de dilogo Regresin categrica

E Anule la seleccin de Visibilidad (millas) y Da del ao como variables independientes. E Pulse en Aceptar. Figura 9-46 Resumen del modelo de regresin categrica con tres predictores

El anlisis de regresin categrica tiene un ajuste de 0,796, que es mejor que el ajuste de 0,732. Se demuestra as la propiedad de los escalamientos de que las cuanticaciones obtenidas en la regresin original son nicamente ptimas cuando se incluyen las cinco variables en el modelo.

131 Regresin categrica

Efectos de las transformaciones


La transformacin de las variables convierte una relacin que no es lineal entre la respuesta original y el conjunto original de predictores, en lineal para las variables transformadas. Sin embargo, cuando hay varios predictores, las relaciones por parejas aparecen confundidas por las dems variables del modelo. Para centrar el anlisis en la relacin entre Nivel diario de ozono y Da del ao, comenzaremos observando el diagrama de dispersin. Seleccione en los mens:
Grficos > Generador de grficos... Figura 9-47 Cuadro de dilogo Generador de grficos

E Seleccione la galera Dispersin/Puntos y elija Dispersin simple. E Seleccione Nivel diario de ozono como variable y y Da del ao como variable x. E Pulse en Aceptar.

132 Captulo 9 Figura 9-48 Diagrama de dispersin del nivel de ozono diario por da del ao

Esta gura ilustra la relacin entre Nivel diario de ozono y Da del ao. A medida que Da del ao aumenta hasta aproximadamente 200, tambin aumenta Nivel diario de ozono. No obstante, para los valores Da del ao valores mayores que 200, el valor de Nivel diario de ozono disminuye. Este patrn de U invertida sugiere una relacin cuadrtica entre las dos variables. Una regresin lineal no puede capturar esta relacin.
E Para ver una lnea de mejor ajuste superpuesta sobre los puntos del diagrama de dispersin, active

el grco pulsando dos veces en l.


E Seleccione un punto en el Editor de grcos. E Pulse en la herramienta Aadir lnea de ajuste total y, a continuacin, cierre el Editor de grcos.

133 Regresin categrica Figura 9-49 Diagrama de dispersin con una lnea de ajuste

Una regresin lineal de Nivel diario de ozono sobre Da del ao produce una R2 de 0,004. Este ajuste sugiere que Da del ao no tiene ningn valor predictivo para Nivel diario de ozono. Esto no resulta sorprendente, teniendo en cuenta el patrn de la gura. Utilizando el escalamiento ptimo, sin embargo, puede hacer lineal la relacin cuadrtica y utilizar el Da del ao para pronosticar la respuesta.

134 Captulo 9 Figura 9-50 Cuadro de dilogo Regresin categrica

Para obtener una regresin categrica de Nivel diario de ozono sobre Da del ao, vuelva al cuadro de dilogo Regresin categrica.
E Anule la seleccin desde Altura de base de inversin hasta Temperatura (grados F) como

variables independientes.
E Seleccione Da del ao como una variable independiente. E Pulse en Definir escala. Figura 9-51 Cuadro de dilogo Definir escala

E Seleccione Nominal como nivel de escalamiento ptimo. E Pulse en Continuar. E Pulse en Discretizar en el cuadro de dilogo Regresin categrica.

135 Regresin categrica Figura 9-52 Cuadro de dilogo Discretizacin

E Seleccione dda. E Seleccione Intervalos iguales. E Escriba 10 como longitud del intervalo. E Pulse en Cambiar. E Pulse en Continuar. E Pulse en Grficos en el cuadro de dilogo Regresin categrica.

136 Captulo 9 Figura 9-53 Cuadro de dilogo Grficos

E Seleccione dda para los grcos de transformacin. E Pulse en Continuar. E Pulse en Aceptar en el cuadro de dilogo Regresin categrica. Figura 9-54 Resumen del modelo de regresin categrica del Nivel diario de ozono con respecto a Da del ao

La regresin de escalamiento ptimo trata Nivel diario de ozono como numrico y Da del ao como nominal. Se produce como resultado una R2 de 0,549. Aunque slo el 55% de la variacin en Nivel diario de ozono queda explicada por la regresin categrica, se trata de una mejora substancial respecto a la regresin original. La transformacin Da del ao permite pronosticar Nivel diario de ozono.

137 Regresin categrica Figura 9-55 Grfico de transformacin de da del ao (nominal)

Esta gura muestra el grco de transformacin de Da del ao. Ambos extremos de Da del ao reciben cuanticaciones negativas, mientras que los valores centrales tienen cuanticaciones positivas. Mediante la aplicacin de esta transformacin, los valores inferiores y superiores de Da del ao tienen efectos similares sobre los valores pronosticados de Nivel diario de ozono.

138 Captulo 9 Figura 9-56 Generador de grficos

Para ver un diagrama de dispersin de las variables transformadas, vuelva a Generador de cuadros y pulse en Restablecer para borrar las selecciones anteriores.
E Seleccione la galera Dispersin/Puntos y elija Dispersin simple. E Seleccione Nivel diario de ozono Cuanticacin [TRA1_3] como variable y y Da del ao

Cuanticacin [TRA2_3] como variable x.


E Pulse en Aceptar.

139 Regresin categrica Figura 9-57 Diagrama de dispersin de las variables transformadas

Esta gura describe la relacin entre las variables transformadas. Una tendencia creciente sustituye a la U invertida. La lnea de regresin tiene una pendiente positiva, lo que indica que a medida que el valor transformado de Da del ao aumenta, tambin lo hace Nivel diario de ozono. El uso del escalamiento ptimo convierte en lineal la relacin y permite realizar interpretaciones que de otra manera pasaran desapercibidas.

Lecturas recomendadas
Consulte los siguientes textos si desea obtener ms informacin sobre la regresin categrica: Buja, A. 1990. Remarks on functional canonical variates, alternating least squares methods and ACE. Annals of Statistics, 18, . Hastie, T., R. Tibshirani, y A. Buja. 1994. Flexible discriminant analysis. Journal of the American Statistical Association, 89, . Hayashi, C. 1952. On the prediction of phenomena from qualitative data and the quantication of qualitative data from the mathematico-statistical point of view. Annals of the Institute of Statitical Mathematics, 2, . Kruskal, J. B. 1965. Analysis of factorial experiments by estimating monotone transformations of the data. Journal of the Royal Statistical Society Series B, 27, . Meulman, J. J. 2003. Prediction and classication in nonlinear data analysis: Something old, something new, something borrowed, something blue. Psychometrika, 4, .

140 Captulo 9

Ramsay, J. O. 1989. Monotone regression splines in action. Statistical Science, 4, . Van der Kooij, A. J., y J. J. Meulman. 1997. MURALS: Multiple regression and optimal scaling using alternating least squares. En: Softstat 97, F. Faulbaum, y W. Bandilla, eds. Stuttgart: Gustav Fisher. Winsberg, S., y J. O. Ramsay. 1980. Monotonic transformations to additivity using splines. Biometrika, 67, . Winsberg, S., y J. O. Ramsay. 1983. Monotone spline transformations for dimension reduction. Psychometrika, 48, . Young, F. W., J. De Leeuw, y Y. Takane. 1976. Regression with qualitative and quantitative variables: An alternating least squares method with optimal scaling features. Psychometrika, 41, .

Anlisis de componentes principales categrico

10

Captulo

El anlisis de componentes principales categrico se puede considerar como un mtodo de reduccin de dimensiones. Se analiza un conjunto de variables para descubrir las dimensiones ms importantes de la variacin. El conjunto de datos original se puede sustituir por un nuevo conjunto de datos ms pequeo con una prdida mnima de informacin. El mtodo descubre las relaciones entre las variables, entre los casos y entre las variables y los casos. El criterio utilizado por el anlisis de componentes principales categrico para cuanticar los datos observados es que las puntuaciones de los objetos (las puntuaciones de los componentes) deben tener grandes correlaciones con cada una de las variables cuanticadas. Una solucin es buena en tanto que satisface este criterio. Se presentarn dos ejemplos del anlisis de componentes principales categrico. El primero utiliza un conjunto de datos bastante pequeo para ilustrar los conceptos bsicos y las interpretaciones asociadas con el procedimiento. El segundo ejemplo examina una aplicacin prctica.

Ejemplo: Examen de las interrelaciones de los sistemas sociales


Este ejemplo examina la adaptacin de Guttman (Guttman, 1968) de una tabla de Bell (Bell, 1961). Los datos tambin estn comentados por Lingoes (Lingoes, 1968). Bell present una tabla para ilustrar posibles grupos sociales. Guttman utiliz parte de esta tabla, en la que se cruzaron cinco variables que describan elementos como la interaccin social, los sentimientos de pertenencia a un grupo, proximidad fsica de los miembros y grado de formalizacin de la relacin con siete grupos sociales tericos, incluidos multitudes (por ejemplo, las personas que acuden a un partido de ftbol), espectadores (por ejemplo, las personas que acuden a un teatro o de una conferencia), pblicos (por ejemplo, los lectores de peridicos o los espectadores de televisin), muchedumbres (como una multitud pero con una interaccin mucho ms intensa), grupos primarios (ntimos), grupos secundarios (voluntarios) y la comunidad moderna (confederacin dbil que resulta de la proximidad cercana fsica y de la necesidad de servicios especializados). La siguiente tabla muestra las variables del conjunto de datos que resulta de la clasicacin en siete grupos sociales utilizada en los datos de Guttman-Bell, con sus etiquetas de variable y las etiquetas de valor (categoras) asociadas con los niveles de cada variable. Este conjunto de datos se puede encontrar en guttman.sav. Si desea obtener ms informacin, consulte el tema Archivos muestrales en el apndice A en IBM SPSS Categories 19. Adems de seleccionar las variables que se incluirn en el clculo del anlisis de componentes principales categrico, puede seleccionar las
Copyright SPSS Inc. 1989, 2010 141

142 Captulo 10

variables que se utilizarn para etiquetar a los objetos en los grcos. En este ejemplo, las primeras cinco variables de los datos se incluyen en el anlisis, mientras que el conglomerado se utiliza de manera exclusiva como variable de etiquetado. Cuando especique un anlisis de componentes principales categrico, debe especicar el nivel de escalamiento ptimo para cada variable de anlisis. En este ejemplo, se especica un nivel ordinal para todas las variables del anlisis.
Tabla 10-1 Variables del conjunto de datos Guttman-Bell

Nombre de variable intesidd frecuenc pertenci proxmdad formal conglomerado

Etiqueta de variable Intensidad Frecuencia Pertenencia Proximidad Formalismo

Etiqueta de valor Ligera, baja, moderada, alta Ligera, no recurrente, no frecuente, frecuente Ninguno, ligero, variable, alto Distante, cercana Sin relacin, formal, informal Multitudes, espectadores, pblicos, muchedumbres, grupos primarios, grupos secundarios, comunidad moderna

Ejecucin del anlisis


E Para generar los resultados de componentes principales categricos de este conjunto de datos,

seleccione en los mens:


Analizar > Reduccin de dimensiones > Escalamiento ptimo... Figura 10-1 Cuadro de dilogo Escalamiento ptimo

E Seleccione Alguna variable no es nominal mltiple en el grupo Nivel para escalamiento ptimo. E Pulse en Definir.

143 Anlisis de componentes principales categrico Figura 10-2 Cuadro de dilogo Componentes principales categrico

E Seleccione de Intensidad a Formalismo como variables de anlisis. E Pulse en Definir escala y ponderacin. Figura 10-3 Definir escala y ponderacin

E Seleccione Ordinal en el grupo Nivel para escalamiento ptimo. E Pulse en Continuar. E Seleccione conglomerado como variable de etiquetado en el cuadro de dilogo Componentes

principales categricos.

144 Captulo 10 E Pulse en Resultados. Figura 10-4 Cuadro de dilogo Resultados

E Seleccione Puntuaciones de los objetos y desactive Correlaciones de variables transformadas en

el grupo Tablas.
E Seleccione generar cuanticaciones de las categoras desde intensidd (Intensidad de la interaccin)

hasta formal (Grado de formalizacin de la relacin).


E Seleccione etiquetar las puntuaciones de los objetos por conglomerado. E Pulse en Continuar. E Pulse en Objeto en el grupo Grcos del cuadro de dilogo Componentes principales categricos.

145 Anlisis de componentes principales categrico Figura 10-5 Grficos de variables y objetos

E Seleccione Objetos y variables (grfico biespacial) en el grupo Grcos. E Seleccione etiquetar los objetos por Variable en el grupo Etiquetar objetos y, a continuacin,

seleccione conglomerado como la variable por la que se etiquetarn los objetos.


E Pulse en Continuar. E Pulse en Categora en el grupo Grcos del cuadro de dilogo Componentes principales

categricos.

146 Captulo 10 Figura 10-6 Cuadro de dilogo Grficos de categoras

E Seleccione generar grcos de categoras conjuntas para desde intensidd (Intensidad de la

interaccin) hasta formal (Grado de formalizacin de la relacin).


E Pulse en Continuar. E Pulse en Aceptar en el cuadro de dilogo Componentes principales categricos.

Nmero de dimensiones
Estas guras muestran parte de los resultados iniciales del anlisis de componentes principales categrico. Tras el historial de iteraciones del algoritmo, aparecer el resumen del modelo, incluidos los autovalores de cada dimensin. Estos autovalores son equivalentes a los del anlisis de componentes principales clsico. Son las medidas de qu parte de la varianza se explica por cada una de las dimensiones.

147 Anlisis de componentes principales categrico Figura 10-7 Historial de las iteraciones

Figura 10-8 Resumen del modelo

Los autovalores se pueden utilizar como indicacin del nmero de dimensiones que son necesarias. En este ejemplo, se utiliz el nmero por defecto de dimensiones, 2. Es ste el nmero correcto? Como norma general, cuando todas las variables son nominales, ordinales o numricas nicas, el autovalor de una dimensin debe ser mayor que 1. Ya que la solucin de dos dimensiones resuelve el 94,52% de la varianza, una tercera dimensin probablemente no aadira mucha ms informacin. Para variables nominales mltiples, no hay ninguna norma general sencilla apropiada para determinar el nmero adecuado de dimensiones. Si el nmero de variables se sustituye por el nmero total de categoras menos el nmero de variables, la regla anterior seguir siendo vlida. Pero esta regla independiente, probablemente permita utilizar ms dimensiones de las necesarias. Al elegir el nmero de dimensiones, la directriz ms til es que el nmero sea sucientemente pequeo para que sean posibles interpretaciones que tengan sentido. La tabla del resumen del modelo tambin muestra el alfa de Cronbach (una medida de la abilidad), la cual maximiza el procedimiento.

Cuantificaciones
Para cada variable se muestran las cuanticaciones, las coordenadas del vector y las coordenadas del centroide para cada una de las dimensiones. Las cuanticaciones son los valores asignados a cada categora. Las coordenadas del centroide son la media de las puntuaciones de los objetos de la misma categora. Las coordenadas del vector son las coordenadas de las categoras cuando es necesario que estn en una lnea, representando a la variable en el espacio de los objetos. Esto es necesario para las variables con el nivel de escalamiento ordinal y numrico.

148 Captulo 10 Figura 10-9 Cuantificaciones de la intensidad de la interaccin

Mirando las cuanticaciones en el grco conjunto de los puntos de categoras, podr ver que algunas de las categoras de algunas variables no aparecen tan claramente diferenciadas por el anlisis de componentes principales categrico como sera de esperar si el nivel hubiese sido realmente ordinal. Las variables Intensidad y Frecuencia, por ejemplo, tienen cuanticaciones iguales o muy similares para las de las dos categoras intermedias. Este tipo de resultado puede sugerir intentar otros anlisis de componentes principales categricos, tal vez con algunas categoras unidas o tal vez con un diferente nivel de anlisis, como nominal (mltiple).
Figura 10-10 Puntos de categoras del grfico conjunto

El grco conjunto de los puntos de categoras se parece al grco de las saturaciones en componentes, pero tambin muestra dnde se encuentran los puntos nales que corresponden a las cuanticaciones menores (por ejemplo, ligera para Intensidad y ninguna para Sentimiento). Las dos variables que miden la interaccin, Intensidad y Frecuencia, aparecen muy juntas y explican la parte de la varianza de la dimensin 1. Formalismo tambin aparece cerca de Proximidad. Si nos centramos en los puntos de categora, ser posible ver las relaciones todava con mayor claridad. No slo estn cerca Intensidad y Frecuencia, sino que las direcciones de sus escalas son similares; es decir, la intensidad ligera est cerca de la frecuencia ligera y la interaccin frecuente est cerca de la intensidad alta de interaccin. Tambin se puede ver que la proximidad

149 Anlisis de componentes principales categrico

cercana fsica parece ir unida a un tipo informal de relacin, mientras que la distancia fsica est relacionada con que no haya ninguna relacin.

Puntuaciones de los objetos


Tambin puede solicitar un listado y un grco de las puntuaciones de los objetos. El grco de las puntuaciones de los objetos puede ser til para detectar valores atpicos, detectar grupos habituales de objetos y descubrir algunos patrones especiales. La tabla de puntuaciones de los objetos muestra el listado de las puntuaciones de los objetos etiquetados por grupo social para los datos de Guttman-Bell. Si se examinan los valores de los puntos de los objetos, puede identicar objetos concretos en el grco.
Figura 10-11 Puntuaciones de los objetos

La primera dimensin parece separar MULTITUDES y PBLICOS, que tienen puntuaciones negativas relativamente grandes, de MUCHEDUMBRES y GRUPOS PRIMARIOS, que tienen puntuaciones positivas relativamente grandes. La segunda dimensin presenta tres grupos: PBLICOS y GRUPOS SECUNDARIOS con valores negativos grandes, MUCHEDUMBRES con valores positivos grandes y el resto de los otros grupos sociales entre ellos. Resulta ms fcil ver esto mediante la observacin del grco de las puntuaciones de los objetos.

150 Captulo 10 Figura 10-12 Grfico de puntuaciones de los objetos

En el grco, puede ver PBLICOS y GRUPOS SECUNDARIOS en la parte inferior, MULTITUDES en la parte superior y el resto de los grupos sociales en el medio. La observacin de los patrones en los objetos individuales depende de la informacin adicional disponible para las unidades de anlisis. En este caso, conoce la clasicacin de los objetos. En otros casos, puede utilizar variables suplementarias para etiquetar los objetos. Tambin puede ver que el anlisis de componentes principales categrico no separa MUCHEDUMBRES de GRUPOS PRIMARIOS. Aunque la mayora de las personas no consideran a sus familias como muchedumbres, en las variables utilizadas, estos dos grupos recibieron la misma puntuacin nada menos que en cuatro de las cinco variables. Obviamente, puede que desee estudiar los posibles defectos de las variables y las categoras que se han utilizado. Por ejemplo, la alta intensidad de la interaccin y de las relaciones informales probablemente tengan signicados diferentes para estos dos grupos. Otra posibilidad consiste en considerar una solucin con ms dimensiones.

Saturaciones en componentes
Esta gura muestra el grco de las saturaciones en componentes. Los vectores (lneas) son relativamente largos, lo que vuelve a indicar que las primeras dos dimensiones explican la mayora de la varianza de todas las variables cuanticadas. En la primera dimensin, todas las variables tienen saturaciones en componentes altas (positivas). La segunda dimensin est correlacionada principalmente con las variables cuanticadas Sentimiento y Proximidad, en direcciones opuestas. Por tanto, los objetos con una puntuacin negativa grande en la dimensin 2 tendrn una alta puntuacin en el sentimiento de pertenencia y una baja puntuacin en la proximidad fsica. La segunda dimensin, por tanto, muestra un contraste entre estas dos variables al mismo tiempo que tiene escasa relacin con las variables cuanticadas Intensidad y Frecuencia.

151 Anlisis de componentes principales categrico Figura 10-13 Saturaciones en componentes

Para examinar la relacin entre los objetos y las variables, observe el diagrama de dispersin biespacial de los objetos y las saturaciones en componentes. El vector de una variable apunta en la direccin de la categora mayor de la variable. Por ejemplo, para Proximidad y Pertenencia las categoras mayores son cercano y alto, respectivamente. Por tanto, MUCHEDUMBRES se caracterizan por la proximidad fsica cercana y por la ausencia de sentimiento de pertenencia, mientras que GRUPOS SECUNDARIOS, por proximidad fsica distante y alto sentimiento de pertenencia.
Figura 10-14 Diagrama de dispersin biespacial

152 Captulo 10

Dimensiones adicionales
El aumento del nmero de dimensiones aumentar la cantidad de variacin explicada y puede servir para detectar diferencias ocultas en las soluciones con un nmero menor de dimensiones. Como se observ previamente, no se puede separar con dos dimensiones MUCHEDUMBRES y GRUPOS PRIMARIOS. Sin embargo, el aumento de la dimensionalidad tal vez permita diferenciar estos dos grupos.

Ejecucin del anlisis


E Para obtener una solucin tridimensional, vuelva al cuadro de dilogo Componentes principales

categricos.
E Escriba 3 como nmero de dimensiones de la solucin. E Pulse en Aceptar en el cuadro de dilogo Componentes principales categricos.

Resumen del modelo


Figura 10-15 Resumen del modelo

Una solucin tridimensional tiene los autovalores 3,424, 0,844 y 0,732, que explican prcticamente toda la varianza.

Puntuaciones de los objetos


Las puntuaciones de la solucin tridimensional se representan en un diagrama de dispersin matricial. En un diagrama de dispersin matricial, todas las dimensiones se representan respecto a las dems dimensiones en una serie de diagramas de dispersin bidimensionales. Observe que los dos primeros autovalores en tres dimensiones no son iguales que los autovalores de la solucin de dos dimensiones; dicho de otra manera, las soluciones no estn anidadas. Como los autovalores de las dimensiones 2 y 3 ahora son menores que 1 (lo que hace que la alfa de Cronbach sea negativa), resulta preferible la solucin de dos dimensiones. La solucin tridimensional se incluye a modo ilustrativo.

153 Anlisis de componentes principales categrico Figura 10-16 Diagrama de dispersin matricial de las puntuaciones de los objetos de tres dimensiones

La la superior de grcos muestra que la primera dimensin separa GRUPOS PRIMARIOS y MUCHEDUMBRES respecto a los dems grupos. Observe que el orden de los objetos a lo largo del eje vertical no cambia en ninguno de los grcos de la la superior; cada uno de estos grcos utiliza la dimensin 1 como eje Y. La la intermedia de grcos permite la interpretacin de la dimensin 2. La segunda dimensin ha cambiado ligeramente respecto a la solucin de dos dimensiones. Anteriormente, la segunda dimensin presentaba tres grupos diferenciados, pero ahora los objetos estn ms dispersos a lo largo del eje. La tercera dimensin ayuda a separar MUCHEDUMBRES de GRUPOS PRIMARIOS, lo cual no ocurra en la solucin de dos dimensiones. Ahora observaremos con ms detalle los grcos de la dimensin 2 respecto a la dimensin 3 y de la dimensin 1 respecto a la dimensin 2. En el plano denido por las dimensiones 2 y 3, los objetos forman aproximadamente un rectngulo, con MUCHEDUMBRES, COMUNIDAD MODERNA, GRUPOS SECUNDARIOS y PBLICOS en los vrtices. En este plano, MUCHEDUMBRES y GRUPOS PRIMARIOS parecen ser combinaciones convexas de PBLICO-MUCHEDUMBRES y GRUPOS SECUNDARIOS-COMUNIDAD MODERNA, respectivamente. Sin embargo, como se ha mencionado previamente, se separan de los dems grupos a lo largo de la dimensin 1. ESPECTADORES no se separa de los dems grupos a lo largo de la dimensin 1 y parece ser una combinacin de MUCHEDUMBRES y COMUNIDAD MODERNA.

154 Captulo 10

Saturaciones en componentes
Figura 10-17 Saturaciones en componentes en tres dimensiones

Conocer la diferenciacin existente entre los objetos no nos informa de qu variables corresponden a qu dimensiones. Para ello, se utilizan las saturaciones en componentes. La primera dimensin corresponde principalmente a Pertenencia, Intensidad y Formalismo; la segunda dimensin diferencia Frecuencia y Proximidad; y la tercera dimensin separa stas de las otras.

Ejemplo: sintomatologa de los trastornos de la alimentacin


Los trastornos de la alimentacin son enfermedades que producen un debilitamiento y que estn asociadas con problemas con la conducta de alimentacin, una grave distorsin de la imagen del propio cuerpo y una obsesin con el peso que afecta simultneamente tanto al cuerpo como a la mente. Millones de personas se ven afectados todos los aos, estando especialmente en peligro los adolescentes. Hay disponibles tratamientos, la mayora de los cuales son tiles cuando se detecta este problema de manera temprana. Un profesional sanitario puede intentar diagnosticar un trastorno de la alimentacin mediante una evaluacin psicolgica y mdica. Sin embargo, puede ser difcil asignarle a un paciente uno de los diferentes tipos de trastornos de la alimentacin porque no hay ninguna sintomatologa normalizada del comportamiento anorxico o bulmico. Existen sntomas que diferencien claramente a los pacientes en estos cuatro grupos? Qu sntomas tienen en comn? Para intentar responder a estas preguntas, los investigadores (Van der Ham, Meulman, Van Strien, y Van Engeland, 1997) realizaron un estudio de 55 adolescentes con trastornos de la alimentacin conocidos, como se muestran en la siguiente tabla.
Tabla 10-2 Diagnsticos de los pacientes

Diagnstico Anorexia nerviosa Anorexia con bulimia nerviosa Bulimia nerviosa tras anorexia Trastorno atpico de la alimentacin Total

Nmero de pacientes 25 9 14 7 55

Cada paciente fue examinado cuatro veces durante cuatro aos, lo que representa un total de 220 observaciones. En cada observacin, se puntu a los pacientes para cada uno de los 16 sntomas que aparecen en la siguiente tabla. Faltan las puntuaciones de los sntomas para el paciente 71 en

155 Anlisis de componentes principales categrico

el tiempo 2, el paciente 76 en el tiempo 2 y el paciente 47 en el tiempo 3, lo que nos deja 217 observaciones vlidas. Los datos se pueden encontrar en anorectic.sav.Si desea obtener ms informacin, consulte el tema Archivos muestrales en el apndice A en IBM SPSS Categories 19.
Tabla 10-3 Subescalas de Morgan-Russell modificadas que miden el bienestar

Nombre de variable weight mens fast binge vomit purge hyper fami eman frie school satt sbeh mood preo body

Etiqueta de variable Peso corporal Menstruacin Restriccin de ingesta de alimentos (ayuno) Comilonas excesivas Vmitos Purgas Hiperactividad Relaciones familiares Emancipacin de la familia Amigos Historial escolar/laboral Actitud sexual Comportamiento sexual Estado mental (nimo) Preocupacin por la comida y el peso Percepcin corporal

Extremo inferior (puntuacin1) Fuera del intervalo normal Amenorrea Menor de 1200 caloras

Extremo superior (puntuacin 3 4) Normal Perodos regulares Comidas normales/regulares

Ms de una vez a la semana Sin comilonas excesivas Ms de una vez a la semana Sin vmitos Ms de una vez a la semana Sin purgas No puede descansar Pobres Muy dependiente Sin buenos amigos Ha interrumpido escuela/trabajo Inadecuado Inadecuado Muy deprimido Completa Trastornada Sin hiperactividad Buenos Adecuada Dos o ms buenos amigos Registro de moderado a bueno Adecuada Puede disfrutar del sexo Normal Sin preocupacin Normal

El anlisis de componentes principales es ideal para esta situacin ya que el objetivo del estudio es determinar las relaciones entre los sntomas y las diferentes clases de trastornos de la alimentacin. Adems, es probable que el anlisis de componentes principales categrico resulte ms til que el anlisis de componentes principales clsico ya que los sntomas se puntan en una escala ordinal.

Ejecucin del anlisis


Para examinar correctamente la estructura del transcurso de la enfermedad para cada diagnstico, probablemente desee que los resultados de la tabla de centroides proyectados estn disponibles para los diagramas de dispersin. Puede llevar esto a cabo mediante el Sistema de gestin de resultados.
E Para iniciar una solicitud de SGR, elija en los mens: Utilidades > Panel de control de SGR...

156 Captulo 10 Figura 10-18 Panel de control del Sistema de gestin de resultados

E Seleccione Tablas como tipo de resultado. E Seleccione CATPCA como comando. E Seleccione Centroides proyectados como tipo de tabla. E Seleccione Archivo en el grupo Destinos de los resultados y escriba centroides_proyectados.sav

como nombre de archivo.


E Pulse en Opciones.

157 Anlisis de componentes principales categrico Figura 10-19 Cuadro de dilogo Opciones

E Seleccione IBM SPSS StatisticsArchivo de datos como formato de los resultados. E Escriba NmeroTabla_1 como variable de nmero de tabla. E Pulse en Continuar.

158 Captulo 10 Figura 10-20 Panel de control del Sistema de gestin de resultados

E Pulse en Aadir. E Pulse en Aceptar y, a continuacin, en Aceptar para conrmar la sesin de SGR.

El Sistema de gestin de resultados ya estar congurado para escribir los resultados de la tabla de centroides proyectados en el archivo centroides_proyectados.sav.
E Para generar los resultados de componentes principales categricos de este conjunto de datos,

seleccione en los mens:


Analizar > Reduccin de dimensiones > Escalamiento ptimo...

159 Anlisis de componentes principales categrico Figura 10-21 Cuadro de dilogo Escalamiento ptimo

E Seleccione Alguna variable no es nominal mltiple en el grupo Nivel para escalamiento ptimo. E Pulse en Definir. Figura 10-22 Cuadro de dilogo Componentes principales categrico

E Seleccione de Peso corporal a Percepcin corporal como variables de anlisis. E Pulse en Definir escala y ponderacin.

160 Captulo 10 Figura 10-23 Definir escala y ponderacin

E Seleccione Ordinal como nivel de escalamiento ptimo. E Pulse en Continuar. E Seleccione Interaccin tiempo/diagnstico como variable suplementaria y pulse en Definir escala

en el cuadro de dilogo Componentes principales categricos.


Figura 10-24 Cuadro de dilogo Definir escala

E Seleccione Nominal mltiple como nivel de escalamiento ptimo. E Pulse en Continuar.

161 Anlisis de componentes principales categrico Figura 10-25 Cuadro de dilogo Componentes principales categrico

E Seleccione desde Momento de la entrevista hasta Nmero del paciente como variables de

etiquetado.
E Pulse en Opciones.

162 Captulo 10 Figura 10-26 Cuadro de dilogo Opciones

E Seleccione etiquetar los grcos por Nombres de variable o valores. E Pulse en Continuar. E Pulse en Resultados en el cuadro de dilogo Componentes principales categricos.

163 Anlisis de componentes principales categrico Figura 10-27 Cuadro de dilogo Resultados

E Seleccione Puntuaciones de los objetos en el grupo Tablas. E Solicite las cuanticaciones de las categoras por tidi. E Seleccione incluir las categoras de time, diag y number. E Pulse en Continuar. E Pulse en Guardar en el cuadro de dilogo Componentes principales categricos.

164 Captulo 10 Figura 10-28 Cuadro de dilogo Guardar

E En el grupo Variables transformadas, seleccione Guardar en el conjunto de datos activo. E Pulse en Continuar. E Pulse en Objeto en el cuadro de dilogo Componentes principales categricos.

165 Anlisis de componentes principales categrico Figura 10-29 Grficos de variables y objetos

E Seleccione etiquetar los objetos por Variable. E Seleccione time y diag como las variables por las que se etiquetarn los objetos. E Pulse en Continuar. E Pulse en Categora en el cuadro de dilogo Componentes principales categricos.

166 Captulo 10 Figura 10-30 Cuadro de dilogo Grficos de categoras

E Solicite grcos de categoras para tidi. E Solicite grcos de transformacin para de weight a body. E Elija proyectar los centroides de tidi en binge, satt y preo. E Pulse en Continuar. E Pulse en Aceptar en el cuadro de dilogo Componentes principales categricos.

El procedimiento genera como resultados las puntuaciones de los sujetos (con media 0 y varianza la unidad) y cuanticaciones de las categoras que maximizan la correlacin cuadrtica media de las puntuaciones de los sujetos y de las variables transformadas. En el anlisis actual, las cuanticaciones de las categoras se limitaban a reejan la informacin ordinal.

167 Anlisis de componentes principales categrico

Por ltimo, para escribir la informacin de la tabla de centroides proyectados en centroides_proyectados.sav, es necesario nalizar la solicitud de SGR. Vuelva a acceder al panel de control del SGR.
Figura 10-31 Panel de control del Sistema de gestin de resultados

E Pulse en Terminar. E Pulse en Aceptar y, a continuacin, en Aceptar para conrmar.

Grficos de transformacin
Los grcos de transformacin muestran el nmero de categora original en los ejes horizontales; los ejes verticales indican las cuanticaciones ptimas.

168 Captulo 10 Figura 10-32 Grfico de transformacin para menstruacin

Algunas variables, como Menstruacin, consiguen transformaciones prcticamente lineales, por lo que en este anlisis se pueden interpretar como numricas.
Figura 10-33 Grfico de transformacin para Historial escolar/laboral

Las cuanticaciones de otras variables como Historial escolar/laboral no han obtenido transformaciones lineales y deben interpretarse a nivel de escalamiento ordinal. La diferencia entre las categoras segunda y tercera es mucho ms importante que entre las categoras primera y segunda.

169 Anlisis de componentes principales categrico Figura 10-34 Grfico de transformacin para comilonas excesivas

Un caso interesante surge en las cuanticaciones de Comilonas excesivas. La transformacin obtenida es lineal para las categoras de la 1 a la 3, pero los valores cuanticados de las categoras 3 y 4 son iguales. Este resultado muestra que las puntuaciones de 3 y 4 no hacen diferencia entre los pacientes y sugieren que se podra utilizar el nivel de escalamiento numrico en una solucin de dos componentes si se recodican los valores de 4 como 3.

Resumen del modelo


Figura 10-35 Resumen del modelo

Para ver la bondad de ajuste del modelo a los datos, observemos el resumen del modelo. Aproximadamente el 47% de la varianza total queda explicada por el modelo de dos componentes, el 35% por la primera dimensin y el 12% por la segunda. Por tanto, prcticamente la mitad de la variabilidad de los objetos individuales queda explicada por el modelo de dos componentes.

170 Captulo 10

Saturaciones en componentes
Para comenzar a interpretar las dos dimensiones de la solucin, observemos las saturaciones en las componentes. Todas las variables tienen una saturacin en componentes positiva en la primera dimensin, lo que indica que hay un factor comn que tiene una correlacin positiva con todas las variables.
Figura 10-36 Grfico de saturaciones en componentes

La segunda dimensin separa las variables. Las variables Comilonas excesivas, Vmitos y Purgas forman un grupo que tiene grandes saturaciones positivas en la segunda dimensin. Estos sntomas suelen considerarse representativos del comportamiento bulmico. Las variables Emancipacin de la familia, Historial escolar/laboral, Actitud sexual, Peso corporal y Menstruacin constituyen otro grupo y se puede incluir Restriccin de ingesta de alimentos (ayuno) y Relaciones familiares en este grupo, ya que sus vectores se encuentran cerca del conglomerado principal y estas variables se consideran sntomas de anorexia (ayuno, peso, menstruacin) o son de naturaleza psicosocial (emancipacin, registro de escuela/trabajo, actitud sexual, relaciones familiares). Los vectores de este grupo son ortogonales (perpendiculares) a los vectores de binge, vomit y purge, lo que indica que este conjunto de variables no tiene correlacin con el conjunto de las variables bulmicas. Las variables Amigos, Estado mental (nimo) e Hiperactividad no parecen ajustarse muy bien en la solucin. Puede comprobarlo en el grco observando las longitudes de cada vector. La longitud del vector de una determinada variable corresponde a su ajuste y estas variables son las que tienen los vectores ms cortos. En base a una solucin de dos componentes, probablemente se eliminaran estas variables de una propuesta de sintomatologa de los trastornos de la alimentacin. Sin embargo, es posible que se ajusten mejor a una solucin con un mayor nmero de dimensiones. Las variables Comportamiento sexual, Preocupacin por la comida y el peso y Percepcin corporal forman otro grupo terico de sntomas, que pertenecen a la experiencia que el paciente tiene de su propio cuerpo. Aunque estn correlacionadas con los dos grupos ortogonales de variables, estas variables tienen vectores bastante largos y estn asociados fuertemente con la

171 Anlisis de componentes principales categrico

primera dimensin y, por tanto, pueden proporcionar cierta informacin til acerca del factor comn.

Puntuaciones de los objetos


La siguiente gura muestra un grco de las puntuaciones de los objetos, en el que los sujetos aparecen etiquetados con la categora de su diagnstico.
Figura 10-37 Grficos con las puntuaciones de los objetos etiquetados por su diagnstico

Este grco no ayuda a interpretar la primera dimensin ya que los pacientes no aparecen diferenciados por el diagnstico a lo largo del mismo. Sin embargo, hay cierta informacin acerca de la segunda dimensin. Los sujetos de anorexia (1) y los pacientes con un trastorno atpico de la alimentacin (4) forman un grupo, situado por encima de los sujetos con algn tipo de bulimia (2 y 3). Por tanto, la segunda dimensin diferencia los pacientes bulmicos de los dems, como ya ha visto en la seccin anterior (las variables del grupo bulmico tienen saturaciones en componentes grandes y positivas en la segunda dimensin). Esto tiene sentido, ya que las saturaciones en componentes de los sntomas que tradicionalmente se asocian a la bulimia tienen valores grandes en la segunda dimensin.

172 Captulo 10

Esta gura muestra un grco de las puntuaciones de los objetos, en el que los sujetos aparecen etiquetados con el tiempo en el que se realiz el diagnstico.
Figura 10-38 Puntuaciones de los objetos etiquetados por el momento de la entrevista

El etiquetado de las puntuaciones de los objetos por el tiempo muestra que la primera dimensin tiene una relacin con el tiempo ya que parece haber una progresin de tiempos de diagnstico desde el 1 que se encuentra ms a la izquierda y los otros a la derecha. Observe que puede conectar los puntos temporales de este grco guardando las puntuaciones de los objetos y creando un diagrama de dispersin utilizando las puntuaciones de la dimensin 1 en el eje X, las puntuaciones de la dimensin 2 en el eje Y y estableciendo los marcados mediante los nmeros de los pacientes. Si se compara el grco de las puntuaciones de los objetos etiquetados por tiempo con el grco etiquetado por diagnstico podemos obtener cierta informacin acerca de los objetos menos habituales. Por ejemplo, en el grco etiquetado por tiempo, hay un paciente cuyo diagnstico en el tiempo 4 se encuentra a la izquierda de los dems puntos del grco. Esto no es habitual ya que la tendencia general de los puntos es que en los tiempos posteriores se encuentren a la derecha. Curiosamente, este punto que parece estar descolocado en el tiempo tambin tiene un diagnstico poco habitual, ya que se trata de un paciente anorxico cuya puntuacin coloca al paciente en el conglomerado bulmico. Si observamos la tabla con las puntuaciones de los objetos, veremos que se trata del paciente 43, diagnosticado con anorexia nerviosa, cuyas puntuaciones de los objetos se muestran en la siguiente tabla.
Tabla 10-4 Puntuaciones de los objetos para el paciente 43

Hora 1 2 3 4

Dimensin 1 2.031 2.067 1.575 2.405

Dimensin 2 1.250 0.131 1.467 1.807

173 Anlisis de componentes principales categrico

Las puntuaciones del paciente en el tiempo 1 son prototpicas de la anorexia, con una elevada puntuacin negativa en la dimensin 1 correspondiente a la pobre imagen del cuerpo y una puntuacin positiva en la dimensin 2 correspondiente a sntomas de anorexia o pobre comportamiento psicosocial. Sin embargo, a diferencia de la mayora de los pacientes, hay poco o nulo progreso en la dimensin 1. En la dimensin 2, parece haber cierto progreso hacia normal (alrededor de 0, entre comportamiento anorxico y bulmico), pero a continuacin el paciente pasa a presentar sntomas de bulimia.

Examen de la estructura del transcurso de la enfermedad


Para buscar ms informacin acerca de cmo se encuentran relacionadas las dos dimensiones para las cuatro caractersticas de diagnstico y los cuatro puntos temporales, se ha creado una variable suplementaria Interaccin tiempo/diagnstico mediante una clasicacin cruzada de las cuatro categoras de Diagnstico del paciente y las cuatro categoras de Momento de la entrevista. Por tanto, Interaccin tiempo/diagnstico tiene 16 categoras, donde la primera categora indica los pacientes de anorexia nerviosa en su primera visita. La quinta categora indica los pacientes de la anorexia nerviosa en el punto temporal 2, etc. y la categora decimosexta indica los pacientes de un trastorno atpico de la alimentacin en el punto temporal 4. El uso de la variable suplementaria Interaccin tiempo/diagnstico permite el estudio de los transcursos de la enfermedad para los diferentes grupos con el tiempo. A la variable se le dio un nivel de escalamiento nominal mltiple y los puntos de categora se muestran en la siguiente gura.
Figura 10-39 Puntos de categora para la interaccin tiempo/diagnstico

Parte de la estructura se ve directamente en este grco: las categoras de diagnstico en el punto temporal 1 diferencian claramente la anorexia nerviosa y el trastorno atpico de la alimentacin de la anorexia nerviosa con la bulimia nerviosa y la bulimia nerviosa tras anorexia nerviosa en la segunda dimensin. Aparte de esto, resulta un poco ms difcil ver los patrones.

174 Captulo 10

No obstante, puede conseguir que los patrones sean visibles con mayor facilidad si crea un diagrama de dispersin basado en las cuanticaciones. Para ello, elija en los mens:
Grficos > Generador de grficos... Figura 10-40 Galera Dispersin/Puntos

E Seleccione la galera Dispersin/Puntos y elija Dispersin Agrupado.

175 Anlisis de componentes principales categrico Figura 10-41 Generador de grficos

E Seleccione Interaccin tiempo/diagnstico Cuanticacin dimensin 2 como variable y e

Interaccin tiempo/diagnstico Cuanticacin dimensin 1 como variable x.


E Seleccione establecer el color por Diagnstico del paciente. E Pulse en Aceptar.

176 Captulo 10 Figura 10-42 Estructuras de los transcursos de las enfermedades

E A continuacin, para conectar los puntos, pulse dos veces en el grco y pulse en la herramienta Aadir una lnea de interpolacin del Editor de grcos. E Cierre el Editor de grcos.

177 Anlisis de componentes principales categrico Figura 10-43 Estructuras de los transcursos de las enfermedades

Al conectar los puntos de categora de cada categora de diagnstico con el tiempo, los patrones sugieren automticamente que la primera dimensin est relacionada con el tiempo y la segunda, con el diagnstico, como se determin previamente en los grcos de las puntuaciones de los objetos. No obstante, este grco muestra tambin que, con el tiempo, las enfermedades tienden a parecerse ms. Adems, para todos los grupos, el progreso es mayor entre los puntos temporales 1 y 2; los pacientes anorxicos muestran algn progreso ms de 2 a 3, pero los dems grupos muestran poco progreso.

Desarrollo diferencial para las variables seleccionadas


Se seleccion una variable de cada grupo de sntomas identicado por las saturaciones en componentes como representativa del grupo. La variable comilonas excesivas se seleccion del grupo bulmico, la actitud sexual del grupo anorxico/psicosocial y la preocupacin por el cuerpo del tercer grupo.

178 Captulo 10

Para examinar los posibles transcursos diferenciales de la enfermedad, las proyecciones de Interaccin tiempo/diagnstico sobre Comilonas excesivas, Actitud sexual y Preocupacin por la comida y el peso se calcularon y representaron en la siguiente gura.
Figura 10-44 Centroides proyectados de Interaccin tiempo/diagnstico sobre Comilonas excesivas, Actitud sexual y Preocupacin por la comida y el peso

Este grco muestra que el primer punto temporal, el sntoma de comilonas excesivas diferencia a los pacientes bulmicos (2 y 3) de los dems (1 y 4); y la actitud sexual diferencia a los pacientes anorxicos y atpicos (1 y 4) de los dems (2 y 3); y la preocupacin por el cuerpo no diferencia realmente a los pacientes. En muchas aplicaciones, este grco bastara para describir la relacin entre los sntomas y el diagnstico, pero a causa de la complicacin de los diferentes puntos temporales, el dibujo tiene un aspecto complicado.

179 Anlisis de componentes principales categrico

Para ver estas proyecciones respecto al tiempo, es necesario poder representar el contenido de la tabla de centroides proyectados. Puede hacerse esto gracias a la solicitud del SGR que guard esta informacin en centroides_proyectados.sav.
Figura 10-45 Centroides_proyectados.sav

Las variables Comilonasexcesivas, Actitudsexual y Preocupacinporlacomidayelpeso contienen los valores de los centroides proyectados sobre cada uno de los sntomas de inters. El nmero de caso (de 1 a 16) corresponde a la interaccin tiempo/diagnstico. Deber calcular nuevas variables que diferencien los valores Tiempo y Diagnstico.
E Elija en los mens: Transformar > Calcular variable...

180 Captulo 10 Figura 10-46 Cuadro de dilogo Calcular variable

E Escriba time como variable de destino. E

Escriba trunc( ($casenum-1)/4 ) + 1 como expresin numrica.

E Pulse en Aceptar.

181 Anlisis de componentes principales categrico Figura 10-47 Cuadro de dilogo Calcular variable

E Vuelva a abrir el cuadro de dilogo Calcular variable. E Escriba diagnstico como variable de destino. E

Escriba mod($casenum-1, 4) + 1 como expresin numrica.

E Pulse en Aceptar.

182 Captulo 10 Figura 10-48 Centroides_proyectados.sav

En la Vista de variables, cambie la medida de diagnstico de Escala a Nominal.

183 Anlisis de componentes principales categrico Figura 10-49 Generador de grficos

E Por ltimo, para ver los centroides proyectados de tiempo de diagnstico sobre la comida excesiva respecto al tiempo, vuelva a Generador de grcos y pulse en Restablecer para borrar

las selecciones anteriores.


E Seleccione la galera Dispersin/Puntos y elija Dispersin Agrupado. E

Seleccione Centroides proyectados sobre Comilonas excesivas como variable y y time como variable x.

E Seleccione establecer los colores por diagnstico. E Pulse en Aceptar.

184 Captulo 10 Figura 10-50 Centroides proyectados de tiempo de diagnstico sobre las comilonas excesivas respecto al tiempo

E A continuacin, para conectar los puntos, pulse dos veces en el grco y pulse en la herramienta Aadir una lnea de interpolacin del Editor de grcos. E Cierre el Editor de grcos.

Respecto a las comilonas excesivas, resulta evidente que los grupos anorxicos tienen diferentes valores de inicio que los grupos bulmicos. Esta diferencia se reduce con el tiempo, ya que los grupos anorxicos apenas cambian, mientras que los grupos bulmicos muestran un progreso.

185 Anlisis de componentes principales categrico Figura 10-51 Generador de grficos

E Recupere el Generador de grcos. E Anule la seleccin de Centroides proyectados sobre Comilonas excesivas como variable y y

seleccione Centroides proyectados sobre Actitud sexual como variable y.


E Pulse en Aceptar.

186 Captulo 10 Figura 10-52 Centroides proyectados de tiempo de diagnstico sobre la actitud sexual respecto al tiempo

E A continuacin, para conectar los puntos, pulse dos veces en el grco y pulse en la herramienta Aadir una lnea de interpolacin del Editor de grcos. E Cierre el Editor de grcos.

Respecto a la actitud sexual, las cuatro trayectorias son ms o menos paralelas con el tiempo y todos los grupos muestran un progreso. Los grupos bulmicos, no obstante, tienen puntuaciones mayores (mejores) que el grupo anorxico.

187 Anlisis de componentes principales categrico Figura 10-53 Generador de grficos

E Recupere el Generador de grcos. E Anule la seleccin de Centroides proyectados sobre Actitud sexual como variable y y seleccione

Centroides proyectados sobre Preocupacin por la comida y el peso como variable y.


E Pulse en Aceptar.

188 Captulo 10 Figura 10-54 Centroides proyectados de tiempo de diagnstico sobre la preocupacin por el cuerpo respecto al tiempo

E A continuacin, para conectar los puntos, pulse dos veces en el grco y pulse en la herramienta Aadir una lnea de interpolacin del Editor de grcos. E Cierre el Editor de grcos.

La preocupacin por el cuerpo es una variable que representa los sntomas bsicos, los cuales los comparten los cuatro grupos diferentes. Adems de los pacientes de trastornos de la alimentacin atpicos, el grupo anorxico y los dos grupos bulmicos tienen niveles muy similares tanto al comienzo como al nal.

189 Anlisis de componentes principales categrico

Lecturas recomendadas
Consulte los siguientes textos si desea obtener ms informacin sobre el anlisis de componentes principales categrico: De Haas, M., J. A. Algera, H. F. J. M. Van Tuijl, y J. J. Meulman. 2000. Macro and micro goal setting: In search of coherence. Applied Psychology, 49, . De Leeuw, J. 1982. Nonlinear principal components analysis. En: COMPSTAT Proceedings in Computational Statistics, Viena: Physica Verlag. Eckart, C., y G. Young. 1936. The approximation of one matrix by another one of lower rank. Psychometrika, 1, . Gabriel, K. R. 1971. The biplot graphic display of matrices with application to principal components analysis. Biometrika, 58, . Gi, A. 1985. PRINCALS. Research Report UG-85-02. Leiden: Department of Data Theory, University of Leiden. Gower, J. C., y J. J. Meulman. 1993. The treatment of categorical information in physical anthropology. International Journal of Anthropology, 8, . Heiser, W. J., y J. J. Meulman. 1994. Homogeneity analysis: Exploring the distribution of variables and their nonlinear relationships. En: Correspondence Analysis in the Social Sciences: Recent Developments and Applications, M. Greenacre, y J. Blasius, eds. Nueva York: Academic Press. Kruskal, J. B. 1978. Factor analysis and principal components analysis: Bilinear methods. En: International Encyclopedia of Statistics, W. H. Kruskal, y J. M. Tanur, eds. Nueva York: The Free Press. Kruskal, J. B., y R. N. Shepard. 1974. A nonmetric variety of linear factor analysis. Psychometrika, 39, . Meulman, J. J. 1993. Principal coordinates analysis with optimal transformations of the variables: Minimizing the sum of squares of the smallest eigenvalues. British Journal of Mathematical and Statistical Psychology, 46, . Meulman, J. J., y P. Verboon. 1993. Points of view analysis revisited: Fitting multidimensional structures to optimal distance components with cluster restrictions on the variables. Psychometrika, 58, . Meulman, J. J., A. J. Van der Kooij, y A. Babinec. 2000. New features of categorical principal components analysis for complicated data sets, including data mining. En: Classication, Automation and New Media, W. Gaul, y G. Ritter, eds. Berln: Springer-Verlag. Meulman, J. J., A. J. Van der Kooij, y W. J. Heiser. 2004. Principal components analysis with nonlinear optimal scaling transformations for ordinal and nominal data. En: Handbook of Quantitative Methodology for the Social Sciences, D. Kaplan, ed. Thousand Oaks, Calif.: Sage Publications, Inc.. Theunissen, N. C. M., J. J. Meulman, A. L. Den Ouden, H. M. Koopman, G. H. Verrips, S. P. Verloove-Vanhorick, y J. M. Wit. 2003. Changes can be studied when the measurement instrument is different at different time points. Health Services and Outcomes Research Methodology, 4, .

190 Captulo 10

Tucker, L. R. 1960. Intra-individual and inter-individual multidimensionality. En: Psychological Scaling: Theory & Applications, H. Gulliksen, y S. Messick, eds. Nueva York: John Wiley and Sons. Vlek, C., y P. J. Stallen. 1981. Judging risks and benets in the small and in the large. Organizational Behavior and Human Performance, 28, . Wagenaar, W. A. 1988. Paradoxes of gambling behaviour. Londres: Lawrence Erlbaum Associates, Inc. Young, F. W., Y. Takane, y J. De Leeuw. 1978. The principal components of mixed measurement level multivariate data: An alternating least squares method with optimal scaling features. Psychometrika, 43, . Zeijl, E., Y. te Poel, M. du Bois-Reymond, J. Ravesloot, y J. J. Meulman. 2000. The role of parents and peers in the leisure activities of young adolescents. Journal of Leisure Research, 32, .

Anlisis de correlacin cannica no lineal

11

Captulo

El propsito del anlisis de correlacin cannica no lineal es determinar el parecido entre dos o ms conjuntos de variables. Al igual que en el anlisis de correlacin cannica no lineal, el propsito es explicar al mximo la varianza de las relaciones entre los conjuntos en un espacio de pocas dimensiones. Sin embargo, a diferencia del anlisis de correlacin cannica lineal, el anlisis de correlacin cannica no lineal no supone que haya un nivel de intervalo de medida o que las relaciones sean lineales. Otra diferencia importante es que el anlisis de correlacin cannica no lineal establece la similitud entre los conjuntos mediante la comparacin simultnea de las combinaciones lineales de las variables en cada conjunto con un conjunto desconocido, es decir, las puntuaciones del objeto.

Ejemplo: Un anlisis de los resultados de una encuesta


El ejemplo que se explica en este captulo est tomado de una encuesta (Verdegaal, 1985). Se han registrado las respuestas de 15 sujetos a 8 variables. En la siguiente tabla se muestran las variables, las etiquetas de las variables y las etiquetas de valor (categoras) del conjunto de datos.
Tabla 11-1 Datos de la encuesta

Nombre de variable edad

Etiqueta de variable Edad en aos

Etiqueta de valor 2025, 2630, 3135, 3640, 4145, 4650, 5155, 5660, 6165, 6670 Soltero, casado, otro No, gato(s), perro(s), otro (distinto de gato o perro), varios animales domsticos Ninguno, Telegraaf, Volkskrant, NRC, Otro Clsica, moderna, popular, variada, no le interesa la msica Ciudad, pueblo, campo 05, 610, 1115 05, 610, 1115, 1620

ecivil mascota

Estado civil Mascotas que posee

noticia msica vivir matem lengua

Peridico ledo con mayor frecuencia Msica preferida Vecindario preferido Puntuacin prueba matemticas Puntuacin prueba lengua

Copyright SPSS Inc. 1989, 2010

191

192 Captulo 11

Este conjunto de datos se puede encontrar en verd1985.sav. Si desea obtener ms informacin, consulte el tema Archivos muestrales en el apndice A en IBM SPSS Categories 19. Las variables de inters son las primeras seis y se dividen en tres conjuntos. El conjunto 1 incluye edad y ecivil, el conjunto 2 incluye mascota y noticia, mientras que el conjunto 3 incluye msica y vivir. Se escala mascota como nominal mltiple y edad como ordinal; todas las dems variables se escalan como nominal simple. Este tipo de anlisis solicita una conguracin inicial aleatoria. Por defecto, la conguracin inicial es numrica. Sin embargo, cuando alguna de las variables se trata como nominal simple sin posibilidad de clasicacin, lo mejor es escoger una conguracin inicial aleatoria. Esto sucede con la mayora de las variables de este estudio.

Examen de los datos


E Para conseguir un anlisis de correlacin cannica no lineal para este conjunto de datos, elija en

los mens:
Analizar > Reduccin de dimensiones > Escalamiento ptimo... Figura 11-1 Cuadro de dilogo Escalamiento ptimo

E Seleccione Alguna variable no es nominal mltiple en el grupo Nivel para escalamiento ptimo. E Seleccione Mltiples conjuntos en el grupo Nmero de conjuntos de variables. E Pulse en Definir.

193 Anlisis de correlacin cannica no lineal Figura 11-2 Cuadro de dilogo Anlisis de correlacin cannica no lineal

E Seleccione como variables Edad en aos y Estado civil para el primer conjunto. E Seleccione edad y pulse en Definir rango y escala. Figura 11-3 Cuadro de dilogo Definir rango y escala

E Escriba 10 como valor mximo para esta variable. E Pulse en Continuar. E En el cuadro de dilogo Anlisis de correlacin cannica no lineal, seleccione ecivil y pulse en Definir rango y escala.

194 Captulo 11 Figura 11-4 Cuadro de dilogo Definir rango y escala

E Escriba 3 como valor mximo para esta variable. E Seleccione como escala de la medida Nominal simple. E Pulse en Continuar. E En el cuadro de dilogo Anlisis de correlacin cannica no lineal, pulse en Siguiente para denir

el siguiente conjunto de variables.


Figura 11-5 Cuadro de dilogo Anlisis de correlacin cannica no lineal

E Seleccione Mascotas que posee y Peridico ledo con mayor frecuencia como variables para

el segundo conjunto.
E Seleccione mascota y pulse en Definir rango y escala.

195 Anlisis de correlacin cannica no lineal Figura 11-6 Cuadro de dilogo Definir rango y escala

E Escriba 5 como valor mximo para esta variable. E Seleccione como escala de la medida Nominal mltiple. E Pulse en Continuar. E En el cuadro de dilogo Anlisis de correlacin cannica no lineal, seleccione noticia y pulse en Definir rango y escala. Figura 11-7 Cuadro de dilogo Definir rango y escala

E Escriba 5 como valor mximo para esta variable. E Seleccione como escala de la medida Nominal simple. E Pulse en Continuar. E En el cuadro de dilogo Anlisis de correlacin cannica no lineal, pulse en Siguiente para denir

el ltimo conjunto de variables.

196 Captulo 11 Figura 11-8 Cuadro de dilogo Anlisis de correlacin cannica no lineal

E Seleccione Msica preferida y Vecindario preferido como variables para el tercer conjunto. E Seleccione msica y pulse en Definir rango y escala. Figura 11-9 Cuadro de dilogo Definir rango y escala

E Escriba 5 como valor mximo para esta variable. E Seleccione como escala de la medida Nominal simple. E Pulse en Continuar. E En el cuadro de dilogo Anlisis de correlacin cannica no lineal, seleccione vivir y pulse en Definir rango y escala.

197 Anlisis de correlacin cannica no lineal Figura 11-10 Cuadro de dilogo Definir rango y escala

E Escriba 3 como valor mximo para esta variable. E Seleccione como escala de la medida Nominal simple. E Pulse en Continuar. E En el cuadro de dilogo Anlisis de correlacin cannica no lineal, pulse en Opciones. Figura 11-11 Cuadro de dilogo Opciones

E Anule la seleccin Centroides y seleccione Ponderaciones y saturaciones en componentes en el

grupo Mostrar.
E Seleccione Centroides de categoras y Transformaciones en el grupo Grco. E Seleccione Usar configuracin inicial aleatoria. E Pulse en Continuar. E En el cuadro de dilogo Anlisis de correlacin cannica no lineal, pulse en Aceptar.

198 Captulo 11

Despus de generar una lista de variables con sus niveles de escalamiento ptimo, el anlisis de correlacin cannica categrico con escalamiento ptimo genera una tabla que muestra las frecuencias de objetos en las categoras. Esta tabla es especialmente importante si hay datos perdidos, ya que es ms probable que las categoras casi vacas dominen la solucin. En este ejemplo, no hay datos perdidos. Se realiza una segunda comprobacin para examinar el grco de puntuaciones de objeto para los valores atpicos. Los valores atpicos tienen una cantidad de cuanticaciones tan diferentes del resto de objetos que se encontrarn en los lmites del grco, por lo que van a dominar una o varias dimensiones. Si se encuentran valores atpicos, es posible gestionarlos de dos formas diferentes. Puede simplemente eliminarlos de los datos y ejecutar el anlisis de correlacin cannica no lineal de nuevo. Tambin puede intentar recodicar las respuestas extremas de los objetos con valores atpicos si agrupa (fusiona) algunas categoras. Como se muestra en el grco de puntuaciones de los objetos, no haba valores atpicos para los datos de la encuesta.
Figura 11-12 Puntuaciones de los objetos

Explicacin de la similitud entre los conjuntos


Hay varias formas de medir la asociacin entre los conjuntos de un anlisis de correlacin cannica no lineal (cada uno de los cuales se detalla en una tabla diferente o conjunto de tablas).

199 Anlisis de correlacin cannica no lineal

Resumen de anlisis
Los valores ajustados y perdidos indican la ecacia del ajuste de la solucin del anlisis de correlacin cannica no lineal a los datos ptimos cuanticados con respecto a la asociacin entre los conjuntos. El resumen de la tabla de anlisis muestra el valor ajustado, los valores perdidos y los autovalores para el ejemplo de la encuesta.
Figura 11-13 Resumen del anlisis

Se divide la prdida por las dimensiones y conjuntos. Para cada dimensin y conjunto, la prdida representa la proporcin de variacin en las puntuaciones de objeto que no puede explicarse mediante la combinacin ponderada de las variables del conjunto. La prdida media es la Mediana etiquetada. En este ejemplo, la prdida media sobre los conjuntos es de 0,464. Observe que hay ms prdida en la segunda dimensin que en la primera dimensin. El autovalor para cada dimensin es igual a 1 menos la prdida media para la dimensin. Dicho autovalor indica la parte de relacin que se muestra mediante cada dimensin. Los autovalores se aaden hasta el ajuste total. Para los datos de Verdegaal, 0,801/1,536 = 52% del ajuste real se explica mediante la primera dimensin. El mximo valor ajustado es igual al nmero de dimensiones y, si se logra, indica que la relacin es perfecta. El valor de prdida medio sobre los conjuntos y las dimensiones le indica la diferencia entre el ajuste mximo y el real. El ajuste ms la prdida media es igual al nmero de dimensiones. Es extrao que aparezca una perfecta similitud y normalmente saca provecho a los aspectos triviales en los datos. Otro estadstico popular con dos conjuntos de variables es la correlacin cannica. Ya que la correlacin cannica est relacionada con el autovalor y no proporciona informacin adicional, no est incluida en el resultado del anlisis de correlacin cannica no lineal. Para dos conjuntos de variables, la correlacin cannica por dimensin se obtiene mediante la siguiente frmula:

donde d es el nmero de dimensin y E es el autovalor. Puede generalizar la correlacin cannica para ms de dos conjuntos con la siguiente frmula:

200 Captulo 11

donde d es el nmero de dimensin, K es el nmero de conjuntos y E es el autovalor. Para nuestro ejemplo:

Ponderaciones y saturaciones en componentes


Otra medida de asociacin es la correlacin mltiple entre las combinaciones lineales de cada conjunto y puntuaciones de los objetos. Si no hay variables nominales mltiples en un conjunto, puede calcular esta medida multiplicando la ponderacin y la saturacin en componentes de cada variable dentro del conjunto, aadiendo estos productos y calculando la raz cuadrada de la suma.
Figura 11-14 Ponderaciones

Figura 11-15 Saturaciones en componentes

201 Anlisis de correlacin cannica no lineal

Estas cifras dan las ponderaciones y saturaciones en componentes para las variables de este ejemplo. La correlacin mltiple (R) es la siguiente para la primera suma ponderada de variables escaladas de manera ptima (Edad en aos y Estado civil) con la primera dimensin de las puntuaciones de los objetos:

Para cada dimensin, 1 prdida = R2. Por ejemplo, del resumen de la tabla de anlisis, 1 0,238 = 0,762, que es 0,873 cuadrado (ms el probable error de redondeo). En consecuencia, los pequeos valores de prdida indican grandes correlaciones mltiples entre sumas ponderadas de variables escaladas de manera ptima y las dimensiones. Las ponderaciones no son nicas para las variables nominales mltiples. Para las variables nominales mltiples, utilice 1 prdida por conjunto.

Particin del ajuste y la prdida


La prdida de cada conjunto se divide por el anlisis de correlacin cannica no lineal de muchas formas. La tabla de ajuste presenta el ajuste mltiple, el ajuste simple y las tablas de prdida simple generadas mediante el anlisis de correlacin cannica no lineal para el ejemplo de la encuesta. Observe que el ajuste mltiple menos el ajuste simple es igual a la prdida simple.
Figura 11-16 Particin del ajuste y la prdida

La prdida simple indica la prdida que se obtiene de restringir las variables a un conjunto de cuanticaciones (es decir, nominal simple, ordinal o nominal). Si una prdida simple es grande, es mejor tratar las variables como nominales mltiples. Sin embargo, en este ejemplo, el ajuste simple y el mltiple son casi iguales, lo que signica que las coordenadas mltiples estn casi en una lnea recta en la direccin marcada por las ponderaciones. El ajuste mltiple es igual a la varianza de las coordenadas de la categora mltiple para cada variable. Estas medidas son anlogas a las medidas de discriminacin que se encuentran en el anlisis de homogeneidad. Es posible examinar la tabla de ajuste mltiple para ver las variables que discriminan mejor. Por ejemplo, observe la tabla de ajuste mltiple para Estado civil y Peridico ledo con mayor frecuencia. Los valores ajustados, sumados a lo largo de las

202 Captulo 11

dos dimensiones, son 1,122 para Estado civil y 0,911 para Peridico ledo con mayor frecuencia. Esta informacin nos indica que el estado civil de una persona proporciona mayor fuerza discriminatoria que el peridico al que est suscrita. El ajuste simple se corresponde con la ponderacin cuadrada para cada variable y es igual a la varianza de las coordenadas de las categoras simples. Como resultado, las ponderaciones son igual a las desviaciones tpicas de las coordenadas de las categoras simples. Si se examina cmo se desglosa el ajuste simple a lo largo de las dimensiones, observamos que la variable Peridico ledo con mayor frecuencia discrimina mayoritariamente en la primera dimensin y tambin vemos que la variable Estado civil discrimina casi totalmente en la segunda dimensin. Dicho de otro modo, las categoras de Peridico ledo con mayor frecuencia se encuentran ms alejadas en la primera dimensin que en la segunda, mientras que el patrn se invierte para Estado civil. Por el contrario, Edad en aos discrimina tanto en la primera como en la segunda dimensin, por lo que la dispersin de las categoras es igual a lo largo de las dos dimensiones.

Saturaciones en componentes
La siguiente gura muestra el grco de las saturaciones en componentes para los datos obtenidos en la encuesta. Si no existen datos perdidos, las saturaciones en componentes equivalen a las correlaciones de Pearson entre las variables cuanticadas y las puntuaciones de los objetos. La distancia desde el origen a cada punto de variable se aproxima a la importancia de esa variable. Las variables cannicas no estn representadas, pero pueden representarse mediante lneas horizontales y verticales trazadas por el origen.
Figura 11-17 Saturaciones en componentes

Las relaciones entre las variables son aparentes. Hay dos direcciones que no coinciden con los ejes horizontales y verticales. Una direccin se determina mediante Edad en aos, Peridico ledo con mayor frecuencia y Vecindario preferido. La otra direccin se dene mediante las variables

203 Anlisis de correlacin cannica no lineal

Estado civil, Msica preferida y Mascotas que posee. La variable Mascotas que posee es una variable nominal mltiple, por lo que hay dos puntos representados para ella. Cada cuanticacin se interpreta como una variable simple.

Grficos de transformacin
Los diferentes niveles en los que se puede escalar cada variable imponen restricciones sobre las cuanticaciones. Los grcos de transformacin ilustran la relacin entre las cuanticaciones y las categoras originales que resultan del nivel de escalamiento ptimo seleccionado. El grco de transformacin para Vecindario preferido, que se haba tratado como nominal, muestra un patrn en forma de U, en el que la categora intermedia recibe la cuanticacin menor y las categoras extremas reciben valores que son similares entre s. Este patrn indica una relacin cuadrtica entre la variable original y la transformada. No se sugiere utilizar un nivel de escalamiento ptimo alternativo para Vecindario preferido.
Figura 11-18 Grfico de transformacin para la variable Situacin preferida de la vivienda (nominal)

Las cuanticaciones para Peridico ledo con mayor frecuencia, por el contrario, corresponden con una tendencia ascendente a lo largo de las tres categoras que tienen casos observados. La primera categora recibe la menor cuanticacin, la segunda recibe un mayor valor y la tercera

204 Captulo 11

recibe el mayor de todos. A pesar de que la variable se escala como nominal, el orden de la categora se recupera en las cuanticaciones.
Figura 11-19 El grfico de transformacin para Peridico ledo con mayor frecuencia (nominal)

Figura 11-20 Grfico de transformacin para Edad en aos (ordinal)

El grco de transformacin para Edad en aos muestra una curva en forma de S. Las cuatro categoras ms jvenes observadas reciben la misma cuanticacin negativa, mientras que las dos de mayor edad reciben iguales valores positivos. Por consiguiente, puede intentar agrupar las edades ms jvenes en una categora comn (es decir, menos de 50) y agrupar las categoras de

205 Anlisis de correlacin cannica no lineal

mayor edad en otra categora. Sin embargo, la exacta igualdad de las cuanticaciones para los grupos ms jvenes indica que puede no ser adecuado restringir el orden de las cuanticaciones al orden de las categoras originales. Ya que las cuanticaciones para los grupos 2630, 3640 y 4145 no pueden ser menores que la cuanticacin para el grupo 2025, se establecen estos valores como iguales al valor para el lmite. Es posible que el ajuste se mejore si permite que estos valores sean ms pequeos que la cuanticacin para el grupo de menor edad (es decir, tratando la edad como nominal). Por lo tanto, aunque la edad puede considerarse una variable ordinal, tratarla como tal no parece apropiado en este caso. Adems, si se trata la edad como numrica, y, con ello, se mantienen las distancias entre las categoras, se reducir el ajuste de manera sustancial.

Coordenadas de categora simples frente a categoras mltiples


Para cada variable tratada como nominal simple, ordinal o numrica, se determinan las cuanticaciones, las coordenadas de las categoras simples y las coordenadas de categora mltiples. Se presentan estos estadsticos para Edad en aos.
Figura 11-21 Coordenadas para Edad en aos

Cada categora para la que no se registraron casos recibe una cuanticacin de 0. Para Edad en aos, sta incluye las categoras 3135, 4650 y 5155. No se restringen estas categoras para que se ordenen con el resto de categoras y no afectan a los clculos. Para las variables nominales mltiples, cada categora recibe una cuanticacin diferente en cada dimensin. Para el resto de tipos de transformacin, una categora tiene slo una cuanticacin, sin importar la dimensionalidad de la solucin. Cada conjunto de coordenadas de una categora simple representa la ubicacin de dicha categora en una lnea del espacio del objeto. Las coordenadas de una determinada categora corresponden a la cuanticacin multiplicada por las ponderaciones de dimensin de la variable. Por ejemplo, en la tabla para Edad en aos, las coordenadas de las categoras simples para la categora 56-60 (-0,142, -0,165) son la cuanticacin (-0,209) multiplicada por las ponderaciones de dimensin (0,680, 0,789). Las coordenadas de las categoras mltiples para las variables que se tratan como nominales simples, ordinales o numricas representan las coordenadas de las categoras en el espacio del objeto antes de aplicar las restricciones ordinales o lineales. Estos valores son minimizadores sin

206 Captulo 11

restringir de la prdida. Para las variables nominales mltiples, estas coordenadas representan las cuanticaciones de las categoras. Se revelan los efectos de imponer restricciones en la relacin entre las categoras y sus cuanticaciones mediante la comparacin de las coordenadas de las categoras simples con las coordenadas de las categoras mltiples. En la primera dimensin, las coordenadas de las categoras mltiples para Edad en aos disminuyen hasta la categora 2 y permanecen relativamente en el mismo nivel hasta que la categora 9, punto en el que se produce un incremento drstico. Se muestra un patrn similar para la segunda dimensin. Se eliminan estas relaciones de las coordenadas de las categoras simples, en las que se aplica la restriccin ordinal. En ambas dimensiones, las coordenadas son ahora no decrecientes. La estructura diferente de los dos conjuntos de coordenadas sugiere que puede ser ms adecuado un tratamiento nominal.

Centroides y centroides proyectados


El grco de los centroides etiquetados mediante las variables deberan interpretarse de la misma forma que el grco de las cuanticaciones de las categoras en el anlisis de homogeneidad o coordenadas de las categoras mltiples en el anlisis de componentes principales no lineal. Por si mismo, dicho grco muestra la ecacia con la que las variables separan grupos de objetos (los centroides estn en el centro de gravedad de los objetos). Observe que las categoras para Edad en aos no estn separadas de manera muy clara. Las categoras de menor edad se agrupan juntas en la parte izquierda del grco. Como se ha sugerido con anterioridad, el ordinal puede ser un nivel de escalamiento demasiado estricto para imponerse a Edad en aos.
Figura 11-22 Centroides etiquetados por las variables

207 Anlisis de correlacin cannica no lineal

Al solicitar los grcos de los centroides, tambin se generan el centroide individual y los grcos de centroides proyectados para cada variable que se etiqueta mediante las etiquetas de valor. Los centroides proyectados se encuentran sobre una lnea en el espacio del objeto.
Figura 11-23 Centroides y centroides proyectados para Peridico que lee generalmente

Los centroides reales se proyectan en los vectores que se denen mediante las saturaciones en componentes. Estos vectores se han aadido a los grcos de los centroides para ayudar a distinguir los centroides proyectados de los centroides reales. Los centroides proyectados se encuentran dentro de uno de cuatro cuadrantes formados por la extensin de dos lneas de referencia perpendiculares que pasan por el origen. Se obtiene la interpretacin de la direccin de las variables nominales simples, ordinales o numricas desde la posicin de los centroides proyectados. Por ejemplo, la variable Peridico ledo con mayor frecuencia se especica como una variable nominal simple. Los centroides proyectados muestran que Volkskrant y NRC se contrastan con Telegraaf.

208 Captulo 11 Figura 11-24 Los centroides y los centroides proyectados para la variable Edad en aos

El problema con Edad en aos es evidente de los centroides proyectados. Tratar Edad en aos como ordinal implica que ha de conservarse el orden de los grupos de edad. Para satisfacer esta restriccin, se proyectan todos los grupos de edad por debajo de 45 en el mismo punto. A lo largo de la direccin denida mediante Edad en aos, Peridico ledo con mayor frecuencia y Vecindario preferido, no hay separacin de los grupos de edad menores. Este descubrimiento sugiere tratar la variable como nominal.
Figura 11-25 Los centroides y los centroides proyectados para Situacin preferida de la vivienda

Para comprender las relaciones entre las variables, averige lo que son las categoras especcas (valores) para los conglomerados de categoras en los grcos de los centroides. Las relaciones entre Edad en aos, Peridico ledo con mayor frecuencia y Vecindario preferido pueden

209 Anlisis de correlacin cannica no lineal

describirse si miramos la parte superior derecha e inferior izquierda de los grcos. En la parte superior derecha, los grupos de edad son los encuestados de mayor edad que leen el Telegraaf y preeren vivir en un pueblo. Si observa la esquina inferior izquierda de cada grco, ver que los encuestados jvenes y personas de mediana edad leen Volkskrant o NRC y quieren vivir en el campo o en la ciudad. Sin embargo, separar los grupos ms jvenes es muy difcil. Pueden realizarse los mismos tipos de interpretaciones sobre otra direccin (Msica preferida, Estado civil y Mascotas que posee) si nos centramos en la parte superior izquierda y la parte inferior derecha de los grcos de los centroides. En la esquina superior izquierda, observamos que los solteros tienen perros y les gusta la msica moderna. Los casados y otras categoras para ecivil tienen gatos; el grupo anterior preere la msica clsica y al ltimo grupo no le gusta la msica.

Un anlisis alternativo
Los resultados del anlisis sugieren que tratar Edad en aos como ordinal no parece adecuado. Aunque Edad en aos se mide en un nivel ordinal, sus relaciones con otras variables no son monotnicas. Para investigar los efectos de cambiar el nivel de escalamiento ptimo por nominal simple, puede ejecutar de nuevo el anlisis.

Para ejecutar el anlisis


E Vuelva al cuadro de dilogo Anlisis de correlacin cannica no lineal y vaya al primer conjunto. E Seleccione edad y pulse en Definir rango y escala. E En el cuadro de dilogo Denir rango y escala, seleccione Nominal simple como rango del

escalamiento.
E Pulse en Continuar. E En el cuadro de dilogo Anlisis de correlacin cannica no lineal, pulse en Aceptar.

Los autovalores para una solucin bidimensional son 0,806 y 0,757, respectivamente, con un ajuste total de 1,564.
Figura 11-26 Los autovalores para la solucin bidimensional

Las tablas de ajuste mltiple y ajuste simple muestran que Edad en aos sigue siendo una variable de gran potencia discriminatoria, como se evidencia mediante la suma de los valores ajustados mltiple. Sin embargo, en oposicin a los resultados anteriores, un examen de los

210 Captulo 11

valores ajustados simple revela que la discriminacin se encuentra casi enteramente a lo largo de la segunda dimensin.
Figura 11-27 Particin del ajuste y la prdida

Convierta el grco de transformacin para Edad en aos. Las cuanticaciones para una variable nominal no estn restringidas, por lo que la tendencia no decreciente que se ha mostrado cuando Edad en aos se ha tratado de forma ordinal ya no est presente. Hay una tendencia decreciente hasta la edad de 40 y una ascendente de ah en adelante, que se corresponde con una relacin en forma de U (cuadrtica). Las dos categoras de mayor edad siguen recibiendo puntuaciones similares, y el anlisis siguiente puede implicar combinar estas categoras.
Figura 11-28 Grfico de transformacin para Edad en aos (nominal)

211 Anlisis de correlacin cannica no lineal

El grco de transformacin para Vecindario preferido se muestra aqu. Tratar Edad en aos como nominal no afecta a las cuanticaciones para Vecindario preferido para cualquier grado signicativo. La categora intermedia recibe la cuanticacin ms pequea, mientras que las categoras extremas reciben valores positivos grandes.
Figura 11-29 Grfico de transformacin para la variable Vecindario preferido (edad nominal)

212 Captulo 11

Se encontr un cambio en el grco de transformacin para Peridico ledo con mayor frecuencia. Anteriormente, una tendencia ascendente estaba presente en las cuanticaciones, lo que posiblemente sugiera un tratamiento ordinal para esta variable. Sin embargo, tratar Edad en aos como nominal elimina esta tendencia de las cuanticaciones de noticia.
Figura 11-30 El grfico de transformacin para Peridico que lee generalmente (edad nominal)

213 Anlisis de correlacin cannica no lineal

Este grco es el grco del centroide para Edad en aos. Observe que las categoras no se disponen en orden cronolgico a lo largo de la lnea que une los centroides proyectados. El grupo 2025 est situado en medio en lugar de al nal. La dispersin de las categoras mejora de manera notable en comparacin con el ordinal correspondiente que se present anteriormente.
Figura 11-31 Los centroides y los centroides proyectados para la variable Edad en aos (nominal)

La interpretacin de los grupos de menor de edad es actualmente posible gracias al grco del centroide. Las categoras Volkskrant y NRC se encuentran tambin ms alejadas que en el anlisis anterior, lo que permite interpretaciones diferentes de cada uno de ellos. Los grupos entre las edades de 26 y 45 leen el Volkskrant y preeren vivir en el campo. Los grupos de edad de 2025 y 5660 leen el NRC. El primer grupo preere vivir en la ciudad, mientras que el ltimo preere vivir en el campo. Los grupos de mayor edad leen el Telegraaf y preeren vivir en un pueblo.

214 Captulo 11

La interpretacin de la otra direccin (Msica preferida, Estado civil y Mascotas que posee) no ha cambiado sustancialmente con respecto al anlisis anterior. La nica diferencia obvia es que la gente con un estado civil de los incluidos en el grupo Otro tienen gatos o no poseen mascotas en absoluto.
Figura 11-32 Centroides etiquetados por las variables (edad nominal)

Sugerencias generales
Tras examinar los resultados iniciales, es posible que desee ajustar el anlisis cambiando algunas especicaciones para el anlisis de correlacin cannica no lineal. A continuacin mostramos algunos consejos para estructurar el anlisis:

Cree tantos conjuntos como sea posible. Coloque una variable importante que desee predecir en un conjunto diferente que contenga nicamente dicha variable. Ponga las variables que considere predictores juntas en un nico conjunto. Si hay muchos predictores, intente dividirlos en varios conjuntos. Coloque la variable nominal mltiple en un conjunto diferente que la contenga slo a ella. Si las variables estn muy correlacionadas entre s y no desea que esta relacin domine la solucin, coloque dichas variables juntas en el mismo conjunto.

215 Anlisis de correlacin cannica no lineal

Lecturas recomendadas
Si desea obtener ms informacin sobre el anlisis de correlacin cannica no lineal: Carroll, J. D. 1968. Generalization of canonical correlation analysis to three or more sets of variables. En: Proceedings of the 76th Annual Convention of the American Psychological Association, 3, Washington, D.C.: American Psychological Association. De Leeuw, J. 1984. Canonical analysis of categorical data, 2nd ed. Leiden: DSWO Press. Horst, P. 1961. Generalized canonical correlations and their applications to experimental data. Journal of Clinical Psychology, 17, . Horst, P. 1961. Relations among m sets of measures. Psychometrika, 26, . Kettenring, J. R. 1971. Canonical analysis of several sets of variables. Biometrika, 58, . Van der Burg, E. 1988. Nonlinear canonical correlation and some related techniques. Leiden: DSWO Press. Van der Burg, E., y J. De Leeuw. 1983. Nonlinear canonical correlation. British Journal of Mathematical and Statistical Psychology, 36, . Van der Burg, E., J. De Leeuw, y R. Verdegaal. 1988. Homogeneity analysis with k sets of variables: An alternating least squares method with optimal scaling features. Psychometrika, 53, . Verboon, P., y I. A. Van der Lans. 1994. Robust canonical discriminant analysis. Psychometrika, 59, .

Anlisis de correspondencias

12

Captulo

Correspondence analysis
Una tabla de correspondencias es una tabla de doble clasicacin cuyas casillas contienen alguna medida de correspondencia entre las las y las columnas. La medida de correspondencia puede ser cualquier indicacin de la similaridad, anidad, confusin, asociacin o interaccin entre las variables de la y de columna. Un tipo muy habitual de tabla de correspondencias es una tabla de contingencia, en la que las casillas contienen las frecuencias. Estas tablas se pueden obtener con facilidad mediante el procedimiento Tablas de contingencia. Sin embargo, una tabla de contingencia no proporciona siempre una imagen clara de la naturaleza de la relacin entre las dos variables. As ocurre especialmente si las variables de inters son nominales (sin ningn orden o rango inherente) y contienen numerosas categoras. Las tablas de contingencia pueden indicarle que las frecuencias observadas de las casillas dieren de ocupacin y considerablemente de los valores esperados en una tabla de contingencia de desayuna cereales, pero puede ser difcil determinar qu grupos de ocupaciones tienen gustos similares o cules son estos gustos. El anlisis de correspondencias permite examinar la relacin entre dos variables nominales de manera grca en un espacio multidimensional. Se calculan las puntuaciones de la y de columna y se generan los grcos basados en las puntuaciones. Las categoras que son similares entre s aparecen juntas en los grcos. De esta manera, es fcil ver las categoras de una variable que son similares entre s o las categoras de las dos variables que estn relacionadas. El procedimiento Anlisis de correspondencias tambin permite ajustar puntos suplementarios en el espacio denido por los puntos activos. Si el orden de las categoras de acuerdo con sus puntuaciones no es deseable o se opone a la intuicin, se pueden imponer restricciones de orden imponiendo que sean iguales las puntuaciones de algunas categoras. Por ejemplo, supongamos que espera que la variable consumo de tabaco cuyas categoras son ninguno, bajo, medio y alto tengan puntuaciones que correspondan a este orden. Sin embargo, si el anlisis ordena las categoras como ninguno, bajo, alto y medio, si obliga a que las puntuaciones de alto y medio sean iguales, se conserva el orden de las categoras en sus puntuaciones. La interpretacin del anlisis de correspondencias en trminos de distancias depende del mtodo de normalizacin utilizado. El procedimiento Anlisis de correspondencias se puede utilizar para analizar tanto las diferencias entre las categoras de una variable como las diferencias entre las variables. Con la normalizacin por defecto, se analizan las diferencias entre las variables de la y de columna. El algoritmo de anlisis de correspondencias puede realizar muchos tipos de anlisis. El centrado de las las y las columnas y el uso de distancias chi-cuadrado corresponden al anlisis de correspondencias tpico. Sin embargo, el uso de las opciones de centrado alternativo combinado
Copyright SPSS Inc. 1989, 2010 216

217 Anlisis de correspondencias

con las distancias eucldeas permite obtener una representacin alternativa de una matriz en un espacio de pocas dimensiones. A continuacin, veremos tres ejemplos. El primero utiliza una tabla de correspondencias relativamente pequea para ilustrar los conceptos inherentes al anlisis de correspondencias. El segundo ejemplo muestra una aplicacin prctica de marketing. El ltimo ejemplo utiliza una tabla de distancias en una aproximacin con escalamiento multidimensional.

Normalizacin
La normalizacin se utiliza para distribuir la inercia sobre las puntuaciones de la y de columna. Algunos aspectos de la solucin de anlisis de correspondencias, como los valores propios, la inercia por dimensin y las contribuciones, no cambian con las diferentes normalizaciones. Las puntuaciones de la y de columna y sus varianzas si se ven afectadas. El anlisis de correspondencias tiene varias maneras de distribuir la inercia. Las tres ms habituales incluyen la distribucin de la inercia nicamente sobre las puntuaciones de la, la distribucin de la inercia nicamente sobre las puntuaciones de columna y la distribucin de la inercia simtricamente sobre las puntuaciones de la como de columna.
Principal por fila. En la normalizacin principal por la, las distancias eucldeas entre los puntos

de la aproximan las distancias chi-cuadrado entre las las de la tabla de correspondencias. Las puntuaciones de la son la media ponderada de las puntuaciones de columna. Las puntuaciones de columna se tipican para tener una suma ponderada de los cuadrados de las distancias al centroide de 1. Como este mtodo maximiza las distancias entre las categoras de la, debe utilizar la normalizacin principal por la si est interesado principalmente en ver cmo dieren entre s las categoras de la variable de la.
Principal por columna. Por otra parte, es posible que quiera aproximar las distancias chi-cuadrado entre las columnas de la tabla de correspondencias. En este caso, las puntuaciones de columna deben ser la media ponderada de las puntuaciones de la. Las puntuaciones de la se tipican para tener una suma ponderada de cuadrados de las distancias al centroide de 1. Este mtodo maximiza las distancias entre las categoras de columna y se debe utilizar si est interesado principalmente en ver cmo dieren entre s las categoras de la variable de columna. Simtrico. Tambin puede tratar a las las y las columnas de manera simtrica. Esta normalizacin

distribuye la inercia de manera idntica sobre las puntuaciones de la y de columna. Observe que ni las distancias entre los puntos de la ni las distancias entre los puntos de columna son aproximaciones de las distancias chi-cuadrado en este caso. Utilice este mtodo si est interesado principalmente en las diferencias y las similaridades entre las dos variables. Normalmente, ste es el mtodo preferido para hacer los diagramas de dispersin biespaciales.
Principal. Una cuarta opcin se denomina normalizacin principal, en la que la inercia se

distribuye dos veces sobre la solucin, una vez sobre las puntuaciones de la y una vez sobre las puntuaciones de columna. Debe utilizar este mtodo si le interesan las distancias entre los puntos de la y las distancias entre los puntos de columna por separado, pero no en cmo estn relacionados entre s los puntos de la y de columna. Los diagramas de dispersin biespacial no son apropiados para esta opcin de normalizacin y, por tanto, no estn disponibles si se ha especicado el mtodo de normalizacin principal.

218 Captulo 12

Ejemplo: Percepciones de marcas de caf


El ejemplo anterior implicaba una tabla pequea de datos hipotticos. Las aplicaciones reales con frecuencia implican tablas de tamao mucho mayor. En este ejemplo, utilizaremos los datos pertenecientes a las imgenes percibidas de seis marcas de caf helado (Kennedy, Riquier, y Sharp, 1996) . Este conjunto de datos se puede encontrar en coffee.sav. Si desea obtener ms informacin, consulte el tema Archivos muestrales en el apndice A en IBM SPSS Categories 19. Para cada uno de los 23 atributos de imagen de caf helado, los encuestados seleccionaron todas las marcas que quedaban descritas por el atributo. Las seis marcas se denotan AA, BB, CC, DD, EE y FF para mantener la condencialidad.
Tabla 12-1 Atributos de caf helado

Atributo de imagen marca baja en caloras marca para nios marca para la clase trabajadora marca apetitosa/dulce marca poco popular marca para personas gordas/feas gran frescor marca para yupis marca nutritiva marca para mujeres marca menor

Etiqueta baja en caloras children trabajadora dulce poco popular feas frescor yupis nutritiva mujeres menor

Atributo de imagen marca que engorda atractiva para los hombres marca del sur de Australia marca tradicional/pasada de moda marca de primera calidad marca sana marca alta en cafena marca nueva marca para personas atractivas marca severa marca popular

Etiqueta engorda hombres sur de Australia tradicional calidad sana cafena nuevo atractivas severa popular

buen remedio para la resaca remedio

En principio, nos centraremos en cmo estn relacionados los atributos entre s y cmo estn relacionadas las marcas entre s. El uso de la normalizacin principal distribuye la inercia total una vez sobre las las y una vez sobre las columnas. Aunque esto impide la interpretacin del diagrama de dispersin biespacial, es posible examinar las distancias entre las categoras de cada variable.

Ejecucin del anlisis


E La conguracin de los datos requiere que los casos se ponderen mediante la variable frec. Para

ello, elija en los mens:


Datos > Ponderar casos...

219 Anlisis de correspondencias Figura 12-1 Cuadro de dilogo Ponderar casos

E Ponderar casos por frec. E Pulse en Aceptar. E Para obtener una solucin inicial en cinco dimensiones con normalizacin principal, elija en

los mens:
Analizar > Reduccin de dimensiones > Anlisis de correspondencias... Figura 12-2 Cuadro de dilogo Anlisis de correspondencias

E Seleccione imagen como variable de la. E Pulse en Definir rango.

220 Captulo 12 Figura 12-3 Cuadro de dilogo Definir rango de filas

E Escriba 1 como valor mnimo. E Escriba 23 como valor mximo. E Pulse en Actualizar. E Pulse en Continuar. E Seleccione marca como variable de columna. E Pulse en Definir rango en el cuadro de dilogo Anlisis de correspondencias. Figura 12-4 Cuadro de dilogo Definir rango de columnas

E Escriba 1 como valor mnimo. E Escriba 6 como valor mximo.

221 Anlisis de correspondencias E Pulse en Actualizar. E Pulse en Continuar. E Pulse en Modelo en el cuadro de dilogo Anlisis de correspondencias. Figura 12-5 Cuadro de dilogo Modelo

E Seleccione Principal como mtodo de normalizacin. E Pulse en Continuar. E Pulse en Grficos en el cuadro de dilogo Anlisis de correspondencias.

222 Captulo 12 Figura 12-6 Cuadro de dilogo Grficos

E Seleccione Puntos de fila y Puntos de columna en el grupo Diagramas de dispersin. E Pulse en Continuar. E Pulse en Aceptar en el cuadro de dilogo Anlisis de correspondencias.

Dimensionalidad
La inercia por dimensin muestra la descomposicin de la inercia total a lo largo de cada dimensin. Dos dimensiones explican el 83% de la inercia total. Si se aade una tercera dimensin slo se aade un 8,6% a la inercia explicada. Por tanto, puede elegir utilizar una representacin en dos dimensiones.

223 Anlisis de correspondencias Figura 12-7 Inercia por dimensin

Contribuciones
Una visin general de los puntos de la muestra las contribuciones de los puntos de la a la inercia de las dimensiones y las contribuciones de las dimensiones a la inercia de los puntos de la. Si todos los puntos contribuyen de igual manera a la inercia, las contribuciones seran 0,043. Sana y baja en caloras contribuyen en una parte importante a la inercia de la primera dimensin. Hombres y severa contribuyen con las mayores cantidades a la inercia de la segunda dimensin. Feas y frescor contribuyen muy poco a ambas dimensiones.
Figura 12-8 Contribuciones de los atributos

224 Captulo 12

Dos dimensiones contribuyen con una gran cantidad a la inercia para la mayora de los puntos de la. Las contribuciones grandes a la primera dimensin de sana, nueva, atractivas, baja en caloras, nutritiva y mujeres indican que estos puntos aparecen muy bien representados en una dimensin. Por consiguiente, las dimensiones superiores contribuyen poco a la inercia de estos puntos, que estarn situados muy cerca del eje horizontal. La segunda dimensin contribuye sobre todo a hombres, calidad y severa. Ambas dimensiones contribuyen muy poco a la inercia de sur de Australia y feas, por lo que estos puntos aparecen pobremente representados. La visin general de los puntos de columna muestra las contribuciones que implican a los puntos de columna. Las marcas CC y DD contribuyen sobre todo a la primera dimensin, mientras que EE y FF explican una gran cantidad de la inercia para la segunda dimensin. AA y BB contribuyen muy poco a ambas dimensiones.
Figura 12-9 Contribuciones a la marca

En dos dimensiones, todas las marcas salvo BB estn bien representadas. CC y DD estn bien representadas en una dimensin. La segunda dimensin contribuye a EE y FF con sus mayores cuantas. Observe que AA est bien representada en la primera dimensin, pero no tiene una contribucin muy alta a dicha dimensin.

Grficos
El grco de puntos de la muestra que frescor y feas estn muy cerca del origen, lo que indica que dieren muy poco del perl de la medio. Surgen as tres clasicaciones generales. Situado en la parte izquierda superior del grco, severa, hombres y trabajadora son similares entre s. La parte inferior izquierda contiene dulce, engorda, nios y calidad. Por el contrario, sana, baja en caloras, nutritiva y nueva se agrupan en la parte izquierda del grco.

225 Anlisis de correspondencias Figura 12-10 Grfico de los atributos de imagen (normalizacin principal)

Observe en el grco de los puntos de columna que todas las marcas estn lejos del origen, por lo que no hay ninguna marca que sea similar al centroide global. Las marcas CC y DD se agrupan juntas a la derecha, mientras que las marcas BB y FF se agrupan en la mitad inferior del grco. Las marcas AA y EE no son similares a ninguna otra marca.
Figura 12-11 Grfico de marcas (normalizacin principal)

Normalizacin simtrica
Cmo estn relacionadas las marcas con los atributos de imagen? La normalizacin principal no puede tratar estas relaciones. Para centrarnos en cmo estn relacionadas las variables entre s, utilizaremos la normalizacin simtrica. En vez de distribuir la inercia dos veces (como ocurre en la normalizacin principal), la normalizacin simtrica divide la inercia de idntica manera sobre las las y las columnas. Las distancias entre categoras para una nica variable no se pueden interpretar, pero las distancias entre las categoras de diferentes variables son signicativas.

226 Captulo 12 Figura 12-12 Cuadro de dilogo Modelo

E Para generar la siguiente solucin con la normalizacin simtrica, vuelva al cuadro de dilogo Anlisis de correspondencias y pulse en Modelo. E Seleccione Simtrica como mtodo de normalizacin. E Pulse en Continuar. E Pulse en Aceptar en el cuadro de dilogo Anlisis de correspondencias.

En la parte superior del diagrama de dispersin biespacial resultante, la marca EE es la nica severa y de la clase trabajadora que resulta atractiva a los hombres. La marca AA es la ms popular y tambin se considera la que tiene ms cafena. Las marcas dulces y que engordan

227 Anlisis de correspondencias

incluyen BB y FF. Las marcas CC y DD, aunque se consideran como nuevas y sanas, tambin son las menos populares.
Figura 12-13 Diagrama de dispersin biespacial de las marcas y los atributos (normalizacin simtrica)

Para continuar con la interpretacin, puede dibujar una lnea a travs del origen y los dos atributos de imagen hombres y yupis, y proyectar las marcas sobre esta lnea. Los dos atributos estn opuestos el uno al otro, lo que indica que el patrn de asociacin de las marcas para hombres est invertido en comparacin con el patrn de yupis. Es decir, los hombres son los que estn asociados con mayor frecuencia con la marca EE y con menor frecuencia con la marca CC, mientras que los yupis se asocian con mayor frecuencia con la marca CC y con menor frecuencia con la marca EE.

Lecturas recomendadas
Si desea obtener ms informacin sobre el anlisis de correspondencias: Fisher, R. A. 1938. Statistical methods for research workers. Edinburgh: Oliver and Boyd. Fisher, R. A. 1940. The precision of discriminant functions. Annals of Eugenics, 10, . Gilula, Z., y S. J. Haberman. 1988. The analysis of multivariate contingency tables by restricted canonical and restricted association models. Journal of the American Statistical Association, 83, .

Anlisis de correspondencias mltiple

13

Captulo

El propsito del anlisis de correspondencias mltiple, tambin conocido como anlisis de homogeneidad, es encontrar las cuanticaciones ptimas, es decir, que separen al mximo las categoras entre s. Esto implica que los objetos de la misma categora se representan cercanos entre s, mientras que los objetos de categoras diferentes se representan lo ms alejados posible. El trmino homogeneidad tambin se reere al hecho de que se efectuar el anlisis ms adecuado cuando las variables sean homogneas, es decir, cuando dividan los objetos en conglomerados con las mismas o similares categoras.

Ejemplo: Caractersticas de la ferretera


Para explorar cmo funciona el anlisis de correspondencias mltiple, se utilizarn los datos de Hartigan(Hartigan, 1975), que pueden encontrarse en screws.sav. Si desea obtener ms informacin, consulte el tema Archivos muestrales en el apndice A en IBM SPSS Categories 19. Este conjunto de datos contiene informacin acerca de las caractersticas de los tornillos, los pernos, las tuercas y las tachuelas. La siguiente tabla muestra las variables (junto con las etiquetas de variable) y las etiquetas de valor que se han asignado a las categoras de cada variable en el conjunto de datos de la ferretera Hartigan.
Tabla 13-1 Conjunto de datos de la ferretera Hartigan

Nombre de variable rosca cabeza muesca punta long cobre objeto

Etiqueta de variable Rosca Forma de la cabeza muesca de la cabeza Forma de la punta Longitud en mm Cobre Objeto

Etiqueta de valor S_Rosca, No_Rosca Plana, ahuecada, cnica, redonda, cilndrica Ninguno, en estrella, rallado alada, plana 1/2_mm, 1_mm, 1_1/2_ mm, 2_mm, 2_1/2_mm S_Co, No_Co tachuela, clavo1, clavo2, clavo3, clavo4, clavo5, clavo6, clavo7, clavo8, tornillo1, tornillo2, tornillo3, tornillo4, tornillo5, perno1, perno2, perno3, perno4, perno5, perno6, tachuela1, tachuela2, clavol, tornillol

Copyright SPSS Inc. 1989, 2010

228

229 Anlisis de correspondencias mltiple

Ejecucin del anlisis


E Para obtener un anlisis de correspondencias mltiple, elija en los mens: Analizar > Reduccin de dimensiones > Escalamiento ptimo... Figura 13-1 Cuadro de dilogo Escalamiento ptimo

E Asegrese de que estn seleccionadas Todas las variables son nominales mltiples y Un conjunto y pulse en Definir. Figura 13-2 Cuadro de dilogo Anlisis de correspondencias mltiple

E Seleccione como variables de anlisis desde Roscahasta Longitud en mm.

230 Captulo 13 E Seleccione como variable de etiquetado objeto . E Pulse en Objeto en el grupo Grcos. Figura 13-3 Cuadro de dilogo Grficos de objetos

E Seleccione etiquetar los objetos por Variable. E Seleccione como variables de etiquetado desde rosca hasta objeto. E Pulse en Continuar y, a continuacin, pulse en Variable en el grupo Grcos del cuadro de dilogo

Anlisis de correspondencias mltiple.

231 Anlisis de correspondencias mltiple Figura 13-4 Cuadro de dilogo Grficos de variables

E Elija generar un grco de categoras conjuntas desde rosca hasta long. E Pulse en Continuar. E Pulse en Aceptar en el cuadro de dilogo Anlisis de correspondencias mltiple.

Resumen del modelo


El anlisis de homogeneidad puede calcular una solucin para varias dimensiones. El nmero mximo de dimensiones es igual al nmero de categoras menos el nmero de variables sin datos perdidos o menos el nmero de observaciones menos uno, el que sea menor. Sin embargo, en raras ocasiones se debera utilizar el nmero mximo de dimensiones. Un nmero menor de dimensiones es ms fcil de interpretar y, despus de un cierto nmero de dimensiones, la cantidad de asociacin adicional explicada se vuelve despreciable. Una solucin de una, dos o tres dimensiones en el anlisis de homogeneidad es muy comn.

232 Captulo 13 Figura 13-5 Resumen del modelo

Casi la totalidad de la varianza de los datos se explica mediante la solucin, 62,1% mediante la primera y el 36,8% gracias a la segunda dimensin. Ambas dimensiones juntas proporcionan una interpretacin segn las distancias. Si una variable discrimina correctamente, los objetos se encontrarn cerca de las categoras a las que pertenecen. Lo ideal es que los objetos de la misma categora estn cercanos entre s (es decir, tengan puntuaciones similares), y las categoras de variables diferentes estn cercanas s pertenecen a los mismos objetos (es decir, dos objetos con puntuaciones similares para una variable deben tambin puntuar cerca uno del otro para el resto de variables de la solucin).

Puntuaciones de los objetos


Despus de examinar el resumen del modelo, debe observar las puntuaciones de los objetos. Es posible especicar una o varias variables para etiquetar el grco de las puntuaciones del objeto. Cada variable de etiquetado genera un grco diferente etiquetado con los valores de esa variable. Vamos a echar un vistazo al grco de las puntuaciones del objeto etiquetadas por el objeto de la variable. sta es simplemente una variable de identicacin de casos y no se ha utilizado para realizar los clculos. La distancia desde un objeto hasta el origen reeja la variacin desde el patrn de respuesta medio. Este patrn se corresponde con la categora ms frecuente para cada variable. Los objetos con muchas caractersticas que se corresponden con las categoras ms frecuentes deben estar cerca del origen. Por el contrario, los objetos con caractersticas nicas estn localizados lejos del origen.

233 Anlisis de correspondencias mltiple Figura 13-6 Grficos con las puntuaciones de los objetos etiquetados por el objeto

Si examina el grco, observar que la primera dimensin (el eje horizontal) diferencia entre los tornillos y los pernos (que tienen roscas) y los clavos y las tachuelas (que no tienen rosca). Es fcil observar esto en el grco ya que los tornillos y los pernos se encuentran en uno de los extremos del eje horizontal, y las tachuelas y los clavos estn en el contrario. En menor grado, la primera dimensin tambin separa los pernos (que tienen las puntas planas) del resto (con puntas aladas). La segunda dimensin (el eje vertical) parece separar TORNILLO1 y CLAVO6 del resto de objetos. Lo que TORNILLO1 y CLAVO6 tienen en comn son los valores en la longitud de la variable: son los objetos ms largos de los datos. Adems, TORNILLO1 est mucho ms lejos del origen que los otros objetos, lo que sugiere que, si lo tomamos como un todo, no se comparten muchas de las caractersticas de este objeto con otros objetos. El grco de puntuaciones del objeto es especialmente til para observar los valores atpicos. TORNILLO1 puede considerarse un valor atpico. Ms adelante, veremos qu pasa si se hace descender este objeto.

Medidas de discriminacin
Antes de examinar el resto de grcos de puntuaciones de objeto, vemos a ver si las medidas de discriminacin concuerdan con lo que hemos dicho hasta ahora. Para cada variable, se calcula una medida de discriminacin para cada dimensin, que puede ser tratada como una saturacin del componente cuadrado. Esta medida es tambin la varianza de la variable cuanticada en esa dimensin. Tiene un valor mximo de 1, que se logra si ambas puntuaciones del objeto disminuyen hacia grupos exclusivos y todas las puntuaciones de los objetos de una categora son idnticas. (Nota: Esta medida puede tener un valor mayor que 1 si existen datos perdidos.) Las medidas de discriminacin grandes se corresponden con una gran dispersin entre las categoras de la variable y, por consiguiente, indican un alto grado de discriminacin entre las categoras de una variable a lo largo de esa dimensin.

234 Captulo 13

La media de las medidas de discriminacin para cualquier dimensin es igual al porcentaje de varianza explicado para esa dimensin. Por consiguiente, las dimensiones se ordenan segn la discriminacin de la media. La primera dimensin tiene la discriminacin media mayor, la segunda dimensin tiene la segunda discriminacin media mayor, y as sucesivamente para todas las dimensiones de la solucin.
Figura 13-7 Grfico de medidas de discriminacin

Como se ha registrado en el grco de puntuaciones del objeto, el grco de las medidas de discriminacin muestra que la primera dimensin est relacionada con las variables Roscay Forma de la punta. Estas variables tienen medidas de discriminacin grandes en la primera dimensin y medidas de discriminacin pequeas en la segunda dimensin. As, para estas dos variables, las categoras se dispersan slo lejos de la primera dimensin. Longitud (en medias pulgadas) tiene un valor grande en la segunda dimensin, pero un valor pequeo en la primera. Como resultado, long est ms cerca de la segunda dimensin, de acuerdo con la observacin del grco de puntuaciones de objetos de que la segunda dimensin parece separar los objetos ms largos del resto. Muesca de la cabeza y Forma de la cabeza tienen valores relativamente grandes en ambas dimensiones, lo que indica discriminacin en la primera y segunda dimensiones. La variable Latn, situada muy cerca del origen, no discrimina en absoluto en las dos primeras dimensiones. Esto tiene sentido ya que todos los objetos pueden estar hechos o no de latn.

Cuantificaciones de categoras
Recuerde que una medida de discriminacin es la varianza de la variable cuanticada junto con una dimensin particular. El grco de medidas de discriminacin contiene estas varianzas, lo que indica qu variables discriminan junto con qu dimensin. Sin embargo, la misma varianza podra corresponderse con todas las categoras que se hayan dispersado medianamente lejos, o con la mayora de las categoras juntas (con unas cuantas categoras diferentes de este grupo). El grco de discriminacin no puede diferenciar entre estas dos condiciones.

235 Anlisis de correspondencias mltiple

Los grcos de cuanticacin de las categoras proporcionan un mtodo alternativo de mostrar la discriminacin de las variables que pueden identicar las relaciones de las categoras. En este grco, se muestran las coordenadas de cada categora en cada dimensin. De este modo, es posible determinar qu categoras son similares para cada variable.
Figura 13-8 Cuantificaciones de categoras

Longitud en mm tiene cinco categoras, tres de las cuales se agrupan en la parte superior del grco. Las dos categoras restantes se encuentran en la mitad inferior del grco, con la categora 2_1/2_mm realmente lejos del grupo. La discriminacin grande para la longitud a lo largo de la dimensin 2 es el resultado de que esta categora sea muy diferente a las otras categoras de longitud. De igual modo, para Forma de la cabeza, la categora EN ESTRELLA se encuentra muy lejos del resto de categoras y provoca una medida de discriminacin grande a lo largo de la segunda dimensin. Estos patrones no pueden ilustrarse en un grco de medidas de discriminacin. La dispersin de las cuanticaciones de la categora para una variable reeja la varianza y, por lo tanto, indica la calidad de discriminacin de esa variable en cada dimensin. Si nos centramos en la dimensin 1, las categoras para Rosca estn lejos. Sin embargo, a lo largo de la dimensin 2, las categoras para esta variable estn muy cerca. As, Rosca discrimina mejor en dimensin 1 que en dimensin 2. Por el contrario, las categoras para Forma de la cabeza estn dispersadas y alejadas a lo largo de ambas dimensiones, lo que sugiere que esta variable discrimina bien en ambas dimensiones. Adems de determinar las dimensiones a lo largo de las que una variable discrimina, as como la forma de discriminar de dicha variable, el grco de cuanticacin de la categora tambin compara la discriminacin de la variable. Una variable con categoras que estn alejadas entre s discrimina mejor que una variable con categoras que se encuentran muy juntas. Por ejemplo, a lo largo de dimensin 1, las dos categoras de Latn estn mucho ms cerca entre s que las dos categoras de Rosca, lo que indica que Rosca discrimina mejor que Latn a lo largo de esta dimensin. Sin embargo, a lo largo de la dimensin 2, las distancias son muy similares, lo que sugiere que estas variables discriminan al mismo nivel a lo largo de esta dimensin. El grco de

236 Captulo 13

medidas de discriminacin que se ha discutido anteriormente identica estas mismas relaciones mediante el uso de las varianzas para reejar la dispersin de las categoras.

Una observacin ms detallada de las puntuaciones de los objetos


Se puede obtener informacin ms detallada acerca de los datos si se examinan los grcos de puntuaciones de objetos etiquetados por cada variable. Lo ideal es que los objetos similares deberan formar grupos exclusivos, que deberan encontrase alejados entre s.
Figura 13-9 Puntuaciones de objetos etiquetados con Rosca

El grco etiquetado con Rosca muestra que la primera dimensin separa S_Roscay No_Rosca perfectamente. Todos los objetos con rosca tienen puntuaciones de objeto negativas, mientras que todos los objetos sin rosca tienen puntuaciones positivas. Aunque las dos categoras no formen grupos compactos, la perfecta diferenciacin entre las categoras se considera generalmente un buen resultado.

237 Anlisis de correspondencias mltiple Figura 13-10 Puntuaciones de objetos etiquetados con Forma de la cabeza

El grco etiquetado con Forma de la cabeza muestra que esta variable discrimina en ambas dimensiones. El grupo de objetos PLANA se encuentran agrupados en la esquina inferior derecha del grco, mientras que el grupo de objetos AHUECADA lo hacen en la esquina superior derecha. Los objetosCNICAse encuentran en la esquina superior izquierda. Sin embargo, estos objetos estn ms dispersados que el resto de grupos y, por lo tanto, no son tan homogneos. Finalmente, los objetos de la categora CILNDRICA no pueden separarse de los objetos de la categora REDONDA, los cuales se encuentran en la esquina inferior izquierda del grco.

238 Captulo 13 Figura 13-11 Las puntuaciones de los objetos etiquetadas con Longitud (en medias pulgadas)

El grco etiquetado con Longitud en mm muestra que esta variable no discrimina en la primera dimensin. Sus categoras no muestran agrupacin cuando se proyectan sobre una lnea horizontal. Sin embargo, Longitud en mm s discrimina en la segunda dimensin. Los objetos ms cortos se corresponden con puntuaciones positivas, mientras que los ms largos lo hacen con puntuaciones negativas.
Figura 13-12 Puntuaciones de objetos etiquetados con Latn

El grco etiquetado con Cobre muestra que esta variable tiene categoras que no pueden separarse de manera correcta en la primera o segunda dimensiones. Las puntuaciones de los objetos estn muy dispersados a lo largo del espacio. Los objetos de cobre no pueden diferenciarse de los objetos que no son de cobre.

239 Anlisis de correspondencias mltiple

Omisin de valores atpicos


En el anlisis de homogeneidad, los valores atpicos son objetos que tienen demasiadas funciones nicas. Como dijimos anteriormente, TORNILLO1 puede considerarse un valor atpico. Para eliminar este objeto y ejecutar de nuevo el anlisis, elija en los mens:
Datos > Seleccionar casos... Figura 13-13 Cuadro de dilogo Seleccionar casos

E Seleccione Si se satisface la condicin. E Pulse en Si.

240 Captulo 13 Figura 13-14 Si el cuadro de dilogo

E Introduzca objeto ~= 16 como la condicin. E Pulse en Continuar. E Pulse en Aceptar en el cuadro de dilogo Seleccionar casos. E Finalmente, vuelva al cuadro de dilogo Anlisis de correspondencias mltiple y pulse en Aceptar. Figura 13-15 Resumen del modelo (valor atpico eliminado)

Los autovalores cambian ligeramente. La primera dimensin ahora explica un poco ms de la varianza.

241 Anlisis de correspondencias mltiple Figura 13-16 Medidas discriminantes

Como se muestra en el grco de discriminacin, Muesca de la cabeza ya no discrimina en la segunda dimensin, mientras que Cobre vara de no discriminacin en ninguna de las dimensiones a discriminacin en la segunda dimensin. La discriminacin para el resto de variables no cambia en su mayor parte.
Figura 13-17 Las puntuaciones del objeto etiquetadas con Latn (valor atpico eliminado)

El grco de puntuaciones del objeto etiquetado por Latn muestra que los cuatro objetos de latn aparecen cerca de la parte inferior del grco (tres objetos ocupan idnticas localizaciones), lo que indica alta discriminacin a lo largo de la segunda dimensin. Como era el caso para Rosca en el anlisis anterior, los objetos no forman grupos compactos, pero la diferenciacin de objetos mediante las categoras es perfecta.

242 Captulo 13 Figura 13-18 Las puntuaciones del objeto etiquetadas con Muesca de la cabeza (valor atpico eliminado)

El grco de puntuaciones del objeto etiquetado mediante Muesca de la cabeza muestra que la primera dimensin discrimina perfectamente entre los objetos con y sin muesca, como en el anlisis anterior. Sin embargo, al contrario que en el anlisis anterior, la segunda dimensin no puede distinguir ahora las dos categoras. Por ello, la omisin de TORNILLO1, que es el nico objeto con una cabeza en forma de estrella, afecta drsticamente a la interpretacin de la segunda dimensin. Esta dimensin diferencia ahora los objetos basados en Cobre, Forma de la cabeza y Longitud en mm.

Lecturas recomendadas
Si desea obtener ms informacin sobre el anlisis de correspondencias mltiple: Benzcri, J. P. 1992. Correspondence analysis handbook. Nueva York: Marcel Dekker. Guttman, L. 1941. The quantication of a class of attributes: A theory and method of scale construction. En: The Prediction of Personal Adjustment, P. Horst, ed. Nueva York: Social Science Research Council. Meulman, J. J. 1982. Homogeneity analysis of incomplete data. Leiden: DSWO Press. Meulman, J. J. 1996. Fitting a distance model to homogeneous subsets of variables: Points of view analysis of categorical data. Journal of Classication, 13, . Meulman, J. J., y W. J. Heiser. 1997. Graphical display of interaction in multiway contingency tables by use of homogeneity analysis. En: Visual Display of Categorical Data, M. Greenacre, y J. Blasius, eds. Nueva York: Academic Press. Nishisato, S. 1984. Forced classication: A simple application of a quantication method. Psychometrika, 49, .

243 Anlisis de correspondencias mltiple

Tenenhaus, M., y F. W. Young. 1985. An analysis and synthesis of multiple correspondence analysis, optimal scaling, dual scaling, homogeneity analysis, and other methods for quantifying categorical multivariate data. Psychometrika, 50, . Van Rijckevorsel, J. 1987. The application of fuzzy coding and horseshoes in multiple correspondence analysis. Leiden: DSWO Press.

Multidimensional Scaling

14

Captulo

Dado un conjunto de objetos, el propsito del escalamiento multidimensional es encontrar una representacin de los objetos en un espacio de pocas dimensiones. La solucin ms sencilla es utilizar proximidades entre los objetos. El procedimiento minimiza las desviaciones cuadradas entre las proximidades de los objetos, originales, posiblemente transformadas, y sus distancias eucldeas en el espacio de pocas dimensiones. El propsito del espacio de pocas dimensiones es descubrir las relaciones entre los objetos. Si se restringe la combinacin para que sea una combinacin lineal de variables independientes, es posible que sea capaz de interpretar las dimensiones de la solucin en funcin de estas variables. En el siguiente ejemplo, observar cmo 15 trminos diferentes de parentesco pueden representarse en tres dimensiones y cmo ese espacio puede interpretarse en funcin del sexo, la generacin y el grado de separacin de cada uno de los trminos.

Ejemplo: Un examen de los trminos de parentesco


Rosenberg y Kim (Rosenberg y Kim, 1975) comenzaron a analizar 15 trminos de parentesco [ta, hermano, primos, hija, padre, nieta, abuelo, abuela, nieto, madre, sobrino, sobrina, hermana, hijo, to]. Le pidieron a cuatro grupos de estudiantes universitarios (dos masculinos y dos femeninos) que ordenaran estos grupos segn las similitudes. A dos grupos (uno masculino y otro femenino) se les pidi que realizaran la ordenacin dos veces, pero que la segunda ordenacin la hicieran segn criterios distintos a los de la primera. As, se obtuvieron un total de seis fuentes, como se explica en la siguiente tabla.
Tabla 14-1 Estructura de la fuente de los datos de parentesco

Origen 1 2 3 4 5 6

Sexo Mujer Hombre Mujer Mujer Hombre Hombre

Tamao muestral 85 Ordenacin nica 85 Ordenacin nica 80 Primera ordenacin 80 Segunda ordenacin 80 Primera ordenacin 80 Segunda ordenacin Condicin
244

Copyright SPSS Inc. 1989, 2010

245 Multidimensional Scaling

Cada fuente se corresponde con una matriz de proximidades de cuyas casillas son iguales al nmero de personas de una fuente menos el nmero de veces que se particionaron los objetos en esa fuente. Este conjunto de datos se puede encontrar en kinship_dat.sav. Si desea obtener ms informacin, consulte el tema Archivos muestrales en el apndice A en IBM SPSS Categories 19.

Eleccin del nmero de dimensiones


Depende de usted decidir cuntas dimensiones debe tener la solucin. El diagrama de sedimentacin puede ayudarle a tomar esta decisin.
E Para crear un diagrama de sedimentacin, elija en los mens: Analizar > Escala > Escalamiento multidimensional (PROXSCAL) Figura 14-1 Cuadro de dilogo Formato de datos

E Seleccione Varias fuentes matriciales en el grupo Nmero de fuentes. E Pulse en Definir.

246 Captulo 14 Figura 14-2 Cuadro de dilogo Escalamiento multidimensional

E Seleccione Ta hasta To como variables de proximidad. E Seleccione idorigen como la variable que identica la fuente. E Pulse en Modelo. Figura 14-3 Cuadro de dilogo Modelo

E Introduzca 10 como el nmero mximo de dimensiones. E Pulse en Continuar. E Pulse en Restricciones en el cuadro de dilogo Escalamiento multidimensional.

247 Multidimensional Scaling Figura 14-4 Cuadro de dilogo Restricciones

E Seleccione Combinacin lineal de variables independientes. E Pulse Archivo para seleccionar la fuente de variables independientes. E Seleccione kinship_var.sav.

248 Captulo 14 Figura 14-5 Cuadro de dilogo Restricciones

E Seleccionesexo, gener y grado como variables de restriccin.

Observe que la variable sexo tiene un valor denido como perdido por el usuario, 9 = perdido (para primos). El procedimiento la trata como una categora vlida. Por lo tanto, no es probable que la transformacin lineal por defecto sea adecuada. En su lugar, utilice una transformacin nominal.

249 Multidimensional Scaling Figura 14-6 Cuadro de dilogo Restricciones

E Seleccione sexo. E Seleccione Nominal de la lista desplegable de transformaciones de variables independientes. E Pulse en Cambiar. E Pulse en Continuar. E Pulse en Grficos en el cuadro de dilogo Escalamiento multidimensional.

250 Captulo 14 Figura 14-7 Cuadro de dilogo Grficos

E Seleccione Stress en el grupo Grcos. E Pulse en Continuar. E Pulse en Aceptar en el cuadro de dilogo Escalamiento multidimensional. Figura 14-8 Grfico de sedimentacin

El procedimiento comienza con una solucin de 10 dimensiones y disminuye hasta una solucin bidimensional. El grco de sedimentacin muestra el stress bruto normalizado de la solucin en cada dimensin. En el grco es posible observar que el incremento de la dimensionalidad de 2 a 3 y de 3 a 4 ofrece grandes mejoras en el stress. Despus de 4, las mejoras son bastante pequeas.

251 Multidimensional Scaling

Elija el anlisis de los datos mediante una solucin tridimensional, ya que los resultados son ms fciles de interpretar.

Una solucin tridimensional


Las variables independientes sexo, gener (generacin) y grado(de separacin) se construyeron con la intencin de ser utilizadas para interpretar las dimensiones de la solucin. Las variables independientes se han construido de la siguiente manera:
sexo gener 1 = hombre, 2 = mujer, 9 = perdido (para primos) El nmero de generaciones de su familia, en caso de que el trmino se reera a sus familiares, con los nmeros menores correspondientes a las generaciones mayores. Por eso, los abuelos son2, los nietos son 2 y los hermanos, 0. El nmero de grados de separacin en su rbol familiar. Por eso, sus padres se encuentran 1 nodo hacia arriba, mientras que sus hijos estn 1 nodo hacia abajo. Entre sus hermanos y usted existen 2 grados de separacin, 1 nodo hacia arriba hacia sus padres y otro hacia abajo hacia sus hermanos. Sus primos se encuentran a 4 grados de distancia: 2 hacia arriba hasta llegar a sus abuelos y 2 hacia abajo pasando por sus tos para llegar a sus primos.

grado

Los variables externas se pueden encontrar en kinship_var.sav. Adems, una conguracin inicial procedente de un anlisis anterior est disponible en kinship_ini.sav. Si desea obtener ms informacin, consulte el tema Archivos muestrales en el apndice A en IBM SPSS Categories 19.

252 Captulo 14

Ejecucin del anlisis


Figura 14-9 Cuadro de dilogo Modelo

E Para obtener una solucin tridimensional, vuelva al cuadro de dilogo Escalamiento multidimensional y pulse en Modelo. E Introduzca 3 como el nmero mximo y mnimo de dimensiones. E Pulse en Continuar. E Pulse en Opciones en el cuadro de dilogo Escalamiento multidimensional.

253 Multidimensional Scaling Figura 14-10 Cuadro de dilogo Opciones

E Seleccione personalizada como la conguracin inicial. E Seleccione kinship_ini.sav como el archivo desde el que leer las variables. E Seleccione dim01, dim02 y dim03 como variables. E Pulse en Continuar. E Pulse en Grficos en el cuadro de dilogo Escalamiento multidimensional.

254 Captulo 14 Figura 14-11 Cuadro de dilogo Grficos

E Seleccione Proximidades originales frente a transformadas y Variables independientes transformadas. E Pulse en Continuar. E Pulse en Resultados en el cuadro de dilogo Escalamiento multidimensional. Figura 14-12 Cuadro de dilogo Resultados

E Seleccione Datos de entrada, Descomposicin del stress y Correlaciones entre variables y dimensiones.

255 Multidimensional Scaling E Pulse en Continuar. E Pulse en Aceptar en el cuadro de dilogo Escalamiento multidimensional.

Medidas del stress


El stress y las medidas de ajuste indican la ecacia con la que se aproximan las distancias de la solucin a las distancias originales.
Figura 14-13 Stress y medidas de ajuste

Cada uno de los cuatro estadsticos stress mide el desajuste de los datos, mientras que la dispersin explicada y el coeciente de congruencia de Tucker miden el ajuste. Las medidas de stress inferior (hasta un mnimo de 0) y las mayores medidas de ajuste (hasta un mximo de 1) indican las mejores soluciones posibles.
Figura 14-14 Descomposicin de stress bruto normalizado

La descomposicin del stress le ayuda a identicar qu fuentes y objetos contribuyen ms al stress global de la solucin. En este caso, la mayora del stress entre las fuentes se puede atribuir a las fuentes 1 y 2, mientras que en los objetos, la mayora del stress es atribuible a hermano, nieta, abuelo, abuela, nieto y hermana.

256 Captulo 14

Las dos fuentes responsables de la mayora del stress son los dos grupos que ordenaron los trminos slo una vez. Esta informacin sugiere que los estudiantes consideraron varios factores a la hora de clasicar los trminos y aqullos a los que se les permiti clasicar los trminos dos veces se centraron en una parte de factores durante la primera clasicacin y, a continuacin, consideraron los factores restantes durante la segunda. Los objetos responsables de la mayora del stress son aquellos objetos con un grado de 2. Estas personas constituyen relaciones que no son parte de la familia nuclear (madre, padre, hija, hijo), pero que, sin embargo, estn ms cercanas que otras relaciones. Esta posicin media podra causar fcilmente cierta clasicacin diferencial de estos trminos.

Coordenadas finales del espacio comn


El grco del espacio comn proporciona una representacin visual de las relaciones entre los objetos.
Figura 14-15 Coordenadas del espacio comn

Observe las coordenadas nales de los objetos en las dimensiones 1 y 3, es decir, el grco situado en la esquina inferior izquierda del diagrama de dispersin matricial. Este grco muestra que la dimensin 1 (en el eje X) est correlacionada con el sexo de la variable y la dimensin 3 (en el eje y) est correlacionada con gener. De izquierda a derecha, se observa que la dimensin 1 separa los trminos masculinos y los femeninos, y el trmino Primos sin sexo en el centro. En el grco, desde abajo hacia arriba, los valores que aumentan a lo largo del eje se corresponden con los trminos que son ms antiguos. Observe las coordenadas nales de los objetos en las dimensiones 2 y 3, es decir, este grco es el grco situado en la parte central derecha del diagrama de dispersin matricial. Desde este grco, se puede ver que la segunda dimensin (a lo largo del eje Y) se corresponde con el

257 Multidimensional Scaling

grado de variable, con los mayores valores a lo largo del eje que corresponde con los trminos ms alejados de la llamada familia nuclear.

Una solucin tridimensional con transformaciones que no son por defecto


La solucin anterior se calcul mediante la transformacin de la razn por defecto para las proximidades y las transformaciones del intervalo para las variables independientes gener y grado. Los resultados son bastante buenos, pero puede ser capaz de mejorarlos si utiliza otras transformaciones. Por ejemplo, las proximidades, la gener y el grado tienen clasicaciones naturales, pero es posible crear modelos mejores mediante una transformacin ordinal, en lugar de una lineal.
Figura 14-16 Cuadro de dilogo Modelo

E Para ejecutar de nuevo el anlisis, debe escalar las proximidades, la gener y el grado en un nivel

ordinal (manteniendo los empates), vuelva al cuadro de dilogo Escalamiento multidimensional y pulse enModelo:
E Seleccione Ordinal como la transformacin de proximidad. E Pulse en Continuar. E Pulse en Restricciones en el cuadro de dilogo Escalamiento multidimensional.

258 Captulo 14 Figura 14-17 Cuadro de dilogo Restricciones

E Seleccione gener y grado. E Seleccione Ordinal (mantenga los empates) de la lista desplegable de transformaciones de variables

independientes.
E Pulse en Cambiar. E Pulse en Continuar. E Pulse en Aceptar en el cuadro de dilogo Escalamiento multidimensional.

Grficos de transformacin
Los grcos de transformacin son una buena herramienta para comprobar si las transformaciones originales eran apropiadas. Si los grcos son aproximadamente lineales, el supuesto lineal es el adecuado. Si no es as, compruebe las medidas de stress para ver si hay una mejora en el ajuste y, asimismo, compruebe el grco del espacio comn para ver si la interpretacin es ms til. Cada una de las variables independientes consiguen transformaciones prcticamente lineales, por lo que puede ser apropiado interpretarlas como numricas. Sin embargo, las proximidades no consiguen una transformacin lineal, por lo que es posible que la transformacin ordinal sea ms adecuada para las proximidades.

259 Multidimensional Scaling Figura 14-18 Proximidades transformadas

Medidas del stress


El stress para la solucin actual apoya el argumento para el escalamiento de las proximidades en un nivel ordinal.
Figura 14-19 Stress y medidas de ajuste

El stress bruto normalizado para la solucin anterior es 0,06234. Escalar las variables mediante transformaciones diferentes de las realizadas por defecto reduce el stress a 0,03137.

Coordenadas finales del espacio comn


Los grcos del espacio comn ofrecen bsicamente la misma interpretacin de las dimensiones como la solucin anterior.

260 Captulo 14 Figura 14-20 Coordenadas del espacio comn

Discusin
Lo mejor es tratar las proximidades como variables ordinales, ya que hay una gran mejora en las medidas del stress. Es posible que, a continuacin, desee desempatar las variables ordinales, es decir, permitir los valores equivalentes de las variables originales para obtener valores transformados diferentes. Por ejemplo, en la primera fuente, las proximidades entre ta e hijo, as como ta y nieto son 85. El enfoque empatado de las variables ordinales obliga a los valores transformados de estas proximidades a ser equivalentes, pero no hay existe razn alguna para que usted suponga que deberan serlo. En este caso, el hecho de permitir que las proximidades desempaten le libra de restricciones innecesarias.

Lecturas recomendadas
Si desea obtener ms informacin sobre el escalamiento multidimensional: Commandeur, J. J. F., y W. J. Heiser. 1993. Mathematical derivations in the proximity scaling (PROXSCAL) of symmetric data matrices. Leiden: Department of Data Theory, University of Leiden. De Leeuw, J., y W. J. Heiser. 1980. Multidimensional scaling with restrictions on the conguration. En: Multivariate Analysis, Vol. V, P. R. Krishnaiah, ed. msterdam: North-Holland. Heiser, W. J. 1981. Unfolding analysis of proximity data. Leiden: Department of Data Theory, University of Leiden. Heiser, W. J., y F. M. T. A. Busing. 2004. Multidimensional scaling and unfolding of symmetric and asymmetric proximity relations. En: Handbook of Quantitative Methodology for the Social Sciences, D. Kaplan, ed. Thousand Oaks, Calif.: Sage Publications, Inc..

261 Multidimensional Scaling

Kruskal, J. B. 1964. Multidimensional scaling by optimizing goodness of t to a nonmetric hypothesis. Psychometrika, 29, . Kruskal, J. B. 1964. Nonmetric multidimensional scaling: A numerical method. Psychometrika, 29, . Shepard, R. N. 1962. The analysis of proximities: Multidimensional scaling with an unknown distance function I. Psychometrika, 27, . Shepard, R. N. 1962. The analysis of proximities: Multidimensional scaling with an unknown distance function II. Psychometrika, 27, .

desplegamiento multidimensional

15

Captulo

El procedimiento Desplegamiento multidimensional intenta buscar una escala cuantitativa comn que permita examinar visualmente las relaciones entre dos conjuntos de objetos.

Ejemplo: Preferencias del elemento de desayuno


En un estudio clsico (Green y Rao, 1972), se pidi a 21 estudiantes de administracin de empresas de la Wharton School y sus cnyuges que ordenaran 15 elementos de desayuno por orden de preferencia, de 1 = ms preferido a 15 = menos preferido. Esta informacin se recoge en el archivo breakfast_overall.sav. Si desea obtener ms informacin, consulte el tema Archivos muestrales en el apndice A en IBM SPSS Categories 19. Los resultados del estudio proporcionan un ejemplo tpico del problema de degeneracin inherente a la mayora de los algoritmos de desplegamiento multidimensional que se resuelven al penalizar el coeciente de variacin de las proximidades transformadas(Busing, Groenen, y Heiser, 2005). Ver una solucin degenerada y cmo solucionar el problema mediante el procedimiento Desplegamiento multidimensional, lo que permite determinar la manera en la que los individuos discriminan entre los elementos de desayuno. Puede encontrar la sintaxis para reproducir estos anlisis en prefscal_breakfast-overall.sps.

Creacin de una solucin degenerada


E Para ejecutar un anlisis de desplegamiento multidimensional, elija en los mens: Analizar > Escala > Desplegamiento multidimensional (PREFSCAL)...

Copyright SPSS Inc. 1989, 2010

262

263 desplegamiento multidimensional Figura 15-1 Cuadro de dilogo principal Desplegamiento multidimensional

E Seleccione desde Tostada sola hasta Bollo de maz y mantequilla como variables de proximidad. E

Pulse en Opciones.

264 Captulo 15 Figura 15-2 Cuadro de dilogo Opciones

E Seleccione Spearman como mtodo de imputacin para el inicio clsico. E

En el grupo Trmino de penalizacin, escriba 1,0 como el valor del parmetro de magnitud y 0,0 como el valor del parmetro de rango. Esto desactiva el trmino de penalizacin.

E Pulse en Continuar. E Pulse en Aceptar en el cuadro de dilogo Desplegamiento multidimensional.

A continuacin se muestra la sintaxis de comandos generada por estas selecciones:


PREFSCAL VARIABLES=TP BT EMM JD CT BMM HRB TMd BTJ TMn CB DP GD CC CMB /INITIAL=CLASSICAL (SPEARMAN) /TRANSFORMATION=NONE /PROXIMITIES=DISSIMILARITIES /CRITERIA=DIMENSIONS(2,2) DIFFSTRESS(.000001) MINSTRESS(.0001) MAXITER(5000) /PENALTY=LAMBDA(1.0) OMEGA(0.0) /PRINT=MEASURES COMMON /PLOT=COMMON .

Esta sintaxis especica un anlisis de las variables ts (Tostada sola) hasta mb (Bollo de maz y mantequilla).

265 desplegamiento multidimensional

El subcomando INITIAL especica que los valores iniciales se imputan mediante distancias de Spearman. Bsicamente, los valores especicados en el subcomando PENALTY desactivan el trmino de penalizacin y, como resultado, el procedimiento minimiza el Stress-I de Kruskal, lo que generar una solucin degenerada. El subcomando PLOT requiere grcos del espacio comn. El resto de parmetros vuelven a sus valores por defecto.

Medidas
Figura 15-3 Medidas para la solucin degenerada

El algoritmo converge a una solucin despus de 154 iteraciones, con una tensin penalizada (valor de funcin nal marcado) de 0,0000990. Como el trmino de penalizacin se ha desactivado, la tensin penalizada ser igual al Stress-I de Kruskal (la parte de tensin del valor de la funcin es equivalente a la medida de la maldad de ajuste de Kruskal). Los valores de stress

266 Captulo 15

bajo suelen indicar que la solucin se ajusta adecuadamente a los datos, pero existen algunos signos de advertencia de una solucin degenerada:

El coeciente de variacin de las proximidades transformadas es muy pequeo respecto al coeciente de variacin de las proximidades originales. Esto sugiere que las proximidades transformadas para cada la son aproximadamente constantes y que, por lo tanto, la solucin no proporcionar ninguna discriminacin entre objetos. La suma de cuadrados de los ndices de entremezclado de DeSarbo es una medida de lo bien que se entremezclan los puntos de los distintos conjuntos. Si no se entremezclan, es seal de que la solucin puede ser degenerada. Cuanto ms cerca de 0, ms entremezclada es la solucin. El valor obtenido es muy alto, lo cual indica que la solucin no es entremezclada. El ndice de no degeneracin aproximada de Shepard, que se expresa como un porcentaje de distintas distancias, es igual a 0. sta es una indicacin numrica clara de que no existen sucientes distancias distintas y de que la solucin probablemente sea degenerada.

Espacio comn
Figura 15-4 Grfico conjunto del espacio comn para la solucin degenerada

La conrmacin visual de que la solucin es degenerada se encuentra en el grco conjunto del espacio comn de objetos de la y columna. Los objetos de la (individuos) se sitan en la circunferencia de un crculo centrado en los objetos de columna (elementos de desayuno), cuyas coordinadas se han colapsado en un nico punto.

267 desplegamiento multidimensional

Ejecucin de un anlisis no degenerado


Figura 15-5 Cuadro de dilogo Opciones

E Para generar una solucin no degenerada, pulse en la herramienta Recuperar cuadros de dilogo y seleccione Desplegamiento multidimensional. E Pulse en Opciones en el cuadro de dilogo Desplegamiento multidimensional. E

En el grupo Trmino de penalizacin, escriba 0,5 como el valor del parmetro de magnitud y 1,0 como el valor del parmetro de rango. Esto desactiva el trmino de penalizacin.

E Pulse en Continuar. E Pulse en Aceptar en el cuadro de dilogo Desplegamiento multidimensional.

A continuacin se muestra la sintaxis de comandos generada por estas selecciones:


PREFSCAL VARIABLES=TP BT EMM JD CT BMM HRB TMd BTJ TMn CB DP GD CC CMB /INITIAL=CLASSICAL (SPEARMAN) /TRANSFORMATION=NONE /PROXIMITIES=DISSIMILARITIES /CRITERIA=DIMENSIONS(2,2) DIFFSTRESS(.000001) MINSTRESS(.0001) MAXITER(5000) /PENALTY=LAMBDA(0.5) OMEGA(1.0) /PRINT=MEASURES COMMON /PLOT=COMMON .

268 Captulo 15

El nico cambio se encuentra en el subcomando PENALTY. LAMBDA se ha establecido en 0,5, y OMEGA se ha establecido en 1,0, sus valores por defecto.

Medidas
Figura 15-6 Medidas para la solucin no degenerada

Los problemas detectados en las medidas para la solucin degenerada se han corregido aqu.

El stress normalizado ya no es 0. El coeciente de variacin de las proximidades transformadas ahora tiene un valor similar al coeciente de variacin de las proximidades originales. Los ndices de entremezclado de DeSarbo estn mucho ms cerca del 0, lo que indica que la solucin est mucho mejor entremezclada. El ndice de no-degeneracin aproximada de Shepard, que se expresa como un porcentaje de distintas distancias, ahora es casi del 80%. Existen sucientes distancias distintas y es probable que la solucin sea no degenerada.

269 desplegamiento multidimensional

Espacio comn
Figura 15-7 Grfico conjunto del espacio comn para la solucin no degenerada

El grco conjunto del espacio comn permite interpretar de las dimensiones. La dimensin horizontal parece discriminar entre pan o tostada blando o duro, con elementos ms blandos a medida que se desplaza hacia la derecha del eje. La dimensin vertical no tiene una interpretacin clara, aunque tal vez discrimine en funcin de la comodidad, con elementos ms formales a medida que desciende por el eje. Esto crea varios conglomerados de elementos de desayuno. Por ejemplo, los donuts, los pasteles de canela y las pastas danesas forman un conglomerado de elementos blandos y algo informales. Las magdalenas y la tostada de canela forman un conglomerado de elementos ms duros pero ms formales. El resto de tostadas y rosquillas forman un conglomerado de elementos duros y algo informales. La tostada sola es un elemento duro extremadamente informal. Los individuos representados por los objetos de la se dividen claramente en conglomerados segn la preferencia por los elementos duros o blandos, con una variacin considerable dentro de los conglomerados en la dimensin vertical.

Ejemplo: Desplegamiento triple de las preferencias de los elementos del desayuno


En un estudio clsico (Green et al., 1972), se pidi a 21 estudiantes de administracin de empresas de la Wharton School y sus cnyuges que ordenaran 15 elementos de desayuno por orden de preferencia, de 1 = ms preferido a 15 = menos preferido. Sus preferencias se registraron en seis escenarios distintos, de Preferencia global a Aperitivo, con bebida slo. Esta informacin se recoge en el archivo breakfast.sav. Si desea obtener ms informacin, consulte el tema Archivos muestrales en el apndice A en IBM SPSS Categories 19.

270 Captulo 15

Los seis escenarios pueden tratarse como orgenes independientes. Utilice PREFSCAL para realizar un desplegamiento triple de las las, columnas y orgenes. Puede encontrar la sintaxis para reproducir estos anlisis en prefscal_breakfast.sps.

Ejecucin del anlisis


E Para ejecutar un anlisis de desplegamiento multidimensional, elija en los mens: Analizar > Escala > Desplegamiento multidimensional (PREFSCAL)... Figura 15-8 Cuadro de dilogo principal Desplegamiento multidimensional

E Seleccione desde Tostada sola hasta Bollo de maz y mantequilla como variables de proximidad. E

Seleccione Escenarios de men como la variable de fuente.

E Pulse en Modelo.

271 desplegamiento multidimensional Figura 15-9 Cuadro de dilogo Modelo

E Seleccione Eucldeo ponderado como el modelo de escalamiento. E Pulse en Continuar. E Pulse en Opciones en el cuadro de dilogo Desplegamiento multidimensional.

272 Captulo 15 Figura 15-10 Cuadro de dilogo Opciones

E Seleccione Spearman como mtodo de imputacin para el inicio clsico. E E

Pulse en Continuar. Pulse en Grficos en el cuadro de dilogo Desplegamiento multidimensional.

273 desplegamiento multidimensional Figura 15-11 Cuadro de dilogo Grficos

E Seleccione Espacios individuales en el grupo Grcos. E Pulse en Continuar. E Pulse en Aceptar en el cuadro de dilogo Desplegamiento multidimensional.

A continuacin se muestra la sintaxis de comandos generada por estas selecciones:


PREFSCAL VARIABLES=TP BT EMM JD CT BMM HRB TMd BTJ TMn CB DP GD CC CMB /INPUT=SOURCES(srcid ) /INITIAL=CLASSICAL (SPEARMAN) /CONDITION=ROW /TRANSFORMATION=NONE /PROXIMITIES=DISSIMILARITIES /MODEL=WEIGHTED /CRITERIA=DIMENSIONS(2,2) DIFFSTRESS(.000001) MINSTRESS(.0001) MAXITER(5000)

274 Captulo 15 /PENALTY=LAMBDA(0.5) OMEGA(1.0) /PRINT=MEASURES COMMON /PLOT=COMMON WEIGHTS INDIVIDUAL ( ALL ) .

Esta sintaxis especica un anlisis de las variables ts (Tostada sola) hasta mb (Bollo de maz y mantequilla). La variable idsc se utiliza para identicar los orgenes. El subcomando INITIAL especica que los valores iniciales se imputan mediante distancias de Spearman. El subcomando MODEL especica un modelo eucldeo ponderado, que permite que cada espacio individual pondere las dimensiones del espacio comn de manera diferente. El subcomando PLOT solicita grcos del espacio comn, los espacios individuales y las ponderaciones de los espacios individuales. El resto de parmetros vuelven a sus valores por defecto.

Medidas
Figura 15-12 Medidas

El algoritmo converge despus de 481 iteraciones, con una tensin nal penalizada de 0,8199642. Los coecientes de variacin y el ndice de Shepard son sucientemente altos y los ndices de DeSarbo son sucientemente bajos como para sugerir que no existen problemas de degeneracin.

275 desplegamiento multidimensional

Espacio comn
Figura 15-13 Grfico conjunto del espacio comn

El grco conjunto del espacio comn muestra una conguracin nal muy similar al anlisis de dos factores en las preferencias generales, con la solucin volteada sobre la lnea de 45 grados. As, la dimensin vertical parece discriminar entre pan o tostada blando o duro, con elementos ms blandos a medida que sube por el eje. La dimensin horizontal ahora no tiene una interpretacin clara, aunque tal vez discrimine en funcin de la comodidad, con elementos ms formales a medida que se desplaza hacia la izquierda del eje. Los individuos representados por los objetos de la siguen estando claramente divididos en conglomerados segn la preferencia por los elementos duros o blandos, con una variacin considerable dentro de los conglomerados en la dimensin horizontal.

276 Captulo 15

Espacios individuales
Figura 15-14 Ponderaciones de dimensin

Se calcula un espacio individual para cada fuente. Las ponderaciones de dimensin muestran cmo se cargan los espacios individuales en las dimensiones del espacio comn. Una ponderacin mayor indica una distancia mayor en el espacio individual y, por lo tanto, una mayor discriminacin entre los objetos de esa dimensin para ese espacio individual.

La especicidad es una medida que indica hasta qu punto un espacio individual es distinto del espacio comn. Un espacio individual que fuera idntico al espacio comn tendra ponderaciones de dimensin idnticas y una especicidad de 0, mientras que un espacio individual que fuera especco de una dimensin determinada tendra una nica ponderacin de dimensin grande y una especicidad de 1. En este caso, los orgenes ms divergentes son Desayuno, con zumo, huevos con bacn, y bebida y Aperitivo, con bebida slo. La importancia es una medida de la contribucin relativa de cada dimensin a la solucin. En este caso, las dimensiones son igual de importantes.

277 desplegamiento multidimensional Figura 15-15 Ponderaciones de dimensin

El grco de ponderaciones de dimensin proporciona una visualizacin de la tabla de ponderaciones. Desayuno, con zumo, huevos con bacn, y bebida y Aperitivo, con bebida slo estn ms cerca de los ejes de dimensin, pero ninguno es especialmente especco de una dimensin determinada.

278 Captulo 15 Figura 15-16 Grfico conjunto del espacio individual Desayuno, con zumo, huevos con bacn, y bebida

El grco conjunto del espacio individual Desayuno, con zumo, huevos con bacn, y bebida muestra el efecto de este escenario sobre las preferencias. Esta fuente se carga sobre todo en la primera dimensin, por lo que la diferenciacin entre los elementos se debe fundamentalmente a la primera dimensin.

279 desplegamiento multidimensional Figura 15-17 Grfico conjunto del espacio individual Aperitivo, con bebida slo

El grco conjunto del espacio individual Aperitivo, con bebida slo muestra el efecto de este escenario sobre las preferencias. Esta fuente se carga sobre todo en la segunda dimensin, por lo que la diferenciacin entre los elementos se debe fundamentalmente a la segunda dimensin. Sin embargo, existe todava una ligera diferenciacin en la primera dimensin debido a la especicidad bastante baja de esta fuente.

Uso de una configuracin inicial diferente


La conguracin nal puede depender de los puntos de inicio dados al algoritmo. Lo ideal es que la estructura general de la solucin permanezca intacta; de lo contrario, puede ser difcil determinar cul es la correcta. Sin embargo, es posible centrarse ms en los detalles probando distintas conguraciones iniciales, como utilizar un inicio de correspondencia en el anlisis triple de los datos de desayuno.
E Para generar una solucin con un inicio de correspondencia, pulse en la herramienta Recuperar cuadros de dilogo y seleccione Desplegamiento multidimensional.

280 Captulo 15 E Pulse en Opciones en el cuadro de dilogo Desplegamiento multidimensional. Figura 15-18 Cuadro de dilogo Opciones

E Seleccione Correspondencia en el grupo Conguracin inicial. E Pulse en Continuar. E Pulse en Aceptar en el cuadro de dilogo Desplegamiento multidimensional.

A continuacin se muestra la sintaxis de comandos generada por estas selecciones:


PREFSCAL VARIABLES=TP BT EMM JD CT BMM HRB TMd BTJ TMn CB DP GD CC CMB /INPUT=SOURCES(srcid ) /INITIAL=CORRESPONDENCE /TRANSFORMATION=NONE /PROXIMITIES=DISSIMILARITIES /CRITERIA=DIMENSIONS(2,2) DIFFSTRESS(.000001) MINSTRESS(.0001) MAXITER(5000) /PENALTY=LAMBDA(0.5) OMEGA(1.0) /PRINT=MEASURES COMMON /PLOT=COMMON WEIGHTS INDIVIDUAL ( ALL ) .

El nico cambio se encuentra en el subcomando INITIAL. La conguracin inicial se ha establecido en CORRESPONDENCE, que utiliza los resultados de un anlisis de correspondencias de los datos reservados (similaridades en lugar de disimilaridades), con una normalizacin simtrica de puntuaciones de la y de columna.

281 desplegamiento multidimensional

Medidas
Figura 15-19 Medidas para la configuracin inicial de la correspondencia

El algoritmo converge despus de 385 iteraciones, con una tensin nal penalizada de 0,8140741. Este estadstico, la maldad de ajuste, la bondad de ajuste, los coecientes de variacin y el ndice de Shepard son muy similares a los de la solucin que utiliza el inicio clsico de Spearman. Los ndices de DeSarbo son algo diferentes, con un valor de 1,7571887 en lugar de 0,2199287, lo cual sugiere que la solucin que utiliza el inicio de correspondencia no est igual de bien mezclada. Para ver cmo afecta esto a la solucin, consulte el grco conjunto del espacio comn.

282 Captulo 15

Espacio comn
Figura 15-20 Grfico conjunto del espacio comn para la configuracin inicial de la correspondencia

El grco conjunto del espacio comn muestra una conguracin nal similar al anlisis con la conguracin inicial de Spearman clsica; sin embargo, los objetos de columna (elementos de desayuno) se sitan alrededor de los objetos de la (individuos) en lugar de entremezclarse con ellos.

283 desplegamiento multidimensional

Espacios individuales
Figura 15-21 Ponderaciones de dimensin para la configuracin inicial de la correspondencia

En la conguracin inicial de la correspondencia, cada uno de los espacios individuales tiene una especicidad ms alta; es decir, cada situacin bajo la que los participantes ordenaron los elementos de desayuno est ms asociada a una dimensin especca. Los orgenes ms divergentes siguen siendo Desayuno, con zumo, huevos con bacn, y bebida y Aperitivo, con bebida slo.

284 Captulo 15 Figura 15-22 Grfico conjunto del espacio individual Desayuno, con zumo, huevos con bacn, y bebida para la configuracin inicial de la correspondencia.

La mayor especicidad es evidente en el grco conjunto del espacio individual Desayuno, con zumo, huevos con bacn, y bebida. La fuente se carga incluso ms en la primera dimensin que bajo el inicio de Spearman clsico, por lo que los objetos de la y de columna muestran una variacin algo menor en el eje vertical y algo mayor en el eje horizontal.

285 desplegamiento multidimensional Figura 15-23 Grfico conjunto del espacio individual Aperitivo, con bebida slo para la configuracin inicial de la correspondencia.

El grco conjunto del espacio individual Aperitivo, con bebida slo muestra que los objetos de la y de columna se encuentran ms cerca de una lnea vertical que bajo el inicio de Spearman clsico.

Ejemplo: Examen de lo apropiado de conducta y situacin


En un ejemplo clsico (Price y Bouffard, 1974), se pidi a 52 estudiantes que valoraran las combinaciones de 15 situaciones y 15 comportamientos en una escala de 10 puntos que oscila entre 0 = extremadamente apropiado y 9 = extremadamente inapropiado. Los valores promediados respecto a los individuos se toman como disimilaridades. Esta informacin se recoge en el archivo behavior.sav. Si desea obtener ms informacin, consulte el tema Archivos muestrales en el apndice A en IBM SPSS Categories 19. Utilice el desplegamiento multidimensional para encontrar conglomerados de situaciones similares y los comportamientos con los que ms se asocian. Puede encontrar la sintaxis para reproducir estos anlisis en prefscal_behavior.sps.

Ejecucin del anlisis


E Para ejecutar un anlisis de desplegamiento multidimensional, elija en los mens: Analizar > Escala > Desplegamiento multidimensional (PREFSCAL)...

286 Captulo 15 Figura 15-24 Cuadro de dilogo principal Desplegamiento multidimensional

E Seleccione desde Correr hasta Gritar como variables de proximidad. E Seleccione IDFILA como la variable de la. E Pulse en Modelo. Figura 15-25 Cuadro de dilogo Modelo

E Seleccione Lineal como la transformacin de proximidad y seleccione Incluir interseccin. E Seleccione aplicar transformaciones A travs de todas las fuentes simultneamente.

287 desplegamiento multidimensional E Pulse en Continuar. E Pulse en Opciones en el cuadro de dilogo Desplegamiento multidimensional. Figura 15-26 Cuadro de dilogo Opciones

E Seleccione Personalizado en el grupo Conguracin inicial. E Acceda al archivo behavior_ini.sav y seleccinelo como el archivo que contiene la conguracin

personalizada inicial. Si desea obtener ms informacin, consulte el tema Archivos muestrales en el apndice A en IBM SPSS Categories 19.
E

Seleccione dim1 y dim2 como las variables que especican la conguracin inicial.

E Pulse en Continuar. E Pulse en Grficos en el cuadro de dilogo Desplegamiento multidimensional.

288 Captulo 15 Figura 15-27 Cuadro de dilogo Grficos

E Seleccione Grficos de transformacin en el grupo Grcos. E Pulse en Continuar. E Pulse en Aceptar en el cuadro de dilogo Desplegamiento multidimensional.

A continuacin se muestra la sintaxis de comandos generada por estas selecciones:


PREFSCAL VARIABLES=Correr Hablar Besar Escribir Comer Dormir Mascullar Leer Pelear Eructar Discutir Saltar Llorar Reir Gritar /INPUT=ROWS(ROWID ) /INITIAL=( 'samplesDirectory/behavior_ini.sav' ) dim1 dim2 /CONDITION=UNCONDITIONAL /TRANSFORMATION=LINEAR (INTERCEPT) /PROXIMITIES=DISSIMILARITIES

289 desplegamiento multidimensional /MODEL=IDENTITY /CRITERIA=DIMENSIONS(2,2) DIFFSTRESS(.000001) MINSTRESS(.0001) MAXITER(5000) /PENALTY=LAMBDA(0.5) OMEGA(1.0) /PRINT=MEASURES COMMON /PLOT=COMMON TRANSFORMATIONS .

Esta sintaxis especica un anlisis de las variables correr hasta gritar. La variable idla se utiliza para identicar las las. El subcomando INITIAL especica que los valores iniciales se toman del archivo behavior_ini.sav. Las coordenadas de la la y la columna estn apiladas; las coordenadas de la columna siguen a las coordenadas de la la. El subcomando CONDITION especica que todas las proximidades se pueden comparar entre ellas. Esto se cumple en este anlisis, ya que debera poder comparar las proximidades para correr en un parque y correr en una iglesia y ver que un comportamiento se considera menos apropiado que el otro. El subcomando TRANSFORMATION especica una transformacin lineal de las proximidades, con interseccin. Esto es adecuado si una diferencia de 1 punto en las proximidades es equivalente en el rango de la escala de 10 puntos. Es decir, si los estudiantes asignan sus puntuaciones para que la diferencia entre 0 y 1 sea la misma que la diferencia entre 5 y 6, la transformacin lineal ser adecuada. El subcomando PLOT requiere grcos del espacio comn y grcos de transformacin. El resto de parmetros vuelven a sus valores por defecto.

290 Captulo 15

Medidas
Figura 15-28 Medidas

El algoritmo converge despus de 169 iteraciones, con una tensin nal penalizada de 0.6427725. Los coecientes de variacin y el ndice de Shepard son sucientemente altos y los ndices de DeSarbo son sucientemente bajos como para sugerir que no existen problemas de degeneracin.

291 desplegamiento multidimensional

Espacio comn
Figura 15-29 Grfico conjunto del espacio comn

La dimensin horizontal parece estar ms asociada a los objetos de columna (comportamientos) y discrimina entre comportamientos inapropiados (pelear, eructar) y comportamientos ms apropiados. La dimensin vertical parece estar ms asociada a los objetos de la (situaciones) y dene distintas restricciones situacionales o de comportamiento.

Hacia la parte inferior de la dimensin vertical hay situaciones (iglesia, clase) que restringen el comportamiento a los tipos de comportamiento ms tranquilos o introspectivos (leer, escribir). Por lo tanto, estos comportamientos descienden en el eje vertical. Hacia la parte superior de la dimensin vertical hay situaciones (pelculas, juego, cita) que restringen el comportamiento a los tipos de comportamiento ms sociales o extrovertidos (comer, besar, rer). Por lo tanto, estos comportamientos ascienden en el eje vertical. En el centro de la dimensin vertical, las situaciones se separan en la dimensin horizontal segn lo restrictivo que resulta en general la situacin. Las ms alejadas de los comportamientos (entrevista) son las ms restrictivas, mientras que las ms cercanos a los comportamientos (dormitorio, parque) suelen ser las menos restrictivas.

292 Captulo 15

Transformaciones de proximidades
Figura 15-30 Grfico de transformacin

Las proximidades se trataron como lineales en este anlisis, de manera que el grco de los valores transformados respecto a las proximidades originales presenta una lnea recta. El ajuste de esta solucin es bueno, aunque es posible lograr un ajuste mejor con una transformacin diferente de las proximidades.

Cambio de la transformacin de proximidades (ordinal)


E Para generar una solucin con una transformacin ordinal de las proximidades, pulse en la

herramienta Recuperar cuadros de dilogo y seleccione Desplegamiento multidimensional.

293 desplegamiento multidimensional E Pulse en Modelo en el cuadro de dilogo Desplegamiento multidimensional. Figura 15-31 Cuadro de dilogo Modelo

E Seleccione Ordinal como la transformacin de proximidad. E Pulse en Continuar. E Pulse en Aceptar en el cuadro de dilogo Desplegamiento multidimensional.

A continuacin se muestra la sintaxis de comandos generada por estas selecciones:


PREFSCAL VARIABLES=Correr Hablar Besar Escribir Comer Dormir Mascullar Leer Pelear Eructar Discutir Saltar Llorar Reir Gritar /INPUT=ROWS(ROWID ) /INITIAL=( 'samplesDirectory/behavior_ini.sav' ) dim1 dim2 /CONDITION=UNCONDITIONAL /TRANSFORMATION=ORDINAL (KEEPTIES) /PROXIMITIES=DISSIMILARITIES /MODEL=IDENTITY /CRITERIA=DIMENSIONS(2,2) DIFFSTRESS(.000001) MINSTRESS(.0001) MAXITER(5000) /PENALTY=LAMBDA(0.5) OMEGA(1.0) /PRINT=MEASURES COMMON /PLOT=COMMON TRANSFORMATIONS .

El nico cambio se encuentra en el subcomando TRANSFORMATION. La transformacin se ha establecido en ORDINAL, que conserva el orden de proximidades pero no requiere que los valores transformados sean proporcionales a los valores originales.

294 Captulo 15

Medidas
Figura 15-32 Medidas para la solucin con transformacin ordinal

El algoritmo converge despus de 268 iteraciones, con una tensin nal penalizada de 0,6044671. Este estadstico y las otras medidas son ligeramente mejores para esta solucin que la solucin obtenida con una transformacin lineal de las proximidades.

295 desplegamiento multidimensional

Espacio comn
Figura 15-33 Grfico conjunto del espacio comn para la solucin con transformacin ordinal

La interpretacin del espacio comn es la misma en ambas soluciones. Quizs esta solucin (con la transformacin ordinal) tiene una variacin relativamente menor en la dimensin vertical que en la dimensin horizontal de lo que es evidente en la solucin con la transformacin lineal.

296 Captulo 15

Transformaciones de proximidades
Figura 15-34 Grfico de transformacin para la solucin con transformacin ordinal

Aparte de los valores con las proximidades mayores, que se alejan del resto de los valores, la transformacin ordinal de las proximidades es bastante lineal. Estas proximidades suelen explicar la mayora de las diferencias entre las soluciones ordinal y lineal; sin embargo, no hay suciente informacin aqu como para determinar si esta tendencia no lineal de los valores ms altos es verdadera o se trata de una anomala.

Lecturas recomendadas
Consulte los siguientes textos si desea obtener ms informacin: Busing, F. M. T. A., P. J. F. Groenen, y W. J. Heiser. 2005. Avoiding degeneracy in multidimensional unfolding by penalizing on the coefcient of variation. Psychometrika, 70, . Green, P. E., y V. Rao. 1972. Applied multidimensional scaling. Hinsdale, Ill.: Dryden Press. Price, R. H., y D. L. Bouffard. 1974. Behavioral appropriateness and situational constraints as dimensions of social behavior. Journal of Personality and Social Psychology, 30, .

Apndice

Archivos muestrales

Los archivos muestrales instalados con el producto se encuentran en el subdirectorio Samples del directorio de instalacin. Hay una carpeta independiente dentro del subdirectorio Samples para cada uno de los siguientes idiomas: Ingls, francs, alemn, italiano, japons, coreano, polaco, ruso, chino simplicado, espaol y chino tradicional. No todos los archivos muestrales estn disponibles en todos los idiomas. Si un archivo muestral no est disponible en un idioma, esa carpeta de idioma contendr una versin en ingls del archivo muestral.
Descripciones

A continuacin, se describen brevemente los archivos muestrales usados en varios ejemplos que aparecen a lo largo de la documentacin.

accidents.sav.Archivo de datos hipotticos sobre una compaa de seguros que estudia los

factores de riesgo de edad y gnero que inuyen en los accidentes de automviles de una regin determinada. Cada caso corresponde a una clasicacin cruzada de categora de edad y gnero.

adl.sav.Archivo de datos hipotticos relativo a los esfuerzos para determinar las ventajas de un

tipo propuesto de tratamiento para pacientes que han sufrido un derrame cerebral. Los mdicos dividieron de manera aleatoria a pacientes (mujeres) que haban sufrido un derrame cerebral en dos grupos. El primer grupo recibi el tratamiento fsico estndar y el segundo recibi un tratamiento emocional adicional. Tres meses despus de los tratamientos, se puntuaron las capacidades de cada paciente para realizar actividades cotidianas como variables ordinales.

advert.sav. Archivo de datos hipotticos sobre las iniciativas de un minorista para examinar

la relacin entre el dinero invertido en publicidad y las ventas resultantes. Para ello, se recopilaron las cifras de ventas anteriores y los costes de publicidad asociados.

aflatoxin.sav. Archivo de datos hipotticos sobre las pruebas realizadas en las cosechas de

maz con relacin a la aatoxina, un veneno cuya concentracin vara ampliamente en los rendimientos de cultivo y entre los mismos. Un procesador de grano ha recibido 16 muestras de cada uno de los 8 rendimientos de cultivo y ha medido los niveles de aatoxinas en partes por milln (PPM).

aflatoxin20.sav. Este archivo de datos contiene las medidas de aatoxina de cada una de las 16

muestras de los rendimientos 4 y 8 procedentes del archivo de datos aatoxin.sav.


anorectic.sav.Mientras trabajaban en una sintomatologa estandarizada del comportamiento

anorxico/bulmico, los investigadores (Van der Ham, Meulman, Van Strien, y Van Engeland, 1997) realizaron un estudio de 55 adolescentes con trastornos de la alimentacin conocidos. Cada paciente fue examinado cuatro veces durante cuatro aos, lo que representa un total
Copyright SPSS Inc. 1989, 2010 297

298 Apndice A

de 220 observaciones. En cada observacin, se puntu a los pacientes por cada uno de los 16 sntomas. Faltan las puntuaciones de los sntomas para el paciente 71 en el tiempo 2, el paciente 76 en el tiempo 2 y el paciente 47 en el tiempo 3, lo que nos deja 217 observaciones vlidas.

autoaccidents.sav. Archivo de datos hipotticos sobre las iniciativas de un analista de seguros

para elaborar un modelo del nmero de accidentes de automvil por conductor teniendo en cuenta la edad y el gnero del conductor. Cada caso representa un conductor diferente y registra el sexo, la edad en aos y el nmero de accidentes de automvil del conductor en los ltimos cinco aos.

band.sav Este archivo de datos contiene las cifras de ventas semanales hipotticas de CD de

msica de una banda. Tambin se incluyen datos para tres variables predictoras posibles.
bankloan.sav.Archivo de datos hipotticos sobre las iniciativas de un banco para reducir la

tasa de moras de crditos. El archivo contiene informacin nanciera y demogrca de 850 clientes anteriores y posibles clientes. Los primeros 700 casos son clientes a los que anteriormente se les ha concedido un prstamo. Al menos 150 casos son posibles clientes cuyos riesgos de crdito el banco necesita clasicar como positivos o negativos.

bankloan_binning.sav. Archivo de datos hipotticos que contiene informacin nanciera y

demogrca sobre 5.000 clientes anteriores.


behavior.sav. En un ejemplo clsico (Price y Bouffard, 1974), se pidi a 52 estudiantes

que valoraran las combinaciones de 15 situaciones y 15 comportamientos en una escala de 10 puntos que oscilaba entre 0 =extremadamente apropiado y 9=extremadamente inapropiado. Los valores promediados respecto a los individuos se toman como disimilaridades.

behavior_ini.sav. Este archivo de datos contiene una conguracin inicial para una solucin

bidimensional de behavior.sav.
brakes.sav. Archivo de datos hipotticos sobre el control de calidad de una fbrica que

produce frenos de disco para automviles de alto rendimiento. El archivo de datos contiene las medidas del dimetro de 16 discos de cada una de las 8 mquinas de produccin. El dimetro objetivo para los frenos es de 322 milmetros.

breakfast.sav.En un estudio clsico (Green y Rao, 1972), se pidi a 21 estudiantes de

administracin de empresas de la Wharton School y sus cnyuges que ordenaran 15 elementos de desayuno por orden de preferencia, de 1=ms preferido a 15=menos preferido. Sus preferencias se registraron en seis escenarios distintos, de Preferencia global a Aperitivo, con bebida slo.

breakfast-overall.sav. Este archivo de datos slo contiene las preferencias de elementos de

desayuno para el primer escenario, Preferencia global.


broadband_1.sav Archivo de datos hipotticos que contiene el nmero de suscriptores, por

regin, a un servicio de banda ancha nacional. El archivo de datos contiene nmeros de suscriptores mensuales para 85 regiones durante un perodo de cuatro aos.

broadband_2.sav Este archivo de datos es idntico a broadband_1.sav pero contiene datos

para tres meses adicionales.


car_insurance_claims.sav. Un conjunto de datos presentados y analizados en otro lugar

(McCullagh y Nelder, 1989) estudia las reclamaciones por daos en vehculos. La cantidad de reclamaciones media se puede modelar como si tuviera una distribucin Gamma, mediante

299 Archivos muestrales

una funcin de enlace inversa para relacionar la media de la variable dependiente con una combinacin lineal de la edad del asegurado, el tipo de vehculo y la antigedad del vehculo. El nmero de reclamaciones presentadas se puede utilizar como una ponderacin de escalamiento.

car_sales.sav. Este archivo de datos contiene estimaciones de ventas, precios de lista y

especicaciones fsicas hipotticas de varias marcas y modelos de vehculos. Los precios de lista y las especicaciones fsicas se han obtenido de edmunds.com y de sitios de fabricantes.

car_sales_uprepared.sav.sta es una versin modicada de car_sales.sav que no incluye

ninguna versin transformada de los campos.


carpet.sav En un ejemplo muy conocido (Green y Wind, 1973), una compaa interesada en

sacar al mercado un nuevo limpiador de alfombras desea examinar la inuencia de cinco factores sobre la preferencia del consumidor: diseo del producto, marca comercial, precio, sello de buen producto para el hogar y garanta de devolucin del importe. Hay tres niveles de factores para el diseo del producto, cada uno con una diferente colocacin del cepillo del aplicador; tres nombres comerciales (K2R, Glory y Bissell); tres niveles de precios; y dos niveles (no o s) para los dos ltimos factores. Diez consumidores clasicaron 22 perles denidos por estos factores. La variable Preferencia contiene el rango de las clasicaciones medias de cada perl. Las clasicaciones inferiores corresponden a preferencias elevadas. Esta variable reeja una medida global de la preferencia de cada perl.

carpet_prefs.sav Este archivo de datos se basa en el mismo ejemplo que el descrito para

carpet.sav, pero contiene las clasicaciones reales recogidas de cada uno de los 10 consumidores. Se pidi a los consumidores que clasicaran los 22 perles de los productos empezando por el menos preferido. Las variables desde PREF1 hasta PREF22 contienen los ID de los perles asociados, como se denen en carpet_plan.sav.

catalog.savEste archivo de datos contiene cifras de ventas mensuales hipotticas de tres

productos vendidos por una compaa de venta por catlogo. Tambin se incluyen datos para cinco variables predictoras posibles.

catalog_seasfac.savEste archivo de datos es igual que catalog.sav, con la excepcin de

que incluye un conjunto de factores estacionales calculados a partir del procedimiento Descomposicin estacional junto con las variables de fecha que lo acompaan.

cellular.sav. Archivo de datos hipotticos sobre las iniciativas de una compaa de telefona

mvil para reducir el abandono de clientes. Las puntuaciones de propensin al abandono de clientes se aplican a las cuentas, oscilando de 0 a 100. Las cuentas con una puntuacin de 50 o superior pueden estar buscando otros proveedores.

ceramics.sav.Archivo de datos hipotticos sobre las iniciativas de un fabricante para

determinar si una nueva aleacin de calidad tiene una mayor resistencia al calor que una aleacin estndar. Cada caso representa una prueba independiente de una de las aleaciones; la temperatura a la que registr el fallo del rodamiento.

cereal.sav. Archivo de datos hipotticos sobre una encuesta realizada a 880 personas sobre

sus preferencias en el desayuno, teniendo tambin en cuenta su edad, sexo, estado civil y si tienen un estilo de vida activo o no (en funcin de si practican ejercicio al menos dos veces a la semana). Cada caso representa un encuestado diferente.

clothing_defects.sav. Archivo de datos hipotticos sobre el proceso de control de calidad en

una fbrica de prendas. Los inspectores toman una muestra de prendas de cada lote producido en la fbrica, y cuentan el nmero de prendas que no son aceptables.

300 Apndice A

coffee.sav. Este archivo de datos pertenece a las imgenes percibidas de seis marcas de caf

helado (Kennedy, Riquier, y Sharp, 1996). Para cada uno de los 23 atributos de imagen de caf helado, los encuestados seleccionaron todas las marcas que quedaban descritas por el atributo. Las seis marcas se denotan AA, BB, CC, DD, EE y FF para mantener la condencialidad.

contacts.sav.Archivo de datos hipotticos sobre las listas de contactos de un grupo de

representantes de ventas de ordenadores de empresa. Cada uno de los contactos est categorizado por el departamento de la compaa en el que trabaja y su categora en la compaa. Adems, tambin se registran los importes de la ltima venta realizada, el tiempo transcurrido desde la ltima venta y el tamao de la compaa del contacto.

creditpromo.sav. Archivo de datos hipotticos sobre las iniciativas de unos almacenes

para evaluar la ecacia de una promocin de tarjetas de crdito reciente. Para este n, se seleccionaron aleatoriamente 500 titulares. La mitad recibieron un anuncio promocionando una tasa de inters reducida sobre las ventas realizadas en los siguientes tres meses. La otra mitad recibi un anuncio estacional estndar.

customer_dbase.sav. Archivo de datos hipotticos sobre las iniciativas de una compaa para

usar la informacin de su almacn de datos para realizar ofertas especiales a los clientes con ms probabilidades de responder. Se seleccion un subconjunto de la base de clientes aleatoriamente a quienes se ofrecieron las ofertas especiales y sus respuestas se registraron.

customer_information.sav. Archivo de datos hipotticos que contiene la informacin de correo

del cliente, como el nombre y la direccin.


customer_subset.sav. Un subconjunto de 80 casos de customer_dbase.sav. customers_model.sav. Este archivo contiene datos hipotticos sobre los individuos a los que

va dirigida una campaa de marketing. Estos datos incluyen informacin demogrca, un resumen del historial de compras y si cada individuo respondi a la campaa. Cada caso representa un individuo diferente.

customers_new.sav. Este archivo contiene datos hipotticos sobre los individuos que son

candidatos potenciales para una campaa de marketing. Estos datos incluyen informacin demogrca y un resumen del historial de compras de cada individuo. Cada caso representa un individuo diferente.

debate.sav. Archivos de datos hipotticos sobre las respuestas emparejadas de una encuesta

realizada a los asistentes a un debate poltico antes y despus del debate. Cada caso corresponde a un encuestado diferente.

debate_aggregate.sav. Archivo de datos hipotticos que agrega las respuestas de debate.sav.

Cada caso corresponde a una clasicacin cruzada de preferencias antes y despus del debate.
demo.sav. Archivos de datos hipotticos sobre una base de datos de clientes adquirida con

el n de enviar por correo ofertas mensuales. Se registra si el cliente respondi a la oferta, junto con informacin demogrca diversa.

demo_cs_1.sav.Archivo de datos hipotticos sobre el primer paso de las iniciativas de

una compaa para recopilar una base de datos de informacin de encuestas. Cada caso corresponde a una ciudad diferente, y se registra la identicacin de la ciudad, la regin, la provincia y el distrito.

demo_cs_2.sav.Archivo de datos hipotticos sobre el segundo paso de las iniciativas de

una compaa para recopilar una base de datos de informacin de encuestas. Cada caso corresponde a una unidad familiar diferente de las ciudades seleccionadas en el primer paso, y

301 Archivos muestrales

se registra la identicacin de la unidad, la subdivisin, la ciudad, el distrito, la provincia y la regin. Tambin se incluye la informacin de muestreo de las primeras dos etapas del diseo.

demo_cs.sav.Archivo de datos hipotticos que contiene informacin de encuestas recopilada

mediante un diseo de muestreo complejo. Cada caso corresponde a una unidad familiar distinta, y se recopila informacin demogrca y de muestreo diversa.

dmdata.sav. ste es un archivo de datos hipotticos que contiene informacin demogrca

y de compras para una empresa de marketing directo. dmdata2.sav contiene informacin para un subconjunto de contactos que recibi un envo de prueba, y dmdata3.sav contiene informacin sobre el resto de contactos que no recibieron el envo de prueba.

dietstudy.sav.Este archivo de datos hipotticos contiene los resultados de un estudio sobre la

dieta Stillman (Rickman, Mitchell, Dingman, y Dalen, 1974). Cada caso corresponde a un sujeto distinto y registra sus pesos antes y despus de la dieta en libras y niveles de triglicridos en mg/100 ml.

dvdplayer.sav. Archivo de datos hipotticos sobre el desarrollo de un nuevo reproductor de

DVD. El equipo de marketing ha recopilado datos de grupo de enfoque mediante un prototipo. Cada caso corresponde a un usuario encuestado diferente y registra informacin demogrca sobre los encuestados y sus respuestas a preguntas acerca del prototipo.

german_credit.sav.Este archivo de datos se toma del conjunto de datos German credit de

las Repository of Machine Learning Databases (Blake y Merz, 1998) de la Universidad de California, Irvine.

grocery_1month.sav. Este archivo de datos hipotticos es el archivo de datos

grocery_coupons.sav con las compras semanales acumuladas para que cada caso corresponda a un cliente diferente. Algunas de las variables que cambiaban semanalmente desaparecen de los resultados, y la cantidad gastada registrada se convierte ahora en la suma de las cantidades gastadas durante las cuatro semanas del estudio.

grocery_coupons.sav. Archivo de datos hipotticos que contiene datos de encuestas

recopilados por una cadena de tiendas de alimentacin interesada en los hbitos de compra de sus clientes. Se sigue a cada cliente durante cuatro semanas, y cada caso corresponde a un cliente-semana distinto y registra informacin sobre dnde y cmo compran los clientes, incluida la cantidad que invierten en comestibles durante esa semana.

guttman.sav.Bell (Bell, 1961) present una tabla para ilustrar posibles grupos sociales.

Guttman (Guttman, 1968) utiliz parte de esta tabla, en la que se cruzaron cinco variables que describan elementos como la interaccin social, sentimientos de pertenencia a un grupo, proximidad fsica de los miembros y grado de formalizacin de la relacin con siete grupos sociales tericos, incluidos multitudes (por ejemplo, las personas que acuden a un partido de ftbol), espectadores (por ejemplo, las personas que acuden a un teatro o de una conferencia), pblicos (por ejemplo, los lectores de peridicos o los espectadores de televisin), muchedumbres (como una multitud pero con una interaccin mucho ms intensa), grupos primarios (ntimos), grupos secundarios (voluntarios) y la comunidad moderna (confederacin dbil que resulta de la proximidad cercana fsica y de la necesidad de servicios especializados).

health_funding.sav. Archivo de datos hipotticos que contiene datos sobre inversin en sanidad

(cantidad por 100 personas), tasas de enfermedad (ndice por 10.000 personas) y visitas a centros de salud (ndice por 10.000 personas). Cada caso representa una ciudad diferente.

302 Apndice A

hivassay.sav. Archivo de datos hipotticos sobre las iniciativas de un laboratorio farmacutico

para desarrollar un ensayo rpido para detectar la infeccin por VIH. Los resultados del ensayo son ocho tonos de rojo con diferentes intensidades, donde los tonos ms oscuros indican una mayor probabilidad de infeccin. Se llev a cabo una prueba de laboratorio de 2.000 muestras de sangre, de las cuales una mitad estaba infectada con el VIH y la otra estaba limpia.

hourlywagedata.sav. Archivo de datos hipotticos sobre los salarios por horas de enfermeras

de puestos de ocina y hospitales y con niveles distintos de experiencia.


insurance_claims.sav. ste es un archivo de datos hipotticos sobre una compaa de seguros

que desee generar un modelo para etiquetar las reclamaciones sospechosas y potencialmente fraudulentas. Cada caso representa una reclamacin diferente.

insure.sav. Archivo de datos hipotticos sobre una compaa de seguros que estudia los

factores de riesgo que indican si un cliente tendr que hacer una reclamacin a lo largo de un contrato de seguro de vida de 10 aos. Cada caso del archivo de datos representa un par de contratos (de los que uno registr una reclamacin y el otro no), agrupados por edad y sexo.

judges.sav. Archivo de datos hipotticos sobre las puntuaciones concedidas por jueces

cualicados (y un acionado) a 300 actuaciones gimnsticas. Cada la representa una actuacin diferente; los jueces vieron las mismas actuaciones.

kinship_dat.sav. Rosenberg y Kim (Rosenberg y Kim, 1975) comenzaron a analizar 15

trminos de parentesco [ta, hermano, primos, hija, padre, nieta, abuelo, abuela, nieto, madre, sobrino, sobrina, hermana, hijo, to]. Le pidieron a cuatro grupos de estudiantes universitarios (dos masculinos y dos femeninos) que ordenaran estos grupos segn las similitudes. A dos grupos (uno masculino y otro femenino) se les pidi que realizaran la ordenacin dos veces, pero que la segunda ordenacin la hicieran segn criterios distintos a los de la primera. As, se obtuvo un total de seis fuentes. Cada fuente se corresponde con una matriz de proximidades cuyas casillas son iguales al nmero de personas de una fuente menos el nmero de de veces que se particionaron los objetos en esa fuente.

kinship_ini.sav. Este archivo de datos contiene una conguracin inicial para una solucin

tridimensional de kinship_dat.sav.
kinship_var.sav. Este archivo de datos contiene variables independientes sexo, gener(acin), y

grado (de separacin) que se pueden usar para interpretar las dimensiones de una solucin para kinship_dat.sav. Concretamente, se pueden usar para restringir el espacio de la solucin a una combinacin lineal de estas variables.

marketvalues.sav. Archivo de datos sobre las ventas de casas en una nueva urbanizacin de

Algonquin, Ill., durante los aos 1999 y 2000. Los datos de estas ventas son pblicos.
nhis2000_subset.sav. La National Health Interview Survey (NHIS, encuesta del Centro

Nacional de Estadsticas de Salud de EE.UU.) es una encuesta detallada realizada entre la poblacin civil de Estados Unidos. Las encuestas se realizaron en persona a una muestra representativa de las unidades familiares del pas. Se recogi tanto la informacin demogrca como las observaciones acerca del estado y los hbitos de salud de los integrantes de cada unidad familiar. Este archivo de datos contiene un subconjunto de informacin de la encuesta de 2000. National Center for Health Statistics. National Health Interview Survey, 2000. Archivo de datos y documentacin de uso pblico. ftp://ftp.cdc.gov/pub/Health_Statistics/NCHS/Datasets/NHIS/2000/. Fecha de acceso: 2003.

303 Archivos muestrales

ozono.sav. Los datos incluyen 330 observaciones de seis variables meteorolgicas para

pronosticar la concentracin de ozono a partir del resto de variables. Los investigadores anteriores(Breiman y Friedman, 1985), (Hastie y Tibshirani, 1990) han encontrado que no hay linealidad entre estas variables, lo que diculta los mtodos de regresin tpica.

pain_medication.sav. Este archivo de datos hipotticos contiene los resultados de una prueba

clnica sobre medicacin antiinamatoria para tratar el dolor artrtico crnico. Resulta de particular inters el tiempo que tarda el frmaco en hacer efecto y cmo se compara con una medicacin existente.

patient_los.sav. Este archivo de datos hipotticos contiene los registros de tratamiento de

pacientes que fueron admitidos en el hospital ante la posibilidad de sufrir un infarto de miocardio (IM o ataque al corazn). Cada caso corresponde a un paciente distinto y registra diversas variables relacionadas con su estancia hospitalaria.

patlos_sample.sav. Este archivo de datos hipotticos contiene los registros de tratamiento de

una muestra de pacientes que recibieron trombolticos durante el tratamiento del infarto de miocardio (IM o ataque al corazn). Cada caso corresponde a un paciente distinto y registra diversas variables relacionadas con su estancia hospitalaria.

polishing.sav. Archivo de datos Nambeware Polishing Times (Tiempo de pulido de metal)

de la biblioteca de datos e historiales. Contiene datos sobre las iniciativas de un fabricante de cuberteras de metal (Nambe Mills, Santa Fe, N. M.) para planicar su programa de produccin. Cada caso representa un artculo distinto de la lnea de productos. Se registra el dimetro, el tiempo de pulido, el precio y el tipo de producto de cada artculo.

poll_cs.sav. Archivo de datos hipotticos sobre las iniciativas de los encuestadores para

determinar el nivel de apoyo pblico a una ley antes de una asamblea legislativa. Los casos corresponden a votantes registrados. Cada caso registra el condado, la poblacin y el vecindario en el que vive el votante.

poll_cs_sample.sav. Este archivo de datos hipotticos contiene una muestra de los votantes

enumerados en poll_cs.sav. La muestra se tom segn el diseo especicado en el archivo de plan poll.csplan y este archivo de datos registra las probabilidades de inclusin y las ponderaciones muestrales. Sin embargo, tenga en cuenta que debido a que el plan muestral hace uso de un mtodo de probabilidad proporcional al tamao (PPS), tambin existe un archivo que contiene las probabilidades de seleccin conjunta (poll_jointprob.sav). Las variables adicionales que corresponden a los datos demogrcos de los votantes y sus opiniones sobre la propuesta de ley se recopilaron y aadieron al archivo de datos despus de tomar la muestra.

property_assess.sav. Archivo de datos hipotticos sobre las iniciativas de un asesor del

condado para mantener actualizada la evaluacin de los valores de las propiedades utilizando recursos limitados. Los casos corresponden a las propiedades vendidas en el condado el ao anterior. Cada caso del archivo de datos registra la poblacin en que se encuentra la propiedad, el ltimo asesor que visit la propiedad, el tiempo transcurrido desde la ltima evaluacin, la valoracin realizada en ese momento y el valor de venta de la propiedad.

property_assess_cs.sav. Archivo de datos hipotticos sobre las iniciativas de un asesor de un

estado para mantener actualizada la evaluacin de los valores de las propiedades utilizando recursos limitados. Los casos corresponden a propiedades del estado. Cada caso del archivo de datos registra el condado, la poblacin y el vecindario en el que se encuentra la propiedad, el tiempo transcurrido desde la ltima evaluacin y la valoracin realizada en ese momento.

304 Apndice A

property_assess_cs_sample.savEste archivo de datos hipotticos contiene una muestra de las

propiedades recogidas en property_assess_cs.sav. La muestra se tom en funcin del diseo especicado en el archivo de plan property_assess.csplan, y este archivo de datos registra las probabilidades de inclusin y las ponderaciones muestrales. La variable adicional Valor actual se recopil y aadi al archivo de datos despus de tomar la muestra.

recidivism.sav. Archivo de datos hipotticos sobre las iniciativas de una agencia de orden

pblico para comprender los ndices de reincidencia en su rea de jurisdiccin. Cada caso corresponde a un infractor anterior y registra su informacin demogrca, algunos detalles de su primer delito y, a continuacin, el tiempo transcurrido desde su segundo arresto, si ocurri en los dos aos posteriores al primer arresto.

recidivism_cs_sample.sav. Archivo de datos hipotticos sobre las iniciativas de una agencia de

orden pblico para comprender los ndices de reincidencia en su rea de jurisdiccin. Cada caso corresponde a un delincuente anterior, puesto en libertad tras su primer arresto durante el mes de junio de 2003 y registra su informacin demogrca, algunos detalles de su primer delito y los datos de su segundo arresto, si se produjo antes de nales de junio de 2006. Los delincuentes se seleccionaron de una muestra de departamentos segn el plan de muestreo especicado en recidivism_cs.csplan. Como este plan utiliza un mtodo de probabilidad proporcional al tamao (PPS), tambin existe un archivo que contiene las probabilidades de seleccin conjunta (recidivism_cs_jointprob.sav).

rfm_transactions.sav. Archivo de datos hipotticos que contiene datos de transacciones de

compra, incluida la fecha de compra, los artculos adquiridos y el importe de cada transaccin.
salesperformance.sav. Archivo de datos hipotticos sobre la evaluacin de dos nuevos cursos

de formacin de ventas. Sesenta empleados, divididos en tres grupos, reciben formacin estndar. Adems, el grupo 2 recibe formacin tcnica; el grupo 3, un tutorial prctico. Cada empleado se someti a un examen al nal del curso de formacin y se registr su puntuacin. Cada caso del archivo de datos representa a un alumno distinto y registra el grupo al que fue asignado y la puntuacin que obtuvo en el examen.

satisf.sav. Archivo de datos hipotticos sobre una encuesta de satisfaccin llevada a cabo por

una empresa minorista en cuatro tiendas. Se encuest a 582 clientes en total y cada caso representa las respuestas de un nico cliente.

screws.sav Este archivo de datos contiene informacin acerca de las caractersticas de

tornillos, pernos, clavos y tacos (Hartigan, 1975).


shampoo_ph.sav.Archivo de datos hipotticos sobre el control de calidad en una fbrica de

productos para el cabello. Se midieron seis lotes de resultados distintos en intervalos regulares y se registr su pH. El intervalo objetivo es de 4,5 a 5,5.

ships.sav. Un conjunto de datos presentados y analizados en otro lugar (McCullagh et al.,

1989) sobre los daos en los cargueros producidos por las olas. Los recuentos de incidentes se pueden modelar como si ocurrieran con una tasa de Poisson dado el tipo de barco, el perodo de construccin y el perodo de servicio. Los meses de servicio agregados para cada casilla de la tabla formados por la clasicacin cruzada de factores proporcionan valores para la exposicin al riesgo.

site.sav.Archivo de datos hipotticos sobre las iniciativas de una compaa para seleccionar

sitios nuevos para sus negocios en expansin. Se ha contratado a dos consultores para evaluar los sitios de forma independiente, quienes, adems de un informe completo, han resumido cada sitio como una posibilidad buena, media o baja.

305 Archivos muestrales

smokers.sav.Este archivo de datos es un resumen de la encuesta sobre toxicomana 1998

National Household Survey of Drug Abuse y es una muestra de probabilidad de unidades familiares americanas. (http://dx.doi.org/10.3886/ICPSR02934) As, el primer paso de un anlisis de este archivo de datos debe ser ponderar los datos para reejar las tendencias de poblacin.

stroke_clean.sav. Este archivo de datos hipotticos contiene el estado de una base de datos

mdica despus de haberla limpiado mediante los procedimientos de la opcin Preparacin de datos.

stroke_invalid.sav. Este archivo de datos hipotticos contiene el estado inicial de una base de

datos mdica que incluye contiene varios errores de entrada de datos.


stroke_survival. Este archivo de datos hipotticos registra los tiempos de supervivencia de

los pacientes que nalizan un programa de rehabilitacin tras un ataque isqumico. Tras el ataque, la ocurrencia de infarto de miocardio, ataque isqumico o ataque hemorrgico se anotan junto con el momento en el que se produce el evento registrado. La muestra est truncada a la izquierda ya que nicamente incluye a los pacientes que han sobrevivido al nal del programa de rehabilitacin administrado tras el ataque.

stroke_valid.sav. Este archivo de datos hipotticos contiene el estado de una base de datos

mdica despus de haber comprobado los valores mediante el procedimiento Validar datos. Sigue conteniendo casos potencialmente anmalos.

survey_sample.sav. Este archivo de datos contiene datos de encuestas, incluyendo datos

demogrcos y diferentes medidas de actitud. Se basa en un subconjunto de variables de NORC General Social Survey de 1998, aunque algunos valores de datos se han modicado y que existen variables cticias adicionales se han aadido para demostraciones.

telco.sav. Archivo de datos hipotticos sobre las iniciativas de una compaa de

telecomunicaciones para reducir el abandono de clientes en su base de clientes. Cada caso corresponde a un cliente distinto y registra diversa informacin demogrca y de uso del servicio.

telco_extra.sav. Este archivo de datos es similar al archivo de datos telco.sav, pero las variables

de meses con servicio y gasto de clientes transformadas logartmicamente se han eliminado y sustituido por variables de gasto del cliente transformadas logartmicamente tipicadas.

telco_missing.sav. Este archivo de datos es un subconjunto del archivo de datos telco.sav, pero

algunos valores de datos demogrcos se han sustituido con valores perdidos.


testmarket.sav. Archivo de datos hipotticos sobre los planes de una cadena de comida rpida

para aadir un nuevo artculo a su men. Hay tres campaas posibles para promocionar el nuevo producto, por lo que el artculo se presenta en ubicaciones de varios mercados seleccionados aleatoriamente. Se utiliza una promocin diferente en cada ubicacin y se registran las ventas semanales del nuevo artculo durante las primeras cuatro semanas. Cada caso corresponde a una ubicacin semanal diferente.

testmarket_1month.sav. Este archivo de datos hipotticos es el archivo de datos testmarket.sav

con las ventas semanales acumuladas para que cada caso corresponda a una ubicacin diferente. Como resultado, algunas de las variables que cambiaban semanalmente desaparecen y las ventas registradas se convierten en la suma de las ventas realizadas durante las cuatro semanas del estudio.

tree_car.sav. Archivo de datos hipotticos que contiene datos demogrcos y de precios

de compra de vehculos.

306 Apndice A

tree_credit.sav Archivo de datos hipotticos que contiene datos demogrcos y de historial de

crditos bancarios.
tree_missing_data.sav Archivo de datos hipotticos que contiene datos demogrcos y de

historial de crditos bancarios con un elevado nmero de valores perdidos.


tree_score_car.sav. Archivo de datos hipotticos que contiene datos demogrcos y de precios

de compra de vehculos.
tree_textdata.sav. Archivo de datos sencillos con dos variables diseadas principalmente para

mostrar el estado por defecto de las variables antes de realizar la asignacin de nivel de medida y etiquetas de valor.

tv-survey.sav. Archivo de datos hipotticos sobre una encuesta dirigida por un estudio de

TV que est considerando la posibilidad de ampliar la emisin de un programa de xito. Se pregunt a 906 encuestados si veran el programa en distintas condiciones. Cada la representa un encuestado diferente; cada columna es una condicin diferente.

ulcer_recurrence.sav. Este archivo contiene informacin parcial de un estudio diseado para

comparar la ecacia de dos tratamientos para prevenir la reaparicin de lceras. Constituye un buen ejemplo de datos censurados por intervalos y se ha presentado y analizado en otro lugar (Collett, 2003).

ulcer_recurrence_recoded.sav. Este archivo reorganiza la informacin de ulcer_recurrence.sav

para permitir modelar la probabilidad de eventos de cada intervalo del estudio en lugar de slo la probabilidad de eventos al nal del estudio. Se ha presentado y analizado en otro lugar (Collett et al., 2003).

verd1985.sav. Archivo de datos sobre una encuesta (Verdegaal, 1985). Se han registrado las

respuestas de 15 sujetos a 8 variables. Se han dividido las variables de inters en tres grupos. El conjunto 1 incluye edad y ecivil, el conjunto 2 incluye mascota y noticia, mientras que el conjunto 3 incluye msica y vivir. Se escala mascota como nominal mltiple y edad como ordinal; el resto de variables se escalan como nominal simple.

virus.sav.Archivo de datos hipotticos sobre las iniciativas de un proveedor de servicios de

Internet (ISP) para determinar los efectos de un virus en sus redes. Se ha realizado un seguimiento (aproximado) del porcentaje de trco de correos electrnicos infectados en sus redes a lo largo del tiempo, desde el momento en que se descubre hasta que la amenaza se contiene.

wheeze_steubenville.sav. Subconjunto de un estudio longitudinal de los efectos sobre la salud

de la polucin del aire en los nios (Ware, Dockery, Spiro III, Speizer, y Ferris Jr., 1984). Los datos contienen medidas binarias repetidas del estado de las sibilancias en nios de Steubenville, Ohio, con edades de 7, 8, 9 y 10 aos, junto con un registro jo de si la madre era fumadora durante el primer ao del estudio.

workprog.sav. Archivo de datos hipotticos sobre un programa de obras del gobierno que

intenta colocar a personas desfavorecidas en mejores trabajos. Se sigui una muestra de participantes potenciales del programa, algunos de los cuales se seleccionaron aleatoriamente para entrar en el programa, mientras que otros no siguieron esta seleccin aleatoria. Cada caso representa un participante del programa diferente.

Apndice

Notices

Licensed Materials Property of SPSS Inc., an IBM Company. Copyright SPSS Inc. 1989, 2010. Patent No. 7,023,453
The following paragraph does not apply to the United Kingdom or any other country where such provisions are inconsistent with local law: SPSS INC., AN IBM COMPANY, PROVIDES THIS

PUBLICATION AS IS WITHOUT WARRANTY OF ANY KIND, EITHER EXPRESS OR IMPLIED, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF NON-INFRINGEMENT, MERCHANTABILITY OR FITNESS FOR A PARTICULAR PURPOSE. Some states do not allow disclaimer of express or implied warranties in certain transactions, therefore, this statement may not apply to you. This information could include technical inaccuracies or typographical errors. Changes are periodically made to the information herein; these changes will be incorporated in new editions of the publication. SPSS Inc. may make improvements and/or changes in the product(s) and/or the program(s) described in this publication at any time without notice. Any references in this information to non-SPSS and non-IBM Web sites are provided for convenience only and do not in any manner serve as an endorsement of those Web sites. The materials at those Web sites are not part of the materials for this SPSS Inc. product and use of those Web sites is at your own risk. When you send information to IBM or SPSS, you grant IBM and SPSS a nonexclusive right to use or distribute the information in any way it believes appropriate without incurring any obligation to you. Information concerning non-SPSS products was obtained from the suppliers of those products, their published announcements or other publicly available sources. SPSS has not tested those products and cannot conrm the accuracy of performance, compatibility or any other claims related to non-SPSS products. Questions on the capabilities of non-SPSS products should be addressed to the suppliers of those products. This information contains examples of data and reports used in daily business operations. To illustrate them as completely as possible, the examples include the names of individuals, companies, brands, and products. All of these names are ctitious and any similarity to the names and addresses used by an actual business enterprise is entirely coincidental. COPYRIGHT LICENSE: This information contains sample application programs in source language, which illustrate programming techniques on various operating platforms. You may copy, modify, and distribute these sample programs in any form without payment to SPSS Inc., for the purposes of developing,
Copyright SPSS Inc. 1989, 2010 307

308 Apndice B

using, marketing or distributing application programs conforming to the application programming interface for the operating platform for which the sample programs are written. These examples have not been thoroughly tested under all conditions. SPSS Inc., therefore, cannot guarantee or imply reliability, serviceability, or function of these programs. The sample programs are provided AS IS, without warranty of any kind. SPSS Inc. shall not be liable for any damages arising out of your use of the sample programs.
Trademarks

IBM, the IBM logo, and ibm.com are trademarks of IBM Corporation, registered in many jurisdictions worldwide. A current list of IBM trademarks is available on the Web at http://www.ibm.com/legal/copytrade.shmtl. SPSS is a trademark of SPSS Inc., an IBM Company, registered in many jurisdictions worldwide. Adobe, the Adobe logo, PostScript, and the PostScript logo are either registered trademarks or trademarks of Adobe Systems Incorporated in the United States, and/or other countries. Intel, Intel logo, Intel Inside, Intel Inside logo, Intel Centrino, Intel Centrino logo, Celeron, Intel Xeon, Intel SpeedStep, Itanium, and Pentium are trademarks or registered trademarks of Intel Corporation or its subsidiaries in the United States and other countries. Linux is a registered trademark of Linus Torvalds in the United States, other countries, or both. Microsoft, Windows, Windows NT, and the Windows logo are trademarks of Microsoft Corporation in the United States, other countries, or both. UNIX is a registered trademark of The Open Group in the United States and other countries. Java and all Java-based trademarks and logos are trademarks of Sun Microsystems, Inc. in the United States, other countries, or both. This product uses WinWrap Basic, Copyright 1993-2007, Polar Engineering and Consulting, http://www.winwrap.com. Other product and service names might be trademarks of IBM, SPSS, or other companies. Adobe product screenshot(s) reprinted with permission from Adobe Systems Incorporated. Microsoft product screenshot(s) reprinted with permission from Microsoft Corporation.

Bibliografa
Barlow, R. E., D. J. Bartholomew, D. J. Bremner, y H. D. Brunk. 1972. Statistical inference under order restrictions. Nueva York: John Wiley and Sons. Bell, E. H. 1961. Social foundations of human behavior: Introduction to the study of sociology. Nueva York: Harper & Row. Benzcri, J. P. 1969. Statistical analysis as a tool to make patterns emerge from data. En: Methodologies of Pattern Recognition, S. Watanabe, ed. Nueva York: Academic Press. Benzcri, J. P. 1992. Correspondence analysis handbook. Nueva York: Marcel Dekker. Bishop, Y. M., S. E. Feinberg, y P. W. Holland. 1975. Discrete multivariate analysis: Theory and practice. Cambridge, Mass.: MIT Press. Blake, C. L., y C. J. Merz. 1998. "UCI Repository of machine learning databases." Available at http://www.ics.uci.edu/~mlearn/MLRepository.html. Breiman, L., y J. H. Friedman. 1985. Estimating optimal transformations for multiple regression and correlation. Journal of the American Statistical Association, 80, . Buja, A. 1990. Remarks on functional canonical variates, alternating least squares methods and ACE. Annals of Statistics, 18, . Busing, F. M. T. A., P. J. F. Groenen, y W. J. Heiser. 2005. Avoiding degeneracy in multidimensional unfolding by penalizing on the coefcient of variation. Psychometrika, 70, . Carroll, J. D. 1968. Generalization of canonical correlation analysis to three or more sets of variables. En: Proceedings of the 76th Annual Convention of the American Psychological Association, 3, Washington, D.C.: American Psychological Association. Collett, D. 2003. Modelling survival data in medical research, 2 ed. Boca Raton: Chapman & Hall/CRC. Commandeur, J. J. F., y W. J. Heiser. 1993. Mathematical derivations in the proximity scaling (PROXSCAL) of symmetric data matrices. Leiden: Department of Data Theory, University of Leiden. De Haas, M., J. A. Algera, H. F. J. M. Van Tuijl, y J. J. Meulman. 2000. Macro and micro goal setting: In search of coherence. Applied Psychology, 49, . De Leeuw, J. 1982. Nonlinear principal components analysis. En: COMPSTAT Proceedings in Computational Statistics, Viena: Physica Verlag. De Leeuw, J. 1984. Canonical analysis of categorical data, 2nd ed. Leiden: DSWO Press. De Leeuw, J. 1984. The Gi system of nonlinear multivariate analysis. En: Data Analysis and Informatics III, E. Diday, et al., ed.. De Leeuw, J., y W. J. Heiser. 1980. Multidimensional scaling with restrictions on the conguration. En: Multivariate Analysis, Vol. V, P. R. Krishnaiah, ed. msterdam: North-Holland. De Leeuw, J., y J. Van Rijckevorsel. 1980. HOMALS and PRINCALSSome generalizations of principal components analysis. En: Data Analysis and Informatics, E. Diday, et al., ed. msterdam: North-Holland.

Copyright SPSS Inc. 1989, 2010

309

310 Bibliografa

De Leeuw, J., F. W. Young, y Y. Takane. 1976. Additive structure in qualitative data: An alternating least squares method with optimal scaling features. Psychometrika, 41, . De Leeuw, J. 1990. Multivariate analysis with optimal scaling. En: Progress in Multivariate Analysis, S. Das Gupta, y J. Sethuraman, eds. Calcuta: Indian Statistical Institute. Eckart, C., y G. Young. 1936. The approximation of one matrix by another one of lower rank. Psychometrika, 1, . Fisher, R. A. 1938. Statistical methods for research workers. Edinburgh: Oliver and Boyd. Fisher, R. A. 1940. The precision of discriminant functions. Annals of Eugenics, 10, . Gabriel, K. R. 1971. The biplot graphic display of matrices with application to principal components analysis. Biometrika, 58, . Gi, A. 1985. PRINCALS. Research Report UG-85-02. Leiden: Department of Data Theory, University of Leiden. Gi, A. 1990. Nonlinear multivariate analysis. Chichester: John Wiley and Sons. Gilula, Z., y S. J. Haberman. 1988. The analysis of multivariate contingency tables by restricted canonical and restricted association models. Journal of the American Statistical Association, 83, . Gower, J. C., y J. J. Meulman. 1993. The treatment of categorical information in physical anthropology. International Journal of Anthropology, 8, . Green, P. E., y V. Rao. 1972. Applied multidimensional scaling. Hinsdale, Ill.: Dryden Press. Green, P. E., y Y. Wind. 1973. Multiattribute decisions in marketing: A measurement approach. Hinsdale, Ill.: Dryden Press. Guttman, L. 1941. The quantication of a class of attributes: A theory and method of scale construction. En: The Prediction of Personal Adjustment, P. Horst, ed. Nueva York: Social Science Research Council. Guttman, L. 1968. A general nonmetric technique for nding the smallest coordinate space for congurations of points. Psychometrika, 33, . Hartigan, J. A. 1975. Clustering algorithms. Nueva York: John Wiley and Sons. Hastie, T., y R. Tibshirani. 1990. Generalized additive models. Londres: Chapman and Hall. Hastie, T., R. Tibshirani, y A. Buja. 1994. Flexible discriminant analysis. Journal of the American Statistical Association, 89, . Hayashi, C. 1952. On the prediction of phenomena from qualitative data and the quantication of qualitative data from the mathematico-statistical point of view. Annals of the Institute of Statitical Mathematics, 2, . Heiser, W. J. 1981. Unfolding analysis of proximity data. Leiden: Department of Data Theory, University of Leiden. Heiser, W. J., y F. M. T. A. Busing. 2004. Multidimensional scaling and unfolding of symmetric and asymmetric proximity relations. En: Handbook of Quantitative Methodology for the Social Sciences, D. Kaplan, ed. Thousand Oaks, Calif.: Sage Publications, Inc.. Heiser, W. J., y J. J. Meulman. 1994. Homogeneity analysis: Exploring the distribution of variables and their nonlinear relationships. En: Correspondence Analysis in the Social Sciences: Recent Developments and Applications, M. Greenacre, y J. Blasius, eds. Nueva York: Academic Press.

311 Bibliografa

Heiser, W. J., y J. J. Meulman. 1995. Nonlinear methods for the analysis of homogeneity and heterogeneity. En: Recent Advances in Descriptive Multivariate Analysis, W. J. Krzanowski, ed. Oxford: Oxford University Press. Horst, P. 1961. Generalized canonical correlations and their applications to experimental data. Journal of Clinical Psychology, 17, . Horst, P. 1961. Relations among m sets of measures. Psychometrika, 26, . Israls, A. 1987. Eigenvalue techniques for qualitative data. Leiden: DSWO Press. Kennedy, R., C. Riquier, y B. Sharp. 1996. Practical applications of correspondence analysis to categorical data in market research. Journal of Targeting, Measurement, and Analysis for Marketing, 5, . Kettenring, J. R. 1971. Canonical analysis of several sets of variables. Biometrika, 58, . Kruskal, J. B. 1964. Multidimensional scaling by optimizing goodness of t to a nonmetric hypothesis. Psychometrika, 29, . Kruskal, J. B. 1964. Nonmetric multidimensional scaling: A numerical method. Psychometrika, 29, . Kruskal, J. B. 1965. Analysis of factorial experiments by estimating monotone transformations of the data. Journal of the Royal Statistical Society Series B, 27, . Kruskal, J. B. 1978. Factor analysis and principal components analysis: Bilinear methods. En: International Encyclopedia of Statistics, W. H. Kruskal, y J. M. Tanur, eds. Nueva York: The Free Press. Kruskal, J. B., y R. N. Shepard. 1974. A nonmetric variety of linear factor analysis. Psychometrika, 39, . Krzanowski, W. J., y F. H. C. Marriott. 1994. Multivariate analysis: Part I, distributions, ordination and inference. Londres: Edward Arnold. Lebart, L., A. Morineau, y K. M. Warwick. 1984. Multivariate descriptive statistical analysis. Nueva York: John Wiley and Sons. Lingoes, J. C. 1968. The multivariate analysis of qualitative data. Multivariate Behavioral Research, 3, . Mx, J. 1960. Quantizing for minimum distortion. Proceedings IEEE (Information Theory), 6, . McCullagh, P., y J. A. Nelder. 1989. Modelos lineales generalizados, 2nd ed. Londres: Chapman & Hall. Meulman, J. J. 1982. Homogeneity analysis of incomplete data. Leiden: DSWO Press. Meulman, J. J. 1986. A distance approach to nonlinear multivariate analysis. Leiden: DSWO Press. Meulman, J. J. 1992. The integration of multidimensional scaling and multivariate analysis with optimal transformations of the variables. Psychometrika, 57, . Meulman, J. J. 1993. Principal coordinates analysis with optimal transformations of the variables: Minimizing the sum of squares of the smallest eigenvalues. British Journal of Mathematical and Statistical Psychology, 46, . Meulman, J. J. 1996. Fitting a distance model to homogeneous subsets of variables: Points of view analysis of categorical data. Journal of Classication, 13, .

312 Bibliografa

Meulman, J. J. 2003. Prediction and classication in nonlinear data analysis: Something old, something new, something borrowed, something blue. Psychometrika, 4, . Meulman, J. J., y W. J. Heiser. 1997. Graphical display of interaction in multiway contingency tables by use of homogeneity analysis. En: Visual Display of Categorical Data, M. Greenacre, y J. Blasius, eds. Nueva York: Academic Press. Meulman, J. J., y P. Verboon. 1993. Points of view analysis revisited: Fitting multidimensional structures to optimal distance components with cluster restrictions on the variables. Psychometrika, 58, . Meulman, J. J., A. J. Van der Kooij, y A. Babinec. 2000. New features of categorical principal components analysis for complicated data sets, including data mining. En: Classication, Automation and New Media, W. Gaul, y G. Ritter, eds. Berln: Springer-Verlag. Meulman, J. J., A. J. Van der Kooij, y W. J. Heiser. 2004. Principal components analysis with nonlinear optimal scaling transformations for ordinal and nominal data. En: Handbook of Quantitative Methodology for the Social Sciences, D. Kaplan, ed. Thousand Oaks, Calif.: Sage Publications, Inc.. Nishisato, S. 1980. Analysis of categorical data: Dual scaling and its applications. Toronto: University of Toronto Press. Nishisato, S. 1984. Forced classication: A simple application of a quantication method. Psychometrika, 49, . Nishisato, S. 1994. Elements of dual scaling: An introduction to practical data analysis. Hillsdale, N.J.: Lawrence Erlbaum Associates, Inc. Pratt, J. W. 1987. Dividing the indivisible: Using simple symmetry to partition variance explained. En: Proceedings of the Second International Conference in Statistics, T. Pukkila, y S. Puntanen, eds. Tampere (Finlandia): Universidad de Tampere. Price, R. H., y D. L. Bouffard. 1974. Behavioral appropriateness and situational constraints as dimensions of social behavior. Journal of Personality and Social Psychology, 30, . Ramsay, J. O. 1989. Monotone regression splines in action. Statistical Science, 4, . Rao, C. R. 1973. Linear statistical inference and its applications, 2nd ed. Nueva York: John Wiley and Sons. Rao, C. R. 1980. Matrix approximations and reduction of dimensionality in multivariate statistical analysis. En: Multivariate Analysis, Vol. 5, P. R. Krishnaiah, ed. msterdam: North-Holland. Rickman, R., N. Mitchell, J. Dingman, y J. E. Dalen. 1974. Changes in serum cholesterol during the Stillman Diet. Journal of the American Medical Association, 228, . Rosenberg, S., y M. P. Kim. 1975. The method of sorting as a data-gathering procedure in multivariate research. Multivariate Behavioral Research, 10, . Roskam, E. E. 1968. Metric analysis of ordinal data in psychology. Voorschoten: VAM. Shepard, R. N. 1962. The analysis of proximities: Multidimensional scaling with an unknown distance function I. Psychometrika, 27, . Shepard, R. N. 1962. The analysis of proximities: Multidimensional scaling with an unknown distance function II. Psychometrika, 27, . Shepard, R. N. 1966. Metric structures in ordinal data. Journal of Mathematical Psychology, 3, .

313 Bibliografa

Tenenhaus, M., y F. W. Young. 1985. An analysis and synthesis of multiple correspondence analysis, optimal scaling, dual scaling, homogeneity analysis, and other methods for quantifying categorical multivariate data. Psychometrika, 50, . Theunissen, N. C. M., J. J. Meulman, A. L. Den Ouden, H. M. Koopman, G. H. Verrips, S. P. Verloove-Vanhorick, y J. M. Wit. 2003. Changes can be studied when the measurement instrument is different at different time points. Health Services and Outcomes Research Methodology, 4, . Tucker, L. R. 1960. Intra-individual and inter-individual multidimensionality. En: Psychological Scaling: Theory & Applications, H. Gulliksen, y S. Messick, eds. Nueva York: John Wiley and Sons. Van der Burg, E. 1988. Nonlinear canonical correlation and some related techniques. Leiden: DSWO Press. Van der Burg, E., y J. De Leeuw. 1983. Nonlinear canonical correlation. British Journal of Mathematical and Statistical Psychology, 36, . Van der Burg, E., J. De Leeuw, y R. Verdegaal. 1988. Homogeneity analysis with k sets of variables: An alternating least squares method with optimal scaling features. Psychometrika, 53, . Van der Ham, T., J. J. Meulman, D. C. Van Strien, y H. Van Engeland. 1997. Empirically based subgrouping of eating disorders in adolescents: A longitudinal perspective. British Journal of Psychiatry, 170, . Van der Kooij, A. J., y J. J. Meulman. 1997. MURALS: Multiple regression and optimal scaling using alternating least squares. En: Softstat 97, F. Faulbaum, y W. Bandilla, eds. Stuttgart: Gustav Fisher. Van Rijckevorsel, J. 1987. The application of fuzzy coding and horseshoes in multiple correspondence analysis. Leiden: DSWO Press. Verboon, P., y I. A. Van der Lans. 1994. Robust canonical discriminant analysis. Psychometrika, 59, . Verdegaal, R. 1985. Meer sets analyse voor kwalitatieve gegevens (en neerlands). Leiden: Department of Data Theory, University of Leiden. Vlek, C., y P. J. Stallen. 1981. Judging risks and benets in the small and in the large. Organizational Behavior and Human Performance, 28, . Wagenaar, W. A. 1988. Paradoxes of gambling behaviour. Londres: Lawrence Erlbaum Associates, Inc. Ware, J. H., D. W. Dockery, A. Spiro III, F. E. Speizer, y B. G. Ferris Jr.. 1984. Passive smoking, gas cooking, and respiratory health of children living in six cities. American Review of Respiratory Diseases, 129, . Winsberg, S., y J. O. Ramsay. 1980. Monotonic transformations to additivity using splines. Biometrika, 67, . Winsberg, S., y J. O. Ramsay. 1983. Monotone spline transformations for dimension reduction. Psychometrika, 48, . Wolter, K. M. 1985. Introduction to variance estimation. Berln: Springer-Verlag. Young, F. W. 1981. Quantitative analysis of qualitative data. Psychometrika, 46, . Young, F. W., J. De Leeuw, y Y. Takane. 1976. Regression with qualitative and quantitative variables: An alternating least squares method with optimal scaling features. Psychometrika, 41, .

314 Bibliografa

Young, F. W., Y. Takane, y J. De Leeuw. 1978. The principal components of mixed measurement level multivariate data: An alternating least squares method with optimal scaling features. Psychometrika, 43, . Zeijl, E., Y. te Poel, M. du Bois-Reymond, J. Ravesloot, y J. J. Meulman. 2000. The role of parents and peers in the leisure activities of young adolescents. Journal of Leisure Research, 32, .

ndice
actualizaciones relajadas en Escalamiento multidimensional, 79 ajuste en Anlisis de correlacin cannica no lineal, 46 alfa de Cronbach en Anlisis de componentes principales categrico, 146 Anlisis de componentes principales categrico, 27, 33, 141, 154 almacenamiento de variables, 37 cuanticaciones, 147, 167 funciones adicionales del comando, 41 historial de iteraciones, 146 nivel de escalamiento ptimo, 29 puntos de categoras, 173 puntuaciones de los objetos, 149, 152, 171 resumen del modelo, 146, 152, 169 saturaciones en componentes, 150, 154, 170 Anlisis de correlacin cannica no lineal, 42, 45, 191 centroides, 206 coordenadas de la categora, 205 cuanticaciones, 203 estadsticos, 42 funciones adicionales del comando, 47 grcos, 42 ponderaciones, 200 resumen de anlisis, 199 saturaciones en componentes, 200, 202 Anlisis de correspondencias, 49, 5152, 5455, 216, 218 contribuciones, 223 dimensiones, 222 estadsticos, 49 funciones adicionales del comando, 57 grcos, 49 grcos de puntuaciones de columna, 224 grcos de puntuaciones de la, 224 normalizacin, 217 Anlisis de correspondencias mltiple, 58, 63, 228 almacenamiento de variables, 66 cuanticaciones de categoras, 234 funciones adicionales del comando, 68 medidas de discriminacin, 233 nivel de escalamiento ptimo, 60 puntuaciones de los objetos, 232, 236 resumen del modelo, 231 valores atpicos, 239 ANOVA en Regresin categrica, 22 archivos de ejemplo posicin, 297 autovalores en Anlisis de componentes principales categrico, 146, 152, 169 en Anlisis de correlacin cannica no lineal, 199 centroides en Anlisis de correlacin cannica no lineal, 46, 206 centroides proyectados en Anlisis de correlacin cannica no lineal, 206 coeciente de variacin en desplegamiento multidimensional, 265, 268, 274, 281, 290 coecientes en Regresin categrica, 109 coecientes de regresin en Regresin categrica, 22 conguracin inicial en Anlisis de correlacin cannica no lineal, 46 en desplegamiento multidimensional, 89 en Escalamiento multidimensional, 79 en Regresin categrica, 20 contribuciones en Anlisis de correspondencias, 223 coordenadas de la categora en Anlisis de correlacin cannica no lineal, 205 coordenadas del espacio comn en desplegamiento multidimensional, 92 en Escalamiento multidimensional, 82 coordenadas del espacio individual en desplegamiento multidimensional, 92 correlaciones en Escalamiento multidimensional, 82 correlaciones de orden cero en Regresin categrica, 110 correlaciones parciales en Regresin categrica, 110 correlaciones semiparciales en Regresin categrica, 110 criterios de iteracin en desplegamiento multidimensional, 89 en Escalamiento multidimensional, 79 cuanticaciones en Anlisis de componentes principales categrico, 147, 167 en Anlisis de correlacin cannica no lineal, 203 cuanticaciones de categoras en Anlisis de componentes principales categrico, 35 en Anlisis de correlacin cannica no lineal, 46 en el anlisis de correspondencias mltiple, 65, 234 en Regresin categrica, 22

315

316 ndice

desplegamiento multidimensional, 85, 262, 285 desplegamiento triple , 269 espacio comn, 266, 269, 275, 282, 291, 295 espacios individuales, 276, 283 estadsticos, 85 funciones adicionales del comando, 94 grcos, 85, 91 medidas, 265, 268, 274, 281, 290, 294 modelo, 86 opciones, 89 restricciones en el espacio comn., 88 resultados, 92 soluciones degeneradas, 262 transformaciones de proximidades, 292, 296 desplegamiento triple en desplegamiento multidimensional, 269 diagrama de dispersin del ajuste en desplegamiento multidimensional, 91 diagramas de dispersin biespacial en Anlisis de componentes principales categrico, 38 en Anlisis de correspondencias, 55 en el anlisis de correspondencias mltiple, 67 diagramas de dispersin triespacial en Anlisis de componentes principales categrico, 38 dimensiones en Anlisis de correspondencias, 52, 222 discretizacin en Anlisis de componentes principales categrico, 31 en el anlisis de correspondencias mltiple, 60 en Regresin categrica, 18 distancias en desplegamiento multidimensional, 92 en Escalamiento multidimensional, 82 espacio comn en desplegamiento multidimensional, 266, 269, 275, 282, 291, 295 en Escalamiento multidimensional, 256, 259 espacios individuales en desplegamiento multidimensional, 276, 283 estadsticos de conanza en Anlisis de correspondencias, 54 estadsticos descriptivos en Regresin categrica, 22 grco conjunto de espacios individuales en desplegamiento multidimensional, 276, 283 grco conjunto del espacio comn en desplegamiento multidimensional, 266, 269, 275, 282, 291, 295 grcos en Anlisis de correlacin cannica no lineal, 46 en Anlisis de correspondencias, 55 en Escalamiento multidimensional, 8182 en Regresin categrica, 25 grcos de categoras en Anlisis de componentes principales categrico, 39

en el anlisis de correspondencias mltiple, 67 grcos de categoras conjuntas en Anlisis de componentes principales categrico, 39 en el anlisis de correspondencias mltiple, 67 grcos de centroides proyectados en Anlisis de componentes principales categrico, 39 grcos de correlaciones en Escalamiento multidimensional, 81 grcos de espacio comn inicial en desplegamiento multidimensional, 91 grcos de espacios individuales en desplegamiento multidimensional, 91 en Escalamiento multidimensional, 81 grcos de inicio mltiple en desplegamiento multidimensional, 91 grcos de medidas de discriminacin en el anlisis de correspondencias mltiple, 67 grcos de ponderaciones del espacio en desplegamiento multidimensional, 91 grcos de ponderaciones del espacio individual en desplegamiento multidimensional, 91 en Escalamiento multidimensional, 81 grcos de puntos de objetos en Anlisis de componentes principales categrico, 38 en el anlisis de correspondencias mltiple, 67 grcos de puntuaciones de columna en Anlisis de correspondencias, 224 grcos de puntuaciones de la en Anlisis de correspondencias, 224 grcos de residuos en desplegamiento multidimensional, 91 grcos de saturaciones en componentes en Anlisis de componentes principales categrico, 40 grcos de Shepard en desplegamiento multidimensional, 91 grcos de stress en desplegamiento multidimensional, 91 en Escalamiento multidimensional, 81 grcos de transformacin en Anlisis de componentes principales categrico, 39 en desplegamiento multidimensional, 91, 292, 296 en el anlisis de correspondencias mltiple, 67 en Escalamiento multidimensional, 81, 258 en Regresin categrica, 112 grcos del espacio comn en desplegamiento multidimensional, 91 en Escalamiento multidimensional, 81 grcos del espacio comn nal en desplegamiento multidimensional, 91 historial de iteraciones en Anlisis de componentes principales categrico, 35, 146 en desplegamiento multidimensional, 92 en el anlisis de correspondencias mltiple, 65 en Escalamiento multidimensional, 82

317 ndice

importancia en Regresin categrica, 110 ndice de no-degeneracin aproximada de Shepard en desplegamiento multidimensional, 265, 268, 274, 281, 290 ndices de entremezclado de DeSarbo en desplegamiento multidimensional, 265, 268, 274, 281, 290 inercia en Anlisis de correspondencias, 54 intercorrelaciones en Regresin categrica, 108 lazo en Regresin categrica, 21 legal notices, 307 matriz de correlaciones en Anlisis de componentes principales categrico, 35 en el anlisis de correspondencias mltiple, 65 medidas de discriminacin en el anlisis de correspondencias mltiple, 65, 233 medidas de distancia en Anlisis de correspondencias, 52 medidas del stress en desplegamiento multidimensional, 92 en Escalamiento multidimensional, 82, 255, 259 modelo de escalamiento en desplegamiento multidimensional, 86 modelo de identidad en desplegamiento multidimensional, 86 modelo Eucldeo generalizado en desplegamiento multidimensional, 86 modelo Eucldeo ponderado en desplegamiento multidimensional, 86 Multidimensional Scaling, 70, 7276, 244 espacio comn, 256, 259 estadsticos, 70 funciones adicionales del comando, 84 grcos, 70, 8182 grcos de transformacin, 258 medidas del stress, 255, 259 modelo, 77 opciones, 79 restricciones, 78 resultados, 82 nivel de escalamiento ptimo en Anlisis de componentes principales categrico, 29 en el anlisis de correspondencias mltiple, 60 normalizacin en Anlisis de correspondencias, 52, 217 normalizacin principal en Anlisis de correspondencias, 217 normalizacin principal por columna en Anlisis de correspondencias, 217

normalizacin principal por la en Anlisis de correspondencias, 217 normalizacin simtrica en Anlisis de correspondencias, 217 objetos suplementarios en Regresin categrica, 20 ponderacin de la variable en Anlisis de componentes principales categrico, 29 en el anlisis de correspondencias mltiple, 60 ponderaciones en Anlisis de correlacin cannica no lineal, 46, 200 ponderaciones de dimensin en desplegamiento multidimensional, 276, 283 ponderaciones del espacio individual. en desplegamiento multidimensional, 92 en Escalamiento multidimensional, 82 PREFSCAL, 85 proximidades transformadas en desplegamiento multidimensional, 92 en Escalamiento multidimensional, 82 puntos de categoras en Anlisis de componentes principales categrico, 173 puntuaciones de los objetos en Anlisis de componentes principales categrico, 35, 149, 152, 171 en Anlisis de correlacin cannica no lineal, 46 en el anlisis de correspondencias mltiple, 65, 232, 236 R mltiple en Regresin categrica, 22 R2 en Regresin categrica, 109 red elstica en Regresin categrica, 21 Regresin categrica, 15, 96 ajuste del modelo, 109 correlaciones, 109110 estadsticos, 15 funciones adicionales del comando, 26 grcos, 15 grcos de transformacin, 112 guardar, 24 importancia, 110 intercorrelaciones, 108 nivel de escalamiento ptimo, 16 regularizacin, 21 residuos, 114 regresin contrada en Regresin categrica, 21 residuos en Regresin categrica, 114 restricciones en Escalamiento multidimensional, 78

318 ndice

restricciones en el espacio comn. en desplegamiento multidimensional, 88 resumen del modelo en el anlisis de correspondencias mltiple, 231 saturaciones en componentes en Anlisis de componentes principales categrico, 35, 150, 154, 170 en Anlisis de correlacin cannica no lineal, 46, 202 tensin penalizada en desplegamiento multidimensional, 265, 274, 281, 290, 294 trmino de penalizacin en desplegamiento multidimensional, 89 tipicacin en Anlisis de correspondencias, 52 trademarks, 308 transformaciones de proximidades en desplegamiento multidimensional, 86 valores ajustados en Anlisis de correlacin cannica no lineal, 199 valores atpicos en el anlisis de correspondencias mltiple, 239 valores perdidos en Anlisis de componentes principales categrico, 32 en Anlisis de correlacin cannica no lineal, 199 en el anlisis de correspondencias mltiple, 61 en Regresin categrica, 19 variables independientes transformadas en Escalamiento multidimensional, 82 varianza explicada en Anlisis de componentes principales categrico, 35, 146, 169

Vous aimerez peut-être aussi