Vous êtes sur la page 1sur 88

UNIVERSIDAD TCNICA FEDERICO SANTA MARA DEPARTAMENTO DE INDUSTRIAS

VALPARASO - CHILE

" Manual del SPSS aplicado a mtodos de Investigacin de Mercados "

Profesor : Sr. Cristbal Fernndez. Ayudante : Sr. Fabin Crdova.

Enero 2000

RESUMEN. Este manual est orientado principalmente a facilitar el aprendizaje en el uso del SPSS, para aplicar este poderoso sistema de anlisis estadstico al anlisis de datos relacionados al mercadeo. Por lo tanto, se consideraron los mtodos ms frecuentemente utilizados en la investigacin de mercados, los cuales son Anlisis Factorial, Escalamiento Multimensional, Anlisis Discriminante, Anlisis Conjunto y Anlisis de Correspondencias. El contenido de este manual se centra tanto en los aspectos prcticos como en los tericos de los mtodos estadsticos aplicados en la investigacin de mercados. Debido a esto, que la teora es expuesta de manera somera y, a la vez, apoyada con una ilustracin detallada de ejemplos resueltos para cada mtodo, fomentando un estilo adecuado para la autoinstruccin. De esta forma, una persona con conocimientos elementales de estadstica (distribuciones de probabilidades y mtodos de docimasia) y de lgebra de matrices debera ser capaz de aprender los mtodos y tcnicas presentadas, con un estilo adecuado de texto.

I.- ANLISIS FACTORIAL. El anlisis factorial es un mtodo estructural, en cuanto a establecer relaciones descriptivas de las variables. Las variables utilizadas en el mtodo deben ser cuantitativas; es decir, estar expresadas en unidades mtricas. La extensin caso de variables no-mtricas se analizan mediante el anlisis de correspondencias. El inters del anlisis factorial se centra en la descripcin de datos ms que en la inferencia estadstica. La principal aplicacin de este mtodo es en la reduccin de datos, identificando un pequeo numero de factores que expliquen la mayora de la varianza observada en un numero mayor de variables manifestadas. El anlisis factorial tambin puede utilizarse en descubrir la estructura bsica que sustenta un conjunto de medidas (variables observables); desarrollar una escala sobre la cual pueden compararse algunos temas; y servir como paso previo a tcnicas de anlisis de dependencia ya que permite transformar datos en factores que no estn correlacionados entre s (independientes), eliminando el problema de multicolinealidad. 1.- El modelo factorial. El anlisis factorial es un mtodo estadstico cuyo objetivo es representar un conjunto de variables en trminos de un menor numero de variables hipotticas o factores, los cuales conservan la mayor parte de la informacin del conjunto original de datos. Para esto, asume que cada variable original puede ser descompuesta en la suma de un pequeo numero de factores comunes ms un termino de error atribuible a las fluctuaciones muestrales de los valores individuales de cada variable. Este mtodo se basa en la informacin contenida en la matriz de coeficiente de correlacin, cuyos elementos representa el grado de asociacin lineal entre las variables. El modelo de anlisis factorial comn expresa cada variable como una combinacin lineal de los factores comunes a todas variables y un factor nico a la variable:

zj = aj1 F1 + aj2 F2 + ... + ajm Fm + Uj


donde: zj Fi m Uj aij = = = = = la variable normalizada j-sima. los factores comunes. el numero de factores comunes a todas las variables. el factor nico a la variable zj. las cargas factoriales.

Las cargas factoriales representan la importancia que el -simo factor (Fi) tiene en la i definicin de la de la j-sima variable (zj). Aunque la funcin previa parece una ecuacin de regresin, no es tal. Desde luego, debe saberse de antemano el numero de factores en el problema que se esta analizando, pero estos factores, al contrario que en el anlisis de regresin, no se pueden observar directamente. La variable Uj si es anloga al residual en una regresin y representa las variaciones aleatorias producidas en los resultados por el efecto especifico de la variable zj. 3

La especificacin del modelo se completa con las siguientes condiciones, para el caso de factores comunes considerados variables aleatorias: 1. Los factores comunes son variables aleatorias normales, independientes , de media cero y varianza unitaria. 2. Las variables especificas (nicas) son normales, independientes, de media cero y varianza i2. 3. Los factores comunes y los especficos son independientes entre s. 4. Las variables originales son normales. El caso de factores comunes no aleatorios es tratado en Anderson (1984).

2.- Etapas en un anlisis factorial. El mtodo es desarrollado principalmente en cuatro pasos: 1. La matriz de correlacin o de covarianza es calculada. En el caso de que una variable muestre bajos coeficientes de correlacin con las otras variables, esta puede ser eliminada y, por lo tanto, obtener la nueva matriz de correlacin. Sin embargo, es necesario que observe los valores de su comunidad y las cargas factoriales. 2. Las cargas factoriales son estimadas. En este parte, es necesario establecer el mtodo empleado para la extraccin de los factores ya sea por componentes principales u otro mtodo de extraccin. 3. Las cargas factoriales son rotadas a fin de obtener cargas ms fcilmente interpretables. Los mtodos de rotacin genera cargas para cada factor ya sea grandes o pequeas, pero no de valores intermedios. Esta rotacin permite reducir el numero de factores a la estructura ms simple que describe los datos, esto es, encontrar una solucin final. 4. Para cada caso, los puntajes pueden ser calculados para cada factor y almacenados para usarlos como variables de entrada en otros procedimientos.

3.- Extraccin de factores. Son muchos los mtodos que pueden emplearse para extraer los factores iniciales de la matriz de correlacin. En general, estos mtodos son complejos numricamente. El SPSS proporciona de siete mtodos de extraccin, sin embargo, el ms ampliamente usado en la practica en es el mtodo de extraccin por componentes principales.

Componentes principales. El objetivo de este mtodo es encontrar combinaciones lineales independientes de las variables originales. La primera componente tiene la varianza mxima. Las componentes sucesivas explican progresivamente proporciones menores de la varianza y no estn correlacionadas las unas con las otras. El anlisis de componentes principales se utiliza para obtener la solucin factorial inicial. Puede utilizarse cuando una matriz de correlaciones es singular. La generacin de componentes principales se obtienen a travs de un anlisis propio a ala matriz de correlaciones.

(S - i I) = 0
La solucin de la ecuacin caracterstica de grado p es determinar p races caractersticas (o valores propios) i con su vector caracterstico asociado. Los valores propios i corresponden a alas varianzas de los componentes. El tamao de los valores propios describe la dispersin o la forma de la nube de puntos en un espacio multivariado que tiene un eje para cada variable Mnimos cuadrados no ponderados. Este mtodo minimiza la suma de los cuadrados de las diferencias entre las matrices de correlaciones observada y reproducida, ignorando las diagonales. Mnimos cuadrados generalizados. Este mtodo minimiza la suma de los cuadrados de las diferencias entre las matrices de correlacin observada y reproducida. Las correlaciones se ponderan por el inverso de su unicidad, de manera que las variables que tengan un valor alto de unicidad reciban un peso menor que aqullas que tengan un valor bajo de unicidad. Mxima verosimilitud. Este mtodo proporciona las estimaciones de los parmetros que con mayor probabilidad han producido la matriz de correlaciones observada, si la muestra procede de una distribucin normal multivariada. Las correlaciones se ponderan por el inverso de la unicidad de las variables, y se emplea un algoritmo iterativo. Ejes principales. Este mtodo parte de la matriz de correlaciones original con los cuadrados de los coeficientes de correlacin mltiple insertados en la diagonal principal como estimaciones iniciales de las comunalidades. Las saturaciones factoriales resultantes se utilizan para estimar de nuevo las comunalidades y reemplazan a las estimaciones previas en la diagonal de la matriz. Las iteraciones continan hasta que el cambio en las comunalidades, de una iteracin a la siguiente, satisfaga el criterio de convergencia para la extraccin. Alfa. Este mtodo considera a las variables incluidas en el anlisis como una muestra del universo de las variables posibles. Este mtodo mximiza el Alfa de Cronbach para los factores. Imagen. Mtodo para la extraccin de factores, desarrollado por Guttman y basado en la teora de las imgenes. La parte comn de una variable, llamada la imagen parcial, se define como su regresin lineal sobre las restantes variables, en lugar de ser una funcin de los factores hipotticos. 4.- Rotacin de fatores.

Con frecuencia es muy difcil interpretar los factores iniciales. Por consiguiente la solucin inicial se rota con el propsito de generar una solucin que permita la interpretacin. existen dos amplios tipos de rotacin: (1) rotacin ortogonal, que mantiene a los factores no correlacionados entre s y (2) rotacin oblicua, la cual permite que los factores se correlacionen entre s. la idea bsica de la rotacin es generar factores que tengan algunas variables muy correlacionadas y otras poco correlacionadas. Esto evita tener el problema de factores con todas las variables que presentan correlaciones de medio rango y, por tanto, permite una interpretacin ms fcil. El SPSS dispone de cinco mtodos de rotacin. Varimax. Mtodo de rotacin ortogonal que minimiza el nmero de variables que tienen saturaciones altas en cada factor. Simplifica la interpretacin de los factores. Quartimax. Mtodo de rotacin que minimiza el nmero de factores necesarios para explicar cada variable. Simplifica la interpretacin de las variables observadas. Equamax. Mtodo de rotacin que es combinacin del mtodo varimax, que simplifica los factores, y el mtodo quartimax, que simplifica las variables. Se minimiza tanto el nmero de variables que saturan alto en un factor como el nmero de factores necesarios para explicar una variable. Oblimin directo. Mtodo para la rotacin oblicua (no ortogonal). Cuando delta es igual a cero (el valor por defecto) las soluciones son las ms oblicuas. A medida que delta s va haciendo ms e negativo, los factores son menos oblicuos. Para anular el valor por defecto 0 para delta, introduzca un nmero menor o igual que 0,8. Promax. Rotacin oblicua que permite que los factores estn correlacionados. Puede calcularse ms rpidamente que una rotacin oblimin directa, por lo que es til para conjuntos de datos grandes.

5.- Ejemplo 1: Componentes principales y rotacin Varimax. El objetivo de este ejemplo es la reduccin y descripcin de un conjunto de datos mediante un grupo de factores, los cuales son calculados por el mtodo de componentes principales y, a su vez, estos factores son rotados mediante el mtodo Varimax. Los datos son obtenidos del archivo Mundo 95.sav en donde se seleccionan algunas variables (tabla 1), las cuales se definen a continuacin: espvidaf: mortinf: alfabet: tasa_nat: tasa_mor: fertilid: urbana: log_pib esperanza de vida promedio de la mujer en aos. mortalidad infantil (muertes por 1000 nacidos vivos durante el primer ao) porcentaje de la poblacin lectora tasa de nacimiento por 1000 personas. tasa de mortalidad por 1000 personas. fertilidad: numero de nios promedio. porcentaje de la poblacin viviendo en ciudades. logaritmo (base 10) del PIB_CAP (producto interno bruto per cpita) 6

inc_pob: nac_def: log_pob:

aumento de poblacin (porcentaje para los aos previos) razn entre la tasa de nacimientos y la tasa de mortalidad Logaritmo (base 10) de poblacin.

Tabla 1. Datos econmicos y demogrficos de 12 pases de Amrica Latina.


PAS Argentina Bolivia Brasil Colombia Cuba Chile Ecuador Mxico Paraguay Per Uruguay Venezuela
urbana espvidaf alfabet inc_pob mortinf tasa_nat tasa_mor log_pib nac_def fertilid log_pob

86 51 75 70 74 85 56 73 48 70 89 91

75 64 67 75 78 78 73 77 75 67 77 76

95 78 81 87 94 93 88 87 90 85 96 88

1,30 2,70 1,28 2,00 0,95 1,70 2,01 1,90 2,70 2,00 0,80 2,16

26 75 66 28 10 15 39 35 25 54 17 28

20 34 21 24 17 23 26 28 33 26 17 26

9 9 9 6 7 6 6 5 5 7 10 5

3,53 2,86 3,37 3,19 3,14 3,41 3,04 3,56 3,18 3,04 3,50 3,45

2,22 3,78 2,33 4,00 2,43 3,83 4,33 5,60 7,33 3,71 1,70 5,20

2,80 4,21 2,70 2,47 1,90 2,50 3,08 3,20 4,30 3,11 2,44 3,05

4,53 3,90 5,19 4,55 4,05 4,15 4,03 4,96 3,72 4,37 3,51 4,31

Para realizar una anlisis factorial a los datos de la tabla previa, es necesario que elija en los mens: Estadsticos Reduccin de datos Anlisis factorial... Luego, seleccione las variables para el anlisis.

En este caso, se utilizan todos los casos (pases). Por lo tanto, no es necesario especificar una variable de seleccin. Los siguientes pasos en el anlisis corresponden a la seleccin de los mtodos de extraccin y rotacin de las variables, informacin de estadstica descriptiva de las variables y las puntuaciones de los factores (como guardarlos y el mtodo de estimacin). Por lo tanto, en los respectivos cuadros de dialogo realice lo siguiente: Descriptivos... Estadsticas Descriptivos univariados Matriz de correlacin Coeficientes

Extraccin... Mtodo 8

Componentes principales Mostrar Grfico de sedimentacin

Rotacin... Mtodo Varimax Mostrar Grficos de saturaciones.

El ejemplo es desarrollado siguiendo los cuatro pasos descritos previamente. Los resultados (tablas y grficos) entregados por el SPSS se muestran a continuacin:

5.1.- Generacin de la matriz de correlacin y comunalidades.

Estadsticos descriptivos. Dentro de las alternativas que provee el SPSS es posible obtener informacin estadstica bsica relativa a cada una de las variables consideradas en el anlisis. Esta informacin es desplegada en la siguiente tabla:
Estadsticos descriptivos Desviacin tpica 4,80 20,394 5,52 5,468 ,700 14,49 ,2276 ,613 1,6205 1,86 ,4907 N del anlisis 12 12 12 12 12 12 12 12 12 12 12

Esperanza de vida femenina Mortalidad infantil (muertes por 1000 nacim. vivos) Alfabetizacin (%) Tasa de natalidad (por 1.000 habitantes) Nmero promedio de hijos Habitantes en ciudades (%) Log(10) de PIB_CAP Aumento de la poblacin (% anual) Tasa Nacimientos/Defunciones Tasa de mortalidad (por 1.000 habitantes) Log(10) de POBLAC

Media 73,50 34,800 88,50 24,583 2,980 72,33 3,2724 1,792 3,8730 6,96 4,2722

Matriz de correlaciones. El anlisis factorial analiza la estructura de las asociaciones entre las variables a travs de la matriz de correlaciones. Las correlaciones contenidas en esta matriz son obtenidas mediante el coeficiente de correlacin de Pearson. Un estudio preliminar de esta matriz de esta matriz permite observar la existencia de una fuerte asociacin ( -0,984) entre las variables espvidaf y mortinf. Esta elevada correlacion negativa entre estas variables viene a indicar que altos valores de esperanza de viida estn asociados a bajos niveles de mortalidada infantil y viceversa.
Matriz de correlaciones tasa_mor tasa_nat espvidaf nac_def log_pob -,184 ,339 -,383 -,098 -,206 ,218 ,343 -,110 -,066 -,067 1,000 inc_pob -,377 ,419 -,578 ,968 ,853 -,678 -,509 1,000 ,805 -,535 -,110 log_pib ,602 -,477 ,522 -,476 -,391 ,781 1,000 -,509 -,131 ,014 ,343 urbana ,472 -,457 ,520 -,727 -,697 1,000 ,781 -,678 -,501 ,229 ,218 mortinf alfabet fertilid -,481 ,519 -,524 ,927 1,000 -,697 -,391 ,853 ,670 -,214 -,206

espvidaf mortinf alfabet tasa_nat fertilid urbana log_pib inc_pob nac_def tasa_mor log_pob

1,000 -,958 ,845 -,428 -,481 ,472 ,602 -,377 ,113 -,404 -,184

-,958 1,000 -,926 ,497 ,519 -,457 -,477 ,419 -,015 ,313 ,339

,845 -,926 1,000 -,619 -,524 ,520 ,522 -,578 -,209 -,024 -,383

-,428 ,497 -,619 1,000 ,927 -,727 -,476 ,968 ,789 -,448 -,098

,113 -,015 -,209 ,789 ,670 -,501 -,131 ,805 1,000 -,855 -,066

-,404 ,313 -,024 -,448 -,214 ,229 ,014 -,535 -,855 1,000 -,067

10

Comunalidades. Para cada variable, la comunalidad representa la proporcin de la varianza de aquella que puede ser explicada por los factores comunes, en otros trminos, es la correlacin mltiple al cuadrado de la variable con los factores. En este caso, las comunalidades son registradas antes y despus del nmero deseado de factores extrados. En este caso se fij extraer dos factores. Las comunalidades van de 0 a 1, con 0 indica que los factores comunes no explican ninguna varianza de la variable y 1 que estos explican toda la varianza. En este ejemplo, la proporcin de la varianza explicada por los factores comunes es debida a la extraccin de dos componentes. Esto es, la comunalidad de espvidaf es de 0,965 que significa que el 96,5 porciento de la varianza de esta variable es explicada por los dos componentes extrados.
Comunalidades Inicial espvidaf mortinf alfabet tasa_nat fertilid urbana log_pib inc_pob nac_def tasa_mor log_pob 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 Extraccin ,967 ,984 ,937 ,956 ,799 ,791 ,771 ,939 ,984 ,869 ,919

Mtodo de extraccin: Anlisis de Componentes principales.

5.2.- Seleccin de factores. El SPSS entrega dos resultados de apoyo al proceso de seleccin de los factores como es la tabla de Varianza total explicada y el Grfico de sedimentacin. Varianza total explicada. Estas tablas muestran los estadsticos a cada factor ya sea antes como despus de la extraccin de los componentes. En la columna Total se muestran los valores propios (autovalores), ordenados por tamaos, obtenidos de la matriz de correlacin. Cada valor propio indica la varianza total explicada por el factor (la varianza total es la suma de los elementos de la diagonal de la matriz de correlacin). El porcentaje de la varianza total atribuible a cada factor es mostrado en la columna % de la varianza. El primer factor es el ms importante y este explica un 71,5% de la varianza. Esta tabla permite establecer cuales son los componentes que explican en mayor grado la dispersin (o variabilidad) contenida en los datos . Por defecto, el SPSS calcula tanto componentes como existan valores propios mayores que 1. Este valor puede ser no tan restrictivo en la seleccin de los valores propios, por lo tanto, puede ser cambiado en la opcin de Autovalores mayores que del cuadro de dialogo de los mtodos de

11

extraccin. Los nuevos criterios permiten determinar un nmero ms adecuado de factores, por ejemplo, excluir factores con varianzas menores que uno. Otra criterio para seleccionar menos factores que los extrados por defecto, es la seleccin de un punto de corte en donde exista un intervalo relativamente grande entre los valores y, tambin, examinar las cargas para las soluciones son diferentes nmeros de factores para ver que resultados proporciona la mejor interpretacin de los datos.
Varianza total explicada Autovalores iniciales Comp 1 2 3 4 5 6 7 8 9 10 11 Total 5,65 2,79 1,48 ,6558 ,2577 ,0778 ,0646 ,0142 ,0084 ,0047 ,0007 % de la varianza 51,3616 25,3465 13,4382 5,9621 2,3426 ,7074 ,5874 ,1293 ,0760 ,0424 ,0066 % acumulado 51,362 76,708 90,146 96,108 98,451 99,158 99,746 99,875 99,951 99,993 100,000 Sumas de las saturaciones al cuadrado de la extraccin Total 5,650 2,788 1,478 % de la varianza 51,362 25,347 13,438 % acumulado 51,362 76,708 90,146 Suma de las saturaciones al cuadrado de la rotacin Total 4,102 3,987 1,827 % de la varianza 37,291 36,244 16,611 % acumulado 37,291 73,536 90,146

Mtodo de extraccin: Anlisis de Componentes principales.

Grfico de sedimencin. La varianza explicada por cada factor, o sea, los valores propios, son graficados versus el nmero de orden del componente. El criterio consiste en retener los componentes previos al codo y descartar los restantes. Un codo en el grfico es aquel punto en la curva, el cual distingue un decrecimiento pronunciado de los valores propios de un decrecimiento ms estabilizado. Este criterio es netamente subjetivo.
Grfico de sedimentacin
6

Autovalor

0 1 2 3 4 5 6 7 8 9 10 11

Nmero de componente

12

Matriz de componentes. Esta tabla despliega los coeficientes (o cargas) que relacionan las variables a los dos factores no rotados (componentes). Las cargas no rotadas y las cargas rotadas ortogonalmente son las correlaciones de las variables con los factores. Segn la tabla, las variables espvidaf, mortinf, alfabet, tasa_nat, fertilid, log-pib y inc_pob estn asociadas mayoritariamente con el primer factor. En cambio, para el segundo factor se observa una correlacin ms intensa nicamente con la variable tasa_mor, de -0,849. Las otras variables presentan correlaciones relativamente iguales en ambos componentes. Esta tabla permite identificar y descartar las variables que presentan bajas asociaciones con los componentes y , a la vez, que su comunalidad sea baja.
a Matriz de componentes

espvidaf mortinf alfabet tasa_nat fertilid urbana log_pib inc_pob nac_def tasa_mor log_pob

1 -,670 ,703 -,790 ,938 ,875 -,831 -,676 ,907 ,620 -,282 -,031

Componente 2 ,719 -,675 ,471 ,271 ,169 -,069 ,202 ,335 ,741 -,825 -,324

3 ,016 ,186 -,301 ,059 -,069 ,309 ,522 ,058 ,226 -,331 ,901

Mtodo de extraccin: Anlisis de componentes principales. a. 3 componentes extrados

5.3.- Rotacin de los componentes. Matriz de componentes rotada. El objetivo de la rotacin es aumentar las cargas factoriales grandes y disminuir aun ms las pequeas de aquellas obtenidas al inicio. En este caso, el mtodo de rotacin empleado no cumple con los objetivos, puesto que en vez de disminuir las correlaciones de las variables espvidaf, mortinf, alfabet, tasa_nat, fertilid, log-pib y inc_pob con el segundo componente, stas aumentaron.

13

Matriz de componentes rotadosa Componente 2 ,053 ,053 -,283 ,833 ,686 -,524 -,177 ,856 ,989 -,848 -,009

espvidaf mortinf alfabet tasa_nat fertilid urbana log_pib inc_pob nac_def tasa_mor log_pob

1 -,971 ,990 -,920 ,456 ,468 -,476 -,534 ,390 -,074 ,351 ,338

3 ,145 ,035 -,102 -,234 -,330 ,538 ,674 -,232 -,025 -,165 ,897

Mtodo de extraccin: Anlisis de componentes principales. Mtodo de rotacin: Normalizacin Varimax con Kaiser. a. La rotacin ha convergido en 6 iteraciones.

Matriz de transformacin de las componentes. Esta es la matriz de rotacin para transformar las cargas de la matriz de componentes a aquellas contenidas en a matriz de componentes rotada. Por ejemplo, las componentes rotadas de la variable espvidaf se obtienn como: componente 1: -0,952 * 0,85 + 0,244 * -0,526 = -0,938 componente 2: -0,952 * 0,526 + 0,244 * 0,85 = -0,293
Matriz de transformacin de las componentes Componente 1 2 3 1 ,684 -,716 ,141 2 ,671 ,693 ,262 3 -,285 -,085 ,955

Mtodo de extraccin: Anlisis de componentes principales. Mtodo de rotacin: Normalizacin Varimax con Kaiser.

Grficos rotados. El grfico de dispersin sobre el plano formado por los dos primeros componentes (plano principal), representa la nube de puntos explicando el 88% de la variacin total Los puntos en este grfico corresponden a las variables y las coordenadas de cada variable son sus cargas factoriales (de la matriz de componentes rotados). Los puntos proyectados en los extremos de los ejes presentaran mayor asociacin con el eje, mientras que los puntos cerca del origen no estn asociados a ningn componente. En este plano se distingue dos nubes de puntos ubicadas en cuadrantes opuestos. Sin embargo, las variables en el lado negativo presentan una mayor asociacin con el primer componente que los otros puntos, los cuales tambin evidencia una asociacin con el segundo componente.

14

Grfico de componentes en espacio rotado


1,0 tasa nacimientos/def aumento de la poblac tasa de natalidad (p nmero promedio de h ,5 esperanza de vida fe alfabetizacin (%) 0,0 log(10) de pib_cap log(10) de poblac

mortalidad infantil

Componente 2

habitantes en ciudad -,5 tasa de mortalidad ( -1,0 -1,0 -,5 0,0 ,5 1,0

Componente 1

5.4.- Validacin del modelo. La validacin del modelo se efecta a travs de la verificacin de las condiciones de normalidad, esto es, si las variables observadas presentan una distribucin normal. Para probar la hiptesis que los datos provienen de una distribucin normal, el SPSS muestra el estadstico de KolmogorovSmirnov con el nivel de significacin de Lilliefors, y si el tamao de la muestra no excede de 50, se calcula el estadstico de Shapiro-Wilk Tambin, el SPSS muestra los diagramas de probabilidad normal para determinar grficamente desviaciones a la normalidad. Para realizar esta prueba seleccione en el men: Estadsticos Resumir Explorar...

15

En el cuadro de dialogo Explorar pulse Grficos y selccione: Grficos Grficos con pruebas de normalidad Pruebas de normalidad. Segn esta tabla, que las pruebas tanto de Kolmogorov-Smirnov como de Shapiro-Wilk no recahazan la hiptesis de normalidad para las variables observadas.
Pruebas de normalidad Kolmogorov-Smirnov Regin econm. Am. Lat. Am. Lat. Am. Lat. Am. Lat. Am. Lat. Am. Lat. Am. Lat. Am. Lat. Am. Lat. Am. Lat. Am. Lat. Estadstico ,143 ,289 ,210 ,153 ,169 ,118 ,214 ,147 ,197 ,148 ,186 gl 12 12 12 12 12 12 12 12 12 12 12
a

Shapiro-Wilk gl 12 12 12 12 12 12 12 12 12 12 12 Sig. ,630 ,017 ,264 ,497 ,433 ,929 ,249 ,481 ,265 ,563 ,369

alfabet espvidaf fertilid inc_pob log_pib log_pob mortinf nac_def tasa_mo rasa_nat t urbana

Sig. Estadstico ,200* ,953 ,006 ,821 ,150 ,908 ,200* ,943 ,200* ,933 ,200* ,977 ,135 ,905 ,200* ,940 ,200* ,908 ,200* ,948 ,200* ,923

*. Este es un lmite inferior de la significacin verdadera. a. Correccin de la significacin de Lilliefors

16

Diagramas de probabilidad normal. A veces, la condicin de normalidad impuesta a las variables pude observarse a travs de los grficos de normalidad. En estos diagramas, cada individuo observado es graficado contra el cuantil correspondiente de una distribucin normal estandarizada (sus valores Z) , la normalidad de una variable es verifica si los valores de la variable se distribuyen a lo largo de la lnea. Segn los graficados Q-Q normal, indican que todas las variables p resentan una distraccin de normalidad, algunas ms que otras.
Grfico Q-Q normal de Alfabetizacin (%)
Para REGIN= Amrica Latina
1,5

1,0

,5

0,0

-,5

-1,0

Normal esperado -1,5


70 80 90 100

Valor observado

Grfico Q-Q normal de Esperanza de vida femenina


Para REGIN= Amrica Latina
1,5

1,0

,5

0,0

Normal esperado

-,5

-1,0 -1,5 62 64 66 68 70 72 74 76 78 80

Valor observado

17

Grfico Q-Q normal de Nmero promedio de hijos


Para REGIN= Amrica Latina
1,5

1,0

,5

0,0

Normal esperado

-,5

-1,0 -1,5 1,5 2,0 2,5 3,0 3,5 4,0 4,5

Valor observado

Grfico Q-Q normal de Aumento de la poblacin (% anual)


Para REGIN= Amrica Latina
1,5

1,0

,5

0,0

Normal esperado

-,5

-1,0 -1,5 ,5 1,0 1,5 2,0 2,5 3,0

Valor observado

18

Grfico Q-Q normal de Log(10) de PIB_CAP


Para REGIN= Amrica Latina
1,5

1,0

,5

0,0

Normal esperado

-,5

-1,0 -1,5 2,8 3,0 3,2 3,4 3,6 3,8

Valor observado

Grfico Q-Q normal de Log(10) de POBLAC


Para REGIN= Amrica Latina
1,5

1,0

,5

0,0

Normal esperado

-,5

-1,0 -1,5 3,0 3,5 4,0 4,5 5,0 5,5

Valor observado

19

Grfico Q-Q normal de Mortalidad infantil (muertes por 1000 nacimientos


Para REGIN= Amrica Latina
1,5

1,0

,5

0,0

Normal esperado

-,5

-1,0 -1,5 0 10 20 30 40 50 60 70 80

Valor observado

Grfico Q-Q normal de Tasa Nacimientos/Defunciones


Para REGIN= Amrica Latina
1,5

1,0

,5

0,0

Normal esperado

-,5

-1,0 -1,5 1 2 3 4 5 6 7 8

Valor observado

20

Grfico Q-Q normal de Tasa de mortalidad (por 1.000 habitantes)


Para REGIN= Amrica Latina
1,5

1,0

,5

0,0

Normal esperado

-,5

-1,0 -1,5 4 5 6 7 8 9 10 11

Valor observado

Grfico Q-Q normal de Tasa de natalidad (por 1.000 habitantes)


Para REGIN= Amrica Latina
1,5

1,0

,5

0,0

Normal esperado

-,5

-1,0 -1,5 10 20 30 40

Valor observado

21

Grfico Q-Q normal de Habitantes en ciudades (%)


Para REGIN= Amrica Latina
1,5

1,0

,5

0,0

Normal esperado

-,5

-1,0 -1,5 40 50 60 70 80 90 100

Valor observado

KMO y prueba de Bartlett. La medida de la adecuacin muestral de Kaiser-Meyer-Olkin contrasta si las correlaciones parciales entre las variables son pequeas. La prueba de esfericidad de Bartlett contrasta si la matriz de correlaciones es una matriz identidad, que indicara que el modelo factorial es inadecuado.

Si los componentes son estimados ya sea por Mxima verosimilitud o por Mnimos cuadrados generalizados, la validacin del mtodo se efecta a travs de una dcima, prueba de la bondad de ajuste. Esteestadstico 2 es usado para probar la especificacin de un modelo de kfactores. La hiptesis a rechazar es que las predicciones del modelo k-factorial son buenos estimadores de las correlaciones observadas. En otras palabras, que los k-factores son lo suficiente para representar adecuadamente los datos. El estadstico, especialmente para grandes muestras, puede implicar que ms factores deben ser agregados al modelo.

22

II.- ESCALAMIENTO MULTIDIMENSIONAL El escalamiento multidimensional puede ser considerado como un mtodo alternativo al anlisis factorial. En general, el objetivo de este mtodo es encontrar las dimensiones fundamentales significativas que permiten al investigador explicar las similaridades o disimilaridades (distancias) observadas entre los objetos investigados. En el anlisis factorial, las similaridades entre los objetos (es decir, las variables) estn expresadas en la matriz de correlaciones. Con el escalamiento multidimensional es posible analizar cualquier tipo de matriz de similaridad o disimilaridad, adems de las matrices de correlacin. Las principales aplicaciones en el rea de la Mercadotecnia se deben al anlisis de (1) las percepciones del consumidor sobre la semejanza de marcas y (2) las preferencias del consumidor por las marcas. Este mtodo permite posicionar las marcas en un espacio n-dimensional, donde n es la dimensin mnima fundamental de la relacin. Por tanto, podemos hablar de posicionar marcas y preferencias relacionadas con las marcas en un espacio perceptual. En general, existen tres tipos de escalas multidimensionales. Estos tipos, que se relacionan con la naturaleza de los datos bsicos y resultantes, son los siguientes: Completamente mtricas. Estos mtodos requieren medidas de datos bsicos de escala de intervalos o de razn, y generan un conjunto de relaciones entre los objetos que tambin se presentan en intervalos o razn. Completamente no mtricas. Estos mtodos generalmente toman medidas de datos bsicos de escala ordinal y generan el rango-orden de cada objeto en cada dimensin. No mtricas . Estos mtodos toman medidas de datos bsicos de escala ordinal y generan un conjunto de relaciones entre los objetos que se presentan en forma de datos de intervalo, es decir, la distancia entre los objetos en el espacio perceptual tiene un significado til. 1.- Algoritmo de iteracin. El escalamiento multidimensional no es un procedimiento exacto sino ms bien una manera de reordenar los objetos en una manera eficiente hasta alcanzar una configuracin que mejor aproxime las distancias observadas. El programa mueve los objetos alrededor del espacio definido por el nmero de dimensiones y comprueba que las distancias puedan ser bien reproducidas por la nueva configuracin. En trminos tcnicos, el programa usa un algoritmo minimizacin de funcin que evala diferentes configuraciones con el objetivo de maximizar la bondad de ajuste. Medidas de bondad de ajuste: Esfuerzo. La medida ms comnmente usada para evaluar cun bien una configuracin particular reproduce la matriz de distancias observadas es la medida de Esfuerzo. El Esfuerzo de una configuracin est definido por:

23

$ ( d ij d ij ) 2 Esfuerzo = i < j d ij2 i< j

1/ 2

$ donde d ij es una distancia lo ms cercana posible al dij a fin de minimizar el Esfuerzo. La


sumatoria en el denominador normaliza la funcin de Esfuerzo. Hay muchas medidas similares que son comnmente empleadas para cuantificar la suma de las desviaciones al cuadrado entre las distancias observadas y esperadas. Por lo tanto, mientras ms pequeo es la medida de Esfuerzo, mejor ser el ajuste de la matriz de distancias reproducidas hacia la matriz de distancias observadas. 2.- Determinacin del nmero de dimensiones. El objetivo es reducir la complejidad de la naturaleza de los datos observados, es decir, explicar la matriz de distancia en trminos del mnimo nmero de dimensiones fundamentales. Para esto, es posible establecer dos criterios: 3.- Diagrama de sedimentacin (Cattell). Grfica el valor del Esfuerzo contra el nmero de dimensiones. 4.- Interpretabilidad de la configuracin. Consiste en determinar el nmero de dimensiones que mejor facilitan la interpretacin de la configuracin final.

5.- Ejecucion de un anlisis de escalamiento multidimensional. Para realizar un anlisis de escalamiento multidimensional a los datos, es necesario que elija en los mens: Estadsticos Escala Escalamiento multidimensional... Los siguientes pasos en el anlisis corresponden a la seleccin del tipo de datos utilizados, la estimacin del modelo de escalamiento y las diversas opciones que estn disponibles ya sea para mostrar resultados como para detener el proceso de iteracin. 5.1.- Tipo de datos. Este mtodo trabaja sobre la base de una matriz de distancias, la cual puede ser proporcionada en forma directa ( os datos son distancias) o indirectamente ( L Crear distancias a partir de los datos).

24

1. Si los datos son distancias, debe seleccionar al menos cuatro variables y puede pulsar en Forma para indicar el tipo de matriz (simtrica, asimtrica y rectangular). 2. En el otro caso, el SPSS crear una matriz de distancia simtrica. Adems, puede crear matrices distintas para cada categora de una variable moviendo esa variable a Matrices individuales para. La opcin Medida permite especificar el tipo de medida de distancia que desea. Esta opcin presenta las siguientes alternativas: En Medida, seleccione la opcin que corresponda a su tipo de datos (de intervalo, de recuento o binarios); a continuacin, en la lista desplegable, seleccione una de las medidas que corresponda a ese tipo de datos. En Transformar valores, permite estandarizar valores de datos para casos o variables antes de calcular proximidades. Estas transformaciones no son aplicables a los datos binarios. En Crear matriz de distancias, permite un anlisis Entre variables o Entre casos. Luego, seleccione las variables para el anlisis.

5.2.- Modelo. Para especificar el modelo de escalamiento multidimensional debe considerar el aspecto de los datos y del modelo en s. En Nivel de medida, permite especificar el nivel de los datos. Las opciones son:

25

Ordinal, trata los datos como categricos y realiza un anlisis no-mtrico. Si se selecciona Desempatar observaciones empatadas se solicitar que sean consideradas como variables continuas, de forma que los empates (valores iguales para casos diferentes) se resuelvan ptimamente. Intervalo, trata los datos como cuantitativos y realiza un anlisis mtrico. Razn, trata los datos como cuantitativos y realiza un anlisis mtrico. En Condicionalidad, permite especificar qu comparaciones tienen sentido. Las opciones son Matriz, Fila o Incondicional. En Dimensiones, permite especificar la dimensionalidad de la solucin o soluciones de escalamiento. Se calcula una solucin para cada nmero del rango. Especifique enteros entre 1 y 6; se permite un mnimo de 1 slo si selecciona Distancia eucldea como modelo de escalamiento. Para una solucin nica, especifique el mismo nmero como mximo y mnimo. En Modelo de escalamiento, permite especificar los supuestos por los que se realiza el escalamiento. Las opciones disponibles son Distancia eucldea o Distancia eucldea de diferencias individuales (tambin conocida como INDSCAL). Para el modelo de Distancia eucldea de diferencias individuales, puede seleccionar Permitir ponderaciones negativas de sujetos, si es adecuado para los datos.

5.3.- Opciones.

26

En el SPSS puede seleccionarse el tipo de informacin que necesita para la interpretacin de los resultados y tambin determinar la detencin del algoritmo a travs de las siguientes opciones: En Mostrar, permite seleccionar varios tipos de resultados ya sea tablas y grficos. En Criterios, permite determinar cundo debe detenerse la iteracin. Esta puede detenerse ya sea cuando algunos de los valores de cualquier de las alternativas se cumpla. En Tratar distancias menores que n como perdidas, consiste en que las distancias menores que este valor se excluyen del anlisis.

A fin de fijar las ideas anteriores, se desarrollar un ejemplo para describir de manera comprensiva la aplicacin de este metodo mediante el uso del SPSS. 6.- Ejemplo. Supongamos que deseamos medir las percepciones del consumidor con relacin a la similitud y preferencia de 11 modelos de automviles: a.b.c.d.e.f.g.h.i.j.k.Ford Taurus Mercury Sable Lincoln Continental Ford Thunderbird Ford Escort Cadillac El dorado Jaguar XJ Sedan Mazda 626 Plymouth Sundance Biuck Le Sabre Chevrolet Cavalier

27

Para las similitudes, se necesita obtener de los consumidores el rango-orden de la similitud de las 55 combinaciones de modelos de automviles, tomando dos a la vez. En general, exsten n(n1)/2 ordenes de rango que se han de obtener, donde n es el nmero de objetos de inters. Una forma de hacerlo es colocar cada una de las 55 combinaciones en una tarjeta separada. Posteriormente, se pide a los encuestados que clasifiquen por rango-orden las tarjetas en trminos del par ms similar al par menos similar. Una de las posibilidades combinaciones de un consumidor aparecen en la tabla de similitudes entre pares de modelos de automviles. Por ejemplo, en este caso el consumidor consider que los automviles c y f era el par ms similar. 6.1.- Matriz de distancias. Tabla rango-orden de similitudes entre pares de modelos de automviles.
Ford Mercury Lincoln Ford Ford Cadillac Taurus Sable Continenta Thunderbir Escort El l d dorado Ford Taurus Mercury Sable Lincoln Continental Ford Thunderbird Ford Escort Cadillac El dorado Jaguar XJ Sedan Mazda 626 Plymouth Sundance Biuck Le Sabre Chevrolet Cavalier Jaguar XJ Mazda Plymout Biuck Le Chevrole Sedan 626 h Sabre t Sundance Cavalier

0 8 50 31 12 48 36 2 5 39 10

8 0 38 9 33 37 22 6 4 14 32

50 38 0 11 55 1 23 46 41 17 52

31 9 11 0 44 13 16 19 25 18 42

12 33 55 44 0 54 53 30 28 45 7

48 37 1 13 54 0 26 47 40 24 51

36 22 23 16 53 26 0 29 35 34 49

2 6 46 19 30 47 29 0 3 27 15

5 4 41 25 28 40 35 3 0 20 21

39 14 17 18 45 24 34 27 20 0 43

10 32 52 42 7 51 49 15 21 43 0

Para realizar una anlisis de escalamiento multidimensional a la matriz de similitudes de modelos de automviles dirgase a Estadsticos y seleccione la opcin Escala y, despus, la alternativa Escalamiento multidimensional. En el cuadro de dialogo Escalamiento multidimensional seleccione todas las variables (a hasta k) y la opcin Los datos son distancias. Adems, pulse en Modelo y seleccione las siguiente opciones: Modelo... Nivel de medida Ordinal

28

Dimensiones Mnimo: 2

Mximo: 2

Pulse Opciones y seleccione las siguientes alternativas: Mostrar... Grficos de grupo Grficos de sujetos individuales Matriz de datos

6.2.- Resultos del anlisis de escalamiento multidimensional. Los resultados (tablas y grficos) obtenidos del SPSS se muestran a continuacin:

Raw (unscaled) Data for Subject 1 1 1 2 3 4 5 6 7 8 9 10 11 ,000 8,000 50,000 31,000 12,000 48,000 36,000 2,000 5,000 39,000 10,000 2 3 4 5 6 7 8 9 10

,000 38,000 ,000 9,000 11,000 33,000 55,000 37,000 1,000 22,000 23,000 6,000 46,000 4,000 41,000 14,000 17,000 32,000 52,000

,000 44,000 13,000 16,000 19,000 25,000 18,000 42,000

,000 54,000 53,000 30,000 28,000 45,000 7,000

,000 26,000 ,000 47,000 29,000 ,000 40,000 35,000 3,000 ,000 24,000 34,000 27,000 20,000 ,000 51,000 49,000 15,000 21,000 43,000

Iteration history for the 2 dimensional solution (in squared distances) Young's S-stress formula 1 is used. Iteration 1 2 3 4 5 S-stress ,14147 ,09884 ,08335 ,07347 ,06568 Improvement

,04263 ,01549 ,00988 ,00779

29

6 7 8 9 10 11 12 13 14 15

,06033 ,05656 ,05364 ,05131 ,04941 ,04783 ,04644 ,04521 ,04419 ,04350

,00536 ,00377 ,00292 ,00233 ,00190 ,00159 ,00138 ,00123 ,00102 ,00069

Iterations stopped because S-stress improvement is less than ,001000 En este caso, la iteracin se detiene al satisfacerse el primer criterio. Stress and squared correlation (RSQ) in distances RSQ values are the proportion of variance of the scaled data (disparities) in the partition (row, matrix, or entire data) which is accounted for by their corresponding distances. Stress values are Kruskal's stress formula 1.

For matrix Stress = ,04717 RSQ = ,98905

Configuration derived in 2 dimensions

Stimulus Coordinates Dimension Stimulus Number 1 2 3 4 5 6 Stimulus Name A B C D E F 1 2

1,2089 ,3568 ,2442 ,3328 -1,9523 ,0223 -,6279 ,1926 1,9226 -,8934 -1,9368 -,2685

30

7 8 9 10 11

G H I J K

-,9811 ,7031 ,5072 -,7548 1,6670

1,2333 ,3976 -,0113 -,7510 -,6114

Optimally scaled data (disparities) for subject 1 1 1 2 3 4 5 6 7 8 9 10 11 2 3 4 5 6 7 8 9 10

,000 ,925 ,000 3,205 2,274 ,000 1,803 ,925 1,325 ,000 1,325 2,006 3,982 2,712 ,000 3,205 2,274 ,291 1,325 3,910 2,274 1,386 1,386 1,325 3,637 ,466 ,574 2,712 1,347 1,8032 ,574 ,466 2,444 1,386 1,770 2,274 1,325 1,325 1,325 2,712 1,071 1,803 3,637 2,444 ,574

,000 1,770 ,723 2,444 1,386 3,620

,000 1,803 2,006 2,006 3,205

,000 ,466 1,770 1,325

,000 1,386 1,386

,000 2,444

Grfico de ajuste no lineal Modelo de distancia eucldea


5

Distancias

0 0 10 20 30 40 50 60

Observaciones

31

Grfico de transformacin Modelo de distancia eucldea


5

Distancias

0 0 10 20 30 40 50 60

Observaciones

La siguiente figura se conoce como el diagrama de Shepard, el cual despliega las distancias observadas contra las distancias reproducidas. Si todas las distancias reproducidas son idnticas a las distancias observadas, por lo tanto, todos los puntos en este diagrama se encontraran a lo largo de una lnea recta.

Grfico de ajuste lineal Modelo de distancia eucldea


5

Distancias

0 0 1 2 3 4 5

Disparidades

La siguiente figura representa la configuracin final obtenida despus de que el modelo es ajustado sucesivamente hasta que se cumpla al criterio establecido en Opciones (el proceso

32

converge en la iteracin nmero 15, o sea, la convergencia del S -stress es mejor que 0,001). La interpretacin de los ejes (o dimensiones) facilita la tarea para la determinacin de los gustos y preferencias de los consumidores. En este caso, en particular, la matriz de distancia esta asociada a la percepcin que tiene un consumidor a cerca de la similitud entre los modelos de automviles. Por lo tanto, mediante este espacio perceptual bidimensional es posible establecer segmentos competitivos originados por la posicin relativa que tienen los modelos dentro de este espacio. Tambin, puede identificarse la combinacin de atributos preferidos, productos sustitutos y otros aspectos relacionados con el producto y el mercado.

Configuracin de estmulos derivada Modelo de distancia eucldea


1,5 g 1,0

,5 d c 0,0

b i

Dimensin 2

f -,5 j e -1,0 -3 -2 -1 0 1 2 k

Dimensin 1

33

III.- ANLISIS DISCRIMINANTE. El anlisis discriminante es una tcnica apropiada en el caso de una variable dependiente nominal y variables independientes de intervalos. Las variables dependientes nominales son muy comunes en el rea del marketing; por ejemplo, riesgos de crdito bueno versus crdito malo, consumidores leales a una marca versus consumidores no leales, diferentes usuarios de marcas y vendedores con xito versus vendedores sin xito. Como resultado, este mtodo se ha aplicado en forma extensiva en la investigacin de mercados. La idea del anlisis discriminante es encontrar una combinacin lineal de las variables independientes (o, para ms de dos grupos, un conjunto de combinaciones lineales) tal q los ue puntajes medios de las categoras de la variable dependiente, en esta combinacin lineal, se diferencien en forma mxima. Esta combinacin lineal recibe el nombre de funcin discriminante (FD). En smbolos, FD = v1 X1 + v2 X2 + ... + vm Xm donde X es la m-sima independiente. El propsito es encontrar los valores para los v, los cuales m dan la FD requerida. El criterio que se emplea para decidir cuando son diferentes al mximo las medias de grupo, es la conocida prueba ANOVA F, para las diferencias entre medias. Por tanto, las v se derivan de tal forma que

F=

SCentre grupo SCdentro grupo

se maximiza. El anlisis discriminante tambin llamado anlisis de identificacin o asignacin, requiere una clasificacin a priori de la muestra y el objetivo es establecer las fronteras entre esos grupos (o clases) dados, a fin de asignar un nuevo individuo a uno de ellos. 1.- Supuestos. El anlisis discriminante es muy similar a un anlisis de varianza y, por lo tanto, se aplican todos los supuestos en un anlisis de varianza (ANOVA). De hecho, pueden utilizarse las pruebas estadsticas y diagnostico de supuestos que estn disponibles en un ANOVA, a objeto de examinar los datos antes de un anlisis discriminante. Este mtodo considera los siguientes supuestos: Distribucin normal. Este asume que los datos representan una muestra con una distribucin normal multivariada. Por lo tanto, pueden examinarse las variables si o no estn normalmente distribuidas mediante grficos de distribucin de frecuencias (histogramas). Estas pueden obtenerse a travs del men Grficos. Homogeneidad de varianzas y covarianzas. Esta asume que las matrices de varianzas/covarianzas de las variables son homogneas a travs de los grupos. Por lo tanto, ser necesario revisar las matrices de covarianzas y de correlacin intra-grupos. Estas matrices son entregadas como resultado a travs de la opcin Estadsticas del anlisis discriminante. En el caso 34

de existir diferencias intente excluir los grupos de poco inters y realice una vez ms el anlisis. El SPSS proporciona una prueba bastante rigurosa para comprobar la homogeneidad de las matrices de varianzas/covarianzas Pertenencia. Este asume que la pertenencia a un grupo es exclusiva (es decir, ningn caso pertenece a ms de un grupo) y exhaustiva de modo colectivo ( es decir, todos lo casos son miembros de un grupo).

2.- Ejemplo 1: Modelo discriminante para dos grupos. Los datos se presentan en la tabla 1 y corresponden a informacin econmica y demogrfica de 46 pases, obtenidas del archivo wordl95.sav. En este ejemplo se aplica el mtodo anlisis discriminante a la tabla a fin de generar una funcin discriminante mediante la combinacin de la informacin contenida en las variables caloras, urbana, log_pib y log_pop. Este funcin permitira distinguir entre pases de zona tropical y templada, y tambin la posterior clasificacin de pases ya sea en uno de estos dos grupos, sobre la base de su informacin econmica y demogrfica (variables caloras, urbana, log_pib y log_pop). La muestra de datos fue previamente clasificada segn la variable clima (variable de agrupacin), puesto que lo requiere el mtodo. El SPSS excluye los casos incompletos. Tabla 1 - Datos econmicos y demogrficos de 46 pases. PAS Alemania Argentina Austria Bangladesh Brasil Camboya Colombia Costa Rica Chile China Dinamarca Ecuador El Salvador Espaa Estados Unid Filipinas Francia Gabn Gran Bretaa Grecia urbana 85 86 58 16 75 12 70 47 85 26 85 56 44 78 75 43 73 46 89 63 caloras 3443 3113 3495 2021 2751 2166 2598 2808 2581 2639 3628 2531 2317 3572 3671 2375 3465 2383 3149 3825 log_pib 04 04 04 02 03 02 03 03 03 03 04 03 03 04 04 03 04 04 04 04 log_pob 05 05 04 05 05 04 05 04 04 06 04 04 04 05 05 05 05 03 05 04 clima 8 8 8 5 5 5 5 5 8 8 8 5 5 8 8 5 8 5 8 8 35

Guatemala Haiti Hunga Indonesia Irlanda Liberia Malasia Nicaragua Nigeria Noruega Nueva Zeland Pases Bajos Panam Rep. Dominic Ruanda Rumana Senegal Singapur Suiza Tailandia Turqua Uganda Uruguay Venezuela Vietnam Zambia

39 29 64 29 57 45 43 60 35 75 84 89 53 60 6 54 40 100 62 22 61 11 89 91 20 42

2235 2013 3644 2750 3778 2382 2774 2265 2312 3326 3362 3151 2539 2359 1971 3155 2369 3198 3562 2316 3236 2153 2653 2582 2233 2077

03 03 04 03 04 03 03 03 02 04 04 04 03 03 02 03 03 04 04 03 04 03 03 03 02 03

04 04 04 05 04 03 04 04 05 04 04 04 03 04 04 04 04 03 04 05 05 04 04 04 05 04

5 5 8 5 8 5 5 5 5 8 8 8 5 5 8 8 5 5 8 5 8 5 8 5 5 5

Para realizar una anlisis discriminante a los datos de la tabla 1, es necesario que elija en los mens: Estadsticos Clasificar Discriminante... Luego, seleccione las variables para el anlisis. Variable de agrupacin: clima Definir rango... Mnimo: 5 Mximo: 8 Independientes: caloras, log_pib, log_pop,urbana

36

Para verificar los supuestos del mtodo y analizar los coeficientes de la funcin pulse en Estadsticos. Mostrar un cuadro de dialogo en donde seleccione las siguientes alternativas: Estadsticos... Descriptivos Medias ANOVAs univariados M de Box Matrices Covarianza de grupos separados

Por otra parte, en el cuadro de dialogo Clasificar es posible especificar las probabilidades de pertenencia a los grupos, el tipo de matriz utilizada para clasificar los casos y seleccionar los resultados requeridos para el anlisis. Por lo tanto, pulse Clasificar y seleccione lo siguiente:

37

Clasificar... Mostrar Resultados para cada caso Tabla de resumen

2.1.- Verificacin de los supuestos. Una de los supuestos necesarios para el mtodo es la igualdad de las matrices de covarianza de grupo. Por ejemplo, las varianzas de caloras deben ser iguales en los dos grupos de piases ( o en todos los grupos en un problema multivariado), y la varianzas poblacional entre caloras y urbana deben ser iguales para los grupos. En el caso de que las observaciones en un grupo sigan una distribucin normal multivariadas, los grupos formaran elipsoides de concentracin de puntos, los cuales estaran construidos usando la misma media, la desviacin estndar y la matriz de covarianza de cada grupo. El SPSS provee el estadstico multivariado M de Box para probar la hiptesis nula que las matrices de covarianzas son iguales. Los valores de esta tabla Logaritmo de los determinantes dan una indicacin de las matrices de covarianzas que ms difieren. En esta tabla se observan una dispersin de los puntos del grupo tropical relativamente menor al otro grupo.

38

Logaritmo de los determinantes Logaritmo del determinante 12,954 14,498 13,971

Clima predominante tropical templado Intra-grupos combinada

Rango 4 4 4

Los rangos y logaritmos naturales de los determinantes impresos son los de las matrices de covarianza de los grupos.

Los resultados de la prueba se muestra en la tabla a continuacin. La hiptesis nula de igual en las matrices de covariancias poblacionales no se rechaza. Note, sin embargo, puede existir situaciones con matrices de covarianzas poblacionales no son demasiado diferentes, en donde la prueba puede ser significativa. Esto puede ocurrir cuando los tamaos muestrales intra-grupos son grandes o cuando es violada el supuesto de normalidad multivariada.
Resultados de la prueba M de Box F 13,861 1,248 10 8603,929 ,255

Aprox. gl1 gl2 Sig.

Adems, es importante comparar las desviaciones estndar de cada variable dentro de los grupos. En la tabla Estadstico del g rupo es posible analizar estas diferencias de las variables. Se observa que caloras presenta la mayor diferencias de las varianzas entre las dos climas. Las otras variables no evidencia diferencias en las varianzas.

39

Estadsticos del grupo N vlido (segn lista) No ponderados Ponderados 25 25,000 25 25,000 25 25,000 25 25,000 21 21,000 21 21,000 21 21,000 21 21,000 46 46,000 46 46,000 46 46,000 46 46,000

Clima predominante tropical

templado

Total

caloras Log_pib Log_pob urbana caloras Log_pib Log_pob urbana caloras Log_pib Log_pob urbana

Media 2420,2800 2,9895 4,1805 45,1200 3258,0476 3,8537 4,2965 68,7619 2802,7391 3,3841 4,2334 55,9130

Desv. tp. 281,3498 ,4579 ,6231 22,5801 464,0787 ,5515 ,6651 21,3680 562,0886 ,6607 ,6380 24,8317

La siguiente matiz de covarianza permite comparar las varianzas de las variables en los grupos.
Matrices de covarianza Clima predominante tropical caloras 79157,710 100,598 -11,054 4357,590 215369,0 206,070 -29,453 4018,762 Log_pib 100,598 ,210 -,097 7,569 206,070 ,304 -,085 8,121 Log_pop -11,054 -,097 ,388 -3,766 -29,453 -,085 ,442 -2,471 urbana 4357,590 7,569 -3,766 509,860 4018,762 8,121 -2,471 456,590

templado

caloras Log_pib Log_pop urbana caloras Log_pib Log_pop urbana

El estadstico Lambda de Wilks (Pruebas de la igualdad de las medias de los grupos) es usado para probar la hiptesis nula que la media de todas las variables a travs de los grupos son iguales. Los valores del estadstico lambda de Wilks son de 0 a 1. Los valores ms pequeos indican una fuerte diferencias entre los grupos. Segn la tabla, los valores del estadstico F indica que las diferencias son altamente significativas de las medias de las variables entre los dos grupos, excepto para la variable log-pop.

40

Pruebas de igualdad de las medias de los grupos Lambda de Wilks ,437 ,566 ,992 ,770

caloras Log_pib Log_pob urbana

F 56,782 33,743 ,372 13,135

gl1 1 1 1 1

gl2 44 44 44 44

Sig. ,000 ,000 ,545 ,001

2.2.- Modelo discriminante. El propsito principal de una anlisis discriminante esta relacionado al tema de la clasificacin predictiva de casos. Una vez que el modelo ha sido terminado y las funciones discriminantes derivadas, debemos preguntarnos que tan bien podemos predecir la pertenencia de un caso a un grupo particular. Funciones de clasificacin. Estas funciones son usadas para determinar la pertenencia de un caso a grupo. Se obtienen tantas funciones de clasificacin como grupos existan. Las columnas de la tabla coeficientes de la funcin de clasificacin contiene los coeficientes de la funcin para cada grupo. Los coeficientes son calculados para maximizar las distancia entre los dos grupos.
Coeficientes de la funcin de clasificacin Clima predominante tropical templado ,002 ,008 20,647 21,007 13,502 14,111 -,172 -,175 -58,801 -78,712

caloras Log_pib Log_pob urbana (Constante)

Funciones discriminantes lineales de Fisher

La funcin de clasificacin para los pases en la zona tropical son. Ztrop = 0,002 caloras + 20,647 log_pib + 13,502 log_pop + -0,172 urbana - 58,801 La funcin de clasificacin para los pases en la zona templada son. Ztemp = 0,008 caloras + 21,007 log_pib + 14,111 log_pop + -0,175 urbana - 78,712 Cada funcin permite calcular los puntajes de clasificacin para cada caso. Una vez realizado esto, es fcil decidir como clasificar el caso: en general, un casos se dice pertenecer a un grupo cuando su puntaje clasificacin a aquel grupo es mayor que a otros grupos.

41

Funcin discriminante lineal de Fisher. Cuando hay dos grupos pueden utilizarse las funciones clasificacin para obtener la funcin discriminante lineal. En un diagrama de dispersin esta funcin representa a una lineal que divide a los dos grupos. Los coeficientes de la funcin discriminante lineal son calculados mediante la diferencia entre los coeficientes de las funciones de clasificacin tropical y templada. FD = (0,002 - 0,008) caloras + (20,647- 21,007) log_pib + (13,502 - 14,111) log_pop + (0,172 + 0,175) urbana + (- 58,801 + 78,712) FD = - 0,006 caloras - 0,36 log_pib - 0,609 log_pop + 0,173 urbana + 19,911

2.3.- Resumen de la funcin cannica discriminante. Autovalores. Mide la dispersin del centroides de los grupos. En este caso el autovalor es uno que indica que los centroides de los dos grupos estn relativamente cerca. El autovalor corresponde al cuociente entre la suma de cuadrados intra-grupos y suma de cuadrados inter-grupos. Correlacin cannica. Mide la asociacin entre los puntajes discriminantes y los del grupo. Cuando hay solamente dos grupos sta es la correlacin de Pearson..
Autovalores % de varianza 100,0 % acumulado 100,0 Correlacin cannica ,755

Funcin 1

Autovalor 1,326a

a. Se han empleado las 1 primeras funciones discriminantes cannicas en el anlisis.

Lambda de Wilks. Este indica la proporcion de la varianza total en los puntajes discriminantes que no son explicados por las diferencias entre los grupo. En este caso, casi el 50% de la varianza no es explicada por las difrencias de los grupos. El lambda es docimado con una distribucion 2. Con una 2 de 35,46 se tiene que la diferencia entre los dos centroides es significativa, considerando las medias de las variables simulktaneamente.
Lambda de Wilks Contraste de las funciones 1 Lambda de Wilks ,430

Chi-cuadrado 35,460

gl 4

Sig. ,000

Coeficientes estandarizados de las funciones cannicas discriminantes. Estos proporcionan una indicacin ms verdadera de la contribucin relativa de cada variable a la funcin discriminante.

42

Coeficientes estandarizados de las funciones discriminantes cannicas Funcin 1 ,951 ,080 ,173 -,026

caloras log_pib log_pop urbana

Matriz de estructura. Una manera para determinar que variables son las que definen una funcion discriminante es observar las correlaciones intra-grupo de cada variable predictora con la variable cannica o funcion discriminante (mostradas en la matriz de estructura). Haciando una anlogia al anlisis factorual, esstos correalaciones pueden pensarse como cargas factoriales de las variables en cada funcion discriinante.
Matriz de estructura Funcin 1 ,986 ,760 ,474 ,080

caloras Log_pib Log_pob urbana

Funciones en los centroides de los grupos. Esta tabla indica los valores tomados por las funciones discriminantes cannicas no tipificadas evaluadas en las medias de los grupos.
Funciones en los centroides de los grupos Clima predominante tropical templado Funcin 1 -1,032 1,229

2.4.- Clasificacin de los casos. Estadsticos por caso. Esta tabla. permite comparar la informacin de los miembros de su grupo actual a los miembros pronosticados por el mtodo. La pertenencia de un caso a uno de los dos grupos, se calcula a travs de la funciones de clasificacin. Adems se entrega la probabilidad de pertenencia de un caso a uno de los dos grupos.

43

Estadsticos por casos


Puntua ciones discrimi nantes

Grupo mayor Distancia de Mahalanobis al cuadrado hasta el centroide

Segundo grupo mayor

Nmero de Grupo casos real


Original 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46

Grupo pronosticado

P(D>d | G=g) p gl

P(G=g | D=d)

Grupo

P(G=g | D=d)

Distancia de Mahalanobis al cuadrado hasta el Funcin centroide 1

8 8 8 5 5 5 5 5 8 8 8 5 5 8 8 5 8 5 8 8 5 5 8 5 8 5 5 5 5 8 8 8 5 5 8 8 5 5 8 5 8 5 8 5 5 5

8 8 8 5 8** 5 5 5 5** 5** 8 5 5 8 8 5 8 5 8 8 5 5 8 5 8 5 5 5 5 8 8 8 5 5 5** 8 5 8** 8 5 8 5 5** 5 5 5

,499 ,707 ,568 ,402 ,261 ,456 ,581 ,395 ,676 ,306 ,409 ,815 ,715 ,365 ,155 ,953 ,476 ,779 ,906 ,169 ,628 ,240 ,375 ,258 ,243 ,726 ,315 ,537 ,897 ,961 ,927 ,792 ,883 ,805 ,214 ,771 ,836 ,717 ,463 ,972 ,966 ,496 ,663 ,642 ,719 ,336

1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

,983 ,847 ,979 ,988 ,503 ,986 ,787 ,653 ,834 ,561 ,988 ,884 ,967 ,990 ,997 ,919 ,985 ,961 ,908 ,997 ,975 ,995 ,990 ,500 ,994 ,966 ,571 ,981 ,945 ,935 ,941 ,877 ,902 ,957 ,995 ,870 ,954 ,850 ,985 ,933 ,934 ,984 ,828 ,818 ,967 ,991

,457 ,141 ,327 ,702 1,266 ,554 ,305 ,725 ,175 1,046 ,682 ,055 ,134 ,820 2,022 ,003 ,507 ,079 ,014 1,890 ,235 1,382 ,787 1,278 1,362 ,123 1,009 ,381 ,017 ,002 ,008 ,069 ,022 ,061 1,546 ,085 ,043 ,131 ,539 ,001 ,002 ,464 ,190 ,216 ,130 ,925

5 5 5 8 5 8 8 8 8 8 5 8 8 5 5 8 5 8 5 5 8 8 5 8 5 8 8 8 8 5 5 5 8 8 8 5 8 5 5 8 5 8 8 8 8 8

,017 ,153 ,021 ,012 ,497 ,014 ,213 ,347 ,166 ,439 ,012 ,116 ,033 ,010 ,003 ,081 ,015 ,039 ,092 ,003 ,025 ,005 ,010 ,500 ,006 ,034 ,429 ,019 ,055 ,065 ,059 ,123 ,098 ,043 ,005 ,130 ,046 ,150 ,015 ,067 ,066 ,016 ,172 ,182 ,033 ,009

8,629 3,556 8,025 9,606 1,291 9,035 2,922 1,988 3,397 1,534 9,529 4,110 6,901 10,028 13,565 4,852 8,840 6,462 4,596 13,221 7,542 11,812 9,912 1,279 11,754 6,820 1,579 8,287 5,714 5,336 5,535 3,992 4,470 6,288 12,284 3,882 6,095 3,606 8,974 5,271 5,307 8,657 3,332 3,227 6,871 10,387

1,905 ,854 1,801 -1,870 ,104 -1,777 -,480 -,181 -,614 -,010 2,055 -,798 -1,398 2,134 2,651 -,974 1,941 -1,313 1,111 2,604 -1,517 -2,208 2,116 ,098 2,396 -1,383 -,028 -1,650 -1,162 1,278 1,320 ,966 -,885 -1,279 -2,276 ,938 -1,240 ,867 1,963 -1,067 1,271 -1,713 -,596 -,567 -1,392 -1,994

**. Caso mal clasificado

44

Por ejemplo, para el caso 2 (Argentina) el puntaje de pertenencia a las zonas es: Ztrop= (0,002 x 3113) + (20,647 x 3,53) + (13,502 x 4,53) + (-0,172 x 86) - 58,801 = 66,68 La funcin de clasificacin para los pases en la zona templada son. Ztemp= (0,008 x 3113) + (21,007 x 3,53) + (14,111 x 4,53) + (-0,175 x 86) - 78,712 = 69,21 El puntaje de pertenencia de Argentina es mayor para la zona templada (grupo 8). Por lo tanto, Argentina es clasificado como un pas de clima templado. Distancias Mahalanobis (D2). Esta es una medida de distancias entre dos puntos en un espacio definido por dos o ms variables (dimensiones) correlacionadas . Por ejemplo, si hay dos variables que no estn correlacionadas, entonces las distancias Mahalanobis entre los puntos insertos en un espacio bidimensional seria idntica a la distancia Euclidiana, esto es, la distancia, por ejemplo, medida por una regla. ahora bien, en los casos de tener dos variables correlacionadas los ejes que definen el espacio ya no serian ortogonales, por lo tanto, la distancia Euclidiana no correspondera a una mtrica apropiada, mientras que la distancias Mahalanobis explicara adecuadamente las similitudes entre los puntos. Distancias Mahalanobis y la probabilidad de pertenencia de los casos. A cada grupo puede definirse un punto que representa las media del grupo. Estos puntos son llamados centroides del grupo. Entonces, para cada punto asociado a un caso puede calcularse las distancias Mahalanobis con respecto a los centroides de los grupos. Por lo tanto, podemos clasificar los casos pertenecientes a un determinado grupo, de acuerdo con el criterio de la menor de las distancias Mahalanobis. Los casos con grandes valores distancias Mahalanobis d la media del grupo pueden ser identificados e como casos atpicos. Para muestras grandes de una distribucin normal multivariada, la distancia Mahalanobis de una caso a la media de su grupo es distribuida aproximadamente como una 2 con grados de libertad igual al nmero de variables en la funcin. La probabilidad de pertenencia indica que tanto se identifica un caso a las caractersticas de un determinado grupo. Estas probabilidades son derivadas de las distancias Mahalanobis. Por ejemplo, la probabilidad de pertenecer Argentina al grupo 8 (0,70) es bastante alta comparada a la probabilidad de pertenencia al grupo 5 (0,15). Estas probabilidades son derivadas del calculo de las distancias Mahalanobis entre el caso y el centroide del grupo. 2.5.- Prediccin. Un resultado que cualquiera debera observar para determinar que tan bien las funciones de clasificacin pronostica que los casos sean miembros de un grupo es la matriz de clasificacin. Resultados de la clasificacin. Esta tabla muestra el nmero (o porcentaje) de casos clasificados correctamente e incorrectamente. Entre los 25 pases tropical (grupo 5), 23 (92%) estn clasificados correctamente y 2 (8%) estn clasificados incorrectamente. Para la zona templada, 17 (81%) pases

45

estn clasificados correctamente y 4 (19%) estn mal clasificados. En general, el 87% de los casos de la muestra estn clasificados correctamente.
a Resultados de la clasificacin

Original

Recuento %

Clima predominante tropical templado tropical templado

Grupo de pertenencia pronosticado tropical templado 23 2 4 17 92,0 8,0 19,0 81,0

Total 25 21 100,0 100,0

a. Clasificados correctamente el 87,0% de los casos agrupados originales.

3.- Ejemplo 2: Modelo discriminante para multi-grupos. El objetivo de este ejemplo es la obtencin de un modelo para cuatro grupos usando algn mtodo de seleccin de variables. Los datos relacionados con estas variables estn contenidos en la tabla 2. La idea es construir funciones discriminantes a partir de la combinacin de algunas variables independientes (espvidaf, mortinf, alfabet, tasa_nat, tasa_mor, fertilid, urbana, log_pib, inc_pob, nac_def y log_pob) que mejor pronostiquen la clasificacin de un pas (caso) dentro de una regin geogrfica: Europa, Asia/Pacfico, Medio Oriente y Amrica Latina. Tabla 2 - Datos econmicos y demogrficos de 60 pases.
PAS urbana espvidaf alfabet inc_po mortin regin tasa_nat tasa_mo log_pib Afghanistan 18 44 29 3 168 3 53 22 02 Corea del Su 72 74 96 1 22 3 16 6 04 China 26 69 78 1 52 3 21 7 03 Filipinas 43 68 90 2 51 3 27 7 03 Hong Kong 94 80 77 0 6 3 13 6 04 India 26 59 52 2 79 3 29 10 02 Indonesia 29 65 77 2 68 3 24 9 03 Japn 77 82 99 0 4 3 11 7 04 Malasia 43 72 78 2 26 3 29 5 03 Pakistn 32 58 35 3 101 3 42 10 03 Singapur 100 79 88 1 6 3 16 6 04 Tailandia 22 72 93 1 37 3 19 6 03 Taiwan 71 78 91 1 5 3 16 . 04 Arabia Saud 77 70 62 3 52 5 38 6 04 Armenia 68 75 98 1 27 5 23 6 04 Egipto 44 63 48 2 76 5 29 9 03 Emiratos ra 81 74 68 5 22 5 28 3 04 Irn 57 67 54 3 60 5 42 8 03 Iraq 72 68 60 4 67 5 44 7 03 Israel 92 80 92 2 9 5 21 7 04 nac_def fertilid log_pob

02 03 03 04 02 03 03 02 06 04 03 03 . 06 04 03 09 05 06 03

7 2 2 3 1 4 3 2 4 6 2 2 . 7 3 4 5 6 7 3

04 05 06 05 04 06 05 05 04 05 03 05 04 04 04 05 03 05 04 04

46

Jordania Kuwait Lbano Libia Siria Turqua Argentina Bolivia Brasil Colombia Costa Rica Cuba Chile Ecuador Guatemala Mxico Nicaragua Panam Paraguay Per Rep. Domini Uruguay Venezuela

68 96 84 82 50 61 86 51 75 70 47 74 85 56 39 73 60 53 48 70 60 89 91

74 78 71 65 68 73 75 64 67 75 79 78 78 73 67 77 67 78 75 67 70 77 76

80 73 80 64 64 81 95 78 81 87 93 94 93 88 55 87 57 88 90 85 83 96 88

3 5 2 4 4 2 1 3 1 2 2 1 2 2 3 2 3 2 3 2 2 1 2

34 13 40 63 43 49 26 75 66 28 11 10 15 39 57 35 53 17 25 54 52 17 28

5 5 5 5 5 5 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6

39 28 27 45 44 26 20 34 21 24 26 17 23 26 35 28 35 25 33 26 25 17 26

5 2 7 8 6 6 9 9 9 6 4 7 6 6 8 5 7 5 5 7 6 10 5

03 04 03 04 03 04 04 03 03 03 03 03 03 03 03 04 03 03 03 03 03 03 03

08 14 04 06 07 04 02 04 02 04 07 02 04 04 04 06 05 05 07 04 04 02 05

6 4 3 6 7 3 3 4 3 2 3 2 3 3 5 3 4 3 4 3 3 2 3

04 03 04 04 04 05 05 04 05 05 04 04 04 04 04 05 04 03 04 04 04 04 04

Para obtener el mejor modelo discriminante, que no necesariamente deba incluir todas las variables independientes o predictoras, se utilizar un mtodo de seleccin de variables. Para realizar una anlisis discriminante a los datos de la tabla 2, es necesario que elija en los mens: Estadsticos Clasificar Discriminante... Luego, seleccione las variables para el anlisis. Variable de agrupacin: regin Definir rango... Mnimo: 3 Mximo: 6 Independientes: espvidaf, mortinf, alfabet, tasa_nat, tasa_mor, fertilid, urbana, log_pib, inc_pob, nac_def, log_pob Usar un mtodo de inclusin por pasos

47

Mtodos de seleccin de variables. Probablemente la manera ms comn de uso del anlisis discriminante es incluir varias medidas al inicio del estudio a fin de determinar algunas que mejor discriminan entre los grupos. El SPSS entrega varios mtodos para construir un modelo usando procedimiento por pasos, que consisten ingresar o remover una variable independiente del modelo a cada paso. Especficamente, en cada paso el SPSS revisa todas las variables y evala cual contribuye ms a la discriminacin entre los grupos (es decir, aumentar la diferencia de las medias entre los grupos). Entonces, esta variable ser incluida en el modelo, el SPSS procede al siguiente paso para incluir una nueva variable. Los mtodos para controlar la entrada y salida de las variables independientes de la funcin discriminante son: Lambda de Wilks. El estadstico F es calculado a cada variable independiente presente (o disponible), el cual mide el cambio en el lambda de Wilks cuando la variable es agregada al modelo. La variable con el F ms grande (o el lambda de Wilks ms pequeo) ingresa al modelo. El SPSS tambin comprueba las variables ya incluidas y, en consecuencia, remover la variable si el valor de su F-salida es demasiado pequeo. Distancias de Mahalanobis. En cada paso, ingresara la variable que maximiza las distancias Mahalanobis entre los dos grupos ms cercanos. La razn ms pequea de F. En cada paso, ingresa la variable que maximiza la razn ms pequea de F para pares de grupo. V de Rao. Tambin conocida como la traza de Lawley-Hotelling. En cada paso, ingresa la variable el valor mayor de las V de Rao, la cual maximiza la diferencia entre las medias (centroides) de los grupos. La suma de la varianza no explicada. La suma de la varianza no explicada para todos los pares de grupos tambin puede usarse como criterio para la seleccin de variables. La variable elegida para ingresar es aquella que miniminiza la suma de la varianza no explicada.

48

En el cuadro de dialogo de anlisis discriminante pulse Mtodo, el cual despliega un nuevo cuadro de dialogo, en el cual deber seleccionar: Mostrar F para distancias por parejas

Para obtener informacin acerca de las diferencias entre los grupos, igualdad de varianza de las variables a travs de los grupos y los coeficientes de la variables cannicas realice lo siguiente: En el cuadro de dialogo de anlisis discriminante pulse Estadsticos. Aparecer un nuevo cuadro de dialogo, en el cual deber seleccionar: Descriptivos Medias ANOVAs univariados M de Box Coeficientes de la funcin De Fisher Matrices Correlacin intra-grupos

49

Para obtener un resumen y una informacin detallada del anlisis y, a la vez, grficos que muestren las fronteras en el diagrama de dispersin seleccione las siguientes opciones en el cuadro de dialogo Clasificacin: Mostrar Resultados para cada paso Tabla de resumen Clasificacin dejando uno fuera Grficos Grupos combinados Grupos separados

3.1.- Verificacion de los supuestos. Las variables utilizadas para la contsrucin del modelo discriminante deben cumplir con los siguientes supuestos:

50

1. Las variables independientes se distribuyen normal. 2. Igual de varianzas y covarianzas de las variables a trves de los grupos. Estadsticos del grupo. Esta tabla permite analizar si se cumplen los supuestos asociados con el modelo. De esta, se observa las medias de las variables difieren entre los grupos (regin) y que las desviaciones estndar de cada variables son tan similares entre los grupos.

51

Estadsticos del grupo N vlido (segn lista) No ponderados Ponderados 12 12,000 12 12,000 12 12,000 12 12,000 12 12,000 12 12,000 12 12,000 12 12,000 12 12,000 12 12,000 12 12,000 13 13,000 13 13,000 13 13,000 13 13,000 13 13,000 13 13,000 13 13,000 13 13,000 13 13,000 13 13,000 13 13,000 17 17 17 17 17 17 17 17 17 17 17 42 42 42 42 42 42 42 42 42 42 42 17,000 17,000 17,000 17,000 17,000 17,000 17,000 17,000 17,000 17,000 17,000 42,000 42,000 42,000 42,000 42,000 42,000 42,000 42,000 42,000 42,000 42,000

Regin econmica Asia / Pacfico

Oriente Medio

alfabet espvidaf fertilid inc_pob log_pib log_pob mortinf nac_def tasa_mor tasa_nat urbana alfabet espvidaf fertilid inc_pop log_pib log_pop mortinf nac_def tasa_mor tasa_nat urbana alfabet espvidaf fertilid inc_pop log_pib log_pop mortinf nac_def tasa_mor tasa_nat urbana alfabet espvidaf fertilid inc_pop log_pib log_pop mortinf nac_def tasa_mor tasa_nat urbana

Media 74,3333 68,5000 3,1575 1,5192 3,2416 4,8038 51,6000 3,0892 8,4167 25,0000 48,5000 71,0769 71,2308 4,8685 3,1300 3,5317 4,0012 42,6154 6,1697 6,1538 33,3846 71,6923 84,5882 73,1176 3,1559 1,9294 3,2205 4,1010 35,6529 4,2069 6,6765 25,9412 66,2941 77,4762 71,2143 3,6864 2,1838 3,3229 4,2709 42,3643 4,4951 7,0119 27,9762 62,8810

Desv. tp. 23,3563 10,8418 1,8874 ,8965 ,7289 ,7866 47,8872 1,1027 4,5817 12,2993 29,3025 14,6143 5,0192 1,5517 1,1576 ,4071 ,5500 21,2122 3,0198 1,9513 8,7611 15,7342 11,8325 4,9860 ,7871 ,5865 ,2514 ,5062 20,2316 1,5159 1,7936 5,6841 16,0459 17,3307 7,2298 1,5949 1,0872 ,4856 ,6875 30,8275 2,3225 2,9765 9,4469 22,2099

Amrica Latina

Total

52

Pruebas de la igualdad de las medias de los grupos. Para probar qu tan separados estn las medias de cada variables en todos los grupos, el SPSS calcula el Lambda de Wilks, tambin conocido como estadstico U, para determinar est diferencia. Este estadstico toma valores entre 0 y 1. Los valores pequeos indican que las medias de las variables difieren. El estadstico lambda de Wilks es la razn entre la suma de cuadrados intra-grupos a la suma total de los cuadrados. El estadstico F es la razn de la variabilidad inter-grupos a la variabilidad intra-grupos. Se observan diferencias no significativas de las variables espvidaf, log_pib, mortinf y tasa_mor.
Pruebas de igualdad de las medias de los grupos Lambda de Wilks ,877 ,930 ,748 ,628 ,915 ,750 ,954 ,722 ,903 ,848 ,818 F 2,727 1,468 6,577 11,562 1,818 6,498 ,939 7,526 2,090 3,501 4,351 gl1 2 2 2 2 2 2 2 2 2 2 2 gl2 39 39 39 39 39 39 39 39 39 39 39 Sig. ,078 ,243 ,003 ,000 ,176 ,004 ,400 ,002 ,137 ,040 ,020

alfabet espvidaf fertilid inc_pob log_pib log_pob mortinf nac_def tasa_mor tasa_nat urbana

Prueba de Box sobre la igualdad de las matrices de covarianza de los grupos. Para tamaos de muestra suficientemente grandes, un valor de no significativo quiere decir que no hay evidencia suficiente de que las matrices difieran. Esta prueba es sensible a las desviaciones de la normalidad multivariada.
Logaritmo de los determinantes Logaritmo del determinante 4 4 4 4 6,137 5,797 3,214 6,079

Regin econmica Asia / Pacfico Oriente Medio Amrica Latina Intra-grupos combinada

Rango

Los rangos y logaritmos naturales de los determinantes impresos son los de las matrices de covarianza de los grupos.

53

Resultados de la prueba M de Box F 48,599 2,052 20 4585,168 ,004

Aprox. gl1 gl2 Sig.

Contrasta la hiptesis nula de que las matrices de covarianza poblacionales son iguales.

Matrices intra-grupos combinadas. Estas correlaciones pueden ser muy diferentes de las correlaciones usuales en donde todos los casos son tratados como una sola muestra. Estas correlaciones se calculan partir de las varianzas y covarianzas separadamente para cada grupo (por ejemplo, si sus grupos son hombres y mujeres, para cada variable, las desviaciones son calculadas de la media de los hombres y la media de las mujeres, respectivamente). Las varianzas y covarianzas son, por lo tanto, combinadas para formar una matriz de covarianzas combinada. Las correlaciones son calculadas desde las varianzas y covarianzas. Conjuntos de variables que muestren una fuerte asociacin entre ellas generaran diferentes subconjuntos alternativos de variables.
Matrices intra-grupo combinadas alfabet espvidaf fertilid inc_pob log_pib log_pob mortinf nac_def tasa_mor tasa_nat urbana alfabet 1,000 ,822 -,791 -,533 ,615 -,192 -,801 -,117 -,581 -,789 ,493 espvidaf ,822 1,000 -,742 -,417 ,792 -,322 -,975 ,095 -,768 -,790 ,646 tasa_nat -,791 -,742 1,000 ,688 -,533 ,083 ,722 ,279 ,491 ,962 -,498 inc_pop -,533 -,417 ,688 1,000 -,300 -,123 ,365 ,786 ,015 ,691 -,327 log_pib ,615 ,792 -,533 -,300 1,000 -,392 -,763 ,023 -,506 -,628 ,787 log_pop -,192 -,322 ,083 -,123 -,392 1,000 ,362 -,271 ,176 ,078 -,375 mortinf -,801 -,975 ,722 ,365 -,763 ,362 1,000 -,130 ,802 ,779 -,623 nac_def -,117 ,095 ,279 ,786 ,023 -,271 -,130 1,000 -,472 ,280 -,077 tasa_mor -,581 -,768 ,491 ,015 -,506 ,176 ,802 -,472 1,000 ,518 -,321 tasa_nat -,789 -,790 ,962 ,691 -,628 ,078 ,779 ,280 ,518 1,000 -,577 urbana ,493 ,646 -,498 -,327 ,787 -,375 -,623 -,077 -,321 -,577 1,000

3.2.- Seleccin de variables por pasos. Variables no incluidas en el anlisis. Para entender la seleccin de variables por pasos. es necesario revisar y contrastar las tablas variables no incluidas en el anlisis y variables en el anlisis. En el paso 0 en la tabla de variables no incluidas en el anlisis, inc_pop tiene la ms grande de las F-que-introducir y, tambin, el Lambda de Wilks ms pequeo, por lo tanto, el SPSS ingresa esta variable al primer modelo. En el paso 1, urbana, presenta la F-que-introducir ms grande, as que es incorporada al modelo. Los pasos restantes se analizan de la misma manera, as que las variables log-pib y espvidaf son ingresadas al modelo. El estadstico F-que-introducir, en el paso 0, es igual al calculado de un anlisis de varianza (ANOVA) para los grupos usados en el anlisis discriminante.

54

En lo pasos siguientes, el F-que-introducir corresponde al F calculado de un anlisis de covarianza donde los coeficientes covariados son las variables previamente ingresadas No es fcil asociar probabilidades con las de estas F porque es necesaria la distribucin de la F ms grande. La distribucin de la F ms grande esta afectada por el nmero de variables observadas, la estructura de su correlacin, el nmero de grupos, y el tamao delas muestras de los grupos. Cuando las variables independientes estn altamente correlacionadas, el valor crtico dela F puede ser mucho ms grande para probar una sola variable preseleccionada. Para cada variable, el Lambda de Wilks es usado para probar la igualdad de los centroides entre los grupos usando el conjunto de variables incluyendo esta variable y aquellas ya incorporadas al modelo. Una variable con baja tolerancia es casi una funcin lineal de las otras, su inclusin en el modelo puede generar clculos inestables o pocos confiables.

55

Variables no incluidas en el anlisis Tolerancia mn. 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 ,716 ,826 ,526 ,910 ,985 ,867 ,382 1,000 ,522 ,893 ,602 ,536 ,443 ,372 ,718 ,583 ,310 ,793 ,384 ,306 ,238 ,348 ,361 ,258 ,280 ,304 ,320 ,191 ,223 ,236 ,039 ,123 ,118 ,214 F que introducir 2,727 1,468 6,577 11,562 1,818 6,498 ,939 7,526 2,090 3,501 4,351 3,542 3,837 ,826 3,746 4,290 2,512 ,318 1,620 ,447 7,010 1,426 ,358 1,318 4,545 1,505 ,113 ,420 ,185 ,474 4,387 4,401 2,257 2,200 2,696 1,227 1,769 ,942 ,729 1,855 1,222 1,387 1,707 ,311 1,392 Lambda de Wilks ,877 ,930 ,748 ,628 ,915 ,750 ,954 ,722 ,903 ,848 ,818 ,529 ,522 ,602 ,524 ,512 ,554 ,617 ,578 ,613 ,459 ,426 ,450 ,428 ,368 ,424 ,456 ,448 ,454 ,447 ,296 ,296 ,327 ,328 ,320 ,345 ,335 ,350 ,284 ,267 ,277 ,274 ,270 ,291 ,274

Paso 0

alfabet espvidaf fertilid inc_pob log_pib log_pob mortinf nac_def tasa_mor tasa_nat urbana alfabet espvidaf fertilid log_pib log_pob mortinf nac_def tasa_mor tasa_nat urbana alfabet espvidaf fertilid log_pib log_pob mortinf nac_def tasa_mor tasa_nat alfabet espvidaf fertilid log_pob mortinf nac_def tasa_mor tasa_nat alfabet fertilid log_pob mortinf nac_def tasa_mor tasa_nat

Tolerancia 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 ,716 ,826 ,526 ,910 ,985 ,867 ,382 1,000 ,522 ,893 ,602 ,536 ,443 ,379 ,791 ,583 ,346 ,888 ,384 ,486 ,337 ,407 ,761 ,397 ,308 ,713 ,324 ,275 ,270 ,751 ,046 ,147 ,250 ,214

56

Variables en el anlisis. Para cada variable en el modelo, la F -que-introducir y el Lambda de Wilks son usados para describir que sucede si la variable es sacada de el modelo estructurado en ese momento. Por lo tanto, el Lambda de Wilks para la variable incorporada es igual al Lambda de Wilks de todo el modelo del paso previo. La F-que-introducir para la variable ingresada es igual a su F-que-introducir.
Variables en el anlisis Paso 1 2 3 Tolerancia 1,000 ,893 ,893 ,888 ,372 ,379 ,807 ,371 ,238 ,337 F que eliminar 11,562 14,875 7,010 14,535 7,851 4,545 12,861 5,960 9,373 4,401 Lambda de Wilks ,818 ,628 ,657 ,524 ,459 ,507 ,394 ,450 ,368

inc_pob inc_pob urbana inc_pob urbana log_pib inc_pob urbana log_pib espvidaf

3.3.- Resumen de la funciones cannicas discriminantes. Autovalores. El primer valor propio (1,117) corresponde al primer vector propio, el cual se encuentra en la direccin de la mxima dispersin de los centroides, el segundo valor propio corresponde al segundo vector propio en la direccin que tiene la siguiente dispersin ms grande, etc. La raz cuadrada de cada valor propio entrega una indicacin de la longitud de su correspondiente vector propio. La primera variable cannica explica el 65,2% de la dispersin total. La correlacin entre cada variable cannica y el conjunto de variables ficticias definen la estructura de los grupos.
Autovalores % de varianza 65,2 34,8 % acumulado 65,2 100,0 Correlacin cannica ,726 ,611

Funcin 1 2

Autovalor 1,117a ,597a

a. Se han empleado las 2 primeras funciones discriminantes cannicas en el anlisis.

Lambda de Wilks. En esta Tabla se muestra el contraste de la funciones 1 a la 2, en donde se docima la hiptesis que las medias delas dos funciones (dos variables cannicas) son iguales en los tres grupos. Una transformacin 2 del Lambda de Wilks es usado para determinar la significancia.

57

El valor p o nivel significativo observado es menor a 0,0005, por lo tanto, la hiptesis de igualada de medias es rechazada.
Lambda de Wilks Contraste de las funciones 1 a la 2 2 Lambda de Wilks ,296 ,626

Chi-cuadrado 45,675 17,553

gl 8 3

Sig. ,000 ,001

Variables cannicas estandarizadas. El nmero de variables cannicas es k-1 (donde k es el nmero de grupos) o p (el nmero de variables), el menor de los dos.

Coeficientes estandarizados de las funciones discriminantes cannicas Funcin 1 2 ,367 -1,170 ,978 ,179 -,481 1,877 ,894 -,814

espvidaf inc_pob log_pib urbana

Matriz de estructura. para cada variable, un arterisco indica que tiene la correlacin absoluta ms grande con una de las tres variables cannicas.

58

Matriz de estructura Funcin 2 ,724* ,135 ,676* ,370 ,433* -,151 -,386* -,074 -,311* ,214 ,212 ,396* ,173 ,338* -,074 -,304* ,156 -,284* -,192 ,282* ,221 ,255* Correlaciones intra-grupo combinadas entre las discriminantes y las funciones discriminantes cannicas tipificadas Variables ordenadas por el tamao de la correlacin con la *. Mayor correlacin absoluta entre cada variable y funcin discriminante. nac_defa inc_pob urbana a log_pob tasa_mora a fertilid a tasa_nat a alfabet espvidaf a mortinf log_pib a. Esta variable no se emplea en el anlisis. 1

Funciones en los centroides de los grupos. En esta tabla se muestra la media de la variable cannica por grupo. El contraste de los centroides de cada par de grupos es mostrada en la tabla Comparacin de grupos por pares.
Funciones en los centroides de los grupos Regin econmica Asia / Pacfico Oriente Medio Amrica Latina Funcin 1 -1,418 1,220 6,763E-02 2 ,558 ,664 -,901

Funciones discriminantes cannicas no tipificadas evaluadas en las medias de los grupos

Comparacin de grupos por pares. En esta tabla, los estadsticos F son usados para describir que grupos son ms similares ( diferentes) y para probar la igualdad de las medias (centroides) para cada par de grupos. Los datos son puntajes de las variables cannicas y las medias de los grupos son desplegados en la tabla Funciones en los centroides de los grupos. El estadstico F para cada par 2 de los grupos es proporcional al estadstico T de Hotelling y la D2 Mahalanobis. Por lo tanto, es posible pensar el estadstico F como una medida de distancia entre cada par. 59

a,b,c,d Comparaciones de grupos por pares

Paso 1

Regin econmica Asia / Pacfico Oriente Medio Amrica Latina

Asia / Pacfico F Sig. F Sig. F Sig. F Sig. F Sig. F Sig. F Sig. F Sig. F Sig. F Sig. F Sig. F Sig.

Oriente Medio 20,755 ,000

20,755 ,000 1,518 ,225

Amrica Latina 1,518 ,225 13,611 ,001

Asia / Pacfico Oriente Medio Amrica Latina

13,611 ,001 20,219 ,000

20,219 ,000 4,702 ,015

4,702 ,015 8,640 ,001

Asia / Pacfico Oriente Medio Amrica Latina

8,640 ,001 13,281 ,000

13,281 ,000 5,841 ,002

5,841 ,002 7,245 ,001

Asia / Pacfico Oriente Medio Amrica Latina

7,245 ,001 10,038 ,000

10,038 ,000 7,040 ,000

7,040 ,000 6,424 ,001

6,424 ,001

a. 1, 39 grados de libertad para el paso 1. b. 2, 38 grados de libertad para el paso 2. c. 3, 37 grados de libertad para el paso 3. d. 4, 36 grados de libertad para el paso 4.

3.4.- Clasificacin de los casos. Coeficientes de la funcin de clasificacin. En el modelo multi-grupo, hay una funcin de clasifoicacin para cada grupo.

60

Coeficientes de la funcin de clasificacin Regin econmica Asia / Oriente Amrica Pacfico Medio Latina espvidaf 2,058 2,176 2,373 inc_pob 7,136 10,078 8,484 log_pib 5,732 3,486 -1,519 urbana -,351 -,241 -,229 (Constante) -77,784 -91,905 -86,015 Funciones discriminantes lineales de Fisher

Resultados de la clasificacion. El 81,45 de los casos totales son clasificados correctamente por modelo de cinco variables. La clasificacion correcta de los casos es ms alta para los pases del Asia/Pacifico (92,3%): El segundo grupo mejor clasificado corresponde a los paises de America Latina.

61

b,c Resultados de la clasificacin

Original

Recuento

Regin econmica Asia / Pacfico Oriente Medio Amrica Latina Casos desagrupados Asia / Pacfico Oriente Medio Amrica Latina Casos desagrupados Asia / Pacfico Oriente Medio Amrica Latina Asia / Pacfico Oriente Medio Amrica Latina

Grupo de pertenencia pronosticado Asia / Oriente Amrica Pacfico Medio Latina 12 1 0 3 8 2 2 17 92,3 23,1 11,8 100,0 11 3 2 84,6 23,1 11,8 0 0 7,7 61,5 ,0 ,0 1 8 0 7,7 61,5 ,0 15 0 ,0 15,4 88,2 ,0 1 2 15 7,7 15,4 88,2

Total 13 13 17 17 100,0 100,0 100,0 100,0 13 13 17 100,0 100,0 100,0

Validacin a cruzada

Recuento

a. La validacin cruzada slo se aplica a los casos del anlisis. En la validacin cruzada, cada caso se clasifica mediante las funciones derivadas a partir del resto de los casos. b. Clasificados correctamente el 81,4% de los casos agrupados originales. c. Clasificados correctamente el 79,1% de los casos agrupados validados mediante validacin cruzada.

3.5.- Grficos.

3.5.1- Grficos por grupos separados.

62

funciones discriminantes cannicas Regin econmica = Europa (OCDE)


1,2 1,0 ,8 ,6 ,4 ,2 -,0

Funcin 2

-,2 -,4 -,6 1,0 1,5 2,0 2,5 3,0 3,5 4,0

Centroide de grupo
Centroide de grupo OCDE 4,5

Funcin 1

funciones discriminantes cannicas Regin econmica = Asia / Pacfico


1

-1

-2

Funcin 2

Centroide de grupo
-3 Centroide de grupo -4 -3 -2 -1 0 1 2 3 Asia / Pacfico

Funcin 1

63

funciones discriminantes cannicas Regin econmica = Oriente Medio


5 4 3 2 1 0

Funcin 2

Centroide de grupo
Centroide de grupo Oriente Medio -4 -3 -2 -1 0 1

-1 -2

Funcin 1

funciones discriminantes cannicas Regin econmica = Amrica Latina


1,0

,5

0,0

-,5

Funcin 2

Centroide de grupo
-1,0 Centroide de grupo -1,5 -4 -3 -2 -1 0 1 Amrica Latina

Funcin 1

3.5.2.- Diagrama de dispersin con todos los grupos.

64

funciones discriminantes cannicas


6

Oriente Medio

Regin econmica
OCDE 0 Amrica Latina Asia / Pacfico Centroides de grupo Amrica Latina Oriente Medio Asia / Pacfico -4 -4 -2 0 2 4 6 OCDE

Funcin 2

-2

Funcin 1

3.6.- Validacin del modelo. El anlisis discriminante al igual que otros mtodos estadsticos multivariados se apoya en determinados supuestos. As que, cumplir con los supuestos tambin es una manera de validacin del modelo obtenido. Los supuestos ms crticos de este mtodo son: las variables independientes deben tener una distribucin normal multivariada y las matrices de varianza-covarianza intra-grupos deben ser iguales en todos los grupos. Para verificar estos supuestos el SPSS dispone de dcimas para probar la hiptesis que los datos provienen de una distribucin normal y diagramas de probabilidad normal para determinar grficamente desviaciones a la normalidad mediante las opciones en el cuadro de dialogo de Explorar (Estadsticos / Resumir). Tambin, es posible verificar la confiabilidad del modelo a travs de la validacin cruzada, es decir, el SPSS calcula funciones de clasificacin para un subconjunto de cada grupo a fin de que analice como el procedimiento clasifica los casos no utilizados para la generacin de estas nuevas funciones discriminantes. Estos significa que nuevos datos pueden ser clasificados usando funciones derivadas de los grupos originales. Por lo tanto, el mismo analista puede diseas su propia validacin cruzada mediante una asignacin aleatoria de los casos a cada grupo para un conjunto de datos analizando y para un conjunto de datos probado. Entonces, el SPSS estimara las funciones discriminantes usando el conjunto de datos analizando y aplicar la funcin al resto de los casos (conjunto de datos probado). La proporcin de clasificacin correcta para el conjunto de datos probado es una buena medida emprica de la eficiencia del modelo discriminante.

65

IV.- ANLISIS CONJUNTO. La investigacin de mercados esta enfocada frecuentemente a descubrir cules caractersticas de un producto o servicio son ms importantes a los consumidores. El producto ideal o servicio naturalmente tendra todas las mejores caractersticas, pero de acuerdo con la realidad existe un compromiso de por medio. Por ejemplo, el producto de caractersticas ms costosas no puede tener el ms bajo precio. El anlisis conjunto es una tcnica para medir las preferencias del consumidor acerca de los atributos de un producto o servicio. El anlisis conjunto es apropiado para analizar variables independientes nominales y una variable dependiente ordinal. Esencialmente es un anlisis de varianza de los datos de rango-orden. El beneficio de este mtodo es que genera medidas de nivel de intervalos de los efectos de las categoras delas variables independientes. Existen dos enfoques en este mtodo para analizar los datos recopilados, estos son: 1. Anlisis conjunto por comparacin de pares de perfiles. 2. Anlisis conjunto por comparacin totales de perfiles. Sin embargo, el anlisis conjunto por comparacin totales de perfiles (tambin conocido como mtodo por concepto total) es el explicado en este capitulo, debido a que este es considerado como una de las tcnicas del anlisis conjunto ms realista. En esta tcnica todos los factores son considerados simultneamente. El SPSS tiene tres procedimiento de mtodo en el mdulo de Categoras - generacin de diseo ortogonal, Despliegue del diseo y el anlisis conjunto - todos diseados para la tcnica por comparacin totales de perfiles. 1.- Anlisis conjunto por comparacin totales de perfiles. En esta tcnica, el encuestado se le pide que clasifique, ordene o coloque puntajes a un conjunto de perfiles de acuerdo a su preferencia. En cada uno de estos perfiles, todos los factores de inters son presentados y una combinacin diferente de niveles factoriales (caractersticas) aparecen. As, de esta manera, todo un concepto esta descrito en cada perfil.

2.- Una ordenacin ortogonal. Un inconveniente que est asociado al mtodo por comparacin totales de perfiles se debe cuando el estudio a realizar considera un nmero elevado de atributos y , a su vez, cada uno de ellos presenta varios niveles. Por lo tanto, el nmero total de perfiles resultantes de todas las posibles combinaciones de los niveles genera encuestas demasiados grandes para que los encuestados clasifiquen u ordenen de una manera razonable. Por esta razn, frecuentemente solo un conjunto ms pequeo de todos los posibles perfiles es usado en la investigacin. Este subconjunto, llamado un arreglo ortogonal, es un tipo de diseo, en el cual solamente los efectos principales son considerados y las interacciones entre estas son asumidas ser despreciables.

66

El procedimiento de Generar Diseo Ortogonal en el modulo de Categoras del SPSS produce un plan de efectos principales o rtogonales. Desde los factores y niveles especificados, el procedimiento Generar Diseo Ortogonal puede crear ya se un nuevo archivo de datos de trabajo conteniendo el plan ortogonal o esta puede reemplazar el archivo de datos de trabajo utilizado. 3.- El estmulo experimental. Segn mencionado en Recopilando y Analizando los Datos, la recoleccin de datos en el mtodo por comparacin totales de perfiles requiere que el estimulo sea presentado a cada sujeto en cada conjunto de perfiles individuales. Una vez que la ordenacin (o arreglo) sea elegido, cada ejemplo de un producto completo debe colocarse en un perfil separado. Esto ayuda al encuestado a concentrarse en solamente en el producto de ese momento bajo evaluacin. El estimulo debe tambin ser estandarizado para asegurar que los perfiles todos sean similares en apariencia fsica, excepto para las diferentes combinaciones de caractersticas. El procedimiento de Generar Diseo Ortogonal en el modulo de Categoras del SPSS efecta estas tareas tomando el diseo generado en Generar Diseo Ortogonal o ingresado por el usuario e imprime los perfiles de concepto total en un formato listo para utilizar. 4.- Recolectando y analizando los datos. Cada encuestado en el estudio se le entrega un completo conjunto de perfiles y se le pregunta que indica sus preferencias para el producto. El investigador puede decirle al encuestado que indique la preferencia de una o varias maneras. El encuestado puede ser consulado que asigne un puntaje a cada perfil y, por lo tanto, a mayor puntaje ms altos son las preferencias. Alternativamente, puede preguntarse al encuestado que asigne un rango a cada perfil clasificado de 1 a n, donde n es el nmero total de perfiles y un nmero de clasificacin menor significa una mayor preferencia. Una ligera variacin de esto es consultar al encuestado que ordene los perfiles de ms al menos preferido. Cualquier mtodo es usado, los datos son entonces registrados para cada individuo. El procedimiento Conjunto de Categoras del SPSS es usado para estimar los puntajes de utilidad para cada respuesta individual y para toda la muestra. Los resultados muestran tales cosas como cules combinaciones de caractersticas es la ms preferidas, cules son las caractersticas especficas de mayor influencia en la preferencia de el producto total, y la importancia relativa de cada factor. Puesto que cada nivel del factor tiene un puntaje de utilidad, que puede tambin predecir los efectos de las combinaciones que no fueron actualmente presentadas en el experimento. La informacin obtenida de un anlisis conjunto puede ser aplicado a una amplia variedad de cuestionarios de investigacin de mercados. Este puede ser usado para investigar reas tales como diseo de productos, participacin de mercados, avisos (cupones) publicitarios, anlisis costobeneficio y segmentacin de mercados. Datos. Supongamos que un compaa interesada en la venta de un nuevo alimento canino desea examinar la influencia de cuatro atributos en las preferencias del consumidor -tamao, distribucin, valor nutricional y prestigio de la marca. Hay tres niveles para cada uno de los atributos. La tabla 1 muestra las variables usadas en el estudio de alimento para peros, con las etiquetas de sus variables y sus valores. 67

Tabla 1. Variables en el estudio de alimento canino. Nombre variable Etiqueta variable tamano tamao Etiqueta valor 1 a 3 kgs, 3 a 10 kgs, 10 a 20 kgs supermercados, veterinarios, tienda de mascotas 0 a 20, 20 a 25, 26 a 30 bajo, medio, alto

distribu

distribucin

nutricion

valor nutricional

prestigi

prestigio de la marca

5.- Generacin de un diseo ortogonal. Un diseo de arreglo ortogonal puede ser generado para los factores y niveles por factor que especifique. En el caso que no esta abierto, el SPSS crea uno, generando nombres de las variables, etiqueta de la variable y valores de las opciones que ha seleccionado. En la figura 1 se muestra el Editor de datos, desplegando el diseo ortogonal para el ejemplo de alimento canino. Los factores son desplegados como variables y los casos creados por el procedimiento. Cada caso el Editor de datos representa un caso en el diseo ortogonal. El SPSS tiene ya prefijado un nmero mnimo de casos necesarios para generar un arreglo ortogonal. El procedimiento determina el nmero de casos que se necesita administrar para permitir estimaciones de las utilidades. Tambin, se puede especificar que genere un nmero mnimo de casos. Adems a los casos en el diseo, se pueden especificar casos reservados. Los casos reservados son juzgados por los sujetos, pero estos no son usados por el anlisis para estimar las utilidades. Estos son usados para verificar la validez de las utilidades estimadas. Los casos reservados son generados de otro arreglo aleatorio, no por medio del plan ortogonal experimental. Los casos reservados aparecen despus de los casos experimentales. El plan ortogonal es guardada en otro archivo de datos y es usada para desplegar el diseo de acuerdo a los perfiles de los individuos, y en anlisis conjunto. Observe que las dos variables adicionales,. card_ y status_ , aparecen en el archivo de datos. La variable card_ asigna un nmero secuencia a cada perfil para su conveniencia. Status_ indica si un caso es parte de el diseo experimental. Tambin, existe la posibilidad de crear casos simulados. Hay combinaciones que son consideradas por el individuo pero que estn incluidas en el anlisis Figura 1. Plan ortogonal (PLAN.SAV).

68

Para obtener un diseo ortogonal, desde los mens elija: Datos Diseo ortogonal Generar... Esta despliega un cuadro de dialogo Generar un diseo ortogonal, como mostrado en la siguiente figura:

69

En esta ventana ingrese los factores a travs de los siguientes pasos: 1. Defina al menos un factor. Ingrese un nombre en Nombre del factor. Los nombres de los factores pueden ser cualquier nombre valido para variables en el SPSS, excepto status_ o card_. Tambin puede agregar una etiqueta al factor. 2. Pulse en Aadir para agregar el nombre del factor y una etiqueta opcional. 3. Pulse en Definir valores para agregar las categoras de las variables. Archivo de datos. Permite controlar el destino del diseo ortogonal. 1. Crea un archivo de datos nuevo que contenga los factores y los casos generados por el plan. Por defecto, este archivo de datos recibe el nombre ortho.sav, y se guarda en el directorio actual. Pulse en Archivo para especificar un nombre y un destino diferentes para el archivo. 2. Reemplazar el archivo de trabajo con el plan generado. Restablecer semilla de aleatorizacin a. Restituye la semilla de aleatorizacin al valor especificado. La semilla puede ser cualquier valor entero entre 0 y 2.000.000.000. Dentro de una sesin, SPSS utiliza una semilla diferente cada vez que genera un conjunto de nmeros aleatorios, dando lugar a resultados distintos. Definir valores. Cuando pulse en Definir valores se desplegar el cuadro de dialogo a continuacin:

En esta ventana podr asignar valores a cada nivel de los factores seleccionados. Opciones. Al seleccionar Opciones aparecer el cuadro de dialogo siguiente:

70

Generar como mnimo. Especifica un nmero mnimo de casos para el plan. Seleccione un entero positivo menor o igual que el nmero total de casos que se pueden formar a partir de todas las combinaciones posibles de los niveles de los factores. Casos reservados. Crea casos de reserva que se suman a los casos corrientes del plan. Puede especificar cualquier entero positivo menor o igual que el nmero total de casos que pueden formarse a partir de todas las combinaciones posibles de los niveles de los factores. Si no especifica un valor de reserva, no se generan casos de reserva. 6.- Desplegando los perfiles del diseo ortogonal. Una vez que se tiene el diseo del plan, es necesario colocar cada combinacin de factores en un perfil separado para suministrar a los individuos. Cada caso en el diseo ortogonal es mostrado como un perfil. Los perfiles pueden ser fcilmente observados y pueden ser configurados a la manera que el investigador cree que es lo ms conveniente. Cada concepto puede ser producido en una hoja separada y contener ttulos y pie de paginas ya sea en la parte superior o inferior de cada perfil. Tambin puede controlarse la disposicin del perfil dentro de la pgina a objeto de agregar figuras a los perfiles. Para mostrar un diseo ortogonal, desde los mens elija: Datos Diseo ortogonal Mostrar... Esta despliega un cuadro de dialogo Mostrar un diseo ortogonal, segn como:

71

En esta ventana efecte los siguientes pasos: 1. Mueva uno o ms factores dentro de la lista de factores. 2. Seleccione un formato para desplegar os perfiles en la salida. 3. Pulse en Ttulos (opcional), para definir ttulos y pie de pgina para los perfiles.

A continuacin, se muestra el diseo ortogonal para "alimento canino". Plancards: Title: Nmero de perfil )CARD Card 1 Distribucin Veterinario Valor Nutricional 25 a 30 Prestigio de la marca Bajo Tamao 10 a 20 kgs Card 2 Distribucin Tienda de Mascotas Valor Nutricional 0 a 20 Prestigio de la marca Medio Tamao 10 a 20 kgs Card 3 Distribucin Supermercados Valor Nutricional 25 a 30 Prestigio de la marca Medio Tamao 3 a 10 Kgs. Card 4 Distribucin Tienda de Mascotas Valor Nutricional 20 a 25 Prestigio de la marca Bajo 72

Tamao 3 a 10 Kgs. Card 5 Distribucin Veterinario Valor Nutricional 0 a 20 Prestigio de la marca Alto Tamao 3 a 10 Kgs. Card 6 Distribucin Tienda de Mascotas Valor Nutricional 25 a 30 Prestigio de la marca Alto Tamao 1 a 3 Kgs. Card 7 Distribucin Supermercados Valor Nutricional 0 a 20 Prestigio de la marca Bajo Tamao 1 a 3 Kgs. Card 8 Distribucin Supermercados Valor Nutricional 20 a 25 Prestigio de la marca Alto Tamao 10 a 20 kgs Card 9 Distribucin Veterinario Valor Nutricional 20 a 25 Prestigio de la marca Medio Tamao 1 a 3 Kgs. Footer:

7.- Anlisis de preferencias del producto canino. Una vez que los datos ha sido recolectados, puede utilizarse el procedimiento Conjunto para estimar las utilidades para cada nivel de los factores. Los puntajes de estas utilidades indican la influencia de cada nivel factor en las preferencias de los encuestados para una combinacin particular. Estos son calculados mediante el procedimiento, el cual consiste en un conjunto de regresiones de clasificacin o puntajes de los perfiles. Pues, todos son expresados en una unidad comn, los puntajes de las utilidades pueden ser todos sumados, por la cual se obtendra la utilidad total de una combinacin. Para mayor conveniencia, las utilidades totales deben ser altamente correlacionadas con los datos de preferencias observados. El SPSS versin 7.5, no tiene una interface grfica para el procedimiento Conjunto. Por lo tanto, para llevar a cabo cualquier anlisis conjunto se deber realizar el anlisis a travs de la sintaxis de los comandos. Consideremos realizar un anlisis conjunto para el diseo de un producto "alimento canino", para lo cual se deber disponer de los datos de preferencias recopilados de los encuestados y el plan ortogonal. El mtodo de secuencia fue utilizado para recopilar los datos. Esto es, los individuos 73

ordenaron los perfiles desde el ms al menos preferido. Por ejemplo, el primer individuo, en la tabla 2, asign la preferencia nmero uno al segundo perfil. En la tabla 2 se muestran los datos de preferencias de 30 encuestados. Tabla 2. Datos de preferencias de los encuestados.
SUJETO PREF1 PREF2 PREF3 PREF4 PREF5 PREF6 PREF7 PREF8 PREF9

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

02 06 04 09 03 08 07 09 09 05 03 07 07 06 08 09 09 06 05 05 09 04 08 09 09 03 09 06 05 07

01 07 08 02 05 05 03 05 04 08 08 06 08 07 06 05 04 03 02 02 04 05 07 02 02 07 04 08 08 06

09 09 09 05 04 06 09 04 03 07 07 03 09 08 04 07 07 09 08 09 07 07 03 07 07 04 03 05 07 05

06 04 06 07 09 07 06 07 07 06 05 08 03 04 07 04 05 02 01 01 06 08 06 05 05 08 05 07 04 04

04 05 03 08 06 09 08 08 08 09 09 09 05 09 09 08 06 07 07 06 05 06 05 08 08 09 07 09 09 08

07 08 07 06 08 04 04 06 06 04 06 05 06 05 05 06 08 08 06 07 08 09 04 06 06 06 08 02 06 09

03 02 02 04 02 03 02 03 05 02 02 04 02 03 02 02 01 04 04 04 03 01 09 04 03 02 06 01 03 02

08 03 05 03 07 02 05 02 02 03 04 02 04 02 03 03 03 05 09 08 02 03 02 03 04 05 02 04 02 03

05 01 01 01 01 01 01 01 01 01 01 01 01 01 01 01 02 01 03 03 01 02 01 01 01 01 01 03 01 01

Para realizar un anlisis conjunto, debe escribir los comandos dentro de una ventana de sintaxis, y luego ejecutarla. Para obtener un anlisis conjunto: 1.- Desde el men principal seleccione:

74

Archivo Nuevo Sintaxis Este abre una ventana de sintaxis SPSS. 2.- Ingrese los comandos que desea ejecutar en la ventana de sintaxis.
CONJOINT PLAN='PLAN.SAV' /DATA=* /SEQUENCE=PREF1 TO PREF9 /SUBJECT=sujeto /FACTORS=TAMANO DISTRIBU (DISCRETE) NUTRICIO PRESTIGI (LINEAR) /PRINT=ALL /UTILITY='UTIL.SAV'. SAVE OUTFILE='RANKS.SAV'.

3.- Seleccione los comandos que desea ejecutar y, entoces, pulse Ejecutar comando actual en las barras de herramientas. El SPSS entrega una salida para cada encuestado mediante el subcomando SUJECT. La figura 3 muestra la salida del primer encuestado. La salida muestra los puntajes de utilidades y sus errores estndar para cada cada nivel de factor. Por lo tanto, la suma de l s valores de una o combinacion especfica se obtiene como resultado la utilidad total de este producto. Por ejemplo, la utilidad total de un alimento canino con un tamao de 1 a 3 kgs., ditribucin en supermercados, valor nutricional de 0 a 20 y bajo prestigio de la marca, es: utilidad(tamano: 1 a 3 kgs.) + utilidad(ditribu: supermercados) + utilidad(nutricio: 0 a 20) + utilidad(prestigi: bajo). (0,6667) + (-2,0) + (0,5) + (-1,3333) = -2,1666

Figura 2. Resultados conjunto para el primer encuestado.


Factor Model Levels Label TAMANO d 3 Tamao DISTRIBU d 3 Distribucin NUTRICIO l 3 Valor Nutricional PRESTIGI l 3 Prestigio de la marca (Models: d=discrete,l=linear,i=ideal,ai=antiideal, <=less, >=more) All the factors are orthogonal. _ SUBJECT NAME: Importance 1,00 Factor

Utility(s.e.)

75

+--------+ I31,25 I +--------+ I I +---------+ I34,38 I +---------+ I I +--+ 9,38 I I +--+ I I I +------+ I25,00 I +------+ I I I

TAMANO ,6667( ,9718) I-2,0000( ,9718) --I 1,3333( ,9718) IDISTRIBU --I I I--

Tamao 1 a 3 Kgs. 3 a 10 Kgs. 10 a 20 kgs Distribucin Supermercados Veterinario Tienda de Mascotas Valor Nutricional 0 a 20 20 a 25 25 a 30

-2,0000( ,9718) ,3333( ,9718) 1,6667( ,9718)

NUTRICIO ,5000( ,8416) I1,0000(1,6833) I1,5000(2,5249) I-B = ,5000( ,8416) PRESTIGI -1,3333( ,8416) -I -2,6667(1,6833) ---I -4,0000(2,5249) ----I B = -1,3333( ,8416) 6,6667(2,4777) CONSTANT

Prestigio de la marca Bajo Medio Alto

Pearson's R

,926 ,800

Significance = Significance =

,0002 ,0016

Kendall's tau =

Las utilidades totales deben corresponder de cerca a los datos observados. Para datos RANK y SEQUENCE la relacin es inversa. Valores bajos indican alta preferencia y, por lo tanto, producir altas utilidades. En cambio, altos valores indican baja preferencia y produce bajas utilidades. Las utilidades totales pueden estar un poco fuera de los datos observados debido a la falta de ajuste. Los errores estndar para cada utilidad es una indicacin de que tan bien el modelo ajusta los datos de un encuestado en particular. Algunos resultados adicionales para cada factor en la salida CONJUNTA son los valores de b, el coeficiente de regresin lineal o pendiente para modelos lineales y cuadrticos y el valor de c, el termino cuadrtico para modelos IDEAL y ANTIIDEAL. Para modelos LINEAR, el puntaje pronosticado puede ser calculado multiplicando el valor del factor por B. Para modelos cuadrticos, puede ser calculado multiplicando el valor del factor por B, y sumando aquel valor por el producto de C y el cuadrado de el valor del factor.

76

Los estadsticos R de Pearson y el tau de Kendall son otra indicacin de qu tan bien el modelo ajusta los datos. Estas son correalciones entre las preferencias observadas y estimadas. Estos coeficientes deberan siempre ser muy altos. Por otra parte, en muchos anlisis conjunto, el nmero de parmetros es cercano al nmero de perfiles a encuestar, lo cual aumenta artificialmente las correlaciones entre los puntajes observados y los estimados. En estos casos, la correlacin entre los puntajes observados y estimados para los perfiles reservados podra entregar una mejor indicacin del ajuste del modelo, puesto que estos perfiles no fueron usados para estimar los puntajes. Estos perfiles reservados producen siempre coeficientes de correlacin ms bajos.

Tabla 3. Archivo de datos UTIL.SAV.


suj const tam1 tam2 tam3 dist1 dist2 dist3 nutrl pres score score score score score score score score score tl 1 2 3 4 5 6 7 8 9

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28

6,67 5,33 3,33 7,67

0,67 -2,00 1,33 -2,00 0,33 1,67 0,50 -1,33 8,50 3,00 -0,67 -2,33 -0,33 -0,67 1,00 -0,67 0,50 0,83 0,67 0,33 -1,00 0,67 -1,67 1,00 0,50 0,33 2,50 1,33 -1,00 -0,33 -0,67 0,67 0,00 -2,33 1,00 2,00 0,00 0,33 1,17 1,83 1,00 0,00 -1,00 1,00 -0,33 -0,67 -0,83 2,17 0,67 2,33 -0,33 -2,00 2,33 -1,67 -0,67 0,17 -0,17 1,67 1,33 1,00 -2,33 -0,33 1,00 -0,67 -1,33 0,50 1,83 1,33 1,00 -2,33 1,00 -0,67 -0,33 0,17 -0,50 2,67 1,00 0,00 -1,00 0,67 0,00 -0,67 -1,67 1,83 0,50 0,33 0,67 -1,00 3,00 -1,00 -2,00 -0,33 1,33 1,33 2,33 -0,33 -2,00 2,33 -1,67 -0,67 0,17 0,83 0,67 1,67 -0,67 -1,00 2,67 -0,67 -2,00 -1,00 0,83 1,50 2,33 -0,67 -1,67 1,00 -1,67 0,67 -0,17 0,83 0,67 1,33 -0,67 -0,67 0,67 -1,67 1,00 -0,33 1,17 1,17 1,67 0,33 -2,00 -0,33 1,00 -0,67 -1,83 0,50 1,67 2,00 0,33 -2,33 -0,67 1,00 -0,33 -0,67 -0,50 3,50 2,00 -0,67 -1,33 0,67 -1,67 1,00 0,83 1,00 1,83 0,00 -1,83 1,00 4,83 0,33 -0,67 0,33 -2,67 2,33 0,33 -1,50 0,50 5,67 2,33 0,33 -2,67 -0,33 0,00 0,33 -0,67 -0,17 1,83 0,33 1,33 -1,67 0,00 0,00 0,00 -1,00 0,00 2,33 0,67 0,33 -1,00 3,00 -2,00 -1,00 -0,17 1,17 0,67 1,67 -1,33 -0,33 -0,33 0,33 0,00 -2,33 0,67 2,00 1,67 -1,33 -0,33 0,00 0,33 -0,33 -2,17 0,83 2,00 0,67 1,00 -1,67 2,67 -2,33 -0,33 0,17 -0,67 1,83 0,67 2,00 -2,67 0,33 0,33 -0,67 -0,33 -0,17 2,50 1,67 -1,67 0,00 0,00 0,00 0,00 -0,67 2,17 2,17

7,50 4,33 4,50 7,00 2,33 4,17 2,17 3,33 2,17 5,00 2,33 2,17 3,00 4,17 5,67 4,17 3,00 3,83 8,83 7,17 3,33 4,33 3,17 7,00 6,50 2,83 2,00 5,67

1,50 3,33 6,50 1,00 8,33 5,17 7,17 4,33 7,17 4,00 8,33 7,17 6,00 5,17 4,67 3,17 4,00 5,83 1,83 0,17 4,33 5,33 8,17 1,00 1,50 8,83 7,00 2,67

6,00 4,83 6,00 3,00 6,83 2,17 4,17 4,83 6,17 2,50 2,33 3,17 1,50 4,17 4,17 4,17 5,50 4,33 3,33 4,17 5,83 6,33 3,17 3,00 2,50 6,33 6,50 1,17

1,50 4,83 3,50 8,00 8,83 7,67 2,67 8,83 4,67 8,50 6,33 3,67 5,50 3,67 4,17 8,67 6,50 2,83 7,83 8,67 5,83 7,33 4,67 7,00 7,00 2,83 7,50 6,17

6,50 8,83 7,50 5,00 5,83 6,67 6,67 4,83 5,67 5,50 4,33 7,67 4,50 8,67 8,17 4,67 5,50 9,83 2,83 4,67 6,83 4,33 5,67 5,00 5,00 4,83 4,50 8,17

4,50 7,83 5,50 7,00 2,83 5,67 9,67 6,83 7,67 6,50 7,33 8,67 9,50 7,67 6,17 7,67 7,50 5,83 3,83 3,67 7,83 6,33 7,67 8,00 8,00 8,83 6,50 5,17

3,00 2,83 5,00 5,00 3,83 7,17 5,17 2,83 3,17 6,50 8,33 6,17 7,50 5,17 6,17 3,17 1,50 5,33 7,33 3,17 1,83 3,33 8,17 5,00 5,50 5,33 2,50 7,17

6,00 7,33 4,00 7,00 4,33 5,67 5,67 7,33 5,67 6,00 4,33 5,67 6,00 5,67 4,67 7,67 8,00 5,33 4,33 7,67 7,33 5,33 3,67 7,00 7,00 3,33 6,00 6,67

2,00 -0,67 3,00 -2,33 0,00 0,00 2,33 5,00 6,67 5,67 4,67 3,00 3,00 5,33 3,67 3,33 7,67 7,33 1,33

6,67 -1,33 -0,67 2,00 -0,67 0,67 7,00 6,67 7,00 3,00 8,33 7,67 6,00 6,00 2,00

77

29 30

6,00 6,33

0,33 1,00 -1,33 1,00 0,00 -1,00 -1,67 1,17 0,83 2,00 0,00 -2,00 0,33 -1,00 0,67 -1,33 0,67 0,00

4,33 5,00

5,33 4,00

3,83 5,00

8,83 6,00

3,83 7,00

6,83 8,00

5,83 4,00

5,33 6,00

Tabla 4. Archivo de datos RANKS.SAV.


SUJETO PREF PREF PREF PREF PREF PREF PREF PREF PREF 1 2 3 4 5 6 7 8 9 01 02 01 09 06 04 07 03 08 05 02 06 07 09 04 05 08 02 03 01 03 04 08 09 06 03 07 02 05 01 04 09 02 05 07 08 06 04 03 01 05 03 05 04 09 06 08 02 07 01 06 08 05 06 07 09 04 03 02 01 07 07 03 09 06 08 04 02 05 01 08 09 05 04 07 08 06 03 02 01 09 09 04 03 07 08 06 05 02 01 10 05 08 07 06 09 04 02 03 01 11 03 08 07 05 09 06 02 04 01 12 07 06 03 08 09 05 04 02 01 13 07 08 09 03 05 06 02 04 01 14 06 07 08 04 09 05 03 02 01 15 08 06 04 07 09 05 02 03 01 16 09 05 07 04 08 06 02 03 01 17 09 04 07 05 06 08 01 03 02 18 06 03 09 02 07 08 04 05 01 19 05 02 08 01 07 06 04 09 03 20 05 02 09 01 06 07 04 08 03 21 09 04 07 06 05 08 03 02 01 22 04 05 07 08 06 09 01 03 02 23 08 07 03 06 05 04 09 02 01 24 09 02 07 05 08 06 04 03 01 25 09 02 07 05 08 06 03 04 01 26 03 07 04 08 09 06 02 05 01 27 09 04 03 05 07 08 06 02 01 28 06 08 05 07 09 02 01 04 03 29 05 08 07 04 09 06 03 02 01 30 07 06 05 04 08 09 02 03 01

78

V.- ANLSIS DE CORRESPONDENCIAS. El Anlisis de Correspondencias es un mtodo estadstico que permite analizar tablas de contingencia. Este mtodo representa grficamente las filas y columnas de una tabla de contingencia en la forma de puntos dentro del mismo espacio de m enor dimensin. La distancia entre los puntos indica la similaridad entre los perfiles de la tabla, adems, la distribucin espacial de los puntos resume toda la informacin contenida en la tabla acerca de las similaridades entre las filas y columnas. Esta nueva representacin de la tabla de contingencia puede usarse para revelar los patrones inherentes en los datos, es decir, mediante una abstraccin visualizar los patrones de los datos a fin de descubrir cuales son las variables o grupo de variables que estn correlacionadas. En este sentido, el Anlisis de Correspondencias se encuentra en aquella clase de mtodos conocidos como anlisis de datos exploratorios o, simplemente, anlisis de datos. El Anlisis de Correspondencias no slo ayuda a mostrar las relaciones existentes entre las variables, sino tambin cmo stas estn relacionadas. El despliegue grfico conjunto de un Anlisis de Correspondencias permite de manera ms fcil detectar las relaciones estructurales entre las categoras de las variables. Adems, el Anlisis de Correspondencias tiene requerimientos de datos altamente flexibles. El nico requerimiento de datos para un Anlisis de Correspondencias es una tabla de contingencia con entradas no negativas. Por lo tanto, el investigador puede recabar datos rpidamente y fcilmente. El Anlisis de Correspondencias es concebido por sobre todo como un mtodo geomtrico ms bien que estadstico y por lo mismo se le ha asociado principalmente con la escuela francesa de anlisis de datos. Benzcri y sus colaboradores permitieron popularizar este mtodo. El Anlisis de Correspondencias se ha convertido en un mtodo muy utilizado en la investigacin de mercados. Puesto que en muchas aplicaciones de investigaciones de mercados, los datos recopilados son categricos, principalmente, debido a las restricciones impuestas en el proceso de recoleccin. Estas limitaciones de confeccionar encuestas ms entendibles y menos costosas se adaptan en gran medida a las caractersticas posedas por el Anlisis de Correspondencias, lo cual ciertamente ha contribuido a que sta se convierta en un mtodo de fcil aplicacin y de mucha aceptacin dentro de esta rea de estudio. El Anlisis de Correspondencias es una importante herramienta para desarrollar un conocimiento general de cmo las caractersticas del producto y de la compaa tienden a definir la imagen relativa de los competidores en el mercado. Ejemplo. El propsito de este ejemplo es mostrar la aplicacin del mtodo de anlisis de correspondencias a la tabla de contingencia (tabla 1), a objeto de estudiar las asociaciones existentes entre las filas y columnas de esta tabla. Las filas de la tabla de contingencia representan las principales religiones profesadas en el mundo y las columnas indican regiones geogrficas en el mundo.

Tabla 1. Tabla de contingencia de variables religin y regin.


The table to be analyzed: 1

79

Nor-Este Centro O 1 2 3 4 5 Protesta Catlico Judo Ninguna Otra Margin

Sur

Oeste

Margin

54 140 206 80 480 55 56 28 43 182 10 1 1 3 15 12 20 8 24 64 5 4 4 2 15 -------- -------- -------- -------- -------136 221 247 152 756

El anlisis de correspondencias analiza los datos contenidos en la tabla de contingencia y genera ya sea tablas como grficos que permiten identificar e interpretar las relaciones fundamentales entre las categoras y entre las dos variables. Segn lo anterior, una eleccin importante en este mtodo es el tipo de normalizacin aplicada. Aunque las soluciones bajos diferentes tipo de normalizacin son completamente equivalentes en trminos del ajuste (los valores propios), los grficos pueden revelar algo diferente. En este ejemplo se utiliza la normalizacin principal, debido a que estamos interesados en las diferencias o similaridades entre las categoras de la variable (religin). La normalizacin principal maximiza la distancia entre los puntos fila. La mayora de los resultados de este ejemplo son analizados en trminos de los puntos fila. Para obtener un anlisis de correspondencias, desde los mens elija: Estadstica Reduccin de datos Anlisis de correspondencias... Esta despliega un cuadro de dialogo Anliside correspondencias (ANACOR), como mostrado en la siguiente figura:

80

Luego, seleccione las variables para el anlisis. Fila: relig Definir rango... Mnimo: 1 Mximo: 5 Columna: regin Definir rango... Mnimo: 1 Mximo: 4 En Opciones puede seleccionar el tipo de normalizacin que se aplica a los datos de la tabla de correspondencias y tambin seleccionar el tipo de informacin (tablas y grficos) que considera necesaria para realizar una interpretacin acerca de las asociaciones existentes entre las filas y columnas de la tabla. Por lo tanto, pulse en Opciones y seleccione las alternativas siguientes: Opciones Normalizacin Principal Mostrar Perfiles Valores propios Grfico Fila Columna

81

Resultados del anlisis de correspondencias. El procedimiento de Correspondencias entrega la tabla de contingencia analizada y los dems resultados que permitan interpretar las relaciones entre las variables de esta tabla. Los resultados del mtodo se detallan a continuacin:

Perfiles y distancias. Para determinar las distancias entre las categoras, esta mtodo considera las distribuciones marginales as como las frecuencias de celdas individual. Este calcula los perfiles fila y columna, los cuales son las proporciones para cada celda, basadas en los totales marginales.

The Rowprofiles: 1 2 Nor-Este Centro O 1 2 3 4 5 Protesta Catlico Judo Ninguna Otra Margin 3 Sur 4 Oeste

Margin 1,000 1,000 1,000 1,000 1,000

,113 ,292 ,429 ,167 ,302 ,308 ,154 ,236 ,667 ,067 ,067 ,200 ,188 ,313 ,125 ,375 ,333 ,267 ,267 ,133 -------- -------- -------- -------,180 ,292 ,327 ,201

The Columnprofiles: 1 2 Nor-Este Centro O 1 2 3 4 5 _ Protesta Catlico Judo Ninguna Otra ,397 ,404 ,074 ,088 ,037 ,633 ,253 ,005 ,090 ,018 3 Sur ,834 ,113 ,004 ,032 ,016 4 Oeste ,526 ,283 ,020 ,158 ,013

Margin ,635 ,241 ,020 ,085 ,020

Margin

-------- -------- -------- -------1,000 1,000 1,000 1,000

82

En anlisis de correspondencias las diferencias entre los perfiles son explicadas en trminos de medidas de distancias, por lo tanto, si dos perfiles que exhiben la mayor diferencia entre sus perfiles, en consecuencia, mostrarn la mayor distancia entre los puntos en el grfico. Entonces, el objetivo del anlisis de correspondencias es encontrar una configuracin en que las distancias de los puntos fila en un grfico son iguales a las distancias entre los perfiles fila en la tabla. Las distancias que el anlisis de correspondencias aproxima no son distancias ordinarias, sino distancias ponderadas. Estas distancias ponderadas estn basadas en el concepto de masa. Masa es una medida que indica la influencia de un objeto basado en su frecuencia marginal. La masa afecta al centroide, que es la media ponderada del perfil fila o columna. El centroide fila es el perfil fila promedio. Por lo tanto, los puntos de mayor masa influirn en la ubicacin del centroide, esto es, acercarn el centroide a su posicin espacial.

Puntajes fila y columna. Los puntajes fila son las coordenadas de los puntos fila en el grfico 1. Geomtricamente, los puntos columna son proporcionales al centroide ponderado de los puntos fila.
Row Scores: RELIG Marginal Profile ,635 ,241 ,020 ,085 ,020 Dim 1 -,250 ,422 1,119 ,348 ,284 2 -,024 ,003 -,629 ,386 -,286

1 2 3 4 5

Protesta Catlico Judo Ninguna Otra

Column Scores: REGIN4 Marginal Profile ,180 ,292 ,327 ,201 Dim 1 ,564 -,029 -,407 ,198 2 -,206 ,083 -,096 ,220

1 2 3 4

Nor-Este Centro O Sur Oeste

De acuerdo con lo anterior, surgen dos caractersticas de los puntos fila y columna que son: 1) las distancias Euclidianas entre los puntos fila se aproxima a una distancia 2; y 2) los puntos fila estn en el centroide ponderado de los puntos columna. Los puntajes fila y columna dependen de la normalizacin usada en el anlisis.

83

Inercia. Si las entradas en la tabla de contingencia son frecuencias, entonces la suma ponderada sobre todas las distancias al cuadrado entre los perfiles fila y la media del perfil fila es igual al estadstico 2. Las distancias Euclidianas en el grfico se aproximan a distancias 2 en la tabla. La inercia total es definida como la suma ponderada de todas las distancias al centroide dividida por la suma de todas las celdas en la tabla de contingencia. Las puntos con masa pequea afectan la inercia nicamente con su distanciamiento al centroide. En cambio, los puntos de ms grande influencian la inercia total aun cuando ellos se encuentren cercanos al centroide. Contribuciones. Cada punto fila y columna contribuyen a la inercia de la configuracin espacial. Los puntos fila y columna que contribuyen substancialmente a la inercia de una dimensin son importantes a esa dimensin. Un anlisis de las contribuciones de los puntos son una ayuda importante en la interpretacin de una solucin del anlisis de correspondencias. Las contribuciones de los puntos a la inercia de cada dimensin se conocen como contribuciones absolutas.
Contribution of row points to the inertia of each dimension: RELIG Marginal Profile Protesta Catlico Judo Ninguna Otra ,635 ,241 ,020 ,085 ,020 Dim 1 2

1 2 3 4 5

,333 ,017 ,359 ,000 ,208 ,349 ,086 ,562 ,013 ,072 -------- -------1,000 1,000

Contribution of column points to the inertia of each dimension: REGIN4 Marginal Profile ,180 ,292 ,327 ,201 Dim 1 2

1 2 3 4

Nor-Este Centro O Sur Oeste

,479 ,340 ,002 ,090 ,453 ,135 ,066 ,435 -------- -------1,000 1,000

Las contribuciones de lasa dimensiones a la inercia de cada punto se conocen como contribuciones relativas, puesto que estas no dependen de la masa del punto.
Contribution of dimensions to the inertia of each row point:

84

RELIG

Marginal Profile ,635 ,241 ,020 ,085 ,020

Dim 1 ,990 ,981 ,737 ,438 ,484 2 ,009 ,000 ,233 ,539 ,490

Total

1 2 3 4 5

Protesta Catlico Judo Ninguna Otra

,999 ,981 ,969 ,977 ,975

Contribution of dimensions to the inertia of each column point: REGIN4 Marginal Profile ,180 ,292 ,327 ,201 Dim 1 ,882 ,063 ,943 ,429 2 ,118 ,530 ,053 ,530 1,000 ,592 ,996 ,959 Total

1 2 3 4

Nor-Este Centro O Sur Oeste

Dimensionalidad. La idea detrs del anlisis de correspondencias es generar una solucin de menor dimensin. el nmero mximo de dimensiones para una solucin de un anlisis de correspondencias es igual al nmero de filas menos 1 o el nmero de columnas menos 1, el menor de los dos. Este es expresado como mn(r,c)-1. En este ejemplo, el mximo nmero de dimensiones es mn(5,4)-1, o 3.
Dimension Cumulative Proportion 1 2 3 Total Singular Value ,34543 ,14991 ,05024 ,11932 ,02247 ,00252 --------,14432 Inertia Proportion Explained ,827 ,156 ,017 ---------1,000 ,827 ,983 1,000 --------1,000

Grficos. Los grficos constituyen la parte ms rica de la informacin de los resultados obtenidos del anlisis y su nmero puede ser determinado por medio de los criterios de porcentaje de variacin explicada y grfico de Cattell. Este mtodo permite descomponer toda la inercia (variabilidad de los puntos con respecto al centroide) contenida en la tabla de contingencia en distintos planos con ejes de coordenadas rectangulares (varios grficos bidimensionales). 85

La normalizacin principal utilizada en este ejemplo, que construye grficos simtricos, es usada en el caso que el inters esta en estudiar las distancias entre los puntos fila y las distancias entre los puntos columna, separadamente. Por lo tanto, este tipo de normalizacin es inadecuado estudiar en solo grfico las relaciones conjuntas entre los perfiles de las variables.

Punt. de fila para Preferencia Religiosa


,4 ,2 Protestante Catlico

0,0

-,2

Otra

Dimensin 2

-,4 Judo

-,6 -,8 -,4 -,2 0,0 ,2 ,4 ,6 ,8 1,0

1,2

Dimensin 1
Principal normalization

Punt. de columna para Regin


,3 Oeste ,2 ,1 -,0 Centro Oeste

Dimensin 2

Sur -,1 -,2 -,3 -,6 -,4 -,2 -,0 ,2 ,4 ,6 Nor-Este

Dimensin 1

Principal normalization

86

87

Vous aimerez peut-être aussi