Metodo Analisis Multivariado

MTODOS ESTADSTCOS MULTVARADOS P.
REYES / MARZO 2007

MTODOS ESTADSTICOS
MULTIVARIADOS
Elabor: Dr. Primitivo Reye A!"ilar
Mar#o $e %&&'
Pg. 1
MTODOS ESTADSTCOS MULTVARADOS P. REYES / MARZO 2007
CO(TE(IDO
). Coe*i+ie,te $e Cro,ba+-
%. M.to$o $e a,/lii m"ltivaria$o
0. A(OVA $e 1 $ire++io,e
2. A,/lii m"ltivaria$o $e Varia,#a 3MA(OVA4
5. A,/lii $e Covaria,#a
6. A,/lii Di+rimi,a,te
'. A,/lii $e Co,!lomera$o 3Cl"ter4
7. A,/lii $e +om8o,e,te 8ri,+i8ale
9. A,/lii :a+torial
)&. A,/lii $e Re!rei, M;lti8le
)). A,/lii $e +orre8o,$e,+ia

Pg. 2
1. COEFICIENTE DE CRONBACH
Pg. 3
1. CLCULO DEL COEFICIENTE DE CONFIABILIDAD
(FIABILIDAD) ALFA-CRONBACH
Existen tres procedimientos para determinar el coeficiente " o alfa :
1. Sobre la base de la varianza de los tems, con la aplicacin de la siguiente
frmulaFrmula:
En donde N representa el nmero de tems de la escala, "s
2
(Yi) es igual a la
sumatoria de las varianzas de los tems y "s
2
x equivale a la varianza de toda la
escala.
2. Sobre la base de la matriz de correlacin de los tems, el procedimiento
seraSera:
a) Se aplica la escala.
b) Se obtienen los resultados.
c) Se calculan los coeficientes de correlacin r de Pearson entre todos los
tems (todos contra todos de par en par).
d) Se elabora la matriz de correlacin con los coeficientes obtenidos. Por
ejemploEjemplo:
Pg. 4
Los coeficientes que se mencionan como "ya fue calculado, se ubican en la
parteParte superior de las lneas horizontales (guiones). Es decir, cada
coeficiente se incluye una sola vez y se excluyen los coeficientes que vinculan
al tem o
puntuacinPuntuacin consigo misma (1 con 1, 2 con 2, 3 con 3 y 4 con 4).
Pg. 5
3. Mediante otra frmula que se basa en la correlacin promedio
Pg. 6
2. MTODOS DE ANLISIS
MULTIVARIADO

Pg. 7
2. LOS MTODOS DE ANLISIS MULTIVARIADO
Los mtodos de anlisis multivariado son aquellos en que se analiza la relacin
entre diversas variables independientes y al menos una dependiente. Son
mtodos ms complejos que requieren del uso de computadoras para efectuar
los clculos necesarios
Entre las tcnicas ms comunes se encuentran (1) Anlisis de componentes
principales y factores comunes, (2) regresin y correlacin mltiple, (3) anlisis
discriminante mltiple, (4) anlisis multivariado de varianza y covarianza, (5)
anlisis conjunto, (6) correlacin cannica, (7) anlisis de clusters, (8) escala
multidimensional. Otras tcnicas nuevas incluyen (9) anlisis de
correspondencia, (10) modelos de probabilidad lineal tales como el logit y
probit, y (11) modelos de ecuacin simultaneas / estructurales. A continuacin
se describen brevemente stas tcnicas.
Anlisis de componentes principales y de factores comunes
Es un mtodo estadstico que puede usarse para analizar las interrelaciones
entre un gran nmero de variables y explicar esas variables en trminos de sus
dimensiones subyacentes comunes. El objetivo es hallar la forma de sintetizar
la informacin contenida en un nmero de variables originales, dentro de un
Pg. 8
conjunto ms pequeo de variates (factores) con mnima prdida de
informacin.
Regresin mltiple
En un mtodo de anlisis adecuado cuando el problema de investigacin
involucra una variable dependiente nica que se presume se relaciona a dos o
ms variables independientes medibles. El objetivo es predecir el cambio en la
variable dependiente de respuesta con cambios en las variables
independientes, normalmente con el mtodo de mnimos cuadrados.
Por ejemplo se pueden predecir los montos gastados en cenas a partir de
ingresos de las familias (variable dependiente), su tamao, y la edad del padre
(variables independientes).
Anlisis discriminante mltiple (MDA)
Se aplica cuando la variable dependiente es dicotmica (vgr.Vg. hombre
mujer) o multitmica (vgrVg.. Alto medio bajo) y por tanto no medible. Como
en la regresin las variables independientes deben ser medibles. Se aplica
cuando la muestra total se puede dividir en grupos con base en una variable no
medible caracterizando varias clases conocidas. Su objetivo es comprender las
diferencias entre grupos y predecir la probabilidad de que una entidad (objeto
individual) pertenezca a una clase o grupo particular con base en varias
variables independientes medibles o mtricas.
Por ejemplo el anlisis discriminante se puede utilizar para distinguir entre
innovadores y no innovadores de acuerdo a su perfil demogrfico y
psicogrfico.
Anlisis multiariado de arian!a y coarian!a (MA"#$A)
Es un mtodo estadstico para explorar simultneamente la relacin entre
varias variables categricas independientes (referidas como tratamientos) y dos
o ms variables dependientes medibles o mtricas. Es una extensin del
ANOVA univariado. El anlisis multivariado de covarianza (MANCOVA) se
Pg. 9
puede usar en conjunto con el MANOVA para remover (despus del
experimento) el efecto de cualquier variable mtrica independiente no
controlada (conocida como covariada) en la variable independiente.
Anlisis con%unto
Se aplica a nuevos productos para evaluar la importancia de los atributos del
nuevo producto as como los niveles de cada atributo, mientras que el
consumidor evala solo unos pocos perfiles del producto como combinaciones
de los niveles de producto.
Por ejemplo asumir un producto con tres atributos (precio, calidad y color),
cada uno en tres niveles posibles (vgrVg.. Rojo, amarillo y azul). En vez de
tener que evalurevaluar las 27 combinaciones posibles (3x3x3), se evala un
subconjunto de 9 o ms combinaciones con base en su atractivo para el
consumidor, de manera que el investigador no solo conozca la importancia de
cada atributo, sino adems la importancia de cada nivel (atractivo del rojo vsvs.
amarillo vsvs. azul).
&orrelacin cannica
El anlisis de correlacin puede ser visto como una extensin lgica de la
regresin mltiple. Donde se trata de correlacionar simultneamente varias
variables dependientes medibles o mtricas y varias variables independientes
medibles. El principio es establecer una combinacin lineal de cada conjunto de
variables (dependientes e independientes) para maximizar la correlacin entre
los dos conjuntos (obteniendo ponderaciones adecuados para las variables).
Anlisis de conglomerados (&lusters)
Es una tcnica analtica para desarrollar sugrupossubgrupos significativos de
individuos u o objetos. Especficamente, el objetivo es clasificar una muestra de
entidades (individuos u objetos) en un nmero ms pequeo de grupos ms
pequeos con base en las similitudes entre entidades. A diferencia del anlisis
discriminante, los grupos no estn definidos, ms bien se usa para
identificarlos.
Pg. 10
Normalmente se realiza en tres pasos. El primero es la medicin de alguna
forma de similitud o asociacin entre las entidades para identificar cuantos
grupos realmente existen en la muestra. El segundo paso es el proceso en s
de conglomerados, donde las entidades se particionan en grupos
(conglomerados o clusters). El paso final es perfilar las personas o variables
para determinar su composicin. Muchas veces esto ltimo se realiza con el
anlisis discriminante.
'scala multidimensional
El objetivo es transformar los juicios del consumidor de similitud o preferencias
(vgrVg.. Preferencia por tiendas o marcas) en distancias representadas en un
espacio multidimensional. Si los objetos A y B se juzgan por el consumidor
como similares, comparados con cualquier otro par de objetos, la tcnica
posiciona los objetos A y B de manera que la distancia entre ellos en un
espacio multidimensional es ms pequeopequea que la distancia entre
cualquier otro par de objetos. Al final se muestra un mapa perceptual con la
posicin relativa de los objetos.
Anlisis de correspondencia
Facilita tanto la reduccin dimensional de objetos en un conjunto de atributos y
el mapa perceptual de objetos respecto a estos atributos. En su forma ms
elemental es una tabla de contingencia o tabulacin cruzada de dos variables
categricas. Transforma los datos no mtricos a un nivel medible y realiza una
reduccin dimensional (similar al anlisis de factores) y un mapa perceptual
(similar al anlisis multidimensional).
Por ejemplo, las preferencias de marcas de los consumidores pueden ser
tabuladas contra variables demogrficas (vgrVg.. Gnero, categoras de
ingresos, ocupacin) indicando cuanta gente prefiere cada una de las marcas
que caen en cada categora de las variables demogrficas. Por medio del
anlisis de correspondencia, la asociacin o "correspondencia de marcas y las
caractersticas distintivas de aquellos que prefieren las marcas se muestran en
Pg. 11
un mapa tridimensional o bidimensional tanto de marcas como de las
caractersticas que distinguen a aquellos que prefieren cada marca.
Modelos de pro(a(ilidad lineal (Anlisis )ogit)
Son una combinacin de regresin mltiple y anlisis discriminante. Es similar
al anlisis de regresin mltiple excepto que la variable dependiente es
categrica no mtrica como en el anlisis discriminante.
Modelos de ecuaciones estructurales
A veces se refiere como el nombre del software LSREL, es una tcnica que
permite separar las relaciones del conjunto de variables dependientes. En su
forma ms sencilla proporciona el modelo ms adecuado y la tcnica de
estimacin ms eficiente para una serie de ecuaciones de regresin mltiple,
evaluadas simultneamente. Se caracteriza por dos componentes bsicos: (1)
el modelo estructural y (2) el modelo de medicin.
El modelo estructural es la "va que relaciona variables dependientes e
independientes. El modelo de medicin permite al investigador a usar varias
variables (indicadores) para una variable dependiente e independiente.
Pg. 12
)os datos para *A+&# son los siguientes,
Variables / Tipo
Percepciones / Medibles (Mtricas)
X1 Tiempo de entrega - entrega del producto con la orden confirmada
X2 Nivel de precios - nivel de precio percibido ponderacindo por
proveedores
X3 Flexibilidad de precios - flexibilidad para negociar precios
X4 magen de la empresa - general
X5 Servicio en general - nivel necesario para mantener relaciones
X6 magen de la fuerza de ventas - general
X7 Calidad del producto calidad percibida en desempeo o rendimiento
Resultados de compras / Medibles (Mtricas)
X9 Nivel de utilizacin - que porcentaje de producto es surtido por Hatco
X10 Nivel de satisfaccin que tan satisfecho esta el cliente con Hatco
Caractersticas del comprador / No Medibles (No Mtricas)
X8 Tamao de la empresa - 1- Grande 0 - pequeo
X11 Especificacin de compra - 1-Evala por el valor total y 0- especificacin
X12 Estructura de abastecimiento 1- centralizado 0 - descentralizado
X13 Tipo de industria - 1- industria A 0 otras industrias
X14 Tipo de situacin de compra 1- nueva 2- modificada 0- tradicional
Pg. 13
0. A(OVA DE 1 DIRECCIO(ES

Pg. 14
3. ANOVA (anl!! "# $a%an&a "# ' "%#(()n#! )
El ANOVA es similar a la regresin en el sentido de que se utiliza para
investigar y modelar la relacin entre una variable de respuesta y una o ms
variables independientes. Sin embargo, el ANOVA difiere de la regresin en
dos aspectos: las variables independientes son cualitativas (categricas), y no
hay supuestos acerca de la naturaleza de la relacin (o sea que el modelo no
incluye coeficientes para variables). En efecto el ANOVA extiende la prueba de
dos muestras con prueba t para probar la igualdad de dos poblaciones a una
hiptesis ms general al comparar ms de dos medias, versus que no sean
iguales.
efinicin! Es una prueba estadstica para evaluar el efecto de dos o ms
variables independientes sobre una variable dependiente.
Responde a esquemas como el que se muestra en la figura:
Constituye una extensin del anlisis de varianza unidireccional, solamente
queQue incluye ms de una variable independiente. Evala los efectos por
separado de cada variable independiente y los efectos conjuntos de dos o ms
variables independientes.
Pg. 15
"ariables: Dos o ms variables independientes y una dependiente.
Nivel de medicin de las variables: La variable dependiente (criterio) debe estar
medida en un nivel por intervalos o razn, y las variables independientes
(factores) pueden estar en cualquier nivel de medicin, pero expresadas de
manera categrica.
Interpretacin y ejemplo
Hi: La similitud en valores, la atraccin fsica y el grado de retroalimentacin
positiva son variables que inciden en la satisfaccin sobre la relacin en
parejas de novios.
Contexto: Muestra de parejas de adultos jvenes (23-29 aos), pertenecientes
a estratos econmicos altos (n#400).
El ANOVA efectuado mediante un paquete estadstico computacional como
SPSS produce los siguientes elementos bsicos:
$uente de la variacin (source of variation). Es el factor que origina variacin
en la dependiente. Si una fuente no origina variacin en la dependiente, no
tiene efectos.
%fectos principales (main effects). Es el efecto de cada variable independiente
por separado; no est contaminado del efecto de otras variables
iindependientesindependientes ni de error. Suele proporcionarse la suma de
todos los efectos principales.
&nteracciones de dos direcciones ('()ay interactions). Representa el efecto
conjunto de dos variables independientes, aislado de los dems posibles
efectos de las variables independientes (individuales o en conjuntos). Suele
proporcionarse la suma de los efectos de todas estas interacciones.
Pg. 16
&nteracciones de tres direcciones (*()ay interactions). Constituye el efecto
conjunto de tres variables independientes, aislado de otros efectos. Suele
proporcionarse la suma de los efectos de todas estas interacciones.
Puede haber efecto de +-direcciones, esto dependiedepende del nmero de
variables independientes.
En nuestro ejemplo, tenemos los resultados siguientes:
+A-)A A"#$A
VARABLE DEPENDENTE: SATSFACCN EN LA RELACN
Fuente de
variacin
Suma de
cuadrados
Grados de
libertad
Cuadrados
medios
Estadstico F Significancia
de Fc = P
%fectos
principales
(main effects
22.51 .001**
SMLTUD 31.18 0.001**
ATRACCN 21.02 0.001**
RETROALM 11.84 0.004**
SMLTUD
ATRACCN
-4.32 0.04*
SMLTUD
RETROALM
2.18 0.11
ATRACCON
RETROALM
1.56 0.190
SN
RETROL-
ATRACCON
8.01 0.02*
NOTA: Normalmente interesa saber si las razones "F resultaron o no
significativas; por tanto, slo se incluyen estos valores. Se recomienda
concentrarse en dichos valores y evitar confusiones. Desde luego, el
investigador experimentado acostumbra estudiar todos los valores.
** Razn "F significativa al nivel del 0.01 (p < 0.01)
*Razn "F significativa al nivel del 0.05 (p < 0.05)
Pg. 17
Como podemos ver en la tabla, la similitud, la atraccin y la retroalimentacin
tienen un efecto significativo sobre la satisfaccin en la relacin.
Respecto a los efectos de dos variables independientes conjuntas, slo la
similitud y la atraccin tienen un efecto, hay un efecto conjunto de las tres
variables independientes. La hiptesis de investigacin se acepta y la nula se
rechaza. Asimismo, se recuerda al lector que en el captulo 5 del presente
disco: Otros diseos experimentales (en el apartado sobre diseos factoriales)
se explica la nocin de interaccin entre variables independientes. Cabe
agregar que el ANOVA es un mtodo estadstico propio para los diseos
experimentales factoriales.
'%emplo,
Un experimento se realiz para probar cuanto tiempo toma usar un modelo
nuevo y un modelo anterior de calculadora. Seis ingenieros trabajando en un
problema estadstico y uno de ingeniera se les toma el tiempo para resolver el
problema. Los ingenieros se consideran como bloques en el diseo
experimental.
Hay dos factores: Tipo de problema y modelo de calculadora cada uno con
dos niveles, se hacen experimentos donde esos niveles de los factores se
cruzan. Los datos se muestran a continuacin:
SolveTime Engineer ProbType Calculator
3.1 Jones Stat New
7.5 Jones Stat Old
2.5 Jones Eng New
5.1 Jones Eng Old
3.8 Williams Stat New
8.1 Williams Stat Old
2.8 Williams Eng New
5.3 Williams Eng Old
3 Adams Stat New
7.6 Adams Stat Old
2 Adams Eng New
4.9 Adams Eng Old
3.4 Dixon Stat New
7.8 Dixon Stat Old
2.7 Dixon Eng New
5.5 Dixon Eng Old
Pg. 18
3.3 Erickson Stat New
6.9 Erickson Stat Old
2.5 Erickson Eng New
5.4 Erickson Eng Old
3.6 Maynes Stat New
7.8 Maynes Stat Old
2.4 Maynes Eng New
4.8 Maynes Eng Old
Las instrucciones de Minitab son las siguientes:
1 Abrir la worksheet EXH_AOV.MTW.
2 .tat / A"#$A / -alanced A"#$A.
3 Responses, poner Solve,ime.
4 Model, poner %n-ineer .rob,ype / 0alculator.
5 En Random 0actors, poner %n-ineer.
6 Click Results. En Display means corresponding to t1e terms, poner
.rob,ype / 0alculator. Click #2 cada cuadro de dilogo.
Los resultados obtenidos son los siguientes:
A"#$A, .ole+ime ersus 'ngineer3 4ro(+ype3 &alculator
Factor Type Levels Values
Engineer random 6 Adams, Dixon, Erickson, Jones, Maynes, illiams
!ro"Type #ixed $ Eng, %tat
&alculator #ixed $ 'e(, )ld
Analysis o# Variance #or %olveTime
%ource DF %% M% F !
Engineer * +,-*. -,$++ .,+. -,-./
!ro"Type + +6,660 +6,660 +6,660 $10,*$ -,---
&alculator + 0$,+-0 0$,+-0 0$,+-0 +-0-,2/ -,---
!ro"Type3&alculator + .,62$ .,62$ .,62$ *1,62 -,---
Error +* +,-+- -,-60
Total $. /1,*+2
% 4 -,$*/120 56%7 4 /2,/.8 56%79ad:; 4 /2,.68
Means
!ro"Type ' %olveTime
Eng +$ .,2$*-
%tat +$ *,1/+0
&alculator ' %olveTime
Pg. 19
'e( +$ $,/$*-
)ld +$ 6,./+0
!ro"Type &alculator ' %olveTime
Eng 'e( 6 $,12..
Eng )ld 6 *,+660
%tat 'e( 6 .,.660
%tat )ld 6 0,6+60
5nterpretacin de los resultados,
Se muestran los factores (fijos y aleatorios), niveles y valores. Despus se
muestra la tabla de ANOVA, donde se indica de acuerdo al valor P que hay una
interaccin significativa entre el tipo de problema y el modelo de calculadora, lo
que implica que la reduccin en tiempo de proceso de la calculadora depende
del tipo de problema.
En la lista de promedios se observa un menor tiempo entre la calculadora
nueva y la anterior.
Pg. 20
4. ANLSS MULTVARADO DE VARANZA
(MANOVA)
Pg. 21
*. ANLISIS MULTIVARIADO DE VARIAN+A (MANOVA)
Es un modelo para analizar la relacin entre una o ms variables
independientes y dos o ms variables dependientes. Es decir, es til para
estructuras causales del tipo:
La tcnica posee varios usos, entre los que destacan:
- Evaluar diferencias entre grupos a travs de mltiples variables dependientes
(medidas por intervalos o razn). La(s) variable(s) independiente(s) es(son)
categrica(s) (no mtricas). Tiene el poder de evaluar no solamente las
diferencias totales, sino diferencias entre las combinaciones de las
dependientes.
En este sentido representa una extensin del anlisis de varianza (ANOVA)
para cubrir casos donde hay ms de una variable dependiente y/o cuando las
variables dependientes simplemente no pueden ser combinadas. En otras
palabras, reconoce si los cambios en la(s) variable(s) independiente(s) tienen
un efecto significativo en las dependientes. Seala qu grupos difieren en una
variable o en el conjunto de variables dependientes.
Pg. 22
- dentificar las interacciones entre las variables independientes y la asociacin
entre las dependientes.
Las tres clases principales del MANOVA son:
1) Hotelling's T. Es parecida a la prueba t (dos grupos) pero con ms
dependientes: una variable independiente dicotmica y varias dependientes.
2) MANOVA unidireccional. Anlogo al ANOVA de una sola va, pero con ms
dependientes: una variable independiente multicategrica y varias
dependientes.
3) MANOVA factorial. Similar al ANOVA factorial, solamente que con dos o ms
dependientes: varias independientes categricas y varias dependientes.
Los modelos del MANOVA tienen en comn que forman combinaciones
lineales de las dependientes que discriminan mejor entre los grupos en un
experimento o una situacin no experimental. Es una prueba de significancia
de las diferencias en los grupos en un espacio multidimensional donde cada
dimensin est definida por combinaciones lineales del conjunto de variables
dependientes.
Una pregunta que suele hacer el estudiante al revisar el MANOVA es por qu
no hacemos ANOVAS separados, uno para cada dependiente? La respuesta:
las dependientes estn correlacionadas muy frecuentemente, por lo cual los
resultados de varios ANOVA pueden ser redundantes y difciles de integrar. He
aqu una sntesis de la explicacin de Wiersma (1999) sobre este tipo de
anlisis:
Al incluir dos o ms variables dependientes simultneamente no se consideran
las diferencias entre las medias en cada variable, sino las diferencias en
variables cannicas. El inters no slo es saber si los grupos definidos por las
variables independientes difieren en las variables cannicas, sino conocer la
naturaleza de stas. Una variable cannica es una variable artificial generada a
Pg. 23
partir de los datos. Representa constructos y se compone de variables reales,
las cuales deben ser descritas en trminos de variables dependientes. Lo
anterior se efecta por medio de las ponderaciones de los coeficientes de
correlacin entre una variable dependiente y una variable cannica. Si una
ponderacin entre la variable cannica y la dependiente es positiva y elevada,
significa que altos valores en la dependiente se asocian con altos valores en la
cannica. Por ejemplo, si una variable dependiente consiste en puntuaciones a
una prueba sobre innovacin, y dichas puntuaciones se correlacionan en forma
considerable con una variable cannica, inferimos que la variable cannica
representa un constructo que involucra esencialmente a la innovacin.
En los clculos que se hacen en el MANOVA, se generan variables cannicas
hasta que se encuentra que no hay una diferencia estadstica significativa entre
las categoras o los grupos de las variables independientes; o bien, hasta que
se agotan los grados de libertad de las variables independientes (lo que ocurra
primero). El nmero de variables cannicas no puede exceder el nmero de
variables dependientes, pero es comn que el nmero de dependientes sea
mayor que el de variables cannicas estadsticamente significativas o los
grados de libertad.
La hiptesis general de investigacin en el MANOVA postula que las medias de
los grupos o las categoras de la(s) variable(s) independiente(s) difieren entre s
en las variables cannicas. La hiptesis nula postula que dichas medias sern
iguales.
Se calculan diversas estadsticas para evaluar ambas hiptesis, entre las que
destacan: $ (total, toma en cuenta el modelo completo), la prueba 1otellin-2s
,Square3 ,2 (cuando hay dos grupos formados por las variables
independientes), 4il5s2 lambda3 6 (cuando hay ms de dos grupos formados
por las variables independientes), y Pillai-Bartlett (cuando hay coeficientes
cannicos); y si resultan significativas en un nivel de confianza, se acepta la
hiptesis de investigacin de diferencia de medias. Esto indica que hay, por lo
menos, una variable cannica significativa (pero puede haber varias). Si
diversas variables cannicas son significativas, esto muestra que se presentan
Pg. 24
diferencias en las variables cannicas en cuestin, entre los grupos o
categoras de las independientes.
Los paquetes estadsticos que contiene el MANOVA suelen posicionar a los
grupos de las variables independientes por puntuaciones discriminantes; stas
son calculadas con una funcin discriminante, que es una ecuacin de
regresin para un compuesto de variables dependientes. A cada grupo se le
asigna una puntuacin discriminante en cada variable cannica. Las
puntuaciones discriminantes de una variable independiente pueden ser cero o
tener un valor positivo o negativo.
Una puntuacin discriminante positiva y elevada para un grupo, indica que ste
se coloca por encima de los dems en la respectiva variable cannica. Y deben
considerarse las ponderaciones, las cuales son positivas o negativas. Las
puntuaciones discriminantes son utilizadas para interpretar las separaciones de
los grupos en las variables cannicas, en tanto que las ponderaciones se usan
para evaluar y ligar los resultados de las variables dependientes (Wiersma,
1999). Un ejemplo de las ponderaciones de los coeficientes de correlacin
entre las variables dependientes y las variables cannicas as como las
puntuaciones discriminantes se muestran en las tablas siguientes:
Pg. 25
Como observamos en la ltima tabla, se obtuvieron tres constructos
subyacentes en las puntuaciones recolectadas de la muestra: motivacin
intrnseca, atribucin de causalidad externa y desempeo laboral. Vemos en la
tabla que los grupos (niveles en la empresa) estn separados en las tres
variables cannicas (los grupos difieren), particularmente en la primera variable
cannica (motivacin intrnseca) y los obreros ocupan la posicin ms baja. Las
variables dependientes enmarcadas en un recuadro en la primera variable
Pg. 26
cannica se ponderaron en ella; en consecuencia, los ejecutivos tienen las
puntuaciones ms altas en motivacin intrnseca medida por la escala
mencionada, en atribuciones internas y en sentimientos de xito en el trabajo.
As se interpretan todas las variables cannicas y dependientes.
En el MANOVA se incluyen razones F y anlisis de varianza7 Algunos paquetes
estadsticos agregan una prueba denominada correlacin cannica, que es
muy similar al MANOVA. sta es la mxima correlacin que llega a obtenerse
entre los conjuntos de puntuaciones y las relaciones entre las variables
independientes, entre las variables dependientes y entre los conjuntos de
ambas (dependientes e independientes) (Kerlinger, 1979). Las variables en el
MANOVA y la correlacin cannica asumen que las variables dependientes
estn medidas en un nivel de intervalos o razn. Tal correlacin se interpreta
como otras; pero el contexto de interpretacin vara de acuerdo con el nmero
de variables involucradas.
Pg. 27
'%emplo con Minita(
Se realiza un estudio para determinar las condiciones ptimas para extruir
pelcula plstica. Se miden tres respuestas Tear, gloss y opacity cinco
veces en cada combinacin de dos factores tasa de extrusin y cantidad de
aditivo cada grupo se pone en niveles bajos y altos. Se utiliza el MANOVA
balanceado para probar la igualdad de las medias.
DATOS
+ear 6loss #pacity
ExtrusionE
xtrusin Additive
6.5 9.5 4.4 1 1
6.2 9.9 6.4 1 1
5.8 9.6 3 1 1
6.5 9.6 4.1 1 1
6.5 9.2 0.8 1 1
6.9 9.1 5.7 1 2
7.2 10 2 1 2
6.9 9.9 3.9 1 2
6.1 9.5 1.9 1 2
6.3 9.4 5.7 1 2
6.7 9.1 2.8 2 1
6.6 9.3 4.1 2 1
7.2 8.3 3.8 2 1
7.1 8.4 1.6 2 1
6.8 8.5 3.4 2 1
7.1 9.2 8.4 2 2
7 8.8 5.2 2 2
7.2 9.7 6.9 2 2
7.5 10.1 2.7 2 2
7.6 9.2 1.9 2 2
5nstrucciones de Minita(
) Abrir el ar+-ivo E<=>MVAR.MT?.
% Sele++io,ar Stat > ANOVA > Balanced MANOVA.
0 E, Re!"ne@ 8o,er Tear Gloss Opacity.
2 E, M"del@ 8o,er Extrusion | Additive.
Pg. 28
5 Cli+A Re#lt. E, D$!la% "& Re#lt@ ele++io,ar Mat'$ce
()%!"t)e$* e''"'* !a't$al c"''elat$"n+ y E$,en anal%$.
6 Cli+A O- e, +a$a +"a$ro $e $i/lo!o.
Los resultados se muestran a continuacin:
Results for, '718mar.M+9

A"#$A, +ear3 6loss3 #pacity ersus '7trusion3 Additie
MA')VA #or Extrusion
s 4 + m 4 -,* n 4 6,-
Test DF
&riterion %tatistic F 'um Denom !
ilks< -,.2+26 0,**1 . +1 -,--.
La(ley6=otelling +,6+200 0,**1 . +1 -,--.
!illai<s -,6+2+1 0,**1 . +1 -,--.
5oy<s +,6+200
%%&! Matrix #or Extrusion
Tear >loss )pacity
Tear +,01- 6+,*-* -,2***
>loss 6+,*-* +,.-+ 6-,0./*
)pacity -,2** 6-,0./ -,1$-*
%%&! Matrix #or Error
Tear >loss )pacity
Tear +,061 -,-$-- 6.,-0-
>loss -,-$- $,6$2- 6-,**$
)pacity 6.,-0- 6-,**$- 61,/$1
!artial &orrelations #or t?e Error %%&! Matrix
Tear >loss )pacity
Pg. 29
Tear +,----- -,--/$/ 6-,$2620
>loss -,--/$/ +,----- 6-,-1$$6
)pacity 6-,$2620 6-,-1$$6 +,-----
E@>E' Analysis #or Extrusion
Eigenvalue +,6+/ -,----- -,-----
!roportion +,--- -,----- -,-----
&umulative +,--- +,----- +,-----
Eigenvector + $ .
Tear -,6*1+ -,1.+* -,-6-1
>loss 6-,..2* -,*+6. -,--+$
)pacity -,-.*/ -,-.-$ 6-,+$-/
MA')VA #or Additive
s 4 + m 4 -,* n 4 6,-
Test DF
ilks< -,*$.-. 1,$*6 . +1 -,-$*
La(ley6=otelling -,/++/$ 1,$*6 . +1 -,-$*
!illai<s -,106/0 1,$*6 . +1 -,-$*
5oy<s -,/++/$
%%&! Matrix #or Additive
Tear >loss )pacity
Tear -,06-* -,62$* +,/.+
>loss -,62$* -,6+$* +,0.$
)pacity +,/.-* +,0.$* 1,/-+
E@>E' Analysis #or Additive
Eigenvalue -,/++/ -,----- -,-----
!roportion +,---- -,----- -,-----
&umulative +,---- +,----- +,-----
Pg. 30
Eigenvector + $ .
Tear 6-,6..- -,112- 6-,+$06
>loss 6-,.$+1 6-,1//$ 6-,+6/1
)pacity 6-,-621 -,---- -,++-$
MA')VA #or Extrusion3Additive
s 4 + m 4 -,* n 4 6,-
Test DF
ilks< -,000++ +,../ . +1 -,.-$
La(ley6=otelling -,$262. +,../ . +1 -,.-$
!illai<s -,$$$2/ +,../ . +1 -,.-$
5oy<s -,$262.
%%&! Matrix #or Extrusion3Additive
Tear >loss )pacity
Tear -,---*-- -,-+6*- -,-11*-
>loss -,-+6*-- -,*11*- +,162*-
)pacity -,-11*-- +,162*- .,/6-*-
E@>E' Analysis #or Extrusion3Additive
Eigenvalue -,$262 -,----- -,-----
!roportion +,---- -,----- -,-----
&umulative +,---- +,----- +,-----
Eigenvector + $ .
Tear 6-,+.61 -,+2-6 -,0*$0
>loss 6-,*.06 6-,.-$2 6-,-$$2
)pacity 6-,-62. -,++-$ 6-,----
Por default se muestra la tabla para las cuatro pruebas multivariadas (Wilks,
Lawley, Hotelling, Pillai y Roy) para cada uno de los trminos en el modelo.
Los valores s, m y n se utilizan para los clculos de los estadsticos de prueba
Fc, el cual es exacto si s = 1 o 2 de otra forma es aproximado.
Pg. 31
Examinando los valores P de las pruebas para Extrusin y Aditivo se observa
que son significativas para un nivel de 0.05, no as la interaccin.
)as matrices ..&4 se usan para evaluar la contribucin a la variabilidad de
manera similar a la suma de cuadrados en la ANOVA univariada. La matriz
SSCP para Extrusion es la suma de cuadrados de la hiptesis y matriz de
productos cruzados H para las tres respuestas con el trmino de modelo
Extrusin. Los elementos diagonales de esta matriz, 1.740, 1.301 y 64.924 son
las sumas de cuadrados univariados para el trmino del modelo Extrusin
cuando las variables de respuesta son Tear, Gloss y Opacity respectivamente.
Los elementos fuera de la diagonal son los productos cruzados.
)a matri! ..&4 para el error es la suma de cuadrados de los errores y
productos cruzados E. Los elementos diagonales de la matriz 1.764, 2.6280, y
64.924 son las sumas de cuadrados de los errores para las variables de
respuesta Teat, Gloss y Opacity, respectivamente. Los elementos fuera de la
diagonal de esta matriz son los productos cruzados.
)a matri! de correlaciones parciales para el error SSCP, se usa para evaluar
que tanto se relacionan las variables de respuesta. Las correlaciones parciales
entre Tear y Gloss son pequeas con 0.00929 y entre Gloss y Opacity
-0.04226. Y la correlacin parcial entre Tear y Opacity es de -0.28687 tampoco
es grande. Como la estructura de las correlaciones es dbil, se pueden realizar
anlisis univariados de ANOVA para cada una de las respuestas.
Se puede utilizar el anlisis de valores caractersticos o Eigenvalores, para
evaluar como difieren los promedios de las respuestas entre los niveles de los
diferentes trminos del modelo. El anlisis de Eigenvalores es E
-1
H donde E es
la matriz SCCP del error y H es la matriz SCCP de las variables de respuesta.
Estos son los eigenvalores utilizados para calcular las cuatro pruebas de
MANOVA.
Poner la mayor importancia en los eigenvectores que corresponden a valores
altos de eigenvalores. En el ejemplo, el segundo y tercer eigenvalores son
pequeos, no significativos. Para ambos factores, Extrusion y Additive, los
Pg. 32
primeros eigenvalores contienen informacin similar. Para Extrusion ies
0.6541, -0.3385, 0.0359 and for Additive it is -0.6630, -0.3214, -0.0684. El
mayor valor absoluto dentro de esos eigenvalores corresponde a la respuesta
Tear, el segundo a Gloss y el valor para Opacity es pequeo. Esto implica que
Tear tiene la mayor diferencia entre los dos niveles de los factores ya sea
Extrusion o Additive, el Gloss tiene las siguientes mayores diferencias y op.citp.
tiene solo pequeas diferencias.
Para un anlisis ms general utilizar General MANOVA con diseos
balanceados y no balanceados, incluso si se tienen covariados.
1 Seleccionar Stat > ANOVA > General MANOVA.
2 En Responses, seleccionar hasta 50 columnas numricas conteniendo las
variables de respuesta.
3 En Model, introducir los trminos del modelo que se quiera ajustar.
4. Click OK.

Pg. 33
5 A(BLISIS DE COVARIA(CA
Pg. 34
:. A";)5.5. D' &#$AR5A"<A
efinicin: Es un mtodo estadstico que analiza la relacin entre una variable
dependiente y dos o ms independientes, con el que se elimina o controla el
efecto de al menos una de estas independientes. Similar al ANOVA, excepto
que permite controlar la influencia de una variable independiente, la cual con
frecuencia es una caracterstica antecedente que puede variar entre los grupos
(Mertens, 2005) o influir los resultados y afectar la claridad de las
interpretaciones.
.erspectivas o usos! Wildt y Ahtola (1978, pp. 8-9) destacan tres perspectivas
para el anlisis de covarianza:
8. .erspectiva experimental. Se aplica a aquellas situaciones en que el inters
del investigador se centra en las diferencias observadas en la variable
dependiente, por medio de las categoras de la variable independiente (o
variables independientes). Pero el experimentador asume que hay otras
variables independientes cuantitativas que contaminan la relacin y cuya
influencia debe ser controlada.
Pg. 35
Y el investigador nicamente se interesa por conocer la relacin entre las
variables independientes categricas y la variable dependiente. Desea al
mismo tiempo remover y controlar el efecto de las variables independientes
cuantitativas no categricas (continuas). Es decir, desea tener un esquema
como el de la figura
El objetivo es "purificar la relacin entre las independientes categricas y la
Variable dependiente, mediante el control del efecto de las independientes no
categricas o continuas.
Ejemplos de variables independientes categricas seran: gnero (masculino,
femenino), inteligencia (alta, media, baja), ingreso (menos de un salario
mnimo, dos a cuatro salarios mnimos, cinco a 10 salarios mnimos, 11 o ms
salarios mnimos).
Los niveles de medicin nominal y ordinal son categricos en s mismos,
mientras que los niveles de intervalos y razn deben transformarse en
categoras ms discretas. Estos ltimos son en s: cuantitativos, continuos y de
categoras mltiples. Por ejemplo, el ingreso en su "estado natural
(ponderaciones, dlares, euros, etc.) vara de la categora cero hasta la
categora (+)5, ya que puede haber millones de categoras.
Pg. 36
"ariable cate-rica unas cuantas categoras o un rango medio.
"ariable continua muchas categoras (a veces una infinidad).
8 dic9as variables independientes cuantitativas continuas3 cuya influencia se
controla3 se les denomina :covariables. Una covariable se incluye en el anlisis
para remover su efecto sobre la variable dependiente, e incrementar el
conocimiento de la relacin entre las variables independientes categricas de
inters y la dependiente, lo cual aumenta la precisin del anlisis.
En esta perspectiva, el anlisis de covarianza puede ser concebido primero
como un ajuste en la variable dependiente respecto a diferencias en la
covariable o las covariables y, posteriormente, como una evaluacin de la
relacin entre las variables independientes categricas y los valores ajustados
de la variable dependiente (Wildt y Ahtola, 1978). En trminos de Creswell
(2005):
El procedimiento "ajusta las puntuaciones en la dependiente para dar cuenta
por la covarianza (por decirlo en trminos sencillos: "hace equivalentes a los
grupos en la(s) covariable(s) y controla influencias potenciales que pueden
afectar a la variable dependiente).
;. .erspectiva de inters por la covariable. Esta perspectiva se ejemplifica con
aquellas instancias en las cuales el inters principal se centra en analizar la
relacin entre la variable dependiente y la covariable (variable cuantitativa
continua) o las covariables. Aqu el enfoque es distinto; la influencia que se
remueve es la de las variables independientes categricas. Primero se controla
el efecto (en este caso contaminante) de estas variables y despus se analiza
el efecto "purificado de las covariables.
0. .erspectiva de re-resin7 En esta tercera perspectiva, tanto las variables
independientes categricas como las covariables resultan de inters para el
investigador, quien puede desear examinar el efecto de cada variable
Pg. 37
independiente (covariables y no covariables, todas) y despus ajustar o corregir
los efectos de las dems variables independientes.
En cualquier caso, el anlisis de covarianza elimina influencias no deseadas
sobre la variable dependiente7 Se puede utilizar en contextos experimentales y
no experimentales7 La mayora de las veces la funcin del ANCOVA es
"remover la varianza compartida entre una o ms covariables y la dependiente,
de este modo, se valora en su justa dimensin la relacin causal entre la(s)
variable(s) independiente(s) de inters y la dependiente (Creswell, 2005).
Vemoslo conceptualmente pero de forma grfica con un ejemplo simple:
Ejemplo:
%studio: Al investigador le interesa analizar el efecto en el aprendizaje de la
computacin, por medio un nuevo mtodo para su enseanza a nios. La
hiptesis es: El nuevo mtodo de enseanza de la computacin (MA-RH)
provocar un mayor aprendizaje en los nios que un mtodo tradicional.
Entonces, implementa el siguiente experimento: A un grupo de infantes los
expone al nuevo mtodo de enseanza de computacin (MA-RHS); a otro
grupo no lo expone al nuevo mtodo, ste aprende con el mtodo tradicional;
finalmente, a un tercer grupo, de control, no recibe ningn tipo de enseanza
en computacin.
La variable independiente es el tipo de mtodo con tres categoras o niveles
(mtodo nuevo, mtodo tradicional y ausencia de mtodo), la dependiente es el
aprendiza<e en computacin (medida por una prueba estandarizada a nivel de
intervalos). Se tiene un esquema como el de la figura.
Pg. 38
Con el experimento el investigador desea conocer la varianza en comn entre
mtodo y aprendizaje (cuantificarla), la relacin XY (pura). Si los nios son
asignados al azar a los grupos del experimento y tiene grupos de tamao
aceptable, por el diseo mismo, remueve la influencia de las covariables que
pudieran afectar. Pero si no es factible hacerlo y tiene un diseo
cuasiexperimental (grupos intactos), debe remover tal influencia con el anlisis
de covarianza (eliminar al mnimo posible la varianza del aprendizaje no
explicada), para evitar que las covariables impidan ver con claridad la relacin
XY. Por ejemplo, el nivel educativo tecnolgico de los padres puede influir
(hace variar al aprendizaje) y este efecto debe ser controlado, al introducirlo
como covariable.
Pg. 39
Lo que el investigador desea tambin se puede expresar grficamente as:
Wildt y Ahtola (1978, p. 13) definen algunos usos del anlisis de covarianza:
1. &ncrementar la precisin en experimentos con asignacin al azar.
Pg. 40
2. %liminar influencias extra=as o contaminantes que pueden resultar cuando
las pruebas o los individuos no son asignados al azar a las diferentes
condiciones experimentales (grupos de un experimento).
3. %liminar efectos de variables que confundan o distorsionen la interpretacin
de resultados en estudios no experimentales.
Nivel de medicin de las variables: La variable dependiente siempre est
medida por intervalos o razn y las variables independientes pueden estar
medidas en cualquier nivel.
&nterpretacin: Depende de cada caso especfico, ya que el anlisis de
covarianza efectuado mediante un programa estadstico computacional,
produce un cuadro de resultados muy parecido al del anlisis de varianza. Los
elementos ms comunes pueden obssevarseobservarse en la tabla ANOVA.
La razn $ es, igual que en el anlisis de varianza, una razn de varianzas. El
razonamiento estadstico es el mismo y $ se interpreta igual, incluso se utiliza
el mismo cuadro de la distribucin $. Solamente que las inferencias y
conclusiones se hacen al considerar que las medias de la variable
dependiente, a travs de las categoras de las variables independientes, se han
ajustado, de este modo eliminan el efecto de la covariable o covariables.
'%emplo,
Diseo de investigacin que utiliza el anlisis de covarianza
Hi: Los trabajadores que reciban retroalimentacin verbal sobre el desempeo
de parte de su supervisor mantendrn un nivel mayor de productividad que los
trabajadores que reciban retroalimentacin sobre el desempeo por escrito,
ms an que los trabajadores que no reciban ningn tipo de retroalimentacin.
__ __ __
Hi: >1 > >2 ? >3
(verbal) (por escrito) (ausencia)
Pg. 41
El investigador plantea un diseo experimental para intentar probar su
hiptesis. Sin embargo, no puede asignar aleatoriamente a los trabajadores a
los tres grupos del experimento. El diseo sera con grupos intactos
(cuasiexperimental) y se esquematizara as:
Asimismo, el investigador presupone que hay un factor que puede
contaminar los resultados (actuar como fuente de invalidacin interna): la
motivacin. Diferencias iniciales en motivacin pueden invalidar el estudio.
Como la asignacin al azar est ausente, no se sabe si los resultados se ven
influidos por dicho factor. Entonces, el experimentador decide eliminar o
controlar el efecto de la motivacin sobre la productividad para conocer los
efectos de la variable independiente: tipo de retroalimentacin. La motivacin
se convierte en covariable.
El esquema es el que se muestra en la figura
Pg. 42
Cabe destacar que, para introducir una covariable en el anlisis, de preferencia
debe medirse antes del inicio del experimento.
El anlisis de covarianza "quita a la variabilidad de la dependiente lo que se
debe a la covariable. 8<usta la varianza de la variable dependiente en las
cate-oras de la independiente, al basarse en la covariable. En el ejemplo,
ajusta la varianza de la productividad debida a la motivacin, en las categoras
experimentales (tratamientos o grupos). El ajuste se realiza sobre la base de la
correlacin entre la covariable y la dependiente. Esto se muestra
esquemticamente en la tabla.
Una vez realizado el anlisis de covarianza, se evala si $ es o no significativa.
0uando F resulta si-nificativa se acepta la 9iptesis de investi-acin.
Si el resultado fuera:
G1 = 35
G2 = 36
La correlacin entre la calificacin en motivacin y las puntuaciones en
productividad es la base para el ajuste.
@3 = 38
@l entre = + 1 = 3 1 = 2
@l intra = N + = 107
F = 1.70
Comparamos con el valor de la tabla respectiva: en el nivel de 0.05 es igual a
3.07, y nuestra razn $ a 1.70 es menor a este valor. Por lo tanto, rechazamos
la hiptesis de investigacin y aceptamos la hiptesis nula. Esto se contrasta y
profundiza con las medias ajustadas de los grupos que proporcione el anlisis
de covarianza (no las medias obtenidas en el experimento por cada grupo, sino
las ajustadas con base en la covariable).
Pg. 43
Recordemos que SPSS nos proporciona automticamente la significancia de $.
'%emplo,
Determinar si hay diferencia en la resistencia de una fibra monofilamento
producida por tres mquinas diferentes. El dimetro de la fibra parece tener
influencia en la resistencia como se muestra abajo (covariado de Y).
Datos de resistencia - Y es la respuesta, X es el covariado.
Y X Maq
36 20 1
41 25 1
39 24 1
42 25 1
49 32 1
40 22 2
48 28 2
39 22 2
45 30 2
44 28 2
35 21 3
37 23 3
42 26 3
34 21 3
32 15 3
La relacin entre X y Y es significativa como se observa en la siguiente grfica:
En Minitab:
1. Stat > RegresinRegression > Fitted line plot
2. ntroducir Y y X, seleccionar Linear
3. OK
Pg. 44
=
>
32.5 30.0 27.5 25.0 22.5 20.0 17.5 15.0
50
45
40
35
30
S 1.78174
R-Sq 88.1%
R-Sq(adj ) 87.2%
0itted )ine 4lot
Y = 14.14 + 1.080 X
Para el ANOVA con Covariados, las instrucciones de Minitab son las
siguientes:
1. Stat > ANOVA > General Linear Model
2. ntroducir en Response Y, en Model X y Maquina
3. En Covariates X
4. En Results en Display Least Square Means corresponding to the terms Maq
5. En Graphs seleccionar Normal plot for residuals
6. OK
6eneral )inear Model, > ersus Ma?
Factor Type Levels Values
Ma7 #ixed . +, $, .
Analysis o# Variance #or A, using Ad:usted %% #or Tests
%ource DF %e7 %% Ad: %% Ad: M% F !
B + .-*,+. +02,-+ +02,-+ 6/,/0 -,---
Ma7 $ +.,$2 +.,$2 6,61 $,6+ -,++2
Error ++ $0,// $0,// $,*1
Total +1 .16,1-
% 4 +,*/*-* 56%7 4 /+,/$8 56%79ad:; 4 2/,0$8
Pg. 45
Term &oe# %E &oe# T !
&onstant +0,+00 $,02. 6,+0 -,---
B -,/*1- -,++1- 2,.6 -,---
Cnusual )"servations #or A
)"s A Fit %E Fit 5esidual %t 5esid
0 12,---- 1*,+-2- -,012/ $,2/$- $,-* 5
5 denotes an o"servation (it? a large standardiDed residual,
Means #or &ovariates
&ovariate Mean %tDev
B $1,+. 1,.$1
Least %7uares Means #or A
Ma7 Mean %E Mean
+ 1-,.2 -,0$.6
$ 1+,1$ -,0111
. .2,2- -,020/
Conclusin:
Se observa que no hay diferencia en las mquinas una vez que eliminamos la
variabilidad introducida por el dimetro de la fibra, en caso de no haber tomado
en cuenta la covarianza del dimetro en la resistencia, se hubiese concluido al
revs, que si hay diferencia en las mquinas, como se muestra a continuacin:
Con Minitab:
1. Stat > ANOVA > One way
2. Response Y Factor Maquina
3. OK
Los resultados son los siguientes:
#ne@Aay A"#$A, > ersus Ma?
%ource DF %% M% F !
Ma7 $ +1-,1 0-,$ 1,-/ -,-11
Error +$ $-6,- +0,$
Total +1 .16,1
% 4 1,+1. 56%7 4 1-,*.8 56%79ad:; 4 .-,6$8
@ndividual /*8 &@s For Mean Eased on !ooled
Pg. 46
%tDev
Level ' Mean %tDev F666666666F666666666F666666666F666666666
+ * 1+,1-- 1,2$0 966666666636666666666;
$ * 1.,$-- .,0-+ 96666666663666666666;
. * .6,--- .,2-2 96666666663666666666;
F666666666F666666666F666666666F666666666
.$,- .6,- 1-,- 11,-
!ooled %tDev 4 1,+1.
Conclusin: Como P value es menor a 0.05 aparentemente si hay diferencia
entre mquinas.
Pg. 47
'. A(BLISIS DISCRIMI(A(TE MDLTIPLE E
REFRESIG( LOFSTICA

Pg. 48
B. A";)5.5. D5.&R5M5"A"+' MC)+54)' > R'6R'.5D"
)#6E.+5&A
%l anlisis discriminante, se aplica cuando las variables independientes son
medidas por intervalos o razn, y la dependiente es categrica. Tal anlisis
sirve para predecir la pertenencia de un caso a una de las categoras de la
variable dependiente, sobre la base de varias independientes (dos o ms). Se
utiliza una ecuacin de regresin llamada funcin discriminante. Por ejemplo, si
queremos predecir el voto obtenido por dos partidos contendientes (variable
dependiente nominal con dos categoras) sobre la base de cuatro variables
independientes, aplicaremos el anlisis discriminante, para resolver una
ecuacin de regresin; as se obtienen las predicciones individuales.
En el ejemplo, hay dos categoras (votar por 8 o votar por ;); por tanto, los
valores a predecir son 0 y 1 (8 y ;, respectivamente). Si el sujeto obtiene una
puntuacin ms cercana a cero, se predice que pertenece al grupo que votar
por 8; si logra una puntuacin ms cercana a 1, se predice que pertenece al
grupo que votar por ;. Adems, se consigue una medida del grado de
discriminacin del modelo.
Usar el Anlisis Discrimnate para clasificar observaciones en dos grupos
(Anlisis discriminante) o ms grupos (Anlisis discriminante mltiple MDA) si
se tiene una muestra con grupos conocidos. Se puede utilizar tambin para
investigar como contribuyen las variables a la separacin de grupos. La
regresin logstica o Logit Analysis se limita a dos grupos. Para el caso de
clasificar las observaciones nuevas en una de dos categoras, la regresin
logstica puede ser superior al anlisis discriminante.
Se pueden hacer anlisis discriminantes lineales y cuadrticos. Los lineales
asumen que todos los grupos tienen la misma matriz de covarianza, los
cuadrticos no hacen este supuesto y no son bien comprendidos.
Pg. 49
Modelo discriminante
El problema que atiende la funcin discriminante es que tanto es posible
separar dos o ms grupos de individuos, con base en las mediciones
realizadas en esos individuos en varias variables. Por ejemplo para el caso de
los pjaros que sobrevivieron y los que no sobrevivieron, es interesante
considerar si es posible utilizar las dimensiones de sus cuerpos para separar
sobrevivientes de no sobrevivientes.
En el caso general donde hay m muestras aleatorias de diferentes grupos, de
tamaos nA3 n'3 B73 nm y los valores disponibles para p variables >A3 >'3 B3
>p para cada miembro de la muestra, la forma de los datos para una funcin de
anlisis discriminante es :
5ndiiduo =1 =2 FF =p 6rupo
1 X111 X112 FF X11p
2 X211 X212 FF X21p Grupo1
. .. .. FF ..
n1 Xn1,11 Xn1,12 FF Xn1,1p
1 X121 X122 FF X12p
2 X221 X222 FF X22p Grupo 2
. ... ... FF ...
n2 Xn2,2,1 Xn2,2,2 FF Xn2,2,p
1 X1m1 X1m2 FF X1mp
2 X1m1 X1m2 FF X1mp Grupo m
. .. .. FF ..
nm Xnm,m1 Xnm,m2 FF Xnm,mp
En este caso los datos no requieren ser estandarizados como en el anlisis de
componentes principales y anlisis factorial, ya que los resultados no son
afectados por la escala de los datos.
Pg. 50
Discriminacin por distancia de Mahalanobis
Suponiendo que hay - poblaciones y que las distribuciones multivariadas son
conocidas para p variables X1, X2,., Xp. Sea 5i la media de la variable >5 en
la poblacin i(sima, y asumiendo que la varianza de Xk tiene el mismo valor
Vk, en todas las poblaciones, se define a la distancia entre poblaciones y
muestras de Mahalanobis como:
) ( ) (
1 1
2
sj si
rs
rj
p
r
p
s
ri ij
v D =
= =
Donde V(rs) es el elemento con rengln r-simo y columna s-sima, de la
matriz inversa de covarianza para las variables p. Tambin se puede escribir en
forma matricial como:
) ,....., , ( '
) ,...., , ( '
2 1
2 1
p
p
x x x x
=
=
=
=

pi
i
i
i
j i j i ij
V D

.....
) ( )' (
2
1
1 2
i es el vector de medias para la poblacin i-sima y V es el vector de
covarianza. Una condicin es que la V sea similar para todas las poblaciones.
La distancia de Mahalanobis se utiliza frecuentemente para medir la distancia
de una observacin simple multivariada desde el centro de la poblacin de la
que emerge la observacin. Tambin se puede interpretar como un residuo
respecto al centro, con la consideracin de que si excede cierto valor se
investigue como punto aberrante.
Pg. 51
Para el modelo discriminante, los vectores promedio de las m muestras pueden
ser considerados como estimados de los vectores promedio de los grupos.
Pueden calcularse las distancias de mahalanobis de individuos a centros de
grupos, y cada individuo puede ser asignado al grupo que le sea ms cercano.
El grupo final puede ser diferente del grupo del que procede originalmente. El
porcentaje de asignacin correcta es una indicacin clara de que tan bien los
grupos pueden ser separados, usando las variables disponibles.
El procedimiento puede definirse de manera ms clara como sigue:
El vector de valores promedio de la muestra del i-simo grupo es
) ,...., , ( '
2 1 pi i i
x x x x =
La matriz de covarianza para las muestras es:
=
pp p p
p
p
c c c
c c c
c c c
C
....
....... ..........
....
....
2 1
2 22 21
1 12 11
La distancia de Mahalanobis de una observacin
)' ,......, , ( '
2 1 p
x x x x =
al
centro del grupo i se estima con:
) ( )' (
1 2
i i i
x x C x x D =

) ( ) (
1 1
2
si s
rs
p
r
p
s
ri r i
x x c x x D =
= =
Donde c
rs
es el elemento den la r-sima fila y la s-sima columna de C
-1
. La
observacin x es asignada al grupo para el cual D
i
2
tiene el valor ms pequeo.
0unciones cannicas discriminantes
Pg. 52
Es a veces til poder determinar las funciones de las variables X's que en
alguna forma separen los m grupos tan bien como sea posible. El mtodo ms
sencillo consiste en tomar una combinacin lineal de las variables X:
p p
X a X a X a Z + + + = ........
2 2 1 1
Una forma de seleccionar los coeficientes a's es seleccionar los que den la
mayor Fc en una ANOVA. Si se utiliza este mtodo, se encuentran las
funciones cannicas discriminantes para cada observacin i(sima que no
estn correlacionadas entre s.
p ip i i i
X a X a X a Z + + + = ........
2 2 1 1
La tabla ANOVA para una variable simple y m muestras es la siguiente:
Fuente de Suma de Grados de Cuadrado Medio F
Variacin cuadrados libertad
Entre muestras - G + H 9 m -1 M1 = B/(m-1) M1/M2
Dentro
= =
=
m
j
n
i
j ij
j
x x W
1
2
1
) ( n - m
de muestras
Total
= =
=
m
j
n
i
ij
j
x x T
1
2
1
) ( n 1
j
n
Tamao de la muestra j-sima
n
Nmero total de observaciones
ij
x
Es la observacin i-sima de la j-sima muestra
=
=
j
n
i
j
ij
j
n
x
x
1
Media de la muestra j-sima
= =
=
m
j
n
i
ij
j
n
x
x
1 1
Media global de todos los datos
El elemento en la fila r(sima y columna c(sima en la matriz + es:
) )( (
1 1
c ijc
m
j
n
i
r ijr rc
x x x x t
j
=
= =
El elemento en la r(sima fila y c(sima columna de la matriz 9 es:
Pg. 53
) )( (
1 1
jc ijc
m
j
n
i
jr ijr rc
x x x x w
j
=
= =
Hallar los coeficientes de las funciones discriminantes cannicas se convierte
en un problema de eigenvalores. La matriz de variacin dentro de la muestra 9
y la matriz de suma de cuadrados total + se calculan con las ecuaciones
anteriores. Por tanto la matriz entre grupos se determina con:
- G + H 9
Los eigenvalores y los eigenvectores se determinan con la matriz 9
@1
-. Si los
eigenvalores 1>2>3>..s entonces i es la razn de la suma de cuadrados
entre grupos a la suma de cuadrados entre grupos para la i-sima combinacin
lineal, Zi, mientras que los elementos de los eigenvectores, aIi = (ai1, ai2, ai3,
.., aip), son los coeficientes de Zi.
Las funciones cannicas discriminantes Z1, Z2,., Zp son combinaciones
lineales de las variables originales seleccionadas de tal forma que Z1 refleje
tanta diferencia de grupo como sea posible; Z2 capture tanta diferencia de
grupo como sea posible no mostrada por Z1; Z3 capture tanta diferencia de
grupo como sea posible que no sea mostrada por Z1 y Z2; etc. Se espera que
con las primeras funciones sea suficiente para acumular la mayor parte de las
diferencias de grupo. Si y solo si con las primeras dos variables se cumple esta
condicin, se puede graficar la diferencia entre grupos, graficando las funciones
para los individuos de las muestras.
El nmero de variables cannicas es el mnimo entre el nmero de variables
(X's) y el nmero de grupos menos uno (m 1= 2). Para el anlisis discrimnate
es necesario proporcionar el grupo al que pertenecen al inicio las
observaciones.
Para probar la significancia de la prueba, se puede utilizar el estadstico T2, de
Hottelling basado en el supuesto de normalidad y variabilidad similar dentro de
las muestras. Es decir que las muestras vengan de una distribucin mutivariada
normal con matrices de covarianza similares.
Pg. 54
Para probar si la funcin discriminante cannica Zj vara significativamente de
grupo a grupo se utiliza un estadstico Chi cuadrado.
Finalmente, se pueden analizar las distancias de Mahalanobis de las
observaciones a los centros de los grupos a ser examinados. Deben variar de
acuerdo a una distribucin Chi cuadrada con p grados de libertad, si exceden el
valor crtico, se debe analizar si la observacin realmente viene del grupo
asignado.
Pg. 55
'%emplo,
El porcentaje de personas empleadas en nueve diferentes sectores industriales
en Europa (Agr = agricultura; Min = minera; Man = Manufactura; Ps = Energa;
Con = Construccin; Ser = Servicios; Fin = Finanzas; Sps = Servicios sociales;
Tc = Transporte y comunicaciones).
"o 6rupo &iudad Agr Min Man 4s &on .er 0in .ps +c
1 1 Blgica 3.3 0.9 27.6 0.9 8.2 19.1 6.2 26.6 7.2
2 1 Dinamarca 9.2 0.1 21.8 0.6 8.3 14.6 6.5 32.2 7.1
3 1 Francia 10.8 0.8 27.5 0.9 8.9 16.8 6.0 22.6 5.7
4 1 Alemania Occ. 6.7 1.3 35.8 0.9 7.3 14.4 5.0 22.3 6.1
5 1 rlanda 23.2 1.0 20.7 1.3 7.5 16.8 2.8 20.8 6.1
6 1 talia 15.9 0.6 27.6 0.5 10.0 18.1 1.6 20.1 5.7
7 1 Luxenburgo 7.7 3.1 30.8 0.8 9.2 18.5 4.6 19.2 6.2
8 1 Holanda 6.3 0.1 22.5 1.0 9.9 18.0 6.8 28.5 6.8
9 1 nglaterra 2.7 1.4 30.2 1.4 6.9 16.9 5.7 28.3 6.4
10 1 Austria 12.7 1.1 30.2 1.4 9.0 16.8 4.9 16.8 7.0
11 1 Finlandia 13.0 0.4 25.9 1.3 7.4 14.7 5.5 24.3 7.6
12 2 Grecia 41.4 0.6 17.6 0.6 8.1 11.5 2.4 11.0 6.7
13 1 Noruega 9.0 0.5 22.4 0.8 8.6 16.9 4.7 27.6 9.4
14 2 Portugal 27.8 0.3 24.5 0.6 8.4 13.3 2.7 16.7 5.7
15 2 Espaa 22.9 0.8 28.5 0.7 11.5 9.7 8.5 11.8 5.5
16 1 Suecia 6.1 0.4 25.9 0.8 7.2 14.4 6.0 32.4 6.8
17 1 Suiza 7.7 0.2 37.8 0.8 9.5 17.5 5.3 15.4 5.7
18 2 Turqua 66.8 0.7 7.9 0.1 2.8 5.2 1.1 11.9 3.2
19 3 Bulgaria 23.6 1.9 32.3 0.6 7.9 8.0 0.7 18.2 6.7
20 3 Checa 16.5 2.9 35.5 1.2 8.7 9.2 0.9 17.9 7.0
21 3 Alemania Ori. 4.2 2.9 41.2 1.3 7.6 11.2 1.2 22.1 8.4
22 3 Hungra 21.7 3.1 29.6 1.9 8.2 9.4 0.9 17.2 8.0
23 3 Polonia 31.1 2.5 25.7 0.9 8.4 7.5 0.9 16.1 6.9
24 3 Rumania 34.7 2.1 30.1 0.6 8.7 5.9 1.3 11.7 5.0
25 3 Rusia 23.7 1.4 25.8 0.6 9.2 6.1 0.5 23.6 9.3
26 3 Yugoslavia 48.7 1.5 16.8 1.1 4.9 6.4 11.3 5.3 4.0
En este caso el nmero de variables cannicas es el mnimo entre el nmero
de variables (8) y el nmero de grupos menos uno (m 1= 2). Las variables
cannicas se obtienen a continuacin:
1 Cargar los datos a Minitab
2 .tat / Multiariate / Discriminant Analysis.
3 En 6roups, poner SalmonCri-in.
4 En 4redictors, poner $res9)ater Marine. Click #2.
Pg. 56
Discriminant Analysis, 6rupo ersus Agr3 Min3 ...
A#ter su"tracting group means,
Agr is ?ig?ly correlated (it? ot?er predictors,
Man is ?ig?ly correlated (it? ot?er predictors,
%ps is ?ig?ly correlated (it? ot?er predictors,
Linear Met?od #or 5esponseG >rupo
!redictorsG Agr, Min, Man, !s, &on, %er, Fin, %ps
>roup + $ .
&ount / / 2
%ummary o# classi#ication
True >roup
!ut into >roup + $ .
+ 2 + -
$ + 2 -
. - - 2
Total ' / / 2
' correct 2 2 2
!roportion -,22/ -,22/ +,---
' 4 $6 ' &orrect 4 $1 !roportion &orrect 4 -,/$.
%7uared Distance Eet(een >roups
+ $ .
+ -,---- /,1.62 1-,+.2*
$ /,1.62 -,---- $-,12.$
. 1-,+.2* $-,12.$ -,----
Linear Discriminant Function #or >roups
+ $ .
&onstant 6+++0+ 6+-2$+ 6+-602
Agr $$+ $+2 $+0
Min $21 $00 $0/
Man $++ $-2 $-0
!s .0+ .6/ .0+
&on $20 $2. $2$
%er $11 $./ $.6
Fin $-1 $-- +//
%ps $** $*+ $1/
Means #or >roup
Varia"le !ooled Mean + $ .
Agr +/,+.+ /,*.. $.,-11 $*,*$*
Min +,$*.2 +,-... -,***6 $,$20*
Man $0,--2 $0,+60 $1,*$$ $/,6$*
!s -,/-06/ -,/$$$$ -,0222/ +,-$*--
&on 2,+6*1 2,1660 2,-**6 0,/*--
%er +$,/*2 +0,-$$ +.,... 0,/6.
Pg. 57
Fin 1,---- *,-$$$ 1,*660 $,$+$*
%ps $-,-$. $1,*++ +2,6*6 +6,*+.
!ooled %tDev #or >roup
Varia"le %tDev + $ .
Agr +1,.0 6,12 $-,-+ +.,+*
Min -,661. -,/--- -,$02/ -,66--
Man 6,/6/ 1,20+ 2,.1. 0,$01
!s -,.022 -,$/-6 -,.2** -,1*$2
&on +,6// +,++0 $,.16 +,..-
%er $,01/ +,6.2 .,//0 +,26/
Fin $,6.- +,060 $,$+* .,62+
%ps 6,+12 1,*$1 0,661 *,2-.
!ooled &ovariance Matrix
Agr Min Man !s &on %er Fin %ps
Agr $-6,1**
Min 6+,10+ -,11+
Man 62-,22/ +,62. 12,*6/
!s 6$,*62 -,-20 -,22+ -,+1.
&on 6+.,+/+ -,-$/ 6,$6/ -,-1$ $,220
%er 6.+,+2+ -,..6 ++,06. -,*06 $,-06 0,***
Fin 6.,10/ 6-,1$1 6+,$+6 -,$$- 6-,+12 -,$20 6,/+6
%ps 6*/,1$/ 6-,012 /,6-0 -,1$1 +,-2$ 6,./0 6+,1.$
%ps .0,0/2
&ovariance matrix #or >roup +
Agr 1$,-*.
Min 6-,2-- -,2+-
Man 6+*,.*/ $,*$$ $.,0$0
!s 6-,-60 -,-1- 6-,-*2 -,-21
&on -,2*6 6-,+*6 6+,.06 6-,$-2 +,$12
%er 6-,006 -,.0$ 6-,2-/ -,-+$ -,/$- $,621
Fin 62,*.0 6-,.+$ 6-,$0$ -,-01 6-,$*1 6-,1.$ .,+$$
%ps 6+1,/1/ 6$,.*/ 62,-*$ -,+-- 6-,/$$ 6$,-*- *,/-6
%ps $-,166
&ovariance matrix #or >roup $
Agr 1--,$$2
Min +,..6 -,-02
Man 6+1-,6+1 6-,1*/ 6/,6-/
!s 6*,2-2 -,-$+ $,-/- -,+1/
&on 6.-,2+. -,-$* +*,$*6 -,1.0 *,*-*
%er 60+,.*0 6-,$22 $*,*$2 +,+1/ 1,/1* +*,/02
Fin 6.+,./$ -,-12 +$,26* -,1.2 .,2.- .,+0/ 1,/-2
%ps 6/2,2+- 6-,0.$ ++,*-1 +,+.+ 6-,00+ +6,-$/ 1,/2+
%ps *2,0.*
&ovariance matrix #or >roup .
Agr +0$,222
Min 6*,11* -,1.6
Man 620,*$* .,+0$ *$,/+1
!s 6+,0$$ -,$+2 -,*0$ -,$-*
&on 6/,+-6 -,$1* 1,0.1 6-,+$. +,06/
%er 6$-,-+. +,--/ +-,1-+ -,*6* -,++/ .,1/1
Fin .1,$-+ 6+,-/. 6+2,.2/ -,+.* 61,*01 6$,+/* +.,*10
Pg. 58
%ps 66*,$*6 +,-06 $0,6$+ 6-,-+. *,1/+ *,-1$ 6+0,+10
%ps ..,602
%ummary o# Misclassi#ied )"servations
True !red %7uared
)"servation >roup >roup >roup Distance !ro"a"ility
133 + $ + ++,.$6 -,-00
$ 6,.0. -,/$+
. +/,0/6 -,--+
+633 $ + + *,.*- -,/11
$ +-,/2/ -,-*6
. .*,010 -,---
&orrida con .4..
Discriminant
9arnings
Option ''SEPARATE'' means
classification using group
covariance matrices of the canonical
discriminant functions, not those of
the original variables. f there are
fewer functions than variables, that
makes a difference.
Analysis &ase 4rocessing .ummary
26 100.0
0 .0
0 .0
0 .0
0 .0
26 100.0
Unweighted Cases
Valid
Missing or out-of-range
group codes
At least one missing
discriminating variable
Both missing or
out-of-range group codes
and at least one missing
Total
Excluded
Total
N Percent
Pg. 59
6roup .tatistics
9.5929 5.3626 14 14.000
.8500 .7743 14 14.000
27.6214 5.0773 14 14.000
.9571 .2875 14 14.000
8.4214 1.0401 14 14.000
16.6786 1.5783 14 14.000
5.1143 1.4206 14 14.000
24.0786 5.3738 14 14.000
39.7250 19.6736 4 4.000
.6000 .2160 4 4.000
19.6250 9.0205 4 4.000
.5000 .2708 4 4.000
7.7000 3.6102 4 4.000
9.9250 3.4760 4 4.000
3.6750 3.2908 4 4.000
12.8500 2.5981 4 4.000
25.5250 13.1487 8 8.000
2.2875 .6600 8 8.000
29.6250 7.2742 8 8.000
1.0250 .4528 8 8.000
7.9500 1.3299 8 8.000
7.9625 1.8693 8 8.000
2.2125 3.6806 8 8.000
16.5125 5.8033 8 8.000
19.1308 15.5466 26 26.000
1.2538 .9700 26 26.000
27.0077 7.0078 26 26.000
.9077 .3762 26 26.000
8.1654 1.6456 26 26.000
12.9577 4.5753 26 26.000
4.0000 2.8066 26 26.000
20.0231 6.8295 26 26.000
AGR
MN
MAN
PS
CON
SER
FN
SPS
AGR
MN
MAN
PS
CON
SER
FN
SPS
AGR
MN
MAN
PS
CON
SER
FN
SPS
AGR
MN
MAN
PS
CON
SER
FN
SPS
GRUPO
1.00
2.00
3.00
Total
Mean Std. Deviation Unweighted Weighted
Valid N (listwise)
Analysis 1
.ummary of &anonical Discriminant 0unctions
'igenalues
11.347
a
92.1 92.1 .959
.977
a
7.9 100.0 .703
Function
1
2
Eigenvalue % of Variance Cumulative %
Canonical
Correlation
First 2 canonical discriminant functions were used in the
analysis.
a.
Pg. 60
9ilJsK )am(da
.041 62.301 16 .000
.506 13.290 7 .065
Test of Function(s)
1 through 2
2
Wilks'
Lambda Chi-square df Sig.
.tandardi!ed &anonical Discriminant 0unction &oefficients
3.690 .555
-.197 .551
2.038 .736
-.039 .357
.237 -.010
1.900 .025
1.047 .357
2.205 .970
AGR
MN
MAN
PS
CON
SER
FN
SPS
1 2
Function
.tructure Matri7
.630* .339
.157* -.032
-.243 -.737*
-.265 .592*
-.001 .551*
-.017 .544*
.229 .505*
.045 .103*
SER
FN
AGR
MN
PS
MAN
SPS
CON
1 2
Function
Pooled within-groups correlations between discriminating
variables and standardized canonical discriminant functions
Variables ordered by absolute size of correlation within function.
Largest absolute correlation between each variable and
any discriminant function
*.
0unctions at 6roup &entroids
2.792 .264
-1.234 -2.150
-4.269 .613
GRUPO
1.00
2.00
3.00
1 2
Function
Unstandardized canonical discriminant
functions evaluated at group means
Pg. 61
6roup coariances of canonical discriminant functions
.867 -.168
-.168 .737
2.340 .242
.242 .726
.672 .209
.209 1.605
Function
1
2
1
2
1
2
GRUPO
1.00
2.00
3.00
1 2
The pooled within-groups covariance matrix of the canonical
discriminant functions is an identity matrix by definition.
-o7Ks +est of '?uality of &oariance Matrices of &anonical
Discriminant 0unctions
)og Determinants
2 -.492
2 .495
2 .035
2 .000
GRUPO
1.00
2.00
3.00
(identity matrix)
Rank
Log
Determinant
The ranks and natural logarithms of determinants
printed are those of the group covariance matrices
of the canonical discriminant functions.
+est Results
4.673
.629
6
707.141
.707
Box's M
Approx.
df1
df2
Sig.
F
Tests null hypothesis of equal population covariance
matrices of canonical discriminant functions.
&lassification .tatistics
&lassification 4rocessing .ummary
26
0
0
26
Processed
Missing or out-of-range
group codes
At least one missing
Excluded
Used in Output
Pg. 62
4rior 4ro(a(ilities for 6roups
.538 14 14.000
.154 4 4.000
.308 8 8.000
1.000 26 26.000
GRUPO
1.00
2.00
3.00
Total
Prior Unweighted Weighted
Cases Used in Analysis
.eparate@6roups 6rap1s
Canonical Discriminant Functions
GRUPO = 1
Function 1
4.5 4.0 3.5 3.0 2.5 2.0 1.5 1.0
F
u
n
c
t
i
o
n

2
2.5
2.0
1.5
1.0
.5
0.0
-.5
-1.0
-1.5
Group Centroid
Group Centroid
1
GRUPO = 2
Function 1
1.0 .5 0.0 -.5 -1.0 -1.5 -2.0 -2.5
F
u
n
c
t
i
o
n

2
-1.0
-1.5
-2.0
-2.5
-3.0
-3.5
Group Centroid
Group Centroid
2
Pg. 63
GRUPO = 3
Function 1
-3.0 -3.5 -4.0 -4.5 -5.0 -5.5
F
u
n
c
t
i
o
n

2
3
2
1
0
-1
-2
Group Centroid
Group Centroid
3
Function 1
6 4 2 0 -2 -4 -6
F
u
n
c
t
i
o
n

2
3
2
1
0
-1
-2
-3
-4
GRUPO
Group Centroids
3
2
1
3
2
1
&lassification Results
a
14 0 0 14
0 4 0 4
0 0 8 8
100.0 .0 .0 100.0
.0 100.0 .0 100.0
.0 .0 100.0 100.0
GRUPO
1.00
2.00
3.00
1.00
2.00
3.00
Count
%
Original
1.00 2.00 3.00
Predicted Group Membership
Total
100.0% of original grouped cases correctly classified.
a.
Pg. 64

Territorial Map
&anonical Discriminant
Function $
66,- 61,- 6$,- ,- $,- 1,- 6,-

6,- .+
.+
.+
.+
.+
.+
1,- .+
.+
.+
.+
.+
.+
$,- .+
.+
..+
.$$$+
3 ..$ $+
.$$ $+ 3
,- ..$ $+
..$$ $+
.$$ $+
..$ $+
.$$ $+
..$ $+
6$,- .$$ 3 $+
..$ $+
.$$ $+
..$ $+
.$$ $+
..$ $+
61,- .$$ $+
..$ $+
$$ $+
$+
$+
$+
66,- $+

66,- 61,- 6$,- ,- $,- 1,- 6,-
&anonical Discriminant Function +
%ym"ols used in territorial map
%ym"ol >roup La"el
666666 66666 66666666666666666666
+ +
$ $
. .
3 @ndicates a group centroid
Function 1
6 4 2 0 -2 -4 -6
F
u
n
c
t
i
o
n

2
3
2
1
0
-1
-2
-3
-4
GRUPO
Group Centroids
3
2
1
3
2
1
Pg. 65
'%emplo,
Para regular la pesca de salmn, se desea identificar si el pescado es originario
de Alaska o de Canad. Cincuenta peces de cada lugar de origen fueron
capturados y pesados cuando vivan en agua dulce y cuando vivieron en agua
salada. El objetivo es el de poder identificar si los nuevos pescados vienen de
criaderos en Alaska o Canad. Los datos se muestran a continuacin:
SalmonOrigin Freshwater Marine SalmonOrigin Freshwater Marine
Alaska 108 368
CanadaCana
d 129 420
Alaska 131 355
CanadaCana
d 148 371
Alaska 105 469
CanadaCana
d 179 407
Alaska 86 506
CanadaCana
d 152 381
Alaska 99 402
CanadaCana
d 166 377
Alaska 87 423
CanadaCana
d 124 389
Alaska 94 440
CanadaCana
d 156 419
Alaska 117 489
CanadaCana
d 131 345
Alaska 79 432
CanadaCana
d 140 362
Alaska 99 403
CanadaCana
d 144 345
Alaska 114 428
CanadaCana
d 149 393
Alaska 123 372
CanadaCana
d 108 330
Alaska 123 372
CanadaCana
d 135 355
Alaska 109 420
CanadaCana
d 170 386
Alaska 112 394
CanadaCana
d 152 301
Alaska 104 407
CanadaCana
d 153 397
Alaska 111 422
CanadaCana
d 152 301
Alaska 126 423
CanadaCana
d 136 438
Alaska 105 434
CanadaCana
d 122 306
Alaska 119 474
CanadaCana
d 148 383
Alaska 114 396
CanadaCana
d 90 385
Alaska 100 470
CanadaCana
d 145 337
Alaska 84 399 CanadaCana 123 364
Pg. 66
d
Alaska 102 429
CanadaCana
d 145 376
Alaska 101 469
CanadaCana
d 115 354
Alaska 85 444
CanadaCana
d 134 383
Alaska 109 397
CanadaCana
d 117 355
Alaska 106 442
CanadaCana
d 126 345
Alaska 82 431
CanadaCana
d 118 379
Alaska 118 381
CanadaCana
d 120 369
Alaska 105 388
CanadaCana
d 153 403
Alaska 121 403
CanadaCana
d 150 354
Alaska 85 451
CanadaCana
d 154 390
Alaska 83 453
CanadaCana
d 155 349
Alaska 53 427
CanadaCana
d 109 325
Alaska 95 411
CanadaCana
d 117 344
Alaska 76 442
CanadaCana
d 128 400
Alaska 95 426
CanadaCana
d 144 403
Alaska 87 402
CanadaCana
d 163 370
Alaska 70 397
CanadaCana
d 145 355
Alaska 84 511
CanadaCana
d 133 375
Alaska 91 469
CanadaCana
d 128 383
Alaska 74 451
CanadaCana
d 123 349
Alaska 101 474
CanadaCana
d 144 373
Alaska 80 398
CanadaCana
d 140 388
Alaska 95 433
CanadaCana
d 150 339
Alaska 92 404
CanadaCana
d 124 341
Alaska 99 481
CanadaCana
d 125 346
Alaska 94 491
CanadaCana
d 153 352
Alaska 87 480
CanadaCana
d 108 339
Las intruccionesinstrucciones de Minitab son las siguientes:
Pg. 67
1 Abrir la worksheet EXH_MVAR.MTW.
2 .tat / Multiariate / Discriminant Analysis.
3 En 6roups, poner SalmonCri-in.
4 En 4redictors, poner $res9)ater Marine. Click #2.
Los resultados obtenidos se muestran a continuacin:
Discriminant Analysis, .almon#rigin ersus 0res1Aater3 Marine
Linear Met?od #or 5esponseG %almon)rigin
!redictorsG Fres?(ater, Marine
>roup Alaska &anada
&ount *- *-
True >roup
!ut into >roup Alaska &anada
Alaska 11 +
&anada&anadH 6 1/
Total ' *- *-
' correct 11 1/
!roportion -,22- -,/2-
' 4 +-- ' &orrect 4 /. !roportion &orrect 4 -,/.-
Alaska &anada
Alaska -,----- 2,$/+20
&anada 2,$/+20 -,-----
Alaska &anada
&onstant 6+--,62 6/*,+1
Fres?(ater -,.0 -,*-
Marine -,.2 -,..
%7uared
)"servation True >roup !red >roup >roup Distance !ro"a"ility
+33 Alaska &anada&anadH Alaska .,*11 -,1$2
&anada&anadH $,/6- -,*0$
$33 Alaska &anada&anadH Alaska 2,++.+ -,-+/
&anada&anadH -,$0$/ -,/2+
+$33 Alaska &anada&anadH Alaska 1,010- -,++2
&anada&anadH -,0$0- -,22$
+.33 Alaska &anada&anadH Alaska 1,010- -,++2
&anada&anadH -,0$0- -,22$
.-33 Alaska &anada&anadH Alaska .,$.- -,$2/
&anada&anadH +,1$/ -,0++
.$33 Alaska &anada&anadH Alaska $,$0+ -,161
&anada&anadH +,/2* -,*.6
0+33 &anada&anadH Alaska Alaska $,-1* -,/12
&anada&anadH 0,21/ -,-*$
5nterpretando los resultados
Pg. 68
El Anlisis Discriminante identific correctamente 93 de los 100 peces, a pesar
de que la probabilidad de clasificar correctamente un pez de Alaska fue menor
(44/50 o 88%) que la probabilidad de clasificar correctamente un pez de
Canad (49/50 o 98%). Para identificar el origen de un pez recientemente
capturado depende de cual valor discriminante sea mayor. Se puede correr el
anlisis discriminante de nuevo y predecir a que grupo pertenecen las nuevas
observaciones.
El resumen de las observaciones mal clasificadas muestra la distancia al
cuadrado desde el punto mal clasificado a los centroides del grupo (vectores
medios) y las probabilidades posteriores. Las observaciones son asignadas al
grupo con la mayor probabilidad posterior.
Si en #ptions introducimos en Predict membership for: 100 130, la
clasificacin aparece como:
!rediction #or Test )"servations
%7uared
)"servation !red >roup From >roup Distance !ro"a"ility
+ &anada&anadH
Alaska 02,112 -,---
&anada&anadH **,+/1 +,---
Pg. 69
El anlisis discriminante involucra establecer una "Variable (Variate),
combinacin lineal de dos o ms variables independientes que discriminarn
mejor entre grupos definidos a priori. Se logra al poner los pesos de la
"variable para cada variable de modo de maximizar la varianza entre grupos
respecto a la varianza dentro de los grupos. La ecuacin de la funcin
discriminante toma la forma de:
nk n k k jk
X W X W X W a Z + + + + = ....
2 2 1 1
Donde:
Zjk = Valor Z discriminante de la funcin discriminante J para el objeto K.
a = nterseccin en eje Y
Wi = Peso discriminante para la variable independiente i.
Xik = Variable independiente i para el objeto k.
La media de un grupo se denomina Centroide, que indica la localizacin tpica
de cualquier individuo dentro de un grupo en particular y una comparacin de
las centroides de los grupos muestra que tan alejados se encuentran en
relacin a la dimensin considerada.
A B A B
Representacin univariada de los valores Z de la funcin discriminante
Las reas sombreadas son la probabilidad de clasificar errneamente los objetos entre A y B
'%emplo con *A+&#,
4aso 1, #(%etios del anlisis discriminante
dentificar las percepciones de HATCO que difieren significativamente entre
empresas que utilizan los mtodos de compra: valor total de compra incluyendo
productos y servicios comprados y compra especificada donde se indican las
caractersticas deseadas del producto y del servicio.
Pg. 70
4aso 2. DiseLo de la inestigacin para el anlisis discriminante
La variable dependiente es categrica con dos grupos, las variables
independientes son X1 a X7 y X11 con los mtodos de compra de las
empresas.
LasLa muestra es de 100 observaciones que supera el mnimo de muestras a
variables de 5 a 1, siendo de 10.
Se toma una muestra de 40 observaciones para validar el modelo y se utilizan
60 observaciones para la estimacin.
4aso 3. .upuestos de la funcin discriminante
En la formacin de la Variate debe haber normalidad, linealidad, y
multicolinealidad y la estimacin de la funcin discriminante (matrices de
varianza y covarianza similares). Una prueba de igualdad de covarianza o
matrices de dispersin es la prueba M de Box.
4aso M. 'stimacin del modelo discriminante y ealuacin de a%uste
'%emplo con datos de *atco
El ejemplo siguiente utiliza las mismas variables que el anlisis discriminante
anterior para estimar el modelo.
Utilizando los datos de HATCO, la muestra de 100 clientes se divide en dos
grupos, uno de 60 para anlisis y otro de 40 para validacin. La regresin
logstica es ms robusta ante el supuesto de igualdad de varianza covarianza.
Para el ejemplo se utilizan las 7 variables X1 a X7 teniendo como respuesta a
X11.
nstrucciones en Minitab:
1. .tat / Multiariate / Discriminant Analysis.
2. En 6roups, poner X11.
Pg. 71
3 En 4redictors, poner X1 X7.
4. Click #2.

Discriminant Analysis, =11 ersus =13 =23 =33 =M3 =:3 =N3 =B
Linear Met?od #or 5esponseG B++
!redictorsG B+, B$, B., B1, B*, B6, B0
>roup - +
&ount $* .*
True >roup
!ut into >roup - +
- $1 $
+ + ..
Total ' $* .*
' correct $1 ..
!roportion -,/6- -,/1.
' 4 6- ' &orrect 4 *0 !roportion &orrect 4 -,/*-
- +
- -,---- +-,/2*0
+ +-,/2*0 -,----
- +
&onstant 6**,-/$ 660,*01
B+ +$,2+. +6,*./
B$ +$,.+. +1,6.2
B. 0,02- +-,+*2
B1 .,.$- .,6./
B* 6$+,/.. 6$6,201
B6 6$,.$6 6$,+*/
B0 1,.2/ $,6*0
True !red %7uared
)"servation >roup >roup >roup Distance !ro"a"ility
+.33 - + - 6,$.2 -,101
+ 6,-.$ -,*$6
+033 + - - 0,2/. -,/2-
+ +*,60. -,-$-
*633 + - - 1,0*. -,21+
+ 2,-02 -,+*/
Por medio de SPSS
1. Analize > Clasify > Discriminant
2. Grouping variable X11 (0:1) ndependent variables X1 X7
3. Statistics Univariate ANOVAs Box's M
4. OK
Los resultados se muestran a continuacin
+ests of '?uality of 6roup Means
Pg. 72

Wilks'
Lambda F df1 df2 Sig.
X1 .614 36.526 1 58 .000
X2
.716 22.953 1 58 .000
X3
.467 66.302 1 58 .000
X4
.997 .145 1 58 .704
X5
.993 .414 1 58 .523
X6
.991 .522 1 58 .473
X7
.528 51.951 1 58 .000
Como se puede observar son significativos X1, X2, X3 y X7.
La funcin discriminante es la siguiente:

Function
1
X1 1.152
X2
.749
X3
.668
X4
.111
X5
-1.153
X6
.042
X7
-.626
La matriz estructural es la siguiente:
.tructure Matri7

Function
1
X3 .643
X7
-.569
X1
.477
X2
-.379
X6
.057
X5
.051
X4
.030
Pooled within-groups correlations between discriminating variables and standardized canonical
discriminant functions Variables ordered by absolute size of correlation within function.
Medias de grupos (centroides) de las funciones cannicas discriminantes:
X11
Function
1
.00 -1.933
1.00
1.381
Unstandardized canonical discriminant functions evaluated at group means
Pg. 73
Z=0
N=24 N=33
Zo=-1.933 Z1=1.063
Grfica de los centroides de grupos
4aso :. $alidacin del modelo
Con los 40 datos restantes se repite la corrida y se observa que los resultados
concuerden:
Pg. 74
+ests of '?uality of 6roup Means

Wilks'
Lambda F df1 df2 Sig.
X1 .546 31.628 1 38 .000
X2
.934 2.676 1 38 .110
X3
.789 10.185 1 38 .003
X4
.969 1.205 1 38 .279
X5
.798 9.611 1 38 .004
X6
.997 .105 1 38 .748
X7
.535 33.043 1 38 .000
)og Determinants
X11 Rank
Log
DeterminantDe
terminan
.00 7 -9.872
1.00
7 -6.987
Pooled within-groups
7 -6.367
The ranks and natural logarithms of determinants printed are those of the group covariance matrices.
+est Results
Box's M 63.963
F Approx.
1.776
df1
28
df2
3061.289
Sig.
.007
Tests null hypothesis of equal population covariance matrices.

Function
1
X1 1.932
X2
1.525
X3
.294
X4
-.621
X5
-1.698
X6
.934
X7
-.783
.tructure Matri7

Function
1
X7 -.644
X1
.630
X3
.358
X5
.347
X2
-.183
X4
-.123
X6
-.036
Pg. 75
Pooled within-groups correlations between discriminating variables and standardized canonical
discriminant functions Variables ordered by absolute size of correlation within function.
X11
Function
1
.00 -1.822
1.00
1.093
Unstandardized canonical discriminant functions evaluated at group means
4rior 4ro(a(ilities for 6roups
.500 15 15.000
.500 25 25.000
1.000 40 40.000
X11
.00
1.00
Total
Prior Unweighted Weighted
Cases Used in Analysis
-2 -1 0 1 2 3 4
0
1
2
3
4
5
Mean = 1.09
Std. Dev. = 1.142
N = 25
=11 G 1
&anonical Discriminant 0unction 1
-3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0
0
1
2
3
4
5
Mean = -1.82
Std. Dev. = 0.692
N = 15
=11 G O
&anonical Discriminant 0unction 1
&lassification Results(a)
X11
Predicted Group
Membership
Total .00 1.00
Original Count .00 15 0 15
1.00
3 22 25
% .00
100.0 .0 100.0
1.00
12.0 88.0 100.0
a 92.5% of original grouped cases correctly classified.
Pg. 76
Regresin )ogPstica
Una de las ventajas de la regresin logstica versus el anlisis discriminante es
que es menos afectada por las diferencias en varianzas / covarianzas entre los
grupos, que es una premisa del anlisis discriminante. Otra ventaja es que la
regresin logstica puede manejar variables independientes categricas
fcilmente, mientras que en el anlisis discriminante el uso de variables de
apoyo crea problemas con la igualdad de varianza / covarianza. Finalmente la
regresin logstica es similar a la regresin mltiple en trminos de su
interpretacin e interpretacin incluyendo los residuos.
'%emplo,
Un investigador est interesado en comprender el efecto de fumar y el peso en
el pulso en reposo, como esta ltima variable dependiente es categrica (bajo,
alto) el anlisis de regresin logstica es adecuado.
You are a researcher who is interested in understanding the effect of smoking
and weight upon resting pulse rate. Because you have categorized the
response-pulse rate-
into low and high, a binary logistic regression analysis is appropriate to
investigate the effects of smoking and weight upon pulse rate.
Se tiene inters en comprender el efecto de fumar y el peso sobre el pulso (alto
y bajo).
Los datos utilizados son los siguientes:
Resting4ulse .moJes
9eig1
t Resting4ulse .moJes
9eig1
t Resting4ulse .moJes 9eig1t
Low No 140 Low No 215 Low No 115
Low No 145 Low Yes 150 Low No 102
Low Yes 160 Low Yes 145 Low No 115
Low Yes 190 Low No 155 Low No 150
Low No 165 Low No 150 High No 116
High No 150 Low Yes 155 Low Yes 108
Low No 195 High Yes 180 High Yes 125
High Yes 160 Low No 135 Low No 110
High Yes 153 Low Yes 130 Low No 108
Pg. 77
Low Yes 175 High No 155 Low No 120
Low Yes 180 High Yes 140 Low No 125
Low No 135 Low Yes 190 High Yes 135
Low No 170 High No 145 Low No 125
Low No 157 High Yes 150 High No 118
Low No 130 Low Yes 164 High Yes 150
Low Yes 185 Low No 140 Low Yes 112
High No 140 Low No 142 Low No 125
Low No 120 High No 136 Low No 190
High No 138 Low No 155 Low Yes 170
High Yes 121 High No 130 Low No 145
Low No 125 Low No 120 High Yes 131
High No 116 Low No 130
Las instrucciones de Minitab para el ejemplo son:
1. Open worksheet EXH_REGR.MTW.
2. Seleccionar Stat > Regression > Binary Logistic Regression.
3. En Response, poner RestingPulse. En Model, poner Smokes Weight. En
Factors (optional), poner Smokes (para predictors categricos).
4. Click Graphs. Seleccionar Delta chi-square vs probability and Delta chi-
square vs leverage. Click OK.
5. Click Results. Seleccionar n addition, list of factor level values, tests for
terms with more than 1 degree of freedom, and y 2 additional goodness-of-fit
tests.
6. Click OK en cada cuadro de dilogo.
Results for, '718regr.M+9
-inary )ogistic Regression, Resting4ulse ersus .moJes3 9eig1t
Link FunctionG Logit
Observaciones que caen dentro de cada categora
Response Information Varia"le Value &ount
5esting! Lo( 0- 9Event; -> Evento de referencia
=ig? $$
Total /$
Factor Information
Factor Levels Values
Pg. 78
%mokes $ 'o Aes
Logistic Regression Table
)dds /*8 &@
!redictor &oe# %E &oe# I ! 5atio Lo(er Cpper
&onstant 6+,/20 +,60/ 6+,+2 -,$.0
%mokes
Aes 6+,+/.- -,**.- 6$,+6 -,-.+ -,.- -,+- -,/-
eig?t -,-$*-$ -,-+$$6 $,-1 -,-1+ +,-. +,-- +,-*
Por ser su P value menor a 0.05 son significativos Smoke y Weight
El coeficiente de -1.93 para Smoke representa el cambio estimado en el log de
P(low pulse)/P(high pulse) cuando el sujeto fuma comparado a cuando no
fuma, con el covariado Weight (peso) mantenido constante.
El coeficiente de 0.0250 para Weight (peso) es el cambio estimado en el log de
P(low pulse)/P(high pulse) con una unidad (lb.) de incremento en peso con el
factor Fumar constante.
A pesar de que hay evidencia de el parmetro de peso Weight no es cero, la
tasa de exceso es muy cercana a uno (1.03), indicando que un incremento de
peso de una libra tiene un efecto menor en la tasa de pulso en reposo de la
persona. Una diferencia ms significativa se puede encontrar si se comparan
sujetos con una diferencia de peso mayor, por ejemplo 10 libras, la tasa cambia
a 1.28 (1.03 + 0.025*10), indicando que el puso de un sujeto con pulso bajo se
incrementa 1.28 veces con cada 10 libras de incremento de peso.
Para Smokes, el coeficiente negativo de -1.93 y la tasa de exceso de 0.30
indica que los sujetos que fuman tienden a tener una mayor tasa de pulso en
reposo (resting pulse rate) que los sujetos que no fuman. Dados sujetos con el
mismo peso, la tasa de exceso puede ser interpretada como el exceso de
fumadores en la misma muestra teineido un pulso bajo (low pulse) de 30% de
los no fumadores teniendo un pulso bajo (low pulse).
Log6Likeli?ood 4 616,2$-
Test t?at all slopes are DeroG > 4 0,*01, DF 4 $, !6Value 4 -,-$.
El estadstico G prueba la hiptesis nula de que los coeficientes asociados con
los predoctores son iguales a cero versus que esos coeficientes no todos son
Pg. 79
cero. En es ejemplo con G = 7.574 y P value = 0.023, indican que hay
suficiente evidencia que al menos uno de los coeficientes es diferente de cero.
>oodness6o#6Fit Tests
Met?od &?i6%7uare DF !
!earson 1-,212 10 -,0$1
Deviance *+,$-+ 10 -,.+$
=osmer6Lemes?o( 1,01* 2 -,021
Ero(nG
>eneral Alternative -,/-* $ -,6.6
%ymmetric Alternative -,16. + -,1/6
Estas pruebas de bondad de ajuste con P values de 0.312 a 0.724 indican que
no hay evidencia suficiente que indique que el modelo no ajuste a los datos
adecuadamente, considerando un nivel de significancia de 0.05.
Ta"le o# )"served and Expected Fre7uenciesG
9%ee =osmer6Lemes?o( Test #or t?e !earson &?i6%7uare %tatistic;
>roup
Value + $ . 1 * 6 0 2 / +- Total
Lo(
)"s 1 6 6 2 2 6 2 +$ +- $ 0-
Exp 1,1 6,1 6,. 6,6 6,/ 0,$ 2,. +$,/ /,+ +,/
=ig?
)"s * 1 . + + . $ . - - $$
Exp 1,6 .,6 $,0 $,1 $,+ +,2 +,0 $,+ -,/ -,+
Total / +- / / / / +- +* +- $ /$
Esta tabla permit e ver que tan bien ajusta el modelo a los datos, comparando
las frecuencias observadas y las frecuencias esperadas, siendo similares indica
que no hay evidencia suficiente de que los datos no ajusten bien al modelo,
soportado por las pruebas de bondad de ajuste para un nivel de significancia
de 0.05.
Measures o# AssociationG
9Eet(een t?e 5esponse Varia"le and !redicted !ro"a"ilities;
!airs 'um"er !ercent %ummary Measures
&oncordant +-1* 60,/8 %omers< D -,.2
Discordant 16+ $/,/8 >oodman6Jruskal >amma -,./
Ties .1 $,$8 Jendall<s Tau6a -,+1
Total +*1- +--,-8
Esta tabla muestra 1540 pares (70 individuos con un low pulse y 22 con high
pulse resultando en 70*22 = 1540) con valores de respuesta diferentes. Con
base en el modelo un par es concordante si el individuo con una tasa de pulso
baja (low pulse rate) tiene una ms alta probabilidad de tener pulso bajo,
discrepante de si sucede lo contrario, y empate si las probabilidades son
iguales. En este ejemplo el 67.9% de los pares son concordantes y 29% son
Pg. 80
discrepantes. Se pueden usar estos valores como una medicin comparativa
de prediccin, por ejemplo para comparar ajustes con diferentes conjuntos de
predictores o con funciones diferentes de enlace.
Se muestran resumenes de pares concordantes y discrepantes de Somers,
Goodman-Kriskal Gamma, y Tau de Kendall. Las mtricas se encuentran entre
0 y 1 donde los valores mayores indican que el modelo tiene una mejor
habilidad predictiva. En este ejemplo el rango va de 0.14 a 0.39 que implica
una baja capacidad predictiva.
Pg. 81
1.0 0.9 0.8 0.7 0.6 0.5 0.4
5
4
3
2
1
0
Probability
D
e
l
t
a

C
h
i
-
S
q
u
a
r
e
Delta Chi-Square versus Probability
0.16 0.11 0.06 0.01
5
4
3
2
1
0
Leverage
D
e
l
t
a

C
h
i
-
S
q
u
a
r
e
Delta Chi-Square versus Leverage
Las grficas del ejemplo de Chi cuadrada versus probabilidad y versus
apalancamiento muestran que hay dos puntos que se desvan ms all del
lmite sugerido de 3.84, indicando situaciones anormales que deben ser
investigadas.
Con la opcin Editor > Brush se puede observar que corresponden a los
valores de datos 31 y 66, correspondientes a individuos con un pulso alto, que
no fuman, y que tienen pesos menores al promedio (116 y 136 libras).
Pg. 82
El ejemplo siguiente utiliza las mismas variables que el anlisis discriminante
anterior para estimar el modelo.
Utilizando los datos de HATCO, la muestra de 100 clientes se divide en dos
grupos, uno de 60 para anlisis y otro de 40 para validacin. La regresin
logstica es ms robusta ante el supuesto de igualdad de varianza covarianza.
Para el ejemplo se utilizan las 7 variables X1 a X7 teniendo como respuesta a
X11.
Pg. 83
7. A,/lii $e Co,!lomera$o
Pg. 84
Q. A";)5.5. D' &#"6)#M'RAD#.
Se cuenta tambin con el anlisis de conglomerados o clusters (tcnica para
agruparAgrupar los casos o elementos de una muestra en grupos con base en
una o
msMs variables).
Usar Anlisis de componentes principales para ayudar a comprender la
estructura de datos y/o a formar un pequeo nmero de variables no
correlacionadas (por ejemplo para evitar multicolinealidad en la regresin).
El anlisis de conglomerados agrupa individuos u objetos dentro de
conglomerados ("Clusters) de modo que los objetos en el mismo grupo tienen
caractersticas ms similares que las que tienen versus otros grupos.
El "Cluster Variate es el conjunto de variables representando las
caractersticas utilizadas para comparar objetos en el anlisis de
conglomerados. Es decir determina el "carcter de los objetos. Es la nica
tcnica multivariada que no estima la "variate empricamente sino que se
especifica por el investigador.
"Variate es la combinacin lineal de variables formadas en la tcnica
multivariada al determinar empricamente ponderaciones aplicadas al conjunto
de variables especificadas por el investigador.
El anlisis de conglomerados tambin se ha denominado 8nlisis D3
0onstruccin de tipolo-a3 8nlisis de clasificacin3 y taxonoma numrica7 Esto
debido al uso de estas tcnicas en diversas reas como la sicologa, biologa,
sociologa, economa, ingeniera, y los negocios. El anlisis de conglomerados
es parecido al anlisis factorial en su propsito de evaluar la estructura. Pero el
anlisis de conglomerados difiere del anlisis factorial en que agrupa objetos,
mientras que el anlisis factorial se enfoca principalmente a agrupar variables.
Pg. 85
El anlisis de conglomerados puede hacer reducciones de datos colectados de
cuestionarios en una poblacin, a informacin relacionada con pequeos
subgrupos especficos. No tiene bases estadsticas sobre las que se puedan
realizar inferencias estadsticas de una muestra a una poblacin, su uso es
principalmente como tcnica exploratoria. Las soluciones no son nicas y se
pueden obtener diversas soluciones variando uno o ms elementos del
procedimiento.
A. &onglomerados de o(seraciones
Usar conglomerados de observaciones para clasificar observaciones en
grupos, cuando inicialmente los grupos son desconocidos.
Este procedimiento utiliza un mtodo jerrquico aglomerativo que inicia con
todas las observaciones separadas, cada una formando su propio
conglomerado. Como primer paso, las dos observaciones ms cercanas se
unen. En un siguiente paso, ya sea que se adicione una tercera observacin a
las primeras dos, o dos observaciones diferentes se unan en un conglomerado
(cluster) diferente. Este proceso contina hasta que todos los conglomerados
se han unido en uno, sin embargo este ltimo no es til para propsitos de
clasificacin.
R&mo funciona el anlisis de conglomeradosS
Se ilustra con un ejemplo con datos dbivariados.
Suponer que un estudio de mercado trata de determinar segmentos de
mercado en base a los patrones de lealtad de marcas (V1) y tiendas (V2),
medidas del 0 al 10 en 7 personas (A-G).
Variables V1 V2
A 3 2
B 4 5
C 4 7
D 2 7
E 6 6
Pg. 86
F 7 7
G 6 4
Variables A B C D E F G
V1 3 4 4 2 6 7 6
V2 2 5 7 7 6 7 4
$1
$
2
7 6 5 4 3 2
7
6
5
4
3
2
G
F
E
D C
B
A
.catterplot of $2 s $1
Para acomodar en grupos se necesita contestar:
Cmo se mide la similaridad?, se puede hacer por correlacin o
proximidad en un espacio de dos dimensiones.
Cmo se forman los conglomerados?
Cuntos grupos se formarn?
'%emplo 1,
Para medir la similitud se evala con la distancia euclidiana (lnea recta) entre
cada par de observaciones (ver Tabla), entendiendo que las distancias
pequeas indican similaridad, E y F son las ms similares (1.414) y la A y F las
ms diferentes (6.403).
Observ. A B C D E F G
A
Pg. 87
Distancia
euclidiana de A a
B
B 3.162
C 5.099 2.000
D 5.099 2.828 2.000
E 5.000 2.236 2.236 4.123
F 6.403 3.606 3.000 5.000 1.414
G 3.606 2.236 3.606 5.000 2.000 3.162
Formamos conglomerados ahora con un rocedimiento jerrquico
movindose paso a paso para formar un rango completo de soluciones.
Tambin se denomina M!todo Aglomerativo dado que los conglomerados se
forman con la combinacin de conglomerados existentes.
La distancia entre observaciones es:
Distancia
Mnima entre
observa-ciones
Solucin por
conglomerados
Paso Distancia
Mnima entre
observaciones
Par
observado
Miembros en el
conglomerado
Nm.
Deo.
de
Conglo
merado
.
Dist.ancia
Prom.edio
Ddentro del
Conglomerado.
Sol. inicial A, B,C,D,E,F,G 7 0
1 1.414 E-F A, B,C,D,E-F,G 6 1.414
2 2.000 E-G A, B,C,D,E-F-G 5 2.192
3 2.000 C-D A, B,C-D,E-F-G 4 2.144
4 2.000 B-C A, B-C-D,E-F-G 3 2.234
5 2.236 B-E A,B-C-D-E-F-G 2 2.896
6 3.162 A==B A-B-C-D-E-F-G 1 3.420
Utilizando Minitab:
Stat > Multivariate Anlisis > Cluster Observations
Distance Measured %uclidean Seleccionar Show Dendogram OK
Pg. 88
#(serat ions
.
i
m
i
l
a
r
i
t
y
G F E D C B A
50.61
67.08
83.54
100.00
4roceso de %erar?uPa de conglomerados
#(serat ions
D
i
s
t
a
n
c
e
7 6 5 4 3 2 1
3.16
2.11
1.05
0.00
Dendrogram Ait1 .ingle )inJage and 'uclidean Distance

La similaridad sEi<F entre dos conglomerados i3 < se determina como:
) / ) ( 1 ( 100 ) (
max
d ij d ij s =
Pg. 89
Donde Dmax = 6.403
S(E,F) = 100(1 1.4142/ 6.403 ) = 77.913
S(C,D) = 100(1 2/6.403) = 68.7646
&luster Analysis of #(serations, $13 $2
Euclidean Distance, %ingle Linkage
Amalgamation %teps
'um"er
'um"er o# o"s,
o# %imilarity Distance &lusters 'e( in ne(
%tep clusters level level :oined cluster cluster
+ 6 00,/+.0 +,1+1$+ * 6 * $
$ * 62,06*$ $,----- * 0 * .
. 1 62,06*$ $,----- . 1 . $
1 . 62,06*$ $,----- $ . $ .
* $ 6*,-02* $,$.6-0 $ * $ 6
6 + *-,6+.* .,+6$$2 + $ + 0
Final !artition
'um"er o# clustersG +
it?in Average Maximum
cluster distance distance
'um"er o# sum o# #rom #rom
o"servations s7uares centroid centroid
&luster+ 0 1+,1$26 $,$.+20 .,00+*1
'%emplo 2,
Se registran las siguientes caractersticas para 14 censos: Poblacin total
(Pop), mediana de aos escolares (School), empleo total (Employ),empleo en
servicios de salud (Health), y valor mediano del valor de la casa (Home). Los
datos se muestran a continuacin:
Pop School Employ Health Home
5.935 14.2 2.265 2.27 2.91
1.523 13.1 0.597 0.75 2.62
2.599 12.7 1.237 1.11 1.72
4.009 15.2 1.649 0.81 3.02
4.687 14.7 2.312 2.5 2.22
8.044 15.6 3.641 4.51 2.36
2.766 13.3 1.244 1.03 1.97
6.538 17 2.618 2.39 1.85
6.451 12.9 3.147 5.52 2.01
3.314 12.2 1.606 2.18 1.82
3.777 13 2.119 2.83 1.8
1.53 13.8 0.798 0.84 4.25
2.768 13.6 1.336 1.75 2.64
6.585 14.9 2.763 1.91 3.17
Pg. 90
Se realiza un anlisis de components principales para comprender la estructura
de datos subyacente. Se usa la matriz de correlacin para estandarizar las
mediciones dado que no se mide con la misma escala.
2 .tat / Multiariate / 4rincipal &omponents.
3 En $aria(les, .op(1ome.
4 En +ype of Matri7, seleccionar &orrelation.
5 Click 6rap1s y seleccionar .cree plot.
6 Click #2 en cada cuadro de dilogo.
4rincipal &omponent Analysis, 4op3 .c1ool3 'mploy3 *ealt13 *ome
Eigenanalysis o# t?e &orrelation Matrix
Eigenvalue .,-$2/ +,$/++ -,*0$* -,-/*1 -,-+$+
!roportion -,6-6 -,$*2 -,++1 -,-+/ -,--$
&umulative -,6-6 -,261 -,/02 -,//2 +,---
Varia"le !&+ !&$ !&. !&1 !&*
!op 6-,**2 6-,+.+ -,--2 -,**+ 6-,6-6
%c?ool 6-,.+. 6-,6$/ 6-,*1/ 6-,1*. -,--0
Employ 6-,*62 6-,--1 -,++0 -,$62 -,06/
=ealt? 6-,120 -,.+- -,1** 6-,612 6-,$-+
=ome -,+01 6-,0-+ -,6/+ -,-+* -,-+1
&omponent "um(er
'
i
g
e
n
a
l
u
e
5 4 3 2 1
3.0
2.5
2.0
1.5
1.0
0.5
0.0
.cree 4lot of 4op3 ...3 *ome
Pg. 91
El primer componente principal tiene varianza (eigenvalor) 3.029 y acumula el
60.6% de la varianza total. Los coeficientes para el PC1 muestran como
calcular el nivel del componente principal.
PC1 = .558 Pop .313 School .568 Employ .487 !al"h # .174 om!
Notar que la interpretacin de los components principales es subjetiva, sin
embargo, frecuentemente surgen patrones obvios. Por ejemplo, se podra
pensar que el primer componente represente el efecto del tamao de la
poblacin total, el nivel de escolaridad, empleo y servicios de salud, dado que
los coeficientes de estos trminos tienen el mismo signo y no son cercanos a
cero.
El segundo componente tiene varianza 1.2911 y acumula el 25.8% de la
variabilidad de los datos. Se calcula de los datos originales usando los
coeficientes listados en PC2. Este componente podra ser pensado como nivel
de contraste de escolaridad y valor de la casa con salud y empleo de alguna
manera.
Juntos el primero y segundo componentes representan el 86.4% y 97%,
respectivamente, de la variabilidad total. As, la mayora de la estructura de
datos puede ser capturada en dos o tres dimensiones relevantes. Los
componentes remanentes solo tienen una menor proporcin de probabilidad y
no son importantes. La grfica Scree proporciona una visin grfica de lo
anterior.
'%emplo 32,
Con los datos de HATCO se utilizan las siete percepciones de clientes para
identificar segmentos de clientes.
4aso 1, #(%etios del anlisis de conglomerados
Pg. 92
El objetivo es segmentar objetos (clientes) en grupos con percepciones
similares (X1 a X7). Una vez identificados, se pueden aplicar diferentes
estrategias para para cada grupo.
X1 = Rapidez de entrega
X2 = Nivel de precio
X3 = Flexibilidad de precio
X4 = magen del fabricante
X5 = Servicio en general
X6 = magen de la fuerza de ventas
X7 = Calidad del producto
4aso 2. DiseLo del anlisis de conglomerados
Se identifica si no hay puntos aberrantes en los datos. Se selecciona la medida
de similaridad, en este caso la distancia euclidiana al cuadrado. Si se observa
multicolinealidad que afecte a las ponderaciones de las variables3 entonces se
puede utilizar la distancia de Mahalanobis (D2). La estandarizacin de variables
no es importante dado que tienen valores parecidos.
4aso 3. .upuestos en el anlisis de conglomerados
Para el anlisis se considera que los datos de la muestra representan a la
poblacin de clientes de HATCO. Queda pendiente el efecto de la
multicolinealidad en la ponderacin implcita de los resultados.
4aso M. 'sta(lecer conglomerados y ealuar el a%uste al modelo
Con Minitab:
1. Stat > Multivariate > Cluster observations
2. Variables or distance matrix X1 X7
3. Linkage method Ward (minimizea la distancia dentro de los
conglomerados)
4. Distance Measure Squared Euclidean
5. Seleccionar Show Dendogram
6. Customize Label Y axis with Distances
7. OK
Pg. 93
&luster Analysis of #(serations, =13 =23 =33 =M3 =:3 =N3 =B
%7uared Euclidean Distance, ard Linkage
Amalgamation %teps
'um"er
'um"er o# o"s,
+ // +--,--- -,--- +* $- +* $
$ /2 //,/20 -,-+- * 1$ * $
. /0 //,/20 -,-+- $1 $0 $1 $
1 /6 //,/0* -,-$- 10 6+ 10 $
* /* //,/1/ -,-1- +/ $2 +/ $
6 /1 //,/$1 -,-6- 60 /- 60 $
0 /. //,/+$ -,-0- .6 1+ .6 $
2 /$ //,/+$ -,-0- *+ 00 *+ $
/ /+ //,/+$ -,-0- +2 /$ +2 $
+- /- //,/+$ -,-0- .. 6$ .. $
++ 2/ //,201 -,+-- $* 11 $* $
+$ 22 //,201 -,+-- 2* 20 2* $
+. 20 //,201 -,+-- 1. 16 1. $
+1 26 //,2.6 -,+.- .2 6. .2 $
+* 2* //,0/2 -,+6- 6/ 2+ 6/ $
+6 21 //,06- -,+/- *- 0$ *- $
+0 2. //,06- -,+/- *6 /+ *6 $
+2 2$ //,06- -,+/- /1 /2 /1 $
+/ 2+ //,0$$ -,$$- + /* + $
$- 2- //,0$$ -,$$- +6 0. +6 $
$+ 0/ //,0$$ -,$$- 0* // 0* $
$$ 02 //,0$$ -,$$- .0 12 .0 $
$. 00 //,621 -,$*- ++ +-- ++ $
$1 06 //,616 -,$2- 1 2/ 1 $
$* 0* //,616 -,$2- 21 22 21 $
$6 01 //,616 -,$2- $. .$ $. $
$0 0. //,616 -,$2- $ 2. $ $
$2 0$ //,616 -,$2- $/ 02 $/ $
$/ 0+ //,616 -,$2- . 0+ . $
.- 0- //,*$- -,.2- +0 61 +0 $
.+ 6/ //,1*0 -,1.- 2 62 2 $
.$ 62 //,1*0 -,1.- +$ 06 +$ $
.. 60 //,..- -,*.- / 01 / $
.1 66 //,$60 -,*2- *$ 6- *$ $
.* 6* //,+*. -,60- +- .1 +- $
.6 61 //,++* -,0-- $6 */ $6 $
.0 6. /2,/./ -,21- 1/ /0 1/ $
.2 6$ /2,2+$ -,/1- 0 60 0 .
./ 6+ /2,626 +,-1- +. $+ +. $
1- 6- /2,60. +,-*- 1- *1 1- $
1+ */ /2,60. +,-*- 2$ /. 2$ $
1$ *2 /2,6*6 +,-6. +- .- +- .
1. *0 /2,612 +,-0- 66 2- 66 $
11 *6 /2,*/+ +,++* .6 21 .6 1
1* ** /2,..$ +,.$- 6 0- 6 $
16 *1 /0,/-$ +,66- 1* 26 1* $
10 *. /0,200 +,62- ./ /6 ./ $
12 *$ /0,06+ +,00$ +- *. +- 1
1/ *+ /0,.$+ $,+$- +. .* +. .
*- *- /6,.** $,22* *- 6/ *- 1
*+ 1/ /6,$-. .,--* 1- 1* 1- 1
*$ 12 /*,/26 .,+00 +1 .2 +1 .
*. 10 /*,2+2 .,.+- / *2 / .
*1 16 /*,**$ .,*$- $$ ** $$ $
** 1* /*,.$* .,0-- 6* 0/ 6* $
*6 11 /1,2$6 1,-/* +- .+ +- *
*0 1. /1,.-+ 1,*+- 6 *$ 6 1
*2 1$ /1,-*1 1,0-6 +- .0 +- 0
*/ 1+ /.,//6 1,0*+ +1 66 +1 *
6- 1- /.,02. 1,/$- +* +/ +* 1
6+ ./ /.,01* 1,/*- +6 $/ +6 1
Pg. 94
6$ .2 /.,*/1 *,-0- 1 0* 1 1
6. .0 /$,260 *,61* $* .. $* 1
61 .6 /$,.1+ 6,-6$ $* $6 $* 6
6* .* /+,6.. 6,6$$ +2 *- +2 6
66 .1 /-,0.$ 0,..* $. *6 $. 1
60 .. /-,*66 0,166 / +$ / *
62 .$ 2/,0/0 2,-0* ++ 2* ++ 1
6/ .+ 2/,6-0 2,$$* 2 .6 2 6
0- .- 22,6$+ /,--* + *+ + 1
0+ $/ 22,*.0 /,-0$ +. $$ +. *
0$ $2 20,2*/ /,6-2 1- /1 1- 6
0. $0 20,6$+ /,0/0 1 $1 1 6
01 $6 26,121 +-,6/0 . +- . /
0* $* 26,.2+ +-,002 +2 1. +2 2
06 $1 26,$+6 +-,/-/ 0 +* 0 0
00 $. 2*,+/* ++,0+0 +6 10 +6 6
02 $$ 2*,--+ ++,20- ./ 6* ./ 1
0/ $+ 2$,21+ +.,*2- . *0 . +-
2- $- 2$,**- +.,2+- / +1 / +-
2+ +/ 2+,+-1 +1,/*1 / 1/ / +$
2$ +2 00,212 +0,*.+ $ 1 $ 2
2. +0 06,//6 +2,$-* 2 +0 2 2
21 +6 60,*1+ $*,622 + $* + +-
2* +* 6*,02+ $0,-2+ $ 1- $ +1
26 +1 6+,$*0 .-,66+ 0 / 0 +/
20 +. 6-,002 .+,-1- ++ $. ++ 2
22 +$ *6,$-$ .1,66$ 6 2 6 +$
2/ ++ 1/,021 ./,01+ $ ./ $ +2
/- +- 1$,61- 1*,./* . 2$ . +$
/+ / 1-,.6$ 10,+/0 + +2 + +2
/$ 2 .6,+0+ *-,*+1 + +6 + $1
/. 0 $/,+-1 *6,+-0 6 ++ 6 $-
/1 6 +/,*/. 6.,6.1 * 0 * $+
/* * +0,/.- 61,/*- + +. + $/
/6 1 6+*,2$6 /+,66* $ 6 $ .2
/0 . 6/6,0-+ +**,66/ $ . $ *-
/2 $ 6+.*,61* +26,12/ + * + *-
// + 62./,202 01.,2$- + $ + +--
Final !artition
'um"er o# clustersG +
&luster+ +-- //6,.*$ .,-*+66 *,$0*-.
Pg. 95
#(serat ions
D
i
s
t
a
n
c
e
9
3
8
2
3
1
6
4
1
7
5
7
4
8
3
7
5
3
3
0
3
4
1
0
7
1 3
7
9
6
5
9
6
3
9
9
8
9
4
8
6
4
5
5
4
4
0
2
7
2
4
8
9 4
8
8
8
4
4
1
3
6
6
8 8
6
0
5
2
7
0 6
9
1
5
6
3
2
2
3
9
9
7
5
8
3 2
2
8
1
9
1
4
9
0
6
7 7
4
2 5
6
2
3
3
5
9
2
6
4
4
2
5
8
1
6
9
7
2
5
0
4
6
4
3
9
2
1
8
7
8
2
9
7
3
1
6
8
0
6
6
6
3
3
8
2
0
1
5
5
8
7
6
1
2
9
7
4
9
7
4 9
5
5
2
2
3
5
2
1
1
3
6
1
4
7
8
7
8
5
1
0
0
1
1
7
7
5
1
9
5 1
406.13
270.75
135.38
0.00
#(serat ions
D
i
s
t
a
n
c
e
9
3
8
2
3
1
6
4
1
7
5
7
4
8
3
7
5
3
3
0
3
4
1
0
7
1 3
7
9
6
5
9
6
3
9
9
8
9
4
8
6
4
5
5
4
4
0
2
7
2
4
8
9 4
8
8
8
4
4
1
3
6
6
8 8
6
0
5
2
7
0 6
9
1
5
6
3
2
2
3
9
9
7
5
8
3 2
2
8
1
9
1
4
9
0
6
7 7
4
2 5
6
2
3
3
5
9
2
6
4
4
2
5
8
1
6
9
7
2
5
0
4
6
4
3
9
2
1
8
7
8
2
9
7
3
1
6
8
0
6
6
6
3
3
8
2
0
1
5
5
8
7
6
1
2
9
7
4
9
7
4 9
5
5
2
2
3
5
2
1
1
3
6
1
4
7
8
7
8
5
1
0
0
1
1
7
7
5
1
9
5 1
406.13
270.75
135.38
0.00
Pg. 96
#(serat ions
D
i
s
t
a
n
c
e
9
3
8
2
3
1
6
4
1
7
5
7
4
8
3
7
5
3
3
0
3
4
1
0
7
1 3
7
9
6
5
9
6
3
9
9
8
9
4
8
6
4
5
5
4
4
0
2
7
2
4
8
9 4
8
8
8
4
4
1
3
6
6
8 8
6
0
5
2
7
0 6
9
1
5
6
3
2
2
3
9
9
7
5
8
3 2
406.13
270.75
135.38
0.00
#(serat ions
D
i
s
t
a
n
c
e
2
8
1
9
1
4
9
0
6
7 7
4
2 5
6
2
3
3
5
9
2
6
4
4
2
5
8
1
6
9
7
2
5
0
4
6
4
3
9
2
1
8
7
8
2
9
7
3
1
6
8
0
6
6
6
3
3
8
2
0
1
5
5
8
7
6
1
2
9
7
4
9
7
4 9
5
5
2
2
3
5
2
1
1
3
6
1
4
7
8
7
8
5
1
0
0
1
1
7
7
5
1
9
5 1
406.13
270.75
135.38
0.00
-. &onglomerado de o(seraciones por 2@Medias
Pg. 97
Esta opcin se utiliza de manera similar al conglomerado de observaciones,
para clasificar observaciones en grupos cuando no se conocen al inicio. Este
procedimiento utiliza la formacin de conglomerados no jerrquicos de
observaciones de acuerdo al algoritmo de MacQueen.
1
El algoritmo funciona
mejor cuando hay suficiente informacin disponible para hacer asignaciones
iniciales de conglomerados adecuadas.
El procedimiento de conglomerado por K medias inicia al agrupar
observaciones en un nmero de conglomerados predefinidos.
1. Se evala cada observacin, movindola al conglomerado ms cercano, que
es el que tiene la distancia euclidiana ms pequea entre la observacin y el
centroide del conglomerado.
2. Cuando cambia el conglomerado, al ganar o perder alguna observacin, se
recalcula el centroide del conglomerado.
3. El proceso se repite hasta que no haya ms observaciones a mover dentro
de un conglomerado diferente. De esta manera, todas las observaciones estn
en su conglomerado ms cercano. De modo diferente a la clasificacin
jerrquica, es posible que dos observaciones sean partidas en conglomerados
diferentes despus de que hayan reunido.
El procedimiento de K medias trabaja mejor cuando se proporcionan puntos de
arranque para los conglomerados adecuados, hay dos formas de hacerlo:
Especificando un nmero de conglomerados o
Proporcionando una columna de partici n inicial que contenga cdigos
de grupos.
Suponiendo que se sabe que la particin final consistir de tres grupos, y que
las observaciones 2, 5 y 9 pertenecen a esos grupos respectivamente. Para
proceder depende de si se especifica el nmero de conglomerados o se
proporciona una columna de particin.
1
$. %oh&'o& a&( ). *+ch!,& (1992). Applied Multivariate Statistical Methods , -h+,( E(+"+o&. P,!&"+c!
all.
Pg. 98
Si se especifica el nmero de conglomerados, los datos deben
acomodarse de manera que las observaciones 2, 5 y 9 se encuentren al
principio de la hoja de trabajo, y especificar 3 como nmero de
conglomerados (Number of clusters).
Si se especifica una columna inicial de particin, no es necesario

acomodar los datos. En la columna de particin inicial de la hoja de
trabajo, poner los nmeros de grupo 1, 2, y 3, para las observaciones 2,
5, y 9 respectivamente y cero para las otras observaciones.
La particin final depende en gran modo de la particin inicial utilizada, se
pueden intentar diferentes particiones.
'%emplo,
Se atrapan, anestesian, y miden ciento cuarenta y tres osos negros. Las
mediciones son altura y longitud de la cabeza (Lenght, Head L), peso total y
peso de la cabeza (Weight, Weight H.), dimensin del cuello y del cachete
(Neck G., Chest G.).
Se desea clasificar los 143 osos, como pequeos, de tamao medio, o
grandes. Se sabe que el segundo, setenta y ochoavo, y quincuagsimo (15)
oso de la muestra es tpico de esas categoras respectivas.
Se crea la columna de particin inicial con los tres osos semilla, designados
como: 1 = pequeo, 2= tamao medio y 3= grande y los remanentes osos
como cero (desconocidos) para indicar membresa inicial del conglomerado.
Despus se realiza un anlisis de conglomerado por K medias y se guardan las
membresas del conglomerado en cada columna denominada BearSize.
Los datos se muestran a continuacin:
No. *ead.) *ead.9 "ecJ.6 )engt1 &1est.6 9eig1t
-ear.i!
e No. *ead.) *ead.9 "ecJ.6 )engt1 &1est.6 9eig1t -ear.i!e
1 10 5 15 45 23 65 1 73 15.5 7 28 76.5 55 446 3
2 11 6.5 20 47.5 24 70 1 74 9 5 15 46 27 62 1
3 12 6 17 57 27 74 1 75 14.5 7 23 61.5 44 236 2
4 12.5 5 20.5 59.5 38 142 2 76 13.5 8.5 23 63.5 44 212 2
5 12 6 18 62 31 121 2 77 18.5 8.5 23.5 67.5 42 204 3
Pg. 99
6 11 5.5 16 53 26 80 1 78 15 7 26 65 40 224 2
7 12 5.5 17 56 30.5 108 1 79 10 4 15.5 48 26 60 1
8 16.5 9 28 67.5 45 344 3 80 10 5 15 41 26 64 1
9 16.5 9 27 78 49 371 3 81 13 7 21 59 34 146 2
10 15.5 8 31 72 54 416 3 82 15.5 6 20.5 60 35 152 2
11 16 8 32 77 52 432 3 83 15.5 9 29 79 50 400 3
12 17 10 31.5 72 49 348 3 84 13.5 7 24.5 62 41 248 2
13 15.5 7.5 32 75 54.5 476 3 85 14.5 6.5 26 70.5 41 278 3
14 17.5 8 32 75 55 478 3 86 15 7 26.5 69 46.5 297 3
15 15 9 33 75 49 386 3 87 16 9 31.5 75 47 350 3
16 15.5 6.5 22 62 35 166 2 88 11.5 5 17 53 30.5 114 1
17 13 7 21 70 41 220 2 89 11.5 5 15 52.5 28 76 1
18 15 6.5 28 78 45 334 3 90 11 4.5 13 46 23 48 1
19 15 7.5 26.5 73.5 41 262 3 91 12 6 19 57 34.5 148 2
20 13.5 8 27 68.5 49 360 3 92 13.5 5 17 58 29 114 1
21 15.5 7 29.3 76 53 416 3 93 13.5 5 17 58 29.5 116 1
22 13.5 7 20 64 38 204 2 94 12.5 7.5 19 60 34 158 2
23 12.5 6 18 58 31 144 2 95 14 6.5 21 63 35 198 2
24 12 8.3 18.5 60.3 32 122 2 96 12 5 19 58.5 33.5 114 1
25 16 9 29 73 44 332 3 97 13 6 17.5 61 33 135 2
26 9 4.5 13 37 19 34 1 98 13.5 5 17 58 29 130 1
27 12.5 4.5 10.5 63 32 140 1 99 12.5 6.5 18 60 30 130 2
28 14 5 21.5 67 37 180 2 100 13.5 6.5 22 64 36 190 2
29 11.5 5 17.5 52 29 105 1 101 14.5 6.5 21.5 64 37 180 2
30 13 8 21.5 59 33 166 2 102 12 6.5 18.5 55.5 27.5 110 1
31 13.5 7 24 64 39 204 2 103 13 6 19.5 61.5 31 140 2
32 14.5 7.5 26.5 66 40 250 3 104 13.5 6 20 63.5 33 144 2
33 9 4.5 12 36 19 26 1 105 13.5 6 20 64 35 160 2
34 13 6 19 59 30 120 2 106 13.5 6.5 22 66.5 35 184 2
35 13 6 19 59 30 114 2 107 11 5 15.5 48.5 25.5 79 1
36 13.5 6.5 23 66.5 38 210 2 108 14.5 6 22.5 67 40 216 2
37 16 9.5 30 72 48 436 3 109 15 8 26.5 71 42.5 302 3
38 12.5 5 19 57.5 32 125 1 110 12 6 19 53.5 32 122 1
39 12.5 6 19 57 34 152 2 111 17 9 29.5 70 45.5 322 3
40 12.5 6.5 19.5 61 36 176 2 112 15.5 8 27 70 47 308 3
41 13 5 20 61 33 132 2 113 15.5 8 20 63 33 154 2
42 13.5 5 18.5 57 35 180 2 114 12 6 18 66.5 34 146 2
43 13 5 17 54 28 90 1 115 13 5.5 19.5 64 35 162 2
44 13 5.5 20.5 57.8 34.5 140 2 116 17.5 8 30 83 49 396 3
45 10 4 13 40 23 40 1 117 13 5 18 55.5 30.5 122 1
46 16 6 24 63 42 220 2 118 13 5.5 19.5 55 32.5 126 2
47 10 4 13.5 43 23 46 1 119 13 6 20.5 57 34 146 2
48 11 5 15 45 25 60 1 120 13 5.5 19.5 61.5 37 156 2
49 13.5 6 22 66.5 34 154 2 121 12.5 6 19.5 58.5 32 142 2
50 13 5.5 17.5 60.5 31 116 2 122 10 4.5 10 43.5 24 29 1
51 13 6.5 21 60 34.5 182 2 123 16.5 8.5 29.5 69 49.5 348 3
52 14.5 5.5 20 61 34 150 2 124 17 8.5 30.5 79.5 48.5 368 3
53 14 6.5 26 65 39 180 2 125 12 5.5 18 54.5 32 116 1
54 13 6 20 63 35 172 2 126 13 6 19 59 34 130 2
55 13.5 6 21 59.5 32.5 150 2 127 14 7 21 66.5 37 160 2
56 11 4 16 50.5 28 90 1 128 13 6.5 20.5 60 36.5 154 2
57 9.5 4.5 16 40 26 65 1 129 16 7.5 28 73 45 316 3
58 13.5 6.5 28 64 48 356 3 130 13.5 5.5 19.5 61 35 158 2
59 14.5 6.5 26 65 48 316 3 131 12.5 5.5 19 56 32 120 1
Pg. 100
60 13.5 5.5 19 60.5 34 148 2 132 15.5 8 30.5 75 54 514 3
61 11.5 5.5 17.5 52.5 30 104 1 133 15.5 7.5 25.5 73.5 43 324 3
62 11 5 17 49 29 94 1 134 14.5 7 22 67.5 38 196 2
63 11.5 5 17 47 29.5 86 1 135 12.5 8.5 18 57.3 32.8 140 2
64 13 7 21 59 35 150 2 136 12 5 18 56 32.5 114 1
65 13.5 6 21 64 35 166 2 137 12 5.5 15 51 24 82 1
66 16.5 6.5 27 72 44.5 270 3 138 13 6 22 61 40 230 2
67 14 5.5 24 65 39 202 2 139 15.5 6 23 69 42.5 290 2
68 13.5 6.5 21.5 63 40 202 2 140 15.5 6 23 69 42.5 289 2
69 15.5 7 28 70.5 50 365 3 141 12 4 17.5 59 28.5 128 1
70 11.5 6 16.5 48 31 79 1 142 13.5 6 20 62 32.5 156 2
71 11.5 5 17 50.5 28 90 1 143 16.5 6.5 30 72 49 398 3
1 Open worksheet BEARS.MTW.
2 Para crear la columna de particin inicial, seleccionar &alc / MaJe
4atterned Data / .imple .et of "um(ers.
3 En .tore patterned data in, nombrar &nicial a la columna de
almacenamiento.
4 En 0rom first alue y 0rom last alue, poner G.
5 En )ist eac1 alue, poner AH*. Click #2.
6 r a la ventana de datos y poner A, ', y * en los renglones 2, 78 y 15
respectivamente en la columna &nicial.
7 Seleccionar .tat / Multiariate / &luster 2@Means.
8 En $aria(les, seleccionar K*ead.)K-9eig1t.
9 En .pecify 4artition (y, seleccionar 5nitial partition column e &nicial.
10 Seleccionar .tandardi!e aria(les.
11 Seleccionar .torage. en &luster mem(ers1ip column, seleccionar
;earSize.
12 Click #2 en cada uno de los cuadros de dilogo
%ession (indo( output
J6means &luster AnalysisG =ead,L, =ead,, 'eck,>, Lengt?,
&?est,>, eig?t
%tandardiDed Varia"les
Final !artition
Pg. 101
K medias clasifica a los 143 osos de la forma siguiente:
'um"er o# clustersG .
Number of sum of from from
observations squares centroid centroid
&luster+ 1+ 6.,-0* +,+$* $,122
&luster$ 60 02,/10 -,//0 $,-12
&luster. .* 6*,+1/ +,.++ $,11/
&luster &entroids
Grand
Variable Cluster1 Cluster2 Cluster centroid
=ead,L 6+,-60. -,-+$6 +,$$6+ 6-,----
=ead, 6-,//1. 6-,-+** +,+/1. -,----
'eck,> 6+,-$11 6-,+$/. +,1106 6-,----
Lengt? 6+,+.// -,-6+1 +,$+00 -,----
&?est,> 6+,-*0- 6-,-2+- +,./.$ 6-,----
eig?t 6-,/16- 6-,$-.. +,1/01 6-,----
!istances "et#een Cluster Centroids
Cluster1 Cluster2 Cluster
Cluster1 -,---- $,1$.. *,2-1*
Cluster2 $,1$.. -,---- .,1.22
Cluster *,2-1* .,1.22 -,----

En general, un conglomerado con una suma de cuadrados pequea es ms
compacto que otro con una suma ms grande. El centroide es el vector de
medias de variables de las observaciones en ese conglomerado y se usa como
el punto central del conglomerado
La columna BearSize contiene la designacin del conglomerado.
Pg. 102
'%emplo de *A+&#,
De Minitab con soluciones por grupos de Conglomerados:
1. Stat > Multivariate > Cluster K Means
3. Number of clusters 2 o 4
4. OK
"olucin por dos conglomerados
2@means &luster Analysis, =13 =23 =33 =M3 =:3 =N3 =B
Final !artition
'um"er o# clustersG $
&luster+ *$ .+*,0// $,.2. 1,$2*
&luster$ 12 $/1,+.$ $,.62 1,$0/
Cluster Centroids
>rand
Varia"le &luster+ &luster$ centroid
B+ 1,.2$0 $,*0*- .,*+*-
B$ +,*2-2 .,$+$* $,.61-
B. 2,26+* 6,21*2 0,2/1-
B1 1,/$*- *,*/0/ *,$12-
B* $,/*00 $,20-2 $,/+6-
B6 $,*$*- $,2+60 $,66*-
B0 *,/-.2 2,+$0+ 6,/0+-
Distances Eet(een &luster &entroids
&luster+ &luster$
&luster+ -,---- .,/.10
&luster$ .,/.10 -,----
En esta solucin se observa que en el grupo o cluster 1 versus cluster 2, X1 y
X3 son mayores.
En el caso de las variables X2, X4, X6 y X7 tienen valores ms altos en el
cluster 2 que en el cluster 1. X5 no muestra diferencia significativa. Por tanto se
sugieren dos segmentos, evaluados desde un punto de vista conceptual y
prctico.
Corriendo con SPSS se tiene:
1. Analyze > Clasify > K Jeans Clusters
Pg. 103
2. Variables X1 X7
3. Number of clusters 2
4. OK
A"#$A

Cluster Error
F Sig. Mean Square df Mean Square df
X1 81.563 1 .930 98 87.717 .000
X2
66.457 1 .766 98 86.753 .000
X3
101.414 1 .923 98 109.816 .000
X4
11.302 1 1.178 98 9.596 .003
X5
.188 1 .568 98 .331 .566
X6
2.123 1 .579 98 3.670 .058
X7
123.372 1 1.280 98 96.404 .000
The F tests should be used only for descriptive purposes because the clusters have been chosen to
maximize the differences among cases in different clusters. The observed significance levels are not
corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are
equal.
"olucin por cuatro conglomerados
2@means &luster Analysis, =13 =23 =33 =M3 =:3 =N3 =B
Final !artition
'um"er o# clustersG 1
&luster+ .1 +**,+$6 $,+-- $,/$$
&luster$ $/ +$.,6/. $,-+$ .,$++
&luster. +1 *1,$.1 +,2.. .,-*+
&luster1 $. +-/,/1+ $,-.+ .,/10
&luster &entroids
>rand
Varia"le &luster+ &luster$ &luster. &luster1 centroid
B+ 1,+11+ $,-$1+ .,6+1. 1,1-1. .,*+*-
B$ +,*0/1 $,06** 1,+$26 +,/1.* $,.61-
B. 2,*06* 0,-+-. *,/*-- /,+2$6 0,2/1-
B1 1,1+06 *,+6$+ 6,-61. 6,-20- *,$12-
B* $,2.*. $,.6** .,21$/ .,+6*$ $,/+6-
B6 $,-22$ $,***$ .,+61. .,.*$$ $,66*-
B0 *,.+10 2,$6/- 0,/*-- 0,+20- 6,/0+-
Distances Eet(een &luster &entroids
&luster+ &luster$ &luster. &luster1
&luster+ -,---- 1,$*+1 *,-*-1 $,/$62
&luster$ 1,$*+1 -,---- $,//60 .,02/6
&luster. *,-*-1 $,//60 -,---- 1,++1+
&luster1 $,/$62 .,02/6 1,++1+ -,----
El Cluster 3 es mucho ms compacto que el cluster 1, como se indica por la
suma de cuadrados.
Pg. 104
En este caso se muestra en forma ms clara un grupo de patrones con valores
altos y otro con valores bajos.
Corriendo con SPSS se tiene:
5. Analyze > Clasify > K Jeans Clusters
6. Variables X1 X7
7. Number of clusters 4
OK
A"#$A

Cluster Error
F Sig. Mean Square df Mean Square df
X1 37.108 3 .639 96 58.055 .000
X2
28.530 3 .583 96 48.960 .000
X3
37.115 3 .839 96 44.224 .000
X4
15.527 3 .835 96 18.598 .000
X5
7.487 3 .348 96 21.509 .000
X6
8.242 3 .355 96 23.204 .000
X7
53.222 3 .928 96 57.330 .000
The F tests should be used only for descriptive purposes because the clusters have been chosen to
maximize the differences among cases in different clusters. The observed significance levels are not
corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are
equal.
&. &onglomerados por aria(les
Usar conglomerados por variables para clasificar variables en grupos, cuando
son inicialmente desconocidos. Una razn puede ser reducir su nmero. Esta
tcnica puede dar nuevas variables que sean ms comprensibles que las que
proporciona el anlisis de componentes.
El procedimiento es jerrquico e inicia con todas las variables por separado,
cada una formando su propio conglomerado. En el primer paso, se unen las
dos variables ms cercanas. Despus, ya sea que una tercera variable se
agregue a las dos primeras, o se unan en un conglomerado diferente. El
proceso continua hasta que todos lo conglomerados se unen en uno.
Pg. 105
'%emplo,
Se realiza un estudio para determinar el efecto de largo plazo de un cambio en
el ambiente en la presin arterial. Los sujetos son 39 peruanos de alrededor de
21 aos que han migrado de las montaas de los Andes a ciudades ms
grandes con menor altura.
Se registra la edad (Age), aos desde la migracin (Years), peso en Kgs.
(Weight), estatura en mm (Height), mentn, antebrazo, y pierna en mm (Chin,
Forearm, Calf), pulso en latidos por minuto (Pulse), y presin sistlica y
diastlica (Systol, Diastol).
El objetivo es reducir el nmero de variables al combinar variables con
caractersticas similares. Se usa la distancia de correlacin, enlace promedio y
dendograma.
Los datos son los siguientes:
4eru.MtA
Age >ears 9eig1t *eig1t &1in 0orearm &alf 4ulse .ystol Diastol
21 1 71 1629 8 7 12.7 88 170 76
22 6 56.5 1569 3.3 5 8 64 120 60
24 5 56 1561 3.3 1.3 4.3 68 125 75
24 1 61 1619 3.7 3 4.3 52 148 120
25 1 65 1566 9 12.7 20.7 72 140 78
27 19 62 1639 3 3.3 5.7 72 106 72
28 5 53 1494 7.3 4.7 8 64 120 76
28 25 53 1568 3.7 4.3 0 80 108 62
31 6 65 1540 10.3 9 10 76 124 70
32 13 57 1530 5.7 4 6 60 134 64
33 13 66.5 1622 6 5.7 8.3 68 116 76
33 10 59.1 1486 6.7 5.3 10.3 72 114 74
34 15 64 1578 3.3 5.3 7 88 130 80
35 18 69.5 1645 9.3 5 7 60 118 68
Pg. 106
35 2 64 1648 3 3.7 6.7 60 138 78
36 12 56.5 1521 3.3 5 11.7 72 134 86
36 15 57 1547 3 3 6 84 120 70
37 16 55 1505 4.3 5 7 64 120 76
37 17 57 1473 6 5.3 11.7 72 114 80
38 10 58 1538 8.7 6 13 64 124 64
38 18 59.5 1513 5.3 4 7.7 80 114 66
38 11 61 1653 4 3.3 4 76 136 78
38 11 57 1566 3 3 3 60 126 72
39 21 57.5 1580 4 3 5 64 124 62
39 24 74 1647 7.3 6.3 15.7 64 128 84
39 14 72 1620 6.3 7.7 13.3 68 134 92
41 25 62.5 1637 6 5.3 8 76 112 80
41 32 68 1528 10 5 11.3 60 128 82
41 5 63.4 1647 5.3 4.3 13.7 76 134 92
42 12 68 1605 11 7 10.7 88 128 90
43 25 69 1625 5 3 6 72 140 72
43 26 73 1615 12 4 5.7 68 138 74
43 10 64 1640 5.7 3 7 60 118 66
44 19 65 1610 8 6.7 7.7 74 110 70
44 18 71 1572 3 4.7 4.3 72 142 84
45 10 60.2 1534 3 3 3.3 56 134 70
47 1 55 1536 3 3 4 64 116 54
50 43 70 1630 4 6 11.7 72 132 90
54 40 87 1542 11.3 11.7 11.3 92 152 88
1 Open worksheet PERU.MTW.
2 Choose .tat / Multiariate / &luster $aria(les.
3 n $aria(les or distance matri7, enter 8-e(iastol.
4 For )inJage Met1od, choose Aerage.
5 Check .1oA dendrogram. Click #2.
&luster Analysis of $aria(les, Age3 >ears3 9eig1t3 *eig1t3 &1in3 0orearm3 ...
&orrelation &oe##icient Distance, Average Linkage
Amalgamation %teps
En cada paso se unen dos conglomerados:
'um"er
'um"er o# o"s,
+ / 26,006. -,$61101 6 0 6 $
$ 2 0/,1+-6 -,1++020 + $ + $
. 0 02,210- -,1$.-*/ * 6 * .
1 6 06,-62$ -,1026.6 . / . $
* * 0+,01$$ -,*6*+*6 . +- . .
6 1 6*,*1*/ -,62/-2$ . * . 6
0 . 6+,../+ -,00.$+2 . 2 . 0
2 $ *6,*/*2 -,262-2* + . + /
/ + **,1./- -,2/+$$+ + 1 + +-
Pg. 107
$aria(les
.
i
m
i
l
a
r
i
t
y
Height Pulse Calf Forearm Chin Diastol Systol Weight Years Age
55.44
70.29
85.15
100.00
Dendrogram Ait1 Aerage )inJage and &orrelation &oefficient Distance

El dendograma muestra la informacin de los resultados del proceso de
aglomeracin en forma de diagrama de rbol, de aqu se sugiere que las
algunas variables son similares, y se pueden combinar ya sea promediando
sus valores o calculando totales:
Chin, Forearm, Calf son similares y pueden combinarse.
Age y Year son similares pero se investigar la relacin. Si los sujetos
tienden a migrar a cierta edad entonces las variables pueden contener
informacin similar y pueden combinarse.
El peso y las presiones son similares, sin embargo se decide mantener
el peso separado y unir las presiones en una.
'%emplo con *atco,
nvestigando ahora la agrupacin de variables se tiene:
En Minitab:
1. Stat > Multivariate > Cluster variables
Pg. 108
3. Linkage method Ward (minimizea la distancia dentro de los
conglomerados)
4. Distance Measure Correlation
5. Seleccionar Show Dendogram
6. Customize Label Y axis with Distances
7. OK
&luster Analysis of $aria(les, =13 =23 =33 =M3 =:3 =N3 =B
&orrelation &oe##icient Distance, ard Linkage
Amalgamation %teps
'um"er
'um"er o# o"s,
+ 6 2/,1++$ -,$++02 1 6 1 $
$ * 2-,*/*- -,.22+- + * + $
. 1 0.,120. -,*.-$* $ 0 $ $
1 . *0,2$22 -,21.1$ + . + .
* $ ./,11.1 +,$+++. $ 1 $ 1
6 + 61,..1$ $,-2662 + $ + 0
$aria(les
D
i
s
t
a
n
c
e
X6 X4 X7 X2 X3 X5 X1
2.09
1.39
0.70
0.00
Dendrogram Ait1 9ard )inJage and &orrelation &oefficient Distance
Se identifican conglomerados en las variables X1 y y X5; X2 y X7; X4 y X6,
despus entre X1, X5, X3 y X2, X7, X4 y X6 y al final un solo conglomerado.
Pg. 109
4aso :. 5nterpretacin de los conglomerados
Como resultado de un anlisis factorial se tiene:
nstrucciones en Minitab:
1. Stat > Multivariate > Factor analysis
2. Variables X1 X7 Method of Extraction Maximum likelihood
3. Rotation Varimax
4. Graphs Scree Plot y Loading Plot for first two factors
5. OK

0actor Analysis, =13 =23 =33 =M3 =:3 =N3 =B
Maximum Likeli?ood Factor Analysis o# t?e &orrelation Matrix
3 ')TE 3 =ey(ood case
Cnrotated Factor Loadings and &ommunalities
Varia"le Factor+ Factor$ &ommunality
B+ -,/6/ -,+00 -,/0+
B$ 6-,+2+ 6-,/21 +,---
B. -,1.6 -,1-- -,.*-
B1 -,+.. 6-,.-+ -,+-2
B* -,0*$ 6-,66- +,---
B6 -,+.. 6-,$+1 -,-6.
B0 6-,1$1 6-,1-- -,.1-
Variance +,/1.+ +,22/6 .,2.$0
8 Var -,$02 -,$0- -,*12
5otated Factor Loadings and &ommunalities
Varimax 5otation
B+ 6-,2/1 -,1+1 -,/0+
B$ -,0+1 -,0-- +,---
B. 6-,*20 6-,-0* -,.*-
B1 -,-6* -,.$. -,+-2
B* 6-,$.* -,/0$ +,---
B6 -,-+* -,$*+ -,-6.
B0 -,*00 -,-2$ -,.1-
Variance $,-162 +,02*/ .,2.$0
8 Var -,$/$ -,$** -,*12
Factor %core &oe##icients
Varia"le Factor+ Factor$
Pg. 110
B+ -,--- 6-,---
B$ +,+.$ -,$0.
B. -,--- 6-,---
B1 6-,--- 6-,---
B* 6-,2+* -,2.$
B6 6-,--- 6-,---
B0 6-,--- -,---
0irst 0act or
.
e
c
o
n
d

0
a
c
t
o
r
0.5 0.0 -0.5 -1.0
1.0
0.8
0.6
0.4
0.2
0.0
X7
X6
X5
X4
X3
X2
X1
)oading 4lot of =13 ...3 =B
Para las correlaciones en Minitab:
1. Stat > Basic statistics > Correlations
2. Variables X1 X7 Show P values
3. OK
&orrelations, =13 =23 =33 =M3 =:3 =N3 =B
B+ B$ B. B1 B* B6
B$ 6-,.1/
-,---
B. -,106 6-,10$
-,--- -,---
B1 -,-*- -,$0$ 6-,-/*
-,6+2 -,--6 -,.10
B* -,6+$ -,*+. -,-61 -,$//
-,--- -,--- -,*$1 -,--.
B6 -,-00 -,+26 6-,-+* -,022 -,$1+
-,116 -,-61 -,22- -,--- -,-+6
B0 6-,12. -,10- 6-,1-0 -,$-- 6-,-** -,+00
-,--- -,--- -,--- -,-16 -,*26 -,-02
&ell &ontentsG !earson correlation
!6Value
Pg. 111
Al definir los factores que son las dimensiones de las variables que se
correlacionan significativamente, se observan dos factores. El primer factor
contiene a X1, X2, X3 y X7 y el segundo factor contiene a los aspectos de
imagen X4 y X6. En el primer factor X2 y X7 se relacionan inversamente con
X1 y X3, es decir que mientras se incrementan unas, las otras bajan. Esto
sugiere que altos valores en X1 y X3 implican valores bajos en X2 y X7. O sea
que definir conglomerados slo con base en valores altos o bajos es
inapropiado.
De la tabla ANOVA para dos conglomerados se observa que solo X5 Servicio
general no es significativa.
0
1
2
3
4
5
6
7
8
9
10
X1 X2 X3 X4 X5 X6 X7
1
2
De la grfica de centros de conglomerados se observa que X4 y X6 tienen
valores mayores en el conglomerado 2 que en el 1 y X1, X3 tienen valores
mayores en el conglomerado 1 que en el 2 y X2 y X7 son menores.
Para el caso de 4 conglomerados, el 1 se divide en 1 y 4 y el 2 se divide en 2 y
3 se tiene:
Pg. 112
Cluster
0
2
4
6
8
10
12
X1 X2 X3 X4 X5 X6 X7
1
2
3
4
En general la aplicacin del anlisis de conglomerados es un arte ms que una
ciencia y se deben aplicar criterios objetivos y subjetivos adecuados.
Pg. 113
9. A(BLISIS DE COMPO(E(TES
PRI(CIPALES
Pg. 114
T. A";)5.5. D' &#M4#"'"+'. 4R5"&54A)'.
5ntroduccin
El objetivo del anlisis es tomar p variables X1, X2, .., Xp algunas de ellas
correlacionadas entre s y encontrar combinaciones de las mismas para
producir ndices Z1, Z2, ..., Zp que sean no correlacionadas. Z1 muestra la
mayor parte de la varianza, seguida de Z2, etc. Se trata de reducir el nmero
de variables X por un pequeo grupo de variables Z.
Un ejemplo clsico
2
es tratar de caracterizar criminales con base en siete
dimensiones corporales. Las dimensiones utilizadas fueron: longitud del dedo
izquierdo, longitud de la pierna izquierda, longitud del pie izquierdo, longitud de
la cabeza, ancho de la cabeza, ancho y alto de la cara.
Como resultados del anlisis
3
se determinaron tres componentes no
correlacionados de esas mediciones, en conjunto acumulaban el 84% de la
varianza total de las siete variables originales. Cada uno de los componentes
es una combinacin lineal de las siete variables originales.
El primero incluye el 54% de la varianza total y se refiere a las
dimensiones generales.
El segundo contiene el 25% de la varianza total representa el contraste
entre el tamao de la cabeza y y el resto del cuerpo.
El tercer tiene el 9% de la varianza y contrasta la longitud de la cabeza
con su ancho.
Los coeficientes se muestran a continuacin:
Coeficientes
$aria(les 4rimero .egundo +ercero
Long. Cabeza 0.538 -0.447 -0.712
Ancho cabeza 0.413 -0.784 0.206
Ancho cara 0.575 -0.628 0.309
Long. Dedo izq. 0.853 0.288 0.056
Long. Brazo izq. 0.888 0.339 0.030
Pie izquierdo 0.878 0.219 0.048
Estatura 0.849 0.220 0.005
2
.ax/!ll, 0.E., Multivariate Analsis in !ehavioral "esearch# Chapma& a&( all, 1o&(,!', 1977.
3
$%idem
Pg. 115
La posibilidad de caracterizar a los criminales con sus dimensiones motivo al
desarrollo de los anlisis multivariados.
'l mUtodo de componentes principales
Dada la matriz = que representa n observaciones en cada una de las p
variables, X1, X2, X3, .., Xp, el propsito del anlisis de componentes
principales consiste en determinar una nueva variable Z1 que pueda ser
utilizada para acumular la varianza de las p X variables. El componente
principal Z1 est dado por la combinacin lineal de las p X variables por:
p p
X v X v X v Z
1 2 21 1 11 1
..... + + + =
Para determinar los coeficientes de Z1 se usa el mtodo de mnimos
cuadrados, donde se trata de minimizar la suma de las desviaciones al
cuadrado de:

= =

p
j
n
i
ij ij
x x
1 1
2
) 2 (
Donde:
p j n i x
& a x
x v &
ij
i j ij
ij j i
,...., 2 , 1 3 ,...., 2 , 1
2
1 1
1 1
= =
=
=
Denota las observaciones en =.

En notacin matricial se trata de determinar los los vectores (p x1) 1 y a1,
donde !1 (n x 1) = =1 y = = !1a'1 tal que
)
2
( )'
2
( X X X X tr
sea minimizada.
Para la solucin de este problema se utilizan los valores caractersticos o
%i-envalores, dados por:
0 ) ' ( = v $ X X
Pg. 116
Como la magnitud de es arbitraria, I=1. Por tanto la solucin al problema
son los vectores caractersticos o eigenvalores <3 < # A3'3*3B73 s y los vectores
caractersticos correspondientes <, < # A3'3*3B73 s3 donde el nmero de
soluciones de s, corresponde al rango de (=I=).
Ejemplo:
Dada la matriz
=
2
2
3
0
2
3
4
2
15
0
2
15
6
A
Los valores caractersticos o Eigenvalores se obtienen al resolver la ecuacin
del determinante: | A - 5 | = 0, lo cual da en este caso:
0
) 2 (
2
3
0
2
3
) 4 (
2
15
0
2
15
) 6 (
=
El polinomio resultante es:

0 ) 2 (
2
15
) 6 (
2
3
) 2 )( 4 )( 6 ( =
Con sus races caractersticas o eigenvalores = 1, 3 y 8.
Los eigenvectores correspondientes se obtienen resolviendo la ecuacin
Pg. 117
(A -5) = 0 para cada uno de los eigenvalores . Para el caso de = 3 se
tiene:
1
0
) 3 2 (
2
3
0
2
3
) 3 4 (
2
15
0
2
15
) 3 6 (
2
3
2
2
2
1
3
2
1
= + +
=
v v v
v
v
v
La restriccin para que la solucin sea nica es que:
Proporciona el eigenvector:
=
20
9
10
3
2
1
' v
Determinado los otros eigenvectores se tiene la matriz $.

=
70
1
20
9
28
15
35
12
10
3
14
5
14
9
2
1
28
3
V
Pg. 118
En Matla" se tieneG
To get started, select KMATLAE =elpK #rom t?e =elp menu,
LL A4M6 s7rt9+*N$; -O s7rt9+*N$; 1 s7rt9.N$;O - s7rt9.N$; $P
A 4
6,---- $,0.26 -
$,0.26 1,---- +,$$10
- +,$$10 $,----
LL Lamda4eig9A;
Lamda 4
+,----
.,----
2,----
LL MV,DP4eig9A;
V 4
-,.$0. -,*--- 6-,2-+2
6-,*/06 6-,*100 6-,*2**
-,0.+/ 6-,60-2 6-,++/*
D 4
+,---- - -
- .,---- -
- - 2,----
LL

Los s eigenvectores y sus correspondientes eigenvalores proporcionan s
soluciones para el componente principal deseado Z1. La solucin que
corresponde al mnimo requerido emplea el eigenvalor ms grande 1 y su
vector correspondiente 1.
En particular var(Zi) = i y las constantes ai1, ai2, ., aip son los elementos del
eigenvector correspondiente.
Los pasos para hacer un anlisis de componentes principales son los
siguientes:
4
1. niciar codificando las variables X1, X2, ..., Xp a que tnegan media cero y
desviacin estndar uno.
2. Calcular la matriz de covarianza &. Es la matriz de correlacin despus del
paso 1.
4
4,ya&, 5.%. .a&ly, Multivariate Statistical Methods# Chapma& a&( all, 1o&(,!', 1986
Pg. 119
=
1 . ..........
.......... .......... ..........
. .......... 1
........ .......... 1
2 1
2 21
1 12
p p
p
p
c c
c c
c c
C
Donde cada 0i< # 0<i es la correlacin entre >
i
y >
<
. De esta manera la suma de
los trminos diagonales, y la suma de los eigenvalores es igual al nmero de
variables p.
3. Encontrar los eigenvalores
A
3
'
3 BB3
p
y los correspondientes
eignevectores a
A
3 a
'
3 BB 3 a
p
7 Los coeficientes del i-simo componente
principal estn dados por ai mientras que la varianza es
i
.
4. Descartar cualquier componente que solo contenga una pequea parte de la
varianza de los datos (menor o igual a uno). Por ejemplo, iniciando en 20
variables, puede ser que los primeros tres componentes tengan el 90% de la
varianza total. Bajo esta base, se pueden ignorar los otros 17 componentes.
'%emplo,
Los datos de las dimensiones de 49 pjaros se muestran a continuacin:
Tabla y corrida Minitab
Los eigenvalores de esta matriz son: 3.616, 0.532, 0.386, 0.302 y 0.164, que
suman 5.000, que es igual a la suma de los trminos de la diagonal de la matriz
&.
De la tabla de eigenvectores, se obtienen los coeficientes de los componentes
principales.
El eigenvalor de un componente principal, indica la varianza de un total de
5.000. As, para el primer componente principal se tiene:
Pg. 120
(3.616/5.000)*100%=72.3%; el segundo tiene 10.6%; el tercero 7.7%, etc. De
manera clara, el primer componente es el ms importante.
El primer componente principal es:
5 4 3 2 1 1
398 . 0 471 . 0 451 . 0 462 . 0 452 . 0 X X X X X Z + + + + =
Donde X1 a X5 son las variables estandarizadas. Este es un ndice del tamao
de los pjaros. De modo que el 72.3% de la varianza de los datos est
relacionada con diferencias en los tamaos.
El segundo componente principal es:
5 4 3 2 1 2
877 . 0 185 . 0 325 . 0 300 . 0 051 . 0 X X X X X Z + + + =
En este caso contrasta X2, X3 y X4 contra X5, de modo que Z2 ser alta si
(X2,X3,X4) son altas y (X5) es baja, por tanto puede considerarse que
representa la diferencia de forma entre los pjaros.
Para calcular Z1, primero se estandarizan las Xi como sigue:
X1 = (x1 Media x1)/ desv. Estad. x1 = (156 157.98) / 3.654
X2 = (245 241.327)/5.068 = 0.725
X3 = (31.6 31.459)/0.795 = 0.177
X4 = (18.5 18.469)/0.564 = 0.055
X5 = (20.5 20.827)/0.991 = -0.330
Sustituyendo estos valores en las ecuaciones para Z1 y Z2 se tiene:
Z1 = 0.064
Z2 = 0.602
De esta misma manera se pueden calcular los otros componentes.
Los valores de las coordenadas Z correspondientes a los diferentes pjaros se
muestra a continuacin.
Pg. 121
En la figura se puede observar que los pjaros con valores extremos en
dimensiones Z1 tienen menos probabilidades de sobrevivir, lo mismo sucede
para valores altos de Z2.
Pg. 122
'%emplo, alimentos en las principales ciudades europeas,
X1 X2 X3 X4 X5 X6 X7 X8 X9
4aPs RM'A+ 9M'A+ '66. M5)2 05.* &'R) .+AR&* "V+. 0R@$'6
1 10.1 1.4 0.5 8.9 0.2 42.3 0.6 5.5 1.7
2 8.9 14 4.3 19.9 2.1 28 3.6 1.3 4.3
3 13.5 9.3 4.1 17.5 4.5 26.6 5.7 2.1 4
4 7.8 6 1.6 8.3 1.2 56.7 1.1 3.7 4.2
5 9.7 11.4 2.8 12.5 2 34.3 5 1.1 4
6 10.6 10.8 3.7 25 9.9 21.9 4.8 0.7 2.4
7 8.4 11.6 3.7 11.1 5.4 24.6 6.5 0.8 3.6
8 9.5 4.9 2.7 33.7 5.8 26.3 5.1 1 1.4
9 18 9.9 3.3 19.5 5.7 28.1 4.8 2.4 6.5
10 10.2 3 2.8 17.6 5.9 41.7 2.2 7.8 6.5
11 5.3 12.4 2.9 9.7 0.3 40.1 4 5.4 4.2
12 13.9 10 4.7 25.8 2.2 24 6.2 1.6 2.9
13 9 5.1 2.9 13.7 3.4 36.8 2.1 4.3 6.7
14 9.5 13.6 3.6 23.4 2.5 22.4 4.2 1.8 3.7
15 9.4 4.7 2.7 23.3 9.7 23 4.6 1.6 2.7
16 6.9 10.2 2.7 19.3 3 36.1 5.9 2 6.6
17 6.2 3.7 1.1 4.9 14.2 27 5.9 4.7 7.9
18 6.2 6.3 1.5 11.1 1 49.6 3.1 5.3 2.8
19 7.1 3.4 3.1 8.6 7 29.2 5.7 5.9 7.2
20 9.9 7.8 3.5 24.7 7.5 19.5 3.7 1.4 2
21 13.1 10.1 3.1 23.8 2.3 25.6 2.8 2.4 4.9
22 17.4 5.7 4.7 20.6 4.3 24.3 4.7 3.4 3.3
23 9.3 4.6 2.1 16.6 3 43.6 6.4 3.4 2.9
24 11.4 12.5 4.1 18.8 3.4 18.6 5.2 1.5 3.8
25 4.4 5 1.2 9.5 0.6 55.9 3 5.7 3.2
Para un anlisis de correlaciones se tiene:
1. Stat > Basic statistics > Correlation
2. Variables X1, X2, X3, X4, X6, X7
3. Display p alues
4. OK
Pg. 123
&orrelations, RM'A+3 9M'A+3 '66.3 M5)23 05.*3 &'R)3 .+AR&*3 "V+.3 0R@
$'6
5MEAT MEAT E>>% M@LJ F@%= &E5L %TA5&= 'CT%
MEAT -,+*.
-,16*
E>>% -,*26 -,6$-
-,--$ -,--+
M@LJ -,*-. -,$2+ -,*06
-,-+- -,+0. -,--.
F@%= -,-6+ 6-,$.1 -,-66 -,+.2
-,00$ -,$6- -,0** -,*++
&E5L 6-,*-- 6-,1+1 6-,0+$ 6-,*/. 6-,*$1
-,-++ -,-1- -,--- -,--$ -,--0
%TA5&= -,+.* -,.+1 -,1*$ -,$$$ -,1-1 6-,*..
-,*+/ -,+$0 -,-$. -,$2* -,-1* -,--6
'CT% 6-,.1/ 6-,6.* 6-,*6- 6-,6$+ 6-,+10 -,6*+ 6-,101
-,-20 -,--+ -,--1 -,--+ -,12. -,--- -,-+0
F56VE> 6-,-01 6-,-6+ 6-,-16 6-,1-2 -,$66 -,-10 -,-21 -,.0*
-,0$1 -,00+ -,2$/ -,-1. -,+/2 -,2$* -,622 -,-6*
!6Value
Se observa que varias variables Xi estan correlacionadas entre s.
Para el anlisis de componentes principales se tiene:
1 Cargar los datos de la Tabla.
2 .tat / Multiariate / 4rincipal components
3 En $aria(les, X1, X2, X3, X4, X6, X7, X8, X9
4 En "um(er of factors to e7tract, 3. Seleccionar &orrelation Matri7
5 Click 6rap1s y seleccionar .cree 4lot3 .core plot for first 2
components )oading plot for first 2 components
8 Click .torage e indicar las columnas donde se guarden los coeficientes y
los valores Z (scores) &oef1 &oef 2 y <1 <2
9. Click #2 en cada uno de los cuadros de dilogo.
Pg. 124
Los eigenvalores para cada componente son los siguientes:
4rincipal &omponent Analysis, RM'A+3 9M'A+3 '66.3 M5)23 05.*3 &'R)3
.+AR&*3 "V+
!&+ !&$ !&. !&1 !&* !&6 !&0 !&2
Eigenvalue 1,--61 +,6.*- +,+$0/ -,/*10 -,16.2 -,.$*+ -,$0+6 -,++6.
!roportion -,11* -,+2$ -,+$* -,+-6 -,-*$ -,-.6 -,-.- -,-+.
&umulative -,11* -,6$0 -,0*$ -,2*2 -,/+- -,/16 -,/06 -,/2/
!&/
Eigenvalue -,-//+
!roportion -,-++
&umulative +,---
Se observa que los componentes PC1 y PC2 contienen el 62% de la varianza
total.
&omponent "um(er
'
i
g
e
n
a
l
u
e
9 8 7 6 5 4 3 2 1
4
3
2
1
0
.cree 4lot of RM'A+3 ...3 0R@$'6
Valor mnimo a considerar
La composicin aproximada de las variables en funcin de los componentes
principales son:
Varia"le !&+ !&$ !&.
5MEAT 6-,.-. -,-*6 -,$/2
MEAT 6-,.++ -,$.0 6-,6$1
E>>% 6-,1$0 -,-.* 6-,+2$
M@LJ 6-,.02 -,+2* -,.26
F@%= 6-,+.6 6-,610 -,.$+
&E5L -,1.2 -,$.. 6-,-/6
%TA5&= 6-,$/0 6-,.*. 6-,$1.
'CT% -,1$- 6-,+1. -,-*1
F56VE> -,++- 6-,*.6 6-,1-2
Que al graficar en funcin de los dos primeros componentes, se obtiene lo
siguiente:
Pg. 125
0irst &omponent
.
e
c
o
n
d

&
o
m
p
o
n
e
n
t
0.4 0.3 0.2 0.1 0.0 -0.1 -0.2 -0.3 -0.4 -0.5
0.2
0.1
0.0
-0.1
-0.2
-0.3
-0.4
-0.5
-0.6
-0.7
FR-VEG
NUTS
STARCH
CERL
F SH
M LK
EGGS
WMEAT
RMEAT
)oading 4lot of RM'A+3 ...3 0R@$'6
Los valores de las variables Z1 y Z2 (scores) calculados son:
Z1 Z2
3.48537 1.63048
-1.42267 1.04123
-1.62203 -0.15950
3.13408 1.30107
-0.37046 0.60267
-2.36527 -0.28545
-1.42221 -0.45030
-1.56386 0.59600
-1.48798 -0.78537
2.23970 -1.00106
1.45744 0.81595
-2.66348 0.76371
1.53457 -0.39899
-1.64145 0.91199
-0.97470 -0.82203
-0.12187 -0.53174
1.70585 -4.28893
2.75681 1.11879
1.31181 -2.55352
-1.63373 0.20738
-0.91232 0.75106
-1.73537 0.09398
0.78260 0.11077
-2.09384 0.29378
3.62301 1.03803
Que al graficarlos dan lo siguiente:
1. Graph > Scatterplot > Simple
2. Y Variables Z2 X Variables Z1
3. Labels > Data labels > Use labels form column Pas
4. OK
Pg. 126
Se tiene la grfica siguiente de paisespases:
Europa occidental Europa oriental Balcanes
<1
<
2
4 3 2 1 0 -1 -2 -3
2
1
0
-1
-2
-3
-4
-5
25
24
23 22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
.catterplot of <2 s <1

ennsula i!"rica
Pg. 127
'%emplo,
Se registran las siguientes caractersticas para 14 censos: Poblacin total
(Pop), mediana de aos escolares (School), empleo total (Employ),empleo en
servicios de salud (Health), y valor mediano del valor de la casa (Home). Los
datos se muestran a continuacin:
Pop School Employ Health Home
5.935 14.2 2.265 2.27 2.91
1.523 13.1 0.597 0.75 2.62
2.599 12.7 1.237 1.11 1.72
4.009 15.2 1.649 0.81 3.02
4.687 14.7 2.312 2.5 2.22
8.044 15.6 3.641 4.51 2.36
2.766 13.3 1.244 1.03 1.97
6.538 17 2.618 2.39 1.85
6.451 12.9 3.147 5.52 2.01
3.314 12.2 1.606 2.18 1.82
3.777 13 2.119 2.83 1.8
1.53 13.8 0.798 0.84 4.25
2.768 13.6 1.336 1.75 2.64
6.585 14.9 2.763 1.91 3.17
Se realiza un anlisis de componentes principales para comprender la
estructura de datos subyacente. Se usa la matriz de correlacin para
estandarizar las mediciones dado que no se mide con la misma escala.
2 .tat / Multiariate / 4rincipal &omponents.
4 En +ype of Matri7, seleccionar &orrelation.
5 Click 6rap1s y seleccionar .cree plot.
6 Click #2 en cada cuadro de dilogo.
4rincipal &omponent Analysis, 4op3 .c1ool3 'mploy3 *ealt13 *ome
Pg. 128
Eigenvalue .,-$2/ +,$/++ -,*0$* -,-/*1 -,-+$+
!roportion -,6-6 -,$*2 -,++1 -,-+/ -,--$
&umulative -,6-6 -,261 -,/02 -,//2 +,---
Varia"le !&+ !&$ !&. !&1 !&*
!op 6-,**2 6-,+.+ -,--2 -,**+ 6-,6-6
%c?ool 6-,.+. 6-,6$/ 6-,*1/ 6-,1*. -,--0
Employ 6-,*62 6-,--1 -,++0 -,$62 -,06/
=ealt? 6-,120 -,.+- -,1** 6-,612 6-,$-+
=ome -,+01 6-,0-+ -,6/+ -,-+* -,-+1
&omponent "um(er
'
i
g
e
n
a
l
u
e
5 4 3 2 1
3.0
2.5
2.0
1.5
1.0
0.5
0.0
El primer componente principal tiene varianza (eigenvalor) 3.029 y acumula el
60.6% de la varianza total. Los coeficientes para el PC1 muestran como
calcular el nivel del componente principal.
PC1 = .558 Pop .313 School .568 Employ .487 !al"h # .174 om!
Notar que la interpretacin de los componentes principales es subjetiva, sin
embargo, frecuentemente surgen patrones obvios. Por ejemplo, se podra
pensar que el primer componente represente el efecto del tamao de la
poblacin total, el nivel de escolaridad, empleo y servicios de salud, dado que
los coeficientes de estos trminos tienen el mismo signo y no son cercanos a
cero.
El segundo componente tiene varianza 1.2911 y acumula el 25.8% de la
variabilidad de los datos. Se calcula de los datos originales usando los
Pg. 129
coeficientes listados en PC2. Este componente podra ser pensado como nivel
de contraste de escolaridad y valor de la casa con salud y empleo de alguna
manera.
Juntos el primero y segundo componentes representan el 86.4% y 97%,
respectivamente, de la variabilidad total. As, la mayora de la estructura de
datos puede ser capturada en dos o tres dimensiones relevantes. Los
componentes remanentes solo tienen una menor proporcin de probabilidad y
no son importantes. La grfica Scree proporciona una visin grfica de lo
anterior.
Pg. 130
)&. A(BLISIS :ACTORIAL

Pg. 131
1O. A";)5.5. 0A&+#R5A)
De manera similar al anlisis de componentes principales, el propsito principal
del 8nlisis factorial es decribirdescribir la variacin entre muchas variables, en
trminos de una pocas variables subyacentes no observables, denominadas
factores. De manera diferente al anlisis de componentes, en el anlisis
factorial se especifican un cierto nImero de factores comunes. Todas las
covarianzas o correlaciones se explican por los factores comunes. La varianza
no explicada por los factores comunes se asigna los trminos de error residual
denominados factores Inicos3 no correlacionados entre s7
La matriz del modelo de anlisis factorial asume que la matriz de correlacin o
de covarianzas se puede dividir en dos partes:
La matriz de factores comunes
La matriz de errores o factores nicos
Mientras que el anlisis de componentes principales se enfoca a explicar la
vasrianzavarianza de las variables, el anlisis factorial se enfoca a la
explicacin de la covarianza de las variables. Al final obtiene grupos de
variables dentro de los cuales las variables son altamente correlacionadas, sin
embargo entre diferentes grupos tengan correlacin dbil.
5
El anlisis factorial es un mtodo cuyo propsito principal es definir la
estructura subyacente de una matriz de datos. Atiende el problema de analizar
la estructura de las interrelaciones (correlaciones) entre un gran nmero de
variables (vgrVg.. Respuestas de cuestionarios) al definir un conjunto de
dimensiones subyacentes comunes, conocidas como factores. Con el anlisis
factorial se identifican las dimensiones separadas de la estructura y despus se
determina que tanto cada variable es explicada por cada dimensin. Una vez
que se determinan las dimensiones y se explican las variables por cada
dimensin, se puede hacer un resumen y reduccin de datos.
6
5
%o&'o&, %.)., Applied Multivariate Data Analsis' Volume $$# Cate(orical and Multivariate Methods,
Sp+&6!, 7!,la6, 89!:a ;o,<, 1992
6
a+,, %o'!ph, 5, et) Al., Multivariate Data Analsis# 5
"h
. E(+"+o&, P,!&"+c! all =&"!,&a"+o&al, 89!:a
%!,'!y, 1998
Pg. 132
El anlisis factorial es una tcnica de interdependencia en la cual todas las
variables son consideradas de manera simultanea, cada una relacionada a las
otras, y empleando el concepto de variate, composicin lineal de variables. De
hecho las variates (factores) se forman para maximizar su explicacin de todo
el conjunto de variables, no para predecir una variable dependiente(s). Una
variate (factor) es una variable dependiente que es funcin del conjunto total de
variables.
Se usa el Anlisis factorial, de manera similar al anlisis de componentes
principales, para resumir la estructura de covarianza de los datos en unaunas
pocas dimensiones de los mismos. Sin embargo, el nfasis en anlisis factorial
es la identificacin de los "factores subyacentes que pueden explicar las
dimensiones asociadas con la gran variabilidad de los datos.
Se pueden tener tres tipos de datos de entrada:
Columnas de datos unitarios
Una Matriz de correlaciones o covarianzas
Columnas conteniendo ponderaciones de factores
Con los datos del ejemplo anterior de Componentes principales, realizar un
anlisis factorial como sigue:
Nos gustara investigar que "factores pueden explicar la mayor parte de la
variabilidad. Como primer paso del anlisis factorial, se utiliza la extraccin de
componentes principales y se examinan los eigenvalores en grfica como
ayuda para decidir el nmero de factores.
Modelo matemtico
A partir de los trabajos de Charles Spearman (1904) al hacer estudios de
psicologa sobre la teora de pruebas mentales, formul un modelo de dos
factores: cada resultado de la prueba se forma de dos partes, uno que es
comn a todas las pruebas ("inteligencia general) y otro que es especfico a la
prueba. Posteriormente, se modific a para permitir que cada resultado de
Pg. 133
prueba consistiera de una parte debida a varios factores comunes, adems de
una parte especfica de la prueba.
El modelo general de anlisis de factores es el siguiente:
i m im i i i
e * a * a * a X + + + + = ...
2 2 1 1
Donde >i es el resultado i-simo de la prueba con media cero y varianza
unitaria; aiA3 ai'3B3 aim son las 0ar-as factoriales para la i-sima prueba; $A3
$'3 B3 $m son los m #actores comunes no correlacionados, cada uno con
media cero y varianza uno, ei es el error especfico para la i-sima prueba, no
correlacionado con los factores comunes.
Con este modelo:
) ( ... ) (
) ( ) ( ... ) ( ) ( ) (
2
2
2
1
2
2
2
2
2
1
1
2
i
im i i
i
i m
im i i
i
e Var a a a X Var
e Var * Var a * Var a * Var a X Var
+ + + + =
+ + + + =
Donde:
im i i a a a
2
2
2
1
2
... + + +
Es llamada la comunalidad de $i (la parte de la varianza que est relacionada
con los factores comunes) mientras que "arEeiF es denominada la
especi#icidad de $i (la parte de su varianza que no est relacionada con los
factores comunes). Tambin se puede establecer que la correlacin entre Xi y
Xj es:

jm im j i j i ij
a a a a a a r + + + = ......
2 2 1 1
De esta manera dos resultados de prueba estn muy correlacionados si tienen
valores de carga altos en los mismos factores. Adems -1<= aij <= 1, ya que la
comunalidad no puede exceder uno.
El anlisis factorial se hace en tres etapas:
Pg. 134
%tapa & ' e(traccin de #actores) se determinan cargas o
ponderaciones provisionales de los factores a
i<
. Una forma de hacerlo es
realizar un anlisis de componentes principales y no considerar los
componentes principales despus de los primeros m, que sern
tomados como los m factores7 0omo re-la se pueden tomar los m
ei-envalores que excedan a la unidad. Estos factores no estn
correlacionados entre s, sin emabargo los factores especficos pueden
estar correlacionados entre s, lo que no afecta si las comunalidades son
altas. Con cualquier mtodo que se extraigan las ponderaciones
preliminares de los factores, se puede mostrar que no son nicas. Si F1,
F2,., Fm son los factores preliminares, se pueden construir
combinaciones lineales de estos de la forma:
m mm m m m
m m
m m
* d * d * d *
* d * d * d *
* d * d * d *
+ + + =
+ + + =
+ + + =
.....
.....
.....
2 2 1 1
'
2 2 22 1 21
'
2
1 2 12 1 11
'
1
Las combinaciones se pueden hacer de forma que no sean
correlacionadas y "expliquen los datos adecuadamente. Se observa que
hay un nmero infinito de posibles soluciones.
%tapa * ' +otacin de #actores) los factores preliminares se
transforman de modo que se identifiquen nuevos factores ms fciles de
interpretar. Rotar equivale a seleccionar los coeficientes d
i<
en las
ecuaciones anteriores. La rotacin puede ser ortogonal u oblicua. Con la
rotacin ortogonal, los nuevos factores no estn correlacionados, tal
como los originales. Con rotacin oblicua, los nuevos factores estn
correlacionados. Se espera que las ponderaciones o cargas aij sean
casi cero (indicando que Xi no se relaciona con el factor Fj), o muy
alejadas de cero (positivas o negativas) indicando que Xi est
determinado ampliamente por Xj de manera amplia.
Un mtodo popular de rotacin es el ,arima( que est basado en el
supuesto de que la interpretabilidad del factor j puede ser medido por la
Pg. 135
varianza del cuadrado de sus ponderaciones (aA
<
'
, a'
<
'
,etc.) donde si la
varianza es grande, los valores de a
i<
'
tienden a ser cero o cercanos a la
unidad, de esta forma Varimax maximiza la suma de estas varianzas para
todos los factores.
Los factores rotados se pueden expresar como sigue:
X + + + * ' ) ' ( >
1
=
%tapa - ' aaclculo de los #actores individuales) son los valores de
los factores F1, F2, ., Fm, para cada una de las observaciones
individuales.
Pg. 136
4R#&'.# D' D'&5.5D" D' A";)5.5. 0A&+#R5A)
4aso 1. #(%etios del Anlisis factorial
El propsito es encontrar una forma de condensar (resumir) la informacin
contenida en un cierto nmero de variables originales, en un grupo ms
pequeo de dimensiones nuevas, compuestas o variates (factores) con un
mnimo de prdida de informacin.
Por ejemplo si hay datos de 100 cuestionarios en 10 caractersticas, el anlisis
factorial se aplica a la matriz de correlacin de variables y se denomina
Anlisis .actorial +/ para identificar las dimensiones que estn latentes o no
son fcilmente observables.
El anlisis factorial tambin se puede aplicar a una matriz de correlacin de los
cuestionarios individuales basados en sus caractersticas, referido como
Anlisis .actorial 0/ es un mtodo de condensar o combinar un grupo grande
de gente en diferentes grupos distintos dentro de una poblacin grande, para
esto se utiliza el anlisis de conglomerados (clusters).
4aso 2. DiseLo del anlisis factorial
ncluye tres decisiones bsicas: (1) clculo de los datos de entrada (una matiz
de correlacin) para cumplir con los objetivos especificados de agrupar
variables o cuestionarios; (2) el diseo del estudio en trminos del nmero de
variables, propiedades de medicin de las variables, y el tipo de variables
permitidas y (3) el tamao de muestra necesario (al menos 5 veces el nmero
de variables analizadas), ambos en trminos absolutos y como funcin de del
nmero de variables en el anlisis.
Pg. 137
4aso 3. .upuestos del anlisis factorial
Es deseable algn grado de multicolinealidad entre variables dado que el
objetivo es identificar conjuntos de variables interrelacionadas, no son tan
importantes la normalidad, homoestacidad y linealidad a menos que
disminuyan significativamente las correlaciones observadas.
La matriz de correlacin debe indicar valores mayores a O.3 para aplicar el
anlisis de correlacin. Tambin si las correlaciones parciales entre variables
(correlacin entre variables cuando el efecto de las otras variables se toma en
cuenta) son pequeas dado que la variable puede explicada por los factores
(variates con ponderaciones para cada una de las variables). Si las
correlaciones parciales son altas, no hay factores subyacentes "verdaderos y
el anlisis factorial es inapropiado.
La prueba de esfericidad de Bartlett mide la presencia de correlaciones entre
las variables, proporciona la probabilidad de que la matriz de correlacin tenga
correlaciones significativas en algunas de las variables. Otro indicador es el
:Measure of Samplin- 8dequacy EMS8F3 con rango de 0 a 1, donde 0.8 o ms
es meritorio; 0.07 o ms es regular; 0.60 o ms es mediocre; 0.50 o ms
miserable y debajo de 0.50 inaceptable.
El supuesto bsico en el anlisis factorial es que existe una estructura
subyacente en el conjunto de variables seleccionadas.
4aso M. 5dentificando factores y ealuando el a%uste del modelo
Una vez que se especifican las variables y se prepara la matriz de correlacin,
se toman decisiones en relacin a (1) el mtodo de extraccin de los factores
(anlisis de factores comunes versus anlisis de componentes) y (2) el nmero
de factores seleccionados para representar la estructura subyacente en los
datos.
Pg. 138
Anlisis de componentes
El anlisis de componentes se usa cuando el objetivo es resumir la mayor parte
de la informacin original (varianza) en un mnimo nmero de factores para
propsitos de prediccin. Considera la varianza total y determina factores que
contienen pequeas proporciones de varianza nica y, en algunos casos,
varianza del error. No se basa en un modelo estadstico especfico7
J
Anlisis factorial
En contraste el anlisis de factores comunes se utiliza para identificar los
factores subyacentes o dimensiones que reflejan aquello que las variables
comparten en comn. Se basa en un modelo estadstico especial7
En este mtodo se tienen tres tipos de varianzas: (1) comn, (2) especfica
(nica), y (3) error. La varianza comn (communalities) se define como la
varianza en una variable que es compartida por todas las dems variables. La
varianza especfica es la varianza asociada solo con una variable especfica.
La varianza del error es la varianza debida a la incertidumbre en el proceso de
recoleccin de datos, errores de medicin, o componente aleatorio en el
fenmeno medido.
&riterios para el nmero de factores a e7traer
El primer mtodo extrae la combinacin de variables explicando la mayor
cantidad de varianza y despus contina con combinaciones que representan
menos y menos cantidades de varianza.
La seleccin de factores a extraer equivale a enfocar un microscopio,
normalmente se hace por prueba y error contrastando los resultados.
&riterio de RaP! )atente, su racional es que cualquier factor individual debe
contener la varianza de al menos una variable. Como cada variable contribuye
con 1 al eigenvalor total o raz latente. Se seleccionan solo los factores con
eigenvalores mayores a uno, cuando se tienen menos de 20 variables, los
factores extrados son pocos.
7
$%idem
Pg. 139
&riterio a 4riori, en este mtodo el investigador ya tiene una idea clara de los
factores a extraer y as lo indica en la computadora.
&riterio de porcenta%e de arian!a, Enfoque basado en lograr un porcentaje
acumulado de varianza total extrado por factores sucesivos. Normalmente el
proceso para al acumular 95%.
&riterio .cree +est, Se usa para identificar el nmero ptimo de factores que
pueden ser extrados antes de que la cantidad de varianza nica empiece a
dominar la estructura de varianza comn.
4aso :. 5nterpretando los factores
Se obtiene la matriz no rotada para estimar el nmero de factores a extraer. La
matriz de factores contiene ponderaciones de factores para cada variable en
cada factor. El primer factor puede verse como la mejor combinacin lineal
incluida en los datos, con cada factor con ponderaciones significativos y
acumula la mayor parte de la varianza; el segundo factor es la segunda mejor
combinacin lineal de variables, sujeta a que es ortogonal al primer factor, se
basa en la porcin residual de la varianza una vez removido el primero, as
sucesivamente.
Pg. 140
Eig
env
alor
1
Nmero de factores
8
Los ponderaciones de los factores representan la correlacin de cada una de
las variables y el factor, entre mayores sean, mayor ser la representatividad
del factor por la variable.
La rotacin de los factores ms simple es una rotacin ortogonal, en la cual
se mantienen los ejes a 90 grados. Se pueden rotar los ejes sin mantener los
90 grados entre los ejes de referencia. Cuando no hay restriccin de
ortogonalidad, el procedimiento de rotacin se denomina rotacin o(licua.
Fig. 1 Rotacin ortogonal de factores (observar la ponderacin o ponderacin de factores y
en la variable V2, es ms clara cuando se rotan los factores)
En la figura se observan dos conglomerados de variables (V1 y V2) y (V3, V4 y
V5), sin embargo con los factores sin rotar no es muy obvia su ponderacin o
ponderacin de los factores y . Despus de la rotacin de los ejes de
factores, las variables 3, 4 y 5 tienen una ponderacin o ponderacin fuerte de
factor , y las variables 1 y2 tienen una ponderacin o ponderacin fuerte en el
factor . Siendo ms obvia la distincin entre conglomerados en dos grupos.
MUtodos de rotacin ortogonal
En la prctica el objetivo de todos los mtodos de rotacin es simplificar las
filas y columnas de la matriz de factores para facilitar la interpretacin. En una
Pg. 141
+1 Factor sin rotar
+1 Factor sin rotar
-1
Factor
-1
V1
V2
V5
V3
V4
+1 Factor rotado
+1 Factor rotado
matriz de factores las columnas representan factores, con cada rengln
correspondiente a la ponderacin de las variables a travs de los factores. Al
simplificar los renglones, se hacen tantos valores en cada fila tan cercanos a
cero como sea posible (i.e. maximizando la ponderacin de una variable con un
factor nico). Simplificando las columnas, se hacen tantos valores en las
columnas tan cercanos a cero como sea posible (i.e. hacer el mximo nmero
de ponderaciones "altas como sea posible). Se han desarrollado tres mtodos
para lo anterior como sigue:
Wuartima7, para simplificar las filas de la matriz; o sea, que Quartimax se
enfoca a rotar los factores iniciales de manera que las variables tengan la
mayor ponderacin posible de un factor y la mnima de los otros. Aunque este
mtodo no ha sido eficiente.
$arima7, se centra en simplificar las columnas de la matriz factorial. La
mxima simplificacin posible se logra cuando solo hay 1's y 0's en la columna.
Es decir que VARMAX maximiza la suma de variancias de ponderaciones
requeridas de la matriz factorial. Este mtodo ha probado ser un mtodo
analtico efectivo para obtener una rotacin ortogonal de factores.
'?uima7,
Es un compromiso entre las anteriores. Trata de simplificar los renglones y las
columnas, no se utiliza frecuentemente.
MUtodos de rotacin o(licua,
Estos mtodos son similares a las rotaciones ortogonales excepto que permiten
factores correlacionados en vez de mantener la independencia de los factores
rotados.
En general no hay reglas para seleccionar uno de los mtodos anteriores.
&riterios para la significancia de ponderacin de factores en las aria(les
Pg. 142
e manera prctica si las ponderaciones son de G7*G se considera que
cumplen el nivel mnimoK ponderaciones de G7HG son importantesK G7LG o
mayores son si-nificativas en la prctica7 0omo la ponderacin del factor es la
correlacin de la variable y el factor3 la ponderacin al cuadrado es la cantidad
representada de la varianza total por el factor7 De esta forma con 0.3 se tiene
un 10% de explicacin y un 0.5 de ponderacin denota que un 25% de la
varianza es representada por el factor.
'aluando la significancia estadPstica
Con base en un nivel de significancia de 0.05, un nivel de potencia del 80% y
errores estndar asumidos se el doble de los coeficientes de correlacin
convencionales, se tiene la tabla siguiente:
onderaci#n del
$actor
%ama&o de muestra
re'uerida para tener
si(ni$icancia
0.30 350
0.35 300
0.40 250
0.45 200
0.50 150
0.55 100
0.60 85
0.65 70
0.70 60
Resumiendo las guas para la significancia de los factores son:
(1) entre mayor sea el tamao de muestra, el valor de ponderacin
significativo se reduce.
(2) Entre ms variables sean consideradas en el anlisis, ms pequea es
la ponderacin que se considera significativa.
(3) Entre ms factores haya, mayor es la ponderacin en los factores
adicionales para que sea considerada significativa.
Cada columna de nmeros en la matriz representa un factor por separado. Las
columnas de nmeros representan las ponderaciones para cada una de las
variables. dentificar la ms alta ponderacin para cada variable. Mecordar que
Pg. 143
para tama=os de muestra similares a AGG se considera si-nificante G7*7 La
comunalidad para cada variable representa la cantidad de varianza
considerada por la solucin factorial para cada variable. Evaluar la comunalidad
de las variables, es decir identificar las que tengan ms del 50%, ya que las
que tengan menos no tienen suficiente explicacin. El nombre de los factores
se desarrolla de manera intuitiva, con base en las variables con una mayor
ponderacin se consideran ms importantes y tienen una mayor influencia para
el nombre seleccionado para representar al factor.
$alidacin del anlisis factorial
Se trata de evaluar el grado de generalizacin de los resultados en la poblacin
y la influencia potencial de casos individuales en los resultados totales.
%l al#a de 1ronbach es una medida del coeficiente de confiabilidad que evalIa
la consistencia de toda la escala7 %ste ndice es la relacin positiva del nImero
de tems en la escala3 donde G7J se considera adecuado7
Pg. 144
'%emplo con datos de alimentos,
Continuando con el ejemplo del anlisis de componentes que se realiz en el
captulo anterior para el caso de alimentos en diferentes pases, se identificaron
dos componentes principales que excedan un eigenvalor de 1.0, como sigue:
0act or "um(er
'
i
g
e
n
a
l
u
e
9 8 7 6 5 4 3 2 1
4
3
2
1
0
.cree 4lot of RM'A+3 ...3 0R@$'6
Parte del archivo de datos se muestra a continuacin:
4aPs RM'A+ 9M'A+ '66. M5)2 05.* &'R) .+AR&* "V+. 0R@$'6
X1 X2 X3 X4 X5 X6 X7 X8 X9
1 10.1 1.4 0.5 8.9 0.2 42.3 0.6 5.5 1.7
2 8.9 14 4.3 19.9 2.1 28 3.6 1.3 4.3
Etc.
1 Cargar los datos de tabla de alimentos.
2 .tat / Multiariate / 0actor Analysis.
3 En $aria(les, X1, X2, X3, X4, X6, X7, X8, X9
4 En "um(er of factors to e7tract, 4.
5 En Met1od of '7traction , seleccionar 4rincipal components
6 En +ype of Rotation, seleccionar $arima7.
7 Click 6rap1s y seleccionar )oading plot for first 2 factors y .cree 4lot.
8 Click Results y seleccionar .ort loadings .
Pg. 145
9 Seleccionar .torage e indicar columnas para ponderaciones,
coeficientes, Z's, eigenvalores, etc.
10 Click #2 en cada uno de los cuadros de dilogo.
0actor Analysis, RM'A+3 9M'A+3 '66.3 M5)23 05.*3 &'R)3 .+AR&*3 "V+.3
0R@$'6
!rincipal &omponent Factor Analysis o# t?e &orrelation Matrix
Los eigenvalores para los factores 1 y 2 son los siguientes:
'igenalues 0actores
4.00644 F1
1.63500 F2
1.12792 F3
0.95466 F4
Con los eigenvalores anteriores, se determina el modelo factorial:
Varia"le Factor+ Factor$ Factor. Factor1 &ommunality
B+ 5MEAT 6-,6-6 -,-0$ -,.+6 -,6.$ -,20+
B$ MEAT 6-,6$$ -,.-. 6-,66. 6-,-.6 -,/+2
B. E>>% 6-,2*1 -,-1* 6-,+/. -,.-6 -,26$
B1 M@LJ 6-,0*6 -,$.6 -,1+- 6-,--. -,0/*
B* F@%= 6-,$0$ 6-,2$0 -,.1+ 6-,$++ -,/+/
B6 &E5L -,206 -,$// 6-,+-$ 6-,--6 -,260
B0 %TA5&= 6-,*/* 6-,1*+ 6-,$*2 6-,.$/ -,0.$
B2 'CT% -,21+ 6-,+2. -,-*2 -,.$. -,21/
B/ F56VE> -,$$+ 6-,626 6-,1.. -,1*+ -,/+-
Variance 1,--61 +,6.*- +,+$0/ -,/*10 0,0$1-
8 Var -,11* -,+2$ -,+$* -,+-6 -,2*2
La comunalidad de X1 RMEAT = 0.871 se calcula de la manera siguiente:
0.871 = 0.606^2+0.072^2+0.316^2+0.632^2
Como las comunalidades son relativamente altas (cercanas a la unidad), indica
que la mayor parte de la varianza para las variables X1 a X9 se acumula en los
factores F1 a F4.
Las ponderaciones de los factores que son mayores a |0.5|, sin importar el
signo, se analizan para mostrar como se relacionan las variables con los
factores. Se puede observar que: la variable X1 se explica fuertemente por los
Pg. 146
factores F1 y F4; la variable X2 se explica por los factores F1 y F3; las
variables X2 X3, X4, X6, X7 y X8 se relacionan fuertemente al factor 1 y X5 y
X9 al factor 2. Esto sugiere que una rotacin puede ayudar a definir los
factores.
Varimax 5otation
B+ 5MEAT -,-*+ 6-,/.+ -,-+1 -,-.0 -,20+
B$ MEAT -,/1. 6-,+$0 6-,+-- -,-*- -,/+2
B. E>>% -,6$2 6-,661 -,+6. -,-$- -,26$
B1 M@LJ -,+/0 6-,6+- -,$+/ -,*0/ -,0/*
B* F@%= 6-,$$6 6-,-22 -,/$+ 6-,+-1 -,/+/
B6 &E5L 6-,./* -,*1/ 6-,6$1 6-,+1* -,260
B0 %TA5&= -,*+* 6-,--1 -,62. 6-,-$6 -,0.$
B2 'CT% 6-,6.2 -,$6. 6-,.$6 6-,*+* -,21/
B/ F56VE> 6-,-+- -,--. -,+02 6-,/.0 -,/+-
Variance $,$-*1 $,-01/ +,/$0. +,*+6* 0,0$1-
8 Var -,$1* -,$.+ -,$+1 -,+62 -,2*2
%orted 5otated Factor Loadings and &ommunalities
MEAT -,/1. 6-,+$0 6-,+-- -,-*- -,/+2
'CT% 6-,6.2 -,$6. 6-,.$6 6-,*+* -,21/
5MEAT -,-*+ 6-,/.+ -,-+1 -,-.0 -,20+
E>>% -,6$2 6-,661 -,+6. -,-$- -,26$
M@LJ -,+/0 6-,6+- -,$+/ -,*0/ -,0/*
F@%= 6-,$$6 6-,-22 -,/$+ 6-,+-1 -,/+/
%TA5&= -,*+* 6-,--1 -,62. 6-,-$6 -,0.$
&E5L 6-,./* -,*1/ 6-,6$1 6-,+1* -,260
F56VE> 6-,-+- -,--. -,+02 6-,/.0 -,/+-
Variance $,$-*1 $,-01/ +,/$0. +,*+6* 0,0$1-
8 Var -,$1* -,$.+ -,$+1 -,+62 -,2*2
En este caso las variables X3, X4, X6, X7 y X8 se explican al menos por dos
factores, lo cual es mejor.
0irst 0act or
.
e
c
o
n
d

0
a
c
t
o
r
1.00 0.75 0.50 0.25 0.00 -0.25 -0.50
0.50
0.25
0.00
-0.25
-0.50
-0.75
-1.00
FR-VEG
NUTS
STARCH
CERL
F SH
M LK
EGGS
WMEAT
RMEAT
)oading 4lot of RM'A+3 ...3 0R@$'6
Pg. 147
El modelo queda como sigue:
Varia"le Factor+ Factor$ Factor. Factor1
5MEAT 6-,$-2 6-,666 6-,+0* 6-,+*1
MEAT -,*2- -,+.1 6-,+22 6-,+$.
E>>% -,$+0 6-,$/0 6-,-/* 6-,+21
M@LJ 6-,+.- 6-,$12 -,-1. -,.$2
F@%= 6-,$*6 -,-.0 -,*02 -,--*
&E5L 6-,-$0 -,+*2 6-,$*$ 6-,--1
%TA5&= -,$*/ -,$*1 -,.6/ 6-,-.2
'CT% 6-,$.2 6-,+$2 6-,+$1 6-,$/$
F56VE> -,+-. 6-,+11 -,-1- 6-,0+/
Obteniendo las graficas de Z1 vs. Z2 y Z3 vs. Z4 con los valores de los
coeficientes de los factores se tiene:
<1 <2 <3 <M
-2.08984 0.21229 -1.48719 0.91607
1.51952 -0.14373 -0.67295 -0.04645
0.54271 -0.78648 0.18603 -0.22398
-0.67265 0.77630 -1.57884 -0.08663
1.12632 0.60458 -0.33966 0.02184
0.28382 -0.24185 1.21441 1.14642
1.45824 0.86238 0.78301 0.03869
-0.67673 -0.14921 0.93845 2.29981
0.03566 -1.84164 0.00237 -1.24522
-1.73291 -0.89465 -0.40999 -1.39879
1.07856 1.20405 -1.09708 -0.64712
0.84733 -1.15498 -0.08258 0.51667
-0.62204 -0.37440 -0.59829 -1.17455
1.20389 -0.18081 -0.31569 0.37021
-0.87260 0.00189 1.50818 1.24280
1.07154 0.81779 0.25040 -0.66725
-1.02013 1.36441 2.63942 -1.71648
-0.51952 1.25002 -1.03438 0.40083
-0.48351 0.41424 1.05124 -1.81043
-0.27184 -0.39239 0.76534 1.37725
0.10789 -1.21314 -0.71597 -0.11354
-0.53941 -2.17878 -0.17044 -0.12795
-0.34330 0.78311 0.21603 0.63639
1.23608 -0.44858 0.05799 0.00754
-0.66709 1.70958 -1.10980 0.28389
Pg. 148
<1
<
2
2 1 0 -1 -2
2
1
0
-1
-2
Yugoslavia
Alemania Occ
Rusia
Reino Unido
Suiza
Suecia
Espaa
Rumania
Portugal
Polonia
Noruega
Holanda
talia
rlanda
Hungra
Grecia
Francia
Finlandia
Alemania orien
Dinamarca
Checa
Bulgaria
Blgica
Autria
Albania
<3
<
M
3 2 1 0 -1 -2
2
1
0
-1
-2
Yugoslavia
Alemania Occ
Rusia
Reino Unido
Suiza
Suecia
Espaa
Rumania
Portugal
Polonia
Noruega
Holanda
talia
rlanda
Hungra
Grecia
Francia
Finlandia
Alemania orien
Dinamarca
Checa
Bulgaria
Blgica
Autria
Albania
.catterplot of <M s <3
<3
<
2
3 2 1 0 -1 -2
2
1
0
-1
-2
Yugoslavia
Alemania Occ
Rusia
Reino Unido
Suiza
Suecia
Espaa
Rumania
Portugal
Polonia
Noruega
Holanda
talia
rlanda
Hungra
Grecia
Francia
Finlandia
Alemania orien
Dinamarca
Checa
Bulgaria
Blgica
Autria
Albania

Pg. 149
<M
<
1
2 1 0 -1 -2
2
1
0
-1
-2
Yugoslavia
Alemania Occ
Rusia
Reino Unido
Suiza
Suecia
Espaa
Rumania
Portugal
Polonia
Noruega
Holanda
talia
rlanda
Hungra
Grecia
Francia
Finlandia
Alemania orien
Dinamarca
Checa
Bulgaria
Blgica
Autria
Albania
.catterplot of <1 s <M
Pg. 150
'%emplo con datos de *A+&#
Prueba de la adecuacin del modelo, utilizando Minitab:
1. .tat / -asic statistics / &orrelation
2. $aria(les X1, X2, X3, X4, X6, X7
3. Display p alues
M. #2
&orrelations, =13 =23 =33 =M3 =N3 =B
B+ B$ B. B1 B6
B$ 6-,.1/
-,---
B. -,106 6-,10$
-,--- -,---
B1 -,-*- -,$0$ 6-,-/*
-,6+2 -,--6 -,.10
B6 -,-00 -,+26 6-,-+* -,022
-,116 -,-61 -,22- -,---
B0 6-,12. -,10- 6-,1-0 -,$-- -,+00
-,--- -,--- -,--- -,-16 -,-02
!6Value
De la matriz, 7 de 15 correlaciones son significativas estadsticamente. El valor
de MSA de 0.665 cumple con con el criterio para aplicar el anlisis factorial.
Anlisis factorial con Minita(,
1 Cargar los datos de HATCO.
3 En $aria(les, X1, X2, X3, X4, X6, X7
4 En "um(er of factors to e7tract, '.
6 En Met1od of '7traction, seleccionar 4rincipal components
Pg. 151
7 Click 6rap1s y seleccionar )oading plot for first 2 factors y .cree 4lot.
8 Click Results y seleccionar .ort loadings. Click #2 en cada uno de los
cuadros de dilogo.
0actor Analysis, =13 =23 =33 =M3 =N3 =B
B+ -,6+2 6-,*+0 -,61/
B$ 6-,06. -,-0/ -,*22
B. -,6/* 6-,.*0 -,6+-
B1 6-,*-$ 6-,0/. -,22+
B6 6-,1.1 6-,2$0 -,20.
B0 6-,06+ -,+0- -,6-/
Variance $,1661 +,01$* 1,$-2/
8 Var -,1++ -,$/- -,0-+
El primer factor contiene la mayor parte de la varianza y es un factor general
con alta ponderacin en cada variable. Las ponderaciones para el segundo
factor muestra tres variables que tambin tiene alta ponderacin (X1, X4 y X6).
La interpretacin es sumamente difcil y sin significado, por lo que se debe
considerar la rotacin de factores como sigue:
Varimax 5otation
B+ 6-,02. -,+22 -,61/
B$ -,0+2 -,$62 -,*22
B. 6-,02+ -,-+- -,6+-
B1 -,-/0 -,/.1 -,22+
B6 -,-$- -,/.1 -,20.
B0 -,0*2 -,+26 -,6-/
Variance $,.$.+ +,22*2 1,$-2/
8 Var -,.20 -,.+1 -,0-+
Las variables X1, X2 y X3 ponderacinnponderacin significativamente al factor
1 y las variables X4 y X6 ponderacinnponderacin significativamente al factor
2.
Pg. 152
Si se considera como punto de corte las ponderaciones con 0.55 o ms, el
factor 1 tiene cuatro ponderaciones significativas y el factor 2 tiene 2. Para el
factor 1, se ven dos grupos de variables. Las primeras son el nivel de precios
(X2) y la calidad del producto (X7) ambas con signos positivos y varan como
conjunto. Las otras dos, tiempo de entrega (X1) y flexibilidad de precios (X3)
tienen signos negativos tambin varan como conjunto.
En el factor 1, ambos grupos varan en sentido contrario, tal vez este factor sea
el valor bsico y representa un compromiso entre percepciones de precio o
calidad del producto y percepciones de tiempo de entrega y flexibilidad de
precios.
En el factor 2, la variable X4 (imagen de fabricacin) y X6 (imagen de la fuerza
de ventas) tal vez se pueda agrupar en ima-en, ambas variables tienen el
mismo signo, actuando en la misma direccin.
La variable X5 (servicio en general) no se incluy en al anlisis.
Se tienen ahora dos factores como combinacin lineal de las variables para
efectos de realizacin de estudios:
B+ 6-,.*6 -,+*1
B$ -,$/0 -,-/0
B. 6-,.1. -,-*2
B1 6-,-$- -,1/2
B6 6-,-*1 -,*-.
B0 -,.$- -,-*-
Para verificar la validez del modelo se pueden hacer dos grupos de 50
observaciones y comparar sus matrices rotadas.
Pg. 153
Data + Q *-G 5otated Factor Loadings and &ommunalities
Varimax 5otation
B+R+ 6-,2$0 -,-2* -,6/+
B$R+ -,6-. -,.06 -,*-6
B.R+ 6-,626 6-,+00 -,*-$
B1R+ -,+*6 -,/+/ -,26/
B6R+ -,+.6 -,/$1 -,20+
B0R+ -,0-$ -,$-+ -,*..
Variance $,-*12 +,/+02 .,/0$6
8 Var -,.1$ -,.$- -,66$
Data *+ Q +--G 5otated Factor Loadings and &ommunalities
Varimax 5otation
B+R$ -,01+ 6-,.+. -,610
B$R$ 6-,02* 6-,+/- -,6*$
B.R$ -,2+* 6-,+*1 -,622
B1R$ 6-,-1+ 6-,/1/ -,/-.
B6R$ -,-*$ 6-,/$. -,2*1
B0R$ 6-,2$1 6-,+*1 -,0-.
Variance $,*+$0 +,/..2 1,1166
8 Var -,1+/ -,.$$ -,01+
Como se ve las dos rotaciones VARMAX son comparables en trminos de
ponderaciones y comunalidades para las seis percepciones. As se puede
asegurar que los resultados son estables dentro de la muestra.
De la grfica Scree Plot con los Eigenvalores de los factores se tiene:
0act or "um(er
'
i
g
e
n
a
l
u
e
6 5 4 3 2 1
2.5
2.0
1.5
1.0
0.5
0.0
.cree 4lot of =13 ...3 =B
Slo dos factores sern mantenidos si se toma como referencia el Eigenvalor
de 1 o tres si se toma como referencia el criterio Scree.
La grfica de ponderaciones por variables se muestra a continuacin,
identificando tres grupos de variables:
Pg. 154
0irst 0act or
.
e
c
o
n
d

0
a
c
t
o
r
0.5 0.0 -0.5 -1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
X7
X6 X4
X3
X2
X1
)oading 4lot of =13 ...3 =B
En resumen se identifican dos dimensiones "alor bsico e &ma-en3 ahora se
pueden hacer planes alrededor de estas dos dimensiones en lugar de
considerar todas las variables separadas.
'%emplo con datos del arc1io '=*8M$AR
Se registran las siguientes caractersticas de 14 regiones censadas: poblacin
total (Pop), promedio de escolaridad (School), empleo total (Employ), empleo
en servicios de salud (Health), y valor promedio de casa (Home). Se desea
investigar que "factores podran explicar la mayor parte de la variabilidad.
Como primer paso del anlisis factorial, se usa el mtodo de extraccin de
componentes principales y se examina la grfica de eigenvalores (Scree) para
apoyarnos en decidir sobre el nmero de factores.
Pop School Employ Health
5.935 14.2 2.265 2.27
1.523 13.1 0.597 0.75
2.599 12.7 1.237 1.11
4.009 15.2 1.649 0.81
4.687 14.7 2.312 2.5
8.044 15.6 3.641 4.51
2.766 13.3 1.244 1.03
6.538 17 2.618 2.39
6.451 12.9 3.147 5.52
3.314 12.2 1.606 2.18
3.777 13 2.119 2.83
Pg. 155
1.53 13.8 0.798 0.84
2.768 13.6 1.336 1.75
6.585 14.9 2.763 1.91
3 En $aria(les, poner .op(1ome.
4 Click 6rap1s y seleccionar .cree plot. Click #2 in each dialog box.
0actor Analysis, 4op3 .c1ool3 'mploy3 *ealt13 *ome
Varia"le Factor+ Factor$ Factor. Factor1 Factor* &ommunality
!op 6-,/0$ 6-,+1/ -,--6 -,+0- 6-,-60 +,---
%c?ool 6-,*1* 6-,0+* 6-,1+* 6-,+1- -,--+ +,---
Employ 6-,/2/ 6-,--* -,-2/ -,-2. -,-2* +,---
=ealt? 6-,210 -,.*$ -,.11 6-,$-- 6-,-$$ +,---
=ome -,.-. 6-,0/0 -,*$. -,--* -,--$ +,---
Variance .,-$2/ +,$/++ -,*0$* -,-/*1 -,-+$+ *,----
8 Var -,6-6 -,$*2 -,++1 -,-+/ -,--$ +,---
Varia"le Factor+ Factor$ Factor. Factor1 Factor*
!op 6-,.$+ 6-,++6 -,-++ +,02$ 6*,*++
%c?ool 6-,+2- 6-,**. 6-,0$6 6+,166 -,-6-
Employ 6-,.$0 6-,--1 -,+** -,262 6,/22
=ealt? 6-,$2- -,$0$ -,6-+ 6$,-/2 6+,2$/
=ome -,+-- 6-,6+0 -,/+1 -,-1/ -,+$/
Pg. 156
0act or "um(er
'
i
g
e
n
a
l
u
e
5 4 3 2 1
3.0
2.5
2.0
1.5
1.0
0.5
0.0
5nterpretacin de resultados
Cinco factores describen estos datos perfectamente, pero la meta es reducir el
nmero de factores requeridos para explicar la variabilidad de los datos.
La proporcin de la variabilidad explicada por los dos ltimos factores es
mnima (0.019 y 0.002 respectivamente) y pueden ser eliminadas sin
afectar al resultado. Los primeros dos factores juntos representan 86% de
la variabilidad mientras que tres factores representan 98% de la
variabilidad. La cuestin es si usar dos o tres factores, se requieren otras
corridas para decidir si usar dos o tres factores.
Se seleccionan dos factores como el nmero que representa los datos del
censo en base al anlisis de componentes principales. Se realiza una
extraccin de mxima verisimilitud y rotacin varimax para interpretar los
factores.
4 En "um(er of factors to e7tract, '.
5 En Met1od of '7traction, seleccionar Ma7imum liJeli1ood.
Pg. 157
7 Click 6rap1s y seleccionar )oading plot for first 2 factors.
8 Click Results y seleccionar .ort loadings. Click #2 en cada uno de los
cuadros de dilogo.
0actor Analysis, 4op3 .c1ool3 'mploy3 *ealt13 *ome
Maximum Likeli?ood Factor Analysis o# t?e &orrelation Matrix
3 ')TE 3 =ey(ood case
!op -,/0+ -,+6- -,/62
%c?ool -,1/1 -,2.. -,/.2
Employ +,--- -,--- +,---
=ealt? -,212 6-,./* -,20*
=ome 6-,$1/ -,.0* -,$-$
Variance $,/602 +,-+*/ .,/2.0
8 Var -,*/1 -,$-. -,0/0
Varimax 5otation
!op -,0+2 -,60. -,/62
%c?ool 6-,-*$ -,/60 -,/.2
Employ -,2.+ -,**6 +,---
=ealt? -,/$1 -,+1. -,20*
=ome 6-,1+* -,+0. -,$-$
Variance $,$.*1 +,012. .,/2.0
8 Var -,110 -,.*- -,0/0
%orted 5otated Factor Loadings and &ommunalities
=ealt? -,/$1 -,+1. -,20*
Employ -,2.+ -,**6 +,---
!op -,0+2 -,60. -,/62
=ome 6-,1+* -,+0. -,$-$
%c?ool 6-,-*$ -,/60 -,/.2
Variance $,$.*1 +,012. .,/2.0
8 Var -,110 -,.*- -,0/0
!op 6-,+6* -,$16
%c?ool 6-,*$2 -,02/
Employ +,+*- -,-2-
=ealt? -,++6 6-,+0.
=ome 6-,-+2 -,-$0
Pg. 158
0irst 0act or
.
e
c
o
n
d

0
a
c
t
o
r
1.00 0.75 0.50 0.25 0.00 -0.25 -0.50
1.0
0.8
0.6
0.4
0.2
0.0
Home
Health
Employ
School
Pop
)oading 4lot of 4op3 ...3 *ome
Estos resultados indican un caso Heywood (las varianzas menores al lmite de
convergencia especificado se ponen a cero y sus comunalidades a 1).
Se tienen tres tablas de ponderaciones y comunalidades: no rotadas, rotadas,
ordenadas y rotadas. Los factores no rotados explican el 79.7 de la variabilidad
de los datos y los valores de comunalidad indican que todas las variables sin
Home estn bien representadas por esos dos factores (comunalidad son 0.202
para Home, 0.875 1.0 para otras variables). El porcentaje de la variabilidad
total representada por los factores no cambia con la rotacin, sino despus de
rotar, pero despus de rotar, estos factores son mas claramente balanceados
en el porcentaje de variabilidad que ellos representan, siendo 44.7% y 35%,
respectivamente.
El ordenamiento es realizado por la ponderacin mxima absoluta para
cualquier factor. Las variables que tienen la mayor ponderacin absoluta en el
factor 1 se muestran primero en orden. Despus las variables con la
ponderacin mayor en el factor 2 y as sucesivamente. El factor 1 tiene su
ponderacin mayor positiva en Health (0.924), Employ (0.831) y Pop (0.718), y
-0.415 en Home, mientras que la ponderacin en School es baja. El factor 2
tiene una ponderacin positiva en School de 0.967 y ponderacin de 0.556 y
0.673 en Employ y Pop respectivamente, y una ponderacin pequea en
Health y Home.
Pg. 159
Se pueden ver las ponderaciones rotadas grficamente en la grfica de
ponderaciones (load graph). Ah se muestra para factor 1 con ponderaciones
altas en Pop, Emply, y Health y ponderacin negativa en Home. School tiene
una ponderacin alta positiva para el factor 2 y algo menor para Pop y Employ.
De los resultados se puede pensar en que el factor 1 sea un factor relacionado
con "Cuidado de la salud tamao de la poblacin. El factor 2 puede ser
considerado como un factor relacionado con "educacin tamao de la
poblacin.
En forma adicional Minitab muestra una tabla de coeficientes del factor.
Muestran como se calculan los factores. Minitab calcula los valores
multiplicando los coeficientes y los datos despus de corregirlos centrndolos
al restarle sus medias.
Pg. 160
10. ANLSS DE REGRESN MLTPLE
Pg. 161
1O. A";)5.5. D' R'6R'.5D" MC)+54)'
Es una tcnica estadstica que se puede usar para analizar la relacin entre
una variable dependiente simple (respuesta, criterio) y varias variables
independientes cuyos valores son conocidos para predecir la variable
dependiente. Los pesos denotan la contribucin relativa de las variables
independientes a la prediccin general y facilitar la interpretacin de la
influencia de cada variable en la prediccin, lo que se complica si hay
correlacin de las variables independientes.
El conjunto de variables independientes con sus pesos forma la Variate de
regresin, ecuacin de regresin o modelo de regresin, que es una
combinacin lineal de las variables independientes que mejor predicen la
variable dependiente.
Los supuestos de un anlisis de regresin mltiple son los siguientes:
Linealidad del fenmeno medido
Varianza constante de los trminos de error
ndependencia de los trminos de error
Normalidad de la distribucin de los trminos de error.
2!rminos clave
&oeficiente a%ustado de determinacin (R2 a%ustada), Es una mtrica
modificada del coeficiente de determinacin que toma en cuenta el
nmero de variables independientes incluidas en la ecuacin de
regresin y el tamao de muestra. A pesar de que la adicin de variables
independientes hace que se incremente el coeficiente de determinacin,
el coeficiente de determinacin ajustado se reduce si las variables
independientes tienen poco poder explicativo y/o si los grados de
libertad son muy pequeos. Este estadstico es til para comparar
ecuaciones con diferentes nmeros de variables independientes, con
diferentes tamaos de muestra, o ambos.
Regresin con todos los posi(les su(con%untos, Mtodo de
seleccin de variables en el modelo que considera todas las
Pg. 162
combinaciones posibles de las variables independientes. Por ejemplo
para cuatro variables, se estiman modelos para una, dos, tres y cuatro
variables, identificando el modelo con la mayor capacidad predictiva.
'liminacin 1acia atrs, Mtodo de seleccin de variables en el
modelo que inicia con todas las combinaciones posibles de las variables
independientes para ir eliminando las que no tienen una contribucin
significativa a la prediccin.
&oeficiente (eta, Coeficientes estandarizados de la regresin que
permite una comparacin directa de su potencia relativa explicatoria de
la variable dependiente.
&oeficiente de determinacin (R2), Mide la proporcin de la varianza
de la variable dependiente alrededor de su media que es explicada por
las variables predictoras independientes. El coeficiente puede variar
entre 0 y 1. Entre mayor sea su valor es mejor la prediccin de la
&olinealidad, Expresin de la relacin entre dos (colinealidad) o entre
varias (multicolinealidad) variables independientes. Dos variables
independientes tienen colinealidad total si coeficiente de correlacin es 1
y no tienen colinealidad si coeficiente de correlacin es cero. La
multicolinealidad se presenta cuando una variable independiente est
muy correlacionada con otras variables independientes.
&oeficiente de correlacin (r.): Coeficiente que indica la fuerza de la
asociacin entre dos variables medibles. El signo (+) o (-) indica la
direccin de la relacin. +1 o -1 indica una correlacin perfecta positiva
(cuando aumenta una variable, aumenta la otra) o negativa (inversa
cuando aumenta una variable, la otra disminuye) y 0 sin correlacin.
6rados de li(ertad, En una regresin simple se estiman dos
parmetros, la interseccin (b0) y el coeficiente de la regresin para la
variable independiente (b1). Por tanto los grados de libertad
proporcionan una medida de cmo se restringen los datos para alcanzar
un cierto nivel de prediccin (n-2). Si el nmero de grados de libertad es
pequeo, la prediccin resultante no puede generalizarse, esta ser ms
robusta con un valor alto de grados de libertad.
Pg. 163
$aria(le ficticia, Es una variable independiente usada para contabilizar
el efecto que tienen diferentes niveles de una variable no medible al
predecir la variable dependiente. Para contabilizar los L niveles de una
variable independiente no medible, se requieren L-1 variables artificiales.
En el caso de Hombre Mujer se requiere una variable X con valores 0
y 1; para tres niveles se requerirn dos variables X1 y X2.
Adicin 1acia delante, Mtodo de seleccin de variables en el modelo
que inicia sin las variables independientes para ir agregndolas con
base en su contribucin a la prediccin.
*omoestacidad, Descripcin de los datos para los cuales la varianza
de los trminos de error (e F aparece constante sobre el rango de valores
de la variable independiente. Cuando los trminos de error tienen
varianza incremental o modulada, se dice que los datos tienen
Heteroestacidad.
#(seracin influyente, Es una observacin que tiene una influencia
desproporcionada en uno o ms aspectos de los estimados de la
regresin, puede ser basada en valores extremos de las variables
independientes y dependiente o ambas.
#utlier, Es una observacin que tiene una diferencia significativa entre
el valor real de la variable dependiente y el valor de prediccin. Los
casos que son muy diferentes ya sea en sus variables independientes o
dependiente. Deben analizarse para poder eliminarlas.
&oeficiente de correlacin parcial, Valor que mide la fuerza de la
relacin entre la variable dependiente o criterio y una nica variable
independiente manteniendo constante los efectos de las otras variables
independientes. Es til para identificar la variable independiente con la
mayor capacidad predictiva incremental. Se le asocian los estadsticos
parciales de F y t as como su grfica de regresin parcial.
4otencia, Probabilidad de que se tenga una relacin significativa si
realmente existe. Complementa el nivel de significancia Alfa.
'rror de prediccin, Diferencia entre los valores reales y estimados de
la variable dependiente para cada observacin en la muestra (residuos).
Pg. 164
'stadPstico 4R'.., Medida de validacin obtenida al eliminar cada
observacin una a la vez y estimando su valor dependiente con el
modelo de regresin estimado con las observaciones remanentes.
$aria(le de Regresin (ariate), Combinacin lineal de variables
independientes ponderadas usadas para predecir la variable
dependiente.
'rror estndar, El valor t de un coeficiente de regresin se obtiene
cuando se divide el valor del coeficiente entre el error estndar.
'stimacin por pasos, Mtodo de seleccionar variables para inclusin
en el modelo de regresin que inicia seleccionando el mejor predictor de
la variable dependiente. Las variables independientes adicionales se
seleccionan con base de su potencia explicatorio incremental que
pueden agregar al modelo de regresin (o en base a sus coeficientes de
correlacin significativos estadsticamente). Tambin se pueden eliminar
variables independientes si su potencia predictiva se reduce a niveles no
significativos cuando se agrega otra variable independiente al modelo.
Residuo estudenti!ado, Para minimizar el efecto de un outlier simple,
se calcula la desviacin estndar del residuo para la observacin i de los
estimados de la regresin omitiendo la observacin i-sima.
+olerancia, Es una medida de colinealidad y multicolinealidad, es:
>
2
1
i
" T,-i =
>
2
i
" es el coeficiente de determinacin para la variable de prediccin i
por las otras variables independientes. Conforme disminuye el valor de
la tolerancia la variable es mejor estimada por las otras variables
independientes (colinealidad).
0actor de inflacin de arian!a ($50), es un indicador del efecto que
las otras variables independientes tienen en el error estndar de un
coeficiente de regresin. El factor de inflacin de varianza est
directamente relacionado al valor de la tolerancia (VFi = 1 / TOLi).
Valores grandes de VF tambin indican un alto grado de colinealidad o
multicolinealidad entre las variables independientes.
Pg. 165
0rmulas,
La ecuacin de regresin simple es:
1 1 0
2
V % % . + =
Donde:
bo = Trmino de intercepcin
b1 = coeficiente de la regresin.
Error de prediccin o residuo = diferencia entre valor real y estimado de la
El error estndar del estimado se determina como:
2
=
n
SS/
S//
Con SSE = Suma de cuadrados del error.
n = tamao de la muestra
El intervalo de confianza de prediccin se determina como:
S// t . $C >
2
=
La suma de cuadrados total es:
SS/ SS" SST + =

= = =
+ =
n
i
n
i
i i i
n
i
i

1 1
2 2
1
2
) 2 ( ) 2 ( ) (
= promedio de todas las observaciones

i
= valor de la observacin individual i

2
= valor estimado de la observacin i
El coeficiente de determinacin se calcula como sigue:
SST
SS"
" =
2
Para el caso de la regresin mltiple se tiene:
e V % V % % . + + + =
2 2 1 1 0
2
Para probar la significancia de la regresin se utiliza el estadstico F:
d0e
SS/
d0r
SS"
* =
Cada suma de cuadrados dividida entre sus grados de libertad representa la
varianza.
Pg. 166
D5A6"D.+5&# A$A"<AD#
Endice de condicin, Medicin de la cantidad de varianza asociada con un
Eigenvalor (valor caracterstico) de manera que un ndice grande indica un
alto grado de colinealidad.
Distancia de &ooJ (Di), Medida resumida de la influencia de una
observacin simple con base en los cambios totales en todos los dems
residuos cuando la observacin se excluye del proceso de estimacin. Los
valores mayores a 1 indican influencia significativa de la observacin en la
estimacin de los coeficientes de la regresin.
&#$RA+5# (ra!n de coarian!a), Mide la influencia de una observacin
simple en conjunto completo de coeficientes de la regresin. Un valor
cercano a 1 indica poca influencia, si (COVRATO 1) > 3 p/n (p es el
nmero de variables independientes +1 y n es el tamao de muestra), la
observacin se considera que tiene influencia.
Residuo e7cluido (deleted residual), Es el proceso de calcular residuos
en los cuales la influencia de cada una de las observaciones se excluye
cuando se calcula su residuo. Esto se logra al omitir la i-sima observacin
de la ecuacin de regresin usada para calcular el valor estimado Y.
D0-'+A, Mide el cambio en un coeficiente de la regresin cuando una
observacin se omite del anlisis de la regresin, se establece en trminos
del coeficiente mismo, tambin se puede tener una versin estandarizada
SDBETA, donde sus valores son ajustados por sus errores estndar, se
definen cortes en 1 o 2 correspondientes a niveles de confianza de 0.10 y
0.05 respectivamente.
D005+, Mide el impacto de una observacin en el ajuste general del modelo,
con una versin estandarizada DFFT. La mejor regla prctica es
calsificarclasificar como influenciables cualquier valor SDFFT > 2 /
raizraz(p/n). p es el nmero de variables independientes +1 y n es el
tamao de muestra.
'igenalor (alor caracterPstico), Mide la cantidad de varianza contenida
en la matriz de correlacin de manera que la suma de los eigenvalores es
igual al nmero de variables. Tambin se conoce como raz latente o raz
caracterstica.
Pg. 167
Matri! som(rero, Matriz que contiene valores para cada observacin en la
diagonal conocida como matriz sombrero, que representan el impacto de la
variable dependiente observada en su valor estimado por la regresin. Si
todas las observaciones tuvieran la misma influencia, tendran un valor de
p/n. Si una observacin no tiene influencia, su valor ser -1/n, y cuando un
valor domina valdr (n-1)/n. Los valores que exceden a 2p/n para muestra
grandes o 3p/n para muestras pequeas (n<= 30) son candidatos como
observaciones influyentes.
4unto palanca (leerage point), Una observacin que tiene un impacto
sustancial en los resultados de la regresin dadas sus diferencias con otras
observaciones en una o ms de las variables independientes. La medida
ms comn de estos puntos es el valor sombrero contenido en la matriz
sombrero7
Distancia de Mala1ano(is (D
2
), Medida de la singularidad de una
observacin simple con base en las diferencias entre los valores de la
observacin y los valores promedio para todos los otros casos de las
variables independientes. La influencia en la regresin por la observacin es
diferente para una o ms variables predictoras, causando un corrimiento en
la ecuacin de regresin.
#utlier (punto a(errante o le%ano), Es una observacin que tiene una
diferencia sustancial entre sus valores observados y estimados en la
variable dependiente (un residuo grande) o entre sus variables
independientes y y los de otras observaciones. El objetivo de identificarlos
es que pueden representar de manera inapropiada el comportamiento de la
poblacin.
Matri! de descomposicin H varianza de los coeficientes de regresin:
Mtodo para determinar la contribucin relativa de cada uno de los
ei-envalores a cada uno de los coeficientes estimados. Si dos o ms
coeficientes estn muy asociados con un ei-envalor simple (ndice de
condicin) indica que est presente un nivel inaceptable de
multicolinealidad.
Residuo, Medida de la estimacin predictiva de una observacin simple,
calculado como la diferencia del valor observado y el valor estimado de la
Pg. 168
variable dependiente. Se asume que los residuos tienen media cero y
varianza constante. Tambin sirven para identificar outliers y observaciones
influenciables7
Residuos estandari!ados, Reescalado de los residuos a una base comn
dividiendo cada uno de los residuos entre la desviacin estndar de los
residuos. De esta manera los residuos estandarizados tienen una media de
cero y una desviacin estndar de uno. Los outliers son identificados como
las observaciones que tienen residuos mayores a 1 o 2 para niveles de
confianza de 0.10 y 0.05 respectivamente.
Residuos estudenti!ados, Difieren del residuo estandarizado en la forma
de calcular la desviacin estndar. Para minimizar la influencia de un outlier
simple, la desviacin estndar utilizada para estandarizar el residuo i-simo
se calcula de los estimados de la regresin excluyendo la observacin i-
sima. Esto se hace de manera repetitiva para cada una de las
observaciones, cada vez se excluye la observacin de los clculos.
'aluado la multicolinealidad
Corrida con SPSS V10
Regression
$aria(les 'nteredXRemoed(()
Model $aria(les 'ntered $aria(les Remoed Met1od
1 X7, X5, X6, X3, X2, X4, X1(a) . Enter
a All requested variables entered.
b Dependent Variable: X9
Model .ummary
Model R R .?uare Ad%usted R .?uare .td. 'rror of t1e 'stimate
1 .879(a) .772 .755 4.4508
a Predictors: (Constant), X7, X5, X6, X3, X2, X4, X1
Pg. 169
A"#$A(()
Model .um of .?uares df Mean .?uare 0 .ig.
1
Regression 6177.812 7 882.545 44.552 .000(a)
Residual 1822.444 92 19.809
+otal 8000.256 99
a Predictors: (Constant), X7, X5, X6, X3, X2, X4, X1
b Dependent Variable: X9
&oefficients(a)
Vnstandardi!ed
&oefficients
.tandardi!ed
&oefficients
t .ig.
&ollinearity
.tatistics
Model - .td. 'rror
-eta
+olerance $50
1
(&onstant) -9.255 4.949 -1.870 .065
=1 1.956 2.045 .287 .957 .341 .027 36.445
=2 1.280 2.155 .170 .594 .554 .030 33.176
=3 3.270 .406 .507 8.057 .000 .627 1.596
=M -3.937E-03 .671 .000 -.006 .995 .347 2.884
=: 4.600 4.012 .384 1.147 .255 .022 45.401
=N 1.230 .954 .106 1.290 .200 .370 2.701
=B .426 .356 .075 1.198 .234 .629 1.589
a Dependent Variable: X9
&ollinearity Diagnostics(a)
'igenalue
&ondition
5nde7
$ariance 4roportions
Model
Dimension
(&onstant) =1 =2 =3 =M =: =N =B
1 1 7.533 1.000 .00 .00 .00 .00 .00 .00 .00 .00
2 .251 5.474 .00 .00 .01 .01 .00 .00 .00 .01
3 .106 8.426 .00 .01 .01 .00 .01 .00 .04 .04
M 6.548E-02 10.726 .01 .00 .00 .04 .03 .00 .18 .09
: 2.463E-02 17.489 .01 .01 .01 .31 .00 .00 .00 .53
Pg. 170
N 1.219E-02 24.861 .03 .00 .00 .07 .75 .00 .67 .05
B 6.259E-03 34.692 .86 .00 .00 .52 .17 .00 .10 .28
Q 8.354E-04 94.959 .09 .97 .97 .05 .04 .99 .01 .00
a Dependent Variable: X9
Faltan conceptos del captulo 4 y 4.
Pg. 171
'%emplo,
0amilia +ar%etas +amano+a
maLo
5ngreso
1 4 2 14
2 6 2 16
3 6 4 14
4 7 4 17
5 8 5 18
6 7 5 21
7 8 6 17
8 10 6 25
Total
Las instrucciones de Minitab para correr el ejemplo son:
1 Cargar datos
2 en Minitab.
2 .tat / Regression / Regression.
3 En Response, seleccionar ,ar<etas.
4 En 4redictors, seleccionar ,amano,ama=o e &n-reso.
5 Click 6rap1s.
6 En Residuals for 4lots3 seleccionar .tandardi!ed.
7 En Residual 4lots, seleccionar 5ndiidual 4lots. Seleccionar *istogram
of residuals, "ormal plot of residuals, y Residuals ersus fits. Click #2.
8 Click #ptions. en Display, seleccionar 4R'.. y predicted R@s?uare.
Click #2 en cada uno de los cuadros de dilogo.
Pg. 172
.t andardi!ed Residual
4
e
r
c
e
n
t
3 2 1 0 -1 -2 -3
99
95
90
80
70
60
50
40
30
20
10
5
1
"ormal 4ro(a(ility 4lot of t1e Residuals
(response is Tarj etas)
Regression Analysis, +ar%etas ersus +amano+amaLo3 5ngreso
T?e regression e7uation is
Tar$etas % &'() * &'+2 TamanoTama,o * &'21+ Ingreso
!redictor &oe# %E &oe# T !
&onstant -,12$ +,16+ -,.. -,0**
TamanoTamaSo -,6.$$ -,$*$. $,*+ -,-*1
@ngreso -,$+*2 -,+-2- $,-- -,+-$
% 4 -,02-//- 56%7 4 26,+8 56%79ad:; 4 2-,68
!5E%% 4 2,-$+00 56%79pred; 4 6.,*18
Analysis o# Variance
%ource DF %% M% F !
5egression $ +2,/*-. /,10*+ +*,*. -,--0
5esidual Error * .,-1/0 -,6-//
Total 0 $$,----
%ource DF %e7 %%
TamanoTamaSo + +6,*+1.
@ngreso + $,1.6-
5nterpretacin de resultados
.alida de sesin
El valor P en la tabla de ANOVA (0.000) muestra que el modelo
estmadoestimado por el procedimiento de regresin es significativo a un
alfa de 0.05, indicando que al menos un coeficiente es diferente de cero.
Pg. 173
Los valores P de los coeficientes estimados para tamanotamao es de
0.054 indicando que es significativo a un nivel alfa de 0.054. Sugiriendo
que el modelo de regresin simple es adecuado.
El valor de R cuadrado indica que los predoctores explican el 87.4% de
la varianza en Tarjetas. La R cuadrada ajustada es 85.9%, que
representa la contribucin del nmero de predictores en el modelo.
Ambos valores indican que el ajuste es adecuado.
El valor pronosticdopronosticado R cuadrado es 78.96%, dado que es
parecido a R cuadrado y r cuadrado ajustado, el modelo no parece estar
sobreajustado y tiene una buena habilidad de prediccin
Las observaciones 4 y 22 se identifican como no usuales dado que el
valor estandarizado de los residuos es mayor a 2. ndicando puntos
aberantesaberrantes o outliers.
.alida grfica
El histograma de los residuos muestra un patrn consistente con la
distribucin normal. El histograma es ms efectivo para grupos de ms
de 50 observaciones. La grfica de probabilidad normal es ms fcil de
interpretar con pequeas muestras.
En la grfica normal tambin sobresalen los outliers 4 y 22.
La grfica de residuos contra valores de prediccin muestra que los
residuos son ms pequeos conforme conforme los valores ajustados se
incrementan, indicando que no tienen varianza constante.

Pg. 174
Hacer un estudio de correlacin entre las variables independientes:
1 Cargar datos en Minitab.
2 .tat / -asic statistics / &orrelation
3 Variables X1 X7 X9 indicar Show P value
4 OK
&orrelations, =13 =23 =33 =M3 =:3 =N3 =B3 =T
B+ B$ B. B1 B* B6 B0
B$ 6-,.1/
-,---
B. -,106 6-,10$
-,--- -,---
B1 -,-*- -,$0$ 6-,-/*
-,6+2 -,--6 -,.10
B* -,6+$ -,*+. -,-61 -,$//
-,--- -,--- -,*$1 -,--.
B6 -,-00 -,+26 6-,-+* -,022 -,$1+
-,116 -,-61 -,22- -,--- -,-+6
B0 6-,12. -,10- 6-,1-0 -,$-- 6-,-** -,+00
-,--- -,--- -,--- -,-16 -,*26 -,-02
B/ -,606 -,-2. -,**6 -,$$* -,0-+ -,$*0 6-,+/$
-,--- -,1+$ -,--- -,-$1 -,--- -,-+- -,-**
!6Value
La variable X5 (servicio en general) est ms correlacionado con la respuesta
X9 con r = 0.701. X1 tambin est correlacionada con la respuesta sin embargo
tiene correlacin con X5 por lo que el uso de ambas es cuestionable.
Las instrucciones de Minitab para correr el ejemplo son:
1 Cargar datos en Minitab.
2 .tat / Regression / Regression.
Pg. 175
3 En Response, seleccionar X9 (utilizacin del producto).
4 En 4redictors, seleccionar X1 X7.
5 Click 6rap1s.
6 En Residuals for 4lots3 seleccionar .tandardi!ed.
7 En Residual 4lots, seleccionar 5ndiidual 4lots. Seleccionar *istogram
of residuals, "ormal plot of residuals, y Residuals ersus fits. Click #2.
Regression Analysis, =T ersus =13 =23 =33 =M3 =:3 =N3 =B
T?e regression e7uation is
B/ 4 6 /,$* F +,/6 B+ F +,$2 B$ F .,$0 B. 6 -,--1 B1 F 1,6- B* F +,$. B6
F -,1$6 B0
!redictor &oe# %E &oe# T !
&onstant 6/,$** 1,/1/ 6+,20 -,-6*
B+ +,/*6 $,-1* -,/6 -,.1+
B$ +,$2- $,+** -,*/ -,**1
B. .,$0-$ -,1-*/ 2,-6 -,---
B1 6-,--./ -,60+1 6-,-+ -,//*
B* 1,6-- 1,-+$ +,+* -,$**
B6 +,$.-* -,/*.0 +,$/ -,$--
B0 -,1$6+ -,.**0 +,$- -,$.1
% 4 1,1*-0* 56%7 4 00,$8 56%79ad:; 4 0*,*8
!5E%% 4 $+11,+. 56%79pred; 4 0.,$-8
Analysis o# Variance
%ource DF %% M% F !
5egression 0 6+00,2+ 22$,*1 11,** -,---
5esidual Error /$ +2$$,11 +/,2+
Total // 2---,$6
%ource DF %e7 %%
B+ + .6*/,06
B$ + /$0,22
B. + +1$1,+-
B1 + 2-,12
B* + +2,$-
B6 + .2,/0
B0 + $2,1.
Cnusual )"servations
)"s B+ B/ Fit %E Fit 5esidual %t 5esid
0 1,6- 16,--- *2,0.1 +,.0/ 6+$,0.1 6.,-+5
++ $,1- .$,--- 1+,.6* +,-+1 6/,.6* 6$,+65
+1 .,0- .2,--- 10,2.. +,-/2 6/,2.. 6$,$25
$$ .,1- .*,--- .1,20- $,0++ -,+.- -,-1 B
** .,2- ./,--- ..,1.. $,0+$ *,*60 +,*2 B
+-- $,*- ..,--- 1.,0$+ +,-1/ 6+-,0$+ 6$,125
5 denotes an o"servation (it? a large standardiDed residual,
B denotes an o"servation (?ose B value gives it large in#luence,
Pg. 176

"ormplot of Residuals for =T
.t andardi!ed Residual
4
e
r
c
e
n
t
3 2 1 0 -1 -2 -3
99.9
99
95
90
80
70
60
50
40
30
20
10
5
1
0.1
"ormal 4ro(a(ility 4lot of t1e Residuals
(response is X9)
0it t ed $alue
.
t
a
n
d
a
r
d
i
!
e
d

R
e
s
i
d
u
a
l
60 50 40 30 20
2
1
0
-1
-2
-3
Residuals $ersus t1e 0itted $alues
(response is X9)
Pg. 177
)). A(BLISIS DE CORRESPO(DE(CIA
Pg. 178
11. Anlisis de correspondencia
A. Anlisis de correspondencia simple
El anlisis de correspondencia simple ayuda a explorar las relaciones en una
clasificacin de dos vas. Puede operar tambin en tres vas y cuatro vas dado
que pueden reducirse a tablas de dos vas. Este procedimiento descompone
una tabla de contingencia de manera similar a como el anlisis de
componentes principales descompone datos continuos multivariados. Se
realiza un anlisis eigen de los datos, y la variabilidad es dividida en
dimensiones relevantes y asociada con renglones y/o columnas.
El anlisis de correspondencia realiza un anlisis de componentes principales
ponderados en una tabla de contingencia. Si la tabla tiene r renglones y c
columnas, el nmero de dimensiones relevantes es el ms pequeo de (r-1) y
(c-1). Como con componentes principales, la variabilidad se divide, pero en
lugar de particionar la varianza total, el anlisis de correspondencia simple
particiona el estadstico c2 de Pearson (similar al de la prueba de asociacin).
Tradicionalmente, el anlisis de correspondencia usa c2/n, denominado inercia
total o inercia, en lugar de c2. Las inercias asociadas con todos los
componentes principales se suman hasta la inercia total. dealmente, los
primeros uno, dos o tres componentes deben contener la inercia total.
Los subespacios dimensionales ms bajos se expanden por los componentes
principales. El primer eje principal se selecciona de manera que contenga la
mayor cantidad de inercia; el segundo eje principal se selecciona de manera
que contenga la mayor cantidad de la inercia remanente, etc. Los subespacios
son anidados, de modo que el mejor subes paci de una dimensin es un
subes paci del mejor subespacio de dos dimensiones, etc.
La coordenada principal para el perfil del rengln i y compnente (eje) k es la
coordenada de la proyeccin del perfil del rengln i en el componente k. Las
coordenadas del rengln estandarizado para el componente k son las
Pg. 179
coordenadas principales para el componente k dividido por la raz cuadrada de
la inercia k-sima.
De igual manera, la coordenada principal para el perfil de la columna j y el
componente k es la coordenada de la proyeccin del perfil de columna j en el
componente k. Las coordenadas estandarizadas de columna para el
componente k son las coordenadas de la columna principal para el componente
k dividido por la k-sima inercia.
La tabla de contingencia puede ser analizada en trminos de perfiles de
renglones y columnas. Un perfil de rengln es una lista proporciones de rengln
que se calculan de los nmeros de la tabla de contingencia. Especficamente,
el perfil del rengln i es (ni1/ni., ni2/ni.,..,nic/ni.). Un perfil de columna es una
lista de proporciones de columna, donde nij, es la frecuencia en el rengln i y la
columna j de la tabla y ni., es la suma de las frecuencias en el rengln i.
Especficamente, el perfil para la columna j es (n1j/n.j, n2j/n.,, ., nrj/n.j), donde
n.j, es la suma de las frecuencias en la columna j.
Los dos anlisis son matemticamente equivalentes, el que se seleccione es
que sea ms natural para un anlisis dado. En general, es interesante estudiar
como difieren los perfiles de rengln o de columna uno de otro.
Los perfiles de rengln son vectores de longitud c y por tanto se encuentran en
un espacio dimensional de c-dimensiones (de manera similar, los perfiles de
columna se encuentran en un espacio r-dimensional).
Como esta dimensin es normalmente alta para permitir una interpretacin
fcil, se desea encontrar un espacio de menor dimensin (de preferencia no
ms de dos o tres) que se encuentre cercano a todos los perfiles de renglones
(o puntos de perfiles de columnas). Despus se pueden proyectar estos puntos
de los perfiles en el subespacio y estudiar las proyecciones. Si las
proyecciones son cercanas a los perfiles, no se pierde mucha informacin,
trabajando en dos o tres dimensiones permite estudiar los datos ms fcilmente
y, en particular, permite examinar las grficas. El proceso es similar a
Pg. 180
seleccionar un nmero pequeo de componentes principales para resumir la
variabilidad de los datos continuos.
Si d = el ms pequeo de (r-1) y (c-1), entonces los perfiles de rengln (o
perfiles equivalentes de columna) se encuentran en un subespacio d-
dimensional del espacio c-dimensional completo (o su equivalente r-
dimensional completo). De sta forma, hay a lo ms d componentes.
'%emplo,
Del texto de .. %. ?,!!&ac,!, Co,,!'po&(!&c! 0&aly'+' +& P,ac"+c!, @y p.75. 796
investigadores fueron clasificados en diez disciplinas acadmicas y cinco
categoras de fondos, A es la categora ms alta, D es la categora ms baja y
E es categora sin fondeo. Las disciplinas son renglones y las categoras son
columnas. Se desea saber como las disciplinas se comparan unas con otras
respecto a las categoras de fondeo, se forma que se realiza un anlisis de
correspondencia con una orientacin a renglones.
Como informacin complementaria se incluye: un rengln para investigadores
de museos no incluida en el estudio y un rengln para matemticas y
estadstica.
Los datos colectados son los siguientes:
Arc1io
+a(l.MtA
CT1 CT2 CT3 CT4 CT5 RowNames ColNames RowSupp1 RowSupp2 RSNames
3 19 39 14 10 Geology A 4 4 Museums
1 2 13 1 12 Biochemistry B 12 16 MathSci
6 25 49 21 29 Chemistry C 11 48
3 15 41 35 26 Zoology D 19 12
10 22 47 9 26 Physics E 7 27
3 11 25 15 34 Engineering
1 6 14 5 11 Microbiology
0 12 34 17 23 Botany
2 5 11 4 7 Statistics
2 11 37 8 20 Mathematics
1 Open worksheet EXH_TABL.MTW.
Pg. 181
2 .tat / Multiariate / .imple &orrespondence Analysis.
3 Seleccionar en &olumns of a contingency ta(le3 0,A(0,L. En RoA
names, seleccionar Mo)Names. En &olumn names, seleccionar 0olNames.
4 Click Results y seleccionar RoA profiles. Click #2.
5 Click .upp Data. En .upplementary RoAs, indicar Mo)SuppA Mo)Supp'.
En RoA names, indicar MSNames. Click #2.
6 Click 6rap1s. Seleccionar .1oA supplementary points in all plots.
Seleccionar .ymmetric plot s1oAing roAs only y Asymmetric roA plot
s1oAing roAs and columns.
7 Click #2 in each dialog box.
.imple &orrespondence Analysis, &+13 &+23 &+33 &+M3 &+:
4erfiles por rengln, Se muestra la proporcin de cada una de las categoras
de rengln por columna. As, de la clase de Geologa, 3.5% est en columna A,
22.4% en columna B, etc. La masa de la fila de Geologa, 0.107, es la
proporcin de todas las materias de Geologa en el conjunto de datos.
5o( !ro#iles
A E & D E Mass
Geolog- &'&. &'22( &'(./ &'1+. &'11) &'1&0
Eioc?emistry -,-.1 -,-6/ -,112 -,-.1 -,1+1 -,-.6
&?emistry -,-16 -,+/$ -,.00 -,+6$ -,$$. -,+6.
Ioology -,-$* -,+$* -,.1$ -,$/$ -,$+0 -,+*+
!?ysics -,-22 -,+/. -,1+$ -,-0/ -,$$2 -,+1.
Engineering -,-.1 -,+$* -,$21 -,+0- -,.26 -,+++
Micro"iology -,-$0 -,+6$ -,.02 -,+.* -,$/0 -,-16
Eotany -,--- -,+1- -,./* -,+/2 -,$60 -,+-2
%tatistics -,-6/ -,+0$ -,.0/ -,+.2 -,$1+ -,-.6
Mat?ematics -,-$6 -,+1+ -,101 -,+-. -,$*6 -,-/2
Mass -,-./ -,+6+ -,.2/ -,+6$ -,$1/
Anlisis de la ta(la de contingencia, se muestra la descomposicin de la
inercia total. Se muestra el resumen de la descomposicin de una tabla de
contingencia de 10 x 5 en 4 componentes. La columna denominada inercia
contiene el valor Chi cuadrada / n para cada componente. De la inercia total,
65.972 / 796 = 0.0829, 47.2% est contenida en el primer componente, 36.66%
por el segundo componente, etc. Aqu, 65.972 es el estadstico Chi cuadrada
que se debera obtener si se realizara la prueba Chi cuadrada de asociacin
con esta tabla de contingencia.
Pg. 182
Analysis o# &ontingency Ta"le
Axis @nertia !roportion &umulative =istogram
+ -,-./+ -,10$- -,10$- 333333333333333333333333333333
$ -,-.-1 -,.666 -,2.2* 33333333333333333333333
. -,-+-/ -,+.++ -,/6/0 33333333
1 -,--$* -,-.-. +,---- 3
Total -,-2$/
&ontri(uciones de rengln, como no se especific el nmero de
componentes, se calculan dos.
La columna Duality , es la proporcin de la inercia de rengln
representada por los dos componentes. Los renglones Noolo-y y
@eolo-y, con Duality de 0.928 y 0.916, respectivamente, estn mejor
representados entre los renglones por los dos componentes, mientras
que Mat9 tiene la representacin ms dbil con 0.319.
La columna Mass tiene el mimo significado que en la tabla de perfiles de

Rengln la proporcin de la clase en el conjunto completo de datos.
La columna denominada nert, es la proporcin en la que contribuye

cada rengln en la inercia total. As, @eolo-y contribuye con 13.7% del
estadstico Chi cuadrado total.
5o( &ontri"utions
&omponent +
@D 'ame Tual Mass @nert &oord &orr &ontr
+ >eology -,/+6 -,+-0 -,+.0 6-,-06 -,-** -,-+6
$ Eioc?emistry -,22+ -,-.6 -,++/ 6-,+2- -,++/ -,-.-
. &?emistry -,611 -,+6. -,-$+ 6-,-.2 -,+.1 -,--6
1 Ioology -,/$/ -,+*+ -,$.- -,.$0 -,216 -,1+.
* !?ysics -,226 -,+1. -,+/6 6-,.+6 -,22- -,.6*
6 Engineering -,20- -,+++ -,+*$ -,++0 -,+$+ -,-./
0 Micro"iology -,62- -,-16 -,-+- 6-,-+. -,--/ -,---
2 Eotany -,6*1 -,+-2 -,-60 -,+0/ -,6$* -,-22
/ %tatistics -,*6+ -,-.6 -,-+$ 6-,+$* -,**1 -,-+1
+- Mat?ematics -,.+/ -,-/2 -,-*6 6-,+-0 -,$1- -,-$/
&omponent $
@D 'ame &oord &orr &ontr
+ >eology 6-,.-. -,26+ -,.$$
$ Eioc?emistry -,1** -,06$ -,$12
. &?emistry 6-,-0. -,*+- -,-$/
1 Ioology 6-,+-$ -,-2. -,-*$
* !?ysics 6-,-$0 -,--6 -,--.
6 Engineering -,$/$ -,01/ -,.+-
0 Micro"iology -,++- -,60+ -,-+2
2 Eotany -,-./ -,-$/ -,--*
/ %tatistics 6-,-+1 -,--0 -,---
Pg. 183
+- Mat?ematics -,-6+ -,-0/ -,-+$
Renglones suplementarios, esta tabla se puede interpretar de manera similar
a la tabla de contribuciones por rengln.
%upplementary 5o(s
&omponent + &omponent $
@D 'ame Tual Mass @nert &oord &orr &ontr &oord &orr &ontr
+ Museums -,**6 -,-60 -,.*. -,.+1 -,$$* -,+62 6-,.2+ -,..+ -,.+2
$ Mat?%ci -,**/ -,+.1 -,-1+ 6-,++$ -,1/. -,-1. -,-1+ -,-66 -,--0
&ontri(uciones de columna, aqu se muestra que dos componentes explican
la mayora de la variabilidad en las categoras de fondeo B, D, y E. Las
categoras de fondeo A, B, C y D contribuyen ms al componente 1, mientras
que la categora sin fondos E, contribuye ms al componente 2.
&olumn &ontri"utions
+ A -,*20 -,-./ -,+20 6-,102 -,*01 -,$$2 6-,-0$ -,-+. -,--0
$ E -,2+6 -,+6+ -,++- 6-,+$0 -,$26 -,-60 6-,+0. -,*.+ -,+*/
. & -,16* -,.2/ -,-/1 6-,-2. -,.1+ -,-62 6-,-*- -,+$1 -,-.$
1 D -,/62 -,+6$ -,.10 -,./- -,2*/ -,6.$ 6-,+./ -,+-/ -,+-.
* E -,//- -,$1/ -,$6$ -,-.$ -,-+$ -,--6 -,$/$ -,/02 -,6//
6rfica de Renglones, muestra las coordenadas principales de rengln. El
componente 1, que mejor explica Zoologa y Fsica, muestra dos clases
removidas desde el origen, pero con signo contrario. El componente 1 podr
ser pensado como contraste de las ciencias biolgicas y Botnica con la Fsica.
El componente 2 podra pensarse como contraste de Bioqumica e ngeniera
con Geologa.
Pg. 184
&omponent 1
&
o
m
p
o
n
e
n
t

2
0.5 0.4 0.3 0.2 0.1 0.0 -0.1 -0.2 -0.3 -0.4
0.5
0.4
0.3
0.2
0.1
0.0
-0.1
-0.2
-0.3
-0.4
MathSci
Museums
Mathematics
Statistics
Botany
Microbiology
Engineering
Physics
Zoology
Chemistry
Biochemistry
Geology
RoA 4lot
6rfica asimUtrica de renglones, los renglones son escalados en
coordenadas principales y las columnas son escaladas en coordenadas
estndar. Entre las clases de fondeo, el Componente 1 contrasta los niveles de
fondeo, mientras que el componente 2 contrasta de los que se fondean (A a D)
contra los que no se fondean C. Entre las disciplina, la fsica tiende a tener el
mayor nivel de fondeo y la Zoologa tiene el fondeo ms bajo. La Bioqumica
tiende a tener el punto medio del nivel de fondeo, pero es el ms alto entre los
investigadores sin fondeo. Los museos tienden a estar fondeados, pero en un
menor nivel que los investigadores acadmicos.
&omponent 1
&
o
m
p
o
n
e
n
t

2
2 1 0 -1 -2 -3
2
1
0
-1
-2
-3
E
D
C
B
A
MathSci
Museums
Mathematics
Statistics
Botany
Microbiology Engineering
Physics
Zoology Chemistry
Biochemistry
Geology
Asymmetric RoA 4lot
Pg. 185
-. Anlisis de correspondencia mltiple
El anlisis de correspondencia mltiple extiende al anlisis de correspondencia
simple al caso de tres o ms variables categricas. El anlisis de
correspondencia mltiple realiza un anlisis de correspondencia simple en una
matriz de variables indicadoras donde cada columna de la matriz corresponde
a un nivel de variable categrica. En vez de tener una tabla de dos vas, la
tabla multi va se resume a una dimensin. Al moverse del procedimiento
simple al mltiple. Se gana informacin en un nmero potencial mayor de
variables, pero se puede perder informacin en como los renglones y las
columnas se relacionan unas con otras.
El anlisis de correspondencia mltiple descompone una matriz de variables
indicadoras formadas de todas las variables consideradas. No se parece al de
correspondencia simple, donde las columnas y renglones son de una variable,
aqu todas las clases de variables son contribuyentes de columnas.
El anlisis de correspondencia mltiple realiza un anlisis de componentes
principales ponderado de la matriz de variables indicadoras. Si el nmero de
categoras en las j columnas categricas son c1, c2, ., cj, el nmero de
dimensiones relevantes es la suma de (ci-1), con i = 1, 2, .., j. Como en el
anlisis de correspondencia simple, el anlisis de correspondencia mltiple
particiona el estadstico Chi cuadrada de Pearson. A diferencia del anlisis de
correspondencia simple, no se pueden analizar ya sean los perfiles de rengln
o de columna hay solo perfiles de columnas --. Dado que no hay renglones,
este anlisis ofrece solo una grfica una grfica de coordenadas de
columnas.
'%emplo,
Los accidentes de automvil se clasifican de acuerdo al tipo de accidente en:
colisin o volcadura; severidad del accidente (no severo y severo); si o no el
chofer fue expulsado; y el tamao del coche (pequeo o estndar). Se utiliza el
Pg. 186
anlisis de correspondencia mltiple para examinar como las categoras en
esta tabla de cuatro vas se relacionan unas con otras.
1 Open worksheet EXH_TABL.MTW.
2 .tat / Multiariate / Multiple &orrespondence Analysis.
3 Seleccionar &ategorical aria(les, e indicar 0ar4t r%<ect 8cc,ype
8ccSever.
4 En &ategory names, seleccionar 8ccNames.
5 Click 6rap1s. seleccionar Display column plot.
7 Click #2 e n cada uno de los cuadros de di logo .
Multiple &orrespondence Analysis, &ar9t3 Dr'%ect3 Acc+ype3 Acc.eer
Anlisis de la matri! indicadora, esta tabla da un resumen de la
descomposicin de las variables. La columna denominada nercia es el valor de
la Chi cuadrada / n contenida por cada componente. De la inercia total de 1,
40.3%, 25.2%, 19.0% y, 15.5% son contenidas en los componentes primero al
cuarto respectivamente.
Analysis o# @ndicator Matrix
Axis @nertia !roportion &umulative =istogram
+ -,1-.$ -,1-.$ -,1-.$ 333333333333333333333333333333
$ -,$*$- -,$*$- -,6**$ 333333333333333333
. -,+2// -,+2// -,21*+ 33333333333333
1 -,+*1/ -,+*1/ +,---- 33333333333
Total +,----
&ontri(uciones de columna, como no se especific el nmero de
componentes, se calculan dos.
La columna Duality , es la proporcin de la inercia de columna
representada por los dos componentes. Las categoras tamao de coche
(pequeo, estndar) con Dual # 0.965, mientras que las categoras de
expulsin son al menos representadas por Qual = 0.474. Cuando hay
solo dos categoras para cada clase, cada una es representada de
Pg. 187
manera similar por cualquier componente, pero esto puede no ser cierto
para ms de dos categoras.
La columna Mass tiene el mi s mo significado que en la tabla de perfiles

de Rengln la proporcin de la clase en el conjunto completo de datos.
En este ejemplo CarWt, DrEject, AccType, y AccServer se combinan
para una proporcin de 0.25.
La columna denominada &nert , es la proporcin en la que contribuye

cada columna en la inercia total. Las categoras coches pequeos,
expulsados, y volcaduras tienen la mayor inercia, sumando 61.4%, que
indica que estas categoras estn ms disociadas de las dems.
&olumn &ontri"utions
+ %mall -,/6* -,-1$ -,$-2 -,.2+ -,-.- -,-+* 6$,+./ -,/.6 -,00+
$ %tandard -,/6* -,$-2 -,-1$ 6-,-02 -,-.- -,--. -,1.0 -,/.6 -,+*2
. 'oE:ect -,101 -,$+. -,-.0 6-,$21 -,10$ -,-1. 6-,-$- -,--$ -,---
1 E:ect -,101 -,-.0 -,$+. +,6*/ -,10$ -,$*- -,++* -,--$ -,--$
* &ollis -,6+. -,+/. -,-*0 6-,1$6 -,6+- -,-20 -,-.1 -,--1 -,--+
6 5ollover -,6+. -,-*0 -,+/. +,1$/ -,6+- -,$/+ 6-,++. -,--1 -,--.
0 'o%evere -,*62 -,+.* -,++* 6-,6*$ -,*-$ -,+1. 6-,$.0 -,-66 -,-.-
2 %evere -,*62 -,++* -,+.* -,06/ -,*-$ -,+62 -,$2- -,-66 -,-.6
La informacin para los compoinentes es como sigue:
La columna denominada Coord da las coordenadas de la columna. Ejec.
Y Rollover tienen las coordenadas mayores para el componente 1 y
Small tiene la coordenada ms grande en valor absoluto para el
componente 2. El signo y su tamao relativo son tiles para interpretar
los componentes.
La columna Corr representa la contribuci n del componente respectivo a
la inercia del rengln. Aqu, el Componente 1 contiene de 47 a 61% de la
inercia de las categoras de expulsin, tipo de colisin, y severidad del
accidente, pero explica solo el 30% de la inercia del tamao de coche.
Contr, la contribucin del rengln a la inercia del eje, muestra Ejec. Y
Rollover contribuyendo a la mayora del, con componente 1 (Contr =
0.250 y 0.291, respectivamente). El componente 2, por otra parte
Pg. 188
contiene el 93.6% de la inercia de la categora del tamao del coche con
Small contribuyendo con el 77.1% de la inercia del eje.
6rfica de columna, Como la contribucin para el Componente 1 indica, Ejec.
Y Rollover estn ms distantes del origen. Este componente constrasta Ejec. Y
Rollover y de alguna manera Severe y NoSevere. El Componente 2 separa
Small de las otras categoras. Sin embargo dos componentes pueden no ser
adecuados para explicar la variabilidad de esos datos.
&omponent 1
&
o
m
p
o
n
e
n
t

2
2 1 0 -1 -2
2
1
0
-1
-2
Severe
NoSevere
Rollover
Collis
Ej ect
NoEj ect
Standard
Small
&olumn 4lot

Pg. 189
12. ESCALADO MULTDMENSONAL
Pg. 190
12. 'scalado Multidimensional
El escalado multidimensional intenta encontrar la estructura de un conjunto de
medidas de distancias entre objetos o casos. Esto se logra al asignar
observaciones a localidades especficas en un espacio conceptual (de dos o
tres dimensiones) de tal manera que las distancias entre puntos en el espacio
se ajusten a las diferencias tan cerca como sea posible. En muchos casos, las
dimensiones de este espacio conceptual puede ser interpretado y usado
posteriormente para interpretar los datos. Si se han medido las variables
objetivamente, se puede utilizar el escalado multidimensional como una tcnica
de reduccin de datos. Se puede aplicar tambin a calificaciones subjetivas de
diferencias entre objetos o conceptos. Adicionalmente, el procedimiento puede
manejar datos no similares de fuentes mltiples, como diferentes
encuestadores o encuestados.
Por ejemplo, Cmo percibe la gente las relaciones entre diferentes coches? Si
se tienen datos de encuestas indicando calificaciones de similaridad entre
diferentes fabricantes y modelos de coches, el escalado multidimensional
puede ser utilizado para identificar dimensiones que describan las
percepciones de los clientes.
Se podra encontrar por ejemplo, que el precio y tamao de un vehculo define
un espacio de dos dimensiones, que contiene las similaridades reportadas por
los encuestados.
&onstruyendo un mapa de la matri! de distancias
El escalado multidimensional es una tcnica que est diseada para construir
un "mapa mostrando las relaciones entre un nmero de objetos, dada slo una
tabla de distancias entre ellos. El "mapa puede estar en una dimensin (si
caen en una lnea), en dos dimensiones (si los objetos se encuentran en un
plano), en tres dimensiones ( si los objetos pueden ser representados por
puntos en el espacio), o en un nmero mayor de dimensiones.
Por ejemplo, las distancias entre cuatro objetos A, B, C y D se tiene:
Pg. 191
A - & D
A 0 6 6 2.5
- 6 0 9.5 7.8
& 6 9.5 0 3.5
D 2.5 7.8 3.5 0
B
A
D
C
La distancia al mismo objeto es cero. El objeto puede ser reconstruido con
base en las distancias de la matriz.
4rocedimiento para escalado multidimensional
El escalado multidimensional clsico inicia con una matriz de distancias entre n
objetos que tienen i< , la distancia del objeto i al objeto <, en el rengln i-simo
y la columna j-sima. El nmero de dimensiones t3 para el mapeo de objetos es
fijo para una solucin en particular. Los pasos que se siguen en los programas
computacionales son los siguientes:
1. Una configuracin inicial es preparada para los n objetos en t dimensiones,
i.e., se asumen las coordenadas ExA3 x'3 B3 xtF para cada objeto en un espacio
dimensional t.
2. Se calculan las distancias euclidianas entre los individuos para la
configuracin. Sea di< la distancia entre individuos i y <7
3. Se hace una regresin de di< sobre i<3 la ltima es la distancia entre
individuos i y < con base en los datos de entrada.
La regresin puede ser lineal, polinmica o monotnica. Por ejemplo una
regresin lineal asume que:
+ + =
ij ij
% a d
Pg. 192
La regresin monotnica asume que si varia delta puede incrementar de la di< o
mantenerse constante, sin establecerse una relacin entre las variables.
Las distancias obtenidas ij ij
% a d + =
2
de la regresin se denominan
"disparidades, que son las distancias i< escaladas para ajustar a la
configuracin de di< tan cerca como sea posible:
4. La bondad de ajuste entre las distancias de la configuracin y las
disparidades se mide con un estadstico adecuado, que puede ser el STRESS,
que es:
{ }
2 / 1
2 2
2
/ )
2
( 1

=
ij ij ij
d d d ST"/SS
El trmino STRESS indica la amplitud a la cual la configuracin espacial de
puntos tiene que ser estresada para obtener los datos de distancias i< .
5. Las coordenadas ExA3 x'3 B3 xtF de cada objeto se cambia ligeramente para
reducir el estrs.
Los pasos 2 a 5 se repiten hasta que parece que el estrs no se puede reducir
ms. Como resultados del anlisis se tienen las coordenadas de los n
individuos en las t dimensiones. Estas coordenadas pueden utilizarse para
dibujar un mapa que muestre como se relacionan los individuos. Es deseable
encontrar una buena solucin en tres o menos dimensiones, para poder hacer
una representacin grfica adecuada.
'%emplo,
Con base en un "mapa de carreteras de una isla de Nueva Zelanda de 13
ciudades. Como las distancias no son proporcionales a las distancias
geogrficas no es posible recuperar exactamente el mapa de las carreteras.
Pg. 193
'scalado multidimensional
Alejandra Balclutha Blenheim Christchurch Dunedin
Franza
Josef Greymouth nvercargill Milford Nelson Queenstown
Te
anau Timaru
Alejandra 0 100 485 284 126 233 347 138 248 563 56 173 197
Balclutha 100 0 478 276 50 493 402 89 213 537 156 138 177
Blenheim 485 478 0 201 427 327 214 567 691 73 494 615 300
Christchurch 284 276 201 0 226 247 158 365 489 267 305 414 99
Dunedin 126 50 427 226 0 354 352 139 263 493 192 188 127
Franza_Josef 233 493 327 247 354 0 114 380 416 300 228 366 313
Greymouth 347 402 214 158 352 114 0 493 555 187 341 480 225
nvercargill 138 89 567 365 139 380 493 0 174 632 118 99 266
Milford 248 213 691 489 263 416 555 174 0 756 178 75 377
Nelson 563 537 73 267 493 300 187 632 756 0 572 681 366
Queenstown 56 156 494 305 192 228 341 118 178 572 0 117 230
Te_anau 173 138 615 414 188 366 480 99 75 681 117 0 315
Timaru 197 177 300 99 127 313 225 266 377 366 230 315 0
&orrida con .4..
1. Analyze > Scale > Multidimensional scaling
2. Pasar todas las variables (dimensions min 2 max 2)
3. Options: Group plots; ndividual subject plots; Data Matriz; Model summary
4. OK
Alscal
Alscal !rocedure )ptions
Data )ptions6
'um"er o# 5o(s 9)"servationsNMatrix;, +.
'um"er o# &olumns 9Varia"les; , , , +.
'um"er o# Matrices , , , , , , +
Measurement Level , , , , , , , )rdinal
Data Matrix %?ape , , , , , , , %ymmetric
Type , , , , , , , , , , , Dissimilarity
Approac? to Ties , , , , , , , Leave Tied
&onditionality , , , , , , , , Matrix
Data &uto## at , , , , , , , , ,------
Model )ptions6
Model , , , , , , , , , , , Euclid
Maximum Dimensionality , , , , , $
Minimum Dimensionality , , , , , $
'egative eig?ts , , , , , , , 'ot !ermitted
)utput )ptions6
Jo" )ption =eader , , , , , , , !rinted
Data Matrices , , , , , , , , !rinted
&on#igurations and Trans#ormations , !lotted
)utput Dataset , , , , , , , , 'ot &reated
Pg. 194
@nitial %timulus &oordinates , , , &omputed
Algorit?mic )ptions6
Maximum @terations , , , , , , .-
&onvergence &riterion , , , , , ,--+--
Minimum %6stress , , , , , , , ,--*--
Missing Data Estimated "y , , , , Cl"ounds
Tiestore , , , , , , , , , , 02
5a( 9unscaled; Data #or %u":ect +
+ $ . 1 *
+ ,---
$ +--,--- ,---
. 12*,--- 102,--- ,---
1 $21,--- $06,--- $-+,--- ,---
* +$6,--- *-,--- 1$0,--- $$6,--- ,---
6 $..,--- 1/.,--- .$0,--- $10,--- .*1,---
0 .10,--- 1-$,--- $+1,--- +*2,--- .*$,---
2 +.2,--- 2/,--- *60,--- .6*,--- +./,---
/ $12,--- $+.,--- 6/+,--- 12/,--- $6.,---
+- *6.,--- *.0,--- 0.,--- $60,--- 1/.,---
++ *6,--- +*6,--- 1/1,--- .-*,--- +/$,---
+$ +0.,--- +.2,--- 6+*,--- 1+1,--- +22,---
+. +/0,--- +00,--- .--,--- //,--- +$0,---
6 0 2 / +-
6 ,---
0 ++1,--- ,---
2 .2-,--- 1/.,--- ,---
/ 1+6,--- ***,--- +01,--- ,---
+- .--,--- +20,--- 6.$,--- 0*6,--- ,---
++ $$2,--- .1+,--- ++2,--- +02,--- *0$,---
+$ .66,--- 12-,--- //,--- 0*,--- 62+,---
+. .+.,--- $$*,--- $66,--- .00,--- .66,---
++ +$ +.
++ ,---
+$ ++0,--- ,---
+. $.-,--- .+*,--- ,---
@teration ?istory #or t?e $ dimensional solution 9in s7uared
distances;
Aoung<s %6stress #ormula + is used,
@teration %6stress @mprovement
+ ,-26-*
$ ,-6-+- ,-$*/6
. ,-*0/* ,--$+1
1 ,-*0.- ,---66
@terations stopped "ecause
%6stress improvement is less t?an ,--+---
%tress and s7uared correlation 95%T; in distances
5%T values are t?e proportion o# variance o# t?e scaled data
9disparities;
in t?e partition 9ro(, matrix, or entire data; (?ic?
is accounted #or "y t?eir corresponding distances,
%tress values are Jruskal<s stress #ormula +,
For matrix
Pg. 195
%tress 4 ,-*.+6 5%T 4 ,/26$1
&on#iguration derived in $ dimensions
%timulus &oordinates
Dimension
%timulus %timulus + $
'um"er 'ame
+ ALEJA'D5 ,0$-$ 6,.+.6
$ EAL&LCT= ,212+ ,00+/
. ELE'=E@M 6+,/2/0 ,1.//
1 &=5@%T&= 6,/.1* ,.1*$
* DC'ED@' ,*.-0 ,*0/-
6 F5A'IA 6,6/0. 6+,$1*6
0 >5EAM) 6+,..$6 6,*6/0
2 @'VE5&A5 +,$0// ,.2/2
/ M@LF)5D +,2+.$ 6,.11-
+- 'EL%)' 6$,.$.. ,-0+1
++ TCEE'%T ,2-22 6,12/*
+$ TERA'AC +,161+ 6,$2++
+. T@MA5C 6,+20* ,616+
)ptimally scaled data 9disparities; #or su":ect +
+ $ . 1 *
+ ,---
$ ,/-+ ,---
. $,0/. $,0/. ,---
1 +,2-0 +,2-0 +,+/0 ,---
* ,/-+ ,$/0 $,*/0 +,*.. ,---
6 +,*.. $,0/. $,++$ +,*.. $,+//
0 $,++$ $,*.* +,.10 ,//6 $,+2/
2 ,/2$ ,*00 .,$$6 $,$+* ,/2$
/ +,*.. +,.10 .,22. $,0/. +,*..
+- .,+*0 .,+*0 ,1.$ +,*.. $,0/.
++ ,$/0 ,//6 $,/1/ +,/1+ +,+/-
+$ ,//6 ,/2$ .,*$2 $,*.* +,+/-
+. +,+/0 +,-$/ +,/1+ ,0*. ,/-+
6 0 2 / +-
6 ,---
0 ,/-+ ,---
2 $,*.* $,0/. ,---
/ $,*/0 .,+*0 ,//6 ,---
+- +,/1+ +,+2- .,6+0 1,+*0 ,---
++ +,*.. $,++$ ,/-+ +,-$/ .,$$6
+$ $,$0+ $,0/. ,0*. ,1.$ .,2-1
+. +,/1+ +,*.. +,*.. $,$0+ $,$0+
++ +$ +.
++ ,---
+$ ,/-+ ,---
+. +,*.. +,/1+ ,---
Pg. 196
Derived Stimulus Configuration
Euclidean distance model
Dimension 1
2 1 0 -1 -2 -3
D
i
m
e
n
s
i
o
n

2
1.0
.5
0.0
-.5
-1.0
-1.5
timaru
te_anau
queenst
nelson
milf ord
invercar
greymo
f ranza
dunedin
christch
blenheim
balcluth
alejandr
Scatterplot of Linear Fit
Disparities
5 4 3 2 1 0
D
i
s
t
a
n
c
e
s
5
4
3
2
1
0
Scatterplot of Nonlinear Fit
Observations
800 700 600 500 400 300 200 100 0
D
i
s
t
a
n
c
e
s
5
4
3
2
1
0
Pg. 197
Transformation Scatterplot
Observations
800 700 600 500 400 300 200 100 0
D
i
s
p
a
r
i
t
i
e
s
5
4
3
2
1
0
Ahora con Minitab:
1. Graph > Scatterplot > Simple
2. Y Variables Z2; X Variables Z1
3. Labels > Data labels > Use labels from column Ciudad
4. OK
<1
<
2
2 1 0 -1 -2
1.0
0.5
0.0
-0.5
-1.0
-1.5
Timaru
Te anau
Queenstown
Nelson
Milford
nvercargill
Greymouth
Franza Josef
Dunedin
Christchurch
Blenheim
Balclutha
Alej andra
Pg. 198
'%emplo *A+&#,
4aso 1, #(%etios del mapeo perceptual
El propsito del estudio es explorar la imagen y competitividad de Hatco,
atendiendo las percepciones del mercado sobre Hatco y nueve competidores,
as como investigar preferencias, entre clientes potenciales.
4aso 2. DiseLo del estudio de mapeo perceptual
Se hacen entrevistas con 18 gerentes medios de diferentes empresas
representantes de la base de clientes potenciales existente en el mercado. Se
colectaron tres tipos de datos: juicios de similaridad; calficacin de atributos de
las organizaciones; y preferencias de cada organizacin en diferentes
situaciones de compra.
Datos de similaridad
Los juicios de similaridad se realizaron con enfoque de comparacin de objetos
pareados. Los 45 pares de organizaciones [(10 x 9)/2] se presentaron a los
encuestados, quienes indicaron que tan similares eran en una escala de nueve
puntos, con 1 "no similar y 9 "muy similar, los valores deben ser
transformados ya que valores altos de similaridad indican mayor similitud, lo
opuesto a una distancia de similaridad.
Calificacin de atributos
Se obtuvieron calificaciones para los ocho atributos de cada organizacin,
incluyendo: calidad, orientacin de la direccin, calidad del servicio, rapidez de
entrega, nivel de precios, imagen de la fuerza de ventas, flexibilidad de precios,
e imagen de manufactura. En este caso, se pidi a cada encuestado
seleccionar la organizacin que mejor caracterizaba el atributo, podran ser
varias organizaciones.
Evaluacin de preferencias
Pg. 199
Se evaluaron las preferencias de los encuestados ante tres diferentes
situaciones de compra: recompra repetitiva, recompra modificada, y nueva
situacin de compra. La calificacin fue de 1 para la organizacin ms
preferida, 2 para la siguiente en importancia, etc.
4aso 3. .upuestos en el mapeo perceptual
Los supuestos del MSD (escalamiento mltiple) y CA (anlisis de
correspondencia) tratan principalmente con la comparabilidad y
representatividad de los objetos evaluados y de los encuestados. Por lo que
deben ser seleccionados cuidadosamente.
asos 3 y 45 %scalado multidimensional
Se especifica un anlisis composicional (MDS) y uno composicionla (CA) para
la construccin de los mapas preceptales, se inicia con el MDS.
4aso M, #(tener resultados del MD. y ealuar el a%uste del modelo
Los 45 juicios de similaridad de los 18 encuestados se procesaron como
matrices separadas, y una matriz de promedios de valores se calcul para
ilustrar el patrn de similaridades. Los datos se muestran a continuacin:
EJEMPLO DE MDS Y CA
EMPRESA *A+&# A - & D ' 0 6 * 5
*A+&# 0 6.61 6.61 2.33 2.56 4.06 2.5 2.33 2.44 6.17
A 6.61 0 6.61 2.61 2.56 2.39 3.5 2.39 4.94 6.94
- 6.61 6.61 0 3.44 4.11 2.17 4 3.72 6.61 2.83
& 2.33 2.61 3.44 0 6.94 4.06 2.22 2.67 2.5 2.5
D 2.56 2.56 4.11 6.94 0 2.39 2.17 2.61 7.06 2.5
' 4.06 2.39 2.17 4.06 2.39 0 4.06 3.67 5.61 3.5
0 2.5 3.5 4 2.22 2.17 4.06 0 2.28 2.83 6.94
6 2.33 2.39 3.72 2.67 2.61 3.67 2.28 0 2.56 2.44
* 2.44 4.94 6.61 2.5 7.06 5.61 2.83 2.56 0 2.39
5 6.17 6.94 2.83 2.5 2.5 3.5 6.94 2.44 2.39 0
&orrida con .4..
1. Analyze > Scale > Multidimensional scaling

2. Pasar todas las variables
Pg. 200
3 Seleccionar Data are distances; Shape Square Symmetric Continue
4. Model: Seleccionar Level of measurements Ordinal Dimensions Min 2 Max 2
4. Options: Group plots; ndividual subject plots; Data Matrix; Model summary
4. OK
Alscal
Alscal !rocedure )ptions
Data )ptions6
'um"er o# 5o(s 9)"servationsNMatrix;, +-
'um"er o# &olumns 9Varia"les; , , , +-
'um"er o# Matrices , , , , , , +
Measurement Level , , , , , , , )rdinal
Data Matrix %?ape , , , , , , , %ymmetric
Type , , , , , , , , , , , Dissimilarity
Approac? to Ties , , , , , , , Leave Tied
&onditionality , , , , , , , , Matrix
Data &uto## at , , , , , , , , ,------
Model )ptions6
Model , , , , , , , , , , , Euclid
Maximum Dimensionality , , , , , $
Minimum Dimensionality , , , , , $
'egative eig?ts , , , , , , , 'ot !ermitted
)utput )ptions6
Jo" )ption =eader , , , , , , , !rinted
Data Matrices , , , , , , , , !rinted
&on#igurations and Trans#ormations , !lotted
)utput Dataset , , , , , , , , 'ot &reated
@nitial %timulus &oordinates , , , &omputed
Algorit?mic )ptions6
Maximum @terations , , , , , , .-
&onvergence &riterion , , , , , ,--+--
Minimum %6stress , , , , , , , ,--*--
Missing Data Estimated "y , , , , Cl"ounds
Pg. 201
Tiestore , , , , , , , , , , 1*
5a( 9unscaled; Data #or %u":ect +
+ $ . 1 *
+ ,---
$ 6,6+- ,---
. 6,6+- 6,6+- ,---
1 $,..- $,6+- .,11- ,---
* $,*6- $,*6- 1,++- 6,/1- ,---
6 1,-6- $,./- $,+0- 1,-6- $,./-
0 $,*-- .,*-- 1,--- $,$$- $,+0-
2 $,..- $,./- .,0$- $,60- $,6+-
/ $,11- 1,/1- 6,6+- $,*-- 0,-6-
+- 6,+0- 6,/1- $,2.- $,*-- $,*--
6 0 2 / +-
6 ,---
0 1,-6- ,---
2 .,60- $,$2- ,---
/ *,6+- $,2.- $,*6- ,---
+- .,*-- 6,/1- $,11- $,./- ,---
Larning U +16*1
LT?e total num"er o# parameters "eing estimated 9t?e num"er o#
stimulus
Lcoordinates plus t?e num"er o# (eig?ts, i# any; is large relative to
t?e
Lnum"er o# data values in your data matrix, T?e results may not "e
relia"le
Lsince t?ere may not "e enoug? data to precisely estimate t?e values
o# t?e
Lparameters, Aou s?ould reduce t?e num"er o# parameters 9e,g,
re7uest
L#e(er dimensions; or increase t?e num"er o# o"servations,
L'um"er o# parameters is $-, 'um"er o# data values is 1*
@teration ?istory #or t?e $ dimensional solution 9in s7uared
distances;
Aoung<s %6stress #ormula + is used,
@teration %6stress @mprovement
+ ,.106$
$ ,.+6** ,-.+-0
. ,.-110 ,-+$-2
1 ,$/..- ,-+++6
* ,$2*11 ,--020
6 ,$0//* ,--*1/
Pg. 202
0 ,$02-/ ,--+26
2 ,$00.6 ,---0$
@terations stopped "ecause
%6stress improvement is less t?an ,--+---
%tress and s7uared correlation 95%T; in distances
5%T values are t?e proportion o# variance o# t?e scaled data
9disparities;
in t?e partition 9ro(, matrix, or entire data; (?ic?
is accounted #or "y t?eir corresponding distances,
%tress values are Jruskal<s stress #ormula +,
For matrix
%tress 4 ,$+0++ 5%T 4 ,6*-1+
&on#iguration derived in $ dimensions
%timulus &oordinates
Dimension
%timulus %timulus + $
'um"er 'ame
+ =AT&) +,11$+ ,1606
$ A 6,02./ +,.***
. E 6,/66$ 6+,*$$-
1 & ,/1-2 6,*02+
* D 6,0.12 +,+2//
6 E 6+,6160 6,-260
0 F ,2221 ,//*-
2 > ,-.2- ,+120
/ = +,.2-- 6,0+.1
+- @ 6,**02 6+,$*6*
)ptimally scaled data 9disparities; #or su":ect +
+ $ . 1 *
+ ,---
$ $,0/. ,---
. $,0/. $,0/. ,---
1 +,11* +,6$+ +,0/6 ,---
* +,6+6 +,6+6 $,0/. $,0/. ,---
6 $,0/. +,*0$ +,11* $,0/. +,*0$
0 +,*0$ +,0/6 $,0/. +,11* +,11*
2 +,11* +,*0$ +,/1/ +,6$+ +,6$+
Pg. 203
/ +,*0$ $,0/. $,0/. +,*0$ $,21*
+- $,0/. $,0/. +,6$+ +,*0$ +,*0$
6 0 2 / +-
6 ,---
0 $,0/. ,---
2 +,0/6 +,11* ,---
/ $,0/. +,6$+ +,6+6 ,---
+- +,0/6 $,0/. +,*0$ +,*0$ ,---
Derived Stimulus Configuration
Dimension 1
1.5 1.0 .5 0.0 -.5 -1.0 -1.5 -2.0
D
i
m
e
n
s
i
o
n

2
1.5
1.0
.5
0.0
-.5
-1.0
-1.5
-2.0
i
h
g
f
e
d
c
b
a
hatco
Scatterplot of Linear Fit
Disparities
3.0 2.8 2.6 2.4 2.2 2.0 1.8 1.6 1.4
D
i
s
t
a
n
c
e
s
3.5
3.0
2.5
2.0
1.5
1.0
.5
0.0
Pg. 204
Scatterplot of Nonlinear Fit
Observations
8 7 6 5 4 3 2
D
i
s
t
a
n
c
e
s
3.5
3.0
2.5
2.0
1.5
1.0
.5
0.0
Transformation Scatterplot
Observations
8 7 6 5 4 3 2
D
i
s
p
a
r
i
t
i
e
s
3.0
2.8
2.6
2.4
2.2
2.0
1.8
1.6
1.4
Pg. 205

Metodo Analisis Multivariado

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Metodo Analisis Multivariado

Transféré par

Droits d'auteur :

Formats disponibles

MTODOS ESTADSTCOS MULTVARADOS P.

REYES / MARZO 2007

Si se especifica una columna inicial de particin, no es necesario

Denota las observaciones en =.

El polinomio resultante es:

= promedio de todas las observaciones

= valor de la observacin individual i

La columna Mass tiene el mimo significado que en la tabla de perfiles de

La columna denominada nert, es la proporcin en la que contribuye

La columna Mass tiene el mi s mo significado que en la tabla de perfiles

La columna denominada &nert , es la proporcin en la que contribuye

Vous aimerez peut-être aussi