Apuntes de Estadistica Social Cap 2 Analisis - Factorial

ESTADISTICA SOCIAL Arturo Calderón G.
2012
Capítulo 2
Análisis Factorial
Esta técnica permite construir un modelo que explica las relaciones existentes dentro de un conjunto de p
variables X1,X2,…,Xp cuantitativas y observables directamente, en términos de otro conjunto con menor
número m de variables F1,F2,…,Fm llamadas factores y que se caracterizan por no ser observables direc-
tamente.
El ejemplo típico en Psicología es el de una prueba psicométrica unidimensional, donde hay un atributo (o
constructo) que tiene una definición constitutiva F1 (teórica) que genera una definición operacional de
tipo T = X1 + X2 + … + Xp. En este contexto, los p ítems de la prueba son las variables X1,X2,…,Xp y hay
un sólo factor F1, cuyo valor es estimado por T.
En cambio, si la prueba tuviera m dimensiones, los factores F1,F2,…,Fm serían las definiciones constitu-
tivas de estas dimensiones y los p ítems X1,X2,…,Xp se “distribuyen” entre los m factores, de modo que
cada factor está asociado a sólo algunos, digamos k de los p ítems y suele ser estimado mediante la suma
o promedio de ésos ítems.
2.1 Elementos Primarios

Como se dijo, los factores deben “explicar” las relaciones entre las variables. Estas relaciones se cuan-
tifican a partir de los “cambios” que se observa en las variables al pasar de un individuo a otro. En este
sentido, es necesario medir primero el denominado cambio. En el estudio simultáneo de características
cuantificadas, hay dos descriptores básicos del "cambio" que se produce en éstas al pasar de un caso o
sujeto de estudio a otro. Estos descriptores son:
La Varianza
Mide cuánto varía una característica específica de sujeto a sujeto. A mayor varianza, mayor variabilidad.
Recordemos que la varianza de una variable X i se define mediante S X i  2  ( X i  X i )2

n 1
La Correlación
Mide cómo y cuánto varían de manera conjunta o simultánea dos características, al pasar de un caso o
sujeto a otro. La correlación dice si la relación es a cambiar en el mismo sentido (si es positiva) o si es a
cambiar en sentido opuesto (si es negativa), así como indica (si prescindimos de su signo), qué tan fuerte
es la variación conjunta. Por ejemplo, Ingreso y Gasto están asociadas directamente, y la relación entre
ellos es más estrecha que la que existe entre Ingreso y Gasto en Educación.
La definición formal de la correlación rX i X j es rX i X j 

 ( X i  X i )( X j  X j )
( n  1) S X i S X j
Nota
(a) La variabilidad total presente en todas las p variables se mide con la Varianza Total VT   S X2 i
(b) Las correlaciones entre todas las variables se registra en una tabla cuadrangular de correlaciones,
llamada “Matriz de Correlaciones” y que denotaremos R
(c) No se incluyen las medias de las p variables porque en Psicología casi todas las variables están
medidas en escala de intervalo y en ese contexto la media siempre es relativa, puede cambiarse con
una simple traslación, pero, y esto es más importante, la media es parámetro de posición y no de forma
1
ESTADISTICA SOCIAL Arturo Calderón G. 2012
o de dispersión, y en el modelo factorial lo que se estudia es la “estructura” de las relaciones entre

variables, que tiene que ver con la variabilidad, tanto individual (medida por la varianza) como la
variación lineal conjunta (medida por las correlaciones).
La “explicación” aludida líneas arriba, se refiere a dar cuenta del efecto de los m factores en VT y
en la estructura de R
Variables latentes y variables manifiestas

En la cuantificación de atributos no físicos, como preferencias por ejemplo, normalmente el investigador
no llega a observar directamente el atributo de interés, sino que sólo logra registrar un conjunto de
manifestaciones del atributo, en forma de puntajes subjetivos o valoraciones; no son mediciones directas
del atributo que se quiere investigar. Por lo anterior podemos distinguir dos tipos de variables:
Variables Manifiestas
Formadas por los puntajes o registros numéricos que se obtienen en la muestra al registrarlos en los casos.
Son llamadas también "variables observables".
Variables Latentes
Son los atributos que se intenta distinguir a partir de las variables manifiestas, pues se registra su
presencia a partir de sus efectos (“manifestaciones”) en dichas variables. Por definición son "no
observables". También se las llama dimensiones o factores o constructos.
Por ejemplo, la “Afectividad positiva” entendida como conjunto de estados subjetivos valorados como
positivos por la persona y que tienen diferente nivel de activación, es un constructo que se mide con ítems
referidos a estados emocionales concretos y su intensidad/frecuencia durante determinado periodo. Otro
ejemplo, aunque más polémico es el del "Estatus Socioeconómico", que se mide a partir de sus
"manifestaciones" más directas, como Ingreso, Escolaridad, Distrito de residencia, Posición en el centro
de trabajo, Tipo de Trabajo, etc.
Si se está trabajando con varios atributos, es perfectamente normal que un mismo puntaje resulte "teñido"
de más de un atributo o que refleje a varios de ellos. Surge entonces el problema de determinar la o las
dimensiones "responsables de" (o asociadas a) cada variable registrada, así como medir el "peso" que
estas dimensiones tienen, para luego cuantificarlas de modo indirecto, separando de la cuantificación los
elementos fortuitos, aquellos que son producto del azar. Para hacer esto es necesario imponer algunos
supuestos y simplificaciones. La técnica estadística que se encarga de esta tarea es el Análisis Factorial.
Ejemplo
Supongamos que tenemos valores observados o registros de las variables
X 1 = Número de palabras que escribe una persona por minuto
X 2 = Número de palabras que lee una persona por minuto
X 3 = Número de metros que corre una persona por minuto
X 4 = Número de metros que nada una persona por minuto
Por razones teóricas, que no viene al caso explicar ahora, consideremos los factores no observables:
F1 = Coordinación visomotora de la persona

F2 = Estado físico general de la persona
2
Resulta intuitivo que X 1 y X 2 dependen más de F1 y menos de F2 , en cambio X 3 y X 4 están más

relacionadas con F2 y mucho menos con F1 .
Además en cualquier caso, no toda la “cantidad” (sea cual fuere el significado de cantidad) de F1 que
tiene el individuo interviene en la producción de X 1 o X 2 . Y lo mismo ocurre con X 3 y X 4 en relación
a “su” factor natural F2 .
Si pensamos en términos de proporcionalidad, podríamos decir, por ejemplo, que la cantidad X 1 de

palabras escritas debe ser proporcional a la magnitud de coordinación visomotora F1 que tiene la persona
y también debe responder en algo (pero mucho menos) a la magnitud de su estado físico F2 . La expresión
formal de esto lleva a una ecuación del tipo X 1  aF1  bF2 , donde a y b son las correspondientes cons-
tantes de proporcionalidad (aquí esperamos un a “grande” y un b “muy pequeño”, casi cero).
Pero sobre este “efecto factorial”, también puede agregarse el efecto del azar (por ejemplo, condiciones de
visibilidad derivadas del clima, que no controlamos) y entonces el valor observado de X 1 no coincidirá
exactamente con aF1  bF2 . Completemos la ecuación escribiendo X 1  aF1  bF2   1 , donde  1 es el
“efecto del azar”.
Análogamente se formulan las demás ecuaciones, cada una con sus propias constantes de proporciona-
lidad y efectos de azar, donde estos últimos no tienen por qué ser siempre iguales, pues, por ejemplo, el
azar manifestado por un mal clima no afecta lo mismo a la cantidad de palabras X1 que podemos leer que
a la cantidad X4 de metros que podemos nadar.
Se llega así a un sistema como:

X 1  aF1  bF2   1
X 2  cF1  dF2   2
X 3  eF1  gF2   3
X 4  hF1  lF2   4
Sistema que describe formal o matemáticamente la relación entre las cuatro variables observables o ma-
nifiestas X 1 , X 2 , X 3 y X 4 con los dos factores o variables latentes F1 , F2 y con el azar, representado
por  1 ,  2 ,  3 y  4 .
Si pudiéramos estimar los valores de las constantes de proporcionalidad a,b, etc. se llegaría a algo similar
a:
X 1  0.7F1  0.1F2  1
X 2  0.8F1  0.2F2   2
X 3  0.1F1  0.8F2   3
X 4  0.1F1  0.9F2   4
en donde las magnitudes de los coeficientes corresponden a la mayor o menor intensidad con que cada
factor interviene en la generación de las variables. O equivalentemente, miden la importancia que tiene
cada factor en cada variable manifiesta.
¿Qué otras cosas nos dicen estas ecuaciones, cosas que figuran implícitamente y que tenemos que
descubrir?
3
Para responder necesitamos recordar dos propiedades:
 Propiedad 1. Si tenemos una variables aleatoria, digamos W , que es promedio ponderado de otras
variables independientes, digamos W  w1 F1  w2 F2  w3G entonces
V (W )  ( w1 ) 2 V ( F1 )  ( w2 ) 2 V ( F2 )  ( w3 ) 2 V (G)
 Propiedad 2. Si además tenemos otra variable aleatoria como T  t1 F1  t 2 F2  t 3 H entonces
también se cumple rWT  w1t1  w2 t 2  w3t 3 rGH
Entonces, si calculamos varianzas, tenemos para X 1 :

V ( X 1 )  V (0.7 F1  0.1F2   1 )  0.7 2 V ( F1 )  0.12 V ( F2 )  V ( 1 )
Y aquí tendremos que admitir que, como no podemos observar los factores, a los más tendremos que con-
tentarnos con estar en capacidad de distinguir si una persona tiene un determinado nivel de cada uno, por
ejemplo, si tiene un evidente buen estado físico o si su coordinación visomotora es mala. Para ello es sufí-
ciente el tener los factores en puntuaciones Z de media 0 y varianza 1, así que asumiendo eso y que el azar
en el caso de X 1 tiene sus especificidades que se manifiestan en una varianza V ( 1 )   12 , llegamos a:
V ( X 1 )  0.7 2 V ( F1 )  0.12 V ( F2 )  V (1 )  0.49  0.01   12  0.50   12 .
La varianza de X 1 se ha desagregado en dos partes, la primera de magnitud 0.50 se debe al efecto de los
factores F1 y F2 , donde el primero tiene mucho más peso, 0.49 sobre un total de 0.50
Si, para simplificar más, asumimos que hemos pasado las variables observables X 1 , X 2 , X 3 y X 4 a
puntuaciones Z, entonces V ( X 1 )  1 y la ecuación anterior deviene en
1  0.49  0.01   12  0.50   12 que permite ser más preciso, pues 0.50 es el 50% de 1 y eso
quiere decir que el 50% de la varianza de X 1 se debe a los factores; o equivalentemente el 50% de las
diferencias entre las personas en el número de palabras que escriben por minuto, se debe a sus diferencias
en Coordinación visomotora y en Estado físico general, predominando la Coordinación.
Por otro lado, examinando las ecuaciones, se ve que X 1 y X 2 deben estar bastante correlacionadas pues
responden principalmente al mismo factor F1 . Aplicando la propiedad 2 y en términos de las ecuaciones
tenemos: rX1 X 2  0.7  0.8  0.1 0.2  0.56  0.02  0.58 y de nuevo se tiene que la mayor parte de la
correlación entre X 1 y X 2 se debe a F1 (que da cuenta de 0.56 de una correlación total de 0.58). Por otra
parte, X 1 y X 3 al responder a factores diferentes, deben correlacionar poco o nada. En efecto:
rX1 X 3  0.7  0.1  0.1 0.8  0.07  0.08  0.15 , que es, según el Criterio de Cohen, una correlación irrele-
vante.
Finalmente, y esto es lo más importante, rX1F1  a  0.7 y rX1F2  b  0.1
Análogamente a X1, con X2 tendríamos:
V ( X 2 )  0.82 V ( F1 )  0.22 V ( F2 )  V (1 )  0.64  0.04   22  0.68   22 y si X 2 fuera

variable estandarizada, tendríamos: 1  0.68   2
2
También rX 2 X 3  0.8  0.1  0.2  0.8  0.08  0.16  0.24 ; rX 2 F1  c  0.8 y rX 2 F2  d  0.2
4
De modo similar ocurre con las otras variables X 3 y X 4 , de modo que resumiendo, se puede llegar a
tablas como las siguientes:
Tabla 1. Correlaciones Item-Factor y varianzas asociadas a factores

Correlaciones Varianza Varianza Varianza
Item Item-Factor asociada asociada asociada a
F1 F2 a F1 a F2 factores
X1 0.7 0.1 0.49 0.01 0.50
X2 0.8 0.2 0.64 0.04 0.68
X3 0.1 0.8 0.01 0.64 0.65
X4 0.1 0.9 0.01 0.81 0.82
Varianza total
-- -- 1.15 1.50 2.65
asociada a factores
% de varianza
-- -- 28.75 37.5 66.25
respecto al total
Tabla 2. Correlaciones entre ítems generadas por los

Factores comunes
Correlaciones entre ítems reconstruidas
Item X1 X2 X3 X4
X1 1 0.58 0.15 0.16
X2 0.58 1 0.24 0.26
X3 0.15 0.24 1 0.73
X4 0.16 0.26 0.73 1
Se puede concluir que toda la información sobre las varianzas y correlaciones está en los coeficientes de
las ecuaciones. Estos coeficientes se llaman „cargas factoriales‟ y obtener estimaciones de sus valores es
la tarea más importante del análisis factorial.
2.2 El Problema
Asumamos p variables manifiestas y cuantitativas X1,X2,…,Xp. Para simplificar, asumamos también que
las variables han sido estandarizadas, de modo que todas tienen media 0 y varianza 1. Estas variables
están correlacionadas entre sí, en diverso grado y no necesariamente todas en la misma dirección.
La información sobre las variables esta dada por:
a) La variabilidad total presente en las p variables es VT   S X2 i

b) Las relaciones entre todas las variables, registrada en la “Matriz de Correlaciones” R de la forma:
 1 r12 r13 ... r1 p 
 
 r21 1 r23 ... r2 p 
R   r31 r32 1 ... r3 p 
 
 : : : ... : 
r 
 p1 rp 2 rp 3 ... 1 
El problema es explicar la variabilidad total y las relaciones existentes entre las p variables manifiestas
X1,X2,…,Xp en función de una cantidad menor m de variables latentes o factores F1,F2,…,Fm.
5
El supuesto básico es que los factores determinan el comportamiento de las variables manifiestas (obser-
vables) a través de relaciones de proporcionalidad y por tanto son los responsables tanto las diferencias
como las covariaciones que se presentan. La manera más simple de expresar algebraicamente el supuesto
básico es mediante ecuaciones lineales, lo que nos lleva al modelo factorial.
2.3 El Modelo Factorial Ortogonal
Asumamos que la relación entre las p variables manifiestas X1,X2,…Xp y las m de variables latentes
F1,F2,…,Fm se da a partir de un sistema (modelo) de ecuaciones lineales de la forma:
X 1  l11F1  l12 F2  l13F 3...  l1m Fm  1

X 2  l21F1  l22 F2  l23F 3...  l2m Fm   2
X 3  l31F1  l32 F2  l33F 3...  l3m Fm   3
:
X p  l p1 F1  l p 2 F2  l p3 F 3...  l pm Fm   p
donde:
X i = i-ésima variable observable

F j = j-ésimo factor
 i = residuo aleatorio o efecto específico del azar en la variable X i
lij = peso del factor F j en la variable X i
Asumamos además los siguientes supuestos:
 j , F j es variable estandarizada (i.e. con media 0 y varianza 1)

 i ,  i tiene media 0 y varianza  i2  0 específica para cada  i
 j , i las F j son independientes de las  i
 Las  i son independientes entre sí (esto es   ii '  0 )
 Las F j son independientes entre sí (esto es  Fj Fj '  0 ) (Modelo de factores independientes u
ortogonales)
Observaciones:
Estos supuestos son mínimos y razonables, pues como los factores no son observables, lo más que pode-
mos pedir de ellos es que nos permitan establecer una jerarquía entre sus valores, lo que se logra admi-
tiéndolos como puntuaciones Z, pues recordemos, Z>1, es considerado “valor arriba de lo promedio”,
Z < -1 es “Debajo de lo promedio” y -1 < Z < 1 es visto como”en el promedio”.
Por otra parte, el efecto del azar en Xi, representado por  i puede ser positivo o negativo por igual (si se
trata de azar puro) pero con una variabilidad específica de aquello que mide Xi, pues no todas las variables
son igual de sensibles al azar. Los supuestos de independencia permiten establecer que si hay correlación
entre dos variables manifiestas, digamos Xi y Xk esto se debe a que comparten un mismo factor por lo
menos.
La independencia entre factores es menos fácil de aceptar y por ello un modelo factorial con este supuesto
se llama “Ortogonal”. Es un supuesto simplificador pero no inevitable, y ocasionalmente será sacrificado
para mantener un modelo coherente con la teoría psicológica. Cuando se asume  F j F j '  0 se tiene el
Modelo de factores correlacionados u Oblicuos.
6
2.3.1 Consecuencias del modelo ortogonal
Tomando varianzas en las ecuaciones y recordando las independencias y que los coeficientes lij son no
aleatorios, resulta que:
V ( X i )  li21V ( F1 )  li22V ( F2 )  li23V ( F3 )  ...  lim
2
V ( Fm )  V ( i )
Recordando que V ( X i )  1 , V ( F j )  1 y llamando  2 a V ( i ) , se escribe
1  li21  li22  li23  ...  lim

2
  i2 (1)
Análogamente, calculando la correlación entre X i y F j , resulta:
 X F  lij
i j
(2)
Finalmente, calculando la correlación entre X i y X k :
 X X  li1lk1  li 2lk 2  li 3lk 3  ...  limlkm (3)

i k
 Como se ve, la varianza de cada variable X i queda descompuesta en dos partes: una que se puede ver
como “debida” a los factores (o explicada por los factores) que es (li21  li22  li23  ...  lim
2
) y otra
“debida” al azar (o residual) que es  i2 .
 La cantidad (li21  li22  li23  ...  lim

2
) se denota hi2 (esto es hi2  (li21  li22  li23  ...  lim
2
) ) y es llamada la
“Comunalidad” de X i , pues mide la proporción de varianza de X i que se debe a los factores. La
cantidad  i2 se conoce como “Varianza específica” y mide el efecto particular del azar en X i
 Las ecuaciones (1) y (3) muestran que son los factores los que generan las variaciones en las
variables y las correlaciones entre ellas.
 De todo lo anterior se deduce que la información clave está en el conjunto de coeficientes  l , lo

ij
que hace que el problema del análisis factorial se reduzca a estimar estos coeficientes lij , llamados
“cargas factoriales”.
Ejemplo
En el caso de las variables X 1 = Número de palabras que escribe una persona por minuto, X 2 =Número
de palabras que lee una persona por minuto, X 3 = Número de metros que corre una persona por minuto y
X 4 = Número de metros que nada una persona por minuto, con los factores F1 = Coordinación visomo-
tora de la persona y F2 = Estado físico general de la persona. Asumamos que la estimación de las cargas
factoriales produce el sistema:
X 1  0.7F1  0.1F2  1
X 2  0.8F1  0.2F2   2
X 3  0.1F1  0.8F2   3
X 4  0.1F1  0.9F2   4
7
En este contexto, tendríamos:
h12  0.7 2  0.12  0.5 y  12  1  h12  0.5 ; h22  0.82  0.2 2  0.68 y  22  1  h22  0.32 y
rX1 X 2  0.7  0.8  0.2  0.1  0.56  0.02  0.58 , etc., que se presenta en un formato comprimido como el
mostrado en las tablas 1 y 2 ya presentadas y que repetimos, aquí ampliando la tabla 1
Tabla 3. Correlaciones Item-Factor y varianzas asociadas a factores y residual

Correlaciones Varianza
Varianza
Item-Factor Varianza Varianza asociada al
asociada a
asociada asociada azar
Item factores
a F1 a F2 Varianza
F1 F2 Comunalidad
l i21 l i22 específica
hi2
 i2
X1 0.7 0.1 0.49 0.01 0.50 0.50
X2 0.8 0.2 0.64 0.04 0.68 0.32
X3 0.1 0.8 0.01 0.64 0.65 0.35
X4 0.1 0.9 0.01 0.81 0.82 0.18
Varianza total
-- -- 1.15 1.50 2.65 1.35
asociada a factores
% de varianza
-- -- 28.75 37.5 66.25 33.75
respecto al total
Tabla 4. Correlaciones entre ítems generadas por los

Factores comunes
Correlaciones entre ítems reconstruidas
Item X1 X2 X3 X4
X1 1 0.58 0.15 0.16
X2 0.58 1 0.24 0.26
X3 0.15 0.24 1 0.73
X4 0.16 0.26 0.73 1
2.3.2 Interpretación del modelo
Si tenemos un conjunto de características o variables de las cuales sabemos o sospechamos que son
manifestaciones de una cantidad menor de dimensiones o factores, podemos resumir esto mediante la
ecuación:
X  li1 F1  li 2 F2  ...  l3m Fm

i
 i
  
Variable Efecto Factorial Efecto Re sidual
Variable = Efecto de factores+ Efecto residual
En la ecuación se incluye el Efecto Residual para absorver efectos de tipo fortuito o aleatorio, que se su-
ponen de menor intensidad.
Asumimos que la ecuación se sostiene para todas y cada una de las variables, cambiando en cada caso la
magnitud del efecto factorial así como la participación o importancia de cada factor. Por ejemplo, en el
8
Ingreso Personal, está presente el Estatus, pero además hay otros elementos que no responden
directamente al estatus, y que explican el "resto" del Ingreso.
Los factores son los responsables (principales) de los valores de la variable; por tanto, son responsables o
"explican" el "cambio" que muestran éstas al pasar de un caso a otro. Es decir, son responsables de las
Varianzas de las variables y de las Correlaciones, por lo que la mayor parte del esfuerzo del análisis se
centra en aislar en estos descriptores las partes atribuibles a los factores.
2.3.2.1 Relación de los Factores con las Varianzas.
Si los factores son los principales responsables de la varianza de cada variable, entonces lo son de la
Varianza Total presente en el grupo de variables. Esta varianza total es la suma simple de las varianzas, y
de ella un porcentaje es efecto de factores. Como las variables pueden estar en distintas unidades de
medida y/o pueden ser de naturaleza diversa, sumarlas directamente puede carecer de sentido. Por lo
anterior, es usual estandarizarlas primero, esto es pasarlas todas a puntajes Z con media 0 y varianza 1, y
luego sumar las varianzas. Con este sistema la Varianza Total es igual al Número de Variables en el
análisis. Adicionalmente, como es de esperar que el número de factores sea menor (mucho menor) que el
de variables, se espera que cada factor tenga una varianza mayor o igual que 1, ya que si no fuera así,
separarían a los casos con menor intensidad que las variables originales, lo que sería contradictorio. La
ecuación inicial, se manifiesta entonces, tratándose de las varianzas y de la varianza total, de la siguiente
manera:
V ( X i )  li21V ( F1 )  li22V ( F2 )  ...  lim
2
V ( Fm )  V ( i )
    
Varianza Varianza exp licada por factores Varianza
del Item residual
Varianza de variable = Varianza explicada por factores + Varianza del azar
O equivalentemente, cuando los ítems están en puntuaciones estandarizadas

1  (li21  li22  li23  ...  lim
2
)  2
 
Varianza Comunalidad Varianza
del Item específica
1 = Comunalidad + Varianza Específica
También, sumando las varianzas de las p variables tendremos:

p p
p 
 h
i 1
i
2
 
i 1
i
2
Varianza    
Total Varianza exp licada Varianza
por los factores residual
Varianza total = Varianza explicada por factores + Varianza residual
2.3.2.2 Relación de los Factores con las Correlaciones.
Aquí la idea es similar al numeral inmediato anterior, aunque ya no hay una correlación total, sino pares
de correlaciones. La ecuación es, en el caso de dos ítems cualesquiera, digamos Xi y Xk:
  li1l k1  li 2 l k 2  li 3l k 3  ...  lim l km

Xi Xk
 
Correlación Efecto factorial
entre dosítems
Correlación entre Xi y Xk = Efecto factorial
9
2.4 Estimación de Parámetros en el Modelo Factorial
Para cubrir los objetivos del A. Factorial, hay que cumplir con tres metas:
 Determinar el Número m de Factores o Dimensiones subyacentes a las variables
 Estimar las cargas o pesos (“saturaciones”) factoriales lij y el consiguiente Efecto Factorial,en sus dos
variantes:
p
En el Total: Con la suma de las comunalidades h

i 1
i
2
(varianza explicada por los m factores) y en
2
Cada variable particular: Con cada comunalidad hi (varianza de Xi explicada por “los” factores,
donde usualmente sólo uno es el importante)
 Interpretar los factores, obteniendo una representación simple de las interrelaciones entre las variables
y cuantificando los factores eliminando los elementos fortuitos o residuales. Se parte del significado de
cada item o variable asociado a un factor para interpretarlo o definirlo:
El significado de un factor es “el promedio” de los significados de las variables Xi asociadas prin-
cipalmente con ese factor.
Los objetivos descritos, se cubren en una secuencia simple:
Primero se examina la adecuación de las variables y la muestra a un modelo factorial. Este paso no
es obligatorio cuando ya se sabe que las variables tienen correlaciones significativas entre ellas. Se
puede usar como medida de precaución para identificar posibles variables „problemáticas‟.
En segundo lugar, si el análisis previo indica que es válido un análisis factorial, se estiman los pará-
metros del modelo (incluyendo interpretación de factores). Es decir se estiman las Cargas factoriales lij y
Finalmente se estima los factores si es el caso. No siempre se hace, porque por definición del modelo, los
factores no son medibles directamente,
2.4.1 Adecuación al Modelo
Esta parte inicial del A.F. se basa en matriz R de correlaciones entre variables manifiestas. En principio
debiera haber algunas correlaciones importantes entre las variables si es que el modelo es pertinente. En
este paso puede desecharse el A. Factorial mismo o algunas variables que sean irrelevantes por su
pequeña correlación con el resto. Sin embargo, no es usual detener el A.F., en todo caso se toma nota de
los problemas encontrados y se continúa.
Tres indicadores importantes son:
 Prueba o test de Bartlett. Somete a prueba la hipótesis H 0 :  X i X j  0 para cada par de variables
manifiestas, o sea es un test estadístico que somete a prueba la hipótesis global de que todas las
correlaciones son cero. Si el nivel de significación es menor que 0.05, podemos rechazar la hipótesis.
Esto es, podemos decir que hay al menos dos variables asociadas y por tanto procede aplicar un A.F.,
en el supuesto que si hay correlaciones entre ítems, éstas se deben a factores comunes. El test asume
normalidad de datos y puede ser sensible a la falta de esta normalidad.
10
 El estadístico de Kaiser-Meyer-Olkin de adecuación. Denotado KMO es un coeficiente que debe

estar alejado de cero. Si KMO es mayor que 0.6, el Análisis Factorial tiene posibilidades explicativas;
si es menor que 0.6, puede ser que existan factores, pero su poder explicativo será muy bajo. La lógica
del KMO se basa en su definición:
KMO 
r 2
ij
r  r 2
ij
2
ij . o
aquí rij es la correlación entre X i y X j ; rij . o es la correlación parcial entre X i y X j (la correlación
entre X i y X j que nos queda cuando de ellas quitamos el efecto de las otras variables mani-
fiestas o ítemes). Si existen los factores, éstos son los que causan las correlaciones y por tanto si
retiramos de X i y X j el efecto de las otras variables, en el fondo estamos retirando el efecto factorial
y sólo queda el del azar, que es pequeño y genera correlaciones parciales cero o cercanas a cero. Es
decir,  rij2.o debiera ser pequeño y por lo mismo, el KMO debiera ser cercano a 1. El KMO debe ser
mayor de 0.6 y grosso modo se puede interpretar como la proporción de la correlación total entre
ítems que se debería a factores comunes.
 El estadístico MSA de adecuación, que es similar al KMO pero aplicado a cada variable manifiesta
por separado. Debiera ser mayor de 0.6 y si no es así, la variable correspondiente es una variable
mas bien aislada, y podría excluirse del análisis.
Precaución importante:
No tomar un KMO alto como indicador de validez de una prueba, ya que sólo indica posible presencia de
factores comunes, pero no implica que esos factores sean en efecto los que el Test o prueba pretende
medir.
2.4.2 Extracción de Factores
Es la parte de estimación de los coeficientes lij llamados cargas factoriales y que son la base del
modelo. La extracción de factores implica:
 Determinar (o confirmar) el número m de Factores y su "peso" conjunto en las variables.
 Cuantificar el "peso" o importancia de cada factor en cada variable. Los coeficientes que miden
estos pesos son las "cargas factoriales" lij (factor loadings) y el peso que tienen los factores en cada
variable se llama comunalidad" y es la parte hi2 de la varianza de la variable explicada por los
factores comunes.
 Se interpreta cada factor a partir de la matriz factorial de correlaciones entre cada variable y
cada factor. En el modelo ortogonal, las correlaciones son también las cargas factoriales lij . En este
paso, es usual apoyarse en gráficos donde los ejes son los factores y las coordenadas las correlaciones
entre variables y factores. Muchas veces los gráficos no dan resultados definitivos y hay que mover los
ejes (factores) girándolos. Esto se conoce como “rotación”, y lo que hace es redistribuir las cargas o
pesos de los factores para lograr una estructura factorial simple.
A continuación revisamos las principales técnicas de cada etapa en la extracción de factores.
11
(1) El número de factores y el Análisis de Componentes principales
Conocido en SPSS como Principal Components Analisis, es el método más general, y el que usa la
máquina por "default". Se usa en análisis exploratorios o cuando las variables no tienen distribución
normal, por ser el más robusto.
Básicamente consiste en medir los factores como sumas ponderadas de las variables. Inicialmente se asu-
me que hay tantos factores como variables y se obtiene primero un factor que es la suma ponderada de las
variables que tiene la mayor varianza posible. Esta es la "Primera Componente Principal". Luego se ob-
tiene una segunda suma ponderada de las variables que tiene la segunda mayor varianza y que además no
está correlacionada con la primera componente; esta es la "Segunda Componente Principal" y así sucesi-
vamente hasta obtener tantas componentes como variables haya. Por el método seguido, si hay, digamos,
m factores que, entre otras cosas, correlacionan y diferencian a las variables, entonces, las m primeras
componentes deben representar a estos factores, por ser las de mayor varianza. Por default, la máquina
selecciona tantos factores como componentes haya con varianza mayor que 1 (recordemos que esto es así
porque con variables estandarizadas, la varianza de cada una es 1 y en el peor de los casos, un factor de-
biera tener una varianza no menor que la de cualquier variable individual). Este default lo mantiene la má-
quina aún cuando se use otro método de extracción.
Suponiendo que ya hemos decidido el número m de factores, queda la tarea de estimar las cargas o pesos
factoriales {lij } . Una tentación inicial es identificar los factores con las componentes, pero eso es concep-
tualmente erróneo, ya que los factores {F j } aunque no observables, generan los ítems { X i } y son éstos, a
su vez, quienes generan las componentes principales {Y j } , que por otra parte son perfectamente obser-
vables, a diferencia de los factores latentes. Sin embargo la idea no es del todo mala, pues los factores
son en definitiva los causantes de las diferentes respuestas de las personas a los ítems { X i } y por tanto de
la varianza total observable en los datos, mientras que las componentes principales {Y j } son un medio
efectivo de identificar las fuentes de variación, de manera económica, pues resumen el efecto diferencia-
dor de los ítems en “clusters” o grupos (uno por cada componente) independientes y con sentido propio,
es decir, es razonable esperar que, si hay un lugar donde esté cada factor bien nítido, ese debe ser el de las
m componentes.
La lógica de la estimación es, entonces, que si calculamos todas las componentes, incluso las últimas e
irrelevantes (p-m) componentes Ym1 , Ym2 ,..., Yp , llegaríamos a un sistema de p ecuaciones como:
Y1  a1 X 1  a 2 X 2    a m X m a m 1 X m 1...  a p X p
Y2  b1 X 1  b2 X 2    bm X mbm 1 X m 1...  b p X p
Ym  c1 X 1  c 2 X 2    c m X mc m 1 X m 1   c p X p
Ym 1  d1 X 1  d1 X 2    d m X m d m 1 X m 1...  d p X p
Y p  w1 X 1  w2 X 2    wm X m wm 1 X m 1...  w p X p
12
Despejando las p variables manifiestas X 1 , X 2 ,, X p como funciones de las p componentes

Y1 , Y2 ,, Ym , Ym1 ,, YP , tendríamos un sistema, donde ahora los p ítems o variables manifiestas están en
función de las p componentes. Para respetar que los factores tienen varianza 1, antes de despejar, se las
estandariza para que tengan media 0 y varianza 1, luego se despeja y se obtiene:
X 1   1Y1   2Y2     mY m  m 1Y m 1...   p Y p
X 2  1Y1   2Y2     mY m  m 1Y m 1...   p Y p
X m   1Y1   2Y2     mY m  m 1Y m 1    p Y p
X m 1   1Y1   1Y2     mY m  m 1Y m 1...   p Y p
X p  1Y1   2Y2     mY m  m 1Y m 1...   p Y p
Como las (p-m) últimas componentes Ym1 ,, Yp son irrelevantes o efecto de azar, las identificamos como
el efecto residual:  1   m1Y m1...   pY p ,  2   m1Y m1...   p X p , etc. Llegamos así a un sistema
como:
X 1   1Y1   2Y2     mY m 1
X 2  1Y1   2Y2     mY m 2
X m   1Y1   2Y2     mY m m
X m 1  1Y1  1Y2     mY m m 1
X p   1Y1   2Y2     mY m p
Las ecuaciones anteriores son la base para estimar las cargas factoriales, simplemente identificamos:
1  l11 ,  2  l12 , etc.
Este método es sencillo, pero tiende a producir un primer factor sobredimensionado, a veces difícil de
interpretar porque la primera componente, por tener máxima varianza, suele correlacionar con todas las
variables o ítems. Pero esta es una molestia que no importa por el momento.
Entonces, partiendo del Análisis de Componentes Principales (ACP), para determinar el Número m de
Factores, hay tres métodos principales
 Método de Kaiser:
m = # de Factores con varianza (Eigenvalue) mayor o igual que 1. El método más usado.
13
 Método de Cattel:
Graficar Eigenvalues vs # del Factor y elegir m en el punto donde las varianzas o eigenvalues se
estabilizan.
 Análisis Paralelo o Método de Horn:
Este método consiste comparar las varianzas obtenidas en la muestra con las obtenidas con una matriz
de datos del mismo tamaño pero donde los valores de las p variables son puestos totalmente al azar. Es
claro que en este último caso, las componentes encontradas y sus respectivas varianzas son totalmente
aleatorias. Luego se compara cada varianza muestral con su análoga al azar y si resulta mayor, se
considera relevante al correspondiente factor. Se sigue así hasta que un factor muestral resulte con
varianza no mayor que el análogo factor aleatorio. En este caso, ahí se detiene el proceso y el número
de factores es el de factores con varianza mayor que la varianza debida al azar. Este método no figura
en programas estadísticos, pero se puede aplicar programando simulaciones con los algunos programas
estadísticos estándar. Es el método más moderno y confiable, junto con el más antiguo de Cattel.
Nota:
El Método del Porcentaje fijo, esto es el de ir sumando las varianzas a partir del primer factor y calcular
el porcentaje de la varianza total (que es igual al número de variables) que van constituyendo y detenerse
en cuanto se alcance un porcentaje predeterminado (usualmente 50%), es bueno para Componentes
principales, pero no necesariamente para Análisis Factorial, pues aunque sea esperable o deseable, lo
cierto es que no siempre los factores determinan todas las diferencias entre las respuestas de las personas,
incluso estando bien identificados, puede haber otras razones para que difieran las respuestas. En este
contexto, pedir una “mayoría” puede ser excesivo. Sin embargo el riesgo que existe cuando se tiene
factores que explican un porcentaje muy bajo de varianza total, digamos 255 o 30%, es que eso deja
mucho margen para cambios debido al azar, y al cambiar de muestra, el azar puede usar ese margen y
cambiar los resultados, es decir, el test podría ser inestable.
En cualquier caso, es bueno recordar que el “número ideal de factores es igual al número de factores
que podemos interpretar desde un punto de vista teórico”.
(2) El Peso de los Factores.
Se trata de determinar la importancia relativa de los factores en cada variable y en el conjunto de

variables.
 El Peso Conjunto de los factores en todas las variables, se cuantifica mediante el Porcentaje de
varianza total asociado a los factores. Lo común es un porcentaje de al menos 50%, aunque esto no es
regla estricta.
 El Peso de los Factores en cada variable, se mide con las Comunalidades, que en el SPSS aparecen
en un cuadro (Final Statistics) junto con las varianzas de los factores y su porcentaje explicado. Si la
comunalidad o communality se multiplica por 100, se obtiene el porcentaje de varianza de la variable
correspondiente, asociado a los factores. Cuanto más alta la comunalidad, mayor el efecto factorial en
la variable. Una cantidad razonable es una comunalidad mínima de 0.3 o 30%.
 Las correlaciones o "cargas factoriales" {lij } , son los coeficientes que miden el peso (importancia
relativa) de cada factor en cada variable. También se conocen como “saturaciones factoriales”. Por
analogía con la regresión múltiple, son el equivalente a los coeficientes estandarizados del análisis de
regresión múltiple y funcionan entonces como “tasas de cambio”.
14
(3) Interpretación de Factores: Rotaciones
Esta parte es crucial, y en ella se interpreta cada factor a partir de las variables más correlacionadas
con el factor. Se deduce el significado del factor apoyándose en las variables en que se manifiesta.
Para ello, en la matriz de factores se puede pedir que aparezcan sólo las cargas o correlaciones mayores
que cierto límite y que las variables asociadas a un factor aparezcan juntas, de ser necesario.
SPSS muestra por defecto la llamada Matriz de Cargas Factoriales, siendo la base para interpretar los
factores. Por regla, se considera como asociada a un factor a toda variable que pase de un cierto
límite en la correlación (o carga) con ese factor. Lo mínimo es 0.3 (en valor absoluto), pero con este
sistema es posible que una variable quede asociada a dos o más factores, por lo que se recomienda usar un
límite más alto, por ejemplo 0.5.
Si no hay una interpretación directa de la Matriz de Cargas Factoriales original, se puede usar el
artificio de las "rotaciones" para aclarar el panorama. Una rotación consiste en representar cada
variable por sus correlaciones, en un sistema de ejes donde éstos son los factores y las correla-ciones, las
coordenadas. Luego, “girando" los ejes, se logra que algunas de las variables se acerquen más a los ejes,
con lo que se obtiene un nuevo sistema de referencia (lo que se llama una “estructura simple”). La idea
es buscar que cada variable esté asociada a un factor solamente, o sea que tenga coordenada cero en los
demás ejes o factores. La rotación no cambia el poder explicativo global de los factores, pero si las
comunalidades y las cargas factoriales. Este paso es el que distingue el A. Factorial del ACP. Hay
varios métodos de rotación.
Rotaciones Ortogonales:
Se caracterizan porque que mantienen la independencia entre los factores. Los más aplicados son:
 Varimax: El más usado, elige el ángulo de rotación de modo que dentro de cada factor, las variables
tengan correlaciones muy disparejas, con mucha variabilidad. Privilegia los factores.
 Quartimax: Privilegia las variables al elegir el ángulo de rotación de modo que las correlaciones que
cada variable tiene con los distintos factores sean muy disparejas entre sí; minimiza el número de
factores asociado a una variable. El problema que tiene es que puede dar variables asociadas a más de
un factor.
 Equamax: Es una combinación de los dos anteriores.
Como estos métodos producen factores independientes, se llaman métodos "ortogonales". Si la solución
ortogonal no es simple, o hay razones para evitar factores ortogonales, se puede aplicar una rotación
"oblicua", que proporciona factores correlacionados.
Rotaciones Oblicuas:
Son menos usadas porque generan factores correlacionados y entonces las cargas factoriales no son más
las correlaciones entre variables y factores, pudiendo tomar valores mayores que 1. Para ayudar a la
interpretación de los factores, se suele calcular además de la matriz de cargas factoriales, la matriz de
correlaciones variable-factor y la matriz de correlaciones entre factores.
Oblimin: Método de rotación oblicua, que obtiene cargas factoriales asociadas a un factor, a costa de
correlacionarlos. Si se usa esta rotación, se debe diferenciar entre la Matriz de Correlaciones (Factor
Structure o Matriz de estructura) y la Matriz de Cargas factoriales (Factor Pattern o Matriz de confi-
guración en SPSS). Con modelos oblicuos, las cargas ya no son iguales a las correlaciones y pueden
tomar valores arriba de 1 o debajo de -1 sin problema. Para asignar un ítem a un factor se lo asocia con el
factor cuya carga sea mayor en valor absoluto y luego se examina la correspondiente correlación en la
matriz de estructura, para ver cuán fuerte es la asociación ítem factor. Al interpretar los factores se debe
15
tomar en cuenta las correlaciones entre ellos, que el SPSS muestra en una matriz (Factor Correlation
Matrix). Si estas correlaciones son bajas, se suele descartar el modelo oblicuo, salvo fuertes razones
teóricas.
La recomendación general es usar Varimax y en caso necesario Oblimin. En este último caso, se
puede hacer un A.F. de la matriz de correlaciones entre factores para ayudar en su interpretación
(A.F. de Segundo Orden).
2.4.3 Estimación de los Factores
Interpretados los factores, puede ser que el trabajo termine ahí o puede ser que se necesite estimar la
"cantidad" de cada factor que tiene cada unidad o sujeto. En principio no es posible obtener
estimaciones exactas, pues por definición los factores no son medibles directamente; pero sí es
posible obtener "medidas indirectas". Hay dos sistemas :
 De Cálculo agregado, donde los factores se miden promediando o sumando directamente las
variables que están asociadas a él. Esto no siempre es posible, pues las variables pueden tener
unidades de medida distintas. Se usa mucho en construcción de pruebas, en Psicometría.
 Métodos Análíticos: Los factores se estiman apelando a algún sistema estadístico de regresión, donde
las estimaciones iniciales de los factores son las componentes principales o cantidades análogas. No
son muy usados en Psicología. Los métodos del SPSS producen factores (factor scores) con media 0 y
son:
(a) Regression: Produce factor scores con media cero, que pueden estar correlacionadas.
(b) Anderson: Produce factor scores independientes con media cero y varianza 1 siempre.
(c) Bartlett: Produce factor scores con media cero.
2.4.4 Otros métodos de Extracción de Factores
Aunque el ACP es el método más usado, general y recomendado, hay otros métodos para estimar las
cargas factoriales. Todos se apoyan en el ACP en el sentido que toman la solución de este método como
base.
Unweighted Least Squares: Mínimos cuadrados no ponderados. Se caracteriza porque obtiene los
factores de modo que se minimice la diferencia global entre las correlaciones observadas y las
reproducidas, esto es, se centra más en las correlaciones que en las varianzas (como lo hace Componentes
Principales). Es preferible usarlo cuando el número m de factores es conoci-do o se puede conjeturar.
Generalized Least Squares: Mínimos cuadrados generalizados. Se caracteriza porque obtiene los
factores de modo que se minimice la diferencia global entre las correlaciones observadas y las
reproducidas, privilegiando aque-llas parejas de variables con mayor "efecto factorial". Análogamente al
método anterior, se aplica cuando se conoce el número m de factores y se sabe que hay variables con
"efecto" factorial muy disparejo en relación al resto.
Maximun Likelihood: Asume normalidad de variables. Adicionalmente permite contrastar la hipótesis

de que el número de factores es una cierta cantidad m predeterminada, mediante un estadístico Chi2 (Chi-
square), cuyo Nivel de Significación debe ser MAYOR que 0.05 para aceptar que hay m factores.
16
Principal-Axis Factoring: Es una variante de A.C.P., que consiste en aplicar C.P. tomando como
varianza inicial de cada variable, no 1 sino un número menor, para amortiguar la tendencia de C.P. de dar
un primer factor con mucha varianza. Es el segundo método más usado, Y también es de tipo
exploratorio
Alpha factoring: Calcula los factores de modo que tengan máxima confiabilidad, considerando que las
variables son una muestra de un universo mayor de variables. Se aplica más en construcción de pruebas
psicológicas.
En general, el orden de métodos es: 1ero. Componentes ; 2do. Principal-Axis y 3ero. Otros (
Maximun Likelihood, Unweighted Least Squares, etc ).
Ejemplo
Se aplicó a una muestra de 204 participantes de diversas edades un cuestionario que incluye una escala
con 12 ítems tipo Likert, relativos a diversas manifestaciones de bienestar/felicidad, con el fin de iden-
tificar y analizar posibles dimensiones subyacentes y ver su relación con otros rasgos registrados y con
variables sociodemográficas. Los datos están en el archivo Felicidad.sav
a) Determine si habría posibilidad de hacer un A.F. exitoso con los 12 ítems de la escala de
bienestar/felicidad
Solución:
KMO and Bart lett's Test
Kaiser-Meyer-Olkin Measure of Sampling Adequacy.

.786
Bartlett's Test of Sphericity Approx. Chi-Square 1533.861
df 66
Sig. .000
Item MSA
Felicita01 Siento que la vida es muy gratificante .735
Felicita02 A menudo experimento alegría y euforia .835
Felicita03 Siento que tengo una gran cantidad de energía .843
Felicita04 La vida es buena .737
Felicita05 Estoy muy contento .801
Felicita06 Mentalmente me siento totalmente alerta .896
Felicita07 Me río mucho .737
Felicita08 Rara vez me despierto sintiéndone descansado (puntuación .750
invertida) .821
Felicita09 Estoy satisfecho de todo en mi vida .787
Felicita10 Muchas cosas las encuentro divertidas .796
Felicita11 Me siento capaz de hacer cualquier cosa .762
Felicita12 Este mundo no es un bueno (puntuación invertida)
KMO = 0.786 > 0.6 : Conjunto de variables bien adecuadas para un A.F.
Test de Bartlett Sig.=0.000 < 0.05 : Al menos dos correlaciones son distintas de cero
MSA de los ítems: Todos superiores a 0.6 y por tanto adecuados para un A.F.
17
b) Identifique el número de dimensiones básicas subyacentes a la escala de bienestar/felicidad, con todos

los métodos que conozca
Solución:
Test de Kaiser y de % de Varianza (50%) Test de Catell Análisis paralelo
Total Variance Explained Total Variance
Scree Plot Explained
Initial Eigenvalues
Component 5 Varianza
Total % of Variance Cumulative % CP
4 Al azar
1 4.775 39.791 39.791
1 1.386
2 2.751 22.928 62.719
Eigenvalue
3
2 1.295
3 1.175 9.792 72.511 2
3 1.207
4 .674 5.614 78.125
1
4 1.175
: : : :
0
5 1.073
11 .149 1.241 99.020 1 2 3 4 5 6 7 8 9 10 11 12
Component Number
10 .770
12 .721
k= 3 con Kaiser; k=3 con Catell k = 2 con Horn
Por mayoría (3 de los 4 métodos): El número de factores es k = 3
c) ¿La aplicación de A. de Componentes principales resulta suficiente para estimar bien las cargas
factoriales e identificar bien los factores asociados a la escala de bienestar/felicidad o se necesita
aplicar alguna técnica adicional?
Solución:
Component Matrix(a) Cargas factoriales sin rotaciones
Component
1 2 3
Felicita01 Siento que la vida es muy gratificante .337 .740 .184
Felicita02 A menudo experimento alegría y euforia .689 -.350 .387
Felicita03 Siento que tengo una gran cantidad de energía .719 -.088 -.407
Felicita04 La vida es buena .405 .808 .094
Felicita05 Estoy muy contento .786 -.266 .344
Felicita06 Mentalmente me siento totalmente alerta .630 -.077 -.434
Felicita07 Me río mucho .758 -.368 .401
Felicita08 Rara vez me despierto sintiéndome descansado
.747 -.131 -.308
(puntuación invertida)
Felicita09 Estoy satisfecho de todo en mi vida .279 .695 .048
Felicita10 Muchas cosas las encuentro divertidas .731 -.255 .194
Felicita11 Me siento capaz de hacer cualquier cosa .750 .012 -.453
Felicita12 Este mundo no es un bueno (puntuación invertida) .430 .802 .092
ConACP El factor 1 correlaciona con casi todos los ítems
No, la aplicación de componentes principales no es suficiente para identificar los factores pues la
1era componente correlaciona de manera significativamente con casi todos los ítems. Se necesita
aplicar rotaciones.
d) Aplicando las técnicas más apropiadas, identifique las dimensiones subyacentes a factores asociados a
la escala de bienestar/felicidad ¿Pueden considerarse dimensiones independientes?
18
Solución:
Cargas factoriales Varimax, comunalidades y varianzas de factores
Factor Comun
Item 1 2 3 h2
Felicita01 Siento que la vida es muy gratificante 0.07 0.83 0.02 0.70
Felicita02 A menudo experimento alegría y euforia 0.84 -0.02 0.19 0.75
Felicita03 Siento que tengo una gran cantidad de energía 0.26 0.09 0.78 0.69
Felicita04 La vida es buena 0.03 0.90 0.12 0.83
Felicita05 Estoy muy contento 0.85 0.08 0.28 0.81
Felicita06 Mentalmente me siento totalmente alerta 0.18 0.06 0.74 0.59
Felicita07 Me río mucho 0.90 -0.01 0.23 0.87
Felicita08 Rara vez me despierto sintiéndone descansado (puntuación invertida) 0.36 0.07 0.73 0.67
Felicita09 Estoy satisfecho de todo en mi vida -0.04 0.74 0.08 0.56
Felicita10 Muchas cosas las encuentro divertidas 0.71 0.05 0.35 0.64
Felicita11 Me siento capaz de hacer cualquier cosa 0.22 0.18 0.83 0.77
Felicita12 Este mundo no es un bueno (puntuación invertida) 0.05 0.90 0.14 0.84
Varianza rotada 3.0 2.9 2.7 8.7
% de varianza post rotación 25.4 24.4 22.7 72.5
Con factores independientes (rotación varimax) los factores son:

Factor 1: Ítems 02, 05, 07 y 10: “Alegría de vivir” con 25.4% de varianza total asociada al factor
Factor 2: Ítems 01, 04, 09 y 12: “Satisfacción vital” con 24.4% de varianza total asociada al factor
Factor 3: Ítems 03, 06, 08 y 11: “Energía vital” con 22.7% de varianza total asociada al factor
Con factores relacionados (rotación Oblimin) los factores son los mismos pero con correlación grande
entre las factores 1 y 3. Hay ítems con correlaciones medianas o grandes con otro factor además del
propio. Esta solución es más apropiada. No es recomendable pensar en factores independientes. Como las
cargas del factor 3 son todas negativas en esta rotación, el factor es el opuesto al factor 3 varimax o sea lo
opuesto a la suma de los ítems 03, 06, 08 y 11, tendríamos que medirlo invirtiendo primero los
respectivos ítems y así sería un factor de “Menos energía vital”. Por simplicidad, el factor 3 oblimin lo
tomaremos como el mismo factor 3 varimax para tener todos los factores directos. Esto no altera el test y
simplifica la interpretación de sus dimensiones. Por lo mismo, las correlaciones del factor 3 así medido,
con los factores 2 y 1 tendrían el signo opuesto (positivo) a las que figuran en el cuadro de correlaciones
entre factores oblimin.
Cargas factoriales y correlaciones ítem factor Oblimin, comunalidades y varianzas de factores

Cargas Correlaciones ítem-factor Comun
Item 1 2 3 1 2 3 h2
Felicita01 0.07 0.85 0.10 0.09 0.83 -0.13 0.70
Felicita02 0.89 -0.03 0.06 0.86 0.02 -0.42 0.75
Felicita03 0.03 -0.01 -0.82 0.47 0.17 -0.83 0.69
Felicita04 0.00 0.90 -0.03 0.08 0.91 -0.23 0.83
Felicita05 0.87 0.06 -0.03 0.90 0.14 -0.52 0.81
Felicita06 -0.05 -0.03 -0.80 0.38 0.14 -0.77 0.59
Felicita07 0.95 -0.02 0.03 0.93 0.04 -0.47 0.87
Felicita08 0.16 -0.01 -0.72 0.55 0.16 -0.81 0.67
Felicita09 -0.07 0.75 -0.03 0.00 0.75 -0.16 0.56
Felicita10 0.69 0.01 -0.17 0.78 0.10 -0.55 0.64
Felicita11 -0.04 0.08 -0.87 0.44 0.27 -0.87 0.77
Felicita12 0.01 0.90 -0.05 0.10 0.91 -0.25 0.84
Varianza rotada 3.9 3.1 3.8
% de varianza post rotación (no
sumables) 32.6 25.7 31.8
19
Component Correlation Matrix

1 2 3
1 1.00 0.07 -0.54
2 0.07 1.00 -0.22
3 -0.54 -0.22 1.00
e) Mida o estime los dimensiones identificadas en d); analice su normalidad y determine si habría
diferencias significativas entre sexos e interprete. Ilustre gráficamente
Solución:
Tests of Normality
Kolmogorov-Smirnov(a) Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
Factor_1 Alegría de
.129 204 .000 .943 204 .000
vivir
Factor_2 Satisfacción
.101 204 .000 .935 204 .000
de vivir
Factor_3 Energía vital .147 204 .000 .843 204 .000
Según la prueba de Kolmorov, los factores no siguen distribuciones normales.
Reporte
Factor_1 Alegría de vivir* Factor_2 Satisfacción de vivir Factor_3 Energía vital*
Sexo Std. Std. Std.
Mean Median
Deviation
N Mean Median
Deviation
N Mean Median
Deviation
N
Femenino 3.83 4.00 .79 107 3.49 3.50 1.11 107 4.35 4.50 .60 107
Masculino 3.48 3.50 1.00 97 3.37 3.50 1.19 97 4.04 4.00 .88 97
Total 3.67 3.75 .91 204 3.43 3.50 1.15 204 4.21 4.25 .76 204
Comparación de factores según sexo

Factor_1 Alegría de vivir* Factor_2 Satisfacción de vivir Factor_3 Energía vital*
Mann-
Whitney 4096.0 4997.5 4127.5
U
Z -2.613 -.457 -2.551
Asymp.
Sig. (2- .009 .647 .01
tailed)
Entre sexos, hay diferencia significativa en Alegría de vivir y Energía vital. Las mujeres puntúan más alto
que los hombres.
20
5.00
4.50
4.00
3.50
3.00
2.50
2.00
1.50
1.00
Factor_1 Alegría de vivir Factor_2 Satisfacción de Factor_3 Energía vital
vivir
Femenino Masculino
f) ¿Es cierto que las dimensiones de bienestar/felicidad van de la mano con la mayor religiosidad?
¿Optimismo y bienestar se refuerzan mutuamente?. Justifique con indicadores estadísticos y la
correspondiente significación y magnitud de la relación.
Solución:
Correlaciones
Factor_1 Alegría de vivir Factor_2 Satisfacción de vivir Factor_3 Energía vital Religiosidad Optimismo
Pearson Correlation 1 .089 .580(**) .050 .316(**)

Factor_1 Alegría de vivir
Sig. (2-tailed) .205 .000 .480 .000
Pearson Correlation .089 1 .229(**) -.011 .218(**)
Factor_2 Satisfacción de vivir
Sig. (2-tailed) .205 .001 .879 .002
Pearson Correlation .580(**) .229(**) 1 .151(*) .403(**)

Factor_3 Energía vital
Sig. (2-tailed) .000 .001 .032 .000
Pearson Correlation .050 -.011 .151(*) 1 .278(**)

Religiosidad
Sig. (2-tailed) .480 .879 .032 .000
Pearson Correlation .316(**) .218(**) .403(**) .278(**) 1

Optimismo
Sig. (2-tailed) .000 .002 .000 .000
** Correlation is significant at the 0.01 level (2-tailed).
* Correlation is significant at the 0.05 level (2-tailed).
Las dimensiones Alegría de vivir y Satisfacción de vivir no correlacionan significativamente con religiosidad
Energía vital sí correlaciona positivamente pero la correlación es casi irrelevante.
Las tres dimensiones correlacionan positiva y significativamente con Optimismo, siendo mayor la correla-
ción entre Optimismo y Energía vital. Son correlaciones todas medianas, según Cohen.
Usamos correlación de Pearson porque para n grande coincide con la correlación no paramétrica de
Spearman.
21
Bibliografía
HAIR, ANDERSON, TATHAM & BLACK (2001). Multivariate Data Análysis. New York: Macmillan
Publishing Company. (hay version en castellano)
AFIFI & CLARK (1984). Computer Aided Multivariate Analysis. New York: Van Nostrand Reinhold
Company.
GRANDE y ABASCAL (1989). Métodos Multivariantes. Barcelona: Ed. Ariel.
STEVENS (1992). Applied Multivariate Analysis for the Social Sciences. Hillsdale: Ed. Lawrence
Erlbaum Associates.
KLINE (1994).An easy guide to factor Analysis. London: Routledge
GORSUCH, RICHARD L. (1983) Factor analysis. New Jersey: Lawrence Erlbaum Associates
22

Apuntes de Estadistica Social Cap 2 Analisis - Factorial

Transféré par

Informations du document

Description originale:

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Apuntes de Estadistica Social Cap 2 Analisis - Factorial

Transféré par

Droits d'auteur :

Formats disponibles

ESTADISTICA SOCIAL Arturo Calderón G.

2.1 Elementos Primarios

Recordemos que la varianza de una variable X i se define mediante S X i  2  ( X i  X i )2

La definición formal de la correlación rX i X j es rX i X j 

o de dispersión, y en el modelo factorial lo que se estudia es la “estructura” de las relaciones entre

Variables latentes y variables manifiestas

F1 = Coordinación visomotora de la persona

Resulta intuitivo que X 1 y X 2 dependen más de F1 y menos de F2 , en cambio X 3 y X 4 están más

Si pensamos en términos de proporcionalidad, podríamos decir, por ejemplo, que la cantidad X 1 de

Se llega así a un sistema como:

Para responder necesitamos recordar dos propiedades:

Entonces, si calculamos varianzas, tenemos para X 1 :

Análogamente a X1, con X2 tendríamos:

V ( X 2 )  0.82 V ( F1 )  0.22 V ( F2 )  V (1 )  0.64  0.04   22  0.68   22 y si X 2 fuera

Tabla 1. Correlaciones Item-Factor y varianzas asociadas a factores

Tabla 2. Correlaciones entre ítems generadas por los

La información sobre las variables esta dada por:

a) La variabilidad total presente en las p variables es VT   S X2 i

2.3 El Modelo Factorial Ortogonal

X 1  l11F1  l12 F2  l13F 3...  l1m Fm  1

X i = i-ésima variable observable

Asumamos además los siguientes supuestos:

 j , F j es variable estandarizada (i.e. con media 0 y varianza 1)

2.3.1 Consecuencias del modelo ortogonal

Recordando que V ( X i )  1 , V ( F j )  1 y llamando  2 a V ( i ) , se escribe

1  li21  li22  li23  ...  lim

Análogamente, calculando la correlación entre X i y F j , resulta:

Finalmente, calculando la correlación entre X i y X k :

 X X  li1lk1  li 2lk 2  li 3lk 3  ...  limlkm (3)

 La cantidad (li21  li22  li23  ...  lim

 De todo lo anterior se deduce que la información clave está en el conjunto de coeficientes  l , lo

En este contexto, tendríamos:

Tabla 3. Correlaciones Item-Factor y varianzas asociadas a factores y residual

Tabla 4. Correlaciones entre ítems generadas por los

2.3.2 Interpretación del modelo

X  li1 F1  li 2 F2  ...  l3m Fm

Variable = Efecto de factores+ Efecto residual

2.3.2.1 Relación de los Factores con las Varianzas.

Varianza de variable = Varianza explicada por factores + Varianza del azar

O equivalentemente, cuando los ítems están en puntuaciones estandarizadas

1 = Comunalidad + Varianza Específica

También, sumando las varianzas de las p variables tendremos:

Varianza total = Varianza explicada por factores + Varianza residual

2.3.2.2 Relación de los Factores con las Correlaciones.

  li1l k1  li 2 l k 2  li 3l k 3  ...  lim l km

Correlación entre Xi y Xk = Efecto factorial

2.4 Estimación de Parámetros en el Modelo Factorial

 Determinar el Número m de Factores o Dimensiones subyacentes a las variables

En el Total: Con la suma de las comunalidades h

Los objetivos descritos, se cubren en una secuencia simple:

2.4.1 Adecuación al Modelo

Tres indicadores importantes son:

 El estadístico de Kaiser-Meyer-Olkin de adecuación. Denotado KMO es un coeficiente que debe

2.4.2 Extracción de Factores

 Determinar (o confirmar) el número m de Factores y su "peso" conjunto en las variables.

A continuación revisamos las principales técnicas de cada etapa en la extracción de factores.

(1) El número de factores y el Análisis de Componentes principales

Despejando las p variables manifiestas X 1 , X 2 ,, X p como funciones de las p componentes

X 1   1Y1   2Y2     mY m  m 1Y m 1...   p Y p

X 2  1Y1   2Y2     mY m  m 1Y m 1...   p Y p

X m   1Y1   2Y2     mY m  m 1Y m 1    p Y p

X m 1   1Y1   1Y2     mY m  m 1Y m 1...   p Y p

Pearson Correlation 1 .089 .580() .050 .316()

Pearson Correlation .580() .229() 1 .151(*) .403(**)

Pearson Correlation .316() .218() .403() .278() 1