ACP - Universidad Valencia

ANALISIS DE COMPONENTES PRINCIPALES 1
Prof: Salvador Carrasco Arroyo Universidad de Valencia

ANALISIS DE COMPONENTES PRINCIPALES

1.- INTRODUCCIN.

Los investigadores pioneros que comenzaron a trabajar con tcnicas factoriales fueron los
psiclogos. A mediados del siglo XIX Galton realiza un estudio en el que critica un intento, llevado
a cabo en Londres, para identificar a criminales en base a la obtencin de las caractersticas fsicas
del cuerpo de los delincuentes a travs de 12 variables. Galton aleg que las variables obtenidas
estaran altamente intercorrelacionadas proporcionando informacin redundante.

Estos estudios iniciados por Galton le sirvieron a Pearson para indicar que los ndices
ideales, que resumiran lo esencial de las medidas utilizadas para la identificacin, se
corresponderan con los ejes perpendiculares de la elipsoide de inercia, obtenida cuando estas
medidas se plasmen en el espacio de 7 variables observadas en vez de 12.

Pearson en un trabajo elaborado en 1901 comenz a utilizar el criterio de mnimos
cuadrados ortogonales como medio de ajustar hiperplanos, llegando as a la primera aproximacin
del anlisis de componentes.(Pearson, K. 1901).

Posteriormente Spearman (1904) a partir de unos test de rendimiento realizado a 27
estudiantes llevo a cabo inferencias psicometricas, lo cual le condujo a concebir que la mente
estaba organizada jerrquicamente y regida por el factor general de la inteligencia. Llega a proponer
un modelo de dos factores, un factor comn a todas las variables de tipo intelectual (rendimiento
escolar, razonamiento matemtico, etc.) que explicara las intercorrelaciones existentes y otro factor
especifico de cada medida que seria el responsable de lo residual.(Spearman, C 1904).

Sin embargo, fue Hotelling en los aos treinta quien pone los fundamentos del anlisis de
componentes principales. Siguiendo los trabajos de Pearson propone un algoritmo para hallar los
ejes perpendiculares que propona Pearson, lo cual supuso un gran avance en la diagonalizacin de
matrices simtricas pues en esencia requera obtener los vectores y valores propios de la matriz de
correlaciones de las variables originales.(Hotelling, H. 1933).

Thurstone, expreso la relacin entre las correlaciones y las saturaciones de las variables en
los factores, introdujo el concepto de estructura simple. Tambin desarrollo la teora y mtodo de
las rotaciones factoriales para obtener la estructura factorial mas sencilla. (Thurstone, L.L. 1947).
Mas tarde en 1958 aparece la obra fundamental sobre ACP de Anderson. (Anderson, T.W. 1958)

Captulo
2
A lo largo de todo este desarrol lo histrico se han planteado algunos problemas de fondo
que han dado lugar a distintas propuestas de solucin, los aspectos mas polmicos, entre otros,
han sido:

- La estimacin de las comunalidades.
- Los mtodos de extraccin de factores.
- El n de factores a retener.
- Los mtodos de rotacin de los factores

Se han propuesto mltiples mtodos para la extraccin de factores que conducan a
soluciones diferentes segn el mtodo que se adoptase. Las respuestas han sido distintas segn
las diversas tendencias. Algunos autores consideran el ACP como una etapa del Anlisis Factorial
y otros lo consideran como tcnicas diferentes.

Lo que parece claro es que ambos mtodos parten de una misma premisas. Un espacio R
K

en el cual se sita una nube de puntos N cada uno de ellos con una masa, y en los cuales se define
una mtrica, se calcula la inercia total de la nube y se determinan los ejes de inercia.

Los "inputs" de un anlisis factorial, en todos los casos, son los siguientes: El espacio.
Los puntos, los pesos que afectan a los puntos, la mtrica . Los "outputs" son los ejes de inercia,
las coordenadas de los puntos sobre los ejes.

De un mtodo a otro solo varia los "inputs", la definicin de los puntos, los pesos y la
mtrica. Segn se considere un anlisis u otro. Pero una vez dados los "inputs" lo esencial de la
tcnica es comn a todos los mtodos.
1

Desde los aos 60, la evolucin de estas tcnicas han estado sometidas a la complejidad
de su calculo debido a la gran masa de datos a analizar. Desde la aparicin de los sistemas
informticos esta gran masa de datos ha sido posible manejarla en su conjunto y las tcnicas de
anlisis multivariante han supuesto una revolucin en la investigacin. Hoy en da, se dispone de
gran cantidad informacin que da pie a estudiar fenmenos (calidad de vida, nivel socioeconmico,
grado de bienestar, etc..) que no pueden medirse directamente, sino que son el resultado del
estudio y anlisis un conjunto de variables relacionadas.

El Anlisis Multivariante puede considerarse como un conjunto de tcnicas o mtodos
cientficos que permiten tratar matrices de grandes dimensiones. Dentro de este anlisis podemos
considerar diferentes tcnicas, un grupo de estas parte de matrices en que los datos corresponden:
por filas a individuos y por columnas a variables otras parten de matrices cuyos datos tanto de filas
como columnas, se refieren a variables. Entre las primeras podemos destacar al Anlisis de
Componentes Principales (A.C.P.) y el Anlisis Factorial (A.F), entre las segundas tenemos, entre
otras, al Anlisis de Correspondencias.

1
Creemos que es importante para llegar a comprender la tcnica de componentes principales estudiarla
conjuntamente con el anlisis factorial general. Es por ello, por lo que hemos aadido al final de este capitulo un
anexo cuya finalidad es poder llegara visionar los dos mtodos bajo una misma ptica, mas cuando las aplicaciones
de las bases de datos se realizan con aplicaciones informticas (SPSS) que no hace especial distincin entre ambos
mtodos.
En ACP los datos se aplican a tablas bidimensionales que cruzan individuos y variables
cuantitativas. Las filas representaran a los individuos y las columnas a las variables.

Desde un punto de vista estadstico muy general el objetivo prioritario de un anlisis
multivariante ser reducir la dimensin original de un conjunto de p variables, a un conjunto menor
de m variables , para lograr una mayor interpretabilidad de la informacin. Lo que se pretende es,
entre otras cosas, reducir el numero de variables a utilizar manteniendo el mximo de informacin
sin redundancias, reduciendo la dimensionalidad del espacio original de manera que estas nuevas
variables sintticas expliquen la mxima variabilidad total de las variables originales ( con la
distorsin mnima de la informacin). Estas m nuevas variables sern variables no observables o
latentes, que se determinaran como veremos mediante combinacin lineal de las variables
originales.

Centrndonos en el Anlisis de Componentes Principales, el anlisis sirve para reducir un
conjunto de variables originales p relacionadas a un numero menor m de nuevas variables, que
llamaremos componentes principales, independientes entre si. Con ello lo que usualmente se
consigue es agrupar las variables originales en subconjuntos de variables que estn relacionadas
entre s y no estn relacionadas con las variables de los otros subconjuntos. Este subconjunto de
variables relacionadas entre si que se constituyen como combinacin lineal tienen la propiedad de
explicar parte de la varianza de las variables originales. As el objetivo del ACP ser obtener el
mnimo numero de componentes que expliquen en su conjunto la mxima varianza de las variables
originales.

En general, existen dos enfoques para utilizar el ACP: el exploratorio y el confirmatorio. El
primero, el investigador parte de una informacin en la que desconoce las interrelaciones de las
variables originales, como se organizan y por tanto no tiene una idea clara de lo que puede
encontrar. En el segundo, lo que pretende es corroborar la existencia de determinadas agrupaciones
de las variables originales que conformen una idea prefijada.

Retomando la informacin de partida en la que tenemos masas de datos estructurados en
matrices que cruzan variables cuantitativas por individuos parece necesario hacer referencia a las
dos corrientes metodolgicas. la Escuela Francesa Bencecri, (Bencecri, J.P. 1973), mas descriptiva
que inferencial en su enfoque, en la que utiliza la representacin grfica de la informacin como
medio mas fcil de interpretacin de las relaciones entre las variables introduciendo la importancia
de los individuos, que pueden contribuir decisivamente a la determinacin de las componentes. La
Escuela Anglosajona se centra en las variables, siendo en Estados Unidos John Tukey el fundador
de la corriente denominada " Exploratory Data Analysis ". (Tukey, J.W. 1977).

Nosotros vamos a integrar ambas corrientes de manera que podamos plasmar de la manera
mas sencilla posible ambas metodologas. As podemos realizar dos anlisis duales: uno en el
espacio de los individuos y otro en el de las variables.

En un primer estadio del anlisis podemos preguntarnos por las semejanzas o no de los
individuos as como las relaciones posibles existentes entre las variables. De esta forma podremos
interpretar las semejanzas de los individuos, la existencia de grupos homogneos de individuos
llegando a poner en evidencia una determinada tipologa de estos. Desde el punto de vista de las
variables podremos explicar sus relaciones preguntndonos que variables son las que estn
relacionadas positiva o negativamente entre si y tambin si podemos establecer una tipologa de
las variables. Quedara buscar si existe una relacin entre ambas tipologas, adems de relacionar
cada uno de los individuos con el conjunto de las variables originales y las nuevas variables
(componentes).

2.- ESTRUCTURA DE DATOS : estandarizacin escala de medidas.

Una de las cosas que tenemos que tener en cuenta en general es que las matrices de datos
X no estarn medidas en una escala de medida nica, por lo que es conveniente antes de efectuar
cualquier anlisis asegurarse de la homogeneidad de los datos, ya que la tcnica descansa en la
geometra analtica y utiliza la "distancia" como instrumento de interpretacin de las semejanzas
anteriormente expuestas, de esta forma tendr sentido interpretar la "distancia" entre las filas
(individuos) y las columnas (variables).

Recordemos que estandarizar o tipificar una variable requiere una serie de pasos como
son: en primer lugar centrado de la variable, esto es, restarle su media y en segundo lugar dividir
por su desviacin y dado que la desviacin esta definida en la misma unidad de medida que la
variable original , las nuevas variables estandarizadas no dependen de dicha unidad de medida y
as pueden compararse variables originales medidas con diferentes escalas. Es decir: centrar es
restar a cada valor numrico (dato) la media de la variable correspondiente. La tabla que resulta
tendr entonces como termino general ( xij:)
( ) x x x
ij
ij

Esta transformacin no tiene influencia alguna sobre las definiciones de semejanza entre
los individuos y de relacin entre las variables y por tanto este centrado no modifica la unidad de
medida original. La manera mas sencilla de eliminar las unidades de medida es tipificar los datos, es
decir, dividir cada dato centrado o no por la desviacin tpica correspondiente. En estadstica se
denomina variable tipificada, estandarizada o reducida a la que esta centrada, su media es cero y
esta dividida por su desviacin (
j ), donde su termino general seria:
,
_

j
j ij
x x

De esta manera, todas las variables presentan entonces la misma variabilidad y por ello tendrn la
misma influencia en el calculo de las distancias - semejanzas entre los individuos.
3.3.- AJUSTE DE LA NUBE DE INDIVIDUOS Y VARIABLES: Anlisis en R
P
y R
N

Recordemos que al hablar en la introduccin definamos la matriz de datos como una matriz
que por filas se identifica con los individuos y por columnas con las variables.

Partimos de un conjunto de n individuos i = 1 ..... n sobre el que se observan p variables
j = 1 .... p

Cada individuo fila es un vector de p componentes donde cada uno de ellos esta
asociado a una variable. Bajo este punto de vista se puede representar a cada individuo como un
punto o vector en el espacio p-dimensional ( R
P
) en el que cada dimensin (que representa a un
individuo) esta referida a una variable.

El conjunto de individuos constituye la nube que podemos identificar como N
ind
en la que
los datos han sido centrados de manera que su centro coincide con el origen de los ejes como
consecuencia de haber sido previamente centrada, a ese centro de coordenada se le llama centro de
gravedad y se le representa por G
ind
que como veremos cumple la particularidad de representar al
individuo medio. De esta manera el anlisis de componentes principales le llamaremos normado.

Tambin veremos que la posicin media de los n individuos respecto a las p variables
viene dada por el vector medias x
~
.

1
1
1
1
1
]
1
np n n
p
p
x x x
x x x
x x x
X
.
. . . .
.
.
2 1
2 22 21
1 21 11
En cualquier espacio multidimensional puede definirse una "distancia" entre cada par de
individuos. La conceptualizacin matemtica de la idea de distancia debe cumplir unos axiomas que
vamos a obviar, pero debe quedar muy claro que pueden definirse diferentes tipos de distancias y
todas ellas deben cumplir su axiomtica de definicin. La distancia mas intuitiva entre dos puntos
es la euclidea q ue viene dada por la diagonal (o su cuadrado) del tringulo rectngulo que se puede
construir entre dichos puntos y sus proyecciones perpendiculares a los ejes.

los vectors a y b se descomponen sobre la base e 1 y e2.

Siendo:
0 ;
1
1
2 1
2
1
> <
e e
e
e

de manera que:
1 11 2 22
1 21 2 12
e x e x b
e x e x a
+
+

el cuadrado de la distancia entre los vectores a y b ser:

> <

+
b a b a b a d
b a b a d
x x x x b a d
; ) ; (
) ; (
) ( ) ( ) ; (
2
2
2
2
11 21
2
22 12
2

Tambin podemos expresar la distancia como:

) ( )' ( ) ; (
2
b a M b a b a d

donde M es una matriz definida positiva que en el caso de utilizar una estructura euclidea coincide
con la matriz identidad I, pasando as a definir la mtrica del espacio. Podemos definir el producto
escalar de dos vectores a y b en el espacio de individuos como:

b M a b a
M
> < ' ;

En nuestro caso la generalizacin de la distancia euclidea para p variables es inmediata y
se considera como distancia euclidea al cuadrado el valor:

( ) ( )

p
j
j i ij
x x i i d
1
2
'
2
' ,

En el espacio R
P
de las variables, la nocin de semejanza entre dos individuos coincide
con la distancia euclidea. El conjunto de distancias inter-individuos constituye lo que se llama la
forma de la nube N
N
(individuos).

3.1.- Pesos de individuos y variables

Antes de abordar cualquier tipo de anlisis conviene tener en cuenta los datos de partida
y si les vamos a dar la misma importancia o no
2
. As cuando existen individuos procedentes de
poblaciones con mayor o menor importancia les podemos asignar un peso diferente segn la
poblacin de procedencia. Una de las formas podra ser asignndole un peso pro porcional al
efectivo total de elementos de la susodicha poblacin.

En el caso de que cada uno de los individuos represente una poblacin con mayor o
menor importancia, le asignaremos un peso proporcional al efectivo de la poblacin que represente.
As llamaremos p
i
al peso asignado al individuo i.

En la mayor parte de los casos por comodidad se toman los pesos de manera que la masa
total de estos individuos sea la unidad, asociando a cada individuo el peso
1
N
. Por lo tanto
tenemo s que:
x
x
N N
x p x
K
ik
i
n
ik
i
n
i ik
i
n

1 1 1
1
.

2
En caso de que se le conceda la misma importancia los elementos m
j
de la matriz diagonal M sern 1. Si
queremos darle una influencia en base a las caractersticas propias de los individuos la metrica mas utilizada es
asignar a m
j
= 1/
2
. Podemos ver un estudio de la mtrica diagonal no euclidea en: (Borouche, J.M; Saporta,
G.1980).
( )( )
,
_
,
_
,
_
,
_

h
h ih
k
k ik
n
i
i
n
i h
h ih
k
k ik
n
i h k
h ih k ik
kh
x x x x
p
x x x x
N
N
x x x x
r

1
1 1
1

En el caso de las variables y de forma similar, la importancia de unas y otras variables se
pueden modular utilizando un coeficiente llamado peso de la variable. As llamamos m
j
al peso de la
variable j, y la distancia entre los dos individuos i y i viene definida por:
( ) ( )

p
j
j i ij j
x x m i i d
1
2
'
2
' ,

Vamos a considerar a partir de ahora que :

p
N
i N
m j P
i
j

1
1
Efectuar un anlisis de estas distancias supone estudiar la forma de la nube, es decir
descubri r una particin de los puntos o direcciones de alargamiento.

De forma similar cuando hablamos de variables cada una de ellas tiene sus componentes
asociadas a n filas (individuos). Bajo este punto de vista, se puede representar cada variable como
un vector del espacio vectorial R
N
, en el que cada dimensin esta referida a un individuo: por
ejemplo la variable j esta representada por el vector simbolizado
j
x
r
y cuya componente i-esima es:

x x
ij j
j

El conjunto de los punt os extremos de los vectores que representan las variables
constituye la nube N
P
(variable).

La distancia entre variables en R
N
consiste en afectar a cada dimensin de un coeficiente
igual al peso de cada individuo en la nube N
N
de R
P
. En el caso general en que los pesos coincidan,
la distancia utilizada solo difiere de la euclidea usual en el coeficiente 1/N.

En un principio la distancia entre dos variables originales es:

( ) ( )

n
i
ij ij
x x j j d
1
2
'
2
' ,

Cuando utilizamos las variables previamente tipificadas, por los motivos aludidos
anteriormente tenemos que la distancia ser:

( )
2
1 '
' ' 2
' ,

1
1
]
1
,
_
,
_
n
i j
j ij
j
j ij
x x x x
j j d

Si introducimos 1/N estamos utilizando otra mtrica diferente de la euclidea en esa
proporcin.

Al estar la nube centrada sobre el origen la distancia en esta nueva mtrica de una variable
al origen ser:
( )
( )

1
1
]
1
,
_
n
i j
j
j
j ij
n
i j
j ij
x x
N
x x
N
G j d
1
2
2
2
2
2
1
2
1
1
0
1
,

Con esta distancia, los vectores que representan las variables centradas y tipificadas tienen las
siguientes propiedades:

a) Cada vector, que es representacin de una variable, tiene como norma la unidad.
( ) G j d
x x
N
k
n
i k
k ik
, 1
1
2
2
1
2

,
_

r

Por ello la nube N
P
esta repartida sobre una esfera de radio unidad.

Tambin podemos observar que:

( )
( ) ( )
( ) ( ) ( )( )
( )
' '
'
'
2
'
2
'
2
2
1 '
' '
2
'
2
' '
2
2
1
2
'
' ' 2
1 2 2 2 2
2
1
1
' ,
jj jj
j j
jj
j
j
j
j
n
i j j
j ij j ij
j
j ij
j
j ij
n
i j
j ij
j
j ij
r r
x x x x x x x x
N
x x x x
N
j j d
+
1
1
]
1
1
1
]
1

Es decir:

( ) ( )
'
2
1 2 ' .
jj
r j j d
esto implica que:

( ) 4 ' , 0
2
j j d

donde r
jj
es el coeficiente de correlacin entre las dos variables j y j. As las proximidades entre las
dos variables se pueden interpretar en trminos de correlacin. Si la distancia entre las dos
variables esta prxima a cero la correlacin ser prcticamente 1. Si estn muy correlacionadas
negativamente r
jj
= -1 la distancia ser mxima e igual a 4. Si estn incorrelacionadas, el coeficiente
de correlacin es cero, la distancia es 2 (intermedia).
b) El coseno del ngulo que forman los vectores que estn representando a las dos variables j y j
coinciden con el coeficiente de correlacin entre ambas. As:

( )
,
_
,
_
,
_
,
_

> <
n
i
jj
j
j ij
j
j ij
j
j ij
n
i j
j ij
r
N
x x
N
x x
x x x x
N
j j j j
1
'
'
' '
'
' '
1
.
1
' , ' , cos

La interpretacin de un coeficiente de correlacin como un coseno justifica la mtrica elegida.

rjj
-1 rjj
0 rjj
1
d ( j,j ) = 2 d ( j,j ) =2 d ( j,j ) = 0


Al ser la longitud de los vectores que representan a las variables igual que la unidad , la
coordenada de la proyeccin de una variable sobre otra se puede tomar como medida del mutuo
coeficiente de correlacin por tanto. Efectuar un anlisis de coeficientes de correlacin
entre las variables supone estudiar los ngulos entre los vectores que definen esta nube NP . Tal
estudio es imposible de realizar directamente dada la dimensin de R
N
. De ah el inters del ACP al
proporcionar variables sintticas que constituyen un resumen del conjunto de variables originales.

3.2.- Centro de gravedad e inercia de una nube de puntos

Consideremos la informacin proporcionada en una tabla de individuos por variables (
matriz X ): cada individuo tiene unas caractersticas dadas por la fila que le corresponde. Los p
datos del individuo configuran un vector
( )
ip i
x x x .....
1
r
que se representa como un punto en el
espacio R
P
. Los n individuos forman una nube de n puntos en R
P
.

Cuando solamente hay dos variables (p=2) esa nube es ms fcil de interpretar. As :

Un conjunto de individuos puede caracterizarse por su gravedad y por su inercia.

Como dijimos el centro de gravedad marcado en los grficos como punto x , es el vector
medias:
1
1
1
1
1
1
]
1
p
x
x
x
x
.
.
2
1

Es el punto que seala la posicin central de la nube, caracterizando al individuo promedio
respecto a las p variables.

La inercia de una nube de puntos es una medida sinttica de dispersin, se define como la
suma para todos los puntos del producto de sus masas por los cuadrados de sus distancias al
centro de gravedad.
Inercia = ( )
n
i
i i
x x d m
1
2
.
Segn esta medida sinttica de dispersin el grfico A tiene poca inercia, ya que los
individuos son muy homogneos, situndose cerca del centro de gravedad. Al contrario el grfico
B tiene mucha inercia.

Cuando se adopta la distancia euclidea ordinaria, la inercia de una nube de puntos es la suma de las
varianzas de las p variables.

( )

P
j
j ij i
x x x x d
1
2 2
) ( ,

y obtenemos:
inercia= ( ) ( )
2
1 1
2
1 1

n
i
p
j
j ij i
n
i
p
j
j ij i
x x m x x m
como m
N
i
i

1

tenemos que:
( )
2
2
1
1
j
n
i
j ij
x x
N

luego la inercia es la varianza:
inercia
j
j
p
2
1

Luego la inercia de la nube formada por los n individuos se calcula sumando los valores de
la diagonal principal de la matriz de covarianzas S

inercia = Traza de S

La matriz de covarianzas S ser:

N
X X
x x x
x x x
x x x
x x x
x x x
x x x
N
S
np n n
p
p
np p p
n2
n
.
.
. . . .
.
.
.
.
. . . .
.
.
1
'
2 1
2 22 21
1 12 11
2 1
22 12
1 21 11
1
1
1
1
1
]
1
1
1
1
1
1
]
1

Siendo la matriz X la matriz de datos centrados de individuos por variables, es decir, donde a cada
valor se ha restado el valor medio de la variable.
4.- PROYECCION DE LA NUBE DE INDIVIDUOS Y VARIABLES.

Desde una perspectiva general y teniendo en cuenta la definicin de inercia expuesta en el
apartado anterior podemos obtener la mxima inercia proyectando un punto sobre un eje de manera
que:

La proyeccin del vector que representa la variable xi sobre el eje cuyo vector unitario U1.
Aplicando el Teorema de Pitagoras la distancia entre OA AB OB
2 2 2
+ luego como queremos
minimizar las distancias entre z
i
y x
i
se tratara de minimizar:

min x z min x min z
i i
i
n
i
i
n
i
i
n

2
1
2
1
2
1

dado que el primer termino del segundo miembro es constante, la minimizacin se consigue
maximizando el segundo, es decir, maximizando la suma de las proyecciones al cuadrado.

Siendo la proyeccin:
z x U x u
i i ij j
j
p

'
1 1
1

Esto nos llevara a elevar al cuadrado las proyecciones, que matricialmente seria:

U
1
XXU
1

Por tanto hay que maximizar U
1
XXU
1
sujeto a la restriccin de que U
1
U
1
= 1

Desde otro punto de vista se puede estudiar la obtencin de la mxima inercia a travs de la matriz
de varianzas-covarianzas.

Sea la tabla de datos n.p matriz X de individuos por variables y su representacin en forma
de nube de puntos -individuo.

Supongamos que conocemos P=2 variables: x1 , x2 . Nuestro objetivo es condensar esa
informacin en una sola variable sinttica (factor, componente principal) funcin de x1 , x2 que nos
represente adecuadamente las dos variables. Es decir interesa reducir la nube de puntos de manera
que se obtenga una representacin a la vez accesible a nuestra visin y fiel, en el sentido que en la
representacin de la nube se mantenga el mximo de informacin que ella contiene. La
representacin ser accesible si se proyecta la nube sobre un subespacio de pequea dimensin y
ser fiel si la dispersin de la nube proyectada es casi igual a la nube propiamente dicha.

La inercia de la nube proyectada depende del eje que se ha elegido para proyectar y de la
inercia que contienen los datos originales.

En general se trata de buscar un subespacio de dimensin m<P y m<N y esto lleva a
encontrar un sistema de vectores ( )
m
u u U . .
1
y ( )
' 1
. .
m
v v V ortonormado
para la mtrica R
P
R
N
que engendran el subespacio de manera que sea mxima la inercia de las nubes
sobre los subespacios.

La proyeccin segn vimos del vector x
i
sobre el eje definido por el vector unitario U es la
coordenada z
i
del punto e n dicho eje:

( )

+ +
1
1
1
1
1
]
1

p
j
ij j p ip i i
p
ip i i i i
x u u x u x u x
u
u
u
x x x U X Z
1
2 2 1 1
2
1
2 1
....
.
. .

Cuando hay p variables las coordenadas de las proyecciones de los n individuos sobre el
nuevo eje forman un vector columna Z de n elementos: ( )' ....
2 1 n
z z z Z que se calcula
multiplicando la matriz X de datos originales por el vector U :

1
1
1
1
1
]
1
1
1
1
1
1
]
1

p np n n
p
p
u
u
u
x x x
x x
x x x
XU Z
.
.
.
. . . .
. .
.
2
1
2 1
2 21
1 12 11

la media de las proyecciones Z coincide con la proyeccin del centro de gravedad de la nube X .
[ ] U X
u
u
u
x x x
u
u
u
x x x
N
U X
N
z
N
Z
p
p
p
n
i
ip
n
i
i
n
i
i
n
i
i
n
i
i
1
1
1
1
1
]
1
1
1
1
1
1
]
1
1
]
1

.
.
.
.
1 1 1
2
1
2 1
2
1
1 1
2
1
1
1 1

Como la inercia de una nube es su varianza:

inercia Z
z
( )
2

( ) ( ) ( ) [ ]
( ) ( ) [ ] ( ) ( ) U x x x x U
N
U x x x x U
N
u x x
N
u x u x
N
z z
N
n
i
i i
n
i
i i
n
i
i
n
i
i
n
i
i z
1
]
1

1 1
1
2
1
2
2
1
2
' '
1
' '
1
1 1 1

como:
( ) ( ) S x x x x
N
n
i
i i

1
'
1

ya que segn vimos:
S =
X X
N
'

la inercia de Z =
z
2
= U S U

Hasta ahora lo que hemos realizado es proyectar un conjunto de n individuos sobre un eje.
El paso siguiente consiste en proyectar sobre m ejes (m<p), definidos por los m vectores unitarios
U
1
U
2
........U
m
ortogonales. Las proyecciones conforman una matriz Z de n filas (una para cada
individuo) y m columnas (una para cada eje factorial), y se obtiene multiplicando la matriz de datos
X por la matriz cuyas columnas son las m vectores unitarios:
Z = X . U

4.1.- Obtencin del eje de mxima inercia

El primer eje (componente) es la variable sinttica o combinacin de variables originales
que resume mejor la informacin que contienen.

Se trata de obtener la primera componente principal, es decir, el vector unitario U1 de
manera que U1 U1 =1 que haga mxima la inercia de la nube de puntos proyectada sobre el eje
definido por dicho vector ( z1 ) .
luego hay que:
maximizar U1 S U1
sujeto a que: U1 U1 = 1

para obtener este eje el instrumento matemtico para maximizar es la diagonalizacin de una matriz.
La funcin a maximizar sujeta a las restricciones anteriores es:

( ) 1 ' '
1 1 1 1
U U VU U L

derivando respecto al vector U:

L
U
SU U
1
1 1 1
2 2 0
y por tanto:

SU U SU U
1 1 1 1 1 1
0

1
se llama valor propio y nos indica el numero de veces que se amplifica la longitud del vector U
1

(vector propio).

Los valores propios se obtienen resolviendo la ecuacin caracterstica, ecuacin
polinmica de grado n en general, que se obtiene igualando a cero el determinante de la matriz.

S I 0

De la resolucin de la ecuacin caracterstica, obtenemos los valores propios (tantos como
variables originales) de manera que la traza de la matriz diagonal que contiene los valores propios
nos indica la mxima inercia que coincide con la varianza total de la nube de puntos.

Para obtener los vectores propios (que nos indican la direccin del eje factorial) asociados
a los valores propios, se sustituye el valor propio
1
en:

S I U
1 1
0

sujeto a la restriccin:
U1 U1 = 1

resolviendo el sistema se obtiene:
1
1
1
1
1
1
1
1
]
1
p
u
u
u
U
1
12
11
1
.
.
.

Cada individuo tiene una proyeccin sobre ese nuevo eje. El conjunto de esas
proyecciones sobre el eje obtenido a travs del vector
r
U es una nueva variable de manera que las
coordenadas del individuo X
i
sobre el eje U
i
se obtienen a partir del producto escalar, de manera
que obtenemos:

+ +
p
j
p ip i j ij i i
u x u x u x U X Z
1
1 11 1 1 1 1
.....

Una vez obtenida la primera componente principal , buscamos la segunda. Es decir, el eje
definido por el vector U
2
ortogonal con U
1
que maximice la inercia de la nube proyectada sobre l
no condensada por la primera componente. Luego hay que:

maximizar: U
2
SU
2

sujeto a : U
2
U
2
= 1
U
2
U
1
= 0

La segunda componente ser el vector propio de la matriz S asociado al
2
(segundo valor
propio mayor). A su vez este valor propio refleja la inercia de la proyeccin .

La proyeccin de un individuo sobre este eje se representa mediante:

+ +
p
j
p ip i j ij i
u x u x u x U X Z
1
2 21 1 2 2 1 2
....

Estos valores constituyen una nueva variable artificial, combinacin lineal de las p
variables originales. Donde Y
i2
nos indica las coordenadas del individuo i en el segundo eje
factorial.

De forma similar se puede demostrar que los dems componentes son los vectores propios
de S asociados a los valores propios ordenados en sentido decreciente. En virtud de las
propiedades de la diagonalizacin de matrices simtricas, si el rango de la matriz S es p habr p
componentes o factores asociados a los p valores propios. Donde cada uno de los valores propios
proporciona la parte de la inercia (varianza total) de la nube acaparada por la componente.

En general podemos decir que:

+ + +
p
j
j ij i
pi p i i i
u x Z
x u x u x u Z
1
2 2 1 1
.....

Como las componentes son variables centrada se tipifican facilmente si se divide por su
desviacin tpica. Designaremos Y
a la componente -esima tipificada definida por el cociente

entre Z
(componente) y la varianza de Z (
) de forma que:

Z
Y
luego dividiendo la expresin anterior por la desviacin de z obtenemos la expresin:
pi
p
i
i
i
x
u
x
u Z
Y

+ + ......
1
1

si designamos a c
u
i
i
obtenemos que:

pi p i i i
x c x c x c Y

+ + + ......
2 2 1 1

A la matriz formada por los coeficientes c se le denomina Factor Score. Matriz de
puntuaciones factoriales
3
, que se puede expresar como:

'
2
1
U D P

4.2.- Estudio a travs de la matriz de correlaciones.-

Generalmente los paquetes informticos utilizan la matriz de correlaciones para realizar el
ACP. La mtrica que se utiliza para poder trabajar con la matriz de correlaciones R se diferencia de la
euclidea al introducir el cociente 1/N en la transformacin de las variables. De manera que la
variable original se transforma
4
de la siguiente manera:

xij =
x x
N
ij j
j

4
En la aplicacin informtica SPSS se utiliza para realizar la transformacin de las variables originales la cuasidesviacin en lugar de la
desviacin tpica, hecho que modifica sensiblemente los resultados.


La matriz de los datos originales X se transformara por tanto en otra C de manera que:
CC = R

En este caso la distancia entre de individuos i i seria:

( )

,
_
p
j j
j i ij
x x
N
i i d
1
2
' 2
1
' ,

Esto hace coincidir la distancia en esta mtrica con la definicin dada de inercia.

Por tanto el proceso a seguir ser el mismo que hemos realizado cuando trabajbamos con
la matriz S de varianzas -covarianzas. Aplicando la maximizacin de la proyeccin de la nube de
puntos descrita anteriormente, habr que:

maximizar U
1
RU
1
con la restriccin U
1
U
1
= 1

y a partir de ah obtener las componentes.

Proyeccin de la nube de puntos-variables en R
n

Anlogamente, en el espacio R
N
(variables) se tratara de buscar los ejes que maximizan la
suma de las proyecciones de las variables al cuadrado.

Sea v
i
el vector director del subespacio de dimensin 1 que pasa por el origen. La
proyeccin de un punto j sobre el eje viene dado por:

( ) [ ]
1
1
1
1
]
1
1
11
1
1
1
.
.
. . '
n
nj j
n
i
ij ij j
v
v
x x v x V X j W

Los p valores de estas proyecciones son las p fila s del vector de los productos escalares
XV
1
, y por lo tanto la suma de los cuadrados es ahora V
1
XXV
1
. Maximizando esta expresin
sometida a la restriccin VV =1 antes comentada obtendremos (a travs de la diagonalizacin, los
valores y vectores propios) de manera que al igual que hacamos en R
P
obtendramos un
subespacio R
m
tal que m<n donde los vectores propios v v
n 1
. . asociados a los valores
propios
1
. .
' m
estn ordenados de mayor a menor.

5.- RELACION ENTRE LOS DOS ESPACIOS R
P
Y R
N
( DUALIDAD)

Vamos a ver cual es la relacin existente entre estos dos vectores propios (U y V), de tal
manera que teniendo uno podamos obtener el otro. De esta manera podremos obtener el
subespacio de R
N
sin tener que realizar todo el proceso. Adems de obtener las funciones que
relacionan los dos espacios.

Por definicin de V (vector propio):

XX V =
V

donde V y
son respectivamente el -simo vector propio y el -simo valor propio de XX. Si el
rango de la matriz XX es m, hay n valores propios no nulos, siendo m inferior o igual a la dimensin
mas pequea de X. m min n p ( , ) .

Una de las propiedades de las matrices es que:

XX tienen los mismos valores propios que XX. Si V es un vector propio de XX de valor propio entonces
XX V = V.

Premultiplicando los dos miembros de esta relacin por la matriz X, tenemos:

X(XX)V =X(V) = XV
XX(XV) = (XV)

A cada vector propio V de XX le corresponde , un vector propio
U = XV de XX relativo al mismo valor propio. Por los tanto podemos decir que:

Todo valor propio no nulo de la matriz XX es tambin valor propio de la matriz XX. Y los vectores propios
correspondientes estn ligados por las relaciones:

U

= k X V

V

= k X U

siendo k y k una constante.

Luego los valores propios ( )
m
. .
1
de XX asociados a los vectores propios
( )
m
u u . .
1
son iguales a los valores propios ( )
m
. .
1
de XX asociados a los
vectores propios ( )
m
v v . .
1

1 1
. .
m m

Lo que significa que la cantidad de informacin (suma de las proyecciones al cuadrado)
recogida por los ejes respectivos en ambos espacios es la misma.

Luego veamos como conocidos los vectores propios de un subespacio se pueden obtener
los del otro sin necesidad de una factorizacin.

V k XU

'

como VV = 1 tenemos (elevando al cuadrado) que:

k U X XU ' ' '
2
1

adems sabemos ( )

U U XX ' , por lo que U X XU ' '

por ser la suma de las
proyecciones al cuadrado, luego k =
1
, y

V XU
1

La proyeccin de un punto j sobre el eje factorial la representaremos por:

( )

U U XU X
XU X V X j W

1
'
1
1
' '

Podemos establecer por tanto las relaciones de transicin
5
que relacionan los dos espacios
de manera que, si imponemos que:

u

u

= v

v =1 , se obtiene segn vimos que k
= k
= 1
.

Podemos pues ahora escribir el siguiente sistema de relaciones fundamentales:

U X V
1
'

V XU
1

5
Vid in. Lebart, L; Morineau ,A; Piron, M.: 1997

El eje Z
soporte del vector unitario U
se llama el -simo eje factorial de R

P
. El W

soporte del vector unitario V
es el -simo eje factorial de R

N

Las coordenadas de los puntos de la nube sobre el eje en R
P
son, por construccin, las
coordenadas de XU
, y las de los puntos de la nube sobre el eje en R

N
son, por construccin,
las coordenadas de XV
.

Por tanto las relaciones son:

( ) ( ) ( ) i Z X i Z X XU X V X j W

'
1 1
'
1
' '
( ) ( ) ( ) j XW j W X V X X XU i Z

1 1
'
1

( ) ( )
( ) ( ) j XW i Z
i Z X j W
1
'
1

Tambin a partir de las relaciones:
U X V
1
'
V XU
1

se puede reconstruir la matriz original:

U X V
V XU
'

si postmultiplicamos los dos miembros por V

y U
respectivamente tenemos:

' '
' ' '
U XU U V
V V X V U

y sumemos para todos los valores (si existen valores propios nulos, los vectores U

correspondientes completan la base de R
P
). (igualmente los vectores V
completan la base R
N
).

X V U

'
( )
j j
p
v u j X

' '
1

6.- CORRELACION ENTRE FACTORES Y VARIABLES ORIGINALES

Una de las razones para realizar una ACP es sintetizar un conjunto de variables en otras de
inferior dimensin. En definitiva tenemos que obtener esas nuevas variables y darles un nombre,
para hacerlo debemos interpretar el significado en el contexto del problema que se analiza y
debemos conocer cual es la correlacin entre estas nuevas variables sintticas y las variables
originales.

En general cada factor estar muy correlacionado con alguna o algunas variables y menos
con las dems, por ello es importante saber las correlaciones entre los factores y las variables
originales.

El coeficiente de correlacin lineal de Pearson es el cociente entre la covarianza y el
producto de las desviaciones tpicas.

La covarianza muestral entre X
j
y Z
viene dada por la expresin:

( )

n
i
i ij j
z x
N
X Z Cov
1
1
,

( )
) ........ 1 (
........ 1
p
n i

donde xij y zi son valores centrados. La expresin anterior se puede escribir en forma matricial
como:

( )
Cov Z X
N
X Z
N
X Z
N
Z X
j j j j
, '
' '

1 1 1

j p
F
1
1
......,
......,

donde el vector x
j
es columna de la tabla de d atos centrados, y por lo tanto X
j
es la fila j-sima de
la matriz traspuesta (X). El vector x
j
se puede expresar en funcin de la matriz X, utilizando el vector
de orden p, al que le designaremos por , que definiremos como un vector fila con todos sus
elementos nulos excepto el j-simo que vale 1,asi podemos escribir:

[ ] [ ]
nj j j
np ip p
nj ij j
n i
j
x x x
x x x
x x x
x x x
X X .. ..
. . .
. . . . . .
. . .
. . . . . .
. . .
0 . 1 . 0 ' ' '
2 1
1
1
1 1 11
1
1
1
1
1
1
]
1

teniendo encuenta que Z

= X . U

, la covarianza se puede expresar de la siguiente forma:

( )

XU X
N
X Z Cov
j
' '
1
,

Teniendo en cuenta que (XX)/N = S y que U es el -esimo vector propio de S, la ultima
expresin se convierte en:

( )
j
u U SU XU X
N

0 . 1 . 0 ' ' '
1

Esta expresin indica que la covarianza entre la variable j y el factor es directamente
proporcional a la inercia del factor y al j-simo elemento del vector unitario que lo define. Por tanto
la correlacin entre ambas ser:

( )
( )
j
j
j
j
j
u u
j
j corr

, cov
,

La correlacin componente - variable depende de la desviacin tpica (en caso de que las
variables originales no estn tipificadas), y por consiguiente depende de la unidad de medida que
se utilice : la interpretacin de las componentes varia si cambiamos de medida las variables.

Si utilizamos variables tipificadas su desviacin tpica de la variable ser uno y por tanto:
( )
j
u j corr

,

Estos sern los valores de las coordenadas de las variables en los ejes factoriales, en el
supuesto de un anlisis de componentes principales normado (anlisis a partir de la matriz de
correlaciones R ).

A la matriz formada por las coordenadas factoriales de las variables (proyecciones de las
variables sobre los ejes factoriales se le denomina FACTOR MATRIX)
6

Por otro lado tanto la traza de la matriz R (de correlaciones) como la de la matriz S de
varianzas -covarianzas es igual a la suma de la diagonal principal de la matriz de valores propios.
( ) ( )

p p
j
ij
p
j
ij
s r S tr R tr
1 1 1

siendo la traza de S la varianza total del sistema.

Hay que entender que la matriz de valores propios tiene toda la informacin relevante de la
matriz de varianzas-covarianzas S y la matriz de correlaciones R en la diagonal , siendo redundante
la informacin que aportan los elementos exteriores de la diagonal.

Cada valor propio se interpreta no solo como la varianza de la componente , sino tambin
como la parte de la varianza que el -esimo eje principal explica y el ratio:

( ) S tr p

como ndice de la importancia de esta componente en la varianza total en el conjunto de las
variables originales. De esta manera podemos obtener el porcentaje de la inercia total de la nube
explicada por cada una de las componentes.

7.- NUMERO DE COMPONENTES A RETENER

La matriz factorial puede presentar un numero de factores superior al necesario para
explicar la estructura de los datos originales. Generalmente hay un conjunto reducido de factores,
los primeros, que son los que explican la mayor parte de la variabilidad total. Los otros factores
suelen contribuir relativamente poco. Uno de los problemas que se plantean, por tanto, consiste en
determinar el numero de componentes que debemos conservar.

Si retuvisemos todos las componentes ( que seria igual al numero de variables
originales)
7
, entonces la matriz Z de coordenadas de los n individuos en los p componentes
contendra toda la informacin (inercia) de la matriz X de datos originales.

Sin embargo nuestro objetivo es reducir la dimensin del problema. Por tanto debemos
retener los m primeros factores (m<p), excluyendo los restantes.

El porcentaje de inercia condensado por estos m factores conjuntamente es:

6
Matriz que denominaremos de saturaciones en un modelo factorial general donde cada elemento de la matriz representa la correlacin entre
la variable y el factor
7
En caso de que escogisemos todos los factores obtendramos los valores de las comunalidades todos iguales a 1. La comunalidades nos
indican la proporcin de la varianza explicada por los factores comunes para cada variable. Al disminuir el numero de componentes (ya que
pretendemos reducir el espacio original) la comunalidad resultante ser inferior.

( )
100
100
1
1
p
S tr
m
m

Si las variables originales no estuvieran correlacionadas, o bien si la correlacin de todos
los pares de variables fuera idntica, entonces cada valor propio seria igual a la unidad, de forma
que cada factor explicara exactamente la misma cantidad de inercia que cada variable. En este caso
seria imposible reducir el numero p de variables y encontrar por tanto un subespacio menor de p.

Generalmente las variables originales presentan correlaciones, de forma que los valores
propios aparecen ordenados en sentido decreciente. Las componentes explican entonces distintos
porcentajes de la varianza total (inercia), de forma que reteniendo los m primeros se consigue dos
objetivos:

- Se conserva gran parte de la inercia total de la nube de puntos
- Conociendo la matriz Z (nxm) de coordenadas de los individuos en los factores
retenidos, se puede reproducir de forma aproximada la matriz de correlacin original.

La decisin de cuantos factores deben retenerse depende del tipo de problema que
estemos analizando, de la precisin requerida, de la interpretabilidad de la componentes, etc.. . Se
trata de explicar la mxima varianza de la nube de puntos (variables originales ) con el mnimo de
factores.

Uno de los criterios ms conocidos y utilizados es el criterio o regla de Kaiser, que
indicara hay que conservar solamente aquellos factores cuyos valores propios son mayores a la
unidad (Kaiser, H.F. 1960). Este criterio es el que suelen utilizar los programas estadsticos por
defecto. Sin embargo este criterio tiende a sobrestimar el n de factores.

Otro criterio es el Scree-Test de Cattell, consiste en representar en un sistema de ejes los
valores propios (ordenadas ) y el numero de factores (abcisas). (Cattell, R.B. 1966). Sobre la grfica
resultante se traza una lnea recta base a la altura de los ltimos valores propios (ms pequeos) y
aquellos que queden por encima indicaran el n de factores a retener.

Es utilizado para estudiar el decrecimiento de los valores propios. El principio de lectura de
este grfico es el siguiente: si dos factores estn asociados a valores propios casi iguales,
representan la misma parte de variabilidad y no hay lugar, a priori, para retener uno y no el otro en
la interpretacin. Recprocamente, un fuerte decrecimiento entre dos valores propios sucesivos
incita a retener en la interpretacin los factores precedentes a este decrecimiento.

En la practica, se observa a menudo el fenmeno siguiente: los f primeros valores propios
presentan un decrecimiento bastante irregular; despus, mas all del rango f, el decrecimiento es
muy regular. Esto indica que los f primeros factores corresponden cada uno de ellos a
irregularidades en la forma de la nube de puntos estudiada que requieren ser interpretadas y
sugiere que los factores siguientes no representan mas que el inevitable ruido que acompaa a toda
observacin de naturaleza estadstica.

Caso extremo, un decrecimiento regular desde el primer valor propio traduce una nube casi
esfrica y, por tanto, datos poco estructurados de los que los factores son poco sintticos. Un
diagrama de este tipo presagia un inters limitado de los factores.

Velicer, propone el metodo MAP (Minimum Average Partial). (Velicer, W.F. 1976), que
implica calcular el promedio de las correlaciones parciales al cuadrado despus de que cada una de
las componentes ha sido parcializado de las variables originales. Cuando el promedio de las
correlaciones parciales al cuadrado alcanza un mnimo no se extraen mas componentes. Este
mnimo se alcanza cuando la matriz residual se acerca ms a una matriz identidad. Un requisito para
utilizar esta regla es que cada una de las componentes retenidas deben tener al menos dos variables
con pesos altos en ellos.

El anlisis Paralelo fue sugerido por Horn, (Horn, J.L. 1965) quien seala que a nivel
poblacional los autovalores de una matriz de correlaciones para variables no correlacionadas
tomarian valor 1. Cuando se generan matrices muestrales basadas en esa matriz poblacional por
fluctuaciones debidas al azar los autovalores excedern levement e de 1 y los ltimos estarn
ligeramente por debajo de 1. Horn propone contrastar los autovalores encontrados empricamente
en los datos reales con los obtenidos a partir de una matriz de variables no correlacionadas
basadas en el mismo nmero de variabl es que los datos empricos y en el mismo tamao de la
muestra. Los componentes empricos con autovalores superiores a los de la matriz son retenidos.

En general se deben retener, sin perder de vista los criterios objetivos, aquellos factores
que se saben interpretar. Seria perjudicial rechazar, con criterios estadsticos, un factor que se sabe
interpretar y seria delicado retener un factor que no se sabe interpretar.

8.- ELEMENTOS SUPLEMENTARIOS.

Como ya hemos comentado en algunas ocasiones el objetiv o del anlisis es reducir el
espacio conformado por los individuos y variables originales en un sub-espacio de dimensin
menor manteniendo la mxima informacin sin modificar la dispersin inicial.

A esas variables e individuos se les denominan elementos activos. Sin embargo tambin
pueden posicionarse en ese mismo sub-espacio, otros elementos (puntos-fila o puntos-columna de
la matriz de datos) que no han participado en la construccin de los ejes factoriales y que son
llamados elementos suplementarios o ilustrativos.

Los elementos suplementarios intervienen a posteriori para caracterizar a los ejes. Su
introduccin en el anlisis constituye una aportacin fundamental que permitir enriquecer la
interpretacin de los factores.

La tabla de datos R puede ser as completada en columna por una tabla de n lneas y con
ps columnas R
+
y en lnea en una tabla R
+
con ns lneas y ps columnas.


Las tablas R
+
y R+ pueden transformarse respectivamente en tablas X
+
y X+.

Se llama individuo suplementario o ilustrativo a aquellos individuos que no deseando que
intervengan en la determinacin de los ejes interesa conocer la posicin de su proyeccin sobre los
ejes obtenidos por el resto de la poblacin

Para situar los individuos suplementarios en el espacio R
P
es necesario realizar la
transformacin:

j
j ij
ij
N
x x
x

+
+

Las coordenadas de los nuevos puntos individuos son:

( ) u x i Coord
i

+
,

De igual manera las variables suplementarias o ilustrativas son aquellas que se proyectan
sobre los ejes det erminados por las restantes variables.

En R
N
para que las distancias entre variables se interpreten en trmino de correlacin las
variables deben ser continuas y es indispensable efectuar la transformacin:

+
+ +
+
j
j ij
ij
N
x x
x

Donde se calcula la nueva media y desviacin incorporando las nuevas variables
suplementarias a las variables activas; de esta forma se puede posicionar esta variable ilustrativa
sobre la esfera de radio 1.

Las coordenadas de las variables suplementarias se calculan:

( )

v x j Coord
+ '
,

Las relaciones de transicin nos permiten determinar los vectores propios v
a partir de los
valores propios
y las coordenadas factoriales de los individuos activos sin que sea necesario
realizar las operaciones de las diagonalizacin, as:

( )
,
1
i coord v

Si existe una fuerte correlacin entre una componente principal y una variable
suplementaria, esta variable caracteriza la componente de una manera ms fuerte que las variables
activas, ya que las variables suplementarias no han formado parte en la formacin de la
componente principal.

9.- CONTRIBUCIONES ABSOLUTAS Y RELATIVAS: ayudas a la interpretacin.-

Hasta ahora sabemos cual es la contribucin de un eje factorial a la varianza total de la
nube de puntos. Tambin que un factor se interpreta a partir de su correlacin con las variables
originales y que esta correlacin es precisamente la proyeccin de la variable sobre el factor, es
decir, las coordenadas de las variables sobre el factor lo que constituye la matriz de saturaciones.

Es indispensable utilizar las ayudas a la interpretacin. Un anlisis factorial explicado
solamente sobre el examen de las grficas obtenidas tiene un fuerte riesgo de ser errneo.

Para interpretar un eje es importante saber cuales son los puntos que mas contribuyen a la
formacin de los ejes. Estas contribuciones
8
son las que se denominan como absolutas y relativas.

Contribuciones Absolutas de las variables.-

Llamaremos contribucin absoluta a la aportacin de cada una de las variables a la inercia
o varianza de cada eje factorial. Es decir nos indicara la contribucin o porcentaje de una variable
original a la construccin del factor que previamente nos ha indicado a partir de su valor propio el
porcentaje de la varianza total de la nube de puntos.

Expresaremos la contribucin absoluta como:

( )
( )
( )
( )
( )
,
,
2
2
1
2
2
j coord
j coord
j Z
j Z
j CAb
p
j

como el peso de las variables es 1 para todas ellas, tenemos que:

8
Vi d i n. Volle, M. 1997.
( )

,
2
j coord m
j

as:

( )
( )
,
2
j coord
j CAb
podemos comprobar que:

( )
P
J
j CAb
1
1

Tambin podramos expresar la contribucin absoluta teniendo en cuenta que:

( )
j j
r u j Z

.

Como determinamos que los coeficientes de correlacin entre variable y factor en ACP
coincida con las saturaciones en AF, tenemos:

( )
2
1
2
2
1
2
2
j
p
j
j
j
p
j
j
j
a
a
a
r
r
j CAb

Contribucin Relativa de las variables. -

Expresan la contribucin de un factor a la explicacin de la dispersin de una variable. No
debe confundirse este concepto y creer que es un porcentaje de la contribucin absoluta porque
estas ultimas se pueden medir en tantos por 1 o en porcentaje. Mientras que las contribuciones
absolutas permiten saber que variables son las responsables de la construccin de un eje factorial,
las contribuciones relativas muestran cuales son las caractersticas exclusivas de ese factor.

Matemticamente hablando los ejes factoriales constituyen bases ortonormales. El
cuadrado de la distancia de un punto al centro de gravedad se descompone en suma de cuadrados
de las coordenadas en estos ejes. Para un punto j, se tiene que:

( )
( )
( )
( )
( ) O j d
j coord
G j d
j Z
j C
,
,
,
Re
2
2
2
2

tngase en cuenta que la cantidad de informacin se mide por la suma de las distancias al origen al
cuadrado y que al estar la nube centrada sobre el origen la distancia en la mtrica empleada (no
euclidea) nos da siempre la unidad ( la nube de puntos esta repartida sobre una esfera de radio la
unidad). Por tanto:

( )
( )
( )
,
1
Re
2
2
j coord
j Z
j C

luego las contribuciones relativas coinciden con las coordenadas de cada variable.

Al igual que hacamos sobre las variables en el caso de individuos tendramos:

( )
( )
,
2
i coord m
i CAb
i

nos indicara la contribucin de cada individuo a la formacin del eje factorial.

La contribucin relativa en el caso de individuos permite evaluar la calidad
9
de la
representacin de los individuos sobre el eje factorial.

( )
( )
) , (
,
Re
2
2
G i d
i coord
i C

A fin de obtener la contribucion relativa se calcula la distancia de cada punto individuo al
origen. Esta distancia es:

( )

p
j
ij
x G i d
1
2 2
,

La suma de todas las contribuciones relativas (de cada factor) de un individuo ser la
unidad . Si lo expresamos en porcentaje el 100%.

9
Tambin se puede obtener un indicador de la calidad de la representacin de los individuos i variables estudiando el ngulo que fo rman y
obteniendo los cosenos.

( ) 1 Re
1

p
i C

10.- INTERPRETACION DE LOS FACTORES.

Los factores se escogen en el orden decreciente de los valores propios. Pueden ser
estudiados separadamente o dos a dos con la ayuda de los planos factoriales. Es preciso tener en
cuenta que el factor de orden f (f>1) traduce las tendencias residuales no tenidas en cuenta por los
factores precedentes.

La interpretacin siempre se realiza de forma personal, es el analista quien de forma
particular , en funcin de sus conocimientos y experiencia interpreta unos resultados que otro hara
de diferente forma.

Debido a las relaciones existentes entre los dos espacios R
P
y R
N
, a menudo es preciso
consultar alternativamente los res ultados relativos tanto a los individuos como a las variables.

En general es ms fcil comenzar por el estudio de las variables , ya que en la mayora de
los casos son inferiores al numero de individuos y tienen ms sentido que los individuos. De esta
manera se da mayor relevancia a los datos que han participado directamente en la construccin de
los factores.

10.1.- Interpretacin de la nube de variables.

Retomando el objetivo principal del anlisis de componentes principales, como la
obtencin de unas nuevas variables sintticas (factores) combinacin lineal de las variables
originales, de manera que, sinteticen la informacin manteniendo la estructura original. El problema
que se nos plantea es dar nombre a esas nuevas variables de manera que indiquen fielmente
aquellas variables originales que han contribuido principalmente a su construccin. Para ello, en
una primera fase, partiremos de la correlacin existente entre los factores y las variables originales
10

Cada factor estar muy correlacionado con algunas variables de forma que podremos
atribuir un significado a las componentes si conocemos estas correlaciones.

Al interpretar eje por eje se consideran las variables activas mas ligadas a cada eje. De esta
manera se pueden presentar dos situaciones:

- Todas las variables muy ligadas al factor se siten en un mismo lado del eje. El factor
aparece entonces como una sntesis entre estas variables.

- Las variables muy ligadas al factor presenten una coordenada positiva para unas y
negativa para las dems. Es preciso entonces buscar un denominador comn que, a la vez,
relacione las variables situadas en un mismo lado y oponga las variables situadas en diferentes

10
Tngase en cuenta que esta correlacin en el anlisis normado coincide con las coordenadas de las variables y con la matriz de
saturaciones.
materias, un factor puede traducir la oposicin entre materias. Esta fase permite obtener ya la
significacin general de algunos ejes.

Es interesante ayudar a la interpretacin trazando un circulo de radio 1, o circulo de
correlaciones, porque la proximidad de un punto al circulo permite juzgar la calidad de las variables .
Por otro lado, si unimos los puntos de las variables con el origen visualizamos los ngulos que
miden la relacin entre las variables bien representadas (prximas al circulo de correlacin). As es
posible reagrupar visualmente variables relacionadas entre si y bosquejar de este modo una
tipologa de las variables.

Grfico n 3._: Representacin de las variables en el plano factorial.

La nube de variables esta situada sobre una esfera (0,1), la imagen de los puntos de la
nube estn situados sobre un plano factorial en el interior de un circulo (0,1) (Grfico n 3._).

Los puntos de la nube mejor representados para los planos son los que su imagen estn
ms prximas al borde del circulo. Si observamos grfico, sobre el eje V1 el grupo B de variables
tiene las coordenadas prximas a 1 y el grupo D prximas a 1; otro grupo se encuentra muy cerca
del borde del circulo sin tener sus coordenadas elevadas ni sobre el eje V1 ni sobre V2 ( grupo A); y
por ultimo un grupo con coordenadas relativamente prximas a 1 sobre el eje V2 ( grupo C).

Se dir que el eje V1 opone las variables del grupo B a las del grupo D . Cada uno de estos
grupos estn formados por variables fuertemente correlacionadas entre si. Se puede interpretar F1( i
) como una nueva variable definida sobre la poblacin considerada y que ser funcin lineal
creciente de cada una de las variables del grupo B y funcin lineal decreciente de cada una de las
variables del grupo D. As el anlisis nos aporta dos resultados: los grupos B y D y una nueva
variable F1( i ) que puede sustituir a cada una de estas variables sin que se pierda mucha
informacin.

Como nosotros le hemos dado a cada punto variable un peso igual a la unidad y como la
nube de variables esta situada en la esfera de radio 1, el uso de las ayudas a la interpretacin no es
indispensable, es suficiente con la lectura de las coordenadas de las variables.

Por otro lado las variables del grupo A estn bien representadas para el plano (1,2) sin que
estn ,como decamos, bien representadas para el eje V1 ni para el eje V2 .

Recordemos que si la variable j esta representada por un punto muy prximo al borde del
circulo, se puede ver directamente sobre el grfico el coeficiente de correlacin rjj con otra variable
j cualquiera; es suficiente trazar sobre Oj la perpendicular resultante de la proyeccin de xj ; as se
verifica que:

' '
'
jj j j
r x x A O

Grfico n 3._:

El grupo C esta formado por variables que tienen una correlacin con las variables de los
grupos B y C nula y que tienen una correlacin negativa con las variables del grupo A. Tambin
podemos decir, que esta prximo al borde del circulo en la direccin negativa del eje V
2
. La variable
F
2
( i ) esta correlacionada negativamente con las variables del grupo C ; esta correlacin es inferior
a la existente entre las variables del grupo B y C con el eje F
1
( i ).

10.2.- Interpretacion de la nube de individuos.-

Al contrario de lo que ocurre en la nube de variables los puntos-individuos no estan
inscritos en un circulo de radio 1. La nube de individuos estara centrada en el origen por la
transformacin que hemos realizado en los datos iniciales.

A fin de facilitar la interpretacin de los resultados del anlisis, se calcula a menudo la
contribucin de cada individuo a la inercia de las proyecciones sobre el eje factorial . Esta
contribucin (absoluta) nos indica la contribucin de un punto-individuo a la formacin del eje
factorial. Cuando un individuo posee una CTAb muy alta es aconsejable estudiar con detalle sus
caractersticas.

Sin embargo, no se puede ver la calidad de la representacin de un punto sobre un plano,
no depende solo de su distancia al origen, ya que, en el espacio R
P
no estn todos los puntos a la
misma distancia del origen. Se puede obtener una medida de la calidad de la representacin y
posicin del individuo i sobre el eje , a travs de la contribucin relativa. Ella nos indica la
contribucin del eje factorial a la distancia entre el punto-individuo y el origen.

Nos interesan los individuos que tienen las Cre. mas altas. Como los individuos estn
afectados por un mismo peso la inercia de un punto varia segn su distancia al centro de gravedad
y los individuos que contribuyen mas sern los ms alejados.

La segunda fase de interpretacin se realiza mediante los planos factoriales.
Comparativamente a la fase precedente, el plano factorial aporta el poder sinttico del grfico ms
sugestivo que una lista de coordenadas y la consideracin simultnea de dos dimensiones que da
una imagen fiel de los datos y puede tamb in sugerir la interpretacin de otras direcciones adems
de los ejes factoriales.

La construccin de los planos factoriales pasa por establecer que factores debemos cruzar.
Para ello , podemos tomar como referencia:

- La inercia asociada a los factores. Se cruzan preferentemente factores asociados a valores
propios mas prximos. Por ello se tiende a construir la sucesin de planos que cruzan los factores 1
y 2, los factores 2 y 3 .... .
- La experiencia y conocimiento del analista sobre las variables y el entorno conceptual de
las variables, tanto de las originales como de las nuevas (factores)
- La significacin general del factor. Se puede desear poner el foco de atencin en algunas
variables y por tanto en los planos en los que estas se encuentran bien representadas.

10.3.- Representacin simultanea de variables e individuos.

La representacin grfica ideal que resume todo el anlisis es por excelencia la
representacin simultanea de individuos y variables. La disposicin de las variables permit e
interpretar la nube de individuos de manera que son las variables las responsables de las
proximidades entre los individuos.

No se puede interpretar la distancia entre un individuo y una variable, ya que, sus
proyecciones no estn medidas en la misma escala. Si se pueden estudiar las posiciones relativas
de los individuos respecto de una variable.

En el espacio R
P
de los n puntos-individuos una vez realizada la transformacin de la tabla
de datos, se dispone de dos sistemas de ejes. Los antiguos ejes unitarios
11
correspondientes a las
p variables antes del anlisis y los nuevos ejes unitarios u constituidos por los ejes factoriales. La
posibilidad de una representacin simultanea reside entonces en la proyeccin (en linea
suplementaria) del antiguo eje sobre el nuevo eje.

As es posible representar en R
P
las direcciones dadas por las variables sobre el plano
factorial de la nube de individuos y se interpreta el vector que une el origen con el punto como la

11
Ver apartado : Correlacin entre factores y variables originales

direccin de alargamiento. Un individuo bien representado alejado en la direccin de la variable j,
indica que ese individuo toma un valor mas alto que la media en esa variable.

Para representar simultaneamente individuos y variables se aplicara a las coordenadas de
los individuos un coeficiente corrector
12
( raiz de n/p) permitiendo de esta forma una representacin
equilibrada de las nubes.

La proyeccin de la nube de individuos vendar determinada por la ecuacin:

( )

u X
p
n
i Z

donde n es el numero de individuos y p el n de variables. La proyeccin de los puntos variables
vendr determinada por:

( )

u v X j W '

11.- OPTIMIZACION DE LA MATRIZ FACTORIAL A TRAVES DE UNA ROTACION

La matriz factorial indica la relacin entre los factores y las variables. Sin embargo, a partir
de ella en muchas ocasiones resulta difcil la interpretacin de los factores. Mejoraramos esa
interpretacin, si obtuviramos unos factores, de manera, que cada variable o pequeo grupo de
variables originales tenga una correlacin lo mas prxima a 1 que sea posible con uno de los
factores y correlaciones prximas a 0 con el resto de los factores. De esta forma cada factor tendra
una correlacin alta con un grupo de variables y baja con el resto.

El procedimiento para mejorar la interpretacin es a tra vs de una transformacin. Esta
transformacin que se realiza sobre los factores se denomina genricamente rotacin. En sintesis
consiste en hacer girar los ejes de coordenadas que representan a los factores hasta conseguir que
se aproxime al mximo a las variables en que estn saturados.

A travs de la rotacin se pretende eliminar, por un lado, los signos negativos de la matriz
de saturaciones (A) y por otro, obtener que los factores estn muy correlacionados con un grupo
de variables y poco con las dems.

En general se trata de obtener una matriz de transformacin T, de orden (m,m) tal que:
B A T

Si A tiene inversa, que es el caso del mtodo de factores principales, la matriz T es:
T A B
1

pero normalmente A es de orden (p,m) y no tiene inversa. El problema se resuelve planteando unos
criterios sobre la matriz B y a continuacin se halla la transformacin adecuada.

12
Ver autores como: Morineau, A.; Lebart, L; Fenelon, J.P. (1985). Abascal, E.; Grande, I. (1989). Volle, M. (1997)

La saturacin de factores transforma la matriz inicial en otra denominada matriz factorial
rotada, de mas fcil interpretacin. La matriz rotada es una combinacin lineal de la primera y explica
la misma cantidad de varianza inicial. El objetivo de la rotacin es obtener una solucin mas
interpretable. Una forma de conseguirlo es intentando aproximarla al pri ncipio de estructura
simple
13
, segn este principio la matriz factorial debe reunir las siguientes caractersticas:

- Cada factor debe tener unos pocos pesos altos y los otros prximos a cero.
- Cada variable no debe estar saturada mas que en un factor.
- No deben existir factores con la misma distribucin.

Estos tres principios, en la practica no suelen lograrse, se debe obtener la solucin mas aproximada
posible a ello.

Con la rotacin factorial aunque cambie la matriz las comunalidades no se alteran, sin
embargo, cambia la varianza explicada por cada factor.

Existen varios mtodos de rotacin que podemos agrupar en dos grandes tipos:
Ortogonales y Oblicuos.

11.1.- Rotacin Ortogonal:

En este tipo de rotacin los ejes factoriales al rotarlos tienen que mantener la
perpendicularidad entre ellos. De esta manera persiste la incorrelacin entre los factores. Una
rotacin ortogonal mantiene la calidad global de la representacin, es decir, la capacidad del
anlisis para sintetizar los datos, as como las comunalidades. Sin embargo varan las correlaciones
entre factores y variables, y el porcentaje de inercia condensado en cada factor. Los nuevos
factores que se obtienen de una rotacin han de ser interpretados y nombrados observando sus
correlaciones con las variables. Los factores antiguos y los rotados estn correlacionados. El grado
que alcanza su correlacin depende del ngulo de giro.

Para realizar una rotacin ortogonal debemos plantearnos que: dada la matriz factorial A,
hallar una matriz ortogonal T, de modo que obtendremos una matriz B ( siendo B = AT) sea la
matriz factorial de unos nuevos factores ortogonales. En este sentido, dado un numero m de
factores (m>1), el conjunto de saturaciones en A no es nico, pues toda transformacin ortogonal
de A proporciona matrices equivalentes:

B A T
T T I

'

La equivalencia se manifiesta en que ambas matrices A y B reproducen igualmente la matriz
R

de correlacin inicial.

( )( ) ' ' ' ' ' BB A T AT AIA AA R

13
Vi d i n. Thurstone, L.L (1935).
ambas matrices conservan el mismo porcentaje de varianza proyectado sobre el conjunto de los
factores, y se mantendra la varianza explicada de cada una de las variables originales.

El mtodo de rotacin ortogonal ms conocido es el Varimax. Este mtodo desarrollado por
Kaiser (Kaiser, H.F. 1958). simplific a las columnas de la matriz de factores de manera que obtiene
unas correlaciones altas entre los ejes rotados y unas pocas variables y correlaciones
prcticamente nulas con el resto. Para ello utiliza el criterio que denomina simplicidad de un factor,
midindola como la varianza de los cuadrados de sus saturaciones en las variables observables.

Se puede calcular la varianza a partir de los momentos respecto al origen. La simplicidad
( ) j S
2
del factor ( ) j Z
ser pues:

( ) ( )
2
1
2
2
1
2
2 2
1 1
,
_

p
j
j
p
j
j
a
p
a
p
j S

Kaiser pretende obtener B =AT de modo que la suma de las simplicidades de todos los factores sea
mxima:

S S max
m
2 2
1

Este criterio planteaba un problema y es que las comunalidades altas dan lugar a
saturaciones altas y las comunalidades bajas a saturaciones bajas, distorsionando el efecto de la
rotacin. Para evitarlo se aplica lo que llamamos proceso de normalizacin de Kaiser.
Consiste en normalizar las saturaciones de un factor, dividindolas por la raz cuadrada de
su comunalidad. As la simplicidad del factor ( ) j Z
ser:

( )
2
1
2
2
2
1
2
2
2
2
1 1
,
_
,
_

p
j j
j
p
j j
j
h
a
p h
a
p
j S

obteniendo B de manera que sea mxima:
( )
2
1
2
2
2
1
2
2
2
1
2 2 2 2
1
,
_
,
_

p
j j
j
p
j j
j
m
h
a
p h
a
p j S p S p V

El mtodo Varimax es el mas utilizado. El programa SPSS hace por omisin esta rotacin y
aplica la normalizacin de Kaiser.

Otro mtodo de rotacin ortogonal es el mtodo Quartimax. (Cuadras, C.M. 1991). Pretende
a travs de simplificar las filas de la matriz de factores, que cada variable tenga una saturacin alta
con muy pocos factores y prxima a cero con los dems.

El criterio a utilizar es hacer mxima la suma de las cuartas potencias de todas las
saturaciones:
Q a
j
m
j
p
4
1 1

con la restriccin de que la comunalidad de cada variable se ha de mantener constante.

Si T es la matriz ortogonal de transformacin y B =AT, las comunalidades permanecen fijas:
b a h
j
m
j
m
j
2
1
2
1
2

Si elevamos al cuadrado esta expresin y sumando las p variables tendremos:

b b b Cte
j j ji
j
p
i
m
j
p m

4 2 2
1 1 1
2 +
<

.

maximizar esta expresin implica minimizar:

H b b
j ji
j
p
i
m
<

2 2
1

lo que introduce una estructura ms simple de B.

Tanto al maximizar Q como minimizar H, obtenemos la misma matriz T de transformacin.

11.2.- Rotacin Oblicua.

En la rotacin oblicua las ponderaciones factoriales no coinciden con las correlaciones
entre el factor y la variable puesto que los factores estn correlacionados entre si. Pero eso cuando
hacemos rotacin oblicua la matriz factorial no rotada se convierte en dos matrices diferentes: la
matriz de ponderaciones (que es la que se utiliza en la interpretacin) y la matriz de correlaciones
entre factores y variables.

La perdida de la restauracin de ortogonalidad a la matriz de transformacin T implica la no
incorrelacion de los factores. Sin embargo el objetivo ser establecer una mejor asociacin de cada
una de las variables con el factor correspondiente. El mtodo mas conocido es el Oblimin.

Bibliografa :

[1] ABASCAL, E. y GRANDE, I. (1989): Mtodos Multivariantes para la Investigacin Comercial.
Barcelona: Ariel.
[2] CUADRAS, C. (1991): Mtodos de Anlisis Multivariante. Madrid: P.P.U.
[3] FERRANZ ARANAZ, M. (1996): SPSS para Windows. Programacin y Anlisis Estadstico. Madrid:
Mc Graw-Hill.
[4] HAIR, J. et al. (1998): Multivariate Data Analysis. New Yersey: Prentice Hall.
[5]LEBART, L. ; MORINEAU, A. ; PIRON, M. (1997): Statistique exploratoire multidimensionnelle.
Dunod. Paris
[6] SANCHEZ-CARRION, J.J. (1984): Introduccin a las Tcnicas de Anlisis Multivariable Aplicadas a las
Ciencias Sociales. Madrid: CIS.
[7] SIERRA, M. A. (1986): Anlisis Multivariante. Teora y Aplicaciones en Economa. Barcelona: Ediser.
[8] ANDERBERG. M. R. (1973): Cluster Analysis for Applications. New York: Academic Press.
[9] BENZECRI, J.P. y BENZECRI, F. (1980): Analyse des Correspondences. Paris: Dunod .
[10] BISQUERA, R. (1989): Introduccin Conceptual al Anlisis Multivariante. Un Enfoque Informtico en
los Paquetes BMDP, SPSS-X, LISREL y SPAD. Barcelona: P.P.U.
[11] CHATFIELD, C. y COLLINS, A. (1980): Introduction to Multivariate Analysis. London: Chapman and
Hall.
[12] DILLON, W. R. y GOLDSTEIN, H. (1984): Multivariate Analysis Methods and Applications. New
York: Willey.
[13] DUNTEMAN, G. H. (1984): Introduction to Multivariate Analysis . London: Sage.
[14] ESCOFIER, B. y PAGES, J. (1992): Anlisis Factoriales Simples y Mltiples: Objetivos, Mtodos e
Interpretacin. Bilbao: Universidad del Pais Vasco.
[15] EVERITT, B.S. (1981): Cluster Analysis . London: Heineman Educational Books.
[16] HARMAN, H. (1980): Anlisis Factorial Moderno. Madrid: Saltes.
[17] LEFEBRE, J. (1983): Introduction aux Analysis Statistiques Multidimensionnelles. Paris: Masson.
[18] MARDJA, K.; KENT, J.T. y BIBBY, J.M. (1979): Multivariate Analysis. London: Academic Press.
[19] NARVAIZA, J.L. (1981): Anlisis Factorial. Bilbao: Deusto.
[20] PREZ SANTAMARA, FRANCISCO JAVIER (1998): Problemas resueltos de anlisis de datos.
Pirmide. Madrid
[21] SEBER, G. (1984): Multivariate Observations. New York: Wiley.
[22] SRIVASTAVA, M. S. y CARTER, E. M. (1983): An Introduction to Applied Multivariate Statistics.
Amsterdam: North Hollland.

ACP - Universidad Valencia

Transféré par

Informations du document

Description originale:

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

ACP - Universidad Valencia

Transféré par

Droits d'auteur :

Formats disponibles

ANALISIS DE COMPONENTES PRINCIPALES 1

Prof: Salvador Carrasco Arroyo Universidad de Valencia

a la componente -esima tipificada definida por el cociente

soporte del vector unitario U

se llama el -simo eje factorial de R

es el -simo eje factorial de R

, y las de los puntos de la nube sobre el eje en R

viene dada por la expresin:

Vous aimerez peut-être aussi