Académique Documents
Professionnel Documents
Culture Documents
4/25/2007
Componentes Principales
Resumen
El procedimiento de Componentes Principal está diseñado para extraer k componentes
principales de un conjunto de p variables cuantitativas X. Los componentes principales se
definen como el conjunto de combinaciones lineales ortogonales de X que tienen la máxima
varianza. El determinar los componentes principales se usa frecuentemente para reducir la
dimensionalidad de un conjunto de variables predictoras antes de utilizarlas en procedimientos
tales como regresión múltiple o análisis de conglomerados. Cuando las variables están altamente
correlacionadas, pocos de los primeros componentes pueden ser suficientes para describir la
mayor parte de la variabilidad presente.
Datos de Ejemplo:
El archivo 93cars.sf6 contiene información de 26 variables para n = 93 marcas (Make) y modelos
(Model) de automóviles, tomada de Lock (1993). La tabla a continuación muestra una lista
parcial de los datos de ese archivo:
Engine Size
Horsepower
Fueltank
Passengers
Length
Wheelbase
Width
U Turn Space
Rear seat
Luggage
Weight
Como podría esperarse, las variables están altamente correlacionadas, ya que la mayoría están
relacionadas con el tamaño del vehículo.
Ingreso de Datos
La caja de diálogo del ingreso de los datos solicita los nombres de las columnas que contienen
los datos:
Modelo Estadístico
El objetivo de un análisis de componentes principales es construir k combinaciones lineales de
las p variables X que contengan la mayor varianza. Las combinaciones lineales toman la forma
de
El primer componente es la combinación lineal que tiene varianza máxima, sujeta a la restricción
de que el vector de coeficientes tenga longitud unitaria, i.e.,
∑a
i =1
2
ip =1 (2)
El segundo componente principal es aquella combinación lineal que tiene la siguiente varianza
mayor, sujeta a la misma restricción de longitud unitaria y también a la restricción de no estar
correlacionada con el primer componente principal. Los componentes subsecuentes explican
tanto como sea posible la varianza restante, mientras permanecen no correlacionados con todas
los otros componentes.
Bajo este modelo, los coeficientes a corresponden a los vectores propios de Σ, mientras que las
varianzas de las Y’s son iguales a los valores propios (eigenvalores):
Var (Y j ) = λ j (4)
En la tabla se muestran:
• Tratamiento de los valores perdidos: cómo se trataron los valores faltantes en la estimación
de la matriz de covarianzas o de correlaciones. Si fue por lista, las estimaciones se basaron
solo en casos completos. Si fue por pares, todos los pares de valores de datos no faltantes se
usaron para obtener las estimaciones.
También se presenta una tabla que muestra la información para cada uno de los p componentes
principal posibles:
⎛ λˆ j ⎞
100⎜ ⎟% (6)
⎜ λˆ + λˆ + ... + λˆ ⎟
⎝ 1 2 k ⎠
En el ejemplo, los primeros k = 2 explican más del 84% de la varianza total entre las 11
variables.
• Tratamiento de Valore Faltante: método para manejar los valores faltantes cuando se
estima las covarianzas o correlaciones muestrales. Especifique Listwise para usar sólo casos
sin valores faltantes para cualquiera de las variables de entrada. Especifique Pairwisw para
usar todas las observaciones en las que ninguno de los valores (del par) falte.
• Eigenvalor Mínimo: si se extrae por magnitud de los valores propios, el valor propio más
pequeño para el cual se extraerá un componente.
Gráfico de Sedimentación
El Gráfico de Sedimentación puede ser muy útil para determinar el número de componentes
principales a extraer. Por omisión, grafica el tamaño de los valores propios (eigenvalores)
correspondientes a cada uno de los p posibles componentes:
Gráfica de Sedimentación
6
Eigenvalor
0
0 2 4 6 8 10 12
Componente
Se agrega una línea horizontal en el valor propio mínimo especificado en la caja de diálogo de
las Opciones de Análisis. En el gráfico anterior, advierta que sólo los primeros 2 componentes
tienen valores propios grandes.
Opciones de Ventana
Pesos de Componentes
La ventana Pesos de Componentes muestra los valores estimados de los coeficientes a para cada
componente extraído:
Gráficos de Dispersión 2D y 3D
Estos gráficos despliegan los valores de 2 o 3 componentes principales elegidos para cada uno de
los n casos.
Diagrama de Dispersión
3.3
1.3
Componente 2
-0.7
-2.7
-4.7
-7 -4 -1 2 5 8
Componente 1
Es útil examinar cualesquiera puntos muy alejados de los otros, tales como el resaltado Dodge
Stealth, que tiene un valor muy bajo para el segundo componente.
Una variación interesante de este gráfico es uno en el cuál los casos están codificados de acuerdo
con otra columna, tal como el tipo de vehículo:
3.3 Type
Compact
Large
1.3 Midsize
Small
PCOMP_2
Sporty
-0.7
-2.7
-4.7
-7 -4 -1 2 5 8
PCOMP_1
Ahora es claro que el primer componente se relaciona con el tamaño del vehículo, mientras que
el segundo componente separa los carros deportivos de los demás.
Opciones de Ventana
Tabla de Datos
La Tabla de Datos presenta los valores de los componentes principales para cada uno de los n
casos.
0.35 Luggage
Componente 2
0.15
Wheelbase
Length
-0.05 U Turn Space
Engine
WidthSize
Fueltank
Weight
-0.25
Horsepower
-0.45
0 0.1 0.2 0.3 0.4
Componente 1
Las variables más alejadas de las líneas de referencia en 0 hacen la mayor contribución a los
componentes.
Bigráficas 2D y 3D
Las Bigráficas despliegan ambas observaciones y variables en un solo gráfico.
Bigráfica
5.3
Rear seat
Passengers
3.3
Componente 2
Luggage
1.3
Wheelbase
Length
U Turn Space
-0.7 Engine
WidthSize
Weight
Fueltank
-2.7 Horsepower
-4.7
-7 -4 -1 2 5 8
Componente 1
Los símbolos de los puntos corresponden a las observaciones. Los extremos de las líneas sólidas
corresponden a las variables.
Salvar Resultados
Se pueden salvar los siguientes resultados en la hoja de datos:
3. Componentes Principales – k columnas, cada una con n valores que corresponden a los
componentes principales extraídos.