Vous êtes sur la page 1sur 11

STATGRAPHICS – Rev.

4/25/2007

Componentes Principales

Resumen
El procedimiento de Componentes Principal está diseñado para extraer k componentes
principales de un conjunto de p variables cuantitativas X. Los componentes principales se
definen como el conjunto de combinaciones lineales ortogonales de X que tienen la máxima
varianza. El determinar los componentes principales se usa frecuentemente para reducir la
dimensionalidad de un conjunto de variables predictoras antes de utilizarlas en procedimientos
tales como regresión múltiple o análisis de conglomerados. Cuando las variables están altamente
correlacionadas, pocos de los primeros componentes pueden ser suficientes para describir la
mayor parte de la variabilidad presente.

StatFolio de Ejemplo: pca.sgp

Datos de Ejemplo:
El archivo 93cars.sf6 contiene información de 26 variables para n = 93 marcas (Make) y modelos
(Model) de automóviles, tomada de Lock (1993). La tabla a continuación muestra una lista
parcial de los datos de ese archivo:

Make Model Engine Size Horsepower Fuel Tank Passengers Length


Acura Integra 1.8 140 13.2 5 177
Acura Legend 3.2 200 18 5 195
Audi 90 2.8 172 16.9 5 180
Audi 100 2.8 172 21.1 6 193
BMW 535i 3.5 208 21.1 4 186
Buick Century 2.2 110 16.4 6 189
Buick LeSabre 3.8 170 18 6 200
Buick Roadmaster 5.7 180 23 6 216
Buick Riviera 3.8 170 18.8 5 198
Cadillac DeVille 4.9 200 18 6 206
Cadillac Seville 4.6 295 20 5 204
Chevrolet Cavalier 2.2 110 15.2 5 182

Se desea extraer los componentes principales a partir de las siguientes variables:

Engine Size (tamaño del motor)


Horsepower (caballos de fuerza)
Fueltank (tanque de gasolina)
Passengers (pasajeros)
Length (longitud)
Wheelbase (distancia entre ejes)
Width (ancho)
U Turn Space (espacio para vuelta en U)
Rear seat (asiento trasero)
Luggage (equipaje)
Weight (peso)

A continuación se muestra un gráfico de matriz de los datos:


© 2006 por StatPoint, Inc. Componentes Principales - 1
STATGRAPHICS – Rev. 4/25/2007

Engine Size

Horsepower

Fueltank

Passengers

Length

Wheelbase

Width

U Turn Space

Rear seat

Luggage

Weight

Como podría esperarse, las variables están altamente correlacionadas, ya que la mayoría están
relacionadas con el tamaño del vehículo.

Ingreso de Datos
La caja de diálogo del ingreso de los datos solicita los nombres de las columnas que contienen
los datos:

© 2006 por StatPoint, Inc. Componentes Principales - 2


STATGRAPHICS – Rev. 4/25/2007
• Datos: las observaciones originales o la matriz de covarianzas muestrales Σ̂ . Si se ingresan
las observaciones originales, ingrese p columnas numéricas que contengan los n valores para
cada columna de X. Si se ingresa la matriz de covarianzas muestrales, ingrese p columnas
numéricas que contengan los n valores para cada columna de Σ̂ . Si se ingresa la matriz de
covarianzas, algunas de las tablas y de las gráficas no estarán disponibles.

• Etiquetas de Puntos: etiquetas opcionales para cada observación.

• Selección: selección de un subgrupo de datos.

Modelo Estadístico
El objetivo de un análisis de componentes principales es construir k combinaciones lineales de
las p variables X que contengan la mayor varianza. Las combinaciones lineales toman la forma
de

Y1 = a11 X 1 + a12 X 2 + ... + a1 p X p


Y2 = a 21 X 1 + a 22 X 2 + ... + a 2 p X p

Yk = a k1 X 1 + a k 2 X 2 + ... + a kp X p (1)

El primer componente es la combinación lineal que tiene varianza máxima, sujeta a la restricción
de que el vector de coeficientes tenga longitud unitaria, i.e.,

∑a
i =1
2
ip =1 (2)

Si la matriz de covarianzas de X es igual a Σ, entonces la varianza de Y1 es

Var (Y1 ) = a1′Σa1 (3)

El segundo componente principal es aquella combinación lineal que tiene la siguiente varianza
mayor, sujeta a la misma restricción de longitud unitaria y también a la restricción de no estar
correlacionada con el primer componente principal. Los componentes subsecuentes explican
tanto como sea posible la varianza restante, mientras permanecen no correlacionados con todas
los otros componentes.

Bajo este modelo, los coeficientes a corresponden a los vectores propios de Σ, mientras que las
varianzas de las Y’s son iguales a los valores propios (eigenvalores):

Var (Y j ) = λ j (4)

La varianza poblacional es igual a la suma de los eigenvalores (valores propios)

Varianza poblacional total = λ1 + λ2 + … + λp (5)

© 2006 por StatPoint, Inc. Componentes Principales - 3


STATGRAPHICS – Rev. 4/25/2007
Un criterio para elegir el número de componentes principales a extraer es elegir todos los
componentes para los cuales el correspondiente valor propio sea al menos de 1, lo que implica
que el componente representa al menos una fracción de 1/p del total de la varianza poblacional.

STATGRAPHICS da la opción de extraer componentes principales con base en la matriz de


covarianzas Σ o la matriz de correlaciones ρ, dependiendo de la definición Estandarizar en la
caja de diálogo de las Opciones de Análisis. Cuando las variables están en diferentes unidades,
generalmente lo mejor es basar el análisis en la matriz de correlaciones (que es el valor por
omisión).

Resumen del Análisis


A continuación se muestra la tabla del Resumen del Análisis:

Análisis de Componentes Principales


Datos/Variables:
Engine Size (liters)
Horsepower (maximum)
Fueltank (gallons)
Passengers (persons)
Length (inches)
Wheelbase (inches)
Width (inches)
U Turn Space (feet)
Rear seat (inches)
Luggage (cu. ft.)
Weight (pounds)

Entrada de datos: observaciones


Número de casos completos: 82
Tratamiento de valores perdidos: eliminación listwise
Estandarizar: sí

Número de componentes extraídos: 2

Análisis de Componentes Principales


Componente Porcentaje de Porcentaje
Número Eigenvalor Varianza Acumulado
1 7.92395 72.036 72.036
2 1.32354 12.032 84.068
3 0.47071 4.279 88.347
4 0.353248 3.211 91.559
5 0.269048 2.446 94.004
6 0.190242 1.729 95.734
7 0.172892 1.572 97.306
8 0.107148 0.974 98.280
9 0.0824071 0.749 99.029
10 0.0694689 0.632 99.660
11 0.0373497 0.340 100.000

En la tabla se muestran:

• Datos/Variables: el nombre de las p columnas de entrada.

• Entrada de datos: observaciones o matriz, dependiendo de si las columnas de entrada


contienen las observaciones originales o la matriz de covarianzas de la muestra.

© 2006 por StatPoint, Inc. Componentes Principales - 4


STATGRAPHICS – Rev. 4/25/2007
• Número de casos completos: el número de casos n para los cuales ninguna de las
observaciones falta.

• Tratamiento de los valores perdidos: cómo se trataron los valores faltantes en la estimación
de la matriz de covarianzas o de correlaciones. Si fue por lista, las estimaciones se basaron
solo en casos completos. Si fue por pares, todos los pares de valores de datos no faltantes se
usaron para obtener las estimaciones.

• Estandarizar: sí si el análisis se basó en la matriz de correlaciones. No si se basó en la


matriz de covarianzas.

• Número de componentes extraídos: el número k de componentes extraídos de los datos.


Este número se basa en las definiciones en la caja de diálogo de las Opciones de Análisis.

También se presenta una tabla que muestra la información para cada uno de los p componentes
principal posibles:

• Número de componente: el número j del componente, de 1 a p.

• Eigenvalor: el valor propio de la matriz estimada de covarianzas o correlaciones, λ̂ j .

• Porcentaje de varianza: el porcentaje del total de la varianza poblacional estimada


representada por sus componentes, igual a

⎛ λˆ j ⎞
100⎜ ⎟% (6)
⎜ λˆ + λˆ + ... + λˆ ⎟
⎝ 1 2 k ⎠

• Porcentaje acumulado: el porcentaje acumulado del total de la varianza poblacional


estimada explicada por los j primeros componentes.

En el ejemplo, los primeros k = 2 explican más del 84% de la varianza total entre las 11
variables.

© 2006 por StatPoint, Inc. Componentes Principales - 5


STATGRAPHICS – Rev. 4/25/2007
Opciones de Análisis

• Tratamiento de Valore Faltante: método para manejar los valores faltantes cuando se
estima las covarianzas o correlaciones muestrales. Especifique Listwise para usar sólo casos
sin valores faltantes para cualquiera de las variables de entrada. Especifique Pairwisw para
usar todas las observaciones en las que ninguno de los valores (del par) falte.

• Estandarizar: marque esta casilla para basar el análisis en la matriz de correlaciones de la


muestra más que en la matriz de covarianzas de la muestra. Esto corresponde a estandarizar
cada variable de entrada antes de calcular las covarianzas, substrayendo su media y
dividiendo entre su desviación estándar.

• Extraer Por: el criterio empleado para determinar el número de componentes principales a


extraer.

• Eigenvalor Mínimo: si se extrae por magnitud de los valores propios, el valor propio más
pequeño para el cual se extraerá un componente.

• Número de Componentes: si se extrae por número de componentes, el número k.

Gráfico de Sedimentación
El Gráfico de Sedimentación puede ser muy útil para determinar el número de componentes
principales a extraer. Por omisión, grafica el tamaño de los valores propios (eigenvalores)
correspondientes a cada uno de los p posibles componentes:

© 2006 por StatPoint, Inc. Componentes Principales - 6


STATGRAPHICS – Rev. 4/25/2007

Gráfica de Sedimentación

6
Eigenvalor

0
0 2 4 6 8 10 12
Componente

Se agrega una línea horizontal en el valor propio mínimo especificado en la caja de diálogo de
las Opciones de Análisis. En el gráfico anterior, advierta que sólo los primeros 2 componentes
tienen valores propios grandes.

Opciones de Ventana

• Graficar: valor graficado en el eje vertical.

Pesos de Componentes
La ventana Pesos de Componentes muestra los valores estimados de los coeficientes a para cada
componente extraído:

Tabla de Pesos de Componentes


Componente Componente
1 2
Engine Size 0.332726 -0.133891
Horsepower 0.268123 -0.442852
Fueltank 0.311244 -0.210124
Passengers 0.238683 0.530291
Length 0.335379 0.02122
Wheelbase 0.335386 0.0610323
Width 0.324896 -0.134248
U Turn Space 0.299218 -0.0830471
Rear seat 0.231256 0.53351
Luggage 0.276494 0.322776
Weight 0.337017 -0.206599

© 2006 por StatPoint, Inc. Componentes Principales - 7


STATGRAPHICS – Rev. 4/25/2007
Los pesos al interior de cada columna frecuentemente tienen interpretaciones interesantes. En el
ejemplo, advierta que los pesos en la primer columna son todos aproximadamente los mismos.
Esto implica que el primer componente es básicamente un promedio de todas las variables de
entrada. El segundo componente está ponderado más pesadamente en una dirección positiva en
el número de pasajeros (Passengers), el espacio del asiento trasero (Rear Seat), y la cantidad de
espacio para el equipaje (Luggage), y en una dirección negativa en los caballos de fuerza
(Horsepower). Probablemente diferencia entre distintos tipos de vehículos.

Gráficos de Dispersión 2D y 3D
Estos gráficos despliegan los valores de 2 o 3 componentes principales elegidos para cada uno de
los n casos.

Diagrama de Dispersión

3.3

1.3
Componente 2

-0.7

-2.7

-4.7
-7 -4 -1 2 5 8
Componente 1

Es útil examinar cualesquiera puntos muy alejados de los otros, tales como el resaltado Dodge
Stealth, que tiene un valor muy bajo para el segundo componente.

Una variación interesante de este gráfico es uno en el cuál los casos están codificados de acuerdo
con otra columna, tal como el tipo de vehículo:

Gráfico de PCOMP_2 vs PCOMP_1

3.3 Type
Compact
Large
1.3 Midsize
Small
PCOMP_2

Sporty
-0.7

-2.7

-4.7
-7 -4 -1 2 5 8
PCOMP_1

Para producir el gráfico anterior:


© 2006 por StatPoint, Inc. Componentes Principales - 8
STATGRAPHICS – Rev. 4/25/2007

1. Presione el botón Salvar Resultados y salve los Componentes Principales en nuevas


columnas de la hoja de datos.
2. Seleccione el procedimiento Gráfico X-Y del menú principal e ingrese las nuevas
columnas.
3. Seleccione Opciones de Ventana y especifique Tipo en el campo Códigos de Puntos.

Ahora es claro que el primer componente se relaciona con el tamaño del vehículo, mientras que
el segundo componente separa los carros deportivos de los demás.

Opciones de Ventana

Especifique los componentes a graficar en cada eje.

Tabla de Datos
La Tabla de Datos presenta los valores de los componentes principales para cada uno de los n
casos.

Tabla de Componentes Principales


Componente Componente
Fila Etiqueta 1 2
1 Integra -1.49203 0.00673575
2 Legend 2.37408 -0.247278
3 90 0.165636 -0.261873
4 100 2.23212 1.01524
5 535i 1.52815 -2.15174
6 Century 0.723227 1.39817
7 LeSabre 3.46805 0.778351
8 Roadmaster 6.6603 0.133406
9 Riviera 2.24466 -1.07736
… … … …

© 2006 por StatPoint, Inc. Componentes Principales - 9


STATGRAPHICS – Rev. 4/25/2007
Gráficos de Componentes 2D y 3D
Los Gráficos de Componentes muestran la localización de cada variable en el espacio de 2 o 3
componentes elegidos:

Gráfica de Pesos del Componente

0.55 Rear seat


Passengers

0.35 Luggage
Componente 2

0.15
Wheelbase
Length
-0.05 U Turn Space
Engine
WidthSize
Fueltank
Weight
-0.25

Horsepower
-0.45
0 0.1 0.2 0.3 0.4
Componente 1

Las variables más alejadas de las líneas de referencia en 0 hacen la mayor contribución a los
componentes.

Bigráficas 2D y 3D
Las Bigráficas despliegan ambas observaciones y variables en un solo gráfico.

Bigráfica
5.3
Rear seat
Passengers
3.3
Componente 2

Luggage

1.3
Wheelbase
Length
U Turn Space
-0.7 Engine
WidthSize
Weight
Fueltank

-2.7 Horsepower

-4.7
-7 -4 -1 2 5 8
Componente 1

Los símbolos de los puntos corresponden a las observaciones. Los extremos de las líneas sólidas
corresponden a las variables.

© 2006 por StatPoint, Inc. Componentes Principales - 10


STATGRAPHICS – Rev. 4/25/2007

Salvar Resultados
Se pueden salvar los siguientes resultados en la hoja de datos:

1. Eigenvalores – los k valores propios.

2. Pesos de Componente – k columnas, cada una con p estimaciones de los coeficientes a.

3. Componentes Principales – k columnas, cada una con n valores que corresponden a los
componentes principales extraídos.

© 2006 por StatPoint, Inc. Componentes Principales - 11

Vous aimerez peut-être aussi