Vous êtes sur la page 1sur 19

UNIVERSIDAD CENTRAL DEL

ECUADOR

ANLISIS DE COMPONENTES
PRINCIPALES

INTEGRANTES: John Orellana


Mirely Tobar

ASIGNATURA: Anlisis Multivariante.

CARRERA: Ingeniera Matemtica

FECHA: 12 de Noviembre del 2015

INDICE
1.Introduccin
2.Objetivos
3.Marco Terico
4.Presentacin de Resultados
4.1. Estadstico Bsico
4.2. Componentes Principales
4.3. Presentacin de Solucin Grfica
5.Comentario
6.Conclusiones
7.

INTRODUCCIN

Como hemos visto ya, el Anlisis de Componentes


Principales, es una tcnica estadstica que permite
sintetizar un gran conjunto de datos, creando
nuevas variables que estn dadas en funcin de las
originales; aunque la dimensin de este nuevo
conjunto de variables es menor que las originales
nos permitir interpretar los datos de la mejor
manera.

En este informe, mostraremos una aplicacin con


esta tcnica, con la base de datos sobre la natalidad
de las personas en la provincia de Galpagos
obtenida de la pgina web del Ministerio de
Educacin

OBJETIVO

Aplicar

el

Anlisis

de

componentes

principales

utilizando el software R; con la base de datos de la


natalidad

de

las

personas

de

la

provincia

de

Galpagos, en base a las variables cuantitativas que


son parte de la informacin de la madre.
Esta base de datos fue obtenida de la siguiente pgina
web: http://educacion.gob.ec/estadisticaseducativas/.
Interpretar los resultados del modelo obtenido; es
decir, conocer la relacin y caractersticas entre
nuestras variables.

Marco Terico.
Las variables de nuestra base de datos sobre la natalidad de las
personas en la provincia de Galpagos se componen de variables
cualitativas como el cdigo de la provincia y variables cuantitativas
que son el peso, la edad de la madre, talla y semanas de gestacin
que nos permitirn obtener los resultados, aplicando esta tcnica
estadstica.
La tcnica usada en el programa consiste en formar nuestra matriz de
datos; consecuentemente formar con estas una nueva matriz
reducida, con nuestro nuevo conjunto de variables.
En primer lugar obtenemos las varianzas de las nuevas variables, las
cuales van a ir de forma decreciente.
Var ( Y 1 )> Var ( Y 2) > Var (Y p) .Cada
lineal de las

yi

( i=1,... , p ) es una combinacin

x 1 , x 2 , , x p originales, es decir:
t

y i=a i1 x 1+ ai 2 x 2+ +a ip x p=ai x producto punto


Siendo

ai =( a1 i , aij , , a pi) es un vector de constantes.


a1

Queremos elegir
a la restriccin de:

de modo que, se maximice la varianza de

y 1 sujeta

a1 a 1 = 1

Var ( y 1) =Var ( a 1 x ) =a 1 V a1

(RESULTADO 1)
t

Donde V es la matriz de varianzas y covarianzas ( V = X X .


El problema consiste en maximizar la funcin
restriccin

a1

a1 V a1

sujeta a la

a1t a 1 = 1. Se puede observar que la incgnita es precisamente

max a1t V a1
s . t a 1t a1=1

As, con los multiplicadores de Lagrange obtenemos la construyo la funcin


L:

L ( a1 )=a1t V a11 ( a1t a11)

Donde

es un valor propio de V, una matriz definida positiva, cuyos

valores propios

k , para k=1,2,,p, son positivos.

Luego,

Var ( y 1) =Var ( a1t x ) =a1t V a1=a1t I a 1=1 a1t a1 =1


MAXIMIZAR EL SEGUNDO COMPONENTE
El segundo componente principal, digamos

y 2=a 2 x , se obtiene mediante

un argumento parecido. Adems, se quiere que


con el anterior componente

y 1 , es decir,

Como se tena que


t

no este correlacionado

Cov ( y 2 , y1 ) =0 . Por lo tanto:

Cov ( y 2 , y1 ) =Cov ( a2t x , a1t x ) =a2t V a1=0

Para ello se requiere que

y2

(RESULTADO 2)

a2 V a1=0

V a1= 1 I a1 , lo anterior es equivalente a


t

a2 V a1=a2 1 I a1=a2 1 a1= 1 a2 a1=a2 a1=0


Es decir que

a2t a 1=0 , es decir, que los vectores sean ortogonales. De este

modo, tendremos que maximizar la varianza de

y 2 , es decir, a2t V a1

sujeta a las siguientes restricciones:

max a 2 V a 2
t

s . t a 2 a2=1, a2 a 1=0

As, con los multiplicadores de Lagrange obtenemos la construyo la funcin


L:

L ( a2 )=a2t V a2 2 ( a2t a21 ) a2t a1

El mximo derivando e igualando a cero:

L(a2)
=2 V a22 2 I a 2 a 1=0
a2

a1 , entonces

Si se multiplica por

2 a1t V a2=0
t

>=2 a1 V a2 =2a 1 V a 1=0


De este modo

L(a2)
=2 V a22 2 I a 2 a 1=2V a 22 2 I a2=0
a2

(V 2 I )a 2=0
De esta forma
Los

razonamientos

a3 , , a p

es valor propio de V
anteriores

que

antes,

elegimos

3 , , p

para

. Entonces todos los componentes se pueden expresar como el

producto de una matriz formada por los vectores propios, multiplicada por el
vector

que contiene las variables originales

x1 , x2 , , x p

y= A x t

Donde

[]

y1
y=
yp

a11 a1 p
A=
a p 1 a pp

Siendo A matriz de vectores propios de V.


Como

Var ( y 1 )= 1
Var ( y 2 )= 2

Var ( y p )= p
La matriz de covarianzas ser

[]

x1
x=
xp
t

1 0 0
S y= 0

0
0

0
0

OBSERVACIN: Como A es la matriz formada por vectores propios,


t
1
por lo tanto A es invertible y adems ortogonal entonces A =A
.
Se tiene que diagonalizar la matriz V.
S y = A t V A AS A t=V
CORRELACIONES ENTRE LAS
COMPONENTES PRINCIPALES

VARIABLES

ORIGINALES

yj

La correlacin entre un componente principal

una variable

LAS

xi

es

igual, de acuerdo con la norma general

Cov ( y j , x i)
a
= ij j
Var ( y j) Var ( xi ) Var ( x i )

Ahora si suponemos que las variables originales estn estandarizadas:

Var (x i)=1
i=1,... , p

para
, entonces

Cor ( y , x ) =aij j cos


De este modo, la matriz de correlaciones entre

es:

Cor ( y , x ) =A S

OBS:
Estandarizar: Variables en el estudio tengan escalas o unidades de medida
diferente. Se calcula a partir de la matriz de correlaciones (tenga varianza
uno).
No estandarizar: Variables con escala o unidades de medida iguales. Se
calcula a partir de la matriz de covarianzas.
VARIABILIDAD TOTAL
Si sumamos todos los valores propios, tendremos la varianza total de los
componentes, es decir:

i=1

i=1

y i= i=traza( S y )
Por la propiedad de traza

traza ( S y )=traza ( A t V A ) =traza ( VA t A ) =traza (V )


Con lo cual
p

traza ( S y )=traza ( V )= Var (xi )


i=1

Es decir, la suma de las varianzas de las variables originales y la suma de


las varianzas de las componentes son iguales. Esto permite hablar del
porcentaje de varianza total que recoge un componente principal:

Var ( xi )
i=1

i
p

i
i =1

i
>

i=1

(100 )

Var ( xi )
i=1

PROPORCION DE LA VARIANZA
La suma total de todos los valores propios es p y la proporcin de varianza
recogida por el vector propio j-simo (componente) es:

Pj=

i
p

PROYECCIN DE LOS PUNTOS SOBRE EL EJE

F j=

n
X aij i , j=1, , p
p

COMUNALIDADES
Comunalidad de una variable original
Cantidad de su varianza que recogen las componentes principales
seleccionadas:
Por el Teorema de Descomposicin espectral

S x =A V A= 1 a 1 a1 + + p a p a p

La varianza de cada variable original

xi

se descompone en una suma de

aportaciones de cada componente principal


2

S x = 1 ai 1 ++ p aip

yj

La comunalidad de una variable original

xi

es la cantidad de variabilidad

que permanece en el sumatorio anterior al seleccionar solo las

p1< p

primeras componentes principales,

h x 2= 1 ai 12 ++ p1 aip12
i

Las comunalidades nos indican lo bien representadas que estn las


variables originales por el conjunto de componentes seleccionadas.
TEOREMAS Y RESULTADOS
RESULTADO 1.-

Var ( ax )=aVar ( x ) at (ax producto punto)


RESULTADO 2.Sea V la matriz de covarianzas asociada con un vector aleatorio

x=( x 1 , x 2 , , x p ) .

Sea V tiene valores propios-vectores propios pares

( 1 , a1 ) , ( 2 , a2 ) , ,( p , a p )

donde

1 p 0 . La componente principal

nos debera dar


t

y i=a i1 x 1+ ai 2 x 2+ +a ip x p=ai x
Tenemos que

Var ( y i )=a it V a i=i i=1,2, , p


Cov ( y i , y k )=a it V a k =0 i k
MAXIMIXAR LA VARIANZA
Sea V una matriz definida positiva con valores propios
asociado a vectores propios

a1 , a2 , , a p .

1 p y

max

x t Vx
=1 cuando(x=a1)
xt x

min

x t Vx
= p cuando(x=a p )
t
xx

x 0

x 0

Por otra parte

max

x ortogonal a1 , a2 , ,a p

x t Vx
= k+1 cuando(x=ak+1 , k =1,2, , p1)
xt x

DERIVADAS MATRICIALES
Definicin.- Sea f una funcin que asigna un vector

xRp

un nmero

real, es que matemticamente:

f : R p R
x1
x t= f ( x t )
xp

()

Se define la derivada de

f (x )

con respecto al vector

como

f ( x 1t )

( )

f (x t )
=
xt

x1t
f (x t )
=

xt
t
f ( xp )

x pt

TEOREMA DE DESCOMPOSICION ESPECTRAL


Existe una base ortonormal de V que consiste en los vectores propios de A.
Los valores propios correspondientes a cada vector son reales.

RESULTADOS
ESTADSTICO BSICO
Se presenta el histograma para observar cmo estn distribuidos los
datos.

1.0
0.0

0.5

Variances

1.5

2.0

Diagrama de Barras de la Varianza

Donde podemos ver que la caracterstica que trasciende ms es la de


la talla.
Ahora mostraremos nuestro grfico de densidad

0.003
0.000

0.001

0.002

Density

0.004

0.005

Densidad

1000

2000

3000

4000

5000

N = 1344 Bandwidth = 51.21

Es claro que nuestros datos no son homogneos; hemos adjuntado los


diagramas de caja y bigotes para que se vea ms claro

38

40

42

44

46

48

50

52

Talla

15

20

25

30

35

40

45
1500

2500

3500

4500

Peso

Edad Madre

30

32

34

36

38

40

42

Semanas de gestacin

Veamos ahora los valores de la medias de cada una de las variables:


Talla

Peso

Edad Madre

49.29167

3196.64286

27.66369

Semanas
gestacin
38.75595

Donde la caracterstica predominante en los nacidos vivos es el peso.


Ahora, se obtendrn las desviaciones estndar para determinar si
nuestras variables son homogneas o no homogneas
Talla

Peso

Edad Madre

5.013184e+00

2.134433e+05

4.317910e+01

Semanas
gestacin
1.946233e+00

De acuerdo a lo obtenido, podemos ver que nuestras variables son no


homogneas.
Ahora encontremos la matriz estandarizada de nuestras variables, la
cual nos permitir que nuestros datos sean homogneos, esta
podremos apreciarla en el programa debido a la cantidad de datos
que tenemos.
Ahora obtengamos la matriz de correlacin

Con esta matriz hallaremos los valores y vectores propios de cada


variable:
Valores Propios.
Talla

Peso

Edad Madre

2.0891228

1.0021200

0.5555620

Semana
Gestacin
0.3531952

Asociados a los siguientes vectores propios, formando con ellos la


matriz de covarianza

Las dos columnas que nos interesan pues nos permiten obtener el
grfico en dos dimensiones.
COMPONENTES PRINCIPALES
Obtenemos la matriz de proyecciones

F=

n
M r ij
p

Y a continuacin obtenemos la matriz de correlacin de ngulos que


permite obtener el Diagrama Circular de las correlaciones.

PRESENTACIN SOLUCIN GRFICA


Diagrama Circular e interpretar los ejes o componentes principales:

Donde podemos ver, que la edad de la madre no est relacionada con


el peso, la talla y las semanas de gestacin, pero estas tres ltimas
estn bien correlacionadas.
En el grfico de sedimentacin de los valores propios, se obtuvo el
siguiente resultado:

En este caso, vemos que los 3 factores tienen mayor variabilidad; es


por eso que podemos extraer los tres factores pues su inclinacin es
bastante considerada y se puede retener los valores propios
superiores a 2.089.
Ahora tenemos la grfica de las 336 variables sobre los dos primeros
ejes principales

-10

10

20

30

20
10

0.1

205
140
257
154
226
117
137
211
1296766
307
236
119
123
311
153
76
99
332
326
203
74
122
208
191
138
114
246
130
100
62
241
163
253
336 268
5552
250
107
98
41
210
219
293
276
265
214
285
304
179
96
23
148
92
313
21
106
50
147
291
223
89
156
322
308
19
240
121
70 6
165
134
174
108
42
36
176
125
87
213
221
162
143
83
243
228
17
18
120
309
319
275
180
230
132
310
235
112
254
261
245
44
302
218
267
78
183
164
58 60
79
22
272
127
289
188
202
149
8
234
204
38215
169
333
46 255
224
118
237
270
300
258
160
102
720
talla
209
155
225
71
semanas_gestacion
295
212
297
262
37
231
158
75
59
126
12
320
33
195
266
277
113
170
135
151
298
299
259
15
10
peso 45317
35
187
287
217
128
16
200
68
57
197
279
193
109
232
94
284
30
177
80
81
290
178
321
294
249
251
124
256
190
82
229
168
198
142
288
101
7397
334
27
116
166
173
271
175
327
32
95
303
260
192
146
185
305
196
220
4
273
25
24
278
201
72
280
269
247
189
53
331
314
69
29
216
335
184
282
104
292
13
84
139
286
323
161
40
248
167
334 93 63961
227
136
11239
301
194
171
110
238
85
264
47
324
233
157
318
242
159
244
263
131
43
281
325330
88
181
91
65
39
199
103
77
105
31
14
56
283
186
296
312
111
306
182
152
315
26
115
141
222
133
90
316
64
274
172
144
145
150
28 252 207
206
865
328
329
eda_madre 54

48
0

49
21

-0.1

0.0

0.1

-20

-10

51

-0.1

0.0

Comp.2

0.2

30

0.3

-20

0.2

0.3

Comp.1

-2

-1

PC2

Se caracterizan algunos de los individuos por peso, talla y semanas


de gestacin pero no por la edad de la madre; vemos tambin que las
variables49,2,1,51,61,48, etc no se caracterizan por ninguna de las
caractersticas y para las variables 54,329 y algunas de ellas se
pueden caracterizar por la edad de la madre.

-8

-6

-4

-2
PC1

Cada individuo est representado por un punto

Comentarios.
La tcnica de ACP, es bastante til pues nos permite ver como
nuestros datos estn relacionados, bajo las caractersticas que tenga
la base de datos; en nuestro caso vimos el comportamiento de cada
variable, hacia donde o que caracterstica tiene.
Adicionalmente, es bueno decir que tenemos que ver nuestra base de
datos, si es o no til para utilizar esta tcnica estadstica.
Conclusiones

Se pudo aplicar el ACP a nuestra base de datos sobre la


natalidad de las personas de la provincia de Galpagos; donde
se pudo obtener varios resultados tiles para saber el
comportamiento y caracterizacin de los individuos que
tengamos.

Se pudo concluir que hay individuos que pueden caracterizarse


por peso, edad, talla hasta las semanas de gestacin, inclusive
por dos o tres de ellas y tambin quiz por ninguna; todo esto
fue posible ver gracias a los diagramas realizados en el
programa

Vous aimerez peut-être aussi