Vous êtes sur la page 1sur 32

AnlisisComponentesPrincipales

SantiagodelaFuenteFernndez

AnlisisComponentesPrincipales

SantiagodelaFuenteFernndez

AnlisisComponentesPrincipales

ANLISISDECOMPONENTESPRINCIPALES Cuandoserecogelainformacindeunamuestradedatos,lomsfrecuenteestomarelmayor nmeroposibledevariables.Sinembargo,sitomamosdemasiadasvariablessobreunconjuntode 20 objetos,porejemplo20variables,tendremosqueconsiderar 2 = 180 posiblescoeficientesde correlacin;sison40variablesdichonmeroaumentahasta780. Evidentemente,enestecasoesdifcilvisualizarrelacionesentrelasvariables.Otroproblemaquese presentaeslafuertecorrelacinquemuchasvecessepresentaentrelasvariables:sitomamos demasiadasvariables(cosaqueengeneralsucedecuandonosesabedemasiadosobrelosdatoso slosetienenimoexploratorio),lonormalesqueestnrelacionadasoquemidanlomismobajo distintospuntosdevista.Porejemplo,enestudiosmdicos,lapresinsanguneaalasalidadel coraznyalasalidadelospulmonesestnfuertementerelacionadas. Sehacenecesario,pues,reducirelnmerodevariables.Esimportanteresaltarelhechodequeel conceptodemayorinformacinserelacionaconeldemayorvariabilidadovarianza.Cuantomayor sealavariabilidaddelosdatos(varianza)seconsideraqueexistemayorinformacin,locualest relacionadoconelconceptodeentropa. COMPONENTESPRINCIPALES EstastcnicasfueroninicialmentedesarrolladasporPearsonafinalesdelsigloXIXyposteriormente fueronestudiadasporHotellingenlosaos30delsigloXX.Sinembargo,hastalaaparicindelos ordenadoresnoseempezaronapopularizar. Paraestudiarlasrelacionesquesepresentanentrepvariablescorrelacionadas(quemiden informacincomn)sepuedetransformarelconjuntooriginaldevariablesenotroconjuntode nuevasvariablesincorreladasentres(quenotengarepeticinoredundanciaenlainformacin) llamadoconjuntodecomponentesprincipales. Lasnuevasvariablessoncombinacioneslinealesdelasanterioresysevanconstruyendosegnel ordendeimportanciaencuantoalavariabilidadtotalquerecogendelamuestra. Demodoideal,sebuscanm<pvariablesqueseancombinacioneslinealesdelasporiginalesyque estnincorreladas,recogiendolamayorpartedelainformacinovariabilidaddelosdatos. Silasvariablesoriginalesestnincorreladasdepartida,entoncesnotienesentidorealizarunanlisis decomponentesprincipales. Elanlisisdecomponentesprincipalesesunatcnicamatemticaquenorequierelasuposicinde normalidadmultivariantedelosdatos,aunquesiestoltimosecumplesepuededaruna interpretacinmsprofundadedichoscomponentes.

CLCULODELOSCOMPONENTESPRINCIPALES Seconsideraunaseriedevariables(x1,x2,...,xp)sobreungrupodeobjetosoindividuos ysetratadecalcular,apartirdeellas,unnuevoconjuntodevariables(y1,y2,...,yp), incorreladasentres,cuyasvarianzasvayandecreciendoprogresivamente.


SantiagodelaFuenteFernndez1

AnlisisComponentesPrincipales

Cadayj(j=1,...,p)esunacombinacinlinealdelas(x1,x2,...,xp)originales, esdecir: o y j =a j1 x 1 +a j2 x 2 +...+a jp x p =a j x

x1 siendo a =(a1j,a2j ,...,apj ) unvectordeconstantes,y x= ... x p


o j

Obviamente,siloquequeremosesmaximizarlavarianza,comoveremosluego,unaformasimple podraseraumentarloscoeficientesaij.Porello,paramantenerlaortogonalidaddela transformacinseimponequeelmdulodelvector aoj =(a1j,a2j,...,apj ) sea1.


2 =1 Esdecir, aj . aj = akj k =1 p

Elprimercomponentesecalculaeligiendoa1demodoquey1tengalamayorvarianzaposible,sujeta alarestriccin aj . aj = 1 .Elsegundocomponenteprincipalsecalculaobteniendoa2demodoquela variableobtenida,y2estincorreladacony1. Delmismomodoseeligen(y1,y2,...,yp),incorreladosentres,demaneraquelasvariables aleatoriasobtenidasvayanteniendocadavezmenorvarianza.

PROCESODEEXTRACCINDEFACTORES

Seeligea1demodoquesemaximicelavarianzadey1sujetaalarestriccindeque aj . aj = 1
Var(y1 )=Var(a1 . x)=a1 . a1

Elmtodohabitualparamaximizarunafuncindevariasvariablessujetaarestriccioneselmtodo delosmultiplicadoresdeLagrange.
Elproblemaconsisteenmaximizarlafuncin a1 . a1 sujetaalarestriccin aj . aj = 1 .

Sepuedeobservarquelaincgnitaesprecisamentea1(elvectordesconocidoquedalacombinacin linealptima).
As,seconstruyelafuncinL: L(a1 )=a1 . a1 (a1 . a1 1)

Paramaximizarlafuncin:

L = 2 a1 2 Ia1 = 0 a1

( I)a1 = 0

Estoes,enrealidad,unsistemalinealdeecuaciones.PorelteoremadeRochFrobenius,paraque elsistematengaunasolucindistintade0lamatriz(I)tienequesersingular.Estoimplicaqueel determinantedebeserigualacero: | I|= 0 deestemodo,esunautovalorde.


SantiagodelaFuenteFernndez2

AnlisisComponentesPrincipales

Lamatrizdecovarianzasesdeordenpysiademsesdefinidapositiva,tendrpautovalores distintos,(1,2,...,p)talesque,porejemplo, 1 > 2 > > p .


( I) a1 = 0 Setieneque,desarrollandolaexpresinanterior: a1 Ia1 = 0 a = Ia 1 1
entonces, Var(y1 ) = Var(a1 x) = a1 a1 = a1 a1 = a1 a1 = 1 =

Luego,paramaximizarlavarianzadey1setienequetomarelmayorautovalor,sea1,yel correspondienteautovectora1. Enrealidad,a1esunvectorquedalacombinacindelasvariablesoriginalesquetienemayor varianza,estoes,s a1 =(a11 ,a12 ,...,a1p ), entonces y1 =a1 x=a11x1 +a12x2 ++a1pxp
Elsegundocomponenteprincipal,sea y2 =a2 x ,seobtienemedianteunargumentoparecido. Adems,sequierequey2estincorreladoconelanteriorcomponentey1,esdecir,Cov(y2,y1)=0. Porlotanto: Cov(y2 ,y1 )=Cov(a2 x,a1 x)==a2 E[(x)(x) ]a1 =a2 a1 esdecir,serequiereque a2 a1 = 0 Comosetenaquea1=a1,loanterioresequivalentea a2 a1 = a2 a1 = a2 a1 = 0 Portanto, a2 a1 = 0 losvectoresseanortogonales.
a2 a2 =1 Deestemodo,tendremosquemaximizarlavarianzadey2,esdecir,(a2a2),donde a2a1 =0 Setomalafuncin: L(a2 )=a2 a2 (a2 a2 1) a2 a1

conlocual,

L(a2 ) =2 a2 2 a2 a1 =0 a2

a1 a2 = a2 a1 = 0 )laexpresinanterior,queda: 2 a1 multiplicandopor( a1 a2 =0 ,advirtaseque a1 a1 =1 Luego, =2 a1 a2 =2 a2 a1 =0 yaqueCov(y2,y1)=0.

Deestemodo, L(a2 ) =2 a2 2 a2 a1 =2 a2 2 a2 = ( I) a2 = 0 a2

Anlogamentealcasoanterior,elegimoscomoelsegundomayorautovalordelamatrizconsu autovectorasociadoa2.
SantiagodelaFuenteFernndez3

AnlisisComponentesPrincipales

Losrazonamientosanterioressepuedenextender,demodoquealjsimocomponentele corresponderaeljsimoautovalor. Entoncestodosloscomponentesy(entotalp)sepuedenexpresarcomoelproducto deunamatrizformadaporlosautovectores,multiplicadaporelvectorxquecontienelas variablesoriginales(x1,...,xp): y = A x


y1 a11 a12 y2 a21 a22 y = A = M L L y a p p1 ap2 L a1p x1 Var(y1 )=1 Var(y )= L a2p x2 2 2 x = siendo L L M M L app xp Var(yp )=p 0 L 0 L L L p L

1 0 0 2 Lamatrizdecovarianzasdeyser: = L L 0 0

porquey1,...,ypsehanconstruidocomovariablesincorreladas. Setieneque, =Var(Y)=A Var(X) A=A A obien, = A A yaqueAesunamatrizortogonal( ai ai =1 paratodassuscolumnas)porloque A A=I

PORCENTAJESDEVARIABLILIDAD

Sabemosquecadaautovalorcorrespondaalavarianzadelcomponenteyi,quesedefinapormedio delautovectorai,esdecir,Var(yi)=i. Sisumamostodoslosautovalores,tendremoslavarianzatotaldeloscomponentes,esdecir: Var(yi )= i = traza() puestoque matrizdiagonal


i=1 i=1 p p

Porlaspropiedadesdeloperadortraza, traza()=traza(A A)=traza( A A) = traza( ) pues, A ortogonal A A = I conlocual, traza()=traza( )= Var(xi )


i=1 p

Esdecir,lasumadelasvarianzasdelasvariablesoriginalesylasumadelasvarianzasdelas componentessoniguales.
SantiagodelaFuenteFernndez4

AnlisisComponentesPrincipales

Estopermitehablardelporcentajedevarianzatotalquerecogeuncomponenteprincipal:
i
i=1

i
i=1

Var(xi ) i
i=1 i=1 m

Tambinsepodrexpresarelporcentajedevariabilidad recogidoporlosprimerosmcomponentes(m<p)

Var(xi )

Enlaprctica,altenerenprincipiopvariables,nosquedaremosconunnmeromuchomenorde componentesquerecojaunporcentajeampliodelavariabilidadtotal Var(x i )


i=1 p

Engeneral,nosesuelecogermsdetrescomponentesprincipales,aserposible,parapoder representarlosposteriormenteenlasgrficas.

CLCULODELOSCOMPONENTESPRINCIPALESAPARTIRDELAMATRIZDECORRELACIONES

Habitualmente,secalculanloscomponentessobrevariablesoriginalesestandarizadas,esdecir, variablesconmedia0yvarianza1.Estoequivaleatomarloscomponentesprincipales,nodela matrizdecovarianzassinodelamatrizdecorrelaciones(enlasvariablesestandarizadascoincidenlas covarianzasylascorrelaciones). As,loscomponentessonautovectoresdelamatrizdecorrelacionesysondistintosdelosdela matrizdecovarianzas.Siseactaas,sedaigualimportanciaatodaslasvariablesoriginales. Enlamatrizdecorrelacionestodosloselementosdeladiagonalsonigualesa1.Silasvariables originalesestntipificadas,estoimplicaquesumatrizdecovarianzasesigualaladecorrelaciones, conloquelavariabilidadtotal(latraza)esigualalnmerototaldevariablesquehayenlamuestra. Sumatotaldetodoslosautovaloresp Proporcindevarianzarecogidaporelautovectorjsimo(componente) j p

MATRIZFACTORIAL

CuandosepresentanlosautovectoresenlasalidadeSPSS,selessuelemultiplicarpreviamentepor j (delautovalorcorrespondiente),parareescalartodosloscomponentesdelmismomodo. As,secalcula: a = j aj paraj=1,...,p.


Deestemodo,sesuelepresentarunatabladeautovectores a j queformanlamatrizfactorial
* * F=(a* 1 ,a2 ,...,ap )

Siseelevaalcuadradocadaunadelascolumnasysesumanlostrminosseobtienenlos autovalores: a j aj aj = j puestoque aj aj = 1 j aj = j


SantiagodelaFuenteFernndez5

AnlisisComponentesPrincipales

Porotraparte,como = A A ySSPSpresentacomomatrizfactoriala F = A 1 2 Setieneque


= F F

LoselementosdeFsontalesquelosmayoresvaloresindicanunamayorimportanciaenelmomento dedefiniruncomponente. Otraformadeenfocarloconsisteenconsiderarquecomo y = A x x = A 1 y

Demodoque, Cov(x) = (A 1 ) Cov(y) A 1 = A A = A 1 2 1 2 A = F F ComoAesortogonal A 1 = A As,dalamatrizfactorialF,sepuedencalcularlascovarianzasdelasvariablesoriginales,estoes,se puederecuperarlamatrizdecovarianzasoriginalapartirdelamatrizfactorial. Sisetomaunnmeromenordefactores(m<p),sepodrreproduciraproximadamente

CLCULODECOVARIANZASYCORRELACIONESENTREVARIABLESORIGINALESYLOSFACTORES

Comosetieneque y = A x x = A 1 y = A Y (porserlamatrizAortogonal A 1 = A ) Entonces, Cov(y j ,xi )=Cov(y j , aik yk ) =aij Var(y j )= jaij
k =1 p

donde,yjeselfactorjsimoyxieslavariableoriginalisima. Suponiendoquelasvariablesoriginalesestnestandarizadas[Var(xi)=1para(i=1,...,p)]: entonces, Corre(y j ,xi )=


j aij 1 j = j aij

Deestemodo,lamatrizdecorrelacionesentreyexes:

Corre(y,x)=1/2 A= F

conloquelamatrizfactorialtambinmidelascorrelacionesentrelasvariablesoriginales estandarizadasylosnuevosfactores.

CAMBIOSDEESCALASEIDENTIFICACINDECOMPONENTES

Silasvariablesoriginales(x1,...,xp)estnincorreladas,entoncescarecedesentidocalcularunos componentesprincipales.Sisehiciera,seobtendranlasmismasvariablesperoreordenadasde mayoramenorvarianza.

SantiagodelaFuenteFernndez6

AnlisisComponentesPrincipales

Parasabersi(x1,...,xp)estncorrelacionadas,sepuedecalcularlamatrizdecorrelaciones aplicndoseposteriormenteeltestdeesfericidaddeBarlett. Elclculodeloscomponentesprincipalesdeunaseriedevariables(x1,...,xp)depende normalmentedelasunidadesdemedidaempleadas.Sitransformamoslasunidadesdemedida,lo msprobableesquecambienasuvezloscomponentesobtenidos. Unasolucinfrecuenteesusarvariables(x1,...,xp)tipificadas.Conello,seeliminanlasdiferentes unidadesdemedidayseconsiderantodaslasvariablesimplcitamenteequivalentesencuantoala informacinrecogida.


IDENTIFICACINDELOSCOMPONENTESPRINCIPALES

Unodelosobjetivosdelclculodecomponentesprincipaleseslaidentificacindelosmismos,es decir,averiguarquinformacindelamuestraresumen.Sinembargoesteesunproblemadifcilque amenudoresultasubjetivo. Habitualmente,seconservansloaquelloscomponentesquerecogenlamayorpartedela variabilidad,hechoquepermiterepresentarlosdatossegndosotresdimensionessiseconservan dosotresejesfactoriales,pudindoseidentificarentoncesgruposnaturalesentrelasobservaciones.

SantiagodelaFuenteFernndez7

AnlisisComponentesPrincipales

Ejemplo.Muestrade41ciudadesdeUSAdondesemidierondiferentesvariablesrelacionadasconla contaminacinatmosfrica.
SO2 Phoenix LittleRock SanFrancisco Denver Hartford Wilmington Washington Jacksonville Miami Atlanta Chicago Indianapolis DesMoines Wichita Louisville NewOrleans Baltimore Detroit MinneapolisSt.Paul KansasCity St.Louis Omaha Alburquerque Albany Buffalo Cincinnati Cleveland Columbus Philadelphia Pittsburgh Providence Memphis Nashville Dallas Houston SaltLakeCity Norfolk Richmond Seattle Charleston Milwaukee 10 13 12 17 56 36 29 14 10 24 110 28 17 8 30 9 47 35 29 14 56 14 11 46 11 23 65 26 69 61 94 10 18 9 10 28 31 26 29 31 16 Neg.Temp 70,3 61 56,7 51,9 49,1 54 57,3 68,4 75,5 61,5 50,6 52,3 49 56,6 55,6 68,3 55 49,9 43,5 54,5 55,9 51,5 56,8 47,6 47,1 54 49,7 51,5 54,6 50,4 50 61,6 59,4 66,2 68,9 51 59,3 57,8 51,1 55,2 45,7 Empresas 213 91 453 454 412 80 434 136 207 368 3344 361 104 125 291 204 625 1064 699 381 775 181 46 44 391 462 1007 266 1692 347 343 337 275 641 721 137 96 197 379 35 569 Poblacion 582 132 716 515 158 80 757 529 335 497 3369 746 201 277 593 361 905 1513 744 507 622 347 244 116 463 453 751 540 1950 520 179 624 448 844 1233 176 308 299 531 71 717 Viento 6 8,2 8,7 9 9 9 9,3 8,8 9 9,1 10,4 9,7 11,2 12,7 8,3 8,4 9,6 10,1 10,6 10 9,5 10,9 8,9 8,8 12,4 7,1 10,9 8,6 9,6 9,4 10,6 9,2 7,9 10,9 10,8 8,7 10,6 7,6 9,4 6,5 11,8 Precip 7,05 48,52 20,66 12,95 43,37 40,25 38,89 54,47 59,80 48,34 34,44 38,74 30,85 30,58 43,11 56,77 41,31 30,96 25,94 37 35,89 30,18 7,77 33,36 36,11 39,04 34,99 37,01 39,93 36,22 42,75 49,10 46 35,94 48,19 15,17 44,68 42,59 38,79 40,75 29,07 Das 36 100 67 86 127 114 111 116 128 115 122 121 103 82 123 113 111 129 137 99 105 98 58 135 166 132 155 134 115 147 125 105 119 78 103 89 116 115 164 148 123

Lasvariablesson: ContenidoenSO2 (Temp):TemperaturaanualengradosF (Emp):Nmerodeempresasmayoresde20trabajadores (Pob):Poblacin(enmilesdehabitantes) (Viento):Velocidadmediadelviento (Precipt):Precipitacinanualmedia (Das):Daslluviososalao

SantiagodelaFuenteFernndez8

AnlisisComponentesPrincipales

EnprincipiointeresainvestigarlarelacinentrelaconcentracinenSO2yelrestodevariables, utilizamosunanlisisdecomponentesprincipalesparaeliminarrelacionesentrelasvariables. SerealizaunanlisisdecomponenteprincipalessobretodaslasvariablessalvoSO2. EnlasalidaderesultadosdeRseobservanvariasgrficasdescriptivasexploratoriasdondese presentanvariosdatosanmalos(outliers),porejemploChicago. Seobtienenloscomponentesprincipalesapartirdelamatrizdecorrelacionesparaemplearlas mismasescalasentodaslasvariables. Losprimerostrescomponentestienentodosvarianzas(autovalores)mayoresque1yentrelostres recogenel85%delavarianzadelasvariablesoriginales. Elprimercomponenteselepodraetiquetarcomocalidaddevidaconvaloresnegativosaltosen empresasypoblacinindicandounentornorelativamentepobre. Elsegundocomponentesepuedeetiquetarcomotiempohmedo,ytienepesosaltosenlas variablesprecipitacionesydas. Eltercercomponentesepodraetiquetarcomotipodeclimayestrelacionadoconla temperaturaylacantidaddelluvia. Aunquenoseencontrasenetiquetasclarasparaloscomponentes,siempreesinteresantecalcular componentesprincipalesparadescubrirsilosdatosseencuentranenunadimensinmenor.De hecho,lostresprimeroscomponentesproducenunmapadelosdatosdondelasdistanciasentrelos puntosesbastantesemejantealaobservadaenlosmismosrespectoalasvariablesoriginales. SerealizaunanlisisderegresindelavariableSO2sobrelostresfactores:claramentelacantidad deSO2seexplicamedianteelprimercomponentedecalidaddevida(relacionadoconelentorno humanoyelclima)quecuandoempeoraaumenta,asuvez,lacontaminacin.

SantiagodelaFuenteFernndez9

AnlisisComponentesPrincipales

ANLISISDECOMPONENTESPRINCIPALESCONSPSS

ElobjetivodelAnlisisdeComponentesPrincipalesesidentificarapartirdeunconjuntodep variables,otroconjuntodek(k<p)variablesnodirectamenteobservables,denominadasfactores, talque: kseaunnmeropequeo Sepierdalamenorcantidadposibledeinformacin Lasolucinobtenidaseainterpretable.


PasosenelAnlisisde ComponentesPrincipales: Evaluacindeloapropiadoderealizarelanlisis. Extraccindelosfactores. Clculodelaspuntuacionesfactorialesparacadacaso.

Descriptivosunivariados.Muestra,paracadavariable,elnmerodecasosvlidos,lamediay desviacintpica. Solucininicial.Permiteobtenerlascomunidadesiniciales,losautovaloresdelamatrizanalizaday losporcentajesdevarianzaasociadaacadavalor.

SantiagodelaFuenteFernndez10

AnlisisComponentesPrincipales

MATRIZDECORRELACIONES Coeficientes.Muestralamatrizconloscoeficientesdecorrelacinentrelasvariablesutilizadasenel anlisis. Nivelesdesignificacin.Incluyeenlamatrizdecorrelacioneslosnivelescrticosasociadosaeste coeficiente. Determinante.Muestraeldeterminantedelamatrizdecorrelaciones:Elvalordeldeterminante apareceenunanotaapiedetabla.Losdeterminantesprximosaceroestnindicandoquelas variablesutilizadasestnlinealmenterelacionadas,loquesignificaqueelanlisisfactorial,esuna tcnicapertinenteparaanalizaresasvariables. Inversa.Muestralainversadelamatrizdecorrelaciones.Estamatrizeslabaseparaelclculode Comunalidadesinicialesenalgunosmtodosdeextraccinyparaelclculodelamatrizantiimagen. Reproducida.Muestralamatrizreproducida.Eslamatrizdelascorrelacionesqueseobtieneapartir delasolucinfactorialhallada.Sielmodeloesbuenoyelnmerodefactoreseladecuado,la estructurafactorialdebesercapazdereproducirlamatrizdecorrelaciones. EnladiagonaldelamatrizreproducidaseencuentranlasComunalidadesfinales. Juntoconlamatrizdecorrelacionesreproducidassemuestralamatrizdecorrelacionesresiduales,la cualcontienelosresiduos,esdecir,lasdiferenciasentrelascorrelacionesobservadasylas correlacionesreproducidas. Sielmodeloeselcorrecto,elnmeroderesiduosconvaloreselevadosdebesermnimo. Antiimagen.Muestralamatrizdecovarianzasantiimagenylamatrizdecorrelacionesantiimagen. Lamatrizdecovarianzasantiimagencontienelosnegativosdelascovarianzasparcialesylamatrizde correlacionesantiimagencontieneloscoeficientesdecorrelacinparcialcambiadosdesigno(la correlacionesentredosvariablesseparcializateniendoencuentaelrestodelasvariablesincluidasen elanlisis). Enladiagonaldelamatrizdecorrelacionesantiimagenseencuentralasmedidasdeadecuacin muestralparacadavariable.Sielmodelofactorialelegidoesadecuadoparaexplicarlosdatos,los elementosdeladiagonaldelamatrizdecorrelacionesantiimagendebentenerunvalorprximoa1 yelrestodeelementosdebenserpequeos. KMOypruebadeesfericidaddeBartlett.LamediadeadecuacinmuestralKMO(KaiserMeyer Olkin)contrastasilascorrelacionesparcialesentrelasvariablessonsuficientementepequeas. Permitecompararlamagnituddeloscoeficientesdecorrelacinobservadosconlamagnituddelos coeficientesdecorrelacinparcial.ELestadsticoKMOvaraentre0y1.Losvalorespequeosindican queelanlisisfactorialpuedenoserunabuenaidea,dadoquelascorrelacionesentrelosparesde variablesnopuedenserexplicadasporotrasvariables.Losmenoresque0.5indicanquenodebe utilizarseelanlisisfactorialconlosdatosmuestralesqueseestnanalizando. LapruebadeesfericidaddeBartlett.Contrastalahiptesisnuladequelamatrizdecorrelacioneses unamatrizidentidad,encuyocasonoexistirancorrelacionessignificativasentelasvariablesyel modelofactorialnoserapertinente.

Laopcin[Extraccin]permitecontrolarvariosaspectosrelacionadosconlafasedeextraccinde losfactores.Entreotrascosas,permitedecidirquemodelofactorialsedeseautilizar,enqumatriz dedatosbasarelanlisisycuntosfactoresdebenextraerse.

SantiagodelaFuenteFernndez11

AnlisisComponentesPrincipales

Matrizdecorrelaciones.Elanlisissebasaenlamatrizdecorrelaciones,enlamatrizde correlacionesreducida,oenlamatrizdecorrelacionesantiimagen,segnelmtodoseleccionado. Matrizdecovarianza.Elanlisissebasaenlamatrizdevarianzascovarianzasreducida,olamatriz decovarianzasantiimagen,segnelmtodoseleccionado. Autovaloresmayoresque.Silamatrizanalizadaesladecorrelaciones,estaopcinpermiteutilizar eltamaodelosautovalorescomouncriterioparadecidirsielnmerodefactoresqueestarn presentesenlasolucinfactorial.Pordefectoseextraenlosfactorescuyosautovaloressonmayores quelaunidad(aestecriterioseledenominareglaK1). Silamatrizanalizadaesladevarianzascovarianzas,lareglaseexpresaelnmerodevecesqueun autovalordebesseamayorqueelautovalorpromediodelamatrizparaquelecorrespondientefactor searetenidoenlasolucin. Elautovalorqueactapordefectoes1,peroestevalorpuedecambiarseintroduciendootrodistinto (entreceroyelnmerodevariables)enelcorrespondientecuatrodetexto. Numerodefactores.Permiteespecificarelnmerodefactoresexactoquesedeseaincluirenla solucin.Sedebeintroducirelnmeroenelcuadrodetexto. Solucinfactorialsinrotar.- Muestralassaturacionesocargasfactorialessinrotar,las Comunalidadesylosautovaloresde lasolucinfactorial. Grficodesedimentacin.- Muestralarepresentacingrficadelamagnituddelosautovalores. Elcorteenlatendenciadescendentesirvedereglaparaladeterminacindelnmerodefactores ptimoquedebenestarpresentesenlasolucin.Siempresemuestralarepresentacindelos autovaloresdelamatrizdecorrelaciones(odecovarianzas)originales,independientementedel mtododeextraccinseleccionado. Ndeiteracionesparaconvergencia.Estecuadrodetextopermiteestablecerelnmeromximode iteracionesquelosalgoritmospuedenrealizarparaencontrarunasolucinfactorialfinal.Elvalorpor defectoes25,habitualmentesuficienteparaobtenerunasolucin.Estevalorpuedecambiarse introduciendounenteropositivo.

Laopcin[Rotacin]permitecontrolarquetipoderotacinllevaracabo.Sepuededefinirel mtododerotacinquedeseamosutilizarparafacilitarsuinterpretacindelasolucinfactorialy solicitarlarepresentacingrficadelassaturaciones.Pordefecto,noseencuentraseleccionado ningnmtododerotacin.

SantiagodelaFuenteFernndez12

AnlisisComponentesPrincipales

Ninguno.Noseaplicaningnmtododerotacin.Eslaopcinlaqueactapordefecto.Cuandola solucinconstadeunnicofactorynosehamarcadoestaopcinelvisorderesultadosmuestraun mensajedeadvertencia. Varimax.Mtododerotacinortogonalqueminimizaelnmerodevariablesquetienesaturaciones altasencadafactor.Simplificalainterpretacindelosfactoresoptimizandolasolucinporcolumna. Quartimax.-Mtododerotacinortogonalqueminimizaelnmerodefactoresnecesariospara explicarcadavariable.Simplificalainterpretacindelasvariablesobservadasoptimizandola interpretacinporfilas. Equamax.Mtododerotacinqueescombinacindelmtodovarimax,quesimplificalosfactores,y elmtodoQuartimax,quesimplificalasvariables.Seminimizatantoelnmerodevariablesque saturanaltoenunfactorcomoelnmerodefactoresnecesariosparaexplicarunavariable. Oblimindirecto.- Mtodoparalarotacinoblicua(noortogonal).Cuandodeltaeigualacero(el valorpordefecto),lassolucionessonlasmsoblicuas.Amedidaquedeltasevahaciendoms negativo,losfactoressonmenosoblicuos.Paraanularelvalorpordefectodedelta,puede introducirseunnmeromenoroiguala0.8. Delta.-Elvalordedeltapermitecontrolarelgradodeoblicuidadquepuedenllegaraalcanzarlos factoresdelasolucin. Promax.-Rotacinoblicuaquepermitequelosfactoresestncorrelacionados.Puedecalcularsems rpidamentequeunarotacinOblimindirecta,porloqueestilparagrandesconjuntosdedatos. Kappa.-ParmetroquecontrolaelclculoderotacindePromax.Elvalorpordefectoes4.Estevalor esadecuadoparalamayoradelosanlisis. Solucinrotada.Permiteobtenerunaomstablasconlosresultadosdelprocesoderotacin.Al seleccionarunarotacinortogonal,estaopcinpermiteobtenerlamatrizdeestructurafactorial rotadaylamatrizdetransformacinnecesariapararotarlosfactoresapartirdelasolucininicial. Adems,enlatabladeporcentajesdevarianzaexplicadaaparecencolumnasadicionalesque contienenlavarianzatotalexplicadaporlosfactoresrotados. Alseleccionarunarotacinoblicua,estaopcinpermiteobtenerlamatrizdeconfiguracinrotada, quecontienelassaturacionesdelasvariablesenlosfactores,ylamatrizdeestructura,quecontiene lascorrelacionesentrelasvariablesobservadasylosfactores(cuandolarotacinesortogonal,ambas matricessonidnticas). Adems,ofrecelamatrizdecorrelacionesentrelosfactoresydesechalamatrizdetransformacin paralarotacin.Enlatabladeporcentajesdevarianzaexplicadasloseincluyenlosautovaloresde losfactoresrotados(yaquenotienesentidohablardeporcentajesdevarianzaindependientes).

SantiagodelaFuenteFernndez13

AnlisisComponentesPrincipales

Grficosdesaturaciones.Estaopcingeneraungrficodedispersinquereflejalaubicacindelas variablesenelespaciodefinidoporlosfactores.Setratadeungrficodelassaturaciones. Elgrficomuestra,pordefecto,lostresprimerosfactoresdelasolucinfactorialenungrfico tridimensional. Sisedesearepresentarotrosfactores,esnecesarioeditarelgrficoyelegiresosotrosfactores. Nmximodeiteracionesparaconvergencia.- Permitedeterminarelnmeromximodeiteraciones quepuederecorrerelalgoritmoparalaestimacindelasolucinrotada.Pordefectoseefectanun mximode25iteraciones,loqueessuficienteparalamayoradelassituaciones.

Laopcin[Puntuaciones]seobtieneunaestimacindelaspuntuacionesdelossujetosencadauno delosfactoresresultantesdelaextraccinafindevalorarlasituacinrelativadecadasujetoen esosconstructorhipotticoscapacesderesumirlainformacincontenidaenlasvariables originales. ElcuadrodedilogoPuntuacionesfactorialescontienelasopcionesquepermitensolucionarlas estimacionesdelaspuntuacionesfactorialesyseleccionarelmtododeestimacinquesedesea utilizarparaobtenertalesestimaciones.

SealarquepordefectoseencuentraseleccionadoelmtododeRegresin,queeseldeusoms generalizado.Lasopcionesdelmtodonotieneefectoalgunocuandosehasealadocomponentes principalescomomtododeextraccin,yaqueenesemodelofactoriallaspuntuacionesfactoriales nosonestimadassinocalculadasdirectamenteapartirdelasvariablesoriginales.


Guardarcomovariables.ActivandoestaopcinseguardanautomticamenteenelEditordedatos laspuntuacionesfactorialesestimadasparacadasujetoencadaunodelosfactoresobtenidosenla solucinfactorial. Paraello,elSPSScreaenelarchivodedatosactivotantasvariablesnuevascomofactorescontengala solucinfactorial.Sinoseseleccionaestaopcinnoesposibleaccederalosmtodosdeestimacin delaspuntuacionesfactoriales. Regresin.Mtododeestimacindelaspuntuacionesfactorialesenelquelasestimaciones resultantestienenunamediaceroyunavarianzaigualalcuadradodelacorrelacinmltipleentrelas puntuacionesfactorialesestimadasylosvaloresfactorialesverdaderos. Laspuntuacionesfactorialesestimadasconestemtodopuedenestarcorrelacionadasinclusocuando losfactoressonortogonales. Bartlett.Mtododeestimacindelaspuntuacionesfactorialesenelquelasestimaciones resultantestieneunamediadecero. Estemtodominimizalasumadecuadradosdelosfactoresnicos(esdecir,minimizalaunicidad correspondienteacadaunadelasvariablesincluidasenelanlisis).
SantiagodelaFuenteFernndez14

AnlisisComponentesPrincipales

AndersonRubin.EstemtododeestimacinesunamodificacindelmtododeBartlettque aseguralaortogonalidaddelaspuntuacionesfactorialesestimadas.Lasestimacionesresultantes tienenunamediadecero,unadesviacintpicadeunoysonindependientesentres(inclusoenel quesehayasolicitadounasolucinrotadaoblicua). Mostrarmatrizdecoeficientesdelaspuntuacionesfactoriales.Estaopcinpermiteobteneruna tablaconlospesosoponderacionesnecesariosparacalcularlaspuntuacionesfactorialesapartirde lasvariablesoriginales.Estaopcinseencuentradesactivadapordefecto.Portanto,paraobtenerla matrizdecoeficientesnobastaconsolicitarlaspuntuacionesfactoriales.

Elcuadro[Opciones]permitecontrolaralgunosaspectosrelacionadosconletratamientoquedeben recibirlosvaloresperdidosyelformatoenlastablasderesultadosquegeneraelVisorde resultados.

Excluircasossegnlalista.Eslaopcinpordefecto. Seexcluyenelanlisislossujetosquetenganvaloresperdidosencualquieradelasvariables trasladadasalalistadevariables.Eseltratamientomsconsistentedetodos:sloseincluyenenlos anlisisloscasoscompletos(esdecir,loscasosconpuntuacinvlidaentodaslasvariables seleccionadas).Sinembargo,convienetenerencuentaqueestaformadetratarlosvaloresperdidos puedesuponerlaprdidadeungrannmerodecasosylaconsiguientereduccindeltamao efectivodelamuestra. Excluircasossegnpareja.Lossujetosconvalorperdidoenunavariableseexcluyendelanlisisslo paraelclculodelosestadsticosenlosqueestimplicadaesavariable. Estemtodopermiteaprovecharmscantidaddeinformacinquelaanterior,pero,puestoqueno todaslascorrelacionessecalculansobreelmismonmerodesujetos,podranobtenersematricesde correlacionesinconsistentesimposiblesdeanalizarposteriormente. Reemplazarporlamedia.Losvaloresperdidosdeunavariablesesustituyenporlamediadeesa variable.Sienunavariableexistenmuypocoscasosconvalorperdido,reemplazarelvalorperdido porlamedianoconstituyeunproblemaimportante.Peroenlamedidadequeelnmerodevalores perdidosaumenta,lasustitucinporlatieneelefectodecentrarlasvariablesdisminuyendosu variabilidad. Ordenadosporeltamao.Estaopcinsirveparaordenarlasvariablesdelastablasderesultadosen funcindelamagnitud(envalorabsoluto)deloscoeficientesdeesastablas(saturaciones, correlaciones,etc.).Laordenacinserealizadeformaascendente:primerolasvariablescon coeficientesmsaltos.Sinosemarcaestaopcin,lastablasmuestranlasvariablesenelmismoorden enelquehansidotrasladadasalalistadeVariablesdelcuadrodedilogodeAnlisisfactorial.

SantiagodelaFuenteFernndez15

AnlisisComponentesPrincipales

Suprimirvaloresabsolutosmenoresque.Estaopcinpermitesuprimirdelastablasderesultados loscoeficientescuyovalorabsolutoseamenorqueelvalorestablecidoenelcuadrodetexto. Elvalorpordefectoes0,10,peroestevalorpuedecambiarseintroduciendounvalordistinto. Estaopcinesdegranayuda:aldesaparecerdelatablaloscoeficientesexcesivamentepequeos(en valorabsoluto),sefacilitanotablementelainterpretacindelosresultados.

Unavezsealadaslasopciones,enlapantallaadjuntabastaconpulsar[Continuar]paraqueelVisor SPSSnosfacilitelosresultados.

Seobtienenlasmediasydesviaciones tpicasdecadavariableenestudio.

Matrizdelascorrelacionesconlasignificacindecadacomponente. ParaquesepuederealizarelACP,esnecesarioquelasvariablespresentenfactorescomunes.Es decir,queestnmuycorrelacionadasentres. Loscoeficientesdelamatrizdelascorrelacionesdebendesergrandesenvalorabsoluto. Seobtienenloscomponentesprincipalesapartirdelamatrizdecorrelacionesparaemplearlas mismasescalasentodaslasvariables.


SantiagodelaFuenteFernndez16

AnlisisComponentesPrincipales

Enestecaso,segnseobservaenlaparteinferiordelamatrizdelascorrelaciones,elvalordel determinantees0,14
TestdeesfericidaddeBarlett.Paracomprobar quelascorrelacionesentrelasvariablesson distintasdecerodemodosignificativo,se compruebasieldeterminantedelamatrizes distintodeuno,esdecir,silamatrizde correlacionesesdistintadelamatrizunidad.

Silasvariablesestncorrelacionadashaymuchosvaloresaltosenvalorabsolutofueradeladiagonal principaldelamatrizdecorrelaciones,adems,eldeterminanteesmenorque1(elmximovalor deldeterminantees1slasvariablesestnincorreladas).


H : R = 1 EltestdeBarlettrealizaelcontraste: 0 H1 : R 1 Eldeterminantedelamatrizdaunaideadelacorrelacingeneralizadaentretodaslasvariables. Eltestsebasaenladistribucin 2 dePearsondondelosvaloresaltosllevanarechazarlahiptesis nula H0 ,as,lapruebadeesfericidaddeBarlettcontrastasilamatrizdecorrelacionesesunamatriz identidad,queindicaraqueelmodelofactorialesinadecuado.

Porotraparte,lamedidadelaadecuacinmuestraldeKaiserMeyerOlkincontrastasilas correlacionesparcialesentrelasvariablessonsuficientementepequeas.ElestadsticoKMOvara entre0y1.Losvalorespequeosindicanqueelanlisisfactorialpuedenoserunabuenaidea,dado quelascorrelacionesentrelosparesdevariablesnopuedenserexplicadasporotrasvariables.Los menoresde0,5indicanquenodebeutilizarseelanlisisfactorialconlosdatosmuestralesquese estnanalizando.

LaComunalidadasociadaalavariablejsimaesla proporcindevariabilidaddedichavariable explicadaporloskfactoresconsiderados.

Equivalealasumadelafilajsimadelamatrizfactorial.Seraiguala0silosfactorescomunesno explicarannadalavariabilidaddeunavariable,yseraiguala1sequedasetotalmenteexplicada.

Lavarianzaasociadaacada factorseutilizapara determinarcuntosfactores debenretenerse.

SantiagodelaFuenteFernndez17

AnlisisComponentesPrincipales

Lostresprimerosfactorestienentodosvarianzas(autovalores)mayoresque1,yentrelostres recogenel85%delavarianzadelasvariablesoriginales. Elprimercomponenteselepodraetiquetarcomocalidaddevidaconvaloresnegativosaltosen empresasypoblacinindicandounentornorelativamentepobre. Elsegundocomponentesepuedeetiquetarcomotiempohmedo,ytienepesosaltosenlas variablesprecipitacionesydas. Eltercercomponentesepodraetiquetarcomotipodeclimayestrelacionadoconla temperaturaylacantidaddelluvia. Aunquenoseencontrasenetiquetasclarasparaloscomponentes,siempreesinteresantecalcular componentesprincipalesparadescubrirsilosdatosseencuentranenunadimensinmenor.De hecho,lostresprimeroscomponentesproducenunmapadelosdatosdondelasdistanciasentrelos puntosesbastantesemejantealaobservadaenlosmismosrespectoalasvariablesoriginales. ElGrficodelavarianzaasociadaacadafactorseutilizaparadeterminarcuntosfactoresdeben retenerse.Tpicamenteelgrficomuestralaclararupturaentrelapronunciadapendientedelos factoresmsimportantesyeldescensogradualdelosrestantes(lossedimentos)

OtraopcinesutilizarelcriteriodeKaiser,queconsisteenconservaraquellosfactorescuyoautovalor asociadoseamayorque1.

Saturacionesfactoriales:

SantiagodelaFuenteFernndez18

AnlisisComponentesPrincipales

EnladiagonaldelamatrizreproducidaseencuentranlasComunalidadesfinales. Juntoconlamatrizdecorrelacionesreproducidassemuestralamatrizdecorrelacionesresiduales,la cualcontienelosresiduos,esdecir,lasdiferenciasentrelascorrelacionesobservadasylas correlacionesreproducidas. Sielmodeloeselcorrecto,elnmeroderesiduosconvaloreselevadosdebesermnimo.

Representacintridimensionaldelassaturacionesfactorialesparalostresprimerosfactores:

SerealizaunanlisisderegresindelavariableSO2sobrelostresfactores.Paraello,enSSPS:

SantiagodelaFuenteFernndez19

AnlisisComponentesPrincipales

LasalidadelvisordeSSPSmuestra:

ElestadsticodeDurbinWatsonde1,926dejaclaroquelanoautocorrelacindelosfactores.

SantiagodelaFuenteFernndez20

AnlisisComponentesPrincipales

SO2 = 30,049 + 14,917(factor score 1) + 2,777(factor score 2) + 0,448 (factor score 3) LacantidaddeSO2seexplicaclaramentemedianteelprimercomponentedecalidaddevida(con valoresnegativosaltosenempresasypoblacinindicandounentornorelativamentepobre).

SantiagodelaFuenteFernndez21

AnlisisComponentesPrincipales

SantiagodelaFuenteFernndez22

AnlisisComponentesPrincipales

ANLISISACPCONSPSS______________________________________________ ElAnlisisdeComponentesPrincipales(ACP)tratarderepresentardeformaclarayordenada,la variedaddeloscomportamientosobservadosenunconjuntodenindividuosmedianteunconjunto depvariables. Buscarunnuevosistemadeejescoordenados,ordenados(nuevasvariablesdereferenciaque llamaremoscomponentesprincipales)conelquepoderapreciaryanalizarmsclaramentela diversidaddecomportamientoreflejadaenlosdatos.Paraello,determinarcomoprimereje coordenadolanuevavariable(primeracomponenteprincipal)queexpliquelamximavariabilidad (diversidad)posibledelosdatosobservados,paraprocedersecuencialmenteydeformaanlogaa determinarlossucesivosejescoordenados(sucesivascomponentesprincipales)apartirdelrestode lavariabilidad(diversidad)delosdatos,annoexplicadaporlosanteriores. ElACPtratarderesponderalapreguntaenqusistemadenuevosejescoordenadospodramos apreciardeunaformamsclarayordenadaladiversidaddeinformacin? Representandopor (X 1 , X 2 , L , X P ) lasvariablesoriginales,elobjetivoespues,encontrarunas nuevasvariablescomponentesprincipales, (Z 1 , Z 2 , L , Z P ) ,queexpliquenordenadamenteyde unaformamsclaralavariabilidaddelosdatos.Parecelgicodeterminarlaprimeracomponente principalZ1comoaquellaquevayaenladireccindemximavariabilidaddelosdatosyque,por tanto,explicarlamayordiversidadentrelosdatos;yaquelosdatossedispersandeunaforma mximajustamenteenesadireccin.Estadireccin,pues,nosinformarmuchodel comportamientomsdiversamentellamativodeesanubedepuntos. Deotraparte,obsrvesequeparaqueestasnuevasvariablesdereferencia(nuevosistemadeejes coordenados)permitaunarepresentacinclaradelarealidad,deberamospedirlgicamenteque estuviesenincorrelacionadasparaquecadanuevavariableinformaradeaspectosdiferentesdela realidadyasfacilitarlainterpretacin. Recordemosquenubesdepuntosinclinadasindicabancorrelacinentrevariablesyquenubesde puntosparalelasalosejesindicabanincorrelacinentrevariables,porloquelaincorrelacinentre lasnuevasvariablesdereferencia(componentesprincipales)seconseguircuandosetomen paralelasalosejesprincipalesdelanubedepuntos.Ellonosinduceapensarquesilanubede puntoseslosuficientementeregular(aproximadamenteelipsoidal),ladireccindelascomponentes principalesdebenserejesortogonales. Aspues,lavariableZ2deberserlavariableque,siendoortogonalaZ1,tengaladireccinde mximadispersindelasrestantes.Asaportarunainformacinadicionaldelrestodela variabilidaddelosdatosyquenoquedabaexplicadaporladireccinZ1(ntesequeexistetodauna gamadeindividuosconunmismovalorparaZ1quepuedenpresentardiferentesvaloresparaZ2).

Elprocesosereflejaenlafigura:

SantiagodelaFuenteFernndez

23

AnlisisComponentesPrincipales

Secuencialmente,lassucesivascomponentesprincipalesirnperdiendoimportanciaexplicativadela diversidadovariabilidaddelosdatos,yaqueseextiendenendireccionesdecadavezmenos dispersin.Estoseacentuarmscuantomayorsealacorrelacinentrelasvariablesoriginales.

Cuantamayordependenciahayaentreellas,msalargadaserla nubedepuntosenalgunadireccinymsestrechaenalguna direccinperpendicular[suponiendosiemprequelarelacin entreellasfueralineal].

Enelcasolmitedequeesaregresinfueraperfecta,yportantotodoslospuntosestuvieransobre elhiperplano,lacomponenteprincipalperpendicularalhiperplanonoaportaraningunainformacin porquenohabravariabilidadensudireccin.Esenestoscasoscuandovamosaconseguiruna reduccinefectivadeladimensindenuestroproblema,alpoderobviarosuprimirlascomponentes principalesquenoaportaninformacinsobreladiversidad. Asque,comoconsecuenciadelproceso,elACPnosloencuentraordenadamentelasdirecciones quemejorexplicanlavariabilidaddeesanubedepuntos,sinoquetambinenelcasodequehaya informacinredundante,permitirprescindirdealgunadelasltimascomponentes,bienporque estrictamentenoexpliquennadaacercadelavariacindelosdatos,obienporqueexpliquenuna cantidaddespreciabledelamisma,consiguiendosimplificarelproblemamediantelareduccin efectivadeladimensindelmismo. ElestudiodelasComponentesPrincipalesconSPSSserealizaatravsdelAnlisisFactorial,elcual intentaidentificarvariablessubyacentes,ofactoresqueexpliquenlaconfiguracindecorrelaciones dentrodeunconjuntodevariablesobservadas. Paraquesteprocedimientoestadsticotengasentido,esnecesarioqueentrelasvariablesde estudiohayaunaestructuraimportantedecorrelacin,esdecir,esnecesarioquelasvariableshan sidoobservadasestnrelacionadasentres.

EnSPSS,elprocedimientoquepermite realizarelAnlisisFactorialseencuentran enelsubmenReduccindedatosdel menAnalizar:Analizar/Reduccinde datos/Anlisisfactorial

SantiagodelaFuenteFernndez

24

AnlisisComponentesPrincipales

Alhacerclicenlaopcin,apareceelcuadrode dilogoadjuntodondeaparecentodaslas opcionesquepermiteesteprocedimiento. Seseleccionanlasvariablesquevayanaser incluidasenelanlisis.

Enlaopcin[Descriptivos]figuranunaseriedemedidas. Desdelaprctica,lapruebadeesfericidaddeBartlettcontrasta silamatrizdecorrelacionesesunamatrizidentidad,locual indicaraqueelmodelofactorialesinadecuado.

ElestadsticodeBartlettseobtieneapartirdeunatransformacin2deldeterminantedelamatriz decorrelacionesycuantomayorsea,yportantomenorelniveldesignificacin,msimprobablees quelamatrizseaunamatrizidentidadymsadecuadoresultaelanlisisfactorial. LamedidadelaadecuacinmuestraldeKaiserMeyerOlkin(CoeficienteKMO)contrastasilas correlacionesparcialesentrelasvariablessonpequeas,tomavaloresentre0y1,eindicaqueel anlisisfactorialestantomsadecuadocuantomayorseasuvalor.As,Kaiserpropusoen1974el siguientecriterioparadecidirsobrelaadecuacindelanlisisfactorialdeunconjuntodedatos: 0,9KMO1,0=Excelenteadecuacinmuestral. 0,8KMO0,9=Buenaadecuacinmuestral. 0,7KMO0,8=Aceptableadecuacinmuestral. 0,6KMO0,7=Regularadecuacinmuestral. 0,5KMO0,6=Malaadecuacinmuestral. 0,0KMO0,5=Adecuacinmuestralinaceptable.

Losmtodosdeextraccindefactoresque realizaelSPSSsonlosdelascomponentes principales,mximaverosimilitud, mnimoscuadradosnoponderados,y algunosms.

SantiagodelaFuenteFernndez

25

AnlisisComponentesPrincipales

Sepuedeespecificarqueelanlisisseapliqueaunamatrizdecorrelacionesoaunamatrizde covarianzas.Sepuedeseleccionarapriorielnmerodefactoresquesedeseaextraer,oespecificar algunacondicingenricaquepermita extraersloaquellosqueverifiquenuna determinadacondicin(usualmenteseeligen aquellosfactorescuyosautovaloressean superioresalaunidad). Sepuedemostrarlasolucinfactorialsin rotar,ascomoelgrficodesedimentacin (criteriogrficoparalaposteriordecisindel nmerodefactoresaextraer).

Sepuedenalmacenarlaspuntuacionesfactorialesobtenidasa partirdelanlisisfactorialenelreadetrabajodelficherode datos,esdecir,sepuedeaadirmnuevasvariablesque representenlosmfactoresextrados. Lamatrizdecoeficientesdelaspuntuacionesfactorialesmuestraloscoeficientesporloscualesse multiplicanlasvariablesparaobtenerlaspuntuacionesfactoriales.

Sepuedeelegirnorotarlasolucininicialobtenida,oelegir algunodelosmtodosderotacinqueaparecenenlasopciones delSPSS. Adems,sepuedenrepresentarlasvariablesobservadasen funcindelosfactoresextrados,sisesolicitanlosGrficosde saturaciones.

Ladeltratamientodevaloresperdidos,endondeelegir excluircasossegnlista,excluircasossegnparejao reemplazarporlamedia.YenFormatodevisualizacinde loscoeficientes,sepuedeelegirOrdenadosportamaoy suprimirvaloresabsolutosmenoresqueendondese puedeelegirunaopcinnumricaparaeliminaraquellos valoresquetenganunnmeromenoralseleccionado.

SantiagodelaFuenteFernndez

26

AnlisisComponentesPrincipales

APLICACINPRCTICADELANLISISACPCONSPSS_______________________________________ Comoejemplo,conelficherodedatosComarcasdeGuadalajara(Guadalajara.sav).Lasvariablesque seincluyenenelanlisis: Loquesignificacadaunadelasvariablesson: Agri:porcentajedelapoblacinquetrabajaenelsectoragrcola. Asal:Porcentajedelapoblacinasalariada. Cons:Porcentajedelapoblacinquetrabajaenelsectorconstruccin. Emp:Porcentajedelapoblacinqueposeesupropiaempresa. Ind:Porcentajedelapoblacinquetrabajaenelsectorindustrial. M16a:Porcentajedelapoblacinde16aosomenos. M65a:Porcentajedelapoblacinde65aosoms. Serv:Porcentajedelapoblacinquetrabajaenelsectorservicios. Tactiv:Tasadepoblacinactiva.

SantiagodelaFuenteFernndez

27

AnlisisComponentesPrincipales

Seseleccionan:Descriptivosunivariados,Solucin inicial,MatrizdeCoeficientesyeltestKMOy pruebadeesfericidaddeBartlett. Bastapresionarelbotn[continuar]paraproseguir conelanlisis.

SeeligeMatrizdecorrelacionesy Autovaloresmayoresque1. En[Mostrar],lasopcionesSolucin inicialsinrotaryGrficode sedimentacin.

Cadaunodelosmtodostienesuaplicacin,y dependerdelcasoenelculnosencontremos, paradecidirseporunouporotromtodo.

SeleccionamoslaopcindeGuardarcomovariables, atravsdelmtododeRegresin.Bastadarun[clic] enelbotnde[Continuar]ytodoloquehemos elegidoquedaguardado.

SeeligeExcluircasossegnlista. Hacer[clic]enlaopcin[continuar]. QuedatodoprevistoparadesarrollarelACP.

SantiagodelaFuenteFernndez

28

AnlisisComponentesPrincipales

Seleccionadastodaslasopciones,sehace[clic]en elbotnde[Aceptar]ySPSSgeneratodala informacinsolicitada.

ElvisorderesultadosdelSPSSmuestratodoslos cuadros,grficosyresultadosdelanlisis solicitado.Enestecaso,unAnlisisFactorialacon elMtododeComponentesPrincipales. ElprimercuadropresentalosEstadsticos Descriptivos,conlamediaydesviacintpicade cadaunadelasvariablesenestudio.

LasComunalidadesaparecenalprincipio,ysonmuyaltas (cercanasa1),conlocualseafirmaquelasvariables quedanmuybienexplicadasatravsdelascomponentes extradas.

Enelcuadrodelavarianzatotal explicadadecadacomponentey culessonlascomponentesque hansidoextradas(aquellascuyos autovaloressuperanlaunidad).

Entrelasdosprimerascomponentesextradasseacumulael93,323%delavariabilidaddelasvariables originales.

SantiagodelaFuenteFernndez

29

AnlisisComponentesPrincipales

EnelGrficodeSedimentacin(herramientagrficapara ladecisindelnmerodecomponentesquehayque seleccionar)sevisualizaquelaseleccindedosprimeras componentespareceseradecuada,puesapartirdela terceracomponentenoesmuyacusadalapendientedela representacingrficadelosautovalores.

LaMatrizdeComponentesqueapareceenlasalidase denominaMatrizdeCargasoSaturacionesFactoriales, indicalacargadecadavariableencadafactor,deforma quelosfactoresconpesosfactorialesmselevadosen trminosabsolutosindicanunarelacinestrechaconlas variables.

Sepuedeexpresarcadavariableenfuncindelosfactores.Haciendounacombinacinlinealde ellosutilizandosuscargasfactorialesrespectivas.Deestemodo,sepuedeexpresarlavariableAgrien funcindelasdoscomponentesextradas:Agri=0,974F10,121F2 ApartirdelasCargasFactorialessecalculalaComunalidaddecadaunadelasvariables,porejemplo, paralavariableAgri:Comunalidad(Agri)=(0,974)2+(0,121)2=0,963317 Indicandoqucantidaddeinformacinoriginalseconserva(96,33%).

ElGrficodeSaturaciones(grficodecomponentes principales)visualizalarepresentacingrficadela matrizdecomponentesanalizados. Delarepresentacinseextraelaexplicacindelos factoressubyacentes,demaneraque: Elprimerfactoresunfactordetipoeconmico demogrfico,queseoponealasvariablesAgri,Cons, EmpyM65aalresto. Elsegundofactoresunfactordetipoocupacional, yseparalossectoresenlosquetrabajalapoblacin.

SantiagodelaFuenteFernndez

30

Vous aimerez peut-être aussi