Académique Documents
Professionnel Documents
Culture Documents
SantiagodelaFuenteFernndez
AnlisisComponentesPrincipales
SantiagodelaFuenteFernndez
AnlisisComponentesPrincipales
ANLISISDECOMPONENTESPRINCIPALES Cuandoserecogelainformacindeunamuestradedatos,lomsfrecuenteestomarelmayor nmeroposibledevariables.Sinembargo,sitomamosdemasiadasvariablessobreunconjuntode 20 objetos,porejemplo20variables,tendremosqueconsiderar 2 = 180 posiblescoeficientesde correlacin;sison40variablesdichonmeroaumentahasta780. Evidentemente,enestecasoesdifcilvisualizarrelacionesentrelasvariables.Otroproblemaquese presentaeslafuertecorrelacinquemuchasvecessepresentaentrelasvariables:sitomamos demasiadasvariables(cosaqueengeneralsucedecuandonosesabedemasiadosobrelosdatoso slosetienenimoexploratorio),lonormalesqueestnrelacionadasoquemidanlomismobajo distintospuntosdevista.Porejemplo,enestudiosmdicos,lapresinsanguneaalasalidadel coraznyalasalidadelospulmonesestnfuertementerelacionadas. Sehacenecesario,pues,reducirelnmerodevariables.Esimportanteresaltarelhechodequeel conceptodemayorinformacinserelacionaconeldemayorvariabilidadovarianza.Cuantomayor sealavariabilidaddelosdatos(varianza)seconsideraqueexistemayorinformacin,locualest relacionadoconelconceptodeentropa. COMPONENTESPRINCIPALES EstastcnicasfueroninicialmentedesarrolladasporPearsonafinalesdelsigloXIXyposteriormente fueronestudiadasporHotellingenlosaos30delsigloXX.Sinembargo,hastalaaparicindelos ordenadoresnoseempezaronapopularizar. Paraestudiarlasrelacionesquesepresentanentrepvariablescorrelacionadas(quemiden informacincomn)sepuedetransformarelconjuntooriginaldevariablesenotroconjuntode nuevasvariablesincorreladasentres(quenotengarepeticinoredundanciaenlainformacin) llamadoconjuntodecomponentesprincipales. Lasnuevasvariablessoncombinacioneslinealesdelasanterioresysevanconstruyendosegnel ordendeimportanciaencuantoalavariabilidadtotalquerecogendelamuestra. Demodoideal,sebuscanm<pvariablesqueseancombinacioneslinealesdelasporiginalesyque estnincorreladas,recogiendolamayorpartedelainformacinovariabilidaddelosdatos. Silasvariablesoriginalesestnincorreladasdepartida,entoncesnotienesentidorealizarunanlisis decomponentesprincipales. Elanlisisdecomponentesprincipalesesunatcnicamatemticaquenorequierelasuposicinde normalidadmultivariantedelosdatos,aunquesiestoltimosecumplesepuededaruna interpretacinmsprofundadedichoscomponentes.
AnlisisComponentesPrincipales
PROCESODEEXTRACCINDEFACTORES
Seeligea1demodoquesemaximicelavarianzadey1sujetaalarestriccindeque aj . aj = 1
Var(y1 )=Var(a1 . x)=a1 . a1
Elmtodohabitualparamaximizarunafuncindevariasvariablessujetaarestriccioneselmtodo delosmultiplicadoresdeLagrange.
Elproblemaconsisteenmaximizarlafuncin a1 . a1 sujetaalarestriccin aj . aj = 1 .
Sepuedeobservarquelaincgnitaesprecisamentea1(elvectordesconocidoquedalacombinacin linealptima).
As,seconstruyelafuncinL: L(a1 )=a1 . a1 (a1 . a1 1)
Paramaximizarlafuncin:
L = 2 a1 2 Ia1 = 0 a1
( I)a1 = 0
AnlisisComponentesPrincipales
Luego,paramaximizarlavarianzadey1setienequetomarelmayorautovalor,sea1,yel correspondienteautovectora1. Enrealidad,a1esunvectorquedalacombinacindelasvariablesoriginalesquetienemayor varianza,estoes,s a1 =(a11 ,a12 ,...,a1p ), entonces y1 =a1 x=a11x1 +a12x2 ++a1pxp
Elsegundocomponenteprincipal,sea y2 =a2 x ,seobtienemedianteunargumentoparecido. Adems,sequierequey2estincorreladoconelanteriorcomponentey1,esdecir,Cov(y2,y1)=0. Porlotanto: Cov(y2 ,y1 )=Cov(a2 x,a1 x)==a2 E[(x)(x) ]a1 =a2 a1 esdecir,serequiereque a2 a1 = 0 Comosetenaquea1=a1,loanterioresequivalentea a2 a1 = a2 a1 = a2 a1 = 0 Portanto, a2 a1 = 0 losvectoresseanortogonales.
a2 a2 =1 Deestemodo,tendremosquemaximizarlavarianzadey2,esdecir,(a2a2),donde a2a1 =0 Setomalafuncin: L(a2 )=a2 a2 (a2 a2 1) a2 a1
conlocual,
L(a2 ) =2 a2 2 a2 a1 =0 a2
Deestemodo, L(a2 ) =2 a2 2 a2 a1 =2 a2 2 a2 = ( I) a2 = 0 a2
Anlogamentealcasoanterior,elegimoscomoelsegundomayorautovalordelamatrizconsu autovectorasociadoa2.
SantiagodelaFuenteFernndez3
AnlisisComponentesPrincipales
1 0 0 2 Lamatrizdecovarianzasdeyser: = L L 0 0
PORCENTAJESDEVARIABLILIDAD
Esdecir,lasumadelasvarianzasdelasvariablesoriginalesylasumadelasvarianzasdelas componentessoniguales.
SantiagodelaFuenteFernndez4
AnlisisComponentesPrincipales
Estopermitehablardelporcentajedevarianzatotalquerecogeuncomponenteprincipal:
i
i=1
i
i=1
Var(xi ) i
i=1 i=1 m
Tambinsepodrexpresarelporcentajedevariabilidad recogidoporlosprimerosmcomponentes(m<p)
Var(xi )
Engeneral,nosesuelecogermsdetrescomponentesprincipales,aserposible,parapoder representarlosposteriormenteenlasgrficas.
CLCULODELOSCOMPONENTESPRINCIPALESAPARTIRDELAMATRIZDECORRELACIONES
Habitualmente,secalculanloscomponentessobrevariablesoriginalesestandarizadas,esdecir, variablesconmedia0yvarianza1.Estoequivaleatomarloscomponentesprincipales,nodela matrizdecovarianzassinodelamatrizdecorrelaciones(enlasvariablesestandarizadascoincidenlas covarianzasylascorrelaciones). As,loscomponentessonautovectoresdelamatrizdecorrelacionesysondistintosdelosdela matrizdecovarianzas.Siseactaas,sedaigualimportanciaatodaslasvariablesoriginales. Enlamatrizdecorrelacionestodosloselementosdeladiagonalsonigualesa1.Silasvariables originalesestntipificadas,estoimplicaquesumatrizdecovarianzasesigualaladecorrelaciones, conloquelavariabilidadtotal(latraza)esigualalnmerototaldevariablesquehayenlamuestra. Sumatotaldetodoslosautovaloresp Proporcindevarianzarecogidaporelautovectorjsimo(componente) j p
MATRIZFACTORIAL
AnlisisComponentesPrincipales
CLCULODECOVARIANZASYCORRELACIONESENTREVARIABLESORIGINALESYLOSFACTORES
Comosetieneque y = A x x = A 1 y = A Y (porserlamatrizAortogonal A 1 = A ) Entonces, Cov(y j ,xi )=Cov(y j , aik yk ) =aij Var(y j )= jaij
k =1 p
Deestemodo,lamatrizdecorrelacionesentreyexes:
Corre(y,x)=1/2 A= F
conloquelamatrizfactorialtambinmidelascorrelacionesentrelasvariablesoriginales estandarizadasylosnuevosfactores.
CAMBIOSDEESCALASEIDENTIFICACINDECOMPONENTES
SantiagodelaFuenteFernndez6
AnlisisComponentesPrincipales
SantiagodelaFuenteFernndez7
AnlisisComponentesPrincipales
Ejemplo.Muestrade41ciudadesdeUSAdondesemidierondiferentesvariablesrelacionadasconla contaminacinatmosfrica.
SO2 Phoenix LittleRock SanFrancisco Denver Hartford Wilmington Washington Jacksonville Miami Atlanta Chicago Indianapolis DesMoines Wichita Louisville NewOrleans Baltimore Detroit MinneapolisSt.Paul KansasCity St.Louis Omaha Alburquerque Albany Buffalo Cincinnati Cleveland Columbus Philadelphia Pittsburgh Providence Memphis Nashville Dallas Houston SaltLakeCity Norfolk Richmond Seattle Charleston Milwaukee 10 13 12 17 56 36 29 14 10 24 110 28 17 8 30 9 47 35 29 14 56 14 11 46 11 23 65 26 69 61 94 10 18 9 10 28 31 26 29 31 16 Neg.Temp 70,3 61 56,7 51,9 49,1 54 57,3 68,4 75,5 61,5 50,6 52,3 49 56,6 55,6 68,3 55 49,9 43,5 54,5 55,9 51,5 56,8 47,6 47,1 54 49,7 51,5 54,6 50,4 50 61,6 59,4 66,2 68,9 51 59,3 57,8 51,1 55,2 45,7 Empresas 213 91 453 454 412 80 434 136 207 368 3344 361 104 125 291 204 625 1064 699 381 775 181 46 44 391 462 1007 266 1692 347 343 337 275 641 721 137 96 197 379 35 569 Poblacion 582 132 716 515 158 80 757 529 335 497 3369 746 201 277 593 361 905 1513 744 507 622 347 244 116 463 453 751 540 1950 520 179 624 448 844 1233 176 308 299 531 71 717 Viento 6 8,2 8,7 9 9 9 9,3 8,8 9 9,1 10,4 9,7 11,2 12,7 8,3 8,4 9,6 10,1 10,6 10 9,5 10,9 8,9 8,8 12,4 7,1 10,9 8,6 9,6 9,4 10,6 9,2 7,9 10,9 10,8 8,7 10,6 7,6 9,4 6,5 11,8 Precip 7,05 48,52 20,66 12,95 43,37 40,25 38,89 54,47 59,80 48,34 34,44 38,74 30,85 30,58 43,11 56,77 41,31 30,96 25,94 37 35,89 30,18 7,77 33,36 36,11 39,04 34,99 37,01 39,93 36,22 42,75 49,10 46 35,94 48,19 15,17 44,68 42,59 38,79 40,75 29,07 Das 36 100 67 86 127 114 111 116 128 115 122 121 103 82 123 113 111 129 137 99 105 98 58 135 166 132 155 134 115 147 125 105 119 78 103 89 116 115 164 148 123
SantiagodelaFuenteFernndez8
AnlisisComponentesPrincipales
EnprincipiointeresainvestigarlarelacinentrelaconcentracinenSO2yelrestodevariables, utilizamosunanlisisdecomponentesprincipalesparaeliminarrelacionesentrelasvariables. SerealizaunanlisisdecomponenteprincipalessobretodaslasvariablessalvoSO2. EnlasalidaderesultadosdeRseobservanvariasgrficasdescriptivasexploratoriasdondese presentanvariosdatosanmalos(outliers),porejemploChicago. Seobtienenloscomponentesprincipalesapartirdelamatrizdecorrelacionesparaemplearlas mismasescalasentodaslasvariables. Losprimerostrescomponentestienentodosvarianzas(autovalores)mayoresque1yentrelostres recogenel85%delavarianzadelasvariablesoriginales. Elprimercomponenteselepodraetiquetarcomocalidaddevidaconvaloresnegativosaltosen empresasypoblacinindicandounentornorelativamentepobre. Elsegundocomponentesepuedeetiquetarcomotiempohmedo,ytienepesosaltosenlas variablesprecipitacionesydas. Eltercercomponentesepodraetiquetarcomotipodeclimayestrelacionadoconla temperaturaylacantidaddelluvia. Aunquenoseencontrasenetiquetasclarasparaloscomponentes,siempreesinteresantecalcular componentesprincipalesparadescubrirsilosdatosseencuentranenunadimensinmenor.De hecho,lostresprimeroscomponentesproducenunmapadelosdatosdondelasdistanciasentrelos puntosesbastantesemejantealaobservadaenlosmismosrespectoalasvariablesoriginales. SerealizaunanlisisderegresindelavariableSO2sobrelostresfactores:claramentelacantidad deSO2seexplicamedianteelprimercomponentedecalidaddevida(relacionadoconelentorno humanoyelclima)quecuandoempeoraaumenta,asuvez,lacontaminacin.
SantiagodelaFuenteFernndez9
AnlisisComponentesPrincipales
ANLISISDECOMPONENTESPRINCIPALESCONSPSS
SantiagodelaFuenteFernndez10
AnlisisComponentesPrincipales
MATRIZDECORRELACIONES Coeficientes.Muestralamatrizconloscoeficientesdecorrelacinentrelasvariablesutilizadasenel anlisis. Nivelesdesignificacin.Incluyeenlamatrizdecorrelacioneslosnivelescrticosasociadosaeste coeficiente. Determinante.Muestraeldeterminantedelamatrizdecorrelaciones:Elvalordeldeterminante apareceenunanotaapiedetabla.Losdeterminantesprximosaceroestnindicandoquelas variablesutilizadasestnlinealmenterelacionadas,loquesignificaqueelanlisisfactorial,esuna tcnicapertinenteparaanalizaresasvariables. Inversa.Muestralainversadelamatrizdecorrelaciones.Estamatrizeslabaseparaelclculode Comunalidadesinicialesenalgunosmtodosdeextraccinyparaelclculodelamatrizantiimagen. Reproducida.Muestralamatrizreproducida.Eslamatrizdelascorrelacionesqueseobtieneapartir delasolucinfactorialhallada.Sielmodeloesbuenoyelnmerodefactoreseladecuado,la estructurafactorialdebesercapazdereproducirlamatrizdecorrelaciones. EnladiagonaldelamatrizreproducidaseencuentranlasComunalidadesfinales. Juntoconlamatrizdecorrelacionesreproducidassemuestralamatrizdecorrelacionesresiduales,la cualcontienelosresiduos,esdecir,lasdiferenciasentrelascorrelacionesobservadasylas correlacionesreproducidas. Sielmodeloeselcorrecto,elnmeroderesiduosconvaloreselevadosdebesermnimo. Antiimagen.Muestralamatrizdecovarianzasantiimagenylamatrizdecorrelacionesantiimagen. Lamatrizdecovarianzasantiimagencontienelosnegativosdelascovarianzasparcialesylamatrizde correlacionesantiimagencontieneloscoeficientesdecorrelacinparcialcambiadosdesigno(la correlacionesentredosvariablesseparcializateniendoencuentaelrestodelasvariablesincluidasen elanlisis). Enladiagonaldelamatrizdecorrelacionesantiimagenseencuentralasmedidasdeadecuacin muestralparacadavariable.Sielmodelofactorialelegidoesadecuadoparaexplicarlosdatos,los elementosdeladiagonaldelamatrizdecorrelacionesantiimagendebentenerunvalorprximoa1 yelrestodeelementosdebenserpequeos. KMOypruebadeesfericidaddeBartlett.LamediadeadecuacinmuestralKMO(KaiserMeyer Olkin)contrastasilascorrelacionesparcialesentrelasvariablessonsuficientementepequeas. Permitecompararlamagnituddeloscoeficientesdecorrelacinobservadosconlamagnituddelos coeficientesdecorrelacinparcial.ELestadsticoKMOvaraentre0y1.Losvalorespequeosindican queelanlisisfactorialpuedenoserunabuenaidea,dadoquelascorrelacionesentrelosparesde variablesnopuedenserexplicadasporotrasvariables.Losmenoresque0.5indicanquenodebe utilizarseelanlisisfactorialconlosdatosmuestralesqueseestnanalizando. LapruebadeesfericidaddeBartlett.Contrastalahiptesisnuladequelamatrizdecorrelacioneses unamatrizidentidad,encuyocasonoexistirancorrelacionessignificativasentelasvariablesyel modelofactorialnoserapertinente.
SantiagodelaFuenteFernndez11
AnlisisComponentesPrincipales
Matrizdecorrelaciones.Elanlisissebasaenlamatrizdecorrelaciones,enlamatrizde correlacionesreducida,oenlamatrizdecorrelacionesantiimagen,segnelmtodoseleccionado. Matrizdecovarianza.Elanlisissebasaenlamatrizdevarianzascovarianzasreducida,olamatriz decovarianzasantiimagen,segnelmtodoseleccionado. Autovaloresmayoresque.Silamatrizanalizadaesladecorrelaciones,estaopcinpermiteutilizar eltamaodelosautovalorescomouncriterioparadecidirsielnmerodefactoresqueestarn presentesenlasolucinfactorial.Pordefectoseextraenlosfactorescuyosautovaloressonmayores quelaunidad(aestecriterioseledenominareglaK1). Silamatrizanalizadaesladevarianzascovarianzas,lareglaseexpresaelnmerodevecesqueun autovalordebesseamayorqueelautovalorpromediodelamatrizparaquelecorrespondientefactor searetenidoenlasolucin. Elautovalorqueactapordefectoes1,peroestevalorpuedecambiarseintroduciendootrodistinto (entreceroyelnmerodevariables)enelcorrespondientecuatrodetexto. Numerodefactores.Permiteespecificarelnmerodefactoresexactoquesedeseaincluirenla solucin.Sedebeintroducirelnmeroenelcuadrodetexto. Solucinfactorialsinrotar.- Muestralassaturacionesocargasfactorialessinrotar,las Comunalidadesylosautovaloresde lasolucinfactorial. Grficodesedimentacin.- Muestralarepresentacingrficadelamagnituddelosautovalores. Elcorteenlatendenciadescendentesirvedereglaparaladeterminacindelnmerodefactores ptimoquedebenestarpresentesenlasolucin.Siempresemuestralarepresentacindelos autovaloresdelamatrizdecorrelaciones(odecovarianzas)originales,independientementedel mtododeextraccinseleccionado. Ndeiteracionesparaconvergencia.Estecuadrodetextopermiteestablecerelnmeromximode iteracionesquelosalgoritmospuedenrealizarparaencontrarunasolucinfactorialfinal.Elvalorpor defectoes25,habitualmentesuficienteparaobtenerunasolucin.Estevalorpuedecambiarse introduciendounenteropositivo.
SantiagodelaFuenteFernndez12
AnlisisComponentesPrincipales
Ninguno.Noseaplicaningnmtododerotacin.Eslaopcinlaqueactapordefecto.Cuandola solucinconstadeunnicofactorynosehamarcadoestaopcinelvisorderesultadosmuestraun mensajedeadvertencia. Varimax.Mtododerotacinortogonalqueminimizaelnmerodevariablesquetienesaturaciones altasencadafactor.Simplificalainterpretacindelosfactoresoptimizandolasolucinporcolumna. Quartimax.-Mtododerotacinortogonalqueminimizaelnmerodefactoresnecesariospara explicarcadavariable.Simplificalainterpretacindelasvariablesobservadasoptimizandola interpretacinporfilas. Equamax.Mtododerotacinqueescombinacindelmtodovarimax,quesimplificalosfactores,y elmtodoQuartimax,quesimplificalasvariables.Seminimizatantoelnmerodevariablesque saturanaltoenunfactorcomoelnmerodefactoresnecesariosparaexplicarunavariable. Oblimindirecto.- Mtodoparalarotacinoblicua(noortogonal).Cuandodeltaeigualacero(el valorpordefecto),lassolucionessonlasmsoblicuas.Amedidaquedeltasevahaciendoms negativo,losfactoressonmenosoblicuos.Paraanularelvalorpordefectodedelta,puede introducirseunnmeromenoroiguala0.8. Delta.-Elvalordedeltapermitecontrolarelgradodeoblicuidadquepuedenllegaraalcanzarlos factoresdelasolucin. Promax.-Rotacinoblicuaquepermitequelosfactoresestncorrelacionados.Puedecalcularsems rpidamentequeunarotacinOblimindirecta,porloqueestilparagrandesconjuntosdedatos. Kappa.-ParmetroquecontrolaelclculoderotacindePromax.Elvalorpordefectoes4.Estevalor esadecuadoparalamayoradelosanlisis. Solucinrotada.Permiteobtenerunaomstablasconlosresultadosdelprocesoderotacin.Al seleccionarunarotacinortogonal,estaopcinpermiteobtenerlamatrizdeestructurafactorial rotadaylamatrizdetransformacinnecesariapararotarlosfactoresapartirdelasolucininicial. Adems,enlatabladeporcentajesdevarianzaexplicadaaparecencolumnasadicionalesque contienenlavarianzatotalexplicadaporlosfactoresrotados. Alseleccionarunarotacinoblicua,estaopcinpermiteobtenerlamatrizdeconfiguracinrotada, quecontienelassaturacionesdelasvariablesenlosfactores,ylamatrizdeestructura,quecontiene lascorrelacionesentrelasvariablesobservadasylosfactores(cuandolarotacinesortogonal,ambas matricessonidnticas). Adems,ofrecelamatrizdecorrelacionesentrelosfactoresydesechalamatrizdetransformacin paralarotacin.Enlatabladeporcentajesdevarianzaexplicadasloseincluyenlosautovaloresde losfactoresrotados(yaquenotienesentidohablardeporcentajesdevarianzaindependientes).
SantiagodelaFuenteFernndez13
AnlisisComponentesPrincipales
AnlisisComponentesPrincipales
Excluircasossegnlalista.Eslaopcinpordefecto. Seexcluyenelanlisislossujetosquetenganvaloresperdidosencualquieradelasvariables trasladadasalalistadevariables.Eseltratamientomsconsistentedetodos:sloseincluyenenlos anlisisloscasoscompletos(esdecir,loscasosconpuntuacinvlidaentodaslasvariables seleccionadas).Sinembargo,convienetenerencuentaqueestaformadetratarlosvaloresperdidos puedesuponerlaprdidadeungrannmerodecasosylaconsiguientereduccindeltamao efectivodelamuestra. Excluircasossegnpareja.Lossujetosconvalorperdidoenunavariableseexcluyendelanlisisslo paraelclculodelosestadsticosenlosqueestimplicadaesavariable. Estemtodopermiteaprovecharmscantidaddeinformacinquelaanterior,pero,puestoqueno todaslascorrelacionessecalculansobreelmismonmerodesujetos,podranobtenersematricesde correlacionesinconsistentesimposiblesdeanalizarposteriormente. Reemplazarporlamedia.Losvaloresperdidosdeunavariablesesustituyenporlamediadeesa variable.Sienunavariableexistenmuypocoscasosconvalorperdido,reemplazarelvalorperdido porlamedianoconstituyeunproblemaimportante.Peroenlamedidadequeelnmerodevalores perdidosaumenta,lasustitucinporlatieneelefectodecentrarlasvariablesdisminuyendosu variabilidad. Ordenadosporeltamao.Estaopcinsirveparaordenarlasvariablesdelastablasderesultadosen funcindelamagnitud(envalorabsoluto)deloscoeficientesdeesastablas(saturaciones, correlaciones,etc.).Laordenacinserealizadeformaascendente:primerolasvariablescon coeficientesmsaltos.Sinosemarcaestaopcin,lastablasmuestranlasvariablesenelmismoorden enelquehansidotrasladadasalalistadeVariablesdelcuadrodedilogodeAnlisisfactorial.
SantiagodelaFuenteFernndez15
AnlisisComponentesPrincipales
Unavezsealadaslasopciones,enlapantallaadjuntabastaconpulsar[Continuar]paraqueelVisor SPSSnosfacilitelosresultados.
Seobtienenlasmediasydesviaciones tpicasdecadavariableenestudio.
AnlisisComponentesPrincipales
Enestecaso,segnseobservaenlaparteinferiordelamatrizdelascorrelaciones,elvalordel determinantees0,14
TestdeesfericidaddeBarlett.Paracomprobar quelascorrelacionesentrelasvariablesson distintasdecerodemodosignificativo,se compruebasieldeterminantedelamatrizes distintodeuno,esdecir,silamatrizde correlacionesesdistintadelamatrizunidad.
Equivalealasumadelafilajsimadelamatrizfactorial.Seraiguala0silosfactorescomunesno explicarannadalavariabilidaddeunavariable,yseraiguala1sequedasetotalmenteexplicada.
SantiagodelaFuenteFernndez17
AnlisisComponentesPrincipales
Lostresprimerosfactorestienentodosvarianzas(autovalores)mayoresque1,yentrelostres recogenel85%delavarianzadelasvariablesoriginales. Elprimercomponenteselepodraetiquetarcomocalidaddevidaconvaloresnegativosaltosen empresasypoblacinindicandounentornorelativamentepobre. Elsegundocomponentesepuedeetiquetarcomotiempohmedo,ytienepesosaltosenlas variablesprecipitacionesydas. Eltercercomponentesepodraetiquetarcomotipodeclimayestrelacionadoconla temperaturaylacantidaddelluvia. Aunquenoseencontrasenetiquetasclarasparaloscomponentes,siempreesinteresantecalcular componentesprincipalesparadescubrirsilosdatosseencuentranenunadimensinmenor.De hecho,lostresprimeroscomponentesproducenunmapadelosdatosdondelasdistanciasentrelos puntosesbastantesemejantealaobservadaenlosmismosrespectoalasvariablesoriginales. ElGrficodelavarianzaasociadaacadafactorseutilizaparadeterminarcuntosfactoresdeben retenerse.Tpicamenteelgrficomuestralaclararupturaentrelapronunciadapendientedelos factoresmsimportantesyeldescensogradualdelosrestantes(lossedimentos)
OtraopcinesutilizarelcriteriodeKaiser,queconsisteenconservaraquellosfactorescuyoautovalor asociadoseamayorque1.
Saturacionesfactoriales:
SantiagodelaFuenteFernndez18
AnlisisComponentesPrincipales
Representacintridimensionaldelassaturacionesfactorialesparalostresprimerosfactores:
SerealizaunanlisisderegresindelavariableSO2sobrelostresfactores.Paraello,enSSPS:
SantiagodelaFuenteFernndez19
AnlisisComponentesPrincipales
LasalidadelvisordeSSPSmuestra:
ElestadsticodeDurbinWatsonde1,926dejaclaroquelanoautocorrelacindelosfactores.
SantiagodelaFuenteFernndez20
AnlisisComponentesPrincipales
SO2 = 30,049 + 14,917(factor score 1) + 2,777(factor score 2) + 0,448 (factor score 3) LacantidaddeSO2seexplicaclaramentemedianteelprimercomponentedecalidaddevida(con valoresnegativosaltosenempresasypoblacinindicandounentornorelativamentepobre).
SantiagodelaFuenteFernndez21
AnlisisComponentesPrincipales
SantiagodelaFuenteFernndez22
AnlisisComponentesPrincipales
ANLISISACPCONSPSS______________________________________________ ElAnlisisdeComponentesPrincipales(ACP)tratarderepresentardeformaclarayordenada,la variedaddeloscomportamientosobservadosenunconjuntodenindividuosmedianteunconjunto depvariables. Buscarunnuevosistemadeejescoordenados,ordenados(nuevasvariablesdereferenciaque llamaremoscomponentesprincipales)conelquepoderapreciaryanalizarmsclaramentela diversidaddecomportamientoreflejadaenlosdatos.Paraello,determinarcomoprimereje coordenadolanuevavariable(primeracomponenteprincipal)queexpliquelamximavariabilidad (diversidad)posibledelosdatosobservados,paraprocedersecuencialmenteydeformaanlogaa determinarlossucesivosejescoordenados(sucesivascomponentesprincipales)apartirdelrestode lavariabilidad(diversidad)delosdatos,annoexplicadaporlosanteriores. ElACPtratarderesponderalapreguntaenqusistemadenuevosejescoordenadospodramos apreciardeunaformamsclarayordenadaladiversidaddeinformacin? Representandopor (X 1 , X 2 , L , X P ) lasvariablesoriginales,elobjetivoespues,encontrarunas nuevasvariablescomponentesprincipales, (Z 1 , Z 2 , L , Z P ) ,queexpliquenordenadamenteyde unaformamsclaralavariabilidaddelosdatos.Parecelgicodeterminarlaprimeracomponente principalZ1comoaquellaquevayaenladireccindemximavariabilidaddelosdatosyque,por tanto,explicarlamayordiversidadentrelosdatos;yaquelosdatossedispersandeunaforma mximajustamenteenesadireccin.Estadireccin,pues,nosinformarmuchodel comportamientomsdiversamentellamativodeesanubedepuntos. Deotraparte,obsrvesequeparaqueestasnuevasvariablesdereferencia(nuevosistemadeejes coordenados)permitaunarepresentacinclaradelarealidad,deberamospedirlgicamenteque estuviesenincorrelacionadasparaquecadanuevavariableinformaradeaspectosdiferentesdela realidadyasfacilitarlainterpretacin. Recordemosquenubesdepuntosinclinadasindicabancorrelacinentrevariablesyquenubesde puntosparalelasalosejesindicabanincorrelacinentrevariables,porloquelaincorrelacinentre lasnuevasvariablesdereferencia(componentesprincipales)seconseguircuandosetomen paralelasalosejesprincipalesdelanubedepuntos.Ellonosinduceapensarquesilanubede puntoseslosuficientementeregular(aproximadamenteelipsoidal),ladireccindelascomponentes principalesdebenserejesortogonales. Aspues,lavariableZ2deberserlavariableque,siendoortogonalaZ1,tengaladireccinde mximadispersindelasrestantes.Asaportarunainformacinadicionaldelrestodela variabilidaddelosdatosyquenoquedabaexplicadaporladireccinZ1(ntesequeexistetodauna gamadeindividuosconunmismovalorparaZ1quepuedenpresentardiferentesvaloresparaZ2).
Elprocesosereflejaenlafigura:
SantiagodelaFuenteFernndez
23
AnlisisComponentesPrincipales
Enelcasolmitedequeesaregresinfueraperfecta,yportantotodoslospuntosestuvieransobre elhiperplano,lacomponenteprincipalperpendicularalhiperplanonoaportaraningunainformacin porquenohabravariabilidadensudireccin.Esenestoscasoscuandovamosaconseguiruna reduccinefectivadeladimensindenuestroproblema,alpoderobviarosuprimirlascomponentes principalesquenoaportaninformacinsobreladiversidad. Asque,comoconsecuenciadelproceso,elACPnosloencuentraordenadamentelasdirecciones quemejorexplicanlavariabilidaddeesanubedepuntos,sinoquetambinenelcasodequehaya informacinredundante,permitirprescindirdealgunadelasltimascomponentes,bienporque estrictamentenoexpliquennadaacercadelavariacindelosdatos,obienporqueexpliquenuna cantidaddespreciabledelamisma,consiguiendosimplificarelproblemamediantelareduccin efectivadeladimensindelmismo. ElestudiodelasComponentesPrincipalesconSPSSserealizaatravsdelAnlisisFactorial,elcual intentaidentificarvariablessubyacentes,ofactoresqueexpliquenlaconfiguracindecorrelaciones dentrodeunconjuntodevariablesobservadas. Paraquesteprocedimientoestadsticotengasentido,esnecesarioqueentrelasvariablesde estudiohayaunaestructuraimportantedecorrelacin,esdecir,esnecesarioquelasvariableshan sidoobservadasestnrelacionadasentres.
SantiagodelaFuenteFernndez
24
AnlisisComponentesPrincipales
ElestadsticodeBartlettseobtieneapartirdeunatransformacin2deldeterminantedelamatriz decorrelacionesycuantomayorsea,yportantomenorelniveldesignificacin,msimprobablees quelamatrizseaunamatrizidentidadymsadecuadoresultaelanlisisfactorial. LamedidadelaadecuacinmuestraldeKaiserMeyerOlkin(CoeficienteKMO)contrastasilas correlacionesparcialesentrelasvariablessonpequeas,tomavaloresentre0y1,eindicaqueel anlisisfactorialestantomsadecuadocuantomayorseasuvalor.As,Kaiserpropusoen1974el siguientecriterioparadecidirsobrelaadecuacindelanlisisfactorialdeunconjuntodedatos: 0,9KMO1,0=Excelenteadecuacinmuestral. 0,8KMO0,9=Buenaadecuacinmuestral. 0,7KMO0,8=Aceptableadecuacinmuestral. 0,6KMO0,7=Regularadecuacinmuestral. 0,5KMO0,6=Malaadecuacinmuestral. 0,0KMO0,5=Adecuacinmuestralinaceptable.
SantiagodelaFuenteFernndez
25
AnlisisComponentesPrincipales
Sepuedeespecificarqueelanlisisseapliqueaunamatrizdecorrelacionesoaunamatrizde covarianzas.Sepuedeseleccionarapriorielnmerodefactoresquesedeseaextraer,oespecificar algunacondicingenricaquepermita extraersloaquellosqueverifiquenuna determinadacondicin(usualmenteseeligen aquellosfactorescuyosautovaloressean superioresalaunidad). Sepuedemostrarlasolucinfactorialsin rotar,ascomoelgrficodesedimentacin (criteriogrficoparalaposteriordecisindel nmerodefactoresaextraer).
SantiagodelaFuenteFernndez
26
AnlisisComponentesPrincipales
APLICACINPRCTICADELANLISISACPCONSPSS_______________________________________ Comoejemplo,conelficherodedatosComarcasdeGuadalajara(Guadalajara.sav).Lasvariablesque seincluyenenelanlisis: Loquesignificacadaunadelasvariablesson: Agri:porcentajedelapoblacinquetrabajaenelsectoragrcola. Asal:Porcentajedelapoblacinasalariada. Cons:Porcentajedelapoblacinquetrabajaenelsectorconstruccin. Emp:Porcentajedelapoblacinqueposeesupropiaempresa. Ind:Porcentajedelapoblacinquetrabajaenelsectorindustrial. M16a:Porcentajedelapoblacinde16aosomenos. M65a:Porcentajedelapoblacinde65aosoms. Serv:Porcentajedelapoblacinquetrabajaenelsectorservicios. Tactiv:Tasadepoblacinactiva.
SantiagodelaFuenteFernndez
27
AnlisisComponentesPrincipales
SantiagodelaFuenteFernndez
28
AnlisisComponentesPrincipales
Entrelasdosprimerascomponentesextradasseacumulael93,323%delavariabilidaddelasvariables originales.
SantiagodelaFuenteFernndez
29
AnlisisComponentesPrincipales
ElGrficodeSaturaciones(grficodecomponentes principales)visualizalarepresentacingrficadela matrizdecomponentesanalizados. Delarepresentacinseextraelaexplicacindelos factoressubyacentes,demaneraque: Elprimerfactoresunfactordetipoeconmico demogrfico,queseoponealasvariablesAgri,Cons, EmpyM65aalresto. Elsegundofactoresunfactordetipoocupacional, yseparalossectoresenlosquetrabajalapoblacin.
SantiagodelaFuenteFernndez
30