Académique Documents
Professionnel Documents
Culture Documents
LauradelaFuenteCrespo
CONCEPTO DEL ANLISIS DISCRIMINANTE
El Anlisis Discriminante es una tcnica estadstica que se utiliza para clasificar a distintos
individuos en grupos, o poblaciones, alternativos a partir de los valores de un conjunto de
variables sobre los individuos a los que se pretende clasificar. Cada individuo puede
pertenecer a un solo grupo.
Las variables que se utilizan para realizar la clasificacin de los individuos se denominan
variables clasificadoras, Tambin se emplean las denominaciones de variables criterio o
variables predictoras, o la denominacin genrica de variables explicativas.
ANLISIS: El anlisis parte de una tabla de datos de n individuos en que se han medido p
variables cuantitativas independientes o explicativas, como perfil de cada uno de ellos.
Una variable cualitativa adicional (dependiente o clasificadora) con dos (o ms) categoras,
ha definido por otros medios el grupo a que cada individuo pertenece.
1
CLASIFICACIN CON DOS GRUPOS
Se trata de estudiar la aplicacin del anlisis discriminante a la clasificacin de individuos,
en el supuesto de que dichos individuos se puedan asignar solamente a dos grupos a partir
de k variables clasificadoras. El problema fue resuelto por Fisher analticamente mediante
su funcin discriminante.
D = u1 X1 + u2 X 2 + + uk Xk
La matriz X'X es una matriz simtrica expresada en desviaciones respecto a la media, por
lo que puede considerarse como la matriz T de suma de cuadrados (SCPC) total de las
variables (explicativas) de la matriz X.
X'X = T = F + V
2
Fisher en 1936 obtuvo los ui maximizando la razn de la variabilidad entre-grupos respecto
de la variacin intra-grupos.
Con este criterio se trata de determinar el eje discriminante de forma que las distribuciones
proyectadas sobre el mismo estn lo ms separadas posible entre s (mayor variabilidad
entre-grupos) y, al mismo tiempo, que cada una de las distribuciones est lo menos
dispersa (menor variabilidad intra-grupos).
u'Fu
maximizar =
u' W u
2Fu(u' W u) 2 W u(u'Fu)
0 2Fu(u' W u) 2 W u(u'Fu) 0
u (u' W u)2
2Fu u'Fu
Fu W u W -1 Fu = u
2Wu u' W u
Dado que es la ratio a maximizar, cuando se calcule medir el poder discriminante del
primer eje discriminante. Como se est realizando un anlisis discriminante con dos
grupos, no se necesitan ms ejes discriminantes.
El resto de los ejes discriminantes vendrn dados por los vectores propios asociados a los
valores propios de la matriz W -1 F ordenados de mayor a menor. As, el segundo eje
discriminante tendr menos poder discriminante que el primero, pero ms que cualquiera
de los restantes.
3
Las puntuaciones discriminantes son pues los valore que se obtienen al dar valores a
X1, X2 , , Xk en la ecuacin:
D = u1 X1 + u2 X2 + + uk Xk
Los centros de gravedad o centroides (vector de medias) son los estadsticos bsicos
que resumen la informacin sobre los grupos.
Los centroides de los Grupos I y II sern:
X1, I X1, II
X2, I X2, II
xI x II
Xk, I Xk, II
DI DII
El punto de corte discriminante C es: C
2
D - C = u1 X1 + u2 X2 + + uk Xk C
Existe una forma alternativa que consiste en construir funciones discriminantes para cada
grupo. Estas funciones, a las que se denominan FI y FII tienen la siguiente estructura:
4
Cuando se utilizan estas funciones, se clasifica un individuo en el grupo para el que la
funcin Fi sea mayor. Este tipo de funciones clasificadoras tienen la ventaja de que se
generalizan fcilmente al caso de que existan ms de dos grupos y vienen recogidas en la
mayora del software estadstico.
Haciendo:
u1 X1 + u2 X2 + + uk Xk - C = D - C
Existen otros criterios de clasificacin, entre los que destacan el anlisis de la regresin y la
distancia de Mahalanobis.
2
DMi,j = (xi - x j )' Vw-1 (xi - x j )
Con el criterio de la distancia de Mahalanobis se calculan para el punto i, las dos distancias
siguientes:
5
DMi,2 I = (xi - x I )' Vw-1 (xi - x I )
DM2 = (x - x )' V -1 (x - x )
i, II i II w i II
La aplicacin de este criterio consiste en asignar cada individuo al grupo para el que la
distancia de Mahalanobis es menor.
Para aclarar las posibilidades de aplicacin del anlisis discriminante, con los conceptos
expuestos hasta el momento, se presenta un caso relativo al rea financiera.
Cuandoelbancoconcedeunprstamopersonalaunclienteseenfrentaalaposibilidaddequesea
reintegradoodequenolosea.Encasodenoserreintegradoserclasificadocomofallido.Enesta
lnea,sepuedenconsiderardosgruposdeclientes:cumplidoresyfallidos.
Comoesevidente,sielbancoconocieradeantemanoqueunapersonavaaresultarfallidanole
concederaelprstamo.Noobstante,puedeutilizarlainformacinexistenteenelbancosobre
prstamosconcedidosenelpasadoenlaconcesindeprstamosfuturosdeformaqueseeviteo,
almenossereduzcalaconcesindeprstamosquedespuspuedanresultarfallidos.
Generalmente,enlosarchivosdelbancoexisteinformacindelascaractersticasdelaspersonasa
lasquesehaconcedidounprstamo,yaqueelcliente,cuandorealizaunasolicituddeprstamo,
debefacilitarinformacinacercadeingresos,edad,sexo,situacinfamiliar,antigedadenelpuesto
detrabajo,rgimendetenenciadelavivienda,etc.
Esmuyprobablequelosclientescumplidorestenganunascaractersticasdistintasdelosclientes
fallidos.Utilizandoestascaractersticas,setratadeestablecerunasfuncionesqueclasifiquenloms
correctamenteposiblealosclientesalosqueseleshaconcedidounprstamoencumplidoresy
fallidos(finalidadexplicativa).Posteriormente,estasfuncionesseemplearn,enelcasodequela
clasificacinseaadecuada,paradeterminarsiseconcedenonolosprstamosafuturossolicitantes
(finalidadpredictiva).
ElBancodeFuenterrebollotieneinformacinacercade16clientesalosqueselesconcediun
prstamoporunimportede100.000eurosacadaunodelosclientes.Pasados5aosdesdela
concesindelosprstamos,el50%delosclientesfueronclasificadoscomofallidospornohaber
reintegradosuprstamo.Enelmomentodelasolicitud,elBancodisponadelainformacinque
muestralatablaadjunta(en10.000euros).
Enlaactualidad,eldirectordelbancotieneotrasdosnuevassolicitudes.Elprimersolicitante
disponedeunpatrimonionetode10,1(endiezmileuros)conunasdeudaspendientesde6,8(en
diezmileuros).Paraelsegundosolicitantelosvaloresdeestasvariablesson9,7enpatrimonioneto
y2,2endeudaspendientes.Cmodeberreaccionareldirectordelbanco,conlainformacinque
tienerecogida?
Eldirectorconlainformacinrecogidasobrelasvariablespatrimonionetoydeudaspendientes
tratadeconstruirunafuncindiscriminantequeclasifiqueconlosmenoserroresposiblesalos
clientesendosgrupos(fallidosynofallidos).
6
Siobtienebuenosresultadosenestaclasificacin,enunpasoposteriorutilizarlafuncin
discriminanteparadeterminarsiconcedelosprstamos.
Fallidos NoFallidos
Patrimonio Deuda Patrimonio Deuda
Cliente Cliente
neto pendiente neto pendiente
1 1,3 4,1 9 5,2 1,0
2 3,7 6,9 10 9,8 4,2
3 5,0 3 11 9,0 4,8
4 5,9 6,5 12 12,0 2,0
5 7,1 5,4 13 6,3 5,2
6 4,0 2,7 14 8,7 1,1
7 7,9 7,6 15 11,1 4,1
8 5,1 3,8 16 9,9 1,6
Total 40 40 Total 72 24
Media 5 5 Media 9 3
Utiizandoelpatrimonionetodelosclientescomovariableclasificadora,denominndola X1 .El
grupodeclientesfallidos (I ) ,mientrasqueelgrupodeclientesnofallidos (II ) .
X1,I X1,II 59
Elpuntodeinterseccindelasdosfunciones: C1 7
2 2
Elpuntodecorte C1 seutilizarparaclasificaralosclientesqueseleshaconcedidoelprstamo.Si
elpatrimonionetoesmenorque7(endiezmileuros)seclasificaalclientecomofallido (I ) ,
mientrasqueseclasificacomonofallido (II ) sielpatrimonionetoesmayorqueesacifra.
Conestecriterio,sereflejaelporcentajedeclasificacionescorrectaseincorrectasencadagrupo.
ClasificacinporPatrimonioneto
Situacinreal Fallidos NoFallidos Total
Fallidos 6(75%) 2(25%) 8(100%)
NoFallidos 2(25%) 6(75%) 8(100%)
Deltotalde16clientessehaclasificadocorrectamentea12,loqueequivaleaun75%deltotal.En
concreto,sehaclasificadoincorrectamentecomofallidosalosclientes5y7.Porelcontrario,se
hanclasificadoerrneamentecomonofallidosalosclientes9y13.
Seutilizalavariabledeudaspendientescomovariableclasificadora,alaquesedesignapor X 2 ,
paraversiseobtienenonomejoresresultadosquecon X1
X2,I X2,II 53
Elpuntodeinterseccindelasdosfunciones: C2 4
2 2
7
Silasdeudaspendientessonmayoresque4(endiezmileuros)seclasificaalclientecomo
fallido (I ) ,mientrasqueseclasificacomonofallido (II ) silasdeudaspendientessonmenoresque
esacifra.
ClasificacinporDeudaspendientes
Situacinreal Fallidos NoFallidos Total
Fallidos 5 (62,5%) 3 (37,5%) 8(100%)
NoFallidos 4 (50%) 4 (50%) 8(100%)
Deltotalde16clientessehaclasificadocorrectamentea9,loqueequivaleaun56,25%deltotal.
Enconcreto,sehaclasificadoincorrectamentecomofallidosalosclientes3,6y8.Porelcontrario,
sehanclasificadoerrneamentecomonofallidosalosclientes10,11,13y15.
Losresultadosobtenidosconestasegundavariableclasificadorasonpeores,yaqueseclasifican
correctamenteal56,25%delosclientes.
Sehanutilizadolasdosvariablesclasificadorasdeformaseparada.Cabepreguntarsesisepuede
mejorarelporcentajedeclientesclasificadoscorrectamentesiseutilizanlasdosvariables
clasificadorasdeformaconjunta.
ParacalcularlafuncindiscriminantedeFisherseutilizanlasvariablesexplicativaspatrimonioneto
ydeudaspendientes.Loscentrosdegravedadocentroidesdelosdosgruposson:
X1, I 5 X1, II 9
x I x II
X2, I 5 X2, II 3
LafuncindeclasificacinlinealqueseobtieneaplicandoelmtododeFisher:
D 1,036 x X1 0,932 x X2
ProcediendodeformaanlogaenelgrupoII,seobtiene:
LafuncindiscriminantedeFisheres:
EnelsiguientecuadrosehaaplicadolafuncindiscriminanteacadaunodelosclientesdelBanco
Fuenterrebollo.Lapuntuacinobtenidaporcadaclienteapareceenlapenltimacolumna.Todos
losclientesqueobtenganpuntuacinnegativasonasignadosalgrupoI,mientrasquelosquetienen
puntuacinpositivaseasignanalgrupoII.
8
Sustituyendolosvaloresdepatrimonionetoydeudaspendientesseobtienenlosvaloresdelatabla:
Resultadosdelaclasificacin
Grupodepertenencia
Total
pronosticado
Fallido I II
OriginalRecuento1 8 0 8
2 1 7 8
%1 100 0 100
2 12,5(1/8) 87,5(7/8) 100
Clasificadoscorrectamenteel93,8%(15/16)deloscasosagrupadosoriginales
Comparandoelgruporealdepertenenciayelgrupoasignadoseobservaquesolamenteelcliente
13estmalclasificado.
ConlasdosnuevassolicitudesquetienequeanalizareldirectordelBanco:
1solicitante: D C = 1,036 x X1 0,932 x X2 3,524 = 1,036 x 10,1 0,932 x 6,8 3,524 = 0,602
2solicitante: D C = 1,036 x X1 0,932 x X2 3,524 = 1,036 x 9,7 0,932 x 2,2 3,524 = 4,4748
Comolaclasificacinespositivaenamboscasos,seclasificanlosdossolicitantesenelgrupodelos
nofallidos,denotandoqueelsegundosolicitantetieneunapuntuacindiscriminantemuchoms
elevada.
9
Pararealizarelanlisisdiscriminante,seeligeAnalizar/Clasificar/Discriminante
ComovariabledeagrupacinseeligealavariabledependientePrstamo.EnelbotnDefinirrango
esnecesarioespecificarculessonlosvaloresMnimoyMximodeestavariable.Seintroduce
Mnimo:1yMximo:2.
Lasotrasdosvariables:X1=Patrimonio_NetoyX2=Deuda_Pendiente,seeligencomovariables
independientes,cuyosvaloresseutilizanparaconstruirlafuncindiscriminante.
SPSSofreceactivadoslosbotones:Estadsticos,ClasificaryGuardar.ElbotnMtodosloseactiva
sipreviamentesehaelegidoIntroducirlasvariablesconunMtodoporpasos.
EnlasalidadelVisoraparecenloscoeficientesdelafuncindeclasificacindeFisher:
conloquerestandoaloscoeficientesdelasegundacolumna(NoFallidos)losdelaprimera
columna(Fallidos)seobtienenloscoeficientesdelafuncin D C .
10
Aparecenotrosestadsticosdecarcterdescriptivosrelacionadosconlafuncindiscriminante.
Coeficientesdelasfuncionescannicasdiscriminantesnotipificados
Loscoeficientesdeestafuncinsonestrictamenteproporcionalesaloscoeficientesdelafuncin
discriminante (u1 = 1,036 , u2 = 0,932) .Elfactordeproporcionalidades0,4074.Estoscoeficientes
noestandarizadosseobtienenutilizandolaregladenormalizacin u' W u
Aspues,lanormaeslavariacinintragrupos.
Enlamatrizdelaestructurasepuedeconocerculessonlasvariablesquetienenmayorpoder
discriminanteenordenaclasificaraunindividuoenunodelosgrupos.
Unaformademediresepoderdiscriminanteescalculandoelcoeficientedecorrelacinentrecada
unadelasvariablesylafuncindiscriminante.Lascomparacionesdebenrealizarsesiempre
tomandolascorrelacionesenvalorabsoluto.
LacorrelacindelafuncindiscriminanteconlavariablePatrimonio_Neto(0,748)esmayorenvalor
absolutoqueconlavariableDeuda_Pendiente(0,452).
Elcuadromuestraloscoeficientesestandarizadosdelasfuncionesdiscriminantescannicas.
11
Estoscoeficientesseobtienencuandosetipificancadaunadelasvariablesclasificadoras,paraque
tenganmedia0ydesviacintpica1.Deestaformaseevitanlosproblemasdeescalaquepudieran
existirentrelasvariables.
Lamagnituddeloscoeficientesestandarizadosesunindicadordelaimportanciaquetienecada
variableenelclculodelafuncindiscriminante.
AslavariablePatrimonio_Netotieneunainfluenciamuchomayorquelavariable
Deuda_Pendiente,asun35%superior.
PulsandoelbotnGuardar...
ElGrupodepertenenciapronosticadocreaunavariablecategricaconcdigos1,2,...,queindican
elgrupoenquehasidoclasificadocadacaso(grupopronosticado).
LasPuntuacionesdiscriminantescreatantasvariablescomofuncionesdiscriminantessehayan
estimado.Cadavariablecontienelaspuntuacionesdiscriminantesdecadafuncin.Lasvariablesse
creanenelordenenquehansidoextradaslasfunciones,esdecir,enelordendefinidoporel
tamaodelosautovalores.Laspuntuacionesdiscriminantesnosevenafectadasporlasselecciones
realizadasenelprocesodeclasificacin.
EnelcasodelBancodeFuenterrebolloenelEditoraparecelavariablecategricaDis_1
concdigo(1,2)indicandoelgrupoenquehasidoasignadoelcliente.AscomolavariableDis1_1
conlaspuntuacionesdiscriminantesdelafuncinDis_1.
12
LaspuntuacionesdiscriminantesDis1_1seexpresanatendiendoaloscoeficientesnotipificadosde
lasfuncionescannicasdiscriminantes: u1 = 0,422 , u2 = 0,380 , C 1,437
ConlasdosnuevassolicitudesquetienequeanalizareldirectordelBanco:
1solicitante: D C = 0,422 x X1 0,380 x X2 1,437 = 0,422 x 10,1 0,380 x 6,8 1,437 = 0,2451
2solicitante: D C = 0,422 x X1 0,380 x X2 1,437 = 0,422 x 9,7 0,380 x 2,2 1,437 = 1,8251
Comolaclasificacinespositivaenamboscasos,seclasificanlosdossolicitantesenelgrupodelos
nofallidos,denotandoqueelsegundosolicitantetieneunapuntuacindiscriminantemuchoms
elevada.
Bajo las hiptesis sealadas, la funcin discriminante obtenida por Fisher es ptima. No
obstante, la hiptesis de que las variables clasificadoras sigan una distribucin normal no
sera razonable para variables categricas (utilizadas frecuentemente en el anlisis
discriminante como variables clasificadoras). Conviene sealar que, cuando se utilizan
13
variables de este tipo, la funcin discriminante lineal de Fisher no tiene el carcter de
ptima.
H : 2
La hiptesis nula y alternativa para dar respuesta a la cuestin (c) son: 0 1
H1: 1 2
u'Fu
donde es precisamente el valor de la ratio que se obtiene al maximizar =
u' W u
14
COMPARACIN DE GRUPOS
A parir de las pruebas de Box y Lambda se puede aplicar el anlisis discriminante al
conjunto de datos, ya que hay diferencias entre cada grupo.
La Prueba de Lambda de Wilks compara las varianzas entre s, mientas que la Prueba
de Box compara la igualdad de las covarianzas.
15
AnlisisdeprstamosfallidosenelBancoFuenterrebollo
Contrastesdesignificacin
SeseleccionaUsarmtododeinclusinporpasos,conloqueseactivaelbotnMtodo...
PulsandoelbotnEstadsticos...
Seabreuncuadrodivididoentresgrandes
reas:Descriptivos,Coeficientesdelafunciny
Matrices.
DESCRIPTIVOS:
Medias:Proporcionaelvectordemedias(loscentroides)ydesviacionestpicasdecadavariable
paracadagrupo.
UnivarianteANOVA:Contrastaigualdaddemediasentrelosgruposparacadavariable.
MdeBox:Contrastalahiptesisnuladequelasmatricesdevarianzascovarianzaspoblacionales
sonigualesenlosdistintosgrupos.
COEFICIENTESDELAFUNCIN:
DeFisher:CoeficientesdelafuncindeclasificacinbajoNormalidad
Notipificados:CoeficientesdelafuncindiscriminantecannicadeFisher'centrados'
16
MATRICES:
Covarianzadegruposseparados:Proporcionalamatrizdevarianzasycovarianzasdecadagrupo,
esdecir,lasmatricesS1yS2,donde:
nk nk
X(k)i1 X1(k) X X1(k) X(k)
i2 X2
2 (k) (k)
i1
i=1 i=1 k = 1,2
Sk = nk nk
i=1
X(k)i1 X1(k) X(k)i2 X2(k) i=1
i2 2
X (k)
X (k) 2
Covarianzaintragrupos:Proporcionalamatrizdevarianzasycovarianzas'combinada',obtenida
comomediaponderadadelasdosanteriores,esdecir:
CovarianzaTotal:Proporcionalamatrizdevarianzasycovarianzasde(X1,X2)paratodoslos
n1+n2=16individuosdelapoblacin,sindistincindegrupo.
COMPROBACINSUPUESTOSPARAMTRICOS:Lafuncindiscriminanteminimizalaprobabilidad
deequivocarsealclasificaralosindividuosencadagrupo.Paraello,lasvariablesoriginalessedeben
distribuircomounanormalmultivarianteylasmatricesdecovarianzasdebendeserigualesen
todoslosgrupos.Enlaprcticaesunatcnicarobustayfuncionabienaunquelasdosrestricciones
anterioresnoseverifiquen.
Siunconjuntodevariablessedistribuyecomounanormalmultivariante,entoncescualquier
combinacinlinealdeellassedistribuyecomounanormalmultivariante.Porello,sialgunadelas
variablesoriginalesnosedistribuyecomounanormal,entoncesesseguroquetodaslasvariables
conjuntamentenosedistribuirncomounanormalmultivariante.
Lasegundarestriccinseocupadelaigualdadentrelasmatricesdecovarianzasdelosgrupos.Para
comprobaresto,sepuedeutilizarlaPruebaMdeBox,quetienecomohiptesisnulaquelas
matricesdecovarianzassoniguales.Sebasaenelclculodelosdeterminantesdelasmatricesde
covarianzasdecadagrupo.ElvalorobtenidoseaproximaporunaFdeSnedecor.Sielp_valor<0,05
serechazalaigualdadentrelasmatricesdecovarianzas.
EltestdeMdeBoxessensiblealafaltadenormalidadmultivariante,esdecir,matricesiguales
puedenaparecercomosignificativamentediferentessinoexistenormalidad.Porotraparte,silas
muestrassongrandes,pierdeefectividad(esmsfcilrechazarlahiptesisnula).
PulsandoelbotnMtodo...
17
Lambda()deWilks:Estadsticoquemideelpoderdiscriminantedeunconjuntodevariables
V V 1
= = = min(q1, p) (01)
T V +F
i=1
(1 + I )
Cuantomscercade0mayoreselpoderdiscriminantedelasvariablesconsideradas,ycuanto
mscercade1menoreselpoderdiscriminante.
Estadsticosasociados:FdeRao;2deBarlett(testssobrelasdiferenciasdemediasenambos
grupos)
i
Laisimacorrelacincannicavienedadapor: CRi = mide,entrminosrelativos,elpoder
1 + i
discriminantedelaisimafuncindiscriminante,yaqueeselporcentajedelavariacintotalen
dichafuncinqueesexplicadaporladiferenciaentrelosgrupos, 0 CRi 1 ,cuantomscercade1
estsuvalor,mayoreslapotenciadiscriminantedelaisimafuncindiscriminante.
PulsandoelbotnClasificar...
UnaopcininteresanteesladeReemplazarlosvaloresperdidosconlamedia.Enmsdeuna
investigacin,poralgnmotivoenlabasededatoshayvaloresperdidos,yparaqueestosno
afectenlosresultadosfinales,existestaopcindereemplazo,queserecomiendautilizar.
GRFICOS:
Gruposcombinados:Representalaspuntuacionesdiscriminantesovaloresdela(s)funcion(es)
discriminante(s),paralos16individuosdelamuestra(8decadagrupo)todosjuntosenungrfico,
juntoconsuscentroides.Comoslohayunafuncindiscriminanteestegrficonosehace(sise
selecciona,luegonoaparece).
Gruposseparados:Representaungrficocomoelanteriorperoparacadagrupo.Enestecaso,
representaraenelprimergrficonicamentelos8individuosdelgrupo1yenelsegundoslolos8
delgrupo2.
Mapaterritorial:Conunanicafuncindiscriminantenolohace.
18
ElVisorderesultadosdeSPSSmuestra:
Enloscontrastesdeigualdaddemediasseobservaqueenamboscasosserechazalahiptesisnula
alserp_valor<0,05,esdecir,losdosgruposenmediasondiferentes.
4,764 1,001
matrizintragruposcombinada:
1,001 3,259
LainformacindeestatabladeANOVAsunivariadossueleutilizarsecomopruebapreliminarpara
detectarsilosgruposdifierenenlasvariablesdeclasificacinseleccionadas.Sinembargo,hayque
considerarqueunavariablenosignificativaanivelunivariantepodraaportarinformacin
discriminativaanivelmultivariante.
Lasalidadelamatrizdecovarianzasproporciona:
Porotraparte,lamediaponderadade S1 y S2 debedecoincidirconlamatrizintragrupos
combinada,denominadaS.Esdecir,debeverificarseque:
4,764 1,001 (n1 1)S1 + (n2 1)S2 7 4,289 1,824 7 5,240 0,177
S= = = +
1,001 3,259 n1 + n2 2 14 1,824 3,474 14 0,177 3,043
19
AparecedespuslaPruebadeBoxparaelcontrastedelahiptesisnuladeigualdaddelasmatrices
devarianzascovarianzaspoblacionales.Unodelossupuestosdelanlisisdiscriminanteesquetodos
losgruposprocedendelamismapoblaciny,msconcretamente,quelasmatricesde
varianzascovarianzaspoblacionalescorrespondientesacadagruposonigualesentres.
DondeSeslamatrizdevarianzascovarianzascombinada, S j eslamatrizdevarianzascovarianzas
delgrupojsimo,neselnmerototaldecasosygelnmerodegrupos.
ElestadsticoMcarecededistribucinmuestralconocida,peropuedetransformarseenun
estadsticoFeinterpretarsecomotal(muchosinvestigadorescriticanesteestadsticoporser
demasiadosensibleapequeasdesviacionesdelanormalidadmultivarianteyatamaos
muestralesgrandes,tendiendoaserconservador).
Seobservaquelaprimeratablaofreceloslogaritmosdelosdeterminantesdetodaslasmatrices
utilizadasenelclculodelestadsticoM.Dadoqueelestadsticoesmultivariante,latablapermite
comprobarqugrupos(cuandohaymsdedos)difierenms.
ResultadosdelapruebaofrecelapruebaMdeBoxysutransformacinenunestadsticoF.
Elresultadodelapruebahacequenoserechacelaigualdaddematricesdevarianzascovarianzas,
dadoque Sig=0,849> 0,05 ,concluyendoquelosdosgrupostienenlamismamatrizde
varianzascovarianzas(nohayungrupomsvariablequeotro).Serechazalahiptesisnula
H0 : 1 2 conunSig.(pvalor)pequeo.
Acontinuacinaparecenlosresultadosdelanlisisdiscriminante(estadsticosporpasos):
Lasvariablessonintroducidas/eliminadasdelmodeloenlamedidaenquetenganasociadoun
menorvalordelestadsticodeWilks.
20
ElestadsticoLambda()deWilksmideelpoderdiscriminantedeunconjuntodevariables,
cuantomscercade0mayoreselpoderdiscriminantedelasvariablesconsideradas,ycuanto
mscercade1menoreselpoderdiscriminante.
EnelResumendelasfuncionescannicasdiscriminantes,apareceenprimerlugarelttulode
autovaloresconinformacinrelativaalcontrastedesignificacinglobaldeigualdaddemediasya
lamedidadelabondaddelajuste.
Elautovalordeunafuncinseinterpretacomolapartedevariabilidadtotaldelanubedepuntos
proyectadasobreelconjuntodetodaslasfuncionesatribuiblealafuncin.Sisuvaloresgrande,la
funcindiscriminarmucho.
1,716
Lacorrelacincannica = = = 0,795
1+ 1 + 1,716
21
Lascorrelacionescannicas,midenlasdesviacionesdelaspuntuacionesdiscriminantesentregrupos
respectoalasdesviacionestotalessindistinguirgrupos.Sisuvaloresgrande(prximoa1)la
dispersinserdebidaalasdiferenciasentregrupos,yenconsecuencia,lafuncindiscriminar
mucho.
Acontinuacinapareceelestadstico (Lambda)deWilksyelcontrasterealizadoapartirdel
mismo.Elestadstico serefierealafuncindiscriminante.
Comosetratadeunasolavariable,secalculacomococientededosescalares.Elresultadoobtenido
SCRD
eselsiguiente: = = 0,368
SCTD
Elestadstico eselcocienteentrelasumadecuadradosdentrodelosgruposylasumade
cuadradostotal(sindistinguirgrupos).Estoequivalealasdesviacionesalamediadentrodecada
grupoentrelasdesviacionesalamediatotalsindistinguirgrupos.
1 1
Tambinsepuedeobtenerapartirdelarelacin: = = = 0,368
1 + 1 + 1,716
Cuantomscercade0seencuentre mayoreselpoderdiscriminantedelasvariables
consideradas,ycuantomscercade1menoreselpoderdiscriminante.
Loscoeficientesestandarizadosdelasfuncionesdiscriminantescannicasseobtienencuandose
tipificancadaunadelasvariablesclasificadoras,paraquetenganmedia0ydesviacintpica1.De
estaformaseevitanlosproblemasdeescalaquepudieranexistirentrelasvariables.
Lamagnituddeloscoeficientesestandarizadosesunindicadordelaimportanciaquetienecada
variableenelclculodelafuncindiscriminante.AslavariablePatrimonio_Netotieneuna
influenciamuchomayorquelavariableDeuda_Pendiente,asun35%superior.
22
Unaformademedirquevariablestienenmayor
poderdiscriminante,paraclasificaraunindividuo
enunodelosgrupos(fallidos,cumplidores),es
calcularelcoeficientedecorrelacinentrecada
unadelasvariablesylafuncindiscriminante.
LacorrelacindelafuncindiscriminanteconlavariablePatrimonio_Neto(0,748)esmayorenvalor
absolutoqueconlavariableDeuda_Pendiente(0,452).Lascomparacionesdebenhacersesiempre
envalorabsoluto.EnelprogramaSPSSlasvariablesaparecenordenadasdeacuerdoconelvalor
absolutodeloscoeficientesdecorrelacin.
Loscoeficientesdelasfuncionescannicasdiscriminantessonestrictamenteproporcionalesalos
coeficientesdelafuncindiscriminantelinealdeFisher(D C) : u1 = 1,036 , u2 = 0,932 , C = 3,524
Elfactordeproporcionalidades0,4074,estoes,cadacoeficienteesiguala0,4074multiplicadopor
elcoeficientedelafuncindiscriminantelinealdeFisher.Estoscoeficientesnoestandarizadosse
obtienenutilizandolaregladenormalizacin u' W u ,normadeldenominador:
Aspues,lanormaeslavariacinintragrupos.
SiseguardanlasPuntuacionesdiscriminatesaparececomovariableDis1_1enelEditordedatos
RecordarqueloscoeficientesdiscriminanteslinealesdeFisherseobtenanrestandoalos
coeficientesdeNoFallidosloscoeficientesdeFallidos.
23
SELECCIN DE VARIABLES
En las aplicaciones de anlisis discriminante se dispone frecuentemente de observaciones
de un nmero relativamente elevado de puntuaciones discriminantes.
Aunque hasta ahora se ha considerado que se conocen a priori cules son las variables
clasificadoras, en la prctica, cuando el nmero de variables es elevado, se impone aplicar
un mtodo que permita clasificar las variables con ms capacidad discriminante entre un
conjunto de variables ms amplio.
Para realizar este tipo de clculos se suelen asumir las hiptesis x g N( g , ) siendo
matriz covarianzas , pero considerando que se conocen los parmetros poblacionales.
24
Considerando el caso general de G grupos, el teorema de Bayes, establece que la
probabilidad a posteriori de pertenencia a un grupo g con una puntuacin discriminante
D Prob(g / D) es:
g x Prob(D / g)
Prob(g / D) G
x Prob(D / i)
i1
i
Dado que el denominador del segundo miembro del cociente es una constante, se utiliza de
forma equivalente la expresin:
As, se asignar un individuo al grupo para el cual sea mayor su probabilidad a posteriori.
Aunque a partir de ahora solamente se tratar el caso de 2 grupos, se presenta el clculo
de probabilidades de forma que sea fcilmente generalizada para G grupos.
FI aI ,1 X1 aI ,2 X2 aI ,k Xk CI
F a X a X a X C
II II ,1 1 II ,2 2 II ,k k II
Un individuo se clasifica en el grupo para el que la probabilidad Prob(g / D) sea mayor. Este
criterio implica que un individuo se clasificar en el grupo I s FI FII .
Aplicando este criterio se llega a los mismos resultados que aplicando la funcin
discriminante de Fisher. Con lo que el punto de corte C que se haba definido:
25
DI DII
C es aplicable con este nuevo enfoque.
2
Con este criterio, un individuo se clasifica en el grupo I si: FI Ln( I ) FII Ln( II )
DI DII
El punto de corte discriminante: Cg Ln II
2 I
DI DII x Coste(I/II)
Cg,c Ln II
2 I x Coste(II/I)
26
En los desarrollos se ha supuesto que las probabilidades son conocidas. En la prctica se
utilizan estadsticos muestrales en su lugar, provocando que se subestime la probabilidad
de clasificacin errnea, produciendo sesgos sistemticos en la clasificacin. Para disminuir
estos sesgos se han propuesto, entre otros, dos procedimientos alternativos.
Dividir la muestra total en dos submuestras, utilizando la primera submuestra para
estimar la funcin discriminante, mientras que la segunda se utiliza para su validacin. As,
la potencia discriminante de la funcin vendr determinada por el porcentaje de individuos
clasificados correctamente en esta segunda submuestra.
Jacknife: consiste en excluir un individuo del grupo I, calcular la funcin discriminante, y
clasificar despus al individuo que se ha excluido. Haciendo lo mismo con el resto de los
individuos del grupo I, se estima la Prob(II/I) con el porcentaje de individuos que han sido
clasificados en el grupo II.
Procediendo de la misma forma con los individuos del grupo II, se estima la Prob(I/II)
AnlisisdeprstamosfallidosenelBancoFuenterrebollo
Clculodeprobabilidades
LasalidadelVisor:
LasProbabilidadesaprioridepertenenciaalosgrupossesuponeniguales(0,5)
EnlosCoeficientesdelafuncindeclasificacinsemuestranloscoeficientesdelasfuncionesde
clasificacinqueseobtendranbajoelsupuestodeNormalidadbivariantepara (X1 ,X2 ) enambas
poblaciones,utilizandoelcriteriodelamximaverosimilitudyprobabilidades(0,5) aprioriiguales.
27
Lasfuncionesdeclasificacinson:
ParaelgrupoI
1 ' 1
Lafuncindeclasificacinesdelaforma: DI xI' S 1 x xI S xI Ln (I )
2
X1, I 5 X1, II 9
Loscentrosdegravedadocentroidesdelosdosgrupos: xI = = xII
X2, I 5 X2, II 3
4,764 1,001
Matrizintragrupocombinada: S =
1,001 3,259
1 1
4,764 1,001 X1 1 4,764 1,001 5
FI 5 5 X 2 5 5 1,001 3,259 5 Ln(0,5)
1,001 3,259 2
ParaelgrupoII
1 ' 1
Lafuncindeclasificacinesdelaforma: DII xII' S 1 x xII S xII Ln (II )
2
1 1
4,764 1,001 X1 1 4,764 1,001 9
FII = 9 3 9 3 + Ln(0,5) =
1,001 3,259 X2 2 1,001 3,259 3
X X2
1
= 1,813 x Patrimonio_Neto + 0,364 x Deuda_Pendiente 9,396
Cadaindividuoserasignadoalgrupoenelqueobtengaunmayorvalordeestasfunciones.
LafuncindiscriminantedeFisher:D C FII FI
28
X X2
1
D C = (1,813 0,777) x Patrimonio_Neto + (0,364 1,296) x Deuda_Pendiente (9,396 5,876) =
Paracadacaso,semuestranlaspuntuacionesdiscriminantes,lasdistanciasdeMahalanobisde
dichaspuntuacionesalcentroidedecadagrupoylasprobabilidadesaposterioriobtenidasapartir
deesasdistancias.
Seobservaquelasprobabilidadesdepertenenciaalpropiogrupossonelevadasexceptoenel
clientecumplidor13,queseclasificaerrneamenteenelgrupodelosfallidosyqueporaadidura
tieneunaprobabilidadmuybajadepertenencia(0,1367)algrupodeloscumplidores.
29
Comosegundaaplicacin,serealizalaclasificacinincorporandoinformacinapriori.
Enestecaso,paraclasificaralosclientesseutilizaelpuntodecortediscriminante
D + DII
Cg = I Ln II ,estableciendoque I 0,1 y II 0,9
2 I
Pararealizarlaclasificacinconintroduccindeprobabilidadesapriorisevaautilizarla
informacindelafuncindiscriminantedeFisher D C = 1,036 x X1 0,932 x X2 3,524 ,
cambiandolaconstantepor Cg = 1,3268 ,conloque D C g = 1,036 x X1 0,932 x X2 1,3268
Losclientes3,5,6y8,queantesestabanclasificadoscomofallidos,seclasificanahoracomo
cumplidores,yaquesupuntuacinhapasadodenegativaapositiva.Lomismoocurreconelcliente
13,queanteriormenteestabaclasificadoerrneamentecomofallidosiendocumplidor.
Ahorasevaacalcularelpuntodecortediscriminanteteniendoencuentalainformacinapriori
eincorporandotambinloscostesdelaclasificacinerrnea.Seadoptaqueelcostedeclasificar
comocumplidoraunclientefallidoes20vecessuperiorqueelcostedeclasificarcomofallidoaun
clientecumplidor.
Esdecir,seestablecelaratio Coste(II / I) 20 x Coste(I / II)
DI DII x Coste(I/II)
Elpuntodecortediscriminante: Cg ,c Ln II
2 I x Coste(II/I)
30
DI DII x Coste(I/II) 0,52 6,528 0,9
Cg ,c Ln II Ln 4,3225
2 I x Coste(II/I) 2 0,1 x 20
Laincorporacindeloscosteshadeterminadoqueelnuevopuntodecortediscriminante
Cg ,c 4,3225 se encuentre situado a la derecha del punto C 3,524 , a diferencia de los que
ocurra cuando solamente se tenan en cuenta las probabilidades a priori Cg 1,3268
Pararealizarlaclasificacinconintroduccindeprobabilidadesaprioriyconsideracindecostesse
utilizalainformacindelafuncindiscriminantedeFisher D C = 1,036 x X1 0,932 x X2 3,524 ,
cambiandolaconstantepor Cg ,c 4,3225 ,conloque D C g ,c = 1,036 x X1 0,932 x X2 4,3225
Seobservaquenosealteralaclasificacindeningnclienterespectoalautilizacindelpuntode
cortediscriminanteinicialC.Esdecir,laincorporacindeloscostesdeclasificacinerrneaha
compensado,msomenos,lamenorprobabilidadapriorideserunclientefallido.
31
CLASIFICACIN CON MS DE DOS GRUPOS
Es un caso general del anlisis discriminante con G grupos ( G 2 ), denominado anlisis
discriminante mltiple, el nmero mximo de ejes discriminantes que se pueden obtener
viene dado por min(G 1, k) . En consecuencia, pueden obtenerse hasta G 1 ejes
discriminantes, s el nmero de variables explicativas k G 1, hecho que suele ser
siempre cierto, ya que en las aplicaciones prcticas el nmero de variables explicativas
suele ser grande.
Cada una de las funciones discriminantes Di se obtiene como funcin lineal de las k
variables explicativas X, es decir:
Para la obtencin del primer eje discriminante, al igual que en el caso de dos grupos, se
u ' F u1
maximiza 1 , siendo: 1 = 1
u1' W u1
2 Fu1 u ' F u1
1 1 Fu1 1 W u1 W 1 Fu1 1 u1
2 W u1 u1 ' W u1
Dado que 1 es la ratio a maximizar, cuando se calcule medir el poder discriminante del
primer eje discriminante. El resto de los ejes discriminantes son otros vectores
caractersticos de la matriz W -1 F , ordenados segn el orden decreciente de las races
caractersticas. As, el segundo eje discriminante tendr menos poder discriminante que el
primero, pero ms que cualquiera de los restantes.
32
Como la matriz W -1 F no es simtrica, los ejes discriminantes no sern en general
ortogonales, es decir, perpendiculares entre s.
Contrastes de significacin
En el anlisis discriminante mltiple se plantean contrastes especficos para determinar si
cada uno de los valores 1 es estadsticamente significativo, es decir, para determinar si
cada uno de los valores 1 contribuye o no a la discriminacin entre los diferentes grupos.
Este tipo de contrastes se realiza a partir del estadstico V de Barlett, estadstico que es
funcin de la de Wilks y se aproxima a una Chi-cuadrado, con inters en el anlisis
discriminante por su descomponibilidad. Su expresin es la siguiente:
V n 1
kG
2
Ln k2 (G1)
W
T
Para examinar el poder discriminante de cada uno de los ejes que contribuyen al anlisis
discriminante existe un estadstico de Barlett para la contrastacin secuencial, que se
elabora a partir de la descomposicin de Wilks, en productos en los que aparecen las
races caractersticas j .
De acuerdo con su definicin, el recproco de se puede expresar:
1 T -1
= = W T = W -1 T = W -1 (W + F) = I + W -1 F
W
Como el determinante de una matriz es igual al producto de sus valores propios, se tiene:
1
= (1+ 1 )(1+ 2 ) (1 G1 )
G1
kG k G
V n 1 Ln n 1 Ln(1 g ) k2 (G1)
2 2 g1
Una vez visto que el primer eje discriminante es significativo, se pasa a analizar la
significatividad del segundo eje discriminante a partir del estadstico:
33
G1
kG k G
V n 1 Ln n 1 Ln(1 g ) (k2 1)(G1)
2 2 g 2
G 1
kG k G
Vj n 1 Ln n 1 Ln(1 g ) (k2 j)(G j1) j = 0, 1, 2, , G - 2
2 2 g j1
En este proceso secuencial se van eliminando del estadstico V las races caractersticas
que van resultando significativas, deteniendo el proceso cuando se acepte la hiptesis nula
de no significatividad de los ejes discriminantes que queden por contrastar.
La primera componente C1 tiene asociado el mayor valor propio de la matriz inicial de datos
y que las sucesivas componentes C2 , , Cp tienen asociados los siguientes valores
propios en cuanta decreciente de su mdulo.
34
Para el anlisis discriminante de tres grupos las funciones discriminantes cannicas sern
las ecuaciones de las dos primeras componentes principales C1 y C2 , siendo su poder
discriminante los dos primeros valores propios de la matriz de datos.
De este modo, las componentes principales pueden considerarse como los sucesivos ejes
de discriminacin. Los coeficientes de la ecuacin de cada componente principal, es decir,
de cada eje discriminante, muestran el peso que cada variable aporta a la discriminacin.
Sealar que estos coeficientes estn afectados por las escalas de medida, lo que indica
que todas las variables deben presentar unidades parecidas, lo que se consigue
estandarizando las variables iniciales antes de calcular las componentes principales.
ConcesindeprstamosdelBancoFuenterrebollo
EldirectordelBancodeFuenterrebollosepreocupaporelaumentodeclientesmorososyfallidos.
Conelobjetodepaliaresteproblema,encargaunestudioquepermitaidentificarconlamayor
precisinlassolicitudesdeprstamosquepuedanllegaraconvertirseenprstamosmorososo
fallidos,encasodequeseconcedieran.
DespusdeanalizarladocumentacinexistenteenelBanco,elinvestigadorsolamentepuede
conseguirinformacincompletaacercade25clientesalosquesehanconcedidoprstamosenlos
dosltimosaos.
Elestudioqueseplanteaelinvestigadoresconstruirfuncionesdiscriminantesquepermitan
clasificar,conlosmenoserroresposibles,alosclientesendiferentesgrupos.Siseobtienenbuenos
resultados,estasfuncionesdiscriminantessepodrnutilizarparaanalizarsiseconcedeun
prstamoonoaunfuturosolicitante.
Elinvestigadorconstruyelatablaadjuntaconlossiguientescdigos:
Categora:Gradodecumplimientodelclienteenelreintegrodelprstamo.
Tomalosvalores:1="Clientecumplidor"2="Clientemoroso"3="Clientefallido"
Ingresos:Ingresosanualesnetosenmilesdeeuros.
Patrimonio:Patrimonionetoenmilesdeeuros.
Vivienda:Variabledicotmicaquetomalosvalores:0="NoPropietario"1="Propietario"
Casado:Variabledicotmicaquetomalosvalores:0="Otrasituacin"1="Casado"
Contrato_trabajo:Variabledicotmicaconvalores:0="Otrasituacin"1="Contratofijo"
35
Cliente Categora Ingresos Patrimonio Vivienda Casado Contratotrabajo
1 1 32,7 336 1 1 0
2 1 18,6 204 1 0 1
3 1 24,6 138 0 1 1
4 1 37,2 270 1 0 1
5 1 23,7 114 1 1 1
6 1 7,5 132 1 1 1
7 1 29,4 90 0 1 1
8 1 53,4 228 1 1 1
9 1 20,1 324 0 1 1
10 1 31,2 480 1 1 0
11 1 17,1 108 1 1 1
12 1 39 132 1 1 1
13 1 45,6 216 1 1 1
14 2 26,1 234 1 1 0
15 2 8,1 48 0 1 1
16 2 12,6 114 0 0 1
17 2 8,7 150 1 0 1
18 2 38,4 24 0 1 1
19 2 22,8 114 1 1 0
20 2 14,7 60 0 1 1
21 3 19,8 42 0 1 0
22 3 5,1 72 0 1 0
23 3 7,2 30 1 1 1
24 3 11,1 36 1 0 0
25 3 15,9 150 0 0 0
EnlasalidadelVisor:
36
Lasmediasdelascincovariablesintroducidascomoindependientesenelanlisissonmayoresenla
categoradecumplidoresqueenlasotrascategoras.
As,losclientescumplidores,enrelacinconlosotrosdosgrupos(morosos,fallidos),tienen
mayoresingresos,unmayorpatrimonio,sonpropietariosdelaviviendaquehabitan,estncasados
ysonasalariadosconcontratofijo.
Aparecelatabladellogaritmodeldeterminantedelasmatricesdecovarianzasdelosresiduosde
V
cadacelda,calculadassegnlaexpresin Sg = g
ng 1
Lamatriz S g esunaestimacindelamatrizdecovarianzascorrespondientealaceldagsima g
37
G G
g=1
Vg (n 1)S
g=1
g g
Lamatrizdecovarianzasglobalsecalculasegnlaexpresin S = = donde S es
nG nG
unaestimacindelamatrizdecovarianzasglobal ,ascomoelrangodecadaunadeestas
matrices.
Loslogaritmosdelosdeterminantesdetodas
lasmatricesutilizadasenelclculodel
estadsticoMdeBox.
Latablapermitecomprobarqugrupos
difierenms.
Silasmatricessonnosingulares(tieneninversa)surangodebedeser5.Seobserva,enestecaso,
quelamatrizcorrespondientealgrupo3(Clientefallido)nosecalculaporqueexistenmuypocos
casosparasernosingular.Sepuedeverqueelnmerodeindividuosquepertenecenalgrupo3
(Clientesfallido)esjustamente5yconestetamaolamatrizdecovarianzasdelosresiduoses
necesariamentesingular.
Lasmatricessondeorden 5 x 5 yaqueexistencincovariablesclasificadoras.Silasmatricessonno
singulares(tieneninversa)surangodebedeser5.
Debidoaquelamatrizdelgrupo3(fallidos)essingular,SPSScontrastalaigualdaddelasmatrices
decovarianzaspoblacionalesenlosgrupos1y2(clientecumplidoresymorosos),estimandola
matrizdecovarianzasglobalconlosdatosdeestosdosgrupos.
Elniveldesignificacincrticoqueseobtieneenestecontrastees0,048,conloqueseaceptala
hiptesisnulaparaunniveldesignificacindel1%( 0,048 0,01 ),peronoparaunniveldel5%
( 0,048 0,05 ,rechazndoseentonceslahiptesisnula).
38
Enelresumendelasfuncionescannicasdiscriminantes:
ElcuadrodeAutovalorespresentalosautovaloresdelasfuncionescannicasdiscriminantes,que
midenlasdesviacionesdelaspuntuacionesdiscriminantesentregruposrespectoalasdesviaciones
dentrodelosgrupos.
Elautovalordeunafuncinseinterpretacomolapartedevariabilidadtotaldelanubedepuntos
proyectadasobreelconjuntodetodaslasfuncionesatribuiblealafuncin.
Sisuvaloresgrande,lafuncindiscriminamucho.
Lascorrelacionescannicasmidenlasdesviacionesdelaspuntuacionesdiscriminantesentre
gruposrespectoalasdesviacionestotalessindistinguirgrupo.Sisuvaloresgrande(prximoa1)la
dispersinserdebidaalasdiferenciasentregrupos,yportantolafuncindiscriminarmucho.
LaLambdadeWilkstienemayorpoderdiscriminantecuandomsseaproximaa0ymenoscuanto
msseaproximaa1.
EnlaLambdadeWilksseaplicaelcontrastedesignificacinparaelconjuntodelosdosejes
discriminantes.ElcontrasteVdeBarlettqueseaplicaes:
G 1
k G
Vj n 1
2 Ln(1 )
g j 1
g donde j 0, 1 Vj (k
2
j)(G j 1)
k G 2 3
V0 n 1 ln(1 1 ) ln(1 2 ) 25 1 Ln(1 2,264) Ln(1 0,043) 26,343
2 2
39
LosgradosdelibertaddelaChicuadradoson (k j)(G j1) (2 0)(3 0 1) 4 yelnivelde
significacincrticoes 0,000 0,05 rechazando,portanto,lahiptesisnula,loquesignificaqueal
menosunodelosejesdiscriminantesessignificativo.Esdecir,elprimerejediscriminantees
significativo(eselquetienemayorpoderdiscriminante).Advirtasequesinoserechazalahiptesis
nulanodeberacontinuarelanlisis.
ObsrvesequesecumplelarelacinentrelaLambdadeWilksylasracescaractersticas
(autovalores):
1 1
0 0,294
(1 1 ) (1 2 ) (1 2,264) (1 0,043)
Unavezdeterminadalasignificatividaddelprimerejediscriminante,secontrastalasignificatividad
delosrestantes,enestecaso,delsegundoejediscriminante.Elcontrasteaaplicareselsiguiente:
K G 2 3
V1 n 1 ln(1 2 ) 25 1 ln(1 0,043) 0,909
2 2
LarelacinentrelaLambdadeWilks(obtenidadespusdeexcluirlaprimerafuncindiscriminante)
ylasegundarazcaracterstica(segundoautovalor)eslasiguiente:
1 1
1 0,959
(1 2 ) (1 0,043)
Comoinformacincomplementaria,secalculalacorrelacincannicadecadafuncindiscriminante
conlavariablecategricaquedefinelosgrupos,obtenindose:
1 2,264 1 0,043
1 0,833 2 0,203
1 1 1 2,264 1 1 1 0,043
Lasfuncionesdiscriminantescannicasestandarizadas:
40
Conloscoeficientesdelafuncindiscriminantecannicaestandarizados(media0ydesviacintpica
1)seevitanlosproblemasdeescalaquepudieranexistirentrelasvariables.
Enconsecuencia,lasmagnitudesdeloscoeficientesestandarizadossonunindicadordela
importanciaquetienelavariableenelclculodelafuncindiscriminante.
Lamatrizdeestructurafacilitaconocerculessonlasvariablesquetienenmayorpoder
discriminanteenordenaclasificaraunindividuoenunodelosgrupos(cumplidor,moroso,fallido).
Unaformademediresepoderdiscriminanteescalculandoelcoeficientedecorrelacinentrecada
unadelasvariablesylafuncindiscriminante.Conunasteriscoseindicaelcoeficientemsgrande
(envalorabsoluto)quetienecadavariable.
As,lavariableCasadotienensumayorcoeficienteconlafuncindiscriminante1,mientrasquelas
variablesContrato_TrabajoeIngresoslotienenconlafuncindiscriminante2.
Loscoeficientesdelasfuncionescannicasdiscriminantesindicancomosepuedenescribirlas
funcionesdiscriminantes:
Lasfuncionesdiscriminantescannicassinestandarizar:
41
Lasfuncionesenloscentroidesdelosgruposdaunaideadecmolasfuncionesdiscriminangrupos.
LadiscriminacinesbuenatalycomoyahabaaseguradolaLambdadeWilks.
Aparecenlaspuntuacionesdeloscentroidesdelosgrupos(Patrimonio_Neto,Contrato_Trabajo)
conrespectoalasfuncionesdiscriminantes(convienedarsecuentaqueenestecasonohayun
puntodecortediscriminante,pueselconjuntodedatosseencuentraseparadoentresgrupos).
EnEstadsticosdeclasificacin
Faltacalcularelvalordetresfuncionesdeclasificacin,yseclasificaracadaindividuoenaqul
grupocuyafuncindiscriminanteresultetomarelmayorvalor.
Lasfuncionesdeclasificacinson:
Parasuaplicacin,secalculalapuntuacindecadaindividuoencadaunodelosgrupos,utilizando
lasfuncionesclasificadoras.Finalmente,unindividuoseclasificaenelgrupoenelquehaalcanzado
lapuntuacinmselevada.
Conelcriteriosealado,seleccionandoenel
botnGuardar...laopcinGrupode
pertenenciapronosticado,seincorporaal
EditorlaspuntuacionesdiscriminantesDis_1
conelgrupodepertenencia(categora)de
cadaindividuo
42
Delos13clientescumplidoresseclasificana10correctamentecomocumplidoresya3como
morosos(5,7y12).Elporcentajedeaciertoesdel76,9%
Delos7clientesmorososseclasificana5correctamentecomomorosos,a1comocumplidor
(17)y1comofallido(19).Porcentajedeacierto71,4%
43
Delos5clientesfallidos,seclasificacorrectamentea4y1comomoroso(23).Porcentajede
acierto80%
LosresultadosdelainvestigacinsatisfacenaldirectordelBancodeFuenterrebollo,yaquese
obtieneunporcentajeelevadodeclientesclasificadoscorrectamente(76%).AlBancolepreocupa
sobretodoqueunclientemorosoofallidopuedeserconsideradocomocumplidor,yaqueelcoste
deunaclasificacinerrneadeestetipoesmuyelevadoparalaentidad.Enestesentido,hayun
clientemoroso(17)quehasidoclasificadocomocumplidor.
Comoresultadodelainvestigacin,elBancoFuenterrebollodisponedeuninstrumentovaliosoque
utilizarenelanlisisdelassolicitudesdenuevosprstamos.
EnProbabilidadespreviasparalosgrupossepresentanlasprobabilidadesapriori,queseutilizan
tambinparaclasificaralosindividuosengrupos.EnelbotnClasificacin...sehautilizadola
opcinCalcularsegneltamaodelosgrupos.
SisehubieraoptadoporTodoslosgruposiguales,cadaindividuotendraapriorilamisma
probabilidadde1/3deperteneceracadaunodelosgrupos.
Enlatablaestadsticosporcasosseobservanelgruporealyelpronosticado(paragrupomayory
segundogrupomayor)alquepertenececadaindividuo.
Unindividuoseclasificaenelgrupoenelquesupertenenciatieneunamayorprobabilidada
posteriori.
Cuandoelgruporealenquecaeelindividuoyelpronosticadoengrupomayornocoinciden,hayun
errordeclasificacindelindividuo,aparececonunasteriscoreflejaqueelindividuoaque
correspondaseleclasificadeformaerrnea.
Enlacolumnadelsegundogrupomayorseobservanlosgruposaquepertenececadaindividuoen
segundolugarensentidoprobabilstico(peroelimportanteeselgrupomayor).
Noaparecelacolumnaetiquetadacon(valoresfaltantes)dondesereflejacasosoindividuospara
losquenosedisponedeinformacincompleta.
Lasdosltimascolumnasserefierenalaspuntuacionesdiscriminantes.Cadaunadeellas
correspondeaunafuncindiscriminante.Secalculanutilizandoloscoeficientesdelasfunciones
discriminantescannicasnoestandarizadas.
44
Paracadacaso,semuestraelclculodeprobabilidadesaposteriori,lasdistanciasdeMahalanobis
dedichaspuntuacionesalcentroidedecadagrupo,lasprobabilidadesaposterioriobtenidasapartir
deesasdistanciasyresultadosdelaclasificacin.
Laprobabilidadaposterioriseledesignacomo P (G = g / D = d) ,seindicalaprobabilidada
posteriorimsalta(grupomayor)conindicacinalgrupoalquecorrespondeylasegunda
probabilidadmsalta(segundogrupomayor)tambinconindicacindelgrupo.
Juntoalaprobabilidadmsaltaaparecelaprobabilidaddelapuntuacindiscriminante
condicionadaalgrupo, P (D > d / G = g) ,quenotieneunintersespecialenelanlisis
discriminante.
Seobservaquehaycincocasosmalclasificados(7,16,17,19y23)
Conelcriteriosealado,seleccionandoenel
botnGuardar...laopcinProbabilidadesde
pertenenciaalgrupo,seincorporanalEditor
lasprobabilidadesaposterioriDis1_1,Dis2_1
yDis3_1.
45
Unindividuoseclasificaenelgrupoquetienemayorprobabilidadaposteriori
46
Elmapaterritorialrepresentalaspuntuacionesenlasfuncionesdiscriminantescannicas,en
abscisassesitanlaspuntuacionesenlafuncin1yenordenadaslaspuntuacionesenlafuncin2.
Elreasituadaenlapartederechadelafuncindiscriminante1eslacorrespondientealgrupo1,
mientrasqueelreadelaizquierdacorrespondealgrupo3.Seclasificanenelgrupo2,los
individuosconpuntuacionesdiscriminantescannicassituadaseneltringulodelapartecentral.
Elmapaterritorialtambinseutilizaparaclasificarindividuosfuturos.Paraelloseobservanlas
puntuacionesdiscriminantesconsideradasyseobservaaqugrupocorrespondelaregindel
mapaterritorialenquesesitaelpuntocuyascoordenadassonprecisamentelaspuntuaciones
discriminantescitadas.
47