Analisis Discriminante

AnlisisDiscriminante
LauradelaFuenteCrespo
CONCEPTO DEL ANLISIS DISCRIMINANTE
El Anlisis Discriminante es una tcnica estadstica que se utiliza para clasificar a distintos
individuos en grupos, o poblaciones, alternativos a partir de los valores de un conjunto de
variables sobre los individuos a los que se pretende clasificar. Cada individuo puede
pertenecer a un solo grupo.
La pertenencia de un individuo a uno u otro grupo se introduce en el anlisis mediante una

variable categrica que toma tantos valores como grupos existentes. En el anlisis
discriminante esta variable categrica juega el papel de variable dependiente.
Las variables que se utilizan para realizar la clasificacin de los individuos se denominan
variables clasificadoras, Tambin se emplean las denominaciones de variables criterio o
variables predictoras, o la denominacin genrica de variables explicativas.
La informacin de las variables clasificadoras se sintetiza en unas funciones, denominadas

funciones discriminantes, que son las que finalmente se utilizan en el proceso de
clasificacin.
El anlisis discriminante persigue explicar la pertenencia de cada individuo original a uno u

otro grupo preestablecido, en funcin de las variables de su perfil, y a la vez que cuantificar
el peso de cada una de ellas en la discriminacin. De ora parte, el anlisis discriminante
persigue predecir a qu grupo ms probable habr de pertenecer un nuevo individuo del
que nicamente se conoce su perfil de variables. La variable categrica grupo es lo que se
explica y lo que predice.
El anlisis discriminante est muy relacionado con el anlisis multivariante de la varianza

con un factor, aunque el papel que juegan los distintos tipos de variables est invertido en
uno y otro mtodo. As, en el anlisis de la varianza la variable categrica (el factor) es la
variable explicativa, mientras que en el anlisis discriminante la variable categrica es
precisamente la variable dependiente.
ANLISIS: El anlisis parte de una tabla de datos de n individuos en que se han medido p
variables cuantitativas independientes o explicativas, como perfil de cada uno de ellos.
Una variable cualitativa adicional (dependiente o clasificadora) con dos (o ms) categoras,
ha definido por otros medios el grupo a que cada individuo pertenece.
A partir de la variable cualitativa se obtendr un modelo matemtico discriminante contra el

cual ser construido el perfil de un nuevo individuo cuyo grupo se desconoce par, en
funcin de un resultado numrico, ser asignado al grupo ms probable.
En la clasificacin discriminante hay dos enfoques:

Basado en la obtencin de funciones discriminantes de clculo, similar a las ecuaciones
de regresin lineal mltiple.
Empleando tcnicas de correlacin cannica y de componentes principales,
denominado anlisis discriminante cannico.
El primer enfoque es el ms comn y su fundamento matemtico est en conseguir, a partir

de las variables explicativas, unas funciones lineales de stas con capacidad para clasificar
otros individuos. A cada nuevo caso se aplican dichas ecuaciones, y la funcin de mayor
valor define el grupo a que pertenece.
1
CLASIFICACIN CON DOS GRUPOS
Se trata de estudiar la aplicacin del anlisis discriminante a la clasificacin de individuos,
en el supuesto de que dichos individuos se puedan asignar solamente a dos grupos a partir
de k variables clasificadoras. El problema fue resuelto por Fisher analticamente mediante
su funcin discriminante.
Funcin discriminante de Fisher

La funcin discriminante de Fisher D se obtiene como funcin lineal de k variables
explicativas X, es decir:
D = u1 X1 + u2 X 2 + + uk Xk
Se trata de obtener los coeficientes de ponderacin u j . Considerando que existen n

observaciones, la funcin discriminante se puede expresar para ellas:
Di = u1 X1i + u2 X2i + + uk Xki i 1, 2, , n
Di es la puntuacin discriminante correspondiente a la observacin i-sima.
Expresando las variables explicativas en desviaciones respecto a la media, Di tambin lo

estar y la relacin anterior se puede expresar en forma matricial como sigue:
D1 X11 X21 Xk1 u1

D X X22 Xk 2 u
2 12 2 en notacin matricial ms compacta: d = X u

Dn X1n X2n Xkn uk
La variabilidad de la funcin discriminante (suma de cuadrados de las variables

discriminante en desviaciones respecto a su media) se expresa como:
d'd = u' X' X u
La matriz X'X es una matriz simtrica expresada en desviaciones respecto a la media, por
lo que puede considerarse como la matriz T de suma de cuadrados (SCPC) total de las
variables (explicativas) de la matriz X.
Segn la teora del anlisis multivariante de la varianza, X'X se puede descomponer en la

suma de la matriz entre-grupos F y la matriz intra-grupos V (o residual). Por tanto,
X'X = T = F + V
En consecuencia, d'd = u' X' X u = u' T u = u'Fu + u' W u
Donde T, F y W son las matrices del SCPC total, entre-grupos e intra-grupos

respectivamente, que se calculan con los datos muestrales, mientras que los coeficientes ui
estn por determinar.
2
Fisher en 1936 obtuvo los ui maximizando la razn de la variabilidad entre-grupos respecto
de la variacin intra-grupos.
Con este criterio se trata de determinar el eje discriminante de forma que las distribuciones
proyectadas sobre el mismo estn lo ms separadas posible entre s (mayor variabilidad
entre-grupos) y, al mismo tiempo, que cada una de las distribuciones est lo menos
dispersa (menor variabilidad intra-grupos).
Analticamente, el criterio de Fisher para la obtencin de la funcin discriminante:
u'Fu
maximizar =
u' W u
La solucin a este problema se obtiene derivando respecto de u e igualando a cero, es

decir:
2Fu(u' W u) 2 W u(u'Fu)
0 2Fu(u' W u) 2 W u(u'Fu) 0
u (u' W u)2
2Fu u'Fu
Fu W u W -1 Fu = u
2Wu u' W u
En consecuencia, la ecuacin para obtener el primer eje discriminante W 1 Fu u se

traduce en la obtencin de un vector propio u asociado a la matriz no simtrica W -1 F
Dado que es la ratio a maximizar, cuando se calcule medir el poder discriminante del
primer eje discriminante. Como se est realizando un anlisis discriminante con dos
grupos, no se necesitan ms ejes discriminantes.
En el caso general de un anlisis discriminante con G grupos (G 2) , el nmero mximo

de ejes discriminantes que se pueden obtener viene dado por min(G 1, k) . Por tanto,
puede obtenerse hasta G 1 ejes discriminantes, si el nmero de variables explicativas k
es mayor que G 1 , hecho que suele ser siempre cierto, pues en las aplicaciones prcticas
el nmero de variables explicativas suele ser grande.
El resto de los ejes discriminantes vendrn dados por los vectores propios asociados a los
valores propios de la matriz W -1 F ordenados de mayor a menor. As, el segundo eje
discriminante tendr menos poder discriminante que el primero, pero ms que cualquiera
de los restantes.
Como la matriz W -1 F no es simtrica, los ejes discriminantes no sern en general

ortogonales.
En el caso de anlisis discriminante con dos grupos, los coeficientes (u1, u2 , , uk )

normalizados correspondientes a las coordenadas del vector propio unitario asociado al
mayor valor propio de la matriz W -1 F obtenidos en el proceso de maximizacin, pueden
contemplarse como un conjunto de cosenos directores que definen la situacin del eje
discriminante.
3
Las puntuaciones discriminantes son pues los valore que se obtienen al dar valores a
X1, X2 , , Xk en la ecuacin:
D = u1 X1 + u2 X2 + + uk Xk
Las puntuaciones discriminantes se corresponden con los valores obtenidos al proyectar

cada punto del espacio k-dimensional de las variables originales sobre el eje discriminante.
Los centros de gravedad o centroides (vector de medias) son los estadsticos bsicos
que resumen la informacin sobre los grupos.
Los centroides de los Grupos I y II sern:
X1, I X1, II

X2, I X2, II
xI x II

Xk, I Xk, II

DI = u1 X1, I + u2 X2, I + uk Xk, I

Por tanto, para los Grupos I y II se obtiene:
D = u X + u X + u X
II 1 1, II 2 2, II k k, II
DI DII
El punto de corte discriminante C es: C
2
Di C Se clasifica al individuo i en el Grupo I

El criterio para clasificar al

individuo i-simo es el siguiente:
Di C Se clasifica al individuo i en el Grupo II
En general, cuando se aplica el anlisis discriminante se le resta el valor de C a la funcin

discriminante, que vendr dada por:
D - C = u1 X1 + u2 X2 + + uk Xk C
En este ltimo caso,
Di C 0 Se clasifica al individuo i en el Grupo I

El criterio para clasificar al

individuo i-simo es el siguiente:
Di C 0 Se clasifica al individuo i en el Grupo II
Existe una forma alternativa que consiste en construir funciones discriminantes para cada
grupo. Estas funciones, a las que se denominan FI y FII tienen la siguiente estructura:
FI aI,1 X1 aI,2 X2 aI,k Xk CI

funciones discriminantes lineales de Fisher
F a X a X a X C
II II,1 1 II,2 2 II,k k II
4
Cuando se utilizan estas funciones, se clasifica un individuo en el grupo para el que la
funcin Fi sea mayor. Este tipo de funciones clasificadoras tienen la ventaja de que se
generalizan fcilmente al caso de que existan ms de dos grupos y vienen recogidas en la
mayora del software estadstico.
Haciendo:
FII FI (aII,1 aI,1 ) X1 (aII,2 aI,2 ) X2 (aII,k aI,k ) Xk (CII CI )
u1 X1 + u2 X2 + + uk Xk - C = D - C
se pueden obtener los coeficientes (u1, u2 , , uk ) .
Existen otros criterios de clasificacin, entre los que destacan el anlisis de la regresin y la
distancia de Mahalanobis.
ANLISIS DE REGRESIN: La relacin entre el anlisis de la regresin y el anlisis

discriminante con dos grupos es muy estrecha. Si se realiza un ajuste por mnimos
cuadrados, tomando como variable dependiente la variable dependiente que define la
pertenencia a uno u otro grupo y como variables explicativas a las variables clasificadoras,
se obtienen unos coeficientes que guardan una estricta proporcionalidad con la funcin
discriminante de Fisher.
A partir del coeficiente de determinacin, que se calcula en el anlisis de regresin, se
puede pasar fcilmente a la distancia de Mahalanobis entre los dos centroides de los dos
grupos.
DISTANCIA DE MAHALANOBIS: Es una generalizacin de la distancia eucldea que tiene

en cuenta la matriz de covarianzas intra-grupos.
El cuadrado de la distancia de Mahalanobis DMi,j2 entre los puntos i y j en un espacio de p

dimensiones, siendo Vw la matriz de covarianzas intra-grupos, viene definida por:
2
DMi,j = (xi - x j )' Vw-1 (xi - x j )
donde los vectores xi y x j representan dos puntos en el espacio p-dimensional.
La distancia eucldea es un caso particular de la distancia de Mahalanobis, donde Vw = I .
La distancia eucldea no tiene en cuenta la dispersin de las variables y las relaciones

existentes entre ellas, mientras que en la distancia de Mahalanobis s que se descuentan
estos factores al introducir la inversa de la matriz de covarianzas intra-grupos.
p
2
La distancia eucldea ser: di,j = (xi - x j )' I (xi - x j ) = (x
h=1
ih - x jh )2
Con el criterio de la distancia de Mahalanobis se calculan para el punto i, las dos distancias
siguientes:
5
DMi,2 I = (xi - x I )' Vw-1 (xi - x I )

DM2 = (x - x )' V -1 (x - x )
i, II i II w i II
La aplicacin de este criterio consiste en asignar cada individuo al grupo para el que la
distancia de Mahalanobis es menor.
Sealar que la distancia de Mahalanobis se calcula en el espacio de las variables

originales, mientras que en el criterio de Fisher se sintetizan todas las variables en la
funcin discriminante, que es la utilizada para realizar la clasificacin.
Para aclarar las posibilidades de aplicacin del anlisis discriminante, con los conceptos
expuestos hasta el momento, se presenta un caso relativo al rea financiera.
PRCTICO EN EL BANCO FUENTERREBOLLO
Cuandoelbancoconcedeunprstamopersonalaunclienteseenfrentaalaposibilidaddequesea
reintegradoodequenolosea.Encasodenoserreintegradoserclasificadocomofallido.Enesta
lnea,sepuedenconsiderardosgruposdeclientes:cumplidoresyfallidos.
Comoesevidente,sielbancoconocieradeantemanoqueunapersonavaaresultarfallidanole
concederaelprstamo.Noobstante,puedeutilizarlainformacinexistenteenelbancosobre
prstamosconcedidosenelpasadoenlaconcesindeprstamosfuturosdeformaqueseeviteo,
almenossereduzcalaconcesindeprstamosquedespuspuedanresultarfallidos.
Generalmente,enlosarchivosdelbancoexisteinformacindelascaractersticasdelaspersonasa
lasquesehaconcedidounprstamo,yaqueelcliente,cuandorealizaunasolicituddeprstamo,
debefacilitarinformacinacercadeingresos,edad,sexo,situacinfamiliar,antigedadenelpuesto
detrabajo,rgimendetenenciadelavivienda,etc.
Esmuyprobablequelosclientescumplidorestenganunascaractersticasdistintasdelosclientes
fallidos.Utilizandoestascaractersticas,setratadeestablecerunasfuncionesqueclasifiquenloms
correctamenteposiblealosclientesalosqueseleshaconcedidounprstamoencumplidoresy
fallidos(finalidadexplicativa).Posteriormente,estasfuncionesseemplearn,enelcasodequela
clasificacinseaadecuada,paradeterminarsiseconcedenonolosprstamosafuturossolicitantes
(finalidadpredictiva).
ElBancodeFuenterrebollotieneinformacinacercade16clientesalosqueselesconcediun
prstamoporunimportede100.000eurosacadaunodelosclientes.Pasados5aosdesdela
concesindelosprstamos,el50%delosclientesfueronclasificadoscomofallidospornohaber
reintegradosuprstamo.Enelmomentodelasolicitud,elBancodisponadelainformacinque
muestralatablaadjunta(en10.000euros).
Enlaactualidad,eldirectordelbancotieneotrasdosnuevassolicitudes.Elprimersolicitante
disponedeunpatrimonionetode10,1(endiezmileuros)conunasdeudaspendientesde6,8(en
diezmileuros).Paraelsegundosolicitantelosvaloresdeestasvariablesson9,7enpatrimonioneto
y2,2endeudaspendientes.Cmodeberreaccionareldirectordelbanco,conlainformacinque
tienerecogida?
Eldirectorconlainformacinrecogidasobrelasvariablespatrimonionetoydeudaspendientes
tratadeconstruirunafuncindiscriminantequeclasifiqueconlosmenoserroresposiblesalos
clientesendosgrupos(fallidosynofallidos).
6
Siobtienebuenosresultadosenestaclasificacin,enunpasoposteriorutilizarlafuncin
discriminanteparadeterminarsiconcedelosprstamos.
Fallidos NoFallidos
Patrimonio Deuda Patrimonio Deuda
Cliente Cliente
neto pendiente neto pendiente
1 1,3 4,1 9 5,2 1,0
2 3,7 6,9 10 9,8 4,2
3 5,0 3 11 9,0 4,8
4 5,9 6,5 12 12,0 2,0
5 7,1 5,4 13 6,3 5,2
6 4,0 2,7 14 8,7 1,1
7 7,9 7,6 15 11,1 4,1
8 5,1 3,8 16 9,9 1,6
Total 40 40 Total 72 24
Media 5 5 Media 9 3
Utiizandoelpatrimonionetodelosclientescomovariableclasificadora,denominndola X1 .El
grupodeclientesfallidos (I ) ,mientrasqueelgrupodeclientesnofallidos (II ) .
Lasmediasmuestralesdelosdosgruposson: X1,I 5 , X1, II 9
X1,I X1,II 59
Elpuntodeinterseccindelasdosfunciones: C1 7
2 2
Elpuntodecorte C1 seutilizarparaclasificaralosclientesqueseleshaconcedidoelprstamo.Si
elpatrimonionetoesmenorque7(endiezmileuros)seclasificaalclientecomofallido (I ) ,
mientrasqueseclasificacomonofallido (II ) sielpatrimonionetoesmayorqueesacifra.
Conestecriterio,sereflejaelporcentajedeclasificacionescorrectaseincorrectasencadagrupo.
ClasificacinporPatrimonioneto
Situacinreal Fallidos NoFallidos Total
Fallidos 6(75%) 2(25%) 8(100%)
NoFallidos 2(25%) 6(75%) 8(100%)
Deltotalde16clientessehaclasificadocorrectamentea12,loqueequivaleaun75%deltotal.En
concreto,sehaclasificadoincorrectamentecomofallidosalosclientes5y7.Porelcontrario,se
hanclasificadoerrneamentecomonofallidosalosclientes9y13.
Seutilizalavariabledeudaspendientescomovariableclasificadora,alaquesedesignapor X 2 ,
paraversiseobtienenonomejoresresultadosquecon X1
Lasmediasmuestralesdelosdosgruposson: X2,I 5 , X2, II 3
X2,I X2,II 53
Elpuntodeinterseccindelasdosfunciones: C2 4
2 2
7
Silasdeudaspendientessonmayoresque4(endiezmileuros)seclasificaalclientecomo
fallido (I ) ,mientrasqueseclasificacomonofallido (II ) silasdeudaspendientessonmenoresque
esacifra.
ClasificacinporDeudaspendientes
Situacinreal Fallidos NoFallidos Total
Fallidos 5 (62,5%) 3 (37,5%) 8(100%)
NoFallidos 4 (50%) 4 (50%) 8(100%)
Deltotalde16clientessehaclasificadocorrectamentea9,loqueequivaleaun56,25%deltotal.
Enconcreto,sehaclasificadoincorrectamentecomofallidosalosclientes3,6y8.Porelcontrario,
sehanclasificadoerrneamentecomonofallidosalosclientes10,11,13y15.
Losresultadosobtenidosconestasegundavariableclasificadorasonpeores,yaqueseclasifican
correctamenteal56,25%delosclientes.
Sehanutilizadolasdosvariablesclasificadorasdeformaseparada.Cabepreguntarsesisepuede
mejorarelporcentajedeclientesclasificadoscorrectamentesiseutilizanlasdosvariables
clasificadorasdeformaconjunta.
ParacalcularlafuncindiscriminantedeFisherseutilizanlasvariablesexplicativaspatrimonioneto
ydeudaspendientes.Loscentrosdegravedadocentroidesdelosdosgruposson:
X1, I 5 X1, II 9
x I x II
X2, I 5 X2, II 3
LafuncindeclasificacinlinealqueseobtieneaplicandoelmtododeFisher:
D 1,036 x X1 0,932 x X2
Sustituyendoenlafuncinanterior X1 y X2 porlasmedias X1, I y X2, I delgrupoI,seobtiene:
DI 1,036 x X1, I 0,932 x X2, I 1,036 x 5 0,932 x 5 0,52
ProcediendodeformaanlogaenelgrupoII,seobtiene:
DII 1,036 x X1, II 0,932 x X2, II 1,036 x 9 0,932 x 3 6,528
DI DII 0,52 6,528

Elpuntodecortediscriminante: C 3,524
2 2
LafuncindiscriminantedeFisheres:
D C = 1,036 x X1 0,932 x X2 3,524
EnelsiguientecuadrosehaaplicadolafuncindiscriminanteacadaunodelosclientesdelBanco
Fuenterrebollo.Lapuntuacinobtenidaporcadaclienteapareceenlapenltimacolumna.Todos
losclientesqueobtenganpuntuacinnegativasonasignadosalgrupoI,mientrasquelosquetienen
puntuacinpositivaseasignanalgrupoII.
8
Sustituyendolosvaloresdepatrimonionetoydeudaspendientesseobtienenlosvaloresdelatabla:
Grupo Patrimonio Deuda Puntuacin

Cliente Clasificado
pertenencia Neto (X1 ) Pendiente(X 2 ) Discriminante (D)
1 I 1,3 4,1 5,9984 I
2 I 3,7 6,9 6,1216 I
3 I 5 3 1,14 I
4 I 5,9 6,5 3,4696 I
5 I 7,1 5,4 1,2012 I
6 I 4 2,7 1,8964 I
7 I 7,9 7,6 2,4228 I
8 I 5,1 3,8 1,782 I
9 II 5,2 1 0,9312 II
10 II 9,8 4,2 2,7144 II
11 II 9 4,8 1,3264 II
12 II 12 2 7,044 II
13 II 6,3 5,2 1,8436 I
14 II 8,7 1,1 4,464 II
15 II 11,1 4,1 4,1544 II
16 II 9,9 1,6 5,2412 II
Resultadosdelaclasificacin
Grupodepertenencia
Total
pronosticado
Fallido I II
OriginalRecuento1 8 0 8
2 1 7 8
%1 100 0 100
2 12,5(1/8) 87,5(7/8) 100
Clasificadoscorrectamenteel93,8%(15/16)deloscasosagrupadosoriginales
Comparandoelgruporealdepertenenciayelgrupoasignadoseobservaquesolamenteelcliente
13estmalclasificado.
ConlasdosnuevassolicitudesquetienequeanalizareldirectordelBanco:
1solicitante: D C = 1,036 x X1 0,932 x X2 3,524 = 1,036 x 10,1 0,932 x 6,8 3,524 = 0,602
Comolaclasificacinespositivaenamboscasos,seclasificanlosdossolicitantesenelgrupodelos
nofallidos,denotandoqueelsegundosolicitantetieneunapuntuacindiscriminantemuchoms
elevada.
9
Pararealizarelanlisisdiscriminante,seeligeAnalizar/Clasificar/Discriminante
ComovariabledeagrupacinseeligealavariabledependientePrstamo.EnelbotnDefinirrango
esnecesarioespecificarculessonlosvaloresMnimoyMximodeestavariable.Seintroduce
Mnimo:1yMximo:2.
Lasotrasdosvariables:X1=Patrimonio_NetoyX2=Deuda_Pendiente,seeligencomovariables
independientes,cuyosvaloresseutilizanparaconstruirlafuncindiscriminante.
SPSSofreceactivadoslosbotones:Estadsticos,ClasificaryGuardar.ElbotnMtodosloseactiva
sipreviamentesehaelegidoIntroducirlasvariablesconunMtodoporpasos.
EnlasalidadelVisoraparecenloscoeficientesdelafuncindeclasificacindeFisher:
u1 = 1,036 u2 = 0,932 C = 3,52 4
Paraobtenerloscoeficientes u1, u2 serecurrealasfuncionesdiscriminantesdeFisher:
FII FI (aII,1 aI,1 ) X1 (aII,2 aI,2 ) X2 (CII CI ) u1 X1 + u2 X2 - C = D - C
conloquerestandoaloscoeficientesdelasegundacolumna(NoFallidos)losdelaprimera
columna(Fallidos)seobtienenloscoeficientesdelafuncin D C .
LafuncindeclasificacinlinealdeFisher: D 1,036 x X1 0,932 x X2
LafuncindiscriminantedeFisher: D C = 1,036 x X1 0,932 x X2 3,524
10
Aparecenotrosestadsticosdecarcterdescriptivosrelacionadosconlafuncindiscriminante.
Coeficientesdelasfuncionescannicasdiscriminantesnotipificados
Loscoeficientesdeestafuncinsonestrictamenteproporcionalesaloscoeficientesdelafuncin
discriminante (u1 = 1,036 , u2 = 0,932) .Elfactordeproporcionalidades0,4074.Estoscoeficientes
noestandarizadosseobtienenutilizandolaregladenormalizacin u' W u
Variabilidadentre grupos u'Fu

Setomacomonormaeldenominadorde maximizar = =
Variabilidadintra grupos u' W u
Aspues,lanormaeslavariacinintragrupos.
Enlamatrizdelaestructurasepuedeconocerculessonlasvariablesquetienenmayorpoder
discriminanteenordenaclasificaraunindividuoenunodelosgrupos.
Unaformademediresepoderdiscriminanteescalculandoelcoeficientedecorrelacinentrecada
unadelasvariablesylafuncindiscriminante.Lascomparacionesdebenrealizarsesiempre
tomandolascorrelacionesenvalorabsoluto.
LacorrelacindelafuncindiscriminanteconlavariablePatrimonio_Neto(0,748)esmayorenvalor
absolutoqueconlavariableDeuda_Pendiente(0,452).
Elcuadromuestraloscoeficientesestandarizadosdelasfuncionesdiscriminantescannicas.
11
Estoscoeficientesseobtienencuandosetipificancadaunadelasvariablesclasificadoras,paraque
tenganmedia0ydesviacintpica1.Deestaformaseevitanlosproblemasdeescalaquepudieran
existirentrelasvariables.
Lamagnituddeloscoeficientesestandarizadosesunindicadordelaimportanciaquetienecada
variableenelclculodelafuncindiscriminante.
AslavariablePatrimonio_Netotieneunainfluenciamuchomayorquelavariable
Deuda_Pendiente,asun35%superior.
PulsandoelbotnGuardar...
ElGrupodepertenenciapronosticadocreaunavariablecategricaconcdigos1,2,...,queindican
elgrupoenquehasidoclasificadocadacaso(grupopronosticado).
LasPuntuacionesdiscriminantescreatantasvariablescomofuncionesdiscriminantessehayan
estimado.Cadavariablecontienelaspuntuacionesdiscriminantesdecadafuncin.Lasvariablesse
creanenelordenenquehansidoextradaslasfunciones,esdecir,enelordendefinidoporel
tamaodelosautovalores.Laspuntuacionesdiscriminantesnosevenafectadasporlasselecciones
realizadasenelprocesodeclasificacin.
EnelcasodelBancodeFuenterrebolloenelEditoraparecelavariablecategricaDis_1
concdigo(1,2)indicandoelgrupoenquehasidoasignadoelcliente.AscomolavariableDis1_1
conlaspuntuacionesdiscriminantesdelafuncinDis_1.
12
LaspuntuacionesdiscriminantesDis1_1seexpresanatendiendoaloscoeficientesnotipificadosde
lasfuncionescannicasdiscriminantes: u1 = 0,422 , u2 = 0,380 , C 1,437
D C = 0,422 x X1 0,380 x X2 1,437
ConlasdosnuevassolicitudesquetienequeanalizareldirectordelBanco:
Comolaclasificacinespositivaenamboscasos,seclasificanlosdossolicitantesenelgrupodelos
nofallidos,denotandoqueelsegundosolicitantetieneunapuntuacindiscriminantemuchoms
elevada.
INFERENCIA Y CALCULO DE PROBABILIDADES EN EL ANLISIS

DISCRIMINANTE (2 GRUPOS)
Fisher realiz la obtencin de la funcin discriminante aplicando un enfoque puramente
descriptivo, como se ha analizado en pasos anteriores.
Si con el anlisis discriminante se desea ir ms lejos de la mera clasificacin se requiere la

formulacin previa de hiptesis estadsticas. Formulando estas hiptesis se pueden abordar
algunos temas de carcter inferencial y otros relativos al modelo poblacional.
Los temas de carcter inferencial se refieren a diversos contrastes de significacin sobre el

modelo, as como contrastes utilizados en el proceso de seleccin de variables cuando el
nmero de stas es muy grande y no se conocen a priori las variables que son relevantes
en el anlisis.
De otra parte, el clculo de probabilidades de pertenencia a un grupo requiere que

previamente se hay postulado algn modelo probabilstico de la poblacin.
Las hiptesis estadsticas que se adoptan, anlogas a las postuladas en el anlisis

multivariante de la varianza, se refieren tanto a la poblacin como al proceso de obtencin
de la muestra.
Hiptesis estadsticas sobre la poblacin:
Hiptesis de homoscedasticidad: La matriz de covarianzas de todos los grupos es

constante igual a .
Hiptesis de normalidad: Cada uno de los grupos tiene una distribucin normal
multivariante, es decir, x g N(g , )
Hiptesis sobre el proceso de obtencin de la muestra:
Se supone que se ha extrado una muestra aleatoria multivariante independiente en cada

uno de los G grupos.
Bajo las hiptesis sealadas, la funcin discriminante obtenida por Fisher es ptima. No
obstante, la hiptesis de que las variables clasificadoras sigan una distribucin normal no
sera razonable para variables categricas (utilizadas frecuentemente en el anlisis
discriminante como variables clasificadoras). Conviene sealar que, cuando se utilizan
13
variables de este tipo, la funcin discriminante lineal de Fisher no tiene el carcter de
ptima.
Considerando las hiptesis anteriores, se examinan los contrastes de significacin del

modelo, el problema de seleccin de variables y el clculo de probabilidades de pertenencia
a una poblacin.
Contrastes de significacin y evaluacin de la bondad del ajuste

Con los contrastes de significacin que se realizan en el anlisis discriminante con dos
grupos se trata de dar respuesta a tres tipos de cuestiones diferentes:
(a) Se cumple la hiptesis de homoscedasticidad del modelo?

(b) Se cumple la hiptesis de normalidad?
(c) Difieren significativamente las medias poblacionales de los dos grupos?
La justificacin de las primeras cuestiones ya se conoce de la teora de modelos. El

anlisis de normalidad en el caso multivariante se suele realizar variable a variable, dada la
complejidad de hacerlo conjuntamente. Para el contraste de homoscedasticidad se puede
utilizar el estadstico de Barlett-Box.
La respuesta que se d a la cuestin (c) es crucial para la justificacin del anlisis

discriminante. En el caso de que la respuesta fuera negativa carecera de inters continuar
con el anlisis discriminante, ya que significara que las variables introducidas como
variables clasificadoras no tienen una capacidad discriminante significativa.
H : 2
La hiptesis nula y alternativa para dar respuesta a la cuestin (c) son: 0 1
H1: 1 2
El contraste de la hiptesis nula se puede realizar especficamente mediante el estadstico

T 2 de Hotelling. Existen otros estadsticos que se pueden emplear, diseados para el caso
general de G grupos, tales como el estadstico Ra de Rao o el estadstico V de Barlett.
Estos ltimos estadsticos estn construidos a partir de la de Wilks.
En el caso de que se rechace la hiptesis nula se puede aplicar el anlisis univariante de la

varianza para contrastar la hiptesis de igualdad de medias para cada una de las variables
clasificadoras por separado.
Como medida de evaluacin de la bondad de ajuste se utiliza el coeficiente eta cuadrado

2 , que es el coeficiente de determinacin obtenido al realizar la regresin entre la
variable dicotmica, que indica la pertenencia al grupo, y las puntuaciones discriminantes.
A la raz cuadrada de este coeficiente se le denomina correlacin cannica. Una expresin

alternativa de la correlacin cannica es:
u'Fu
donde es precisamente el valor de la ratio que se obtiene al maximizar =
u' W u
Desde un punto de vista matemtico es una raz caracterstica.
14
COMPARACIN DE GRUPOS
A parir de las pruebas de Box y Lambda se puede aplicar el anlisis discriminante al
conjunto de datos, ya que hay diferencias entre cada grupo.
La Prueba de Lambda de Wilks compara las varianzas entre s, mientas que la Prueba
de Box compara la igualdad de las covarianzas.
La prueba de Box sobre la igualdad de las matrices de covarianzas, como se indica en el

pie de la tabla de resultados, contrasta la hiptesis nula de que las matrices de
covarianzas poblacionales son iguales, es decir:
Prueba de igualdad de las medias de los grupos (Prueba de Box):
Sig. (p - valor) 0,05 Las covarianzas son distintas Se aplica anlisis

discriminante.
Sig. (p - valor) 0,05 Las covarianzas son iguales No aplicable anlisis

discriminante.
En el anlisis discriminante es importante (aunque no necesario) que las matrices de

covarianzas poblacionales sean distintas.
Prueba de igualdad de las medias de los grupos (Lambda de Wilks):
Sig. (p - valor) 0,05 Las varianzas son distintas Se aplica anlisis

discriminante.
Sig. (p - valor) 0,05 Las varianzas son iguales No aplicable anlisis

discriminante.
Desde el punto de vista prctico, la comparacin de grupos (tanto la Prueba de Box

como la de Wilks) solo se utiliza para saber si se puede realizar el anlisis discriminante
15
AnlisisdeprstamosfallidosenelBancoFuenterrebollo
Contrastesdesignificacin
SeseleccionaUsarmtododeinclusinporpasos,conloqueseactivaelbotnMtodo...
PulsandoelbotnEstadsticos...
Seabreuncuadrodivididoentresgrandes
reas:Descriptivos,Coeficientesdelafunciny
Matrices.
DESCRIPTIVOS:
Medias:Proporcionaelvectordemedias(loscentroides)ydesviacionestpicasdecadavariable
paracadagrupo.
UnivarianteANOVA:Contrastaigualdaddemediasentrelosgruposparacadavariable.
MdeBox:Contrastalahiptesisnuladequelasmatricesdevarianzascovarianzaspoblacionales
sonigualesenlosdistintosgrupos.
COEFICIENTESDELAFUNCIN:
DeFisher:CoeficientesdelafuncindeclasificacinbajoNormalidad
Notipificados:CoeficientesdelafuncindiscriminantecannicadeFisher'centrados'
16
MATRICES:
Covarianzadegruposseparados:Proporcionalamatrizdevarianzasycovarianzasdecadagrupo,
esdecir,lasmatricesS1yS2,donde:
nk nk

X(k)i1 X1(k) X X1(k) X(k)
i2 X2
2 (k) (k)
i1
i=1 i=1 k = 1,2
Sk = nk nk

i=1
X(k)i1 X1(k) X(k)i2 X2(k) i=1
i2 2
X (k)
X (k) 2
Covarianzaintragrupos:Proporcionalamatrizdevarianzasycovarianzas'combinada',obtenida
comomediaponderadadelasdosanteriores,esdecir:
(n1 1)S1 + (n2 1)S2

S =
n1 + n2 2
CovarianzaTotal:Proporcionalamatrizdevarianzasycovarianzasde(X1,X2)paratodoslos
n1+n2=16individuosdelapoblacin,sindistincindegrupo.
COMPROBACINSUPUESTOSPARAMTRICOS:Lafuncindiscriminanteminimizalaprobabilidad
deequivocarsealclasificaralosindividuosencadagrupo.Paraello,lasvariablesoriginalessedeben
distribuircomounanormalmultivarianteylasmatricesdecovarianzasdebendeserigualesen
todoslosgrupos.Enlaprcticaesunatcnicarobustayfuncionabienaunquelasdosrestricciones
anterioresnoseverifiquen.
Siunconjuntodevariablessedistribuyecomounanormalmultivariante,entoncescualquier
combinacinlinealdeellassedistribuyecomounanormalmultivariante.Porello,sialgunadelas
variablesoriginalesnosedistribuyecomounanormal,entoncesesseguroquetodaslasvariables
conjuntamentenosedistribuirncomounanormalmultivariante.
Lasegundarestriccinseocupadelaigualdadentrelasmatricesdecovarianzasdelosgrupos.Para
comprobaresto,sepuedeutilizarlaPruebaMdeBox,quetienecomohiptesisnulaquelas
matricesdecovarianzassoniguales.Sebasaenelclculodelosdeterminantesdelasmatricesde
covarianzasdecadagrupo.ElvalorobtenidoseaproximaporunaFdeSnedecor.Sielp_valor<0,05
serechazalaigualdadentrelasmatricesdecovarianzas.
EltestdeMdeBoxessensiblealafaltadenormalidadmultivariante,esdecir,matricesiguales
puedenaparecercomosignificativamentediferentessinoexistenormalidad.Porotraparte,silas
muestrassongrandes,pierdeefectividad(esmsfcilrechazarlahiptesisnula).
PulsandoelbotnMtodo...
17
Lambda()deWilks:Estadsticoquemideelpoderdiscriminantedeunconjuntodevariables
V V 1
= = = min(q1, p) (01)
T V +F
i=1
(1 + I )
Cuantomscercade0mayoreselpoderdiscriminantedelasvariablesconsideradas,ycuanto
mscercade1menoreselpoderdiscriminante.
Estadsticosasociados:FdeRao;2deBarlett(testssobrelasdiferenciasdemediasenambos
grupos)
i
Laisimacorrelacincannicavienedadapor: CRi = mide,entrminosrelativos,elpoder
1 + i
discriminantedelaisimafuncindiscriminante,yaqueeselporcentajedelavariacintotalen
dichafuncinqueesexplicadaporladiferenciaentrelosgrupos, 0 CRi 1 ,cuantomscercade1
estsuvalor,mayoreslapotenciadiscriminantedelaisimafuncindiscriminante.
PulsandoelbotnClasificar...
UnaopcininteresanteesladeReemplazarlosvaloresperdidosconlamedia.Enmsdeuna
investigacin,poralgnmotivoenlabasededatoshayvaloresperdidos,yparaqueestosno
afectenlosresultadosfinales,existestaopcindereemplazo,queserecomiendautilizar.
GRFICOS:
Gruposcombinados:Representalaspuntuacionesdiscriminantesovaloresdela(s)funcion(es)
discriminante(s),paralos16individuosdelamuestra(8decadagrupo)todosjuntosenungrfico,
juntoconsuscentroides.Comoslohayunafuncindiscriminanteestegrficonosehace(sise
selecciona,luegonoaparece).
Gruposseparados:Representaungrficocomoelanteriorperoparacadagrupo.Enestecaso,
representaraenelprimergrficonicamentelos8individuosdelgrupo1yenelsegundoslolos8
delgrupo2.
Mapaterritorial:Conunanicafuncindiscriminantenolohace.
18
ElVisorderesultadosdeSPSSmuestra:
Enloscontrastesdeigualdaddemediasseobservaqueenamboscasosserechazalahiptesisnula
alserp_valor<0,05,esdecir,losdosgruposenmediasondiferentes.
4,764 1,001
matrizintragruposcombinada:
1,001 3,259
LainformacindeestatabladeANOVAsunivariadossueleutilizarsecomopruebapreliminarpara
detectarsilosgruposdifierenenlasvariablesdeclasificacinseleccionadas.Sinembargo,hayque
considerarqueunavariablenosignificativaanivelunivariantepodraaportarinformacin
discriminativaanivelmultivariante.
Lasalidadelamatrizdecovarianzasproporciona:
4,289 1,824 5,240 0,177 8,713 1,199

S1 = , S2 = , S total =
1,824 3,474 0,177 3,043 1,199 4,108
Porotraparte,lamediaponderadade S1 y S2 debedecoincidirconlamatrizintragrupos
combinada,denominadaS.Esdecir,debeverificarseque:
4,764 1,001 (n1 1)S1 + (n2 1)S2 7 4,289 1,824 7 5,240 0,177
S= = = +
1,001 3,259 n1 + n2 2 14 1,824 3,474 14 0,177 3,043
19
AparecedespuslaPruebadeBoxparaelcontrastedelahiptesisnuladeigualdaddelasmatrices
devarianzascovarianzaspoblacionales.Unodelossupuestosdelanlisisdiscriminanteesquetodos
losgruposprocedendelamismapoblaciny,msconcretamente,quelasmatricesde
varianzascovarianzaspoblacionalescorrespondientesacadagruposonigualesentres.
ElestadsticoMdeBoxtomalaforma: M = (n g) log S (n 1) log S

j=1
j j
DondeSeslamatrizdevarianzascovarianzascombinada, S j eslamatrizdevarianzascovarianzas
delgrupojsimo,neselnmerototaldecasosygelnmerodegrupos.
ElestadsticoMcarecededistribucinmuestralconocida,peropuedetransformarseenun
estadsticoFeinterpretarsecomotal(muchosinvestigadorescriticanesteestadsticoporser
demasiadosensibleapequeasdesviacionesdelanormalidadmultivarianteyatamaos
muestralesgrandes,tendiendoaserconservador).
Seobservaquelaprimeratablaofreceloslogaritmosdelosdeterminantesdetodaslasmatrices
utilizadasenelclculodelestadsticoM.Dadoqueelestadsticoesmultivariante,latablapermite
comprobarqugrupos(cuandohaymsdedos)difierenms.
ResultadosdelapruebaofrecelapruebaMdeBoxysutransformacinenunestadsticoF.
Elresultadodelapruebahacequenoserechacelaigualdaddematricesdevarianzascovarianzas,
dadoque Sig=0,849> 0,05 ,concluyendoquelosdosgrupostienenlamismamatrizde
varianzascovarianzas(nohayungrupomsvariablequeotro).Serechazalahiptesisnula
H0 : 1 2 conunSig.(pvalor)pequeo.
Acontinuacinaparecenlosresultadosdelanlisisdiscriminante(estadsticosporpasos):
Lasvariablessonintroducidas/eliminadasdelmodeloenlamedidaenquetenganasociadoun
menorvalordelestadsticodeWilks.
20
ElestadsticoLambda()deWilksmideelpoderdiscriminantedeunconjuntodevariables,
cuantomscercade0mayoreselpoderdiscriminantedelasvariablesconsideradas,ycuanto
mscercade1menoreselpoderdiscriminante.
EnelResumendelasfuncionescannicasdiscriminantes,apareceenprimerlugarelttulode
autovaloresconinformacinrelativaalcontrastedesignificacinglobaldeigualdaddemediasya
lamedidadelabondaddelajuste.
Comohay g = 2 gruposy k = 2 variables,slohay q = min(k,g 1) = 1 funcindiscriminante,o

equivalentemente,lamatriz V 1 F tienerango q = min(k,g 1) = 1 yslohayunautovalordistinto
decero, = 1,716 ,queeselqueapareceenlatabla.

Elvalorcaracterstico (autovalor)que maximiza = = en1,716
Variabilidadintra grupos u'Wu
Elautovalordeunafuncinseinterpretacomolapartedevariabilidadtotaldelanubedepuntos
proyectadasobreelconjuntodetodaslasfuncionesatribuiblealafuncin.Sisuvaloresgrande,la
funcindiscriminarmucho.
1,716
Lacorrelacincannica = = = 0,795
1+ 1 + 1,716
21
Lascorrelacionescannicas,midenlasdesviacionesdelaspuntuacionesdiscriminantesentregrupos
respectoalasdesviacionestotalessindistinguirgrupos.Sisuvaloresgrande(prximoa1)la
dispersinserdebidaalasdiferenciasentregrupos,yenconsecuencia,lafuncindiscriminar
mucho.
Acontinuacinapareceelestadstico (Lambda)deWilksyelcontrasterealizadoapartirdel
mismo.Elestadstico serefierealafuncindiscriminante.
Comosetratadeunasolavariable,secalculacomococientededosescalares.Elresultadoobtenido
SCRD
eselsiguiente: = = 0,368
SCTD
Elestadstico eselcocienteentrelasumadecuadradosdentrodelosgruposylasumade
cuadradostotal(sindistinguirgrupos).Estoequivalealasdesviacionesalamediadentrodecada
grupoentrelasdesviacionesalamediatotalsindistinguirgrupos.
1 1
Tambinsepuedeobtenerapartirdelarelacin: = = = 0,368
1 + 1 + 1,716
Cuantomscercade0seencuentre mayoreselpoderdiscriminantedelasvariables
consideradas,ycuantomscercade1menoreselpoderdiscriminante.
ElniveldesignificacincrticodeChicuadradoes0,002,p valor 0,002 0,05 ,loqueconducea

rechazarlahiptesisnuladeigualdadentrelosdosvectoresdemedias.Esdecir,lasdosvariablesde
formaglobalejercenunefectosignificativo,medidoatravsdelafuncindiscriminante,enla
separacindelosgrupos.
Loscoeficientesestandarizadosdelasfuncionesdiscriminantescannicasseobtienencuandose
tipificancadaunadelasvariablesclasificadoras,paraquetenganmedia0ydesviacintpica1.De
estaformaseevitanlosproblemasdeescalaquepudieranexistirentrelasvariables.
Lamagnituddeloscoeficientesestandarizadosesunindicadordelaimportanciaquetienecada
variableenelclculodelafuncindiscriminante.AslavariablePatrimonio_Netotieneuna
influenciamuchomayorquelavariableDeuda_Pendiente,asun35%superior.
22
Unaformademedirquevariablestienenmayor
poderdiscriminante,paraclasificaraunindividuo
enunodelosgrupos(fallidos,cumplidores),es
calcularelcoeficientedecorrelacinentrecada
unadelasvariablesylafuncindiscriminante.
LacorrelacindelafuncindiscriminanteconlavariablePatrimonio_Neto(0,748)esmayorenvalor
absolutoqueconlavariableDeuda_Pendiente(0,452).Lascomparacionesdebenhacersesiempre
envalorabsoluto.EnelprogramaSPSSlasvariablesaparecenordenadasdeacuerdoconelvalor
absolutodeloscoeficientesdecorrelacin.
Loscoeficientesdelasfuncionescannicasdiscriminantessonestrictamenteproporcionalesalos
coeficientesdelafuncindiscriminantelinealdeFisher(D C) : u1 = 1,036 , u2 = 0,932 , C = 3,524
Elfactordeproporcionalidades0,4074,estoes,cadacoeficienteesiguala0,4074multiplicadopor
elcoeficientedelafuncindiscriminantelinealdeFisher.Estoscoeficientesnoestandarizadosse
obtienenutilizandolaregladenormalizacin u' W u ,normadeldenominador:

= =
Variabilidadintra grupos u'Wu
Aspues,lanormaeslavariacinintragrupos.
SiseguardanlasPuntuacionesdiscriminatesaparececomovariableDis1_1enelEditordedatos
RecordarqueloscoeficientesdiscriminanteslinealesdeFisherseobtenanrestandoalos
coeficientesdeNoFallidosloscoeficientesdeFallidos.
23
SELECCIN DE VARIABLES
En las aplicaciones de anlisis discriminante se dispone frecuentemente de observaciones
de un nmero relativamente elevado de puntuaciones discriminantes.
Aunque hasta ahora se ha considerado que se conocen a priori cules son las variables
clasificadoras, en la prctica, cuando el nmero de variables es elevado, se impone aplicar
un mtodo que permita clasificar las variables con ms capacidad discriminante entre un
conjunto de variables ms amplio.
El procedimiento ms utilizado es la seleccin paso a paso (stepwise). En el procedimiento,

en cada paso puede entrar, y tambin salir, una variable en el conjunto seleccionado,
dependiendo del valor que tenga el estadstico F correspondiente a la lambda de Wilks o,
en general, al estadstico que se utilice como criterio. Cuanto mayor sea el valor de la F,
ms significativa ser la variable para la que se calcula. Antes de comenzar la aplicacin es
necesario fijar un valor mnimo F de entrada y un valor mximo F para salir.
Uso de la F: Una variable se introduce en el modelo si su valor de F es mayor que el valor
de entrada, y se elimina si su valor de F es menor que el valor de salida. La entrada debe
ser mayor que la salida y ambos valores deben ser positivos. Para introducir ms variables
en el modelo, se disminuye el valor de entrada. Para eliminar ms variables del modelo, se
eleva el valor de salida.
Uso de la probabilidad de F: Una variable se introduce en el modelo si el nivel de
significacin de su valor de F es menor que el valor de entrada, y se elimina si el nivel de
significacin de su valor de F es mayor que el valor de salida. La entrada debe ser menor
que la salida y ambos valores deben ser positivos. Para introducir ms variables en el
modelo, se eleva el valor de entrada. Para eliminar ms variables del modelo, se disminuye
el valor de salida.
El Resumen de los pasos muestra los estadsticos para todas las variables despus de
cada paso.
F para distancias por parejas muestra una matriz de razones F por parejas para cada
pareja de grupos.
CLCULO DE PROBABILIDADES DE PERTENENCIA A UNA POBLACIN

En muchas ocasiones es conveniente tener informacin complementaria a las puntuaciones
discriminantes. Con estas puntuaciones se puede clasificar a cada individuo, pero es
interesante disponer adems de informacin sobre la probabilidad de su pertenencia a cada
grupo, ya que ello permitira realizar anlisis ms matizados, e incluir otras informaciones
tales como la informacin a priori o los costes que implica una clasificacin errnea.
Para realizar este tipo de clculos se suelen asumir las hiptesis x g N( g , ) siendo
matriz covarianzas , pero considerando que se conocen los parmetros poblacionales.
El clculo de probabilidades se va a realizar en el contexto de la teora de la decisin. Que

permite tener en cuenta tanto la probabilidad de pertenencia a un grupo como los costes de
una clasificacin errnea. La clasificacin de los individuos se va a realizar utilizando el
teorema de Bayes.
La aplicacin del teorema de Bayes permite el clculo de las probabilidades a posteriori a

partir de estas probabilidades a priori y de la informacin muestral contenida en las
puntuaciones discriminantes.
24
Considerando el caso general de G grupos, el teorema de Bayes, establece que la
probabilidad a posteriori de pertenencia a un grupo g con una puntuacin discriminante
D Prob(g / D) es:
g x Prob(D / g)
Prob(g / D) G
x Prob(D / i)
i1
i
En el segundo miembro aparecen las probabilidades a priori g y las probabilidades

condicionadas Prob(D / g)
La probabilidad condicionada Prob(D / g) se obtiene calculando la probabilidad de la

puntuacin observada suponiendo la pertenencia a un grupo g.
Dado que el denominador del segundo miembro del cociente es una constante, se utiliza de
forma equivalente la expresin:
Prob(g / D) g x Prob(D / g) donde es una proporcionalidad
La clasificacin de cada individuo se puede realizar mediante la comparacin a posteriori.
As, se asignar un individuo al grupo para el cual sea mayor su probabilidad a posteriori.
Aunque a partir de ahora solamente se tratar el caso de 2 grupos, se presenta el clculo
de probabilidades de forma que sea fcilmente generalizada para G grupos.
El clculo de probabilidades se va a realizar bajo tres supuestos diferentes: (a) Clculo de

probabilidades sin informacin a priori. (b) Clculo de probabilidades con informacin a
priori. (c) Clculo de probabilidades con informacin a priori y costes.
(a) Clculo de probabilidades sin informacin a priori
Se considera que no existe conocimiento previo de las probabilidades de pertenencia a un

grupo. Cuando no existe dicha informacin, se adopta el supuesto de que la probabilidad de
pertenencia a ambos grupos es la misma, es decir, se adopta el supuesto de que I II .
Esto implica que estas probabilidades a priori no afectan a los clculos de las
probabilidades a posteriori.
F
eg
Prob(g / D) FI g I, II
e eFII
FI aI ,1 X1 aI ,2 X2 aI ,k Xk CI

F a X a X a X C
II II ,1 1 II ,2 2 II ,k k II
Un individuo se clasifica en el grupo para el que la probabilidad Prob(g / D) sea mayor. Este
criterio implica que un individuo se clasificar en el grupo I s FI FII .
Aplicando este criterio se llega a los mismos resultados que aplicando la funcin
discriminante de Fisher. Con lo que el punto de corte C que se haba definido:
25
DI DII
C es aplicable con este nuevo enfoque.
2
Otro criterio diferente para minimizar la probabilidad de clasificacin correcta, denominando

Prob(I/II) a la probabilidad de clasificar a un individuo en la poblacin I perteneciendo
realmente a la poblacin II y Prob(II/I) a la probabilidad de clasificar a un individuo en la
poblacin II perteneciendo a la poblacin I.
La probabilidad total de clasificacin errnea es igual: Prob(I/II) + Prob(II/I)
Bajo la hiptesis x g N( g , ) , minimizando la probabilidad se obtiene tambin como punto

de corte el valor C dado anteriormente.
(b) Clculo de probabilidades con informacin a priori
Cuando se utilizan probabilidades a priori, los individuos o casos se clasifican en el grupo

para el que la probabilidad a posteriori es mayor.
De acuerdo con la hiptesis x g N( g , ) , la probabilidad a posteriori de pertenencia a
cada grupo se calcula:
F
I e g
Prob(g / D) g I, II
I eFI II eFII
Con este criterio, un individuo se clasifica en el grupo I si: FI Ln( I ) FII Ln( II )
DI DII
El punto de corte discriminante: Cg Ln II
2 I
La ratio de probabilidades a priori debe establecerse de forma que el punto de corte se

desplace hacia el grupo menor con menor probabilidad a priori. Al desplazar el punto de
corte de esta forma, se tender a clasificar una proporcin menor de individuos en el grupo
con menor probabilidad a priori. Cuando las dos probabilidades a priori son igual a 1/2,
entonces Cg C .
(c) Clculo de probabilidades con informacin a priori y consideracin de costes
En ocasiones se dispone informacin de la probabilidad a priori sobre la pertenencia de un

individuo a cada uno de los grupos, as como el coste que una clasificacin errnea puede
tener.
Cuando se introducen costes de clasificacin no puede hablarse ya de clculo de
probabilidades a posteriori. No obstante se puede obtener un criterio para clasificar
minimizando el coste total de clasificacin errnea.
El coste total de clasificacin errnea viene dado por la expresin:
I x Prob(II/I) x Coste(II/I) + II x Prob(I/II) x Coste(I/II)
Al minimizar la expresin, bajo la hiptesis x g N( g , ) , el punto de corte discriminante:
DI DII x Coste(I/II)
Cg,c Ln II
2 I x Coste(II/I)
26
En los desarrollos se ha supuesto que las probabilidades son conocidas. En la prctica se
utilizan estadsticos muestrales en su lugar, provocando que se subestime la probabilidad
de clasificacin errnea, produciendo sesgos sistemticos en la clasificacin. Para disminuir
estos sesgos se han propuesto, entre otros, dos procedimientos alternativos.
Dividir la muestra total en dos submuestras, utilizando la primera submuestra para
estimar la funcin discriminante, mientras que la segunda se utiliza para su validacin. As,
la potencia discriminante de la funcin vendr determinada por el porcentaje de individuos
clasificados correctamente en esta segunda submuestra.
Jacknife: consiste en excluir un individuo del grupo I, calcular la funcin discriminante, y
clasificar despus al individuo que se ha excluido. Haciendo lo mismo con el resto de los
individuos del grupo I, se estima la Prob(II/I) con el porcentaje de individuos que han sido
clasificados en el grupo II.
Procediendo de la misma forma con los individuos del grupo II, se estima la Prob(I/II)
AnlisisdeprstamosfallidosenelBancoFuenterrebollo
Clculodeprobabilidades
LasalidadelVisor:
LasProbabilidadesaprioridepertenenciaalosgrupossesuponeniguales(0,5)
EnlosCoeficientesdelafuncindeclasificacinsemuestranloscoeficientesdelasfuncionesde
clasificacinqueseobtendranbajoelsupuestodeNormalidadbivariantepara (X1 ,X2 ) enambas
poblaciones,utilizandoelcriteriodelamximaverosimilitudyprobabilidades(0,5) aprioriiguales.
27
Lasfuncionesdeclasificacinson:
FI = 0,777 x Patrimonio_Neto + 1,296 x Deuda_Pendiente 5,876
F = 1,813 x Patrimonio_Neto + 0,364 x Deuda_Pendiente 9,396

II
ParaelgrupoI
1 ' 1
Lafuncindeclasificacinesdelaforma: DI xI' S 1 x xI S xI Ln (I )
2
X1, I 5 X1, II 9
Loscentrosdegravedadocentroidesdelosdosgrupos: xI = = xII
X2, I 5 X2, II 3
4,764 1,001
Matrizintragrupocombinada: S =
1,001 3,259
1 1
4,764 1,001 X1 1 4,764 1,001 5
FI 5 5 X 2 5 5 1,001 3,259 5 Ln(0,5)
1,001 3,259 2
0,224 0,069 X1 1 0,224 0,069 5

5 5 X 2 5 5 0,069 0,328 5 Ln(0,5)
0,069 0,328 2
X X2

1
0,77734 x Patrimonio _Neto 1,296 x Deuda_Pendiente 5,876
ParaelgrupoII
1 ' 1
Lafuncindeclasificacinesdelaforma: DII xII' S 1 x xII S xII Ln (II )
2
1 1
4,764 1,001 X1 1 4,764 1,001 9
FII = 9 3 9 3 + Ln(0,5) =
1,001 3,259 X2 2 1,001 3,259 3
X X2

1
= 1,813 x Patrimonio_Neto + 0,364 x Deuda_Pendiente 9,396
Cadaindividuoserasignadoalgrupoenelqueobtengaunmayorvalordeestasfunciones.
LafuncindiscriminantedeFisher:D C FII FI
28
X X2

1
D C = (1,813 0,777) x Patrimonio_Neto + (0,364 1,296) x Deuda_Pendiente (9,396 5,876) =
= 1,036 x X1 0,932 x X2 3,524
Paracadacaso,semuestranlaspuntuacionesdiscriminantes,lasdistanciasdeMahalanobisde
dichaspuntuacionesalcentroidedecadagrupoylasprobabilidadesaposterioriobtenidasapartir
deesasdistancias.
Seobservaquelasprobabilidadesdepertenenciaalpropiogrupossonelevadasexceptoenel
clientecumplidor13,queseclasificaerrneamenteenelgrupodelosfallidosyqueporaadidura
tieneunaprobabilidadmuybajadepertenencia(0,1367)algrupodeloscumplidores.
29
Comosegundaaplicacin,serealizalaclasificacinincorporandoinformacinapriori.
Enestecaso,paraclasificaralosclientesseutilizaelpuntodecortediscriminante
D + DII
Cg = I Ln II ,estableciendoque I 0,1 y II 0,9
2 I
DI 1,036 x X1, I 0,932 x X2, I 1,036 x 5 0,932 x 5 0,52
DII 1,036 x X1, II 0,932 x X2, II 1,036 x 9 0,932 x 3 6,528
DI DII 0,52 6,528 0,9

Cg Ln II Ln 1,3268
2 I 2 0,1
Pararealizarlaclasificacinconintroduccindeprobabilidadesapriorisevaautilizarla
informacindelafuncindiscriminantedeFisher D C = 1,036 x X1 0,932 x X2 3,524 ,
cambiandolaconstantepor Cg = 1,3268 ,conloque D C g = 1,036 x X1 0,932 x X2 1,3268
Patrimonio Deuda Puntuacin Clasificado NuevaPuntuacin Clasificado

Cliente
neto pendiente Discriminante como Discriminante como
1 1,3 4,1 5,9984 I 3,8012 I
2 3,7 6,9 6,1216 I 3,9244 I
3 5 3 1,14 I 1,0572 II
4 5,9 6,5 3,4696 I 1,2724 I
5 7,1 5,4 1,2012 I 0,996 II
6 4 2,7 1,8964 I 0,3008 II
7 7,9 7,6 2,4228 I 0,2256 I
8 5,1 3,8 1,782 I 0,4152 II
9 5,2 1 0,9312 II 3,1284 II
10 9,8 4,2 2,7144 II 4,9116 II
11 9 4,8 1,3264 II 3,5236 II
12 12 2 7,044 II 9,2412 II
13 6,3 5,2 1,8436 I 0,3536 II
14 8,7 1,1 4,464 II 6,6612 II
15 11,1 4,1 4,1544 II 6,3516 II
16 9,9 1,6 5,2412 II 7,4384 II
Losclientes3,5,6y8,queantesestabanclasificadoscomofallidos,seclasificanahoracomo
cumplidores,yaquesupuntuacinhapasadodenegativaapositiva.Lomismoocurreconelcliente
13,queanteriormenteestabaclasificadoerrneamentecomofallidosiendocumplidor.
Ahorasevaacalcularelpuntodecortediscriminanteteniendoencuentalainformacinapriori
eincorporandotambinloscostesdelaclasificacinerrnea.Seadoptaqueelcostedeclasificar
comocumplidoraunclientefallidoes20vecessuperiorqueelcostedeclasificarcomofallidoaun
clientecumplidor.
Esdecir,seestablecelaratio Coste(II / I) 20 x Coste(I / II)
DI DII x Coste(I/II)
Elpuntodecortediscriminante: Cg ,c Ln II
2 I x Coste(II/I)
30
DI DII x Coste(I/II) 0,52 6,528 0,9
Cg ,c Ln II Ln 4,3225
2 I x Coste(II/I) 2 0,1 x 20
Laincorporacindeloscosteshadeterminadoqueelnuevopuntodecortediscriminante
Cg ,c 4,3225 se encuentre situado a la derecha del punto C 3,524 , a diferencia de los que
ocurra cuando solamente se tenan en cuenta las probabilidades a priori Cg 1,3268
Pararealizarlaclasificacinconintroduccindeprobabilidadesaprioriyconsideracindecostesse
utilizalainformacindelafuncindiscriminantedeFisher D C = 1,036 x X1 0,932 x X2 3,524 ,
cambiandolaconstantepor Cg ,c 4,3225 ,conloque D C g ,c = 1,036 x X1 0,932 x X2 4,3225
Patrimonio Deuda Puntuacin Clasificado NuevaPuntuacin Clasificado

Cliente
neto pendiente Discriminante como Discriminante como
1 1,3 4,1 5,9984 I 6,7969 I
2 3,7 6,9 6,1216 I 6,9201 I
3 5 3 1,14 I 1,9385 I
4 5,9 6,5 3,4696 I 4,2681 I
5 7,1 5,4 1,2012 I 1,9997 I
6 4 2,7 1,8964 I 2,6949 I
7 7,9 7,6 2,4228 I 3,2213 I
8 5,1 3,8 1,782 I 2,5805 I
9 5,2 1 0,9312 II 0,1327 II
10 9,8 4,2 2,7144 II 1,9159 II
11 9 4,8 1,3264 II 0,5279 II
12 12 2 7,044 II 6,2455 II
13 6,3 5,2 1,8436 I 2,6421 I
14 8,7 1,1 4,464 II 3,6655 II
15 11,1 4,1 4,1544 II 3,3559 II
16 9,9 1,6 5,2412 II 4,4427 II
Seobservaquenosealteralaclasificacindeningnclienterespectoalautilizacindelpuntode
cortediscriminanteinicialC.Esdecir,laincorporacindeloscostesdeclasificacinerrneaha
compensado,msomenos,lamenorprobabilidadapriorideserunclientefallido.
31
CLASIFICACIN CON MS DE DOS GRUPOS
Es un caso general del anlisis discriminante con G grupos ( G 2 ), denominado anlisis
discriminante mltiple, el nmero mximo de ejes discriminantes que se pueden obtener
viene dado por min(G 1, k) . En consecuencia, pueden obtenerse hasta G 1 ejes
discriminantes, s el nmero de variables explicativas k G 1, hecho que suele ser
siempre cierto, ya que en las aplicaciones prcticas el nmero de variables explicativas
suele ser grande.
Cada una de las funciones discriminantes Di se obtiene como funcin lineal de las k
variables explicativas X, es decir:
Di = ui,1 X1 + ui,2 X2 + + ui,k Xk i = 1, 2, , G -1
Los G -1 ejes discriminantes vienen definidos respectivamente por los vectores

u1,u2 , , uG-1 , definido mediante las expresiones:
u11 u21 uG1 1

u u
uG1 2
u1 12 u2 22 .... uG1

u1k u2k uG1 k
Para la obtencin del primer eje discriminante, al igual que en el caso de dos grupos, se
u ' F u1
maximiza 1 , siendo: 1 = 1
u1' W u1
La solucin a este problema se obtiene derivando 1 respecto de u e igualando a cero, es

decir:
1 2 Fu1 (u1 ' W u1 ) 2 W u1 (u1 ' F u1 )

0 2 Fu1 (u1 ' W u1 ) 2 W u1 (u1 ' F u1 ) 0
u1 (u1 ' W u1 )2
2 Fu1 u ' F u1
1 1 Fu1 1 W u1 W 1 Fu1 1 u1
2 W u1 u1 ' W u1
En consecuencia, la ecuacin para obtener el primer eje discriminante W 1 Fu1 1 u1 se

traduce en la obtencin de un vector propio u1 asociado a la matriz no simtrica W -1 F .
De los valores propios 1 que se obtienen al resolver la ecuacin W 1 Fu1 1 u1 se retiene

el mayor, ya que precisamente 1 es la ratio que se tiene que maximizar y u1 es el vector
propio asociado al mayor valor propio de la matriz W -1 F .
Dado que 1 es la ratio a maximizar, cuando se calcule medir el poder discriminante del
primer eje discriminante. El resto de los ejes discriminantes son otros vectores
caractersticos de la matriz W -1 F , ordenados segn el orden decreciente de las races
caractersticas. As, el segundo eje discriminante tendr menos poder discriminante que el
primero, pero ms que cualquiera de los restantes.
32
Como la matriz W -1 F no es simtrica, los ejes discriminantes no sern en general
ortogonales, es decir, perpendiculares entre s.
Contrastes de significacin
En el anlisis discriminante mltiple se plantean contrastes especficos para determinar si
cada uno de los valores 1 es estadsticamente significativo, es decir, para determinar si
cada uno de los valores 1 contribuye o no a la discriminacin entre los diferentes grupos.
Este tipo de contrastes se realiza a partir del estadstico V de Barlett, estadstico que es
funcin de la de Wilks y se aproxima a una Chi-cuadrado, con inters en el anlisis
discriminante por su descomponibilidad. Su expresin es la siguiente:

V n 1
kG
2
Ln k2 (G1)
W
T
El estadstico V de Barlett contrasta la hiptesis nula H0 : 1 = 2 = L = G , frente a la

hiptesis alternativa H1 : No todas g son iguales . La hiptesis nula ha de ser rechazada
para que se pueda continuar con el anlisis discriminante, porque en caso contrario las
variables clasificadoras utilizadas no tendran poder discriminante alguno.
Sealar que W es la matriz suma de cuadrados y productos cruzados intra-grupos en el

anlisis de la varianza mltiple y T es la matriz suma de cuadrados y productos cruzados
total.
Para examinar el poder discriminante de cada uno de los ejes que contribuyen al anlisis
discriminante existe un estadstico de Barlett para la contrastacin secuencial, que se
elabora a partir de la descomposicin de Wilks, en productos en los que aparecen las
races caractersticas j .
De acuerdo con su definicin, el recproco de se puede expresar:
1 T -1
= = W T = W -1 T = W -1 (W + F) = I + W -1 F
W
Como el determinante de una matriz es igual al producto de sus valores propios, se tiene:
1
= (1+ 1 )(1+ 2 ) (1 G1 )

Esta expresin puede sustituirse en el estadstico V de Barlett, obteniendo una expresin

alternativa:

G1
kG k G
V n 1 Ln n 1 Ln(1 g ) k2 (G1)
2 2 g1
Si se rechaza la hiptesis nula de igualdad de medias, al menos uno de los ejes

discriminantes es estadsticamente significativo, y ser el primero, porque es el que tiene
mayor poder discriminante.
Una vez visto que el primer eje discriminante es significativo, se pasa a analizar la
significatividad del segundo eje discriminante a partir del estadstico:
33

G1
kG k G
V n 1 Ln n 1 Ln(1 g ) (k2 1)(G1)
2 2 g 2
De forma anloga se analiza la significatividad de sucesivos ejes discriminantes, pudiendo

establecerse el estadstico V de Barlett genrico para contrastacin secuencial de la
significatividad del eje discriminante j-simo como:

G 1
kG k G
Vj n 1 Ln n 1 Ln(1 g ) (k2 j)(G j1) j = 0, 1, 2, , G - 2
2 2 g j1
En este proceso secuencial se van eliminando del estadstico V las races caractersticas
que van resultando significativas, deteniendo el proceso cuando se acepte la hiptesis nula
de no significatividad de los ejes discriminantes que queden por contrastar.
Como una medida descriptiva complementaria de este contraste se suele calcular el

porcentaje acumulativo de la varianza despus de la incorporacin de cada nueva funcin
discriminante.
ANLISIS DISCRIMINANTE CANNICO

En el anlisis discriminante hay dos enfoques: El primero de ellos est basado en la
obtencin de funciones discriminantes de clculo similar a las ecuaciones de regresin
lineal mltiple (el que se ha tratado hasta ahora). El segundo enfoque emplea tcnicas de
correlacin cannica y de componentes principales y se denomina anlisis discriminante
cannico.
El anlisis de componentes principales es una tcnica multivariante que persigue reducir la

dimensin de una tabla de datos excesivamente grande por el elevado nmero de variables
que contiene x1 , x2 , , xn y quedarse con unas cuantas variables C1 , C2 , , Cp
combinacin de las iniciales (componentes principales) perfectamente calculables y que
sinteticen la mayor parte de la informacin contenida en sus datos.
Inicialmente se tienen tantas componentes como variables:
C1 a11 x1 a12 x 2 a1n xn

Cn an1 x1 an2 x 2 ann xn
Pero slo se retienen las p componentes (componentes principales) que explican un

porcentaje alto de la variabilidad de las variables iniciales (C1 , C2 , , Cp ) .
La primera componente C1 tiene asociado el mayor valor propio de la matriz inicial de datos
y que las sucesivas componentes C2 , , Cp tienen asociados los siguientes valores
propios en cuanta decreciente de su mdulo.
De esta forma, el anlisis discriminante de dos grupos equivaldra al anlisis de

componentes principales con una sola componente C1 .
La nica funcin discriminante cannica ser la ecuacin de la componente principal
C1 a11 x1 a12 x 2 a1n xn y el valor propio asociado sera el poder discriminante.
34
Para el anlisis discriminante de tres grupos las funciones discriminantes cannicas sern
las ecuaciones de las dos primeras componentes principales C1 y C2 , siendo su poder
discriminante los dos primeros valores propios de la matriz de datos.
De este modo, las componentes principales pueden considerarse como los sucesivos ejes
de discriminacin. Los coeficientes de la ecuacin de cada componente principal, es decir,
de cada eje discriminante, muestran el peso que cada variable aporta a la discriminacin.
Sealar que estos coeficientes estn afectados por las escalas de medida, lo que indica
que todas las variables deben presentar unidades parecidas, lo que se consigue
estandarizando las variables iniciales antes de calcular las componentes principales.
ConcesindeprstamosdelBancoFuenterrebollo
EldirectordelBancodeFuenterrebollosepreocupaporelaumentodeclientesmorososyfallidos.
Conelobjetodepaliaresteproblema,encargaunestudioquepermitaidentificarconlamayor
precisinlassolicitudesdeprstamosquepuedanllegaraconvertirseenprstamosmorososo
fallidos,encasodequeseconcedieran.
DespusdeanalizarladocumentacinexistenteenelBanco,elinvestigadorsolamentepuede
conseguirinformacincompletaacercade25clientesalosquesehanconcedidoprstamosenlos
dosltimosaos.
Elestudioqueseplanteaelinvestigadoresconstruirfuncionesdiscriminantesquepermitan
clasificar,conlosmenoserroresposibles,alosclientesendiferentesgrupos.Siseobtienenbuenos
resultados,estasfuncionesdiscriminantessepodrnutilizarparaanalizarsiseconcedeun
prstamoonoaunfuturosolicitante.
Elinvestigadorconstruyelatablaadjuntaconlossiguientescdigos:
Categora:Gradodecumplimientodelclienteenelreintegrodelprstamo.
Tomalosvalores:1="Clientecumplidor"2="Clientemoroso"3="Clientefallido"
Ingresos:Ingresosanualesnetosenmilesdeeuros.
Patrimonio:Patrimonionetoenmilesdeeuros.
Vivienda:Variabledicotmicaquetomalosvalores:0="NoPropietario"1="Propietario"
Casado:Variabledicotmicaquetomalosvalores:0="Otrasituacin"1="Casado"
Contrato_trabajo:Variabledicotmicaconvalores:0="Otrasituacin"1="Contratofijo"
35
Cliente Categora Ingresos Patrimonio Vivienda Casado Contratotrabajo
1 1 32,7 336 1 1 0
2 1 18,6 204 1 0 1
3 1 24,6 138 0 1 1
4 1 37,2 270 1 0 1
5 1 23,7 114 1 1 1
6 1 7,5 132 1 1 1
7 1 29,4 90 0 1 1
8 1 53,4 228 1 1 1
9 1 20,1 324 0 1 1
10 1 31,2 480 1 1 0
11 1 17,1 108 1 1 1
12 1 39 132 1 1 1
13 1 45,6 216 1 1 1
14 2 26,1 234 1 1 0
15 2 8,1 48 0 1 1
16 2 12,6 114 0 0 1
17 2 8,7 150 1 0 1
18 2 38,4 24 0 1 1
19 2 22,8 114 1 1 0
20 2 14,7 60 0 1 1
21 3 19,8 42 0 1 0
22 3 5,1 72 0 1 0
23 3 7,2 30 1 1 1
24 3 11,1 36 1 0 0
25 3 15,9 150 0 0 0
EnlasalidadelVisor:
36
Lasmediasdelascincovariablesintroducidascomoindependientesenelanlisissonmayoresenla
categoradecumplidoresqueenlasotrascategoras.
As,losclientescumplidores,enrelacinconlosotrosdosgrupos(morosos,fallidos),tienen
mayoresingresos,unmayorpatrimonio,sonpropietariosdelaviviendaquehabitan,estncasados
ysonasalariadosconcontratofijo.
Serechazalaigualdaddemediascuandoel Sig(p valor) deltestF(queeseltestANOVA)esbajo.En

consecuencia,seaceptalahiptesisnuladequelosgruposenmediasoniguales.
Aparecelatabladellogaritmodeldeterminantedelasmatricesdecovarianzasdelosresiduosde
V
cadacelda,calculadassegnlaexpresin Sg = g
ng 1
Lamatriz S g esunaestimacindelamatrizdecovarianzascorrespondientealaceldagsima g
37
G G

g=1
Vg (n 1)S
g=1
g g
Lamatrizdecovarianzasglobalsecalculasegnlaexpresin S = = donde S es
nG nG
unaestimacindelamatrizdecovarianzasglobal ,ascomoelrangodecadaunadeestas
matrices.
Loslogaritmosdelosdeterminantesdetodas
lasmatricesutilizadasenelclculodel
estadsticoMdeBox.
Latablapermitecomprobarqugrupos
difierenms.
Silasmatricessonnosingulares(tieneninversa)surangodebedeser5.Seobserva,enestecaso,
quelamatrizcorrespondientealgrupo3(Clientefallido)nosecalculaporqueexistenmuypocos
casosparasernosingular.Sepuedeverqueelnmerodeindividuosquepertenecenalgrupo3
(Clientesfallido)esjustamente5yconestetamaolamatrizdecovarianzasdelosresiduoses
necesariamentesingular.
Lasmatricessondeorden 5 x 5 yaqueexistencincovariablesclasificadoras.Silasmatricessonno
singulares(tieneninversa)surangodebedeser5.
Debidoaquelamatrizdelgrupo3(fallidos)essingular,SPSScontrastalaigualdaddelasmatrices
decovarianzaspoblacionalesenlosgrupos1y2(clientecumplidoresymorosos),estimandola
matrizdecovarianzasglobalconlosdatosdeestosdosgrupos.
Elniveldesignificacincrticoqueseobtieneenestecontrastees0,048,conloqueseaceptala
hiptesisnulaparaunniveldesignificacindel1%( 0,048 0,01 ),peronoparaunniveldel5%
( 0,048 0,05 ,rechazndoseentonceslahiptesisnula).
38
Enelresumendelasfuncionescannicasdiscriminantes:
ElcuadrodeAutovalorespresentalosautovaloresdelasfuncionescannicasdiscriminantes,que
midenlasdesviacionesdelaspuntuacionesdiscriminantesentregruposrespectoalasdesviaciones
dentrodelosgrupos.
Elautovalordeunafuncinseinterpretacomolapartedevariabilidadtotaldelanubedepuntos
proyectadasobreelconjuntodetodaslasfuncionesatribuiblealafuncin.
Sisuvaloresgrande,lafuncindiscriminamucho.
Lascorrelacionescannicasmidenlasdesviacionesdelaspuntuacionesdiscriminantesentre
gruposrespectoalasdesviacionestotalessindistinguirgrupo.Sisuvaloresgrande(prximoa1)la
dispersinserdebidaalasdiferenciasentregrupos,yportantolafuncindiscriminarmucho.
Enelcuadroseobservaquelosvaloresdelacorrelacincannicadecrecen 0,883 0,203 y,por

tanto,laprimerafuncindiscriminamsquelasegunda.
Conlosautovaloresocurrelomismo, 2,264 0,043 .Laprimerafuncinexplicael98,1%dela

variabilidadtotal,mientrasquelasegundafuncinexplicaelrestante1,9%.Laprimerafuncinesla
quevaadarprcticamentelaclasificacin,mientrasquelasegundaaportapocainformacin,como
seobservaenlaLambdadeWilksqueessignificativa.Conloqueaefectosprcticossepodra
prescindirdelasegundafuncindiscriminante,sinqueafectasedeformaimportantealos
resultadosdelaclasificacin.
LaLambdadeWilkstienemayorpoderdiscriminantecuandomsseaproximaa0ymenoscuanto
msseaproximaa1.
EnlaLambdadeWilksseaplicaelcontrastedesignificacinparaelconjuntodelosdosejes
discriminantes.ElcontrasteVdeBarlettqueseaplicaes:
G 1
k G
Vj n 1
2 Ln(1 )
g j 1
g donde j 0, 1 Vj (k
2
j)(G j 1)
k G 2 3
V0 n 1 ln(1 1 ) ln(1 2 ) 25 1 Ln(1 2,264) Ln(1 0,043) 26,343
2 2
39
LosgradosdelibertaddelaChicuadradoson (k j)(G j1) (2 0)(3 0 1) 4 yelnivelde
significacincrticoes 0,000 0,05 rechazando,portanto,lahiptesisnula,loquesignificaqueal
menosunodelosejesdiscriminantesessignificativo.Esdecir,elprimerejediscriminantees
significativo(eselquetienemayorpoderdiscriminante).Advirtasequesinoserechazalahiptesis
nulanodeberacontinuarelanlisis.
ObsrvesequesecumplelarelacinentrelaLambdadeWilksylasracescaractersticas
(autovalores):
1 1
0 0,294
(1 1 ) (1 2 ) (1 2,264) (1 0,043)
Unavezdeterminadalasignificatividaddelprimerejediscriminante,secontrastalasignificatividad
delosrestantes,enestecaso,delsegundoejediscriminante.Elcontrasteaaplicareselsiguiente:
K G 2 3
V1 n 1 ln(1 2 ) 25 1 ln(1 0,043) 0,909
2 2
LosgradosdelibertaddelaChicuadradoson (K 1)(G 1 1) (2 1)(3 1 1) 1 (enelanlisisno

entran3variablesclasificadoras)yelniveldesignificacincrticoes0,340>0,05,aceptandola
hiptesisnula,loquesignificaqueelsegundoejediscriminantenoessignificativamentedistintode
0paracualquieradelosnivelesdesignificacinusuales.
LarelacinentrelaLambdadeWilks(obtenidadespusdeexcluirlaprimerafuncindiscriminante)
ylasegundarazcaracterstica(segundoautovalor)eslasiguiente:
1 1
1 0,959
(1 2 ) (1 0,043)
Comoinformacincomplementaria,secalculalacorrelacincannicadecadafuncindiscriminante
conlavariablecategricaquedefinelosgrupos,obtenindose:
1 2,264 1 0,043
1 0,833 2 0,203
1 1 1 2,264 1 1 1 0,043
Lasfuncionesdiscriminantescannicasestandarizadas:
D1 1,193 x Patrimonio 1,154 x Contrato _ Trabajo
D2 0,511 x Patrimonio 0,594 x Contrato _ Trabajo
40
Conloscoeficientesdelafuncindiscriminantecannicaestandarizados(media0ydesviacintpica
1)seevitanlosproblemasdeescalaquepudieranexistirentrelasvariables.
Enconsecuencia,lasmagnitudesdeloscoeficientesestandarizadossonunindicadordela
importanciaquetienelavariableenelclculodelafuncindiscriminante.
Lamatrizdeestructurafacilitaconocerculessonlasvariablesquetienenmayorpoder
discriminanteenordenaclasificaraunindividuoenunodelosgrupos(cumplidor,moroso,fallido).
Unaformademediresepoderdiscriminanteescalculandoelcoeficientedecorrelacinentrecada
unadelasvariablesylafuncindiscriminante.Conunasteriscoseindicaelcoeficientemsgrande
(envalorabsoluto)quetienecadavariable.
As,lavariableCasadotienensumayorcoeficienteconlafuncindiscriminante1,mientrasquelas
variablesContrato_TrabajoeIngresoslotienenconlafuncindiscriminante2.
Loscoeficientesdelasfuncionescannicasdiscriminantesindicancomosepuedenescribirlas
funcionesdiscriminantes:
Lasfuncionesdiscriminantescannicassinestandarizar:
D1 0,013 x Patrimonio 2,734 x Contrato _ Trabajo 3,796
D2 0,005 x Patrimonio 1,406 x Contrato _ Trabajo 0,126
41
Lasfuncionesenloscentroidesdelosgruposdaunaideadecmolasfuncionesdiscriminangrupos.
LadiscriminacinesbuenatalycomoyahabaaseguradolaLambdadeWilks.
Aparecenlaspuntuacionesdeloscentroidesdelosgrupos(Patrimonio_Neto,Contrato_Trabajo)
conrespectoalasfuncionesdiscriminantes(convienedarsecuentaqueenestecasonohayun
puntodecortediscriminante,pueselconjuntodedatosseencuentraseparadoentresgrupos).
EnEstadsticosdeclasificacin
Faltacalcularelvalordetresfuncionesdeclasificacin,yseclasificaracadaindividuoenaqul
grupocuyafuncindiscriminanteresultetomarelmayorvalor.
Lasfuncionesdeclasificacinson:
FI 0,063 x Patrimonio 13,721 x Contrato _ Trabajo 13,590 cliente cumplidor
FII 0,039 x Patrimonio 9,604 x Contrato _ Trabajo 6,607 cliente moroso
FIII 0,018 x Patrimonio 3,662 x Contrato _ Trabajo 2,051 cliente fallido
Parasuaplicacin,secalculalapuntuacindecadaindividuoencadaunodelosgrupos,utilizando
lasfuncionesclasificadoras.Finalmente,unindividuoseclasificaenelgrupoenelquehaalcanzado
lapuntuacinmselevada.
Conelcriteriosealado,seleccionandoenel
botnGuardar...laopcinGrupode
pertenenciapronosticado,seincorporaal
EditorlaspuntuacionesdiscriminantesDis_1
conelgrupodepertenencia(categora)de
cadaindividuo
42
Delos13clientescumplidoresseclasificana10correctamentecomocumplidoresya3como
morosos(5,7y12).Elporcentajedeaciertoesdel76,9%
Delos7clientesmorososseclasificana5correctamentecomomorosos,a1comocumplidor
(17)y1comofallido(19).Porcentajedeacierto71,4%
43
Delos5clientesfallidos,seclasificacorrectamentea4y1comomoroso(23).Porcentajede
acierto80%
LosresultadosdelainvestigacinsatisfacenaldirectordelBancodeFuenterrebollo,yaquese
obtieneunporcentajeelevadodeclientesclasificadoscorrectamente(76%).AlBancolepreocupa
sobretodoqueunclientemorosoofallidopuedeserconsideradocomocumplidor,yaqueelcoste
deunaclasificacinerrneadeestetipoesmuyelevadoparalaentidad.Enestesentido,hayun
clientemoroso(17)quehasidoclasificadocomocumplidor.
Comoresultadodelainvestigacin,elBancoFuenterrebollodisponedeuninstrumentovaliosoque
utilizarenelanlisisdelassolicitudesdenuevosprstamos.
EnProbabilidadespreviasparalosgrupossepresentanlasprobabilidadesapriori,queseutilizan
tambinparaclasificaralosindividuosengrupos.EnelbotnClasificacin...sehautilizadola
opcinCalcularsegneltamaodelosgrupos.
SisehubieraoptadoporTodoslosgruposiguales,cadaindividuotendraapriorilamisma
probabilidadde1/3deperteneceracadaunodelosgrupos.
Enlatablaestadsticosporcasosseobservanelgruporealyelpronosticado(paragrupomayory
segundogrupomayor)alquepertenececadaindividuo.
Unindividuoseclasificaenelgrupoenelquesupertenenciatieneunamayorprobabilidada
posteriori.
Cuandoelgruporealenquecaeelindividuoyelpronosticadoengrupomayornocoinciden,hayun
errordeclasificacindelindividuo,aparececonunasteriscoreflejaqueelindividuoaque
correspondaseleclasificadeformaerrnea.
Enlacolumnadelsegundogrupomayorseobservanlosgruposaquepertenececadaindividuoen
segundolugarensentidoprobabilstico(peroelimportanteeselgrupomayor).
Noaparecelacolumnaetiquetadacon(valoresfaltantes)dondesereflejacasosoindividuospara
losquenosedisponedeinformacincompleta.
Lasdosltimascolumnasserefierenalaspuntuacionesdiscriminantes.Cadaunadeellas
correspondeaunafuncindiscriminante.Secalculanutilizandoloscoeficientesdelasfunciones
discriminantescannicasnoestandarizadas.
44
Paracadacaso,semuestraelclculodeprobabilidadesaposteriori,lasdistanciasdeMahalanobis
dedichaspuntuacionesalcentroidedecadagrupo,lasprobabilidadesaposterioriobtenidasapartir
deesasdistanciasyresultadosdelaclasificacin.
Laprobabilidadaposterioriseledesignacomo P (G = g / D = d) ,seindicalaprobabilidada
posteriorimsalta(grupomayor)conindicacinalgrupoalquecorrespondeylasegunda
probabilidadmsalta(segundogrupomayor)tambinconindicacindelgrupo.
Juntoalaprobabilidadmsaltaaparecelaprobabilidaddelapuntuacindiscriminante
condicionadaalgrupo, P (D > d / G = g) ,quenotieneunintersespecialenelanlisis
discriminante.
Seobservaquehaycincocasosmalclasificados(7,16,17,19y23)
Conelcriteriosealado,seleccionandoenel
botnGuardar...laopcinProbabilidadesde
pertenenciaalgrupo,seincorporanalEditor
lasprobabilidadesaposterioriDis1_1,Dis2_1
yDis3_1.
45
Unindividuoseclasificaenelgrupoquetienemayorprobabilidadaposteriori
max (Dis1_1,Dis2 _1,Dis3_1) es P(G = g / D = d) enelgrupomayor.
46
Elmapaterritorialrepresentalaspuntuacionesenlasfuncionesdiscriminantescannicas,en
abscisassesitanlaspuntuacionesenlafuncin1yenordenadaslaspuntuacionesenlafuncin2.
Elreasituadaenlapartederechadelafuncindiscriminante1eslacorrespondientealgrupo1,
mientrasqueelreadelaizquierdacorrespondealgrupo3.Seclasificanenelgrupo2,los
individuosconpuntuacionesdiscriminantescannicassituadaseneltringulodelapartecentral.
Elmapaterritorialtambinseutilizaparaclasificarindividuosfuturos.Paraelloseobservanlas
puntuacionesdiscriminantesconsideradasyseobservaaqugrupocorrespondelaregindel
mapaterritorialenquesesitaelpuntocuyascoordenadassonprecisamentelaspuntuaciones
discriminantescitadas.
47

Analisis Discriminante

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Analisis Discriminante

Transféré par

Droits d'auteur :

Formats disponibles

AnlisisDiscriminante

La pertenencia de un individuo a uno u otro grupo se introduce en el anlisis mediante una

La informacin de las variables clasificadoras se sintetiza en unas funciones, denominadas

El anlisis discriminante persigue explicar la pertenencia de cada individuo original a uno u

El anlisis discriminante est muy relacionado con el anlisis multivariante de la varianza

A partir de la variable cualitativa se obtendr un modelo matemtico discriminante contra el

En la clasificacin discriminante hay dos enfoques:

El primer enfoque es el ms comn y su fundamento matemtico est en conseguir, a partir

Funcin discriminante de Fisher

Se trata de obtener los coeficientes de ponderacin u j . Considerando que existen n

Di = u1 X1i + u2 X2i + + uk Xki i 1, 2, , n

Di es la puntuacin discriminante correspondiente a la observacin i-sima.

Expresando las variables explicativas en desviaciones respecto a la media, Di tambin lo

D1 X11 X21 Xk1 u1

La variabilidad de la funcin discriminante (suma de cuadrados de las variables

d'd = u' X' X u

Segn la teora del anlisis multivariante de la varianza, X'X se puede descomponer en la

En consecuencia, d'd = u' X' X u = u' T u = u'Fu + u' W u

Donde T, F y W son las matrices del SCPC total, entre-grupos e intra-grupos

Analticamente, el criterio de Fisher para la obtencin de la funcin discriminante:

La solucin a este problema se obtiene derivando respecto de u e igualando a cero, es

En consecuencia, la ecuacin para obtener el primer eje discriminante W 1 Fu u se

En el caso general de un anlisis discriminante con G grupos (G 2) , el nmero mximo

Como la matriz W -1 F no es simtrica, los ejes discriminantes no sern en general

En el caso de anlisis discriminante con dos grupos, los coeficientes (u1, u2 , , uk )

Las puntuaciones discriminantes se corresponden con los valores obtenidos al proyectar

DI = u1 X1, I + u2 X2, I + uk Xk, I

Di C Se clasifica al individuo i en el Grupo I

En general, cuando se aplica el anlisis discriminante se le resta el valor de C a la funcin

En este ltimo caso,

Di C 0 Se clasifica al individuo i en el Grupo I

FI aI,1 X1 aI,2 X2 aI,k Xk CI

FII FI (aII,1 aI,1 ) X1 (aII,2 aI,2 ) X2 (aII,k aI,k ) Xk (CII CI )

se pueden obtener los coeficientes (u1, u2 , , uk ) .

ANLISIS DE REGRESIN: La relacin entre el anlisis de la regresin y el anlisis

DISTANCIA DE MAHALANOBIS: Es una generalizacin de la distancia eucldea que tiene

El cuadrado de la distancia de Mahalanobis DMi,j2 entre los puntos i y j en un espacio de p

donde los vectores xi y x j representan dos puntos en el espacio p-dimensional.

La distancia eucldea es un caso particular de la distancia de Mahalanobis, donde Vw = I .

La distancia eucldea no tiene en cuenta la dispersin de las variables y las relaciones

Sealar que la distancia de Mahalanobis se calcula en el espacio de las variables

PRCTICO EN EL BANCO FUENTERREBOLLO

Lasmediasmuestralesdelosdosgruposson: X1,I 5 , X1, II 9

Lasmediasmuestralesdelosdosgruposson: X2,I 5 , X2, II 3

Sustituyendoenlafuncinanterior X1 y X2 porlasmedias X1, I y X2, I delgrupoI,seobtiene:

DI 1,036 x X1, I 0,932 x X2, I 1,036 x 5 0,932 x 5 0,52

DII 1,036 x X1, II 0,932 x X2, II 1,036 x 9 0,932 x 3 6,528

DI DII 0,52 6,528

D C = 1,036 x X1 0,932 x X2 3,524

Grupo Patrimonio Deuda Puntuacin

u1 = 1,036 u2 = 0,932 C = 3,52 4

Paraobtenerloscoeficientes u1, u2 serecurrealasfuncionesdiscriminantesdeFisher:

FII FI (aII,1 aI,1 ) X1 (aII,2 aI,2 ) X2 (CII CI ) u1 X1 + u2 X2 - C = D - C

LafuncindeclasificacinlinealdeFisher: D 1,036 x X1 0,932 x X2

LafuncindiscriminantedeFisher: D C = 1,036 x X1 0,932 x X2 3,524

Variabilidadentre grupos u'Fu

D C = 0,422 x X1 0,380 x X2 1,437

INFERENCIA Y CALCULO DE PROBABILIDADES EN EL ANLISIS

Si con el anlisis discriminante se desea ir ms lejos de la mera clasificacin se requiere la

Los temas de carcter inferencial se refieren a diversos contrastes de significacin sobre el

De otra parte, el clculo de probabilidades de pertenencia a un grupo requiere que

Las hiptesis estadsticas que se adoptan, anlogas a las postuladas en el anlisis

Hiptesis estadsticas sobre la poblacin: