Vous êtes sur la page 1sur 7

Plantilla del Estado del Arte

Author (s): I-Cheng Yeh a,*, Che-hui Lien


Ttle of paper: The comparisons of data mining techniques for the predictive
accuracy of probability of default of credit card clients
Journal: Expert Systems with Applications
Volume (issue): 36
pag pag (year): 2473 - 2480

Problema que el autor desea resolver

(0.5 pgina)

Predecir el riesgo de morosidad de crdito en la banca de las lneas de crdito para las personas
naturales del banco de Taiwan, utilizando tcnicas de mineras de datos a travs de un mtodo de
clasificacin Smoothing para estimar la verdadera probabilidad de incumplimiento.

Importancia del problema

(0.5 pgina)

Si la probabilidad estimada de impago producido a partir de mtodos de minera de datos pueden


representar la probabilidad '"real" de incumplimiento es un problema importante.
Para pronosticar la probabilidad de incumplimiento es un paramento desafos profesionales e
investigadores, y que necesita ms estudio.
Debido a que la verdadera probabilidad de incumplimiento es desconocida, este estudio propone el
mtodo de clasificacin Smoothing "para deducir la verdadera probabilidad de incumplimiento y
que ofrece las soluciones a las dos preguntas siguientes:
(1) Hay alguna diferencia de precisin de la clasificacin entre las tcnicas de minera de datos de
seis?
(2) Podra la probabilidad estimada de incumplimiento producido a partir de datos mtodos de
minera representan la probabilidad real de incumplimiento?

Estado del arte que hace el autor

(1 a 2 pgina)

En la era de la explosin de la informacin, las empresas individuales producan y recogan gran


volumen de datos de todos los das. El descubrimiento til de conocimiento a partir de la base de
datos y la transformacin de la informacin en acciones concretas es un reto importante el cual se
enfrentan las empresas. La minera de datos es el proceso de exploracin y anlisis, por automtico
o semi-automtico que signifique, de grandes cantidades de datos con el fin de descubrir patrones
significativos y reglas (Berry y Linoff, 2000).
K cercanos clasificadores vecino (KNN). Los K-vecinos ms cercanos (KNN) clasificadores se
basan en aprendizaje por analoga. Cuando se le presenta una muestra desconocida, un KNN
clasificador busca en el espacio de patrones para el KNN que son los ms cercanos a la muestra
desconocida. La cercana se define en trminos de distancia. La muestra desconocida es asignado a
la clase ms comn entre su KNN. La ventaja importante de este enfoque es que no se requiere
establecer un modelo predictivo antes de la clasificacin. Las desventajas para las KNN son que no
produce una simple frmula de clasificacin de probabilidad y su predictiva exactitud es altamente
afectado por la medida de la distancia y la cardinalidad k del barrio.
La regresin logstica (LR). La regresin logstica puede considerarse un caso especial de modelos
de regresin lineal. Sin embargo, la respuesta de variables binarias viola supuestos de normalidad
de regresin general. Un modelo de regresin logstica se especifica que una funcin apropiada de
la probabilidad equipada del evento es una funcin lineal de los valores observados de las variables
explicativas disponibles. La principal ventaja de este enfoque es que puede producir una frmula
sencilla probabilstica de clasificacin. Las debilidades son que LR no puede tratar adecuadamente
los problemas del no lineal e efecto interactivo de las variables explicativas.
El anlisis discriminante (DA). El anlisis discriminante, tambin conocida como regla de Fisher,
es Otra tcnica aplicada al resultado binario de la respuesta variable. DA es una alternativa a la
regresin logstica y es basado en la suposicin de que, para cada clase dada de variable de
respuesta, se distribuyen las variables explicativas como una distribucin normal multivariante con
una matriz comn de varianzas de covarianza. El objetivo del gobierno de Fisher es para maximizar
la distancia entre los diferentes grupos y minimizar la distancia dentro de cada grupo. Los pros y
contras de DA son similares a los de LR.
Clasificador bayesiano Naive (NB) El clasificador bayesiano ingenuo se basa en la teora de Bayes
y se supone que el efecto de un valor de atributo en una clase dada es independiente de los valores
de los otros atributos. Este supuesto se llama clase de independencia condicional.
Clasificadores bayesianos son tiles ya que proporcionan una justificacin terica de otros
clasificadores que no lo hacen de forma explcita utilizar el teorema de Bayes. La principal
debilidad de NB es que la precisin predictiva est altamente correlacionada con la asuncin de
clase independencia condicional.
Las redes neuronales artificiales (RNA). Las redes neuronales artificiales utilizan matemtica no
lineal, ecuaciones para desarrollar sucesivamente relaciones significativas entre las variables de
entrada y salida a travs de un proceso de aprendizaje. Se aplic de nuevo las redes de propagacin
para clasificar datos. Una red neuronal de retropropagacin utiliza una topologa feed-forward ty de
aprendizaje supervisado. La estructura de espalda redes de propagacin se componen tpicamente
de una capa de entrada, una o ms capas ocultas, y una salida capa, cada uno compuesto de varias
neuronas. RNAs puede fcilmente manejar los efectos interactivos de explicativa no lineal y
variables. El principal inconveniente de las RNA es - que no pueden resultar en una frmula
sencilla de la clasificacin probabilstica.

rboles de clasificacin (TC). En una estructura de rbol de clasificacin, cada nodo interno
denota una prueba en un atributo, cada rama representa un resultado de la prueba, y los nodos de la
hoja representan clases. EL nodo ms arriba en un rbol es el nodo raz. TC se aplican cuando la
respuesta de la variable es cualitativa o cuantitativa discreta. rboles de clasificacin realizan una
clasificacin de las observaciones sobre la base de todas las variables explicativas y supervisadas
por la presencia de la variable de respuesta. El proceso de segmentacin se lleva a cabo tpicamente
usando slo una variable explicativa a la vez. TC se basan en la minimizacin de la impureza, que
hace referencia a una medida de variabilidad de los valores de respuesta de las observaciones. TC
da lugar a normas de clasificacin simple y puede manejar el lineal y los efectos interactivos de las
variables explicativas. Pero su naturaleza secuencial y complejidad algortmica puede hacer que
depende de los datos observados, e incluso un pequeo cambio podra alterar la estructura del
rbol. Es difcil tener una estructura de rbol diseado para un contexto y generalizar para otros
contextos
Rosenberg y Gleit (1994) sealaron que muchas estticas y modelos dinmicos se han utilizado
para ayudar a la toma de decisiones en el rea de consumo y crdito comercial. Las decisiones de
inters, como la posibilidad de ampliar el crdito, cunto crdito para ampliar, cuando existen
colecciones en mora, que cuentas deben ser iniciados y qu medidas deben ser tomado. Los
investigadores encuestaron a la utilizacin del anlisis discriminante, clasificacin rboles, y
sistemas expertos para las decisiones estticos, y programacin dinmica, programacin lineal, y
cadenas de Markov para los modelos de decisin dinmicos.
Hand y Henley (1997) argumentaron que la puntuacin de crdito es el trmino utilizado para
describir los mtodos estadsticos formales que son utilizados para la clasificacin de los
solicitantes de crdito en '' bueno "y '' Malas clases de riesgo. Tales mtodos se han convertido en
un importante y espectacular crecimiento del crdito al consumo en aos recientes. Una amplia
gama de mtodos estadsticos ha sido aplicado, aunque la literatura a disposicin del pblico es
limitado por razones de confidencialidad comercial.
Paolo (2001) mostr que los mtodos bayesianos, acoplados con tcnicas computacionales de
Markov Chain Monte Carlo, podra emplear con xito en el anlisis de un complejo conjunto de
datos altamente dimensional, tales como los de crdito anotado y benchmarking. Paolo emplea
grficos de independencia para localizar la especificacin del modelo e inferencias, lo que permite
una ganancia considerable en flexibilidad de la modelizacin y la eficiencia de los clculos.
Lee et al. (2002) exploraron el desempeo de la puntuacin de crdito mediante la integracin de
las redes neuronales backpropagation con el enfoque de anlisis discriminante tradicional. El
enfoque hbrido propuesto converge mucho ms rpido que el modelo convencional de las redes
neuronales. Adems, la precisin de puntuacin de crdito aumenta en trminos de la metodologa
propuesta y el enfoque hbrido supera al tradicional anlisis discriminante y regresin logstica.
Baesens et al. (2003) encontraron que, en base al conjuntos de datos de credit scoring, tanto en el
LS-SVM y red neuronal clasificadores producen un rendimiento muy bueno, pero tambin
clasificadores simples, tales como la regresin logstica y discriminante lineal funcionan muy bien
para la puntuacin de crdito.

Motivacin del autor (crticas del autor a otros trabajos)

(0.5 pgina)

Muchos mtodos estadsticos, incluyendo el anlisis discriminante, regresin logstica, Bayes


clasificador, y el vecino ms cercano, se han utilizado para desarrollar modelos de prediccin de
riesgo. Con la evolucin de la inteligencia artificial y el aprendizaje automtico, redes neuronales
artificiales y se emplearon tambin los rboles de clasificacin para pronosticar riesgo de crdito,
pero ninguno de estos tiene una probabilidad de impago del crdito aproximado a la realidad.
Debido a que la verdadera probabilidad de incumplimiento es desconocida, este estudio propone la
novela '' mtodo de clasificacin Smoothing "para deducir la verdadera probabilidad de
incumplimiento.

Descripcin del aporte del autor

(1.5 - 2 pginas)

Del total de 25.000 observaciones, 5.529 observaciones (22,12%) son los titulares de la tarjeta con
pago predeterminado. Esta investigacin utiliz una variable binaria - pago por defecto (S = 1, No
= 0). Este estudio revisado utilizo las siguientes 23 variables como variables explicativas:
X1: Monto del crdito dado (en dlares NT): incluye tanto en el crdito al consumo individual y
su / su familia Crdito (complementaria).
X2: Gnero (1 = hombre; 2 = mujer).
X3: Educacin (1 = la escuela de posgrado; 2 = universitario; 3 = la escuela secundaria; 4 = otros).
X4: Estado civil (1 = casado; 2 = nico; 3 = otros).
X5: Edad (aos).
X6-X11: Historia de pago pasado. Rastreamos el pasado registros de pago mensuales (de abril a
septiembre, 2005) como sigue:
X6 = el estado de devolucin en septiembre, 2005
X7 = el estado de devolucin en agosto, 2005
X11 = el estado de devolucin en abril de 2005.
La escala de medicin para el estado de devolucin es: 1 = pagan debidamente; 1 = retraso en el
pago de un mes; 2 = retraso en el pago de dos meses; 8 = pago retrasar durante ocho meses; 9 =
retraso en el pago de nueve meses o ms.
X12-X17: Cantidad de estado de cuenta (dlar NT).
X12 = cantidad de estado de cuenta, en septiembre de 2005
X13 = cantidad de estado de cuenta, en agosto 2005
X17 = cantidad de estado de cuenta, en abril de 2005.
X18-X23: Monto del pago anterior (dlar NT).
X18 = importe pagado en septiembre de 2005
X19 = cantidad pagado en agosto de 2005
X23 = importe pagado en abril, 2005.
Los datos se dividieron al azar en dos grupos, uno para formacin de modelo y la otra para validar
el modelo. Revisin de la literatura (Jain, Duin, y Mao, 2000; Nelson, Runger, & Si, 2003) revela
que las tasas de error se utilizan a menudo como la medicin de la precisin de la clasificacin de
modelos. Sin embargo, la mayora de los registros en el conjunto de datos de clientes de tarjetas de
crdito son sin riesgo (87,88%); Por lo tanto, la tasa de error es insensible a la clasificacin
precisin de los modelos para el problema de clasificacin binaria, relacin de rea en el grfico de
elevacin puede ofrecer la mejor solucin para comparar el rendimiento de diferentes modelos que
la que hicieron por la tasa de error

Por lo tanto, el estudio que hace el autor emple relacin de rea, en vez de la tasa de error, para
examinar la precisin de la clasificacin entre las tcnicas de minera de datos. En el grfico de
elevacin, el eje horizontal representa el nmero de datos en total. El eje vertical muestra el nmero
acumulativo de datos de destino.
Cuanto mayor es el rea entre el modelo curva y la curva de lnea base, mejor ser el modelo.
Relacin de reas = rea entre la curva modelo y la curva de lnea de base / rea entre
tericamente mejor curva y la curva de lnea de base
Para estimar la verdadera probabilidad de incumplimiento, el enfoque, denominado mtodo de
Clasificacin Smoothing (SSM), fue propuesto en este estudio. En primer lugar, de acuerdo con la
probabilidad predictivo, ordenar los datos de validacin del mnimo al mximo. En segundo lugar,
utilizar el SSM para estimar la verdadera probabilidad de incumplimiento de la siguiente manera:

Donde Pi = estima la probabilidad real de forma predeterminada en el ITH orden de los datos de
validacin; Yi = variable binaria con verdadero defecto riesgo en el orden i de datos de validacin;
Yi = 1 grado para '' pas "; Yi = 0 significa '' no pas "; n = nmero de datos de suavizado.

Proceso para resolver el problema (solo si hay validacin)

(0.5 pginas)

Con la probabilidad real estimado de incumplimiento (visto como probabilidad real por defecto), el
siguiente procedimiento podra ser utilizado para explorar si el defecto probabilidad predictivo
representa la verdadera probabilidad de incumplimiento:
(1) Diagrama de dispersin: el eje horizontal representa la probabilidad de impago de prediccin;
el eje vertical representa la probabilidad real estimado de incumplimiento. (2) La regresin
lineal: la lnea de regresin lineal (Y = A + BX) se produce a partir del diagrama grfico de
dispersin, y el coeficiente de determinacin (R2) se calcula. Si R2 est cerca de uno, interceptar
(A) a cero, y coeficiente de regresin (B) a uno, entonces podemos concluir que la probabilidad de
impago de prediccin producida de mtodos de minera de datos puede representar la verdadera
probabilidad de incumplimiento. En este estudio, el n = 50 fue elegido y SSM era empleada para
estimar la verdadera probabilidad de incumplimiento. La dispersin diagrama de trama, la lnea de
regresin, y R2, producido.

Principal resultado (solo si hay validacin)

(0.5 pgina)

En la precisin de la clasificacin entre las 6 tcnicas de minera de datos, los resultados muestran
que hay pequeas diferencias en las tasas de error entre los seis mtodos. Sin embargo, hay
relativamente grandes diferencias en la relacin de reas entre las seis tcnicas. Obviamente, la
proporcin de rea es ms sensible y es un criterio adecuado para medir la precisin de la
clasificacin de modelos. Las redes neuronales artificiales realizan clasificacin con mayor
precisin que los otros cinco mtodos. En la precisin de la prediccin de la probabilidad de
incumplimiento, las redes neuronales artificiales tambin muestran el mejor desempeo basado en
R2 (0,9647, cerca de 1), intercepto de la regresin (0,0145, cerca de 0), y el coeficiente de
regresin (0,9971, cerca a 1). La probabilidad de impago predictivo producido por ANN es el nico
que podra ser utilizado para representar la probabilidad real de de forma predeterminada. Desde la
perspectiva de control de riesgos, la estimacin la probabilidad de incumplimiento es ms
significativo que clasificacin de los clientes en resultados binarios - arriesgado y sin riesgo.
Por lo tanto, las redes neuronales artificiales se deben emplear para anotar los clientes en lugar de
otro.

Colocar las referencias bibliogrficas referenciadas en este informe

(0.5 pgina)

Baesens, B., Setiono, R., Mues, C., & Vanthienen, J. (2003). Using neural network rule extraction
and decision tables for credit-risk evaluation.
Management Science, 49(3), 312329. Baesens, B., Van Gestel, T., Viaene, S., Stepanova , M.,
Suykens, J., & Vanthienen, J. (2003). Benchmarking state-of-the-art classification algorithms for
credit scoring. Journal of the Operational Research Society, 54(6), 627635.
Berry, M.,&Linoff, G. (2000). Mastering data mining: The art and science of customer relationship
management. New York: John Wiley & Sons, Inc. Chou, M. (2006). Cash and credit card crisis in
Taiwan. Business Weekly, 2427.
Desai, V. S., Crook, J. N., & Overstreet, G. A. A. (1996). Comparison of neural networks and linear
scoring models in the credit unin environment. European Journal of Operational Research, 95(1),
2437.
Han, J., & Kamber, M. (2001). Data mining: Concepts and techniques. San Fransisco: Morgan
Kaufmann.
Hand, D. J., & Henley, W. E. (1997). Statistical classification methods in consumer credit scoring:
A review. Journal of the Royal Statistical Society, Series A Statistics in Society, 160(3), 523541.
Hand, D. J., Mannila, H., & Smyth, P. (2001). Data mining: Practical machine learning tools and
techniques. Cambridge: MIT Press.
Jagielska, I., & Jaworski, J. (1996). Neural network for predicting the performance of credit card
accounts. Computational Economics, 9(1), 7782.
Jain, A., Duin, P., & Mao, J. (2000). Statistical pattern recognition: A review. IEEE Transactions on
Pattern Analysis and Machine Intelligence, 22(1), 437.
Koh, H. C., & Chan, K. L. G. (2002). Data mining and customer relationship marketing in the
banking industry. Singapore Management Review, 24(2), 127.
Lee, T. S., Chiu, C. C., Lu, C. J., & Chen, I. F. (2002). Credit scoring using the hybrid neural
discriminant technique. Expert Systems with Applications, 23(3), 245254.
Lee, Y. S., Yen, S. J., Lin, C. H., Tseng, Y. N., Ma, L. Y. (2004). A data mining approach to
constructing probability of default scoring model. In Proceedings of 10th conference on
information management and implementation (pp. 17991813).
Nelson, B., Runger, G., & Si, J. (2003). An error rate comparison of classification methods with
continuous explanatory variables. IIE Transactions, 35, 557566.
Paolo, G. (2001). Bayesian data mining, with application to benchmarking and credit scoring.
Applied Stochastic Models in Business and Society, 17, 6981.
management: A survey. Operations Research, 42(4), 589613.

Vous aimerez peut-être aussi