Arbol de Decision

MINIMIZACIÓN DEL RIESGO CREDITICIO MEDIANTE LA EVALUACIÓN DE LA
SOLICITUD DEL CLIENTE. La Paz Bolivia Febrero 2006.
Autor: Sr. Luis Ernesto Domínguez Velásquez

e-mail: ldominguez@innser.org
dvlpana@hotmail.com
Abstract
Today in day it is said that the information is the resource but valuable with which it counts a business, but so that
this he/she has relevance it is necessary to give him a value added task that was carried out investigation work
presently. By means of the application of Trees of Decision to the process of economic evaluation of the SFR -
"SARTAWI", it is achieved that the rules that derive of the tree built for if same they evaluate new applications of
credits and rule an intelligent decision, so that we know with certain guarantees before that clients' type is, that is to
say in that way will complete with its obligations towards the financial entity if this it grants him a loan.
To carry out the pattern information it was gathered specifically in the areas of Artificial Intelligence of Trees of
Decision, the area microfinanciera, administration and credit analysis.
Keywords: Credit risk, financial indicators, trees of decision.
Resumen
Hoy en día se dice que la información es el recurso más valioso con que cuenta un negocio, pero para que este tenga
relevancia es necesario darle un valor agregado tarea que se realizó en el presente trabajo de investigación. Mediante
la aplicación de Árboles de Decisión al proceso de evaluación económica de una institución microfinanciera, se
logra que las reglas que derivan del árbol construido por si mismas evalúen nuevas solicitudes de créditos y
dictaminen una decisión inteligente, de manera que sepamos con ciertas garantías ante que tipo de clientes estamos,
es decir, en que modo cumplirá con sus obligaciones para con la entidad financiera si esta le concede un préstamo.
Para realizar el modelo se recopiló información en las áreas de Inteligencia Artificial específicamente de Árboles de
Decisión, el área microfinanciera, administración y análisis crediticio.
Palabras clave: Riesgo crediticio, ratios financieros, árboles de decisión
1. INTRODUCCIÓN
Bolivia es el país latinoamericano pionero en microfinanzas, países como México, Senegal, China, etc. visitan a
Bolivia para inmiscuirse en las diferentes metodologías microcrediticia que utiliza las diferentes instituciones
dedicadas a esta actividad.
Contar con una metodología y un sistema de información no es suficiente para tener una buena administración de
cartera. Hoy en día las entidades micro financieras de Bolivia tienen una gran cantidad de datos históricos
diseminados en los distintos sistemas operacionales pero a estos datos no se les da el uso adecuado, debido a que
esta información muchas veces no esta a la vista o disponible de ser utilizada, o es difícil acceder, repercutiendo esta
situación de manera negativa ya que, por ejemplo, las Instituciones necesitan tomar decisiones rápidas en el proceso
de evaluación de créditos. Hoy en día muchos de estos problemas pueden ser resueltos con la implementación de
herramientas inteligentes dando así un valor agregado a la información histórica con el fin de coadyuvar en la toma
de decisiones en niveles medios y gerenciales.
1
El presente trabajo consiste básicamente en la aplicación al proceso crediticio de instituciones micro financieras del
algoritmo árboles de decisiones desarrollado por Ross Quinlan “C45”, que como veremos, proporciona un modelo
de predicción basado en un patrón de entrenamiento que tiene como variables de entrada a once indicadores
financieros obtenidos de una muestra de buenos y malos clientes de cierta entidad microfinanciera.
2. PLANTEMAINTO DEL PROBLEMA
El problema que se nos plantea es el de jerarquizar el conjunto de clientes de una institución microfinanciera, cuya
cartera de clientes esta formada por pequeños microempresarios comerciantes, en función de once indicadores
financieros (ratios) relevantes para realizar el mencionado trabajo. El conocimiento extraído al aplicar árbol de
decisión al patrón de entrenamiento (muestra seleccionada) debe ser útil para poder clasificar a cualquier nuevo
cliente que solicite un microcrédito, de manera que sepamos con ciertas garantías ante que clientes estamos, es decir,
cual será su comportamiento de pago en caso se le conceda un crédito. En resumida cuenta lo que se pretende con
este trabajo de investigación es prever el riesgo crediticio antes que ocurra.
3. DESARROLLO
3.1 Selección de los Datos y de las Variables
La información proporcionada por parte del departamento de créditos es la siguiente:
o Balance General de clientes de los años 2003-2005.

o Estados de Resultados de clientes de los años 2003-2005.
Esta información se recibió en documentos, ya que en la actualidad no se cuenta con un registro electrónico de dicha
información. A partir de los documentos obtenidos se calculó los ratios financieros de cada cliente que forma parte
de la muestra y dichos ratios son registrados en un archivo Excel bajo el siguiente formato ver tabla 3.1.
Tabla 3.1 Formula de indicadores financieros
Ratios Formula Nombre de ratios

Ratio1 Activo Corriente / Pasivo Corriente Índice de Liquidez
Ratio2 Activo Corriente – Pasivo Corriente Capital neto de trabajo
Ratio3 (Activo Corriente – Inventario) / Pasivo Corriente Prueba ácida
Ratio4 Efectivo / Pasivo Corriente Razón de liquidez inmediata
Ratio5 (Utilidad Bruta / Ventas )*100 Margen de utilidad bruta
Ratio6 (Utilidad Neta / Ventas )*100 Margen de utilidad neta
Ratio7 (Utilidad Neta / Total Activo)*100 Retorno de activos
Ratio8 (Utilidad Neta / Patrimonio)*100 Tasa de retorno de capital
Rratio9 (Pasivo Total / Patrimonio Total ) Razón de deuda a capital
Ratio10 (Pasivo Total + Préstamo) / /Activo Total + Nivel de endeudamiento uso
Préstamo)*100 productivo
Ratio11 Costo venta / Venta Bruta Costo de Producción
2
La calificación otorgada a los clientes por expertos de la entidad financiera se establece en dos categorías “buenos -
malos clientes” y será la variable objetivo en nuestro sistema. En la tabla 3.1 se puede observar las variables de
entrada tanto para el patrón de entrenamiento como para la evaluación de futuras solicitudes.
3.2 Árbol de decisión

Es un método enmarcado en el área de inteligencia artificial, que infiere conocimiento (inducción, deducción), a
partir de los datos contenidos en base de datos. El dominio de aplicación de esta técnica no está restringido a un
ámbito concreto sino que pueden utilizarse en diversas áreas:
9 Diagnóstico médico
9 Juegos
9 Predicción meteorológica
9 Control de calidad
9 Elaboración de horarios
9 Análisis de riesgo en la concesión de créditos
9 Tratamiento digital de imágenes, aplicado al reconocimiento de rostro.
9 Cualquier problema donde la información se puede describir en términos pares atributo-valor
Se entiende por Árbol de decisión un método para aproximar una función objetivo de valores discretos y/o
continuos, que es resistente al ruido en los datos y que es capaz de hallar o aprender una disyunción de expresiones.
El resultado puede, de esta manera, expresarse como un conjunto de reglas Si-entonces. Por otra parte, los árboles de
decisión pueden entenderse como una representación de los procesos involucrados en las tareas de clasificación.
Están formados por:
• Nodos: nombres o identificadores de los atributos.

• Ramas: posibles valores del atributo asociado al nodo.
• Hojas: conjuntos ya clasificados de ejemplos y etiquetados con el nombre de una clase.
Los árboles de decisión, se fundamentan en el principio de “divide y vencerás”, construyendo un árbol que en cada
nodo establece unas condiciones sobre un atributo, dividiendo así el conjunto de casos en subconjuntos que cumplen
cada condición. Los subconjuntos se vuelven a dividir añadiendo nuevos niveles del árbol hasta detenerse mediante
un criterio.
El algoritmo que se empleó en el actual trabajo, es C4.5, que es la versión definitiva, presentada por su autor él
Australiano Ross Quinlan [Quinlan 93]. El algoritmo de este método para la construcción de árboles de decisiones a
grandes rasgos es el que se muestra en la figura 3.1.
Para ejemplificar cuál es el resultado de aplicar un algoritmo de árbol de decisión y entender como esta estructurado,
utilizaremos un ejemplo de un conjunto de datos para generar tanto un árbol de decisión como las reglas de
clasificación derivadas. Tomamos los datos que contiene la tabla 3.2, la cuál se refiere a un problema relacionado
con el análisis de riesgo en la concesión de créditos y contiene un conjunto de datos que conciernen a las condiciones
que son favorables o no favorables para otorgar un crédito.
Función C4.5
(R: conjunto de atributos no clasificadores
C: atributo clasificador
S: conjunto de entrenamiento) devuelve un árbol de decisión
Inicio
3
Si S es vació
Devolver un único nodo con Valor Falla
Si todos los registros de S tiene el mismo valor para el atributo clasificador
Devolver un único nodo con dicho valor
Si R esta vació
Devolver un único nodo con el valor mas frecuente del atributo
clasificador en los registros de S [Nota: habrá errores, es decir,
registros que no estarán bien clasificados en este caso]
Si R no esta vació
D atributo con mayor proporción de Ganancia (D,S) entre los
atributos de R
Sean {dj | j=1,2,…,…m} los valores del atributo D
Sean {dj | j=1,2,…,…m} los subconjuntos de S correspondientes a los
valores de dj respectivamente
Devolver un árbol con la raíz nombrada como D y con los arcos
nombrados d1, d2,…,dm, que van respectivamente a los arboles
C4.5 (R- {D},C,SI), C4.5(R- {D},C,S2), (R- {D},C,Sm)
Fin
Figura 3.1 Pseudocódigo del Algoritmo de C4.5
El conjunto de datos consta de catorce ejemplos, de cuatros atributos que son las variables de entradas: historia,
deuda avales e ingresos y de la clase riesgo que es la variable de salida (alto, moderado, bajo), que representa la
función objetivo del presente ejemplo.
Tabla 3.2 Datos para aplicaciones de concesión de créditos
Nº Historia Deuda Avales Ingresos Riesgo

1 mala Alta no 0 a2 M alto
2 desconocida Alta no 2 a 5 M alto
3 desconocida Baja no 2 a 5 M moderado
4 desconocida Baja no 0 a2 M alto
5 desconocida Baja no más de 5M bajo
6 desconocida Baja adecuados más de 5M bajo
7 mala Baja no 0 a2 M alto
8 mala Baja adecuados más de 5M moderado
9 buena Baja no más de 5M bajo
10 buena Alta adecuados más de 5M bajo
11 buena Alta no 0 a2 M alto
12 buena alta no 2 a5 M moderado
4
13 buena alta no más de 5M bajo
14 mala alta no más de 5M alto
Construcción del árbol de decisión
A partir de todos los datos disponibles, el C4.5 analiza todas las divisiones posibles según los distintos atributos y
calcula la ganancia y/o proporción de ganancia. Comencemos calculando la entropía total del conjunto de datos.
Riesgo Alto Moderado bajo

Probables salidas 6/14 3/14 5/14
Entropía H(S)= -palto log2 alto -pmoderado log2 moderado -pbajo log2 bajo
Donde S es el conjunto de entrenamiento y P es la cantidad de ejemplos con riesgo alto, moderado y bajo.
Remplazando en la formula de la entropía tenemos:
H(S) = -6/14 log2 6/14 - 3/14 log2 3/14 - 5/14 log2 5/14 = 1.531 bit
Ahora procedemos a realizar las distribuciones de datos, según atributos:
Atributo: Historia
Alto Moderado Bajo Total

Buena 1 1 3 5
Desconocida 2 1 2 5
Mala 3 1 0 4
Calculo de la entropía según el atributo historia:
H(S) =5/14(-1/5 log2 (1/5)- 1/5 log2 (1/5)- 3/5 log2 (3/5)) + = 0.490 Clase Buena
5/14(-2/5 log2 (2/5)- 1/5 log2 (1/5)- 2/5 log2 (2/5)) + = 0.543 Clase Desconocida
4/14(-3/4 log2 (3/4)- 1/4 log2 (1/4)- 0 log2 (0)) + = 0.231 Clase Mala
Una vez calculada la entropía del subconjunto historia obtenemos el siguiente valor 1.264.
Ahora calculamos la ganancia resultante de dividir al subconjunto según el atributo historia, tendremos:
Ganancia(S,Historia)= H(S)-H(S,Historia)= 1.531 – 1.264 = 0.367
5
Para calcular la razón de ganancia, se debe conocer primero la información de la división que se calcula como:
I_ división (Historia) = -5/14 x log2 (5/14)-5/14 x log2 (5/14)- 4/14 x log2 (4/14)
= 1.574 bits
Finalmente, calculamos la razón de ganancia.
Razón de ganancia (Historia)= Ganancia (S) / Indivisión(S) ====> 0.367 / 1.574 = 0.233
Atributo: Deuda
Alto Moderado Bajo

Baja 2 2 3
Alta 4 1 2
Totales…: 6 3 5
Atributo: Avales
Alto Moderado Bajo

Adecuados 0 1 2
No 6 2 3
Totales…: 6 3 5
Atributo: Ingresos
Alto Moderado Bajo

0a2M 4 0 0
2a5M 2 2 0
Más de 5 M 0 1 5
Totales…: 6 3 5
De la misma manera en que calculamos la ganancia de información y la razón de ganancia del atributo historia,
calculamos para los atributos restantes: Deuda, avales, ingresos.
Atributo Ganancia Razón de Ganancia

Deuda 0.580 0.580
Avales 0.756 3.345
Ingresos 0.967 0.621
Historia 0.367 0.233
6
El atributo de mayor relevancia es avales, con una razón de ganancia de 3.345 bits, pero para este ejemplo
tomaremos la ganancia de la información para construir el árbol de decisión, siendo entonces en atributo ganador
ingresos con 0.967 bits de ganancia.
En la siguiente figura, podemos observar el árbol parcialmente construido. Como el método árbol de decisión, es un
método recursivo lo que se debe hacer es repetir los pasos anteriores para seleccionar el atributo para el nodo
Ingresos= 2 a 5 M, como también para el atributo Ingresos= más a 5 M
Ingreso
0a2
2a5 Más 5
?
Alto ?
Selección del atributo para el nodo Ingresos = más de 5M
Calculamos la entropía de ingresos = más 5M
H(S) = -1/7 log2 1/7 - 5/7 log2 5/7 - 0 = 1.148 bits
Ganancia(H(S),Historia)=1.148-2/7*(1) -0-0 = 0.862
Ganancia(H(S),Deuda) =1.148-3/7*(0.138) -4/7*(0.811)= 0.668
Ganancia(H(S),Avales) =1.148-3/7*(0.138) -4/7*(0.811)= 0.668
El atributo ganador de la rama “mas de 5M” del nodo raíz, es el atributo Historia, para calcular el atributo ingresos
de la rama 2 a 5M se siguen los mismos pasos hasta llegar a la hoja de clasificación.
Finalmente en la figura 3.2 esquematiza la construcción del árbol aprendido
7
Ingresos
Más de 5M
0 a 2M
2 a 5M
Alto Historia Historia_
Desconocida Buena Desconocida Mala Buena

Mala
Deuda
Alto Moderado Bajo Moderado Bajo
Alta Baja
Alto Moderado
Figura 3.2 Árbol construido
Transformación a reglas de decisión
Para convertir un árbol de decisión a reglas de decisión, se debe recorrer el mismo en preorden de izquierda a
derecha y cada que llega a una hoja, escribe la regla que tiene como consecuente el valor de la misma, y como
antecedente, la conjunción de las pruebas de valor especificados en todos los nodos recorridos desde la raíz para
llegar a dicha hoja.
A continuación realizamos el recorrido del árbol obteniendo las siguientes reglas de decisión, que permitirán analizar
nuevos casos para este ejemplo.
Regla 1: Si Ingresos es = 0 a 2M entonces Riesgo= alto
Regla 2: Si ingresos=2 a 5M y Historia=desconocida y Deuda=alta entonces Riesgo=Alto
Regla 3: Si ingresos=2 a 5M y Historia=desconocida y Deuda=Baja entonces Riesgo = Moderado
Regla 4: Si ingresos=2 a 5M y Historia=mala entonces Riesgo=Alto
Regla 5: Si ingresos=2 a 5M y Historia=Buena entonces Riesgo=moderado
Regla 6: Si ingresos=2 a 5M y Historia=desconocida entonces Riesgo=bajo
8
Regla 7: Si ingresos=2 a 5M y Historia=mala entonces Riesgo=moderado
Regla 8: Si ingresos=2 a 5M y Historia=mala entonces Riesgo=bajo
En esta sección se explicó los criterios básicos de un árbol de decisión como es el de dar en primer lugar una
definición de este método, luego se explicó el cálculo de la entropía, ganancia de información y razón de ganancia de
cada atributo, dichos cálculos nos permiten determinar que atributo es más relevante en el conjunto de datos, los
atributos mas relevantes forman parte de los primeros niveles del árbol y se procede recursivamente con el proceso
hasta llegar a las hojas de clasificación. Los demás criterios como ser trabajar con datos continuos, poda de un árbol,
atributos con valores perdidos, etc, serán aplicados en la herramienta WEKA.
3.3 Clasificador como árbol de decisión: J48
El algoritmo J48 de WEKA es una implementación del algoritmo C4.5. A continuación ilustramos en la figura 3.3 la
mina de datos, que representa el patrón de entrenamiento, para la construcción y aprendizaje del árbol de decisión.
La muestra consta de once variables de entrada y de dos variables de salidas. La muestra esta formada de 53
instancias, las cuales 38 son buenos clientes y 15 clientes malos.
Tabla 3.3 Mina de clientes seleccionados
9
Árbol de decisión
Descripción e interpretación: El árbol resultante figura 3.3, consta de siete niveles y trece nodos, instancias
correctamente clasificadas 49 de 53 e instancias incorrectamente clasificadas 4 de 53. Cabe mencionar que los
atributos que más clientes agrupan, son el ratio10 y ratio15 con 18 clientes cada uno.
Figura 3.3 Árbol Obtenido del patrón del entrenamiento
Como se puede observar, en el árbol aparecen únicamente 4 de 11 ratios iniciales, lo que indica que 7 de los ratios
empleados no aportan información relevante para clasificar los clientes como “buenos” o “malos”. El árbol nos
proporciona el menor número de atributos (ratios) necesarios para alcanzar el objetivo deseado.
10
Reglas de decisión
A continuación enumeramos las reglas de decisión derivadas del árbol de decisión, tabla 3.4.
Tabla 3.4 Reglas generadas C4.5 de la figura 3.3
Cliente=Bueno Cliente=Malo
1.-If ratio1<= 31.88 y ratio10<= 23.95 then 3.- If ratio1<= 31.88 y ratio10> 23.95 y ratio5>
cliente=bueno (18/0) 36.02 y ratio6<=29.9 then cliente=malo (5/0)
2.-If ratio1<= 31.88 y ratio10> 23.95 y ratio5 4.- If ratio1<= 31.88 y ratio10> 23.95 y ratio5>
<=36.02 then cliente=bueno (18/3) 36.02 y ratio6> 29.9 y ratio10<=59.21 y ratio10<=
41.72 then cliente=malo (3/1)
5.-If ratio1<= 31.88 y ratio10> 23.95 y ratio5> 36.02
y ratio6> 29.9 y ratio10<=59.21 y ratio10> 41.72 6.- If ratio1<= 31.88 y ratio10> 23.95 y ratio5>
then cliente=bueno (4/0) 36.02 y ratio6> 29.9 y ratio10>59.21 then
cliente=malo (2/0)
7.- If ratio1> 31.88 then cliente=malo (3/0)
Matriz de confusión:
(a) (b) <-- Clasificado como
37 1 I a= bueno
3 12 | b = malo
La matriz de confusión señala el tipo de errores cometidos; de los 53 clientes de la muestra 4 son mal clasificados
(7.55 %), lo que supone un margen de acierto del 92.45 %. Este resultado es excelente ya que permitirá clasificar
nuevas solicitudes de préstamos con un acierto de 92.45 %. Además, el árbol construido, tiene la ventaja sobre otros
sistemas de clasificación por el hecho de que las reglas de decisión pueden ser seguidas por cualquier usuario
evaluador de nuevas solicitudes.
3.4 Conocimiento descubierto
En este último paso, lo que se hizo es incorporar el conocimiento descubierto “Reglas de decisión” al sistema de
evaluación económico de la institución microfinanciera para la cual se realizo en presente trabajo. Para cumplir con
dicho cometido las reglas obtenidas en la sección anterior son parametrizadas en una función del sistema de
información de la institución. De esta manera podemos decir que hemos pasado de la era de la información a la era
del conocimiento, toda nueva evaluación será sometida a las reglas obtenidas cuyo objetivo es el de minimizar el
riesgo crediticio.
11
En el presente trabajo se hace alarde de la frase que dice “El activo mas valioso de una empresa, es la información
histórica que posee esta”, pero para que esta tenga realmente relevancia es necesario darle el valor agregado,
precisamente es lo que se realizó en el actual proyecto de grado “Torturar los datos hasta que confiesen.
4. CONCLUSIONES
Se expuso de manera resumida la forma de construir árboles de decisión y aplicado en el proceso de evaluación de
solicitudes de créditos en una entidad microfinanciera, utilizando variables económico-financieras como son los
indicadores financieros. El resultado obtenido es excelente ya que se obtuvo una clasificación en el conjunto de
aprendizaje de 92.45 %. Además, el árbol construido, tiene la ventaja sobre otros sistema de clasificación como las
redes neuronales artificiales, de que las reglas producto de los sistemas de inducción son entendibles por un analista
humano, y además las variables irrelevantes son eliminadas del modelo, pues no figuran en los árboles /reglas.
El conocimiento adquirido (reglas de decisión) es incorporado al sistema de información, con el fin de mejorar la
toma de decisiones en el proceso crediticio, minimizando la subjetividad del oficial de crédito y el tiempo de
evaluación.
5. REFERENCIAS BIBLIOGRÁFICAS
[PDA] GITMAN Lawrence J. 2003 “Principios de Administración Financiera”
[CICC96] ARAYA Roberto.1996, “Oportunidades de aumentar calidad en el análisis crediticio utilizando redes
neuronales y aprendizaje por maquina”, CICC96 Universidad UDABOL.
[Quinlan, 1993] QUINLAN, J.R. C4.5: Program For Machine Learning. Edit. Morgan Kaufmann, San Mateo, CA.,
1993.
[INTERNET1] DE ANDRES SUAREZ Javier “Técnicas de inteligencia artificial al análisis de la solvencia

empresarial. www19.uniovi.es/econo/doctrabajo/DT00/206_00.PDF
[WEKA] Machine Learning Sofware in Java. Universidad de Waikato. Nueva Zelandia.

http://www.cs.waikato.ac.nz/~ml/weka/
Nota:
El presente trabajo es un resumen (abstract), de un trabajo de investigación realizado en una institución de micro
crédito en Bolivia. En caso de que el trabajo despierte interés en UD., no dude en contactarse conmigo a través de
los dos correos electrónicos que figuran al principio de documento.
Recuerde que el conocimiento es poder en potencia Dr. Ribeiro…
12
13

Arbol de Decision

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Arbol de Decision

Transféré par

Droits d'auteur :

Formats disponibles

MINIMIZACIÓN DEL RIESGO CREDITICIO MEDIANTE LA EVALUACIÓN DE LA

SOLICITUD DEL CLIENTE. La Paz Bolivia Febrero 2006.

Autor: Sr. Luis Ernesto Domínguez Velásquez

Keywords: Credit risk, financial indicators, trees of decision.

Palabras clave: Riesgo crediticio, ratios financieros, árboles de decisión

2. PLANTEMAINTO DEL PROBLEMA

3.1 Selección de los Datos y de las Variables

La información proporcionada por parte del departamento de créditos es la siguiente:

o Balance General de clientes de los años 2003-2005.

Tabla 3.1 Formula de indicadores financieros

Ratios Formula Nombre de ratios

3.2 Árbol de decisión

Están formados por:

• Nodos: nombres o identificadores de los atributos.

Figura 3.1 Pseudocódigo del Algoritmo de C4.5

Tabla 3.2 Datos para aplicaciones de concesión de créditos

Nº Historia Deuda Avales Ingresos Riesgo

Construcción del árbol de decisión

Riesgo Alto Moderado bajo

Remplazando en la formula de la entropía tenemos:

Ahora procedemos a realizar las distribuciones de datos, según atributos:

Alto Moderado Bajo Total

Calculo de la entropía según el atributo historia:

Ganancia(S,Historia)= H(S)-H(S,Historia)= 1.531 – 1.264 = 0.367

Finalmente, calculamos la razón de ganancia.

Alto Moderado Bajo

Alto Moderado Bajo

Alto Moderado Bajo

Atributo Ganancia Razón de Ganancia

Selección del atributo para el nodo Ingresos = más de 5M

Calculamos la entropía de ingresos = más 5M

H(S) = -1/7 log2 1/7 - 5/7 log2 5/7 - 0 = 1.148 bits

Ganancia(H(S),Historia)=1.148-2/7*(1) -0-0 = 0.862

Ganancia(H(S),Deuda) =1.148-3/7*(0.138) -4/7*(0.811)= 0.668

Ganancia(H(S),Avales) =1.148-3/7*(0.138) -4/7*(0.811)= 0.668

Finalmente en la figura 3.2 esquematiza la construcción del árbol aprendido

Alto Historia Historia_

Desconocida Buena Desconocida Mala Buena

Figura 3.2 Árbol construido

Transformación a reglas de decisión

Regla 1: Si Ingresos es = 0 a 2M entonces Riesgo= alto

Regla 2: Si ingresos=2 a 5M y Historia=desconocida y Deuda=alta entonces Riesgo=Alto

Regla 3: Si ingresos=2 a 5M y Historia=desconocida y Deuda=Baja entonces Riesgo = Moderado

Regla 4: Si ingresos=2 a 5M y Historia=mala entonces Riesgo=Alto

Regla 5: Si ingresos=2 a 5M y Historia=Buena entonces Riesgo=moderado

Regla 6: Si ingresos=2 a 5M y Historia=desconocida entonces Riesgo=bajo

Regla 8: Si ingresos=2 a 5M y Historia=mala entonces Riesgo=bajo

3.3 Clasificador como árbol de decisión: J48

Tabla 3.3 Mina de clientes seleccionados

Figura 3.3 Árbol Obtenido del patrón del entrenamiento

Tabla 3.4 Reglas generadas C4.5 de la figura 3.3

7.- If ratio1> 31.88 then cliente=malo (3/0)

(a) (b) <-- Clasificado como

3.4 Conocimiento descubierto

[PDA] GITMAN Lawrence J. 2003 “Principios de Administración Financiera”

[INTERNET1] DE ANDRES SUAREZ Javier “Técnicas de inteligencia artificial al análisis de la solvencia

[WEKA] Machine Learning Sofware in Java. Universidad de Waikato. Nueva Zelandia.

Recuerde que el conocimiento es poder en potencia Dr. Ribeiro…

Vous aimerez peut-être aussi

Ganancia(H(S),Deuda) =1.148-3/7(0.138) -4/7(0.811)= 0.668

Ganancia(H(S),Avales) =1.148-3/7(0.138) -4/7(0.811)= 0.668