Académique Documents
Professionnel Documents
Culture Documents
Enfoque Generativo
Redes Bayesianas Modelos paramtricos
Enfoque de Regresin
Redes Neuronales Regresin Logstica
Arboles de Decisin
Arboles de Decisin
Fciles de construir Fciles de interpretar Buena precisin en muchas aplicaciones
Algritms Escalables
Manejas millones de datos SLIQ, SPRINT
Split
Definicin: un split es una variable (atributo) ms una lista de condiciones sobre la variable.
A .
A=a1
A=an
Algoritmo de Hunt
Idea bsica: cada nodo en el rbol de decisin tiene asociado un subconjunto de los datos de entrenamiento Inicialmente, el nodo raz tiene asociado todo el conjunto de entrenamiento Construimos un rbol parcial que tiene tres tipos de nodos:
Expandidos (interiores) Hojas: sern hojas en el rbol final y tienen asociada una clase Nodos por expandir: son hojas en el rbol parcial, pero deben ser expandidos Encontrar el mejor split para t Particionar los datos de t en nodos hijos de acuerdo al split Etiquetar t y sus nodos hijos con el mejor split
Nodo hoja
Nodo hoja
Algoritmo de Hunt
Main(Conjunto de Datos T)
Expandir(T)
Expandir(Conjunto de Datos S)
If (todos los datos estn en la misma clase) then return Encontrar el mejor split r Usar r para particonar S en S1 y S2 Expandir(S1) Expandir(S2)
Indice Gini
Recordar que el nodo tiene t asociado un subconjunto de los datos Ginit : probabilidad de NO sacar dos t registros de la misma clase del nodo
es la prob. de
Indice Gini
Gini 0.5
0.5
pt ,c
Ejemplo: weather.nominal
Outlook Temp. Humidity Windy Sunny Hot High FALSE Sunny Hot High TRUE Overcast Hot High FALSE Rainy Mild High FALSE Rainy Cool Normal FALSE Rainy Cool Normal TRUE Overcast Cool Normal TRUE Sunny Mild High FALSE Sunny Cool Normal FALSE Rainy Mild Normal FALSE Sunny Mild Normal TRUE Overcast Mild High TRUE Overcast Hot Normal FALSE Rainy Mild High TRUE Play No No Yes Yes Yes No Yes No Yes Yes Yes Yes Yes No
Weather.nominal: splits
En este caso todos los atributos son nominales En este ejemplo usaremos splits simples
Posibles splits
Posibles splits
Ejemplo
Split simple sobre variable Outlook
Gini(sunny) = 1- 0.16 - 0.36 = 0.48 Gini(overcast)= 0 Gini(rainy)= 0.48 GiniSplit = (5/14) 0.48 + 0 0.48 + (5/14) 0.48 = 0.35
1. Dar el nmero de splits que necesitamos evaluar en la primera iteracin del algoritmo de Hunt, para (a) splits complejos y (b) splits simples. 2. Seleccionar el mejor split usando el criterio del ndice Gini
Calcular el GiniSplit de cada split Determinar el mejor split