Académique Documents
Professionnel Documents
Culture Documents
1. INTRODUCCIÓN
3. ALGORITMOS DE INDUCCIÓN
Algoritmo de Hunt
Algoritmo ID3
Algoritmo C4.5
4. BIBLIOGRAFÍA
1
INTRODUCCIÓN
Introducción
Clasificación (i)
2
Introducción
Clasificación (ii)
3
Algoritmo de Hunt
Datos disponibles
Atributos Clase
x1 x2 ··· xi ··· xn y
Clasificación (ii)
5
Introducción
Utilidad de la clasificación
6
Introducción
Ejemplo 1
7
Introducción
Ejemplo 2
8
¿QUÉ SON Y CÓMO SE
EMPLEAN?
Árbol de decisión
Ejemplo 1
PREVISIÓN
No Sı́ No Sı́
9
Árbol de decisión
Ejemplo 2
CASA
Propiedad Alquiler
Conceder ESTADO
INGRESOS Denegar
Denegar Conceder
10
Árbol de decisión
Descripción y uso
11
Árbol de decisión
12
Árbol de decisión
13
Árbol de decisión
Problemas apropiados
Problemas apropiados
Problemas apropiados
Problemas apropiados
Descripción
15
Algoritmo de Hunt
Ejemplo (i)
id9 id11
Dı́as
id13
id6 id14
Algoritmo de Hunt
Ejemplo (i)
PREVISIÓN
id9 id11
Dı́as
id13
id6 id14
Algoritmo de Hunt
Ejemplo (i)
PREVISIÓN
Soleado
id9 id11
Dı́as Nuboso
id13
Lluvioso
id6 id14
Algoritmo de Hunt
Ejemplo (i)
PREVISIÓN HUMEDAD
Soleado
id9 id11
Dı́as Nuboso
id13
Lluvioso
id6 id14
Algoritmo de Hunt
Ejemplo (i)
PREVISIÓN HUMEDAD
Dı́as Nuboso
id13
Lluvioso
id6 id14
Algoritmo de Hunt
Ejemplo (i)
PREVISIÓN HUMEDAD
Dı́as Nuboso
id13
VIENTO
Lluvioso
id6 id14
Algoritmo de Hunt
Ejemplo (i)
PREVISIÓN HUMEDAD
Dı́as Nuboso
id13
VIENTO
16
Algoritmo de Hunt
Ejemplo (ii)
PREVISIÓN
No Sı́ No Sı́
17
Algoritmo de Hunt
Consideraciones
18
Algoritmo de Hunt
Cuestiones de diseño
19
Algoritmo de Hunt
• Entropı́a:
c
X
E (S) = − p(i) · log2 p(i)
i=1
• Gini:
c
X 2
G (S) = 1 − [p(i)]
i=1
• Error de clasificación:
EC (S) = 1 − max {p(i)}
1≤i≤n
20
Algoritmo de Hunt
S
id8 id9 id10 id11 id12 id13 id14
21
Algoritmo de Hunt
22
Algoritmo de Hunt
23
Algoritmo de Hunt
24
Algoritmo de Hunt
Ganancia
25
Algoritmo de Hunt
26
Algoritmo de Hunt
27
Algoritmo de Hunt
28
Algoritmo de Hunt
29
Algoritmo ID3
Descripción
30
Algoritmo ID3
Observaciones
31
Extensiones del algoritmo ID3
Sobreajuste (i)
32
Extensiones del algoritmo ID3
Sobreajuste (ii)
33
Extensiones del algoritmo ID3
• Simplificar el árbol
• Simplificar el árbol
• Simplificar el árbol
• Simplificar el árbol
35
Extensiones del algoritmo ID3
• Simplificar el árbol
35
Extensiones del algoritmo ID3
37
Algoritmo C4.5
Descripción
• Algoritmo de inducción propuesto por Ross Quinlan [5] que usa el ratio
de ganancia para seleccionar el atributo.
• Trabaja con atributos discretos y continuos. Los atributos continuos
se evalúan considerando un umbral y dividiendo el conjunto de ejemplos
en dos subconjuntos. Al primero pertenecen los ejemplos con valor del
atributo menor o igual que el umbral y al segundo los ejemplos con valor
mayor.
• Trabaja con valores perdidos en los atributos. A tal fin, los ejemplos
con valores perdidos en algún atributo no se usan en el cálculo de la
entropı́a o de la ganancia.
• Trabaja con atributos con costes diferentes.
• Poda los árboles después de su creación.
38
Algoritmo C4.5
Descripción
• Algoritmo de inducción propuesto por Ross Quinlan [5] que usa el ratio
de ganancia para seleccionar el atributo.
• Trabaja con atributos discretos y continuos. Los atributos continuos
se evalúan considerando un umbral y dividiendo el conjunto de ejemplos
en dos subconjuntos. Al primero pertenecen los ejemplos con valor del
atributo menor o igual que el umbral y al segundo los ejemplos con valor
mayor.
• Trabaja con valores perdidos en los atributos. A tal fin, los ejemplos
con valores perdidos en algún atributo no se usan en el cálculo de la
entropı́a o de la ganancia.
• Trabaja con atributos con costes diferentes.
• Poda los árboles después de su creación.
38
Algoritmo C4.5
Descripción
• Algoritmo de inducción propuesto por Ross Quinlan [5] que usa el ratio
de ganancia para seleccionar el atributo.
• Trabaja con atributos discretos y continuos. Los atributos continuos
se evalúan considerando un umbral y dividiendo el conjunto de ejemplos
en dos subconjuntos. Al primero pertenecen los ejemplos con valor del
atributo menor o igual que el umbral y al segundo los ejemplos con valor
mayor.
• Trabaja con valores perdidos en los atributos. A tal fin, los ejemplos
con valores perdidos en algún atributo no se usan en el cálculo de la
entropı́a o de la ganancia.
• Trabaja con atributos con costes diferentes.
• Poda los árboles después de su creación.
38
Algoritmo C4.5
Descripción
• Algoritmo de inducción propuesto por Ross Quinlan [5] que usa el ratio
de ganancia para seleccionar el atributo.
• Trabaja con atributos discretos y continuos. Los atributos continuos
se evalúan considerando un umbral y dividiendo el conjunto de ejemplos
en dos subconjuntos. Al primero pertenecen los ejemplos con valor del
atributo menor o igual que el umbral y al segundo los ejemplos con valor
mayor.
• Trabaja con valores perdidos en los atributos. A tal fin, los ejemplos
con valores perdidos en algún atributo no se usan en el cálculo de la
entropı́a o de la ganancia.
• Trabaja con atributos con costes diferentes.
• Poda los árboles después de su creación.
38
Algoritmo C4.5
Descripción
• Algoritmo de inducción propuesto por Ross Quinlan [5] que usa el ratio
de ganancia para seleccionar el atributo.
• Trabaja con atributos discretos y continuos. Los atributos continuos
se evalúan considerando un umbral y dividiendo el conjunto de ejemplos
en dos subconjuntos. Al primero pertenecen los ejemplos con valor del
atributo menor o igual que el umbral y al segundo los ejemplos con valor
mayor.
• Trabaja con valores perdidos en los atributos. A tal fin, los ejemplos
con valores perdidos en algún atributo no se usan en el cálculo de la
entropı́a o de la ganancia.
• Trabaja con atributos con costes diferentes.
• Poda los árboles después de su creación.
38
Algoritmo C4.5
Atributos continuos
Atributos continuos
Atributos continuos
Atributos continuos
Atributos continuos
t1 t2 t3 t4 t5
s1 s2 s3 s4 s5 s6
C1 C1 C2 C3 C3 C4
t2 t3 t5
40
Algoritmo C4.5
t1 t2 t3 t4 t5
s1 s2 s3 s4 s5 s6
C1 C1 C2 C3 C3 C4
t2 t3 t5
40
Algoritmo C4.5
t1 t2 t3 t4 t5
s1 s2 s3 s4 s5 s6
C1 C1 C2 C3 C3 C4
t2 t3 t5
40
Algoritmo C4.5
t1 t2 t3 t4 t5
s1 s2 s3 s4 s5 s6
C1 C1 C2 C3 C3 C4
t2 t3 t5
40
Algoritmo C4.5
Poda
41
Algoritmo C4.5
Poda
41
Algoritmo C4.5
Poda
41
BIBLIOGRAFÍA
Bibliografı́a I
42
Bibliografı́a II
Quinlan, J. R.
Induction of decision trees.
Machine Learning 1 (1986), 81–106.
Quinlan, J. R.
C4.5 Programs for Machine Learning.
Morgan Kaufmann, 1993.
Tan, P.-N., Steinbach, M., and Kumar, V.
Introduction to Data Mining.
Addison-Wesley, 2006.
43
Licencia
44