t8s Arboles

Tema 8: rboles de Clasicacin
Abdelmalik Moujahid, Inaki Inza, Pedro Larranaga Departamento de Ciencias de la Computacion e Inteligencia Articial Universidad del Pas Vasco http://www.sc.ehu.es/isg/
Tema 8: Arboles de Clasicacion p. 1/1
Contenido
Introduccin El algoritmo bsico TDIDT (Top Down Induction of
Decision Trees)
El algoritmo ID3 (Quinlan 1986) El algoritmo C4.5 (Quinlan 1993)
Introduccin
Un rbol de clasicacin es un conjunto de
condiciones organizadas en una estructura jerrquica, de tal manera que la decisin nal a tomar se puede determinar siguiendo las condiciones que se cumplen desde el nodo raz hasta alguna de sus hojas.
Particionamiento recursivo del dominio de denicin
de las variables predictoras en particiones disjuntas.

Una particin es un conjunto de reglas excluyentes y
exhaustivas.
El algoritmo bsico
Representacin en el plano de distintos patrones caracterizados por 2 variables predictoras X1 y X2 y una variable clase C con dos posibles valores
El algoritmo bsico
rbol de clasicacin correspondiente al ejemplo representado anterior Conjunto de reglas equivalentes al rbol de clasicacin: R1 : R2 : R3 : R4 :
If If If If
X1 > 1,5 1 < X1 < 1,5 X1 < 1 X1 < 1

and and
then then
C=2 C=1 C=1 C=2
X2 < 1 X2 > 1
then then
El algoritmo bsico
Input: D conjunto de N patrones etiquetados, cada uno de los cuales est caracterizado por n variables predictoras X1 , . . . , Xn y la variable clase C Output: rbol de clasicacin Begin TDIDT (Top Down Induction of Decision Trees) if todos los patrones de D pertenecen a la misma clase c then resultado de la induccin es un nodo simple (nodo hoja) etiquetado como c else begin 1. Seleccionar la variable ms informativa Xr con valores x1 , . . . , xnr r r 2. Particionar D de acorde con los nr valores de Xr en D1 , . . . , Dnr 3. Construir nr subrboles T1 , . . . , Tnr para D1 , . . . , Dnr 4. Unir Xr y los nr subrboles T1 , . . . , Tnr con los valores x1 , . . . , xnr r r end endif End TDIDT
El algoritmo bsico
El buen funcionamiento de un algoritmo de aprendizaje de rboles de clasicacin depende de dos puntos importantes:
Las particiones a considerar El criterio de seleccin de las particiones
El algoritmo ID3
ID3 (Quinlan, 1986) selecciona la variable ms
informativa en base a la cantidad de informacin mutua: I(Xi , C) = H(C) H(C|Xi ) (ganancia en informacin)
Matemticamente se demuestra que este criterio
favorece la eleccin de variables con mayor nmero de valores

Seleccin de variables previa (preprunning) basada en
un test de independencia entre cada variable predictora Xi y la variable clase C
El algoritmo C4.5
C4.5 (Quinlan, 1993) selecciona la variable ms
informativa en base al ratio de ganancia: I(Xi , C)/H(Xi )

Matemticamente se demuestra que este criterio evita
que se favorezca la eleccin de variables con mayor nmero de valores

Incorporacin de una poda del rbol inducido
(postpruning), basada en un test de hiptesis que trata de responder a la pregunta de si merece la pena expandir o no una determinada rama
El algoritmo C4.5
Ejemplo para el proceso de pos-poda del algoritmo C4.5
El algoritmo C4.5
Proceso de poda del rbol
N (t) = 35, ejemplos en el nodo t = 26 e(t) = 10 + 5 = 15, ejemplos mal clasicados en el nodo t n (t) = e(t) +
1 2
= 15, 5, correccin por continuidad de e(t)
Tt , subrbol a expandir a partir del nodo t h(Tt ) = 4, nmero de hojas del subrbol Tt h(Tt ) 4 = 2 + 0 + 6 + 2 + = 12, nmero de errores 2 2 i=1 existentes en las hojas terminales del subrbol Tt n (Tt ) = e(i) + S(n (Tt )) =
n (Tt )[N (t)n (Tt )] N (t) h(Tt )
12(35 12) 2,8, desviacin de n (Tt ) 35
El nodo t se expande n (Tt ) + S(n (Tt )) < n (t) 12 + 2,8 < 15,5 El nodo 26 se expande considerndose los nodos 28, 29, 30 y 31

t8s Arboles

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

t8s Arboles

Transféré par

Droits d'auteur :

Formats disponibles

Tema 8: rboles de Clasicacin

Tema 8: Arboles de Clasicacion p. 1/1

Tema 8: Arboles de Clasicacion p. 2/1

de las variables predictoras en particiones disjuntas.

Tema 8: Arboles de Clasicacion p. 3/1

Tema 8: Arboles de Clasicacion p. 4/1

X1 > 1,5 1 < X1 < 1,5 X1 < 1 X1 < 1

C=2 C=1 C=1 C=2

Tema 8: Arboles de Clasicacion p. 5/1

Tema 8: Arboles de Clasicacion p. 6/1

Tema 8: Arboles de Clasicacion p. 7/1

favorece la eleccin de variables con mayor nmero de valores

un test de independencia entre cada variable predictora Xi y la variable clase C

Tema 8: Arboles de Clasicacion p. 8/1

informativa en base al ratio de ganancia: I(Xi , C)/H(Xi )

que se favorezca la eleccin de variables con mayor nmero de valores

Tema 8: Arboles de Clasicacion p. 9/1

Ejemplo para el proceso de pos-poda del algoritmo C4.5

Tema 8: Arboles de Clasicacion p. 10/1

= 15, 5, correccin por continuidad de e(t)

12(35 12) 2,8, desviacin de n (Tt ) 35

Tema 8: Arboles de Clasicacion p. 11/1

Vous aimerez peut-être aussi