Vous êtes sur la page 1sur 23

LOGO

Clasificador ID3
Inteligencia Artificial II
I T C M
Ghost Lsa
Ing. Juan Javier Gonzlez Barbosa
www.themegallery.com
Definicin
El clasificador ID3 (Induction Decisin Trees) permite
crear rboles de decisin basndose en un conjunto de
entrenamiento, fue diseado en los 80s por J. Ross
Quinlan
El conjunto de entrenamiento contiene ejemplos, los
cuales tienen atributos y una nica clase. El dominio de
cada atributo esta limitado a un conjunto de valores.

I T C M
El ID3 genera reglas de decisin que clasifican cada
uno de los ejemplos del conjunto de entrenamiento.

Ejemplo Regla: SI (condicin) ENTONCES Asignacin

www.themegallery.com
Objetivo
El objetivo del ID3 es crear una descripcin
eficiente de un conjunto de datos mediante la utilizacin
de un rbol de decisin. Dados datos consistentes, es
decir, sin contradiccin entre ellos, el rbol resultante
describir el conjunto de entrada a la perfeccin.
Adems el rbol puede ser utilizado para predecir los
valores de nuevos datos, asumiendo siempre que el
conjunto de datos sobre el cual se trabaja es
representativo de la totalidad de los datos.
I T C M
www.themegallery.com
Terminologa
Hay dos conceptos importantes a tener en cuenta
en el algoritmo ID3: La entropa y el rbol de decisin.

Entropa: Se utiliza para encontrar el parmetro
ms significativo en la caracterizacin de un
clasificador.

rbol de decisin: Es un medio eficiente e intuitivo
para organizar los descriptores que pueden ser
utilizados con funciones predictivas.
I T C M
www.themegallery.com
Metodologa ID3
Construccin de Tablas de Frecuencias
1
Clculo de la Entropa del Conjunto
2
Clculo de la Entropa p/cada Atributo
3
Clculo de la ganancia p/cada Atributo
4
Construccin del rbol de Decisin
5
Simplificacin del rbol de Decisin
6
Construccin de Reglas de Decisin
7
I T C M
www.themegallery.com
Ejemplo: Juego de tenis
Supongamos que queremos analizar cules das
son convenientes para jugar tenis basndonos en la
humedad, el viento y el estado del tiempo.

Los datos que se utilizarn se presentan en la
siguiente tabla:
I T C M
www.themegallery.com
Conjunto de Entrenamiento
ESTADO HUMEDAD VIENTO JUEGO TENIS
SOLEADO ALTA LEVE NO
SOLEADO ALTA FUERTE NO
NUBLADO ALTA LEVE SI
LLUVIA ALTA LEVE SI
LLUVIA NORMAL LEVE SI
LLUVIA NORMAL FUERTE NO
NUBLADO NORMAL FUERTE SI
SOLEADO ALTA LEVE NO
SOLEADO NORMAL LEVE SI
LLUVIA NORMAL LEVE SI
SOLEADO NORMAL FUERTE SI
NUBLADO ALTA FUERTE SI
NUBLADO NORMAL LEVE SI
LLUVIA ALTA FUERTE SI
I T C M
www.themegallery.com
Paso 1: Tabla de frecuencias
El primer paso del ID3 es la construccin de la tabla
de frecuencias, Para lo cual se identifica cuantos
atributos existen y que dominio tienen. Una vez
realizado esto, se construye una tabla para cada
atributo.
El siguiente paso es contabilizar cuantas veces
aparece cada valor de dominio en las clases posibles,
para este ejemplo las clases posibles (conclusiones)
son: SI es posible jugar tenis o NO es posible jugar
tenis.

I T C M
www.themegallery.com
Tabla de Frecuencias
ESTADO
SI NO
SOLEADO 2 3
NUBLADO 4 0
LLUVIA 4 1
HUMEDAD
SI NO
ALTA 4 3
NORMAL 6 1
VIENTO
SI NO
FUERTE 4 2
LEVE 6 2
I T C M
www.themegallery.com
Los valores que se utilizan para el clculo de la
entropa del conjunto se obtienen contabilizando el
numero de ocasiones que apareci cada clase
(conclusin) en un determinado atributo (no importa
cual se tome en cuenta, es el mismo resultado).

Para este caso dichos valores son: SI (10 casos) y
NO (4 casos).

El otro valor se obtiene contabilizando el numero
total de casos del conjunto de entrenamiento (14).


Paso 2: Entropia del Conjunto
I T C M
www.themegallery.com
Para realizar este clculo es necesario identificar los valores
del dominio para cada atributo y se toma en cuenta lo siguiente:

- El numero de ocasiones que cada valor cae en cada clase
(conclusin). Ejemplo para el atributo estado: soleado si (2) y
soleado no(3)
- El numero total de casos del conjunto de entrenamiento (14)
- El numero total de casos de cada valor de dominio de un
atributo. Ejemplo para el atributo estado: Soleado (5) se obtiene de
sumar 2(si) + 3(no)=5(total de casos soleado)

NOTA: Este clculo se realiza para cada atributo.

Paso 3: Entropia de atributos
I T C M
www.themegallery.com
El clculo de la ganancia de cada atributo se
obtiene de la siguiente forma:

Ganancia atributo = entropa del conjunto entropa del
atributo

El clculo de la ganancia nos va a permitir
determinar sobre que estado se va a realizar el primer
filtrado para realizar el rbol. Se elige aquel atributo
cuya ganancia tenga mayor peso (ganancia mayor).
Paso 4: Ganancia
I T C M
www.themegallery.com
Calculos: Estado
Entropia del conjunto:
86312 .
14
4
log
14
4
14
10
log
14
10
) (
2 2
= = S H
Entropia:
6046 .
5
1
log
5
1
5
4
log
5
4
14
5
4
0
log
4
0
4
4
log
4
4
14
4
5
3
log
5
3
5
2
log
5
2
14
5
) , (
2 2 2 2
2 2
=
|
.
|

\
|
+
|
.
|

\
|

+
|
.
|

\
|
= estado S H
Ganancia resultante:
Ganancia (S,estado) = H(S) - H(S,estado) = .86312-.6046 = .25852
I T C M
www.themegallery.com
Ganancias resultantes
Estado = .258521
Humedad = .0746702
Viento = .00597769
I T C M
www.themegallery.com
Paso 5: rbol de Decisin
El rbol de decisin, se construye realizando filtrados. El
primer filtrado se va a realizar sobre el atributo que tenga la mayor
ganancia y se va a obtener como resultado tablas ms pequeas,
el numero de tablas resultantes va a depender del dominio que
tenga el atributo sobre el cual se realiz el filtrado. Una hoja es
generada cuando se obtiene homogeneidad en la conclusin de
alguna tabla resultante.

En caso de no existir homogeneidad, se tiene que realizar otro
filtrado y para determinar sobre que atributo realizarlo se tiene que
calcular la entropa y ganancia de cada atributo que no haya sido
filtrado. Cabe mencionar que el calculo se va a realizar sobre la
tabla resultante. El proceso se repite hasta que no existan tablas
que filtrar.
I T C M
www.themegallery.com
Arbol de Decisin
I T C M
www.themegallery.com
Arbol de Decision
I T C M
www.themegallery.com
Arbol de Decision
I T C M
www.themegallery.com
Paso 6: Simplificacin rbol
El proceso de simplificacin consiste en
representar solamente las hojas del rbol de tal
manera que se facilite la lectura del mismo.
I T C M
www.themegallery.com
Arbol de Decision
I T C M
www.themegallery.com
Paso 7: Reglas de Decisin
Las reglas de decisin se construyen haciendo un
recorrido del rbol en posfijo, es decir, de arriba hacia
abajo y de izquierda a derecha.
I T C M
www.themegallery.com
Reglas de Decision
Regla 0
SI estado=lluvia
Y viento=fuerte
Y humedad=alta
ENTONCES JuegoTenis=Si
Regla 1
SI estado=lluvia
Y viento=fuerte
Y humedad=normal
ENTONCES JuegoTenis=No
Regla 2
SI estado=lluvia
Y viento=leve
ENTONCES JuegoTenis=Si
Regla 3
SI estado=nublado
ENTONCES JuegoTenis=Si
Regla 4
SI estado=soleado
Y humedad=alta
ENTONCES JuegoTenis=No
Regla 5
SI estado=soleado
Y humedad=normal
ENTONCES JuegoTenis=Si
I T C M
www.themegallery.com
Clasificacin de un ejemplo
ESTADO HUMEDAD VIENTO JUGAR TENIS
LLUVIA NORMAL LEVE ?
Regla 2
SI estado=lluvia
Y viento=leve
ENTONCES JuegoTenis=Si
ESTADO HUMEDAD VIENTO JUGAR TENIS
LLUVIA ALTA FUERTE ?
Regla 0
SI estado=lluvia
Y viento=fuerte
Y humedad=alta
ENTONCES JuegoTenis=Si
ESTADO HUMEDAD VIENTO JUGAR TENIS
LLUVIA NORMAL LEVE SI
ESTADO HUMEDAD VIENTO JUGAR TENIS
LLUVIA ALTA FUERTE SI
ESTADO HUMEDAD VIENTO JUGAR TENIS
NUBLADO NORMAL FUERTE ?
Regla 3
SI estado=nublado
ENTONCES JuegoTenis=Si
ESTADO HUMEDAD VIENTO JUGAR TENIS
NUBLADO NORMAL FUERTE SI
I T C M