Académique Documents
Professionnel Documents
Culture Documents
Analizaremos
Arboles de decisin
Redes Neuronales
Tcnicas de agrupamiento
1
Reglas de clasificacin y de asociacin
A partir de la informacin disponible se busca
obtener reglas de la forma:
Si cuentas-Morosas > 0 entonces
Devuelve-credito = no
Si Cuentas-Morosas=0 Y
[(Salario>2500) O (D-credito>10)]
entonces Devuelve-credito= si
Si compra Paales entonces compra leche
2
Reglas vs. Arboles
En general las reglas son ms compactas
que los rboles. Especialmente si puede
usarse una regla por defecto.
Cada regla puede representar un concepto
distinto. Esto permite agregar/quitar reglas
fcilmente cosa que no es fcil de hacer en el
rbol.
Una regla puede fallar para algunos
ejemplos. El rbol no.
3
Aprendizaje de reglas
La estrategia utilizada para aprender reglas,
est basada en covering, esto es, encontrar
condiciones de reglas (par atributo-valor) que
cubra la mayor cantidad de ejemplos de una
clase, y la menor del resto de las clases. Se
considera el cubrir una sola clase.
4
Aprendizaje de reglas
5
Mtodos de Construccin
Reglas de Clasificacin
ZeroR
OneR
PRISM
Reglas de asociacin
A priori
6
Reglas de clasificacin
Mtodo ZeroR
Es el ms simple de todos.
9
Obtener las reglas que cubran los
siguientes datos usando 1R
N Ambiente Temperatura Humedad Viento Juega?
1 soleado alta alta no No
2 soleado alta alta si No
3 nublado alta alta no Si
4 lluvioso media alta no Si
5 lluvioso baja normal no Si
6 lluvioso baja normal si No
7 nublado baja normal si Si
8 Soleado media alta no No
9 Soleado baja normal no Si
10 lluvioso media normal no Si
11 Soleado media normal si Si
12 Nublado media alta si Si
13 Nublado alta normal no Si
14 lluvioso media alta si No
10
Reglas de clasificacin
Mtodo 1R
Atributo Reglas Errores Error Total
1 Ambiente Soleado No 2/5 4/14
Nublado Si 0/4
Lluvia Si 2/5
2 Temperatura Alta No 2/4 5/14
Media Si 2/6
Baja Si 1/4
3 Humedad Alta No 3/7 4/14
Normal Si 1/7
4 Viento Si Si 2/8 5/14
No No 3/6 11
Mtodo 1R
Ventajas
Es fcil de aplicar.
Puede trabajar con datos faltantes y atributos
numricos.
Desventajas
Tiende a obtener muchas reglas porque se ve
favorecido por los atributos con muchas categoras ya
que particionan los datos en muchas clases.
Las reglas no necesariamente dan una clasificacin
exacta.
12
Algoritmo de PRISM
La construccin de las reglas busca
caracterizar (cubrir) exactamente a los datos.
A medida que se cubren los ejemplos, se
eliminan de la entrada de datos.
Este mecanismo de construccin lleva a
obtener una lista de decisin pues el orden
de ejecucin de las reglas queda
predeterminado.
13
Algoritmo de PRISM para obtener
reglas de clasificacin
Para cada clase C
Sea E = Ejemplos de entrenamiento
Mientras E tenga ejemplos de clase C
Crea una regla R con antecedente vaco y clase C
Hasta que R sea perfecta
Para c/atrib.A no incluido en R y c/valor v,
Considera aadir (A=v) al antecedente de R.
17
Algoritmo PRISM aplicado a la tabla
de ejemplos para jugar al golf
N Ambiente Temperatura Humedad Viento Juega?
1 soleado alta alta no No
2 soleado alta alta si No
4 lluvioso media alta no Si
5 lluvioso baja normal no Si
6 lluvioso baja normal si No
8 Soleado media alta no No
9 Soleado baja normal no Si
10 lluvioso media normal no Si
11 Soleado media normal si Si
14 lluvioso media alta si No 18
Algoritmo PRISM aplicado a la tabla
de ejemplos para jugar al golf
Juega = SI
22
Algoritmo PRISM aplicado a la tabla
de ejemplos para jugar al golf
Las reglas obtenidas hasta ahora son
Si Ambiente=Nublado entonces
Juega=SI
Si Humedad=Normal y
Viento=NO entonces Juega=SI
23
Algoritmo PRISM aplicado a la tabla
de ejemplos para jugar al golf
El conjunto de reglas completo es
24
Reglas de asociacin
Una regla de asociacin es una proposicin
probabilstica sobre la ocurrencia de ciertos
estados en una base de datos.
Permiten expresar patrones de datos en una
BBDD. Son aplicables a la toma de
decisiones.
Ejemplos
Relacin en la compra de productos
Itinerarios ms utilizados por los visitantes de
pginas WEB
25
Reglas de Asociacin
Definicin
Sea I el conjunto de tems de una base de
datos D.
Una Regla de Asociacin (RA) es una
implicacin de la forma
XY
donde X I, Y I, y X Y = .
26
Regla de Asociacin.Ejemplo
Vino Gaseosa Leche Miel Bizcochos Galletas Jugo
T1 1 1 0 0 0 1 0
T2 0 1 1 0 0 0 0
T3 0 0 0 1 1 1 0
T4 1 1 0 1 1 1 1
T5 0 0 0 0 0 1 0
T6 1 0 0 0 0 1 1
T7 0 1 1 1 1 0 0
T8 0 0 0 1 1 1 1
T9 1 1 0 0 1 0 1
T10 0 1 0 0 1 0 0
Antecedente Consecuente 27
Calidad de una regla
Generalmente se usan dos medidas
Soporte o cobertura
Proporcin de instancias que la regla
predice correctamente.
Confianza o precisin
Cociente entre la cantidad de veces que
la regla se cumple y la cantidad de veces
que se puede aplicar
Verificar que la regla del ejemplo anterior tiene
soporte 0.3 (3 de 10) y confianza del 0.75 (3 de 4) 28
Soporte y Confianza
El Soporte de una regla de asociacin X Y
en una base de datos D est dado por la
expresin
X Y
Sup( X Y )
D
Aprendizaje
Extraccin del conjunto de items que cumple
con el soporte requerido.
Generacin de las reglas a partir de estos
items.
30
Algoritmo A priori
Identificar los items que en forma individual
cumplen con la cobertura mnima.
Utilizar estos items para formar conjuntos de
dos items que cumplen con la cobertura
mnima.
Utilizar los items anteriores para formar
grupos de a tres.
Seguir hasta que no encontrar un grupo
mayor que cumpla con los requisitos.
31
Algoritmo A priori - Importancia de
los conjuntos de items frecuentes
Hallar los itemsets frecuentes: conjuntos de items
que tienen mnimo soporte
Un subconjunto de un itemset frecuente debe ser
tambin un itemset frecuente
si {AB} es un itemset frecuente, luego {A} y {B}
deberian ser itemsets frecuentes
37
Inters de una regla
Tabla construida a partir de 100 muestras de la BBDD
p( x. y )
I ( x, y )
p( x). p( y )
siendo p(x) la probabilidad de que el subconjunto de
items x aparezca en una transaccin de entrada.
41