Vous êtes sur la page 1sur 41

Tcnicas de Minera de Datos

Analizaremos

Arboles de decisin

Reglas de clasificacin y asociacin

Redes Neuronales

Tcnicas de agrupamiento

1
Reglas de clasificacin y de asociacin
A partir de la informacin disponible se busca
obtener reglas de la forma:
Si cuentas-Morosas > 0 entonces
Devuelve-credito = no
Si Cuentas-Morosas=0 Y
[(Salario>2500) O (D-credito>10)]
entonces Devuelve-credito= si
Si compra Paales entonces compra leche

2
Reglas vs. Arboles
En general las reglas son ms compactas
que los rboles. Especialmente si puede
usarse una regla por defecto.
Cada regla puede representar un concepto
distinto. Esto permite agregar/quitar reglas
fcilmente cosa que no es fcil de hacer en el
rbol.
Una regla puede fallar para algunos
ejemplos. El rbol no.

3
Aprendizaje de reglas
La estrategia utilizada para aprender reglas,
est basada en covering, esto es, encontrar
condiciones de reglas (par atributo-valor) que
cubra la mayor cantidad de ejemplos de una
clase, y la menor del resto de las clases. Se
considera el cubrir una sola clase.

La idea bsica es aadir pruebas a cada


regla que se esta construyendo buscando
maximizar la cobertura minimizando errores.

4
Aprendizaje de reglas

5
Mtodos de Construccin
Reglas de Clasificacin
ZeroR
OneR
PRISM

Reglas de asociacin
A priori

6
Reglas de clasificacin
Mtodo ZeroR
Es el ms simple de todos.

Clasifica todos los ejemplos como


pertenecientes a la clase mayoritaria.
Ejemplo
Utilizar este mtodo para obtener una regla
que clasifique segn la clase mayoritaria los
datos del archivo Drug5.xls.
Verifique que la tasa de acierto es del 45.5%
7
Mtodo ZeroR : Ejemplo
Predecir el tipo de frmaco que se debe administrar
a un paciente afectado de rinitis alrgica utilizando el
mtodo ZeroR.
La respuesta ser siempre DrugY
(tasa de acierto 91/200 = 0.455
es decir que acierta el 45.5% de los
casos)

DrugY DrugC DrugX DrugA DrugB


8
Reglas de clasificacin
Mtodo 1R
Clasifica en base a un nico atributo.
Algoritmo
Para cada atributo Ai
Para cada valor de c/atributo Vj
Crea una regla de la forma
Si Ai = Vj entonces Ck
siendo Ck la clase ms frecuente
Calcula el error de la regla
Selecciona el atributo con el error ms bajo.

9
Obtener las reglas que cubran los
siguientes datos usando 1R
N Ambiente Temperatura Humedad Viento Juega?
1 soleado alta alta no No
2 soleado alta alta si No
3 nublado alta alta no Si
4 lluvioso media alta no Si
5 lluvioso baja normal no Si
6 lluvioso baja normal si No
7 nublado baja normal si Si
8 Soleado media alta no No
9 Soleado baja normal no Si
10 lluvioso media normal no Si
11 Soleado media normal si Si
12 Nublado media alta si Si
13 Nublado alta normal no Si
14 lluvioso media alta si No
10
Reglas de clasificacin
Mtodo 1R
Atributo Reglas Errores Error Total
1 Ambiente Soleado No 2/5 4/14
Nublado Si 0/4
Lluvia Si 2/5
2 Temperatura Alta No 2/4 5/14
Media Si 2/6
Baja Si 1/4
3 Humedad Alta No 3/7 4/14
Normal Si 1/7
4 Viento Si Si 2/8 5/14
No No 3/6 11
Mtodo 1R
Ventajas
Es fcil de aplicar.
Puede trabajar con datos faltantes y atributos
numricos.

Desventajas
Tiende a obtener muchas reglas porque se ve
favorecido por los atributos con muchas categoras ya
que particionan los datos en muchas clases.
Las reglas no necesariamente dan una clasificacin
exacta.

12
Algoritmo de PRISM
La construccin de las reglas busca
caracterizar (cubrir) exactamente a los datos.
A medida que se cubren los ejemplos, se
eliminan de la entrada de datos.
Este mecanismo de construccin lleva a
obtener una lista de decisin pues el orden
de ejecucin de las reglas queda
predeterminado.

13
Algoritmo de PRISM para obtener
reglas de clasificacin
Para cada clase C
Sea E = Ejemplos de entrenamiento
Mientras E tenga ejemplos de clase C
Crea una regla R con antecedente vaco y clase C
Hasta que R sea perfecta
Para c/atrib.A no incluido en R y c/valor v,
Considera aadir (A=v) al antecedente de R.

Selecciona el par (A=v) que maximice p / t

(si hay empate se selecc. la que tenga p mayor)


Aade (A = v) a R
Elimina de E los ejemplos cubiertos
14
Obtener las reglas que cubran los
siguientes datos usando PRISM
N Ambiente Temperatura Humedad Viento Juega?
1 soleado alta alta no No
2 soleado alta alta si No
3 nublado alta alta no Si
4 lluvioso media alta no Si
5 lluvioso baja normal no Si
6 lluvioso baja normal si No
7 nublado baja normal si Si
8 Soleado media alta no No
9 Soleado baja normal no Si
10 lluvioso media normal no Si
11 Soleado media normal si Si
12 Nublado media alta si Si
13 Nublado alta normal no Si
14 lluvioso media alta si No
15
Algoritmo PRISM aplicado a la tabla
de ejemplos para jugar al golf
Juega = SI

Ambiente Soleado 2/5


Nublado 4/4
Lluvia 3/5
Temperatura Alta 2/4
Media 4/6
Baja 3/4
Humedad Alta 3/7
Normal 6/7
Viento No 6/8
16
Si 3/6
Algoritmo PRISM aplicado a la tabla
de ejemplos para jugar al golf
Tenemos la primera regla
Si Ambiente=Nublado entonces Juega=SI

Es perfecta. Los 4 ejemplos clasificados por


esta regla pertenecen a la misma clase; por
lo tanto, se borran los ejemplos del conjunto
de datos y se continua con el resto.

17
Algoritmo PRISM aplicado a la tabla
de ejemplos para jugar al golf
N Ambiente Temperatura Humedad Viento Juega?
1 soleado alta alta no No
2 soleado alta alta si No
4 lluvioso media alta no Si
5 lluvioso baja normal no Si
6 lluvioso baja normal si No
8 Soleado media alta no No
9 Soleado baja normal no Si
10 lluvioso media normal no Si
11 Soleado media normal si Si
14 lluvioso media alta si No 18
Algoritmo PRISM aplicado a la tabla
de ejemplos para jugar al golf
Juega = SI

Ambiente Soleado 2/5


Lluvia 3/5
Temperatura Alta 0/2
Media 3/5
Baja 2/3
Humedad Alta 1/5
Normal 4/5
Viento Si 1/4
No 4/6 19
Algoritmo PRISM aplicado a la tabla
de ejemplos para jugar al golf
La regla
Si Humedad=Normal entonces Juega=SI
No es perfecta porque cubre 4 de los 5 casos
posibles.
N Ambiente Temperatura Humedad Viento Juega?
5 lluvioso baja normal no Si
6 lluvioso baja normal si No
9 Soleado baja normal no Si
10 lluvioso media normal no Si
11 Soleado media normal si Si
20
Falta completar el antecedente
Si Humedad=Normal y
Juega = SI

Ambiente Soleado 2/2


Lluvia 2/3
Temperatura Alta 0/0
Media 2/2
Baja 2/3
Viento Si 1/2
No 3/3

Elegimos Viento=NO porque cubre


ms ejemplos 21
Algoritmo PRISM aplicado a la tabla
de ejemplos para jugar al golf
La regla quedara
Si Humedad=Normal y
Viento=NO entonces Juega=SI
Ahora si es perfecta y cubre los siguientes casos

N Ambiente Temperatura Humedad Viento Juega?


5 lluvioso baja normal no Si
9 Soleado baja normal no Si
10 lluvioso media normal no Si

22
Algoritmo PRISM aplicado a la tabla
de ejemplos para jugar al golf
Las reglas obtenidas hasta ahora son
Si Ambiente=Nublado entonces
Juega=SI
Si Humedad=Normal y
Viento=NO entonces Juega=SI

Repetir el mismo proceso hasta cubrir los


restantes de esta clase.
Rehacer todo para la clase Juega=NO.

23
Algoritmo PRISM aplicado a la tabla
de ejemplos para jugar al golf
El conjunto de reglas completo es

24
Reglas de asociacin
Una regla de asociacin es una proposicin
probabilstica sobre la ocurrencia de ciertos
estados en una base de datos.
Permiten expresar patrones de datos en una
BBDD. Son aplicables a la toma de
decisiones.
Ejemplos
Relacin en la compra de productos
Itinerarios ms utilizados por los visitantes de
pginas WEB
25
Reglas de Asociacin
Definicin
Sea I el conjunto de tems de una base de
datos D.
Una Regla de Asociacin (RA) es una
implicacin de la forma
XY
donde X I, Y I, y X Y = .

26
Regla de Asociacin.Ejemplo
Vino Gaseosa Leche Miel Bizcochos Galletas Jugo
T1 1 1 0 0 0 1 0
T2 0 1 1 0 0 0 0
T3 0 0 0 1 1 1 0
T4 1 1 0 1 1 1 1
T5 0 0 0 0 0 1 0
T6 1 0 0 0 0 1 1
T7 0 1 1 1 1 0 0
T8 0 0 0 1 1 1 1
T9 1 1 0 0 1 0 1
T10 0 1 0 0 1 0 0

Si Bizcochos Y Miel entonces Galletas

Antecedente Consecuente 27
Calidad de una regla
Generalmente se usan dos medidas
Soporte o cobertura
Proporcin de instancias que la regla
predice correctamente.
Confianza o precisin
Cociente entre la cantidad de veces que
la regla se cumple y la cantidad de veces
que se puede aplicar
Verificar que la regla del ejemplo anterior tiene
soporte 0.3 (3 de 10) y confianza del 0.75 (3 de 4) 28
Soporte y Confianza
El Soporte de una regla de asociacin X Y
en una base de datos D est dado por la
expresin
X Y
Sup( X Y )
D

La Confianza (confidence) de una regla de


asociacin X Y est dada por la siguiente
expresin
Sup( X Y ) X Y
Conf ( X Y )
Sup( X ) X
29
Aprendizaje de Reglas de Asociacin
Deben establecerse los requisitos mnimos
Ej: soporte > 0.02

Aprendizaje
Extraccin del conjunto de items que cumple
con el soporte requerido.
Generacin de las reglas a partir de estos
items.

30
Algoritmo A priori
Identificar los items que en forma individual
cumplen con la cobertura mnima.
Utilizar estos items para formar conjuntos de
dos items que cumplen con la cobertura
mnima.
Utilizar los items anteriores para formar
grupos de a tres.
Seguir hasta que no encontrar un grupo
mayor que cumpla con los requisitos.

31
Algoritmo A priori - Importancia de
los conjuntos de items frecuentes
Hallar los itemsets frecuentes: conjuntos de items
que tienen mnimo soporte
Un subconjunto de un itemset frecuente debe ser
tambin un itemset frecuente
si {AB} es un itemset frecuente, luego {A} y {B}
deberian ser itemsets frecuentes

Iterativamente hallar los itemsets frecuentes con


cardinalidad desde 1 a k (k-itemset)

Usar los itemsets frecuentes para generar reglas de


asociacin.
32
Algoritmo A priori
Algoritmo Apriori ( D:datos, MinC : cobertura mnima)
i=0
Rellena_Item(Ci)
mientras Ci
para cada x = elemento de Ci
Si Cobertura(x) MinC entonces Li = Li x
fin para
Ci+1 = Selecciona_Candidatos(Li)
i = i +1
fin mientras
retorna C
33
Algoritmo A priori (sop.mn.=0.5)
Database D itemset sup.
L1 itemset sup.
TID Items C1 {1} 0.5 {1} 0.5
100 134 {2} 0.75 {2} 0.75
200 235 Scan D {3} 0.75 {3} 0.75
300 1235 {4} 0.25 {5} 0.75
400 25 {5} 0.75
C2 itemset sup C2 itemset
L2 itemset sup {1 2} 0.25 Scan D {1 2}
{1 3} 0.5 {1 3} 0.5 {1 3}
{2 3} 0.5 {1 5} 0.25 {1 5}
{2 3} 0.5 {2 3}
{2 5} 0.75
{2 5} 0.75 {2 5}
{3 5} 0.5
{3 5} 0.5 {3 5}
C3 itemset Scan D L3 itemset sup
34
{2 3 5} {2 3 5} 0.5
Reglas de Asociacin
Vino Gaseosa Leche Miel Bizcochos Galletas Jugo
T1 1 1 0 0 0 1 1
T2 0 1 1 0 0 0 0
T3 0 0 0 1 1 1 0
T4 1 1 0 1 1 1 1
T5 0 0 0 0 0 1 0
T6 1 0 0 0 0 1 1
T7 0 1 1 1 1 0 0
T8 0 0 0 1 1 1 1
T9 1 1 0 0 1 0 1
T10 0 1 0 0 1 0 0

Hay dos conjuntos de 3 items con cobertura mnima = 3


{Vino, Gaseosa, Jugo}
{Miel, Bizcochos,Galletas} 35
Reglas de Asociacin
Conjuntos de 3 items con cobertura mnima = 3
{Vino, Gaseosa, Jugo}
{Miel, Bizcochos, Galletas}

Ejemplos de reglas posibles


Si (Vino Y Gaseosa) entonces Jugo Cb=3 ; Cf=3/3
Si (Vino Y Jugo) entonces Gaseosa Cb=3 ; Cf=3/4
Si Gaseosa entonces Vino Y Jugo Cb=3 ; Cf=3/6
De todas las posibles combinaciones se seleccionaran las que
superen un umbral de confianza dado.
36
Mejoras y Extensiones
Para mejorar la bsqueda de reglas de
asociacin se han propuesto variantes al
algoritmo bsico
Tablas hash
Uso de una estructura tipo rbol
Ej: Frequent Pattern Tree [Huan et al.2000]
Tcnicas paralelizacin

37
Inters de una regla
Tabla construida a partir de 100 muestras de la BBDD

Pan Integral (Pan integral) Suma


Pan blanco 20 60 80
(Pan Blanco) 10 10 20
Suma 30 70 100

La regla Si (Pan Integral) Pan Blanco tiene una


cobertura del 20% y una confianza del 66% por lo que
sera aceptable
Sin embargo, el 80% de los clientes compra Plan
Blanco por lo que comprar Pan Integral disminuye la
probabilidad de comprar Pan Blanco.
38
Inters de una regla
Tabla construida a partir de 100 muestras de la BBDD

Pan Integral (Pan integral) Suma


Pan blanco 20 60 80
(Pan Blanco) 10 10 20
Suma 30 70 100

El inters de la regla Si (Pan Integral) Pan Blanco se


calcula como
p(" Pan Blanco " " Pan Integral " ) 0,2
0,833
p(" Pan Blanco " ). p(" Pan Integral " ) 0,8.0,3

Un valor < 1 indica dependencia negativa aunque la


confianza es del 60% la regla no es de inters 39
Inters de una regla
Tabla construida a partir de 100 muestras de la BBDD

Pan Integral (Pan integral) Suma


Pan blanco 20 60 80
(Pan Blanco) 10 10 20
Suma 30 70 100
Analicemos la dependencia entre no comprar Pan Blanco y
comprar Pan Integral
p((" Pan Blanco " ) " Pan Integral " ) 0,1
1,66
p((" Pan Blanco " )). p(" Pan Integral " ) 0,2 . 0,3
Un valor > 1 indica dependencia positiva. Sin embargo, la regla
Si (Pan Blanco) entonces (Pan Integral) tiene una confianza del 50%
40
Inters
El inters de dos eventos x e y se calcula como

p( x. y )
I ( x, y )
p( x). p( y )
siendo p(x) la probabilidad de que el subconjunto de
items x aparezca en una transaccin de entrada.

41

Vous aimerez peut-être aussi