Vous êtes sur la page 1sur 116

Unidad 3: Minera de Datos

Temario
1.- Proceso de Descubrimiento del Conocimiento (KDD) 2.- Tcnicas de Minera de Datos

Proceso KDD
Es el proceso de usar la base de datos en conjunto con cualquier seleccin, proprocesamiento, sub-muestreo, y transformaciones de ella; para aplicar mtodos de minera de dato (algoritmos) y enumerar patrones desde ella; y para evaluar los productos de la minera de datos que identifican el subconjunto de patrones enumerados que llegarn a ser el conocimiento. El descubrimiento de conocimiento puede ser:
de Prediccin: patrones para predecir comportamientos futuros. de Descripcin: patrones para explicar lo que sucede en un formato entendible por el ser humano.
3

Proceso KDD
Por qu la Minera de Datos?

Proceso KDD

Proceso KDD
Por qu la Minera de Datos?

Proceso KDD

Preparacin de Datos
Importancia Necesidad

Los datos de trabajo pueden ser impuros, y conducir a la extraccin de patrones/reglas poco tiles. Motivos:
Datos incompletos. Datos con ruido. Datos inconsistentes.

Preparacin de Datos
Importancia Necesidad

La preparacin de datos puede generar un conjunto de datos ms pequeo que el original, lo cual puede mejorar la eficiencia del proceso de minera de datos. Posibilidades:
Seleccin relevante de datos: mediante eliminacin de registros duplicados, de anomalas, etc. Reduccin de datos: mediante seleccin de caractersticas, muestreo o seleccin de instancias, discretizacin.
9

Preparacin de Datos
Importancia Necesidad

La preparacin de datos genera datos de calidad, los cuales pueden conducir a patrones/reglas de calidad a travs de:
Recuperacin de informacin perdida. Eliminacin de outliers. Resolucin de conflictos.
10

Preparacin de Datos
Actividades

Limpieza de datos: puede ser usada para llenar valores perdidos, suavizar datos con ruido, identificar outliers y corregir datos inconsistentes.

11

Preparacin de Datos
Actividades: Limpieza de Datos

Herramientas: Tabla de Resumen de atributos.

12

Preparacin de Datos
Actividades: Limpieza de Datos

Herramientas: Histograma.
12 10 8 6 4 2 0 1 2 3 4 5 6 7 8 9 10 11 12

13

Preparacin de Datos
Actividades: Limpieza de Datos

Herramientas: Grficos de Dispersin (scatterplot).

Bivariante

Etiquetado

14

Reconocimiento

Matriz de Grficos de Dispersin

15

Preparacin de Datos
Actividades

Integracin de datos: combina datos desde mltiples fuentes para conformar un conjunto de datos coherente. Metadatos, anlisis de correlacin, deteccin de conflictos de datos y resolucin de heterogeneidad semntica, son tcnicas que contribuyen a una integracin adecuada.

16

Preparacin de Datos
Actividades

Transformacin de datos: tcnicas que llevan a los datos en formatos apropiados para el minado, como por ejemplo la normalizacin de los datos.

17

Preparacin de Datos
Actividades

Reduccin de datos: con el objetivo de obtener una representacin reducida de los datos, minimizando la prdida en el contenido de la informacin. Tcnicas posibles son la agregacin de cubos y de dimensiones, la compresin de datos, la reduccin de la numerosidad y la discretizacin.

18

Exploracin y Seleccin de Datos


Vista Minable

19

Exploracin y Seleccin de Datos


Vista Minable

en otras palabras responder


Qu parte de los datos es pertinente analizar? vista minable. Qu tipo de conocimiento se desea extraer y cmo se debe presentar? tarea, mtodo y presentacin. Qu conocimiento puede ser vlido, novedoso e interesante? criterios de calidad. Qu conocimiento previo hace falta para realizar esta tarea? conocimiento previo.
20

Exploracin y Seleccin de Datos


Reconocimiento de Datos

Actividades de Reconocimiento:
del dominio y de los usuarios: reconocer el conocimiento que podra ser til, adems de intentar obtener las reglas ya existentes. Importante tambin determinar quien usar el conocimiento obtenido y qu tipo de representacin puede ser ms aconsejable. exploracin de los datos: para obtener una vista minable, lista para ser tratada por las herramientas de minera de datos.

21

Exploracin de Datos
Tcnicas posibles:
Visualizacin (previa) Agrupamiento exploratorio de seleccin horizontal y vertical Interfaces grficas de Consulta y Agregacin

22

Exploracin de Datos
Tcnica de Ejemplo : Visualizacin

Visualizacin: objetivos
Aprovechar la gran capacidad humana de ver patrones, anomalas y tendencias a partir de imgenes y facilitar la comprensin de los datos. Ayudar al usuario a comprender ms rpida-mente patrones descubiertos automticamente por un sistema KDD.

23

Exploracin de Datos
Tcnica de Ejemplo : Visualizacin

Visualizacin: dos tipos


Previa (Minera de Datos Visual): se utiliza para entender mejor los datos, y sugerir posibles patrones o qu tipo de herramienta de KDD utilizar. Posterior: al proceso de minera de datos, se utiliza para mostrar los patrones y entenderlos mejor.

24

Exploracin de Datos
Tcnica de Ejemplo : Visualizacin

Visualizacin Previa: ejemplos

Funciones de densidad tridimensionales


25

Exploracin de Datos
Tcnica de Ejemplo : Visualizacin

Visualizacin Previa: ejemplos


1 100 80 60 5 40 20 0 2 Serie1 Serie2 Serie3 Serie4

Grfica radial

26

Exploracin de Datos
Tcnica de Ejemplo : Visualizacin

Visualizacin Previa: ejemplos


100,00% Other F

75,00%

Amer-Indian-Eskimo

<=50K

50,00%

Asian-Pac-Islander

>50K Mean <=50K Mean >50K

25,00%

Black

0,00% Age Number of years of study Race

White Sex

M Hours-per-week

Coordenadas Paralelas
27

S13 S11 S9 S7 S5 Tbco. Clstrl. S3 Tnsn. Obsd. Alcl. Prcd. S1 Strss Rsg Casos

Factores

Coordenadas Paralelas

Representacin Icnica 28

Seleccin de Datos

29

Temario
1.- Proceso de Descubrimiento del Conocimiento (KDD) 2.- Tcnicas de Minera de Datos

30

Proceso KDD

31

Tcnicas de la Minera de Datos


Minera de Datos
Descriptiva Predictiva

Visualizacin

Correlaciones y Dependencias

Deteccin de Anomalas

Clasificacin

Regresin Estadstica

Pronsticos

rboles de Decisin Asociacin Patrones Secuenciales Redes Neuronales Artificiales Segmentacin (Agrupamiento) Induccin de Reglas

Criterios Transversales: Mtodos Difusos Mtodos Evolutivos

Mquinas de Soporte Vectorial

Mtodos Bayesianos Mtodos basados en Casos y Vecindad

32

Minera de Datos
Tareas y Mtodos
Tcnicas Mtodo Apriori Algoritmos Genticos y Evolutivos Anlisis Discriminante Multivariante Anlisis Factorial y de Componentes principales rboles de decisin: CART rboles de decisin: ID3, C4.5 rboles de decisin: otros Bayes Ingenuo (Naive) CobWeb, Two Step Kmeans Mquinas de Soporte Vectorial Redes de Kohonen Redes Neuronales Artificiales Reglas CN2 Regresin Lineal y Logartmica Regresin Logstica Vecinos ms cefcanos x x x x x x x x x x x x x x x x x x x x x x x x x x x x Correlaciones Descriptivas Reglas de Asociacin x x x x x x Segmentacin Predictivas Clasificacin Regresin

33

Reglas de Asociacin

34

Asociacin
Definiciones bsicas Tarea descriptiva, no supervisada. Posibilidades:
Reglas de Asociacin: Se buscan asociaciones de la siguiente forma:
(X1 = a) (X4 = b)

Dependencias: asociaciones de la forma (if Ante then Cons):


if (X1= a, X3=c, X5=d) (X4=b, X2=a)

35

Asociacin
Definiciones bsicas
RUT 10.251.545-3 15.512.526-4 12.512.526-4 14.374.183-3 14.572.904-1 Ingreso Familiar 5.000.000 1.000.000 3.000.000 2.000.000 1.500.000 Ciudad Concepcin Valparaso Talca Valdivia Santiago Actividad Ejecutivo Abogado Ejecutivo Camarero Animador Parque Temtico Edad Hijos 45 25 35 30 30 3 0 2 0 0 Sexo Casado M M M M F S No S S No

Asociaciones frecuentes: Casado e (Hijos > 0) sexo Masculino y Casado Dependencias: (Hijos > 0) Casado Casado (Hijos > 0) Casado sexo Masculino

{40%, 2 casos} {60%, 3 casos}

{100%, 2 casos} {66.6%, 2 casos} {100%, 3 casos}

36

Asociacin
Tipos de Reglas de Asociacin Basado en los Tipos de Valores manejados por la Regla:
Regla booleana: las asociaciones indican la ausencia o presencia del elementos, tal como:

computador

impresora

Regla cuantitativa: las asociaciones describe relaciones entre atributos cuantitativos, como por ejemplo: (30 < edad < 39) and (ingreso > 500.000)

TV con pantalla plana

37

Asociacin
Tipos de Reglas de Asociacin Basado en las Dimensiones de los Datos Involucrados:
Regla unidimensional: los atributos hacen referencia a una nica dimensin, como por ejemplo:

computador

impresora

Regla multidimensional: se hace referencia a dos o ms dimensiones, tal como: (30 < edad < 39) and (ingreso > 500.000)

TV con pantalla plana

38

Asociacin
Tipos de Reglas de Asociacin Instantneas o Secuenciales.
Instantnea: contemporneas. indica relaciones inmediatas,

computador

impresora

Secuencial: establece un orden temporal.

computador computador

impresora en prxima compra impresora antes de tres meses

39

Asociacin
Tipos de Reglas de Asociacin Basado en los Niveles de Abstraccin.

Bebidas

Postres

40

Asociacin
Tipos de Reglas de Asociacin Positivas o Negativas.
Positiva: indica la ocurrencia o presencia de los temes relaciones.

computador

impresora

Negativa: seala la ausencia de al menos uno de los temes de la regla

computador

not impresora

41

Asociacin
Medidas para la Bondad de las Reglas de Asociacin Medidas de Inters:
Soporte: representa la utilidad de la regla.
soporte = nmero de casos o porcentaje en los que el antecedente se hace verdadero (rc o rc /n respectivamente), siendo n el nmero de datos en estudio.

Confianza: refleja la certeza la regla.


confianza = corresponde al nmero de casos que habiendo cumplido el antecedente de la regla, cumplen tambin el consecuente (rc/ra). confianza (X Y) = soporte(X U Y) / soporte(X)
42

Asociacin
Medidas para la Bondad de las Reglas de Asociacin Medidas de Inters (2):
Elevacin (lift): corresponde al cuociente entre el soporte observado y el soporte esperado si X e Y fueran independientes.
soporte(X U Y) elevacin(X Y) = ----------------------------soporte(X) * soporte(Y)

43

Asociacin
Medidas para la Bondad de las Reglas de Asociacin Medidas de Inters (3):
Conviccin: corresponde al cuociente entre la frecuencia con que la regla hace una prediccin incorrecta (siendo ambas partes de la regla independientes entre s) y la frecuencia observada de las predicciones incorrectas.
1 soporte(Y) conviccion(X Y) = -----------------------1- confianza(X Y)

44

Asociacin
Algoritmos Los algoritmos de bsqueda de asociaciones y dependencias, en la mayora se basa en descomponer el problema en dos fases:
FASE 1 - BSQUEDA DE ITEMSETS FRECUENTES. Se buscan conjuntos de temes (o atributos) con soporte mayor/igual al soporte deseado; de momento no se busca separarlos en parte izquierda y parte derecha. FASE 2 - ESCLARECIMIENTO DE DEPENDENCIAS (REGLAS). Se hacen particiones binarias y disjuntas de los itemsets y se calcula la confianza de cada uno. Se retienen aquellas reglas que tienen confianza mayor/igual a la confianza deseada.
45

Asociacin
Algoritmos Algoritmo Apriori: mtodo bsico para encontrar reglas booleanas, unidimensionales y mononivel. Algunas ideas asociadas...
El algoritmo obtiene los llamados itemsets frecuentes para generar las reglas de asociacin booleanas. Su nombre es debido a que se basa en conocimientos previos sobre la frecuencia de los itemsets, al usar los k-itemsets para explorar los del siguiente nivel o paso (k+1). Condicin apriori: todos los subconjuntos de un itemset frecuente deben ser frecuentes. Propiedad anti-montona: si un conjunto no supera una prueba, los supra-conjuntos derivados tampoco la superarn.
46

Asociacin
Algoritmos Algoritmo Apriori: dado un soporte mnimo smin...
1. i=1 (tamao de los conjuntos) 2. Generar un conjunto unitario para cada atributo en Si. 3. Comprobar el soporte de todos los conjuntos en Si. Eliminar aquellos cuyo soporte < smin. 4. Combinar los conjuntos en Si para crear conjuntos de tamao i+1 en Si+1. 5. Si Si no es vaco entonces i:= i+1. Ir a 3. 6. Si no, retornar S2 S3 ... Si

47

Asociacin
Algoritmos
FASE A: BSQUEDA DE ITEMSETS FRECUENTES (A PRIORI) soporte mnimo = 2
Fila 1 2 3 4 1 x x 2 x x x 3 x x x 4 x 5 x x x

S1= { {1}, {2}, {3}, {4}, {5} } S1: soporte = { {1}:2, {2}:3, {3}:3, {5}:3 } S2= { {1,2}, {1,3}, {1,5}, {2,3}, {2,5}, {3,5} } S2: soporte = { {1,3}:2, {2,3}:2, {2,5}:3, {3,5}:2 } S3= { {1,2,3}, {1,2,5}, {1,3,5}, {2,3,5} } S3: soporte = { {2,3,5}:2 } Sfinal = S2 S3 = { {1,3}, {2,3}, {2,5}, {3,5}, {2,3,5} }
48

Asociacin
Algoritmos
FASE B: ESCLARECIMIENTO DE DEPENDENCIAS (REGLAS)
Fila 1 2 3 4 1 x x 2 x x x 3 x x x 4 x 5 x x x

soporte = 2 confianza = 0.75

{1}{3} {2}{3} {2}{5} {3}{5}

: : : :

1 0.67 1 0.67

{3}{1} {3}{2} {5}{2} {5}{3}

: : : :

0.67 0.67 1 0.67

{2,3}{5} : 1 {3,5}{2} : 1

{2,5}{3} : 0.67

49

Asociacin
Algoritmos Mejoras (extensiones)
Muestreo de la base de datos. Filtro (seleccin) de atributos. Paralelismo. Aplicacin a atributos numricos discretizacin; segmentacin y asignar un valor discreto a cada grupo.

50

Asociacin
Algoritmos algoritmo AprioriAll: trata de establecer asociaciones del estilo: si compra X en T comprar Y en T+P?; es decir es para obtener patrones secuenciales. Ejemplo:

51

Asociacin
Algoritmos

52

Segmentacin

53

Segmentacin
En este tipo de anlisis se busca agrupar o segmentar los datos en grupos de acuerdo a la relacin que se encuentre ellos. Encontrar agrupamientos de tal forma que los objetos de un grupo sean similares entre s y diferentes de los objetos de otros grupos.

54

Segmentacin
Normalmente se refiere al llamado aprendizaje no supervisado, pues no descansa sobre clases predefinidas ni ejemplos de prueba en dichas clases. Por lo anterior, usa un esquema de aprendizaje por observacin ms que por ejemplos.

55

Segmentacin
El elemento clave es la eleccin de la distancia o medida de similitud entre objetos.

56

Segmentacin
Ejemplo:

57

Segmentacin
Distancia de edicin: de Levenstein (nmero de operaciones
necesario para transformar una cadena en otra). d(data mining, data minino) = 1 d(efecto, defecto) = 1 d(poda, boda) = 1 d(night,natch) = d(natch,noche) = 3 Para datos binarios: Distancia de Hamming.

58

Segmentacin
Tipos de Algoritmos 1) Mtodos de Particionamiento: dada una base de datos con n objetos, un mtodo de este tipo construye k particiones, donde cada una de stas representa un grupo, siendo k <= n. Ejs.: K-Means, K-Medoids (PAM).

59

Segmentacin
Tipos de Algoritmos 2) Mtodos Jerrquico: crea una descomposicin jerrquica del conjunto de datos dado. Ejs.: BIRCH, CURE.
p1 p3 p2 p4

p1 p2

p3 p4

Tradicional DENDOGRAMA

p1 p3 p2 p4

No tradicional

p1 p2

p3 p4

60

Segmentacin
Tipos de Algoritmos 3) Mtodos basados en la Densidad: la idea general es continuar creciendo el grupo dado tanto como la densidad (nmero de objetos o puntos de datos) en la vecindad exceda algn umbral. Ejs.: DBSCAN, OPTICS.

61

Segmentacin
Tipos de Algoritmos 4) Mtodos basados en la Grilla: cuantiza el espacio de objetos en un nmero finito de celdas que conforman una estructura de grilla. Entonces realizar todas las operaciones de agrupamiento en esta ltima. Ejs.: STING, CLIQUE, Wave-Cluster.

62

Segmentacin
Tipos de Algoritmos 5) Mtodos basados en Modelo: hipotetiza un modelo por cada uno de los grupos, y encuentra el mejor ajuste de los datos a ese modelo; puede localizar los grupos al construir una funcin de densidad que refleje la distribucin espacial de los puntos de datos.
Enfoque Estadstico: algoritmos COBWEB, CLASSIT. Enfoque de Red Neuronal: SOM o Mapas AutoOrganizados (Redes de Kohonen).

63

Segmentacin
Algoritmos de Particionamiento Algoritmo K-means: basado en centroides.
Procedimiento: Dividir aleatoriamente los ejemplos en k conjuntos y calcular la media (el punto medio) cada conjunto. Reasignar cada ejemplo al conjunto con el punto medio ms cercano. Calcular los puntos medios de los k conjuntos. Repetir los pasos 2 y 3 hasta que los conjuntos no varen.

64

Segmentacin
Algoritmos de Particionamiento Algoritmo K-means: ejemplo.

Distancias Euclideanas

65

Segmentacin
Algoritmos de Particionamiento Algoritmo K-means: ejemplo (2).

Primera Iteracin

Segunda Iteracin
66

Segmentacin
Algoritmos de Particionamiento Algoritmo K-means: ejemplo (2).

Tercera Iteracin

Configuracin Final
67

Segmentacin
Algoritmos de Particionamiento Algoritmo K-means: problemas...
Si se sabe que hay n clases, hacer k=n puede resultar en que, algunas veces, algn grupo use dos centros y dos grupos separados tengan que compartir centro.

Si k se elige muy grande, la generalizacin es pobre y las agrupaciones futuras sern malas.

Determinar el k ideal es difcil.


68

Segmentacin
Algoritmos de Particionamiento Algoritmo K-means: variaciones.
K-modes: para datos categricos, al reemplazar los promedios de los grupos por las modas. EM (Expectation Maximization): en vez de asignar cada punto a un grupo dedicado, asigna cada punto a un grupo de acuerdo a algn peso que represente la probabilidad de la membresa. En otras palabras no hay fronteras estrictas entre los grupos.

69

Segmentacin
Algoritmos de Particionamiento Algoritmo K-medoids: basado en puntos representativos. no hay restricciones sobre el tipo de variable, y En este caso
adems se consideran slo las distancias o similitudes de entre observaciones. Se reemplazan entonces las medias, por observaciones que estn en el centro de los grupos...con esto se soluciona el problema de los outliers, que tienden a distorsionar la distribucin de los datos de un grupo.

70

Segmentacin
Algoritmos Jerrquicos Crean una descomposicin jerrquica del conjunto de datos dado. Enfoques.
Aglomerativo (bottom-up): empieza con cada objeto formando un grupo separado; sucesivamente mezcla los (grupos de) objetos cercanos entre s, hasta que se cumpla cierta condicin dada. Divisivo (top-down): empieza con todos los objetos en el mismo grupo; en cada iteracin sucesiva, un grupo es dividido en otros ms pequeos, hasta que eventualmente se cumpla cierta condicin dada.

71

Segmentacin
Algoritmos Jerrquicos
Enfoque Aglomerativo (bottom-up)

Enfoque Divisivo (top-down)

72

Segmentacin
Algoritmos Jerrquicos
0 1 2 3 4

a b c d e
4

Algoritmo Aglomerativo: AGNES


(AGlomerative NESting)

ab abcde cde de
3 2 1 0

Algoritmo Divisivo: DIANA


(DIvisive ANAlysis)

Cul es el criterio de detencin?


73

Segmentacin
Algoritmos Jerrquicos Dendograma

La similitud entre dos objetos viene dada por la altura del nodo comn ms cercano.
74

Segmentacin
Algoritmos Jerrquicos El dendograma puede ayudar a determinar el nmero de grupos

75

Segmentacin
Algoritmos Jerrquicos y detectar outliers.

Outlier

76

Segmentacin
Algoritmos Jerrquicos Para construir un dendograma: 1. Calcular las distancias entre todos los pares de objetos esto equivale a asumir que cada objeto constituye un grupo por si solo {C1, ...,CN}. 2. Buscar los dos grupos ms cercanos (Ci, Cj), y juntarlos para dejarlos como un nico grupo. 3. Repetir el paso 2 hasta que no queden pares de comparacin. En general, la representacin es mediante un rbol.
77

Segmentacin
Algoritmos Jerrquicos Para medir la distancia entre grupos
MIN Enlace simple

MAX enlace completo (dimetro)

78

Segmentacin
Algoritmos Jerrquicos Para medir la distancia entre grupos
PROMEDIO Enlace promediado

basado en CENTROIDES Ej.: BIRCH.

79

Segmentacin
Algoritmos Jerrquicos Ejercicio 1:
D1 D2 D3 D4 D5 D6 D7 D1 0.3606 0.5000 0.9220 1.3416 1.8385 1.7263 0.4243 0.7071 1.0440 1.5524 1.5000 D2 0.4472 0.9220 1.3892 1.2369 D3

0.5000 0.9434 0.8062 D4

0.5099 0.5831 D5

0.4000 D6 D7

D1/D2=D8 D3 D4 D5 D6 D7

0.4243 0.7071 1.3416 1.5524 1.5000 D1/D2=D8

0.4472 0.9220 1.3892 1.2369 D3

0.5000 0.9434 0.8062 D4

0.5099 0.5831 D5

0.4000 D6

D7

D8 D3 D4 D5 D6/D7=D9 D8

0.4243 0.7071 1.3416 1.5000

0.4472 0.9220 1.2369 D3

0.5000 0.8062 D4

0.5831 D5

D6/D7=D9

80

D8 D3 D4 D5 D6/D7=D9 D8

0.4243 0.7071 1.3416 1.5000

0.4472 0.9220 1.2369 D3

0.5000 0.8062 D4

0.5831 D5

D6/D7=D9

D3/D8=D10 D4 D5 D9

0.4472 0.9220 1.2369 D3/D8=D10

0.5000 0.8062 D4

0.5831 D5

D9

D4/D10=D11 D5 D9

0.5000 0.8062 0.5831 D4/D10=D11 D5

D9

D5/D11 D9

0.5831 D5/D11

D9

81

Segmentacin
Algoritmos Jerrquicos Ejemplo grfico de dendograma: para cuatro grupos.

Enlace nico

Enlace completo
82

Segmentacin
Algoritmos Jerrquicos Ejemplo grfico de dendograma: para datos aleatorios.

Enlace nico

Enlace completo
83

Segmentacin
Algoritmos Jerrquicos CHAMALEON.
Particin del grafo

Grupos finales

Combinar particiones

84

Clasificacin

85

Clasificacin
Es el proceso de encontrar un modelo que describa y distinga clases de datos o conceptos, con el propsito de conocer la clase de otros objetos que an no la tienen definida. En general:
Clasificacin: predice el valor de un atributo categrico (discreto o nominal). Prediccin: construye funciones que toman valores continuos.

Aunque sirve para conocer la clase de un objeto, en algunas aplicaciones puede predecir, en su lugar, algn valor perdido o no disponible.
86

Clasificacin
El modelo obtenido est basado en el anlisis de un conjunto de datos de entrenamiento, que son objetos ya clasificados aprendizaje supervisado. Para construir un modelo de clasificacin:
Se divide el conjunto de datos disponible en un conjunto de entrenamiento (para construir el modelo) y un conjunto de prueba (para evaluar el modelo). Se construye el modelo usando el conjunto de entrenamiento, y se valida con el conjunto de prueba, obtenindose un porcentaje d clasificacin asociado al nmero de aciertos obtenidos. Si dicho porcentaje es aceptable, el modelo es considerado como til para clasificar nuevos casos.
87

Clasificacin
Tid 1 2 3 4 5 6 7 8 9 10
10

Attrib1 Yes No No Yes No No Yes No No No

Attrib2 Large Medium Small Medium Large Medium Large Small Medium Small

Attrib3 125K 100K 70K 120K 95K 60K 220K 85K 75K 90K

Class No No No No Yes No No Yes No Yes

Algoritmo de aprendizaje Induccin

Aprender modelo

Conjunto de entrenamiento
Tid 11 12 13 14 15
10

Modelo
Aplicar modelo
Class ? ? ? ? ?

Attrib1 No Yes Yes No No

Attrib2 Small Medium Large Small Large

Attrib3 55K 80K 110K 95K 67K

Deduccin

Conjunto de prueba
88

Clasificacin

89

Clasificacin
Ejemplo: el ejemplo mas simple de aprendizaje supervisado es la generacin de una regla de clasificacin a partir de ejemplos positivos y negativos de una clase. Suponer que la clase en estudio es Auto Familiar; despus de una encuesta entre usuarios de lo que define a un auto familiar, se distinguen dos criterios como los ms mencionados: Precio y Potencia de la mquina (centmetros cbicos de los cilindros).
90

Clasificacin
A partir de una discusin con los expertos y a partir de los datos, se podra inferir que los valores del Precio y Potencia debieran estar en un determinado rango para que el vehculo sea clasificado como familiar.

p1 p p2 y e1 e e2

91

h es la hiptesis inducida y C es la verdadera clase.

Hiptesis ms general vs hiptesis ms especfica.

Y si hay ruido?

Y si hay mltiples clases?

92

Clasificacin
El modelo puede ser representado por varias formas:
rboles de decisin. Reglas de clasificacin (if-then). Mtodos bayesianos. Redes neuronales artificiales.

93

Clasificacin
rboles de Clasificacin rboles de Clasificacin (o de decisin).
Estructura similar a un diagrama de flujo, donde cada nodo interno denota una condicin sobre un atributo, cada enlace representa una salida de la misma, y cada nodo hoja representa las clases.

Pueden ser fcilmente convertidos en reglas de clasificacin. Algoritmos ms comunes: ID3, C4.5 (J48 de Weka).

94

Clasificacin
rboles de Clasificacin Construccin: por lo general, una estrategia del tipo dividir y conquistar.
Se comienza con todos los ejemplos de entrenamiento en la raz del rbol. Los ejemplos se van dividiendo en funcin del atributo que se seleccione para ramificar el rbol en cada nodo. Los atributos que se usan para ramificar se eligen en funcin de una heurstica.

95

Clasificacin
rboles de Clasificacin Construccin: posibles criterios de detencin
Todos los ejemplos que quedan pertenecen a la misma clase (se aade una hoja al rbol con la etiqueta de la clase). No quedan ms atributos por ramificar (se aade una hoja etiquetada con la clase ms frecuente en el nodo). No hay ms datos que clasificar.

96

Clasificacin
rboles de Clasificacin Construccin: Heursticas
La heurstica a escoger para seleccionar el atributo por el cual ramificar debe ser aqulla que entregue nodos ms homogneos.

Ejemplos de Heursticas: Ganancia de Informacin (ejs.: algoritmos ID3, C4.5) ndice de Gini (ejs.: algoritmos CART, SLIQ, SPRINT) Otras como 2, MDL (Minimum Description Length.
97

Clasificacin
rboles de Clasificacin Construccin: Heursticas (2)
Ganancia de Informacin: referida a una medida de la bondad de la divisin...a mayor ganancia de informacin, mayor reduccin de la entropa. Informacin esperada para clasificar una muestra:

Entropa:

Reduccin esperada en la entropa causada al conocer el valor del atributo A:

98

Clasificacin
rboles de Clasificacin Construccin: Heursticas (3)
ndice de Gini: es una medida de la impureza.
n gini ( D ) = 1 p 2 j j =1

Se escoge aquel atributo que entrega la mayor reduccin de la impureza.


C1 C2 0 6 C1 C2 1 5 C1 C2 2 4 C1 C2 3 3

Gini=0.000

Gini=0.278

Gini=0.444

Gini=0.500

99

Clasificacin
rboles de Clasificacin ID3: algoritmo bsico para la induccin de rboles de decisin.

algunas consideraciones...
100

Ejemplo: sean C1 = yes, C2 = no.

101

Clasificacin
rboles de Clasificacin Ejemplo: continuacin...

102

Clasificacin
rboles de Clasificacin Poda del rbol:
Al construir un rbol de decisin, varias ramas reflejarn anomalas en los datos de entrenamiento, debido a ruido o outliers. Los mtodos de poda direccionan este problema de sobreajustar los datos. Tpicamente se usan medidas estadsticas para remover las ramas menos confiables, generalmente resultando en una clasificacin ms rpida y una mejora en la habilidad de clasificar correctamente datos de prueba independientes. Enfoques comunes:
Poda Previa, Poda Posterior. Poda por costo-complejidad (CART), poda pesimista (C4.5).

103

Clasificacin
Reglas de Clasificacin Reglas de Clasificacin: existen diversas formas de obtener reglas.
A partir de un rbol de decisin A travs de algoritmos especficos de induccin de reglas (ejs.: STAR, Ripper) A partir de reglas de asociacin

104

Clasificacin
Reglas de Clasificacin a) Extraccin de Reglas de Clasificacin a partir de un rbol de Decisin: por cada camino que exista entre la raz y una hoja del rbol.

Las reglas son mutuamente excluyentes y exhaustivas.

105

Clasificacin
Reglas de Clasificacin Reglas de Clasificacin: las reglas extradas mutuamente y exhaustivas. Si se simplifican son

podran dejar de ser mutuamente excluyentes (varias reglas seran vlidas para un mismo ejemplo) establecer un orden entre las reglas [lista de decisin] o realizar una votacin. podran dejar de ser exhaustivas (ninguna regla sea aplicable a un ejemplo concreto) incluir una clase por defecto.

106

Clasificacin
Reglas de Clasificacin b) Obtencin de Reglas de Clasificacin Algoritmos de Induccin de Reglas.
Las reglas se aprenden de una en una. Cada vez que se selecciona una regla, se eliminan del conjunto de entrenamiento todos los casos cubiertos por ella.

mediante

El proceso se repite hasta que se cumpla alguna condicin de detencin. el aprendizaje comienza con la regla ms general. sta se le va agregando elementos a su antecedente para maximizar la calidad (cobertura, precisin).
107

Clasificacin
Reglas de Clasificacin Ejemplo:
R1

(i) Original Data

(ii) Step 1

(iii) Step 2

Algoritmos representativos: FOIL, CN2, RIPPER, PNRule.

108

Clasificacin
Reglas de Clasificacin c) Reglas de Clasificacin a partir de reglas de Asociacin: se buscan entre las mejores reglas de asociacin, se superan algunas limitaciones de los rboles de decisin (que slo consideran los atributos de uno en uno [y parcialmente]). Algunos algoritmos representativos: CBA, RCBT, CMAR, CPAR, ART.

109

Clasificacin
Reglas de Clasificacin Ejemplo: algoritmo ART.
K=1

Extraccin de reglas con K items en su antecedente S existen reglas adecuadas? S Ramificacin del rbol con las reglas seleccionadas y procesamiento recursivo de la rama else del rbol K=K+1 K <= MaxSize ? No Creacin de un nodo hoja etiquetado con la clase ms frecuente 110

No

Clasificacin
Reglas de Clasificacin Ejemplo: algoritmo ART (2).
K=1 Extraccin Seleccin K++ Seguir?

Ramificacin

Hoja

a) Extraccin de reglas: hiptesis candidatas


Soporte mnimo Confianza mnima
111

Clasificacin
Reglas de Clasificacin Ejemplo: algoritmo ART (3).
K=1 Extraccin Seleccin K++ Seguir?

Ramificacin

Hoja

b) Seleccin de reglas:
Reglas agrupadas por conjuntos de atributos Criterio de preferencia
112

Ejemplo:

NIVEL 1 - Extraccin de reglas de asociacin Umbral de soporte mnimo = 20% Seleccin automtica del umbral de confianza NIVEL 1, k = S1: if (Y=0) if (Y=1) S2: if (Z=0) if (Z=1) 1 then then then then

C=0 C=1 C=0 C=1

with with with with

confidence confidence confidence confidence

75% 75% 75% 75%

NIVEL 1, k = 2 S1: if (X=0 and if (X=0 and S2: if (X=1 and if (X=1 and S3: if (Y=0 and if (Y=1 and

Y=0) Y=1) Z=0) Z=1) Z=0) Z=1)

then then then then then then

C=0 C=1 C=0 C=1 C=0 C=1

(100%) (100%) (100%) (100%) (100%) (100%)

113

NIVEL 1 - Seleccin del mejor conjunto de reglas p.ej. S1

NIVEL 1, k = S1: if (Y=0) if (Y=1) S2: if (Z=0) if (Z=1)

1 then then then then

C=0 C=1 C=0 C=1

with with with with

confidence confidence confidence confidence

75% 75% 75% 75%

NIVEL 1, k = 2 S1: if (X=0 and if (X=0 and S2: if (X=1 and if (X=1 and S3: if (Y=0 and if (Y=1 and

Y=0) Y=1) Z=0) Z=1) Z=0) Z=1)

then then then then then then

C=0 C=1 C=0 C=1 C=0 C=1

(100%) (100%) (100%) (100%) (100%) (100%)

114

NIVEL 2 - Extraccin de reglas de asociacin Umbral de soporte mnimo = 20% Seleccin automtica del umbral de confianza

NIVEL 2, k = 1 S1: if (Z=0) then C=0 with confidence 100% if (Z=1) then C=1 with confidence 100%

Resultado Final:
X=0 and Y=0: C=0 (2) X=0 and Y=1: C=1 (2) else Z=0: C=0 (2) Z=1: C=1 (2)
115

Clasificacin
Reglas de Clasificacin Reglas de Clasificacin: los resultados de la aplicacin de los no siempre pueden coincidir. ART
XY
00 0 01 1 0 0 else
0

TDIDT
Y
1

Z
1 1
0 0

X
1 0 1 1 1

X
1

Z
0 0

Z
0 0 1 1

116

Vous aimerez peut-être aussi