Académique Documents
Professionnel Documents
Culture Documents
Temario
1.- Proceso de Descubrimiento del Conocimiento (KDD) 2.- Tcnicas de Minera de Datos
Proceso KDD
Es el proceso de usar la base de datos en conjunto con cualquier seleccin, proprocesamiento, sub-muestreo, y transformaciones de ella; para aplicar mtodos de minera de dato (algoritmos) y enumerar patrones desde ella; y para evaluar los productos de la minera de datos que identifican el subconjunto de patrones enumerados que llegarn a ser el conocimiento. El descubrimiento de conocimiento puede ser:
de Prediccin: patrones para predecir comportamientos futuros. de Descripcin: patrones para explicar lo que sucede en un formato entendible por el ser humano.
3
Proceso KDD
Por qu la Minera de Datos?
Proceso KDD
Proceso KDD
Por qu la Minera de Datos?
Proceso KDD
Preparacin de Datos
Importancia Necesidad
Los datos de trabajo pueden ser impuros, y conducir a la extraccin de patrones/reglas poco tiles. Motivos:
Datos incompletos. Datos con ruido. Datos inconsistentes.
Preparacin de Datos
Importancia Necesidad
La preparacin de datos puede generar un conjunto de datos ms pequeo que el original, lo cual puede mejorar la eficiencia del proceso de minera de datos. Posibilidades:
Seleccin relevante de datos: mediante eliminacin de registros duplicados, de anomalas, etc. Reduccin de datos: mediante seleccin de caractersticas, muestreo o seleccin de instancias, discretizacin.
9
Preparacin de Datos
Importancia Necesidad
La preparacin de datos genera datos de calidad, los cuales pueden conducir a patrones/reglas de calidad a travs de:
Recuperacin de informacin perdida. Eliminacin de outliers. Resolucin de conflictos.
10
Preparacin de Datos
Actividades
Limpieza de datos: puede ser usada para llenar valores perdidos, suavizar datos con ruido, identificar outliers y corregir datos inconsistentes.
11
Preparacin de Datos
Actividades: Limpieza de Datos
12
Preparacin de Datos
Actividades: Limpieza de Datos
Herramientas: Histograma.
12 10 8 6 4 2 0 1 2 3 4 5 6 7 8 9 10 11 12
13
Preparacin de Datos
Actividades: Limpieza de Datos
Bivariante
Etiquetado
14
Reconocimiento
15
Preparacin de Datos
Actividades
Integracin de datos: combina datos desde mltiples fuentes para conformar un conjunto de datos coherente. Metadatos, anlisis de correlacin, deteccin de conflictos de datos y resolucin de heterogeneidad semntica, son tcnicas que contribuyen a una integracin adecuada.
16
Preparacin de Datos
Actividades
Transformacin de datos: tcnicas que llevan a los datos en formatos apropiados para el minado, como por ejemplo la normalizacin de los datos.
17
Preparacin de Datos
Actividades
Reduccin de datos: con el objetivo de obtener una representacin reducida de los datos, minimizando la prdida en el contenido de la informacin. Tcnicas posibles son la agregacin de cubos y de dimensiones, la compresin de datos, la reduccin de la numerosidad y la discretizacin.
18
19
Actividades de Reconocimiento:
del dominio y de los usuarios: reconocer el conocimiento que podra ser til, adems de intentar obtener las reglas ya existentes. Importante tambin determinar quien usar el conocimiento obtenido y qu tipo de representacin puede ser ms aconsejable. exploracin de los datos: para obtener una vista minable, lista para ser tratada por las herramientas de minera de datos.
21
Exploracin de Datos
Tcnicas posibles:
Visualizacin (previa) Agrupamiento exploratorio de seleccin horizontal y vertical Interfaces grficas de Consulta y Agregacin
22
Exploracin de Datos
Tcnica de Ejemplo : Visualizacin
Visualizacin: objetivos
Aprovechar la gran capacidad humana de ver patrones, anomalas y tendencias a partir de imgenes y facilitar la comprensin de los datos. Ayudar al usuario a comprender ms rpida-mente patrones descubiertos automticamente por un sistema KDD.
23
Exploracin de Datos
Tcnica de Ejemplo : Visualizacin
24
Exploracin de Datos
Tcnica de Ejemplo : Visualizacin
Exploracin de Datos
Tcnica de Ejemplo : Visualizacin
Grfica radial
26
Exploracin de Datos
Tcnica de Ejemplo : Visualizacin
75,00%
Amer-Indian-Eskimo
<=50K
50,00%
Asian-Pac-Islander
25,00%
Black
White Sex
M Hours-per-week
Coordenadas Paralelas
27
S13 S11 S9 S7 S5 Tbco. Clstrl. S3 Tnsn. Obsd. Alcl. Prcd. S1 Strss Rsg Casos
Factores
Coordenadas Paralelas
Representacin Icnica 28
Seleccin de Datos
29
Temario
1.- Proceso de Descubrimiento del Conocimiento (KDD) 2.- Tcnicas de Minera de Datos
30
Proceso KDD
31
Visualizacin
Correlaciones y Dependencias
Deteccin de Anomalas
Clasificacin
Regresin Estadstica
Pronsticos
rboles de Decisin Asociacin Patrones Secuenciales Redes Neuronales Artificiales Segmentacin (Agrupamiento) Induccin de Reglas
32
Minera de Datos
Tareas y Mtodos
Tcnicas Mtodo Apriori Algoritmos Genticos y Evolutivos Anlisis Discriminante Multivariante Anlisis Factorial y de Componentes principales rboles de decisin: CART rboles de decisin: ID3, C4.5 rboles de decisin: otros Bayes Ingenuo (Naive) CobWeb, Two Step Kmeans Mquinas de Soporte Vectorial Redes de Kohonen Redes Neuronales Artificiales Reglas CN2 Regresin Lineal y Logartmica Regresin Logstica Vecinos ms cefcanos x x x x x x x x x x x x x x x x x x x x x x x x x x x x Correlaciones Descriptivas Reglas de Asociacin x x x x x x Segmentacin Predictivas Clasificacin Regresin
33
Reglas de Asociacin
34
Asociacin
Definiciones bsicas Tarea descriptiva, no supervisada. Posibilidades:
Reglas de Asociacin: Se buscan asociaciones de la siguiente forma:
(X1 = a) (X4 = b)
35
Asociacin
Definiciones bsicas
RUT 10.251.545-3 15.512.526-4 12.512.526-4 14.374.183-3 14.572.904-1 Ingreso Familiar 5.000.000 1.000.000 3.000.000 2.000.000 1.500.000 Ciudad Concepcin Valparaso Talca Valdivia Santiago Actividad Ejecutivo Abogado Ejecutivo Camarero Animador Parque Temtico Edad Hijos 45 25 35 30 30 3 0 2 0 0 Sexo Casado M M M M F S No S S No
Asociaciones frecuentes: Casado e (Hijos > 0) sexo Masculino y Casado Dependencias: (Hijos > 0) Casado Casado (Hijos > 0) Casado sexo Masculino
36
Asociacin
Tipos de Reglas de Asociacin Basado en los Tipos de Valores manejados por la Regla:
Regla booleana: las asociaciones indican la ausencia o presencia del elementos, tal como:
computador
impresora
Regla cuantitativa: las asociaciones describe relaciones entre atributos cuantitativos, como por ejemplo: (30 < edad < 39) and (ingreso > 500.000)
37
Asociacin
Tipos de Reglas de Asociacin Basado en las Dimensiones de los Datos Involucrados:
Regla unidimensional: los atributos hacen referencia a una nica dimensin, como por ejemplo:
computador
impresora
Regla multidimensional: se hace referencia a dos o ms dimensiones, tal como: (30 < edad < 39) and (ingreso > 500.000)
38
Asociacin
Tipos de Reglas de Asociacin Instantneas o Secuenciales.
Instantnea: contemporneas. indica relaciones inmediatas,
computador
impresora
computador computador
39
Asociacin
Tipos de Reglas de Asociacin Basado en los Niveles de Abstraccin.
Bebidas
Postres
40
Asociacin
Tipos de Reglas de Asociacin Positivas o Negativas.
Positiva: indica la ocurrencia o presencia de los temes relaciones.
computador
impresora
computador
not impresora
41
Asociacin
Medidas para la Bondad de las Reglas de Asociacin Medidas de Inters:
Soporte: representa la utilidad de la regla.
soporte = nmero de casos o porcentaje en los que el antecedente se hace verdadero (rc o rc /n respectivamente), siendo n el nmero de datos en estudio.
Asociacin
Medidas para la Bondad de las Reglas de Asociacin Medidas de Inters (2):
Elevacin (lift): corresponde al cuociente entre el soporte observado y el soporte esperado si X e Y fueran independientes.
soporte(X U Y) elevacin(X Y) = ----------------------------soporte(X) * soporte(Y)
43
Asociacin
Medidas para la Bondad de las Reglas de Asociacin Medidas de Inters (3):
Conviccin: corresponde al cuociente entre la frecuencia con que la regla hace una prediccin incorrecta (siendo ambas partes de la regla independientes entre s) y la frecuencia observada de las predicciones incorrectas.
1 soporte(Y) conviccion(X Y) = -----------------------1- confianza(X Y)
44
Asociacin
Algoritmos Los algoritmos de bsqueda de asociaciones y dependencias, en la mayora se basa en descomponer el problema en dos fases:
FASE 1 - BSQUEDA DE ITEMSETS FRECUENTES. Se buscan conjuntos de temes (o atributos) con soporte mayor/igual al soporte deseado; de momento no se busca separarlos en parte izquierda y parte derecha. FASE 2 - ESCLARECIMIENTO DE DEPENDENCIAS (REGLAS). Se hacen particiones binarias y disjuntas de los itemsets y se calcula la confianza de cada uno. Se retienen aquellas reglas que tienen confianza mayor/igual a la confianza deseada.
45
Asociacin
Algoritmos Algoritmo Apriori: mtodo bsico para encontrar reglas booleanas, unidimensionales y mononivel. Algunas ideas asociadas...
El algoritmo obtiene los llamados itemsets frecuentes para generar las reglas de asociacin booleanas. Su nombre es debido a que se basa en conocimientos previos sobre la frecuencia de los itemsets, al usar los k-itemsets para explorar los del siguiente nivel o paso (k+1). Condicin apriori: todos los subconjuntos de un itemset frecuente deben ser frecuentes. Propiedad anti-montona: si un conjunto no supera una prueba, los supra-conjuntos derivados tampoco la superarn.
46
Asociacin
Algoritmos Algoritmo Apriori: dado un soporte mnimo smin...
1. i=1 (tamao de los conjuntos) 2. Generar un conjunto unitario para cada atributo en Si. 3. Comprobar el soporte de todos los conjuntos en Si. Eliminar aquellos cuyo soporte < smin. 4. Combinar los conjuntos en Si para crear conjuntos de tamao i+1 en Si+1. 5. Si Si no es vaco entonces i:= i+1. Ir a 3. 6. Si no, retornar S2 S3 ... Si
47
Asociacin
Algoritmos
FASE A: BSQUEDA DE ITEMSETS FRECUENTES (A PRIORI) soporte mnimo = 2
Fila 1 2 3 4 1 x x 2 x x x 3 x x x 4 x 5 x x x
S1= { {1}, {2}, {3}, {4}, {5} } S1: soporte = { {1}:2, {2}:3, {3}:3, {5}:3 } S2= { {1,2}, {1,3}, {1,5}, {2,3}, {2,5}, {3,5} } S2: soporte = { {1,3}:2, {2,3}:2, {2,5}:3, {3,5}:2 } S3= { {1,2,3}, {1,2,5}, {1,3,5}, {2,3,5} } S3: soporte = { {2,3,5}:2 } Sfinal = S2 S3 = { {1,3}, {2,3}, {2,5}, {3,5}, {2,3,5} }
48
Asociacin
Algoritmos
FASE B: ESCLARECIMIENTO DE DEPENDENCIAS (REGLAS)
Fila 1 2 3 4 1 x x 2 x x x 3 x x x 4 x 5 x x x
: : : :
1 0.67 1 0.67
: : : :
{2,3}{5} : 1 {3,5}{2} : 1
{2,5}{3} : 0.67
49
Asociacin
Algoritmos Mejoras (extensiones)
Muestreo de la base de datos. Filtro (seleccin) de atributos. Paralelismo. Aplicacin a atributos numricos discretizacin; segmentacin y asignar un valor discreto a cada grupo.
50
Asociacin
Algoritmos algoritmo AprioriAll: trata de establecer asociaciones del estilo: si compra X en T comprar Y en T+P?; es decir es para obtener patrones secuenciales. Ejemplo:
51
Asociacin
Algoritmos
52
Segmentacin
53
Segmentacin
En este tipo de anlisis se busca agrupar o segmentar los datos en grupos de acuerdo a la relacin que se encuentre ellos. Encontrar agrupamientos de tal forma que los objetos de un grupo sean similares entre s y diferentes de los objetos de otros grupos.
54
Segmentacin
Normalmente se refiere al llamado aprendizaje no supervisado, pues no descansa sobre clases predefinidas ni ejemplos de prueba en dichas clases. Por lo anterior, usa un esquema de aprendizaje por observacin ms que por ejemplos.
55
Segmentacin
El elemento clave es la eleccin de la distancia o medida de similitud entre objetos.
56
Segmentacin
Ejemplo:
57
Segmentacin
Distancia de edicin: de Levenstein (nmero de operaciones
necesario para transformar una cadena en otra). d(data mining, data minino) = 1 d(efecto, defecto) = 1 d(poda, boda) = 1 d(night,natch) = d(natch,noche) = 3 Para datos binarios: Distancia de Hamming.
58
Segmentacin
Tipos de Algoritmos 1) Mtodos de Particionamiento: dada una base de datos con n objetos, un mtodo de este tipo construye k particiones, donde cada una de stas representa un grupo, siendo k <= n. Ejs.: K-Means, K-Medoids (PAM).
59
Segmentacin
Tipos de Algoritmos 2) Mtodos Jerrquico: crea una descomposicin jerrquica del conjunto de datos dado. Ejs.: BIRCH, CURE.
p1 p3 p2 p4
p1 p2
p3 p4
Tradicional DENDOGRAMA
p1 p3 p2 p4
No tradicional
p1 p2
p3 p4
60
Segmentacin
Tipos de Algoritmos 3) Mtodos basados en la Densidad: la idea general es continuar creciendo el grupo dado tanto como la densidad (nmero de objetos o puntos de datos) en la vecindad exceda algn umbral. Ejs.: DBSCAN, OPTICS.
61
Segmentacin
Tipos de Algoritmos 4) Mtodos basados en la Grilla: cuantiza el espacio de objetos en un nmero finito de celdas que conforman una estructura de grilla. Entonces realizar todas las operaciones de agrupamiento en esta ltima. Ejs.: STING, CLIQUE, Wave-Cluster.
62
Segmentacin
Tipos de Algoritmos 5) Mtodos basados en Modelo: hipotetiza un modelo por cada uno de los grupos, y encuentra el mejor ajuste de los datos a ese modelo; puede localizar los grupos al construir una funcin de densidad que refleje la distribucin espacial de los puntos de datos.
Enfoque Estadstico: algoritmos COBWEB, CLASSIT. Enfoque de Red Neuronal: SOM o Mapas AutoOrganizados (Redes de Kohonen).
63
Segmentacin
Algoritmos de Particionamiento Algoritmo K-means: basado en centroides.
Procedimiento: Dividir aleatoriamente los ejemplos en k conjuntos y calcular la media (el punto medio) cada conjunto. Reasignar cada ejemplo al conjunto con el punto medio ms cercano. Calcular los puntos medios de los k conjuntos. Repetir los pasos 2 y 3 hasta que los conjuntos no varen.
64
Segmentacin
Algoritmos de Particionamiento Algoritmo K-means: ejemplo.
Distancias Euclideanas
65
Segmentacin
Algoritmos de Particionamiento Algoritmo K-means: ejemplo (2).
Primera Iteracin
Segunda Iteracin
66
Segmentacin
Algoritmos de Particionamiento Algoritmo K-means: ejemplo (2).
Tercera Iteracin
Configuracin Final
67
Segmentacin
Algoritmos de Particionamiento Algoritmo K-means: problemas...
Si se sabe que hay n clases, hacer k=n puede resultar en que, algunas veces, algn grupo use dos centros y dos grupos separados tengan que compartir centro.
Si k se elige muy grande, la generalizacin es pobre y las agrupaciones futuras sern malas.
Segmentacin
Algoritmos de Particionamiento Algoritmo K-means: variaciones.
K-modes: para datos categricos, al reemplazar los promedios de los grupos por las modas. EM (Expectation Maximization): en vez de asignar cada punto a un grupo dedicado, asigna cada punto a un grupo de acuerdo a algn peso que represente la probabilidad de la membresa. En otras palabras no hay fronteras estrictas entre los grupos.
69
Segmentacin
Algoritmos de Particionamiento Algoritmo K-medoids: basado en puntos representativos. no hay restricciones sobre el tipo de variable, y En este caso
adems se consideran slo las distancias o similitudes de entre observaciones. Se reemplazan entonces las medias, por observaciones que estn en el centro de los grupos...con esto se soluciona el problema de los outliers, que tienden a distorsionar la distribucin de los datos de un grupo.
70
Segmentacin
Algoritmos Jerrquicos Crean una descomposicin jerrquica del conjunto de datos dado. Enfoques.
Aglomerativo (bottom-up): empieza con cada objeto formando un grupo separado; sucesivamente mezcla los (grupos de) objetos cercanos entre s, hasta que se cumpla cierta condicin dada. Divisivo (top-down): empieza con todos los objetos en el mismo grupo; en cada iteracin sucesiva, un grupo es dividido en otros ms pequeos, hasta que eventualmente se cumpla cierta condicin dada.
71
Segmentacin
Algoritmos Jerrquicos
Enfoque Aglomerativo (bottom-up)
72
Segmentacin
Algoritmos Jerrquicos
0 1 2 3 4
a b c d e
4
ab abcde cde de
3 2 1 0
Segmentacin
Algoritmos Jerrquicos Dendograma
La similitud entre dos objetos viene dada por la altura del nodo comn ms cercano.
74
Segmentacin
Algoritmos Jerrquicos El dendograma puede ayudar a determinar el nmero de grupos
75
Segmentacin
Algoritmos Jerrquicos y detectar outliers.
Outlier
76
Segmentacin
Algoritmos Jerrquicos Para construir un dendograma: 1. Calcular las distancias entre todos los pares de objetos esto equivale a asumir que cada objeto constituye un grupo por si solo {C1, ...,CN}. 2. Buscar los dos grupos ms cercanos (Ci, Cj), y juntarlos para dejarlos como un nico grupo. 3. Repetir el paso 2 hasta que no queden pares de comparacin. En general, la representacin es mediante un rbol.
77
Segmentacin
Algoritmos Jerrquicos Para medir la distancia entre grupos
MIN Enlace simple
78
Segmentacin
Algoritmos Jerrquicos Para medir la distancia entre grupos
PROMEDIO Enlace promediado
79
Segmentacin
Algoritmos Jerrquicos Ejercicio 1:
D1 D2 D3 D4 D5 D6 D7 D1 0.3606 0.5000 0.9220 1.3416 1.8385 1.7263 0.4243 0.7071 1.0440 1.5524 1.5000 D2 0.4472 0.9220 1.3892 1.2369 D3
0.5099 0.5831 D5
0.4000 D6 D7
D1/D2=D8 D3 D4 D5 D6 D7
0.5099 0.5831 D5
0.4000 D6
D7
D8 D3 D4 D5 D6/D7=D9 D8
0.5000 0.8062 D4
0.5831 D5
D6/D7=D9
80
D8 D3 D4 D5 D6/D7=D9 D8
0.5000 0.8062 D4
0.5831 D5
D6/D7=D9
D3/D8=D10 D4 D5 D9
0.5000 0.8062 D4
0.5831 D5
D9
D4/D10=D11 D5 D9
D9
D5/D11 D9
0.5831 D5/D11
D9
81
Segmentacin
Algoritmos Jerrquicos Ejemplo grfico de dendograma: para cuatro grupos.
Enlace nico
Enlace completo
82
Segmentacin
Algoritmos Jerrquicos Ejemplo grfico de dendograma: para datos aleatorios.
Enlace nico
Enlace completo
83
Segmentacin
Algoritmos Jerrquicos CHAMALEON.
Particin del grafo
Grupos finales
Combinar particiones
84
Clasificacin
85
Clasificacin
Es el proceso de encontrar un modelo que describa y distinga clases de datos o conceptos, con el propsito de conocer la clase de otros objetos que an no la tienen definida. En general:
Clasificacin: predice el valor de un atributo categrico (discreto o nominal). Prediccin: construye funciones que toman valores continuos.
Aunque sirve para conocer la clase de un objeto, en algunas aplicaciones puede predecir, en su lugar, algn valor perdido o no disponible.
86
Clasificacin
El modelo obtenido est basado en el anlisis de un conjunto de datos de entrenamiento, que son objetos ya clasificados aprendizaje supervisado. Para construir un modelo de clasificacin:
Se divide el conjunto de datos disponible en un conjunto de entrenamiento (para construir el modelo) y un conjunto de prueba (para evaluar el modelo). Se construye el modelo usando el conjunto de entrenamiento, y se valida con el conjunto de prueba, obtenindose un porcentaje d clasificacin asociado al nmero de aciertos obtenidos. Si dicho porcentaje es aceptable, el modelo es considerado como til para clasificar nuevos casos.
87
Clasificacin
Tid 1 2 3 4 5 6 7 8 9 10
10
Attrib2 Large Medium Small Medium Large Medium Large Small Medium Small
Attrib3 125K 100K 70K 120K 95K 60K 220K 85K 75K 90K
Aprender modelo
Conjunto de entrenamiento
Tid 11 12 13 14 15
10
Modelo
Aplicar modelo
Class ? ? ? ? ?
Deduccin
Conjunto de prueba
88
Clasificacin
89
Clasificacin
Ejemplo: el ejemplo mas simple de aprendizaje supervisado es la generacin de una regla de clasificacin a partir de ejemplos positivos y negativos de una clase. Suponer que la clase en estudio es Auto Familiar; despus de una encuesta entre usuarios de lo que define a un auto familiar, se distinguen dos criterios como los ms mencionados: Precio y Potencia de la mquina (centmetros cbicos de los cilindros).
90
Clasificacin
A partir de una discusin con los expertos y a partir de los datos, se podra inferir que los valores del Precio y Potencia debieran estar en un determinado rango para que el vehculo sea clasificado como familiar.
p1 p p2 y e1 e e2
91
Y si hay ruido?
92
Clasificacin
El modelo puede ser representado por varias formas:
rboles de decisin. Reglas de clasificacin (if-then). Mtodos bayesianos. Redes neuronales artificiales.
93
Clasificacin
rboles de Clasificacin rboles de Clasificacin (o de decisin).
Estructura similar a un diagrama de flujo, donde cada nodo interno denota una condicin sobre un atributo, cada enlace representa una salida de la misma, y cada nodo hoja representa las clases.
Pueden ser fcilmente convertidos en reglas de clasificacin. Algoritmos ms comunes: ID3, C4.5 (J48 de Weka).
94
Clasificacin
rboles de Clasificacin Construccin: por lo general, una estrategia del tipo dividir y conquistar.
Se comienza con todos los ejemplos de entrenamiento en la raz del rbol. Los ejemplos se van dividiendo en funcin del atributo que se seleccione para ramificar el rbol en cada nodo. Los atributos que se usan para ramificar se eligen en funcin de una heurstica.
95
Clasificacin
rboles de Clasificacin Construccin: posibles criterios de detencin
Todos los ejemplos que quedan pertenecen a la misma clase (se aade una hoja al rbol con la etiqueta de la clase). No quedan ms atributos por ramificar (se aade una hoja etiquetada con la clase ms frecuente en el nodo). No hay ms datos que clasificar.
96
Clasificacin
rboles de Clasificacin Construccin: Heursticas
La heurstica a escoger para seleccionar el atributo por el cual ramificar debe ser aqulla que entregue nodos ms homogneos.
Ejemplos de Heursticas: Ganancia de Informacin (ejs.: algoritmos ID3, C4.5) ndice de Gini (ejs.: algoritmos CART, SLIQ, SPRINT) Otras como 2, MDL (Minimum Description Length.
97
Clasificacin
rboles de Clasificacin Construccin: Heursticas (2)
Ganancia de Informacin: referida a una medida de la bondad de la divisin...a mayor ganancia de informacin, mayor reduccin de la entropa. Informacin esperada para clasificar una muestra:
Entropa:
98
Clasificacin
rboles de Clasificacin Construccin: Heursticas (3)
ndice de Gini: es una medida de la impureza.
n gini ( D ) = 1 p 2 j j =1
Gini=0.000
Gini=0.278
Gini=0.444
Gini=0.500
99
Clasificacin
rboles de Clasificacin ID3: algoritmo bsico para la induccin de rboles de decisin.
algunas consideraciones...
100
101
Clasificacin
rboles de Clasificacin Ejemplo: continuacin...
102
Clasificacin
rboles de Clasificacin Poda del rbol:
Al construir un rbol de decisin, varias ramas reflejarn anomalas en los datos de entrenamiento, debido a ruido o outliers. Los mtodos de poda direccionan este problema de sobreajustar los datos. Tpicamente se usan medidas estadsticas para remover las ramas menos confiables, generalmente resultando en una clasificacin ms rpida y una mejora en la habilidad de clasificar correctamente datos de prueba independientes. Enfoques comunes:
Poda Previa, Poda Posterior. Poda por costo-complejidad (CART), poda pesimista (C4.5).
103
Clasificacin
Reglas de Clasificacin Reglas de Clasificacin: existen diversas formas de obtener reglas.
A partir de un rbol de decisin A travs de algoritmos especficos de induccin de reglas (ejs.: STAR, Ripper) A partir de reglas de asociacin
104
Clasificacin
Reglas de Clasificacin a) Extraccin de Reglas de Clasificacin a partir de un rbol de Decisin: por cada camino que exista entre la raz y una hoja del rbol.
105
Clasificacin
Reglas de Clasificacin Reglas de Clasificacin: las reglas extradas mutuamente y exhaustivas. Si se simplifican son
podran dejar de ser mutuamente excluyentes (varias reglas seran vlidas para un mismo ejemplo) establecer un orden entre las reglas [lista de decisin] o realizar una votacin. podran dejar de ser exhaustivas (ninguna regla sea aplicable a un ejemplo concreto) incluir una clase por defecto.
106
Clasificacin
Reglas de Clasificacin b) Obtencin de Reglas de Clasificacin Algoritmos de Induccin de Reglas.
Las reglas se aprenden de una en una. Cada vez que se selecciona una regla, se eliminan del conjunto de entrenamiento todos los casos cubiertos por ella.
mediante
El proceso se repite hasta que se cumpla alguna condicin de detencin. el aprendizaje comienza con la regla ms general. sta se le va agregando elementos a su antecedente para maximizar la calidad (cobertura, precisin).
107
Clasificacin
Reglas de Clasificacin Ejemplo:
R1
(ii) Step 1
(iii) Step 2
108
Clasificacin
Reglas de Clasificacin c) Reglas de Clasificacin a partir de reglas de Asociacin: se buscan entre las mejores reglas de asociacin, se superan algunas limitaciones de los rboles de decisin (que slo consideran los atributos de uno en uno [y parcialmente]). Algunos algoritmos representativos: CBA, RCBT, CMAR, CPAR, ART.
109
Clasificacin
Reglas de Clasificacin Ejemplo: algoritmo ART.
K=1
Extraccin de reglas con K items en su antecedente S existen reglas adecuadas? S Ramificacin del rbol con las reglas seleccionadas y procesamiento recursivo de la rama else del rbol K=K+1 K <= MaxSize ? No Creacin de un nodo hoja etiquetado con la clase ms frecuente 110
No
Clasificacin
Reglas de Clasificacin Ejemplo: algoritmo ART (2).
K=1 Extraccin Seleccin K++ Seguir?
Ramificacin
Hoja
Clasificacin
Reglas de Clasificacin Ejemplo: algoritmo ART (3).
K=1 Extraccin Seleccin K++ Seguir?
Ramificacin
Hoja
b) Seleccin de reglas:
Reglas agrupadas por conjuntos de atributos Criterio de preferencia
112
Ejemplo:
NIVEL 1 - Extraccin de reglas de asociacin Umbral de soporte mnimo = 20% Seleccin automtica del umbral de confianza NIVEL 1, k = S1: if (Y=0) if (Y=1) S2: if (Z=0) if (Z=1) 1 then then then then
NIVEL 1, k = 2 S1: if (X=0 and if (X=0 and S2: if (X=1 and if (X=1 and S3: if (Y=0 and if (Y=1 and
113
NIVEL 1, k = 2 S1: if (X=0 and if (X=0 and S2: if (X=1 and if (X=1 and S3: if (Y=0 and if (Y=1 and
114
NIVEL 2 - Extraccin de reglas de asociacin Umbral de soporte mnimo = 20% Seleccin automtica del umbral de confianza
NIVEL 2, k = 1 S1: if (Z=0) then C=0 with confidence 100% if (Z=1) then C=1 with confidence 100%
Resultado Final:
X=0 and Y=0: C=0 (2) X=0 and Y=1: C=1 (2) else Z=0: C=0 (2) Z=1: C=1 (2)
115
Clasificacin
Reglas de Clasificacin Reglas de Clasificacin: los resultados de la aplicacin de los no siempre pueden coincidir. ART
XY
00 0 01 1 0 0 else
0
TDIDT
Y
1
Z
1 1
0 0
X
1 0 1 1 1
X
1
Z
0 0
Z
0 0 1 1
116