3 - Mineria de Datos

Unidad 3: Minera de Datos
Temario
1.- Proceso de Descubrimiento del Conocimiento (KDD) 2.- Tcnicas de Minera de Datos
Proceso KDD
Es el proceso de usar la base de datos en conjunto con cualquier seleccin, proprocesamiento, sub-muestreo, y transformaciones de ella; para aplicar mtodos de minera de dato (algoritmos) y enumerar patrones desde ella; y para evaluar los productos de la minera de datos que identifican el subconjunto de patrones enumerados que llegarn a ser el conocimiento. El descubrimiento de conocimiento puede ser:
de Prediccin: patrones para predecir comportamientos futuros. de Descripcin: patrones para explicar lo que sucede en un formato entendible por el ser humano.
3
Proceso KDD
Por qu la Minera de Datos?
Proceso KDD
Proceso KDD
Por qu la Minera de Datos?
Proceso KDD
Preparacin de Datos
Importancia Necesidad
Los datos de trabajo pueden ser impuros, y conducir a la extraccin de patrones/reglas poco tiles. Motivos:
Datos incompletos. Datos con ruido. Datos inconsistentes.
Preparacin de Datos
La preparacin de datos puede generar un conjunto de datos ms pequeo que el original, lo cual puede mejorar la eficiencia del proceso de minera de datos. Posibilidades:
Seleccin relevante de datos: mediante eliminacin de registros duplicados, de anomalas, etc. Reduccin de datos: mediante seleccin de caractersticas, muestreo o seleccin de instancias, discretizacin.
9
Preparacin de Datos
La preparacin de datos genera datos de calidad, los cuales pueden conducir a patrones/reglas de calidad a travs de:
Recuperacin de informacin perdida. Eliminacin de outliers. Resolucin de conflictos.
10
Preparacin de Datos
Actividades
Limpieza de datos: puede ser usada para llenar valores perdidos, suavizar datos con ruido, identificar outliers y corregir datos inconsistentes.
11
Preparacin de Datos
Actividades: Limpieza de Datos
Herramientas: Tabla de Resumen de atributos.
12
Preparacin de Datos
Herramientas: Histograma.
12 10 8 6 4 2 0 1 2 3 4 5 6 7 8 9 10 11 12
13
Preparacin de Datos
Herramientas: Grficos de Dispersin (scatterplot).
Bivariante
Etiquetado
14
Reconocimiento
Matriz de Grficos de Dispersin
15
Preparacin de Datos
Actividades
Integracin de datos: combina datos desde mltiples fuentes para conformar un conjunto de datos coherente. Metadatos, anlisis de correlacin, deteccin de conflictos de datos y resolucin de heterogeneidad semntica, son tcnicas que contribuyen a una integracin adecuada.
16
Preparacin de Datos
Actividades
Transformacin de datos: tcnicas que llevan a los datos en formatos apropiados para el minado, como por ejemplo la normalizacin de los datos.
17
Preparacin de Datos
Actividades
Reduccin de datos: con el objetivo de obtener una representacin reducida de los datos, minimizando la prdida en el contenido de la informacin. Tcnicas posibles son la agregacin de cubos y de dimensiones, la compresin de datos, la reduccin de la numerosidad y la discretizacin.
18
Exploracin y Seleccin de Datos

Vista Minable
19

Vista Minable
en otras palabras responder

Qu parte de los datos es pertinente analizar? vista minable. Qu tipo de conocimiento se desea extraer y cmo se debe presentar? tarea, mtodo y presentacin. Qu conocimiento puede ser vlido, novedoso e interesante? criterios de calidad. Qu conocimiento previo hace falta para realizar esta tarea? conocimiento previo.
20

Reconocimiento de Datos
Actividades de Reconocimiento:
del dominio y de los usuarios: reconocer el conocimiento que podra ser til, adems de intentar obtener las reglas ya existentes. Importante tambin determinar quien usar el conocimiento obtenido y qu tipo de representacin puede ser ms aconsejable. exploracin de los datos: para obtener una vista minable, lista para ser tratada por las herramientas de minera de datos.
21
Exploracin de Datos
Tcnicas posibles:
Visualizacin (previa) Agrupamiento exploratorio de seleccin horizontal y vertical Interfaces grficas de Consulta y Agregacin
22
Exploracin de Datos
Tcnica de Ejemplo : Visualizacin
Visualizacin: objetivos
Aprovechar la gran capacidad humana de ver patrones, anomalas y tendencias a partir de imgenes y facilitar la comprensin de los datos. Ayudar al usuario a comprender ms rpida-mente patrones descubiertos automticamente por un sistema KDD.
23
Exploracin de Datos
Visualizacin: dos tipos

Previa (Minera de Datos Visual): se utiliza para entender mejor los datos, y sugerir posibles patrones o qu tipo de herramienta de KDD utilizar. Posterior: al proceso de minera de datos, se utiliza para mostrar los patrones y entenderlos mejor.
24
Exploracin de Datos
Visualizacin Previa: ejemplos
Funciones de densidad tridimensionales

25
Exploracin de Datos

1 100 80 60 5 40 20 0 2 Serie1 Serie2 Serie3 Serie4
Grfica radial
26
Exploracin de Datos

100,00% Other F
75,00%
Amer-Indian-Eskimo
<=50K
50,00%
Asian-Pac-Islander
>50K Mean <=50K Mean >50K
25,00%
Black
0,00% Age Number of years of study Race
White Sex
M Hours-per-week
Coordenadas Paralelas
27
S13 S11 S9 S7 S5 Tbco. Clstrl. S3 Tnsn. Obsd. Alcl. Prcd. S1 Strss Rsg Casos
Factores
Coordenadas Paralelas
Representacin Icnica 28
Seleccin de Datos
29
Temario
1.- Proceso de Descubrimiento del Conocimiento (KDD) 2.- Tcnicas de Minera de Datos
30
Proceso KDD
31
Tcnicas de la Minera de Datos

Minera de Datos
Descriptiva Predictiva
Visualizacin
Correlaciones y Dependencias
Deteccin de Anomalas
Clasificacin
Regresin Estadstica
Pronsticos
rboles de Decisin Asociacin Patrones Secuenciales Redes Neuronales Artificiales Segmentacin (Agrupamiento) Induccin de Reglas
Criterios Transversales: Mtodos Difusos Mtodos Evolutivos
Mquinas de Soporte Vectorial
Mtodos Bayesianos Mtodos basados en Casos y Vecindad
32
Minera de Datos
Tareas y Mtodos
Tcnicas Mtodo Apriori Algoritmos Genticos y Evolutivos Anlisis Discriminante Multivariante Anlisis Factorial y de Componentes principales rboles de decisin: CART rboles de decisin: ID3, C4.5 rboles de decisin: otros Bayes Ingenuo (Naive) CobWeb, Two Step Kmeans Mquinas de Soporte Vectorial Redes de Kohonen Redes Neuronales Artificiales Reglas CN2 Regresin Lineal y Logartmica Regresin Logstica Vecinos ms cefcanos x x x x x x x x x x x x x x x x x x x x x x x x x x x x Correlaciones Descriptivas Reglas de Asociacin x x x x x x Segmentacin Predictivas Clasificacin Regresin
33
Reglas de Asociacin
34
Asociacin
Definiciones bsicas Tarea descriptiva, no supervisada. Posibilidades:
Reglas de Asociacin: Se buscan asociaciones de la siguiente forma:
(X1 = a) (X4 = b)
Dependencias: asociaciones de la forma (if Ante then Cons):

if (X1= a, X3=c, X5=d) (X4=b, X2=a)
35
Asociacin
Definiciones bsicas
RUT 10.251.545-3 15.512.526-4 12.512.526-4 14.374.183-3 14.572.904-1 Ingreso Familiar 5.000.000 1.000.000 3.000.000 2.000.000 1.500.000 Ciudad Concepcin Valparaso Talca Valdivia Santiago Actividad Ejecutivo Abogado Ejecutivo Camarero Animador Parque Temtico Edad Hijos 45 25 35 30 30 3 0 2 0 0 Sexo Casado M M M M F S No S S No
Asociaciones frecuentes: Casado e (Hijos > 0) sexo Masculino y Casado Dependencias: (Hijos > 0) Casado Casado (Hijos > 0) Casado sexo Masculino
{40%, 2 casos} {60%, 3 casos}
{100%, 2 casos} {66.6%, 2 casos} {100%, 3 casos}
36
Asociacin
Tipos de Reglas de Asociacin Basado en los Tipos de Valores manejados por la Regla:
Regla booleana: las asociaciones indican la ausencia o presencia del elementos, tal como:
computador
impresora
Regla cuantitativa: las asociaciones describe relaciones entre atributos cuantitativos, como por ejemplo: (30 < edad < 39) and (ingreso > 500.000)
TV con pantalla plana
37
Asociacin
Tipos de Reglas de Asociacin Basado en las Dimensiones de los Datos Involucrados:
Regla unidimensional: los atributos hacen referencia a una nica dimensin, como por ejemplo:
computador
impresora
Regla multidimensional: se hace referencia a dos o ms dimensiones, tal como: (30 < edad < 39) and (ingreso > 500.000)
TV con pantalla plana
38
Asociacin
Tipos de Reglas de Asociacin Instantneas o Secuenciales.
Instantnea: contemporneas. indica relaciones inmediatas,
computador
impresora
Secuencial: establece un orden temporal.
computador computador
impresora en prxima compra impresora antes de tres meses
39
Asociacin
Tipos de Reglas de Asociacin Basado en los Niveles de Abstraccin.
Bebidas
Postres
40
Asociacin
Tipos de Reglas de Asociacin Positivas o Negativas.
Positiva: indica la ocurrencia o presencia de los temes relaciones.
computador
impresora
Negativa: seala la ausencia de al menos uno de los temes de la regla
computador
not impresora
41
Asociacin
Medidas para la Bondad de las Reglas de Asociacin Medidas de Inters:
Soporte: representa la utilidad de la regla.
soporte = nmero de casos o porcentaje en los que el antecedente se hace verdadero (rc o rc /n respectivamente), siendo n el nmero de datos en estudio.
Confianza: refleja la certeza la regla.

confianza = corresponde al nmero de casos que habiendo cumplido el antecedente de la regla, cumplen tambin el consecuente (rc/ra). confianza (X Y) = soporte(X U Y) / soporte(X)
42
Asociacin
Medidas para la Bondad de las Reglas de Asociacin Medidas de Inters (2):
Elevacin (lift): corresponde al cuociente entre el soporte observado y el soporte esperado si X e Y fueran independientes.
soporte(X U Y) elevacin(X Y) = ----------------------------soporte(X) * soporte(Y)
43
Asociacin
Medidas para la Bondad de las Reglas de Asociacin Medidas de Inters (3):
Conviccin: corresponde al cuociente entre la frecuencia con que la regla hace una prediccin incorrecta (siendo ambas partes de la regla independientes entre s) y la frecuencia observada de las predicciones incorrectas.
1 soporte(Y) conviccion(X Y) = -----------------------1- confianza(X Y)
44
Asociacin
Algoritmos Los algoritmos de bsqueda de asociaciones y dependencias, en la mayora se basa en descomponer el problema en dos fases:
FASE 1 - BSQUEDA DE ITEMSETS FRECUENTES. Se buscan conjuntos de temes (o atributos) con soporte mayor/igual al soporte deseado; de momento no se busca separarlos en parte izquierda y parte derecha. FASE 2 - ESCLARECIMIENTO DE DEPENDENCIAS (REGLAS). Se hacen particiones binarias y disjuntas de los itemsets y se calcula la confianza de cada uno. Se retienen aquellas reglas que tienen confianza mayor/igual a la confianza deseada.
45
Asociacin
Algoritmos Algoritmo Apriori: mtodo bsico para encontrar reglas booleanas, unidimensionales y mononivel. Algunas ideas asociadas...
El algoritmo obtiene los llamados itemsets frecuentes para generar las reglas de asociacin booleanas. Su nombre es debido a que se basa en conocimientos previos sobre la frecuencia de los itemsets, al usar los k-itemsets para explorar los del siguiente nivel o paso (k+1). Condicin apriori: todos los subconjuntos de un itemset frecuente deben ser frecuentes. Propiedad anti-montona: si un conjunto no supera una prueba, los supra-conjuntos derivados tampoco la superarn.
46
Asociacin
Algoritmos Algoritmo Apriori: dado un soporte mnimo smin...
1. i=1 (tamao de los conjuntos) 2. Generar un conjunto unitario para cada atributo en Si. 3. Comprobar el soporte de todos los conjuntos en Si. Eliminar aquellos cuyo soporte < smin. 4. Combinar los conjuntos en Si para crear conjuntos de tamao i+1 en Si+1. 5. Si Si no es vaco entonces i:= i+1. Ir a 3. 6. Si no, retornar S2 S3 ... Si
47
Asociacin
Algoritmos
FASE A: BSQUEDA DE ITEMSETS FRECUENTES (A PRIORI) soporte mnimo = 2
Fila 1 2 3 4 1 x x 2 x x x 3 x x x 4 x 5 x x x
S1= { {1}, {2}, {3}, {4}, {5} } S1: soporte = { {1}:2, {2}:3, {3}:3, {5}:3 } S2= { {1,2}, {1,3}, {1,5}, {2,3}, {2,5}, {3,5} } S2: soporte = { {1,3}:2, {2,3}:2, {2,5}:3, {3,5}:2 } S3= { {1,2,3}, {1,2,5}, {1,3,5}, {2,3,5} } S3: soporte = { {2,3,5}:2 } Sfinal = S2 S3 = { {1,3}, {2,3}, {2,5}, {3,5}, {2,3,5} }
48
Asociacin
Algoritmos
FASE B: ESCLARECIMIENTO DE DEPENDENCIAS (REGLAS)
Fila 1 2 3 4 1 x x 2 x x x 3 x x x 4 x 5 x x x
soporte = 2 confianza = 0.75
{1}{3} {2}{3} {2}{5} {3}{5}
: : : :
1 0.67 1 0.67
{3}{1} {3}{2} {5}{2} {5}{3}
: : : :
0.67 0.67 1 0.67
{2,3}{5} : 1 {3,5}{2} : 1
{2,5}{3} : 0.67
49
Asociacin
Algoritmos Mejoras (extensiones)
Muestreo de la base de datos. Filtro (seleccin) de atributos. Paralelismo. Aplicacin a atributos numricos discretizacin; segmentacin y asignar un valor discreto a cada grupo.
50
Asociacin
Algoritmos algoritmo AprioriAll: trata de establecer asociaciones del estilo: si compra X en T comprar Y en T+P?; es decir es para obtener patrones secuenciales. Ejemplo:
51
Asociacin
Algoritmos
52
Segmentacin
53
Segmentacin
En este tipo de anlisis se busca agrupar o segmentar los datos en grupos de acuerdo a la relacin que se encuentre ellos. Encontrar agrupamientos de tal forma que los objetos de un grupo sean similares entre s y diferentes de los objetos de otros grupos.
54
Segmentacin
Normalmente se refiere al llamado aprendizaje no supervisado, pues no descansa sobre clases predefinidas ni ejemplos de prueba en dichas clases. Por lo anterior, usa un esquema de aprendizaje por observacin ms que por ejemplos.
55
Segmentacin
El elemento clave es la eleccin de la distancia o medida de similitud entre objetos.
56
Segmentacin
Ejemplo:
57
Segmentacin
Distancia de edicin: de Levenstein (nmero de operaciones
necesario para transformar una cadena en otra). d(data mining, data minino) = 1 d(efecto, defecto) = 1 d(poda, boda) = 1 d(night,natch) = d(natch,noche) = 3 Para datos binarios: Distancia de Hamming.
58
Segmentacin
Tipos de Algoritmos 1) Mtodos de Particionamiento: dada una base de datos con n objetos, un mtodo de este tipo construye k particiones, donde cada una de stas representa un grupo, siendo k <= n. Ejs.: K-Means, K-Medoids (PAM).
59
Segmentacin
Tipos de Algoritmos 2) Mtodos Jerrquico: crea una descomposicin jerrquica del conjunto de datos dado. Ejs.: BIRCH, CURE.
p1 p3 p2 p4
p1 p2
p3 p4
Tradicional DENDOGRAMA
p1 p3 p2 p4
No tradicional
p1 p2
p3 p4
60
Segmentacin
Tipos de Algoritmos 3) Mtodos basados en la Densidad: la idea general es continuar creciendo el grupo dado tanto como la densidad (nmero de objetos o puntos de datos) en la vecindad exceda algn umbral. Ejs.: DBSCAN, OPTICS.
61
Segmentacin
Tipos de Algoritmos 4) Mtodos basados en la Grilla: cuantiza el espacio de objetos en un nmero finito de celdas que conforman una estructura de grilla. Entonces realizar todas las operaciones de agrupamiento en esta ltima. Ejs.: STING, CLIQUE, Wave-Cluster.
62
Segmentacin
Tipos de Algoritmos 5) Mtodos basados en Modelo: hipotetiza un modelo por cada uno de los grupos, y encuentra el mejor ajuste de los datos a ese modelo; puede localizar los grupos al construir una funcin de densidad que refleje la distribucin espacial de los puntos de datos.
Enfoque Estadstico: algoritmos COBWEB, CLASSIT. Enfoque de Red Neuronal: SOM o Mapas AutoOrganizados (Redes de Kohonen).
63
Segmentacin
Algoritmos de Particionamiento Algoritmo K-means: basado en centroides.
Procedimiento: Dividir aleatoriamente los ejemplos en k conjuntos y calcular la media (el punto medio) cada conjunto. Reasignar cada ejemplo al conjunto con el punto medio ms cercano. Calcular los puntos medios de los k conjuntos. Repetir los pasos 2 y 3 hasta que los conjuntos no varen.
64
Segmentacin
Algoritmos de Particionamiento Algoritmo K-means: ejemplo.
Distancias Euclideanas
65
Segmentacin
Algoritmos de Particionamiento Algoritmo K-means: ejemplo (2).
Primera Iteracin
Segunda Iteracin
66
Segmentacin
Algoritmos de Particionamiento Algoritmo K-means: ejemplo (2).
Tercera Iteracin
Configuracin Final
67
Segmentacin
Algoritmos de Particionamiento Algoritmo K-means: problemas...
Si se sabe que hay n clases, hacer k=n puede resultar en que, algunas veces, algn grupo use dos centros y dos grupos separados tengan que compartir centro.
Si k se elige muy grande, la generalizacin es pobre y las agrupaciones futuras sern malas.
Determinar el k ideal es difcil.

68
Segmentacin
Algoritmos de Particionamiento Algoritmo K-means: variaciones.
K-modes: para datos categricos, al reemplazar los promedios de los grupos por las modas. EM (Expectation Maximization): en vez de asignar cada punto a un grupo dedicado, asigna cada punto a un grupo de acuerdo a algn peso que represente la probabilidad de la membresa. En otras palabras no hay fronteras estrictas entre los grupos.
69
Segmentacin
Algoritmos de Particionamiento Algoritmo K-medoids: basado en puntos representativos. no hay restricciones sobre el tipo de variable, y En este caso
adems se consideran slo las distancias o similitudes de entre observaciones. Se reemplazan entonces las medias, por observaciones que estn en el centro de los grupos...con esto se soluciona el problema de los outliers, que tienden a distorsionar la distribucin de los datos de un grupo.
70
Segmentacin
Algoritmos Jerrquicos Crean una descomposicin jerrquica del conjunto de datos dado. Enfoques.
Aglomerativo (bottom-up): empieza con cada objeto formando un grupo separado; sucesivamente mezcla los (grupos de) objetos cercanos entre s, hasta que se cumpla cierta condicin dada. Divisivo (top-down): empieza con todos los objetos en el mismo grupo; en cada iteracin sucesiva, un grupo es dividido en otros ms pequeos, hasta que eventualmente se cumpla cierta condicin dada.
71
Segmentacin
Algoritmos Jerrquicos
Enfoque Aglomerativo (bottom-up)
Enfoque Divisivo (top-down)
72
Segmentacin
Algoritmos Jerrquicos
0 1 2 3 4
a b c d e
4
Algoritmo Aglomerativo: AGNES

(AGlomerative NESting)
ab abcde cde de
3 2 1 0
Algoritmo Divisivo: DIANA

(DIvisive ANAlysis)
Cul es el criterio de detencin?

73
Segmentacin
Algoritmos Jerrquicos Dendograma
La similitud entre dos objetos viene dada por la altura del nodo comn ms cercano.
74
Segmentacin
Algoritmos Jerrquicos El dendograma puede ayudar a determinar el nmero de grupos
75
Segmentacin
Algoritmos Jerrquicos y detectar outliers.
Outlier
76
Segmentacin
Algoritmos Jerrquicos Para construir un dendograma: 1. Calcular las distancias entre todos los pares de objetos esto equivale a asumir que cada objeto constituye un grupo por si solo {C1, ...,CN}. 2. Buscar los dos grupos ms cercanos (Ci, Cj), y juntarlos para dejarlos como un nico grupo. 3. Repetir el paso 2 hasta que no queden pares de comparacin. En general, la representacin es mediante un rbol.
77
Segmentacin
Algoritmos Jerrquicos Para medir la distancia entre grupos
MIN Enlace simple
MAX enlace completo (dimetro)
78
Segmentacin
Algoritmos Jerrquicos Para medir la distancia entre grupos
PROMEDIO Enlace promediado
basado en CENTROIDES Ej.: BIRCH.
79
Segmentacin
Algoritmos Jerrquicos Ejercicio 1:
D1 D2 D3 D4 D5 D6 D7 D1 0.3606 0.5000 0.9220 1.3416 1.8385 1.7263 0.4243 0.7071 1.0440 1.5524 1.5000 D2 0.4472 0.9220 1.3892 1.2369 D3
0.5000 0.9434 0.8062 D4
0.5099 0.5831 D5
0.4000 D6 D7
D1/D2=D8 D3 D4 D5 D6 D7
0.4243 0.7071 1.3416 1.5524 1.5000 D1/D2=D8
0.4472 0.9220 1.3892 1.2369 D3
0.5000 0.9434 0.8062 D4
0.5099 0.5831 D5
0.4000 D6
D7
D8 D3 D4 D5 D6/D7=D9 D8
0.4243 0.7071 1.3416 1.5000
0.4472 0.9220 1.2369 D3
0.5000 0.8062 D4
0.5831 D5
D6/D7=D9
80
D8 D3 D4 D5 D6/D7=D9 D8
0.4243 0.7071 1.3416 1.5000
0.4472 0.9220 1.2369 D3
0.5000 0.8062 D4
0.5831 D5
D6/D7=D9
D3/D8=D10 D4 D5 D9
0.4472 0.9220 1.2369 D3/D8=D10
0.5000 0.8062 D4
0.5831 D5
D9
D4/D10=D11 D5 D9
0.5000 0.8062 0.5831 D4/D10=D11 D5
D9
D5/D11 D9
0.5831 D5/D11
D9
81
Segmentacin
Algoritmos Jerrquicos Ejemplo grfico de dendograma: para cuatro grupos.
Enlace nico
Enlace completo
82
Segmentacin
Algoritmos Jerrquicos Ejemplo grfico de dendograma: para datos aleatorios.
Enlace nico
Enlace completo
83
Segmentacin
Algoritmos Jerrquicos CHAMALEON.
Particin del grafo
Grupos finales
Combinar particiones
84
Clasificacin
85
Clasificacin
Es el proceso de encontrar un modelo que describa y distinga clases de datos o conceptos, con el propsito de conocer la clase de otros objetos que an no la tienen definida. En general:
Clasificacin: predice el valor de un atributo categrico (discreto o nominal). Prediccin: construye funciones que toman valores continuos.
Aunque sirve para conocer la clase de un objeto, en algunas aplicaciones puede predecir, en su lugar, algn valor perdido o no disponible.
86
Clasificacin
El modelo obtenido est basado en el anlisis de un conjunto de datos de entrenamiento, que son objetos ya clasificados aprendizaje supervisado. Para construir un modelo de clasificacin:
Se divide el conjunto de datos disponible en un conjunto de entrenamiento (para construir el modelo) y un conjunto de prueba (para evaluar el modelo). Se construye el modelo usando el conjunto de entrenamiento, y se valida con el conjunto de prueba, obtenindose un porcentaje d clasificacin asociado al nmero de aciertos obtenidos. Si dicho porcentaje es aceptable, el modelo es considerado como til para clasificar nuevos casos.
87
Clasificacin
Tid 1 2 3 4 5 6 7 8 9 10
10
Attrib1 Yes No No Yes No No Yes No No No
Attrib2 Large Medium Small Medium Large Medium Large Small Medium Small
Attrib3 125K 100K 70K 120K 95K 60K 220K 85K 75K 90K
Class No No No No Yes No No Yes No Yes
Algoritmo de aprendizaje Induccin
Aprender modelo
Conjunto de entrenamiento
Tid 11 12 13 14 15
10
Modelo
Aplicar modelo
Class ? ? ? ? ?
Attrib1 No Yes Yes No No
Attrib2 Small Medium Large Small Large
Attrib3 55K 80K 110K 95K 67K
Deduccin
Conjunto de prueba
88
Clasificacin
89
Clasificacin
Ejemplo: el ejemplo mas simple de aprendizaje supervisado es la generacin de una regla de clasificacin a partir de ejemplos positivos y negativos de una clase. Suponer que la clase en estudio es Auto Familiar; despus de una encuesta entre usuarios de lo que define a un auto familiar, se distinguen dos criterios como los ms mencionados: Precio y Potencia de la mquina (centmetros cbicos de los cilindros).
90
Clasificacin
A partir de una discusin con los expertos y a partir de los datos, se podra inferir que los valores del Precio y Potencia debieran estar en un determinado rango para que el vehculo sea clasificado como familiar.
p1 p p2 y e1 e e2
91
h es la hiptesis inducida y C es la verdadera clase.
Hiptesis ms general vs hiptesis ms especfica.
Y si hay ruido?
Y si hay mltiples clases?
92
Clasificacin
El modelo puede ser representado por varias formas:
rboles de decisin. Reglas de clasificacin (if-then). Mtodos bayesianos. Redes neuronales artificiales.
93
Clasificacin
rboles de Clasificacin rboles de Clasificacin (o de decisin).
Estructura similar a un diagrama de flujo, donde cada nodo interno denota una condicin sobre un atributo, cada enlace representa una salida de la misma, y cada nodo hoja representa las clases.
Pueden ser fcilmente convertidos en reglas de clasificacin. Algoritmos ms comunes: ID3, C4.5 (J48 de Weka).
94
Clasificacin
rboles de Clasificacin Construccin: por lo general, una estrategia del tipo dividir y conquistar.
Se comienza con todos los ejemplos de entrenamiento en la raz del rbol. Los ejemplos se van dividiendo en funcin del atributo que se seleccione para ramificar el rbol en cada nodo. Los atributos que se usan para ramificar se eligen en funcin de una heurstica.
95
Clasificacin
rboles de Clasificacin Construccin: posibles criterios de detencin
Todos los ejemplos que quedan pertenecen a la misma clase (se aade una hoja al rbol con la etiqueta de la clase). No quedan ms atributos por ramificar (se aade una hoja etiquetada con la clase ms frecuente en el nodo). No hay ms datos que clasificar.
96
Clasificacin
rboles de Clasificacin Construccin: Heursticas
La heurstica a escoger para seleccionar el atributo por el cual ramificar debe ser aqulla que entregue nodos ms homogneos.
Ejemplos de Heursticas: Ganancia de Informacin (ejs.: algoritmos ID3, C4.5) ndice de Gini (ejs.: algoritmos CART, SLIQ, SPRINT) Otras como 2, MDL (Minimum Description Length.
97
Clasificacin
rboles de Clasificacin Construccin: Heursticas (2)
Ganancia de Informacin: referida a una medida de la bondad de la divisin...a mayor ganancia de informacin, mayor reduccin de la entropa. Informacin esperada para clasificar una muestra:
Entropa:
Reduccin esperada en la entropa causada al conocer el valor del atributo A:
98
Clasificacin
rboles de Clasificacin Construccin: Heursticas (3)
ndice de Gini: es una medida de la impureza.
n gini ( D ) = 1 p 2 j j =1
Se escoge aquel atributo que entrega la mayor reduccin de la impureza.

C1 C2 0 6 C1 C2 1 5 C1 C2 2 4 C1 C2 3 3
Gini=0.000
Gini=0.278
Gini=0.444
Gini=0.500
99
Clasificacin
rboles de Clasificacin ID3: algoritmo bsico para la induccin de rboles de decisin.
algunas consideraciones...
100
Ejemplo: sean C1 = yes, C2 = no.
101
Clasificacin
rboles de Clasificacin Ejemplo: continuacin...
102
Clasificacin
rboles de Clasificacin Poda del rbol:
Al construir un rbol de decisin, varias ramas reflejarn anomalas en los datos de entrenamiento, debido a ruido o outliers. Los mtodos de poda direccionan este problema de sobreajustar los datos. Tpicamente se usan medidas estadsticas para remover las ramas menos confiables, generalmente resultando en una clasificacin ms rpida y una mejora en la habilidad de clasificar correctamente datos de prueba independientes. Enfoques comunes:
Poda Previa, Poda Posterior. Poda por costo-complejidad (CART), poda pesimista (C4.5).
103
Clasificacin
Reglas de Clasificacin Reglas de Clasificacin: existen diversas formas de obtener reglas.
A partir de un rbol de decisin A travs de algoritmos especficos de induccin de reglas (ejs.: STAR, Ripper) A partir de reglas de asociacin
104
Clasificacin
Reglas de Clasificacin a) Extraccin de Reglas de Clasificacin a partir de un rbol de Decisin: por cada camino que exista entre la raz y una hoja del rbol.
Las reglas son mutuamente excluyentes y exhaustivas.
105
Clasificacin
Reglas de Clasificacin Reglas de Clasificacin: las reglas extradas mutuamente y exhaustivas. Si se simplifican son
podran dejar de ser mutuamente excluyentes (varias reglas seran vlidas para un mismo ejemplo) establecer un orden entre las reglas [lista de decisin] o realizar una votacin. podran dejar de ser exhaustivas (ninguna regla sea aplicable a un ejemplo concreto) incluir una clase por defecto.
106
Clasificacin
Reglas de Clasificacin b) Obtencin de Reglas de Clasificacin Algoritmos de Induccin de Reglas.
Las reglas se aprenden de una en una. Cada vez que se selecciona una regla, se eliminan del conjunto de entrenamiento todos los casos cubiertos por ella.
mediante
El proceso se repite hasta que se cumpla alguna condicin de detencin. el aprendizaje comienza con la regla ms general. sta se le va agregando elementos a su antecedente para maximizar la calidad (cobertura, precisin).
107
Clasificacin
Reglas de Clasificacin Ejemplo:
R1
(i) Original Data
(ii) Step 1
(iii) Step 2
Algoritmos representativos: FOIL, CN2, RIPPER, PNRule.
108
Clasificacin
Reglas de Clasificacin c) Reglas de Clasificacin a partir de reglas de Asociacin: se buscan entre las mejores reglas de asociacin, se superan algunas limitaciones de los rboles de decisin (que slo consideran los atributos de uno en uno [y parcialmente]). Algunos algoritmos representativos: CBA, RCBT, CMAR, CPAR, ART.
109
Clasificacin
Reglas de Clasificacin Ejemplo: algoritmo ART.
K=1
Extraccin de reglas con K items en su antecedente S existen reglas adecuadas? S Ramificacin del rbol con las reglas seleccionadas y procesamiento recursivo de la rama else del rbol K=K+1 K <= MaxSize ? No Creacin de un nodo hoja etiquetado con la clase ms frecuente 110
No
Clasificacin
Reglas de Clasificacin Ejemplo: algoritmo ART (2).
K=1 Extraccin Seleccin K++ Seguir?
Ramificacin
Hoja
a) Extraccin de reglas: hiptesis candidatas

Soporte mnimo Confianza mnima
111
Clasificacin
Reglas de Clasificacin Ejemplo: algoritmo ART (3).
K=1 Extraccin Seleccin K++ Seguir?
Ramificacin
Hoja
b) Seleccin de reglas:
Reglas agrupadas por conjuntos de atributos Criterio de preferencia
112
Ejemplo:
NIVEL 1 - Extraccin de reglas de asociacin Umbral de soporte mnimo = 20% Seleccin automtica del umbral de confianza NIVEL 1, k = S1: if (Y=0) if (Y=1) S2: if (Z=0) if (Z=1) 1 then then then then
C=0 C=1 C=0 C=1
with with with with
confidence confidence confidence confidence
75% 75% 75% 75%
NIVEL 1, k = 2 S1: if (X=0 and if (X=0 and S2: if (X=1 and if (X=1 and S3: if (Y=0 and if (Y=1 and
Y=0) Y=1) Z=0) Z=1) Z=0) Z=1)
then then then then then then
C=0 C=1 C=0 C=1 C=0 C=1
(100%) (100%) (100%) (100%) (100%) (100%)
113
NIVEL 1 - Seleccin del mejor conjunto de reglas p.ej. S1
NIVEL 1, k = S1: if (Y=0) if (Y=1) S2: if (Z=0) if (Z=1)
1 then then then then
C=0 C=1 C=0 C=1
with with with with
confidence confidence confidence confidence
75% 75% 75% 75%
NIVEL 1, k = 2 S1: if (X=0 and if (X=0 and S2: if (X=1 and if (X=1 and S3: if (Y=0 and if (Y=1 and
Y=0) Y=1) Z=0) Z=1) Z=0) Z=1)
then then then then then then
C=0 C=1 C=0 C=1 C=0 C=1
(100%) (100%) (100%) (100%) (100%) (100%)
114
NIVEL 2 - Extraccin de reglas de asociacin Umbral de soporte mnimo = 20% Seleccin automtica del umbral de confianza
NIVEL 2, k = 1 S1: if (Z=0) then C=0 with confidence 100% if (Z=1) then C=1 with confidence 100%
Resultado Final:
X=0 and Y=0: C=0 (2) X=0 and Y=1: C=1 (2) else Z=0: C=0 (2) Z=1: C=1 (2)
115
Clasificacin
Reglas de Clasificacin Reglas de Clasificacin: los resultados de la aplicacin de los no siempre pueden coincidir. ART
XY
00 0 01 1 0 0 else
0
TDIDT
Y
1
Z
1 1
0 0
X
1 0 1 1 1
X
1
Z
0 0
Z
0 0 1 1
116

3 - Mineria de Datos

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

3 - Mineria de Datos

Transféré par

Droits d'auteur :

Formats disponibles

Unidad 3: Minera de Datos

Herramientas: Tabla de Resumen de atributos.

Herramientas: Grficos de Dispersin (scatterplot).

Matriz de Grficos de Dispersin

Exploracin y Seleccin de Datos

Exploracin y Seleccin de Datos

en otras palabras responder

Exploracin y Seleccin de Datos

Visualizacin: dos tipos

Visualizacin Previa: ejemplos

Funciones de densidad tridimensionales

Visualizacin Previa: ejemplos

Visualizacin Previa: ejemplos

>50K Mean <=50K Mean >50K

0,00% Age Number of years of study Race

Tcnicas de la Minera de Datos

Criterios Transversales: Mtodos Difusos Mtodos Evolutivos

Mquinas de Soporte Vectorial

Mtodos Bayesianos Mtodos basados en Casos y Vecindad

Dependencias: asociaciones de la forma (if Ante then Cons):

{40%, 2 casos} {60%, 3 casos}

{100%, 2 casos} {66.6%, 2 casos} {100%, 3 casos}

TV con pantalla plana

TV con pantalla plana

Secuencial: establece un orden temporal.

impresora en prxima compra impresora antes de tres meses

Negativa: seala la ausencia de al menos uno de los temes de la regla

Confianza: refleja la certeza la regla.

soporte = 2 confianza = 0.75

{1}{3} {2}{3} {2}{5} {3}{5}

{3}{1} {3}{2} {5}{2} {5}{3}

0.67 0.67 1 0.67

Determinar el k ideal es difcil.

Enfoque Divisivo (top-down)

Algoritmo Aglomerativo: AGNES

Algoritmo Divisivo: DIANA

Cul es el criterio de detencin?

MAX enlace completo (dimetro)

basado en CENTROIDES Ej.: BIRCH.

0.5000 0.9434 0.8062 D4

0.4243 0.7071 1.3416 1.5524 1.5000 D1/D2=D8

0.4472 0.9220 1.3892 1.2369 D3

0.5000 0.9434 0.8062 D4

0.4243 0.7071 1.3416 1.5000

0.4472 0.9220 1.2369 D3

0.4243 0.7071 1.3416 1.5000

0.4472 0.9220 1.2369 D3

0.4472 0.9220 1.2369 D3/D8=D10

0.5000 0.8062 0.5831 D4/D10=D11 D5

Attrib1 Yes No No Yes No No Yes No No No

Class No No No No Yes No No Yes No Yes

Algoritmo de aprendizaje Induccin

Attrib1 No Yes Yes No No

Attrib2 Small Medium Large Small Large

Attrib3 55K 80K 110K 95K 67K

h es la hiptesis inducida y C es la verdadera clase.

Hiptesis ms general vs hiptesis ms especfica.

Y si hay mltiples clases?

Reduccin esperada en la entropa causada al conocer el valor del atributo A:

Se escoge aquel atributo que entrega la mayor reduccin de la impureza.

Ejemplo: sean C1 = yes, C2 = no.

Las reglas son mutuamente excluyentes y exhaustivas.

(i) Original Data

Algoritmos representativos: FOIL, CN2, RIPPER, PNRule.