Académique Documents
Professionnel Documents
Culture Documents
Y
DATA WAREHOUSING
Abril-2008 1
Parte inicial
DATA MINING
Mladen W. Nadinic
2
Minería de Datos (Data Mining)
3
Bibliografía
Berry M.J.A.; Linoff, G.S. “Mastering Data Mining”, Wiley, 2000.
Berthold, M.; Hand, D.J. (ed). “Intelligent Data Analysis. An Introduction” ( 2nd ed.),
Springer, 2002.
Dunham, M.H. “Data Mining. Introductory and Advanced Topics”, Prentice Hall,
2003.
Dzeroski, S.; Lavrac, N. “Relational Data Mining”, Springer, 2001.
Etzioni, O. “The World- Wide Web. Quagmire or Gold Mine” Communications of the
ACM, November 1996, Vol. 39, nº 11, 1996.
Fayyad, U.M.; Piatetskiy-Shapiro, G.; Smith, P.; Ramasasmy, U. “Advances in
Knowledge Discovery and Data Mining”, AAAI Press / MIT Press, 1996.
Fayyad, U.M.; Grinstein, G.; Wierse, A., “Information Visualization in Data Mining
and Knowledge Discovery”, Morgan Kaufmann, Harcourt Intl, 2001.
Han, J.; Kamber, M. “Data Mining: Concepts and Techniques”, Morgan Kaufmann,
2001.
Hernández, J. et al. “Introducción a la Minería de Datos”, Prentice-Hall, 2004.
4
Minería de Datos (Data Mining)
5
1. Introducción a la Minería de datos (DM)
Situación actual de la tecnología de gestión de datos.
1970 evolución de la tecnología de gestión de datos 2000
- SGBD eficientes
- SGBD robustos
- lenguajes y herramientas de uso de alto nivel
6
1. Introducción a la Minería de datos (DM)
Una vez satisfecha la necesidad de tener un
soporte informático para los procesos básicos de
la organización: sistemas de información para la
gestión.
7
1. Introducción a la Minería de datos (DM)
Almacenes de datos (AD) (data warehouse)
motivación
Disponer de Sistemas de
Información de apoyo a la
toma de decisiones*
8
1. Introducción a la Minería de datos (DM)
SAD gestor
del AD
datos
Datos Op. 2 agregados
datos de Herramientas
de OLAP
detalle AD
gestor
del AD
área de
Datos Op. 3
almacenamiento
intermedio
Herramientas
Arquitectura de un sistema de Data Mining
9
1. Introducción a la Minería de datos (DM)
- visión relacional de los datos
- ejecución de consultas SQL sobre el esquema relacional
Herramientas - preparación de los resultados de la consulta: informe
de consultas
e informes clasificación y agrupación de filas
cálculo de totales por grupos
adición de datos calculados
DW
Herramientas
de OLAP
Herramientas
de Data Mining
10
1. Introducción a la Minería de datos (DM)
Herramientas
de consultas - visión multidimensional de los datos
e informes
- ejecución de consultas sobre el esquema multidimensional
- navegación sobre las consultas: DRILL DOWN, ROLL UP
DW - facilidades para (dinámicamente):
Herramientas aplicar filtros a los datos seleccionados
de OLAP
calcular funciones estadísticas (totales, porcentajes, ...)
resumir (agregar) o refinar (disgregar) los datos seleccionados
algunas funciones adicionales (rango, ...)
Herramientas
de Data Mining
consultas (informes) muy
dinámicos
11
1. Introducción a la Minería de datos (DM)
Presentación (mas o menos sofisticada)
de los datos almacenados
Herramientas
de consultas
e informes
exploración de los datos
12
1. Introducción a la Minería de datos (DM)
Herramientas
de consultas
e informes
datos conocimiento
13
1. Introducción a la Minería de datos (DM)
En el contexto de un Servicio Público de Salud:
DW
- Número de casos de gripe previsibles para los
próximos años.
- Perfiles de pacientes sensibles a la gripe
Herramientas (grupos de riesgo).
de Data Mining
- Relación de la gripe con otras enfermedades.
14
1. Introducción a la Minería de datos (DM)
Herramientas
de consultas
e informes
información extensional
(datos)
Herramientas
de OLAP
DW
información intensional
Herramientas (conocimiento)
de Data Mining
15
1. Introducción a la Minería de datos (DM)
Herramientas
de consultas El analista parte de una pregunta o
e informes hipótesis, explora los datos y valida
o rechaza su hipótesis hasta
construir su modelo de los datos.
Herramientas (proceso deductivo)
de OLAP
DW
16
1. Introducción a la Minería de datos (DM)
Herramientas
de consultas
e informes
Herramientas
de OLAP
DW
Proceso inductivo:
Razonamiento hipotético de casos
particulares (ejemplos) a casos
Herramientas
de Data Mining
generales (reglas)
17
1. Introducción a la Minería de datos (DM)
Minería de datos [Witten & Frank 2000]: proceso de
extracción de conocimiento válido, útil, comprensible, y
desconocido, a partir de datos almacenados.
18
1. Introducción a la Minería de datos (DM)
19
1. Introducción a la Minería de datos (DM)
Ejemplo1: análisis de riesgo en préstamos bancarios.
20
1. Introducción a la Minería de datos (DM)
Ejemplo1: análisis de riesgo en préstamos bancarios.
Para nuestro
estudio, existen dos
clases de cliente: los
Las reglas generadas en el proceso de DM, deben que devuelven los
préstamos y los que
predecir la clase de un cliente (variable objetivo) a no los devuelven.
partir de sus características (variables predictivas).
21
1. Introducción a la Minería de datos (DM)
Ejemplo1: análisis de riesgo en préstamos bancarios.
ID D-crédito C-crédito Salario Casa Cuentas ... Devuelto-
(años) (euros) (euros) propia morosas préstamo
101 15 60.000 2.200 sí 2 no
102 2 30.000 3.500 sí 0 sí
103 9 9.000 1.700 sí 1 no
104 15 18.000 1.900 no 0 sí
105 10 24.000 2.100 no 0 no
... ... ... ... ... ... ...
Regla 1:
Si cuentas-morosas > 0 entonces devuelve-préstamo = no
Regla 2:
Si cuentas-morosas = 0 Y ( salario>2.500 O D-credito>10)
entonces devuelve-préstamo = sí
...
22
1. Introducción a la Minería de datos (DM)
23
1. Introducción a la Minería de datos (DM)
Ejemplo2: análisis de la cesta de la compra.
ID Huevos Aceite Pañales Vino Leche Mantequilla Salmón Lechugas ...
1 sí no no sí no sí sí sí
2 no sí no no sí no no sí
3 no no sí no sí no no no
4 no sí sí no sí no no no
5 sí sí no no no sí no sí
6 sí no no sí sí sí sí no
7 no no no no no no no no
8 sí sí sí sí sí sí sí no
...
24
1. Introducción a la Minería de datos (DM)
Ejemplo2: análisis de la cesta de la compra.
ID Huevos Aceite Pañales Vino Leche Mantequilla Salmón Lechugas ...
1 sí no no sí no sí sí sí
2 no sí no no sí no no sí
3 no no sí no sí no no no
4 no sí sí no sí no no no
5 sí sí no no no sí no sí
6 sí no no sí sí sí sí no
7 no no no no no no no no
8 sí sí sí sí sí sí sí no
...
25
1. Introducción a la Minería de datos (DM)
26
1. Introducción a la Minería de datos (DM)
Ejemplo3: previsión de ventas.
27
1. Introducción a la Minería de datos (DM)
Ejemplo3: previsión de ventas.
ID Descripción mes-12 ... ... mes-4 mes-3 mes-2 mes-1
1 televisor 20 52 14 139 74
2 video 11 ... ... 43 32 26 59
3 MP3 50 ... ... 61 14 5 28
4 frigorífico 3 ... ... 21 27 1 49
5 microondas 14 ... ... 27 2 25 12
6 ... ... ... ... ... ... ... ...
ventas
producto 5
mes
28
1. Introducción a la Minería de datos (DM)
29
1. Introducción a la Minería de datos (DM)
Ejemplo4: definir grupos diferenciados de empleados.
ID Sueldo Casado Coche Hijos Alq/Prop Sindic. Bajas/Año Antigüedad Sexo
1 10000 Sí No 0 Alquiler No 7 15 H
2 20000 No Sí 1 Alquiler Sí 3 3 M
3 15000 Sí Sí 2 Propietario Sí 5 10 H
4 30000 Sí Sí 1 Alquiler No 15 7 M
5 10000 Sí Sí 0 Propietario Sí 1 6 H
6 40000 No Sí 0 Alquiler Sí 3 16 M
7 25000 No No 0 Alquiler Sí 0 8 H
8 20000 No Sí 0 Propietario Sí 2 6 M
9 20000 Sí Sí 3 Propietario No 7 5 H
10 30000 Sí Sí 2 Propietario No 1 20 H
11 50000 No No 0 Alquiler No 2 12 M
12 8000 Sí Sí 2 Propietario No 3 1 H
13 20000 No No 0 Alquiler No 27 5 M
14 10000 No Sí 0 Alquiler Sí 0 7 H
15 8000 No Sí 0 Alquiler No 3 2 H
30
1. Introducción a la Minería de datos (DM)
Ejemplo4: definir grupos diferenciados de empleados.
ID Sueldo Casado Coche Hijos Alq/Prop Sindic. Bajas/Año Antigüedad Sexo
1 10000 Sí No 0 Alquiler No 7 15 H
2 20000 No Sí 1 Alquiler Sí 3 3 M
3 15000 Sí Sí 2 Prop Sí 5 10 H
4 30000 Sí Sí 1 Alquiler No 15 7 M
5 10000 Sí Sí 0 Prop Sí 1 6 H
6 40000 No Sí 0 Alquiler Sí 3 16 M
7 25000 No No 0 Alquiler Sí 0 8 H
8 20000 No Sí 0 Prop Sí 2 6 M
9 20000 Sí Sí 3 Prop No 7 5 H
10 30000 Sí Sí 2 Prop No 1 20 H
A11partir
50000de No No
estos datos, 0las técnicas
Alquiler deNo DM podrían
2 12
generar un M
12 8000
modelo de Sí Sí
los datos, 2 Prop
consistente No
en un 3
conjunto 1
de grupos de H
13 20000 No No 0 Alquiler No 27 5 M
empleados
14 10000 No con características
Sí 0 similares.
Alquiler Sí Este 0 modelo7 proporcionaría
H
una descripción
15 8000 No "mas
Sí significativa"
0 Alquiler deNolos datos
3 disponibles.
2 H
31
1. Introducción a la Minería de datos (DM)
Ejemplo4: definir grupos diferenciados de empleados.
Grupo 1: 5 ejemplos Grupo 2: 4 ejemplos Grupo 3: 6 ejemplos
Sueldo : 22600 Sueldo : 22500 Sueldo : 18833
Casado : No -> 0.8 Casado : No -> 1.0 Casado : Sí -> 1.0
Sí -> 0.2 Coche : Sí -> 1.0 Coche : Sí -> 1.0
Coche : No -> 0.8 Hijos : 0 Hijos : 2
Sí -> 0.2 Alq/Prop : Alquiler -> 0.75 Alq/Prop : Alquiler -> 0.17
Hijos : 0 Prop -> 0.25 Prop -> 0.83
Alq/Prop : Alquiler -> 1.0 Sindic. : Sí -> 1.0 Sindic. : No -> 0.67
Sindic. : No -> 0.8 Bajas/Año : 2 Sí -> 0.33
Sí -> 0.2 Antigüedad : 8 Bajas/Año : 5
Bajas/Año : 8 Sexo : H -> 0.25 Antigüedad : 8
Antigüedad : 8 M -> 0.75 Sexo : H -> 0.83
Sexo : H -> 0.6 M -> 0.17
M -> 0.4
32
1. Introducción a la Minería de datos (DM)
Factores:
Salud: salud del paciente (capacidad para acudir al centro). (1-10)
Necesidad: convicción del paciente de que la visita es importante. (1-10)
Transporte: disponibilidad de transporte para trasladarse al centro. (1-10)
Niños: disponibilidad de dejar a los niños. (1-10)
Laboral: posibilidad de darse de baja laboral. (1-10)
Satisfacción: satisfacción del paciente con su médico. (1-10)
Cita: facilidad del paciente para concertar una cita. (1-10)
Asistencia: indica si el paciente se ha pasado por el Centro de Salud durante
el último año (0: se ha pasado, 1: no se ha pasado).
33
1. Introducción a la Minería de datos (DM)
Ejemplo5: análisis de visitas.
ID Salud Necesidad Transporte Niños Laboral Satisf. Cita Asistencia
1 4 5 1 10 10 8 1
2 4 8 1 1 6 2 0
3 6 10 1 8 1 6 8 1
34
1. Introducción a la Minería de datos (DM)
35
1. Introducción a la Minería de datos (DM)
36
1. Introducción a la Minería de datos (DM)
•bases de datos.
37
1. Introducción a la Minería de datos (DM)
38
1. Introducción a la Minería de datos (DM)
39
1. Introducción a la Minería de datos (DM)
40
1. Introducción a la Minería de datos (DM)
Áreas de Aplicación
41
1. Introducción a la Minería de datos (DM)
Áreas de Aplicación
• Seguros:
− identificación de clientes potencialmente caros.
− identificación de clientes que pueden contratar nuevas pólizas.
− identificación de clientes con comportamiento fraudulento...
• Medicina:
− diagnóstico de enfermedades.
− grupos de riesgo para distintas patologías.
− recomendación priorizada de fármacos.
− gestión de servicios sanitarios, ...
42
1. Introducción a la Minería de datos (DM)
Áreas de Aplicación
• Otros sectores:
− compañías de servicios: telecomunicaciones, agua, gas, ....
− correo electrónico, agendas personales.
− turismo
− tráfico
− uso de web
− ...
43
Minería de Datos (Data Mining)
44
2. El proceso de KDD
KDD (Knowledge Discovery in Databases)
El proceso de KDD (extracción de conocimiento en bases de
datos) es el proceso global que permite la extracción de
conocimiento a partir de datos almacenados.
Sistemas de
Información
Preparación de
los Datos
Minería de Datos
KDD
Patrones
Evaluación /
Interpretación /
Visualización
Conocimiento
45
Fuentes de datos
Extracción
ETL Limpieza
Transformación
2. El proceso de KDD
Data
Warehouse
Selección
Preparación Limpieza
de los datos
Transformación
Vista
minable
Minería de
datos
Modelos
de datos
Evaluación
Conocimiento Decisiones
Difusión y
uso
46
Fuentes de datos
Extracción
ETL Limpieza
Transformación
2. El proceso de KDD
Data
Warehouse 1
Selección
Preparación Limpieza
de los datos
Transformación
Vista
minable
2
Minería de
datos
Modelos
de datos
3
Evaluación
Conocimiento Decisiones
Difusión y
uso 4
47
2. El proceso de KDD
Fase de preparación de los datos.
48
2. El proceso de KDD
Fase de preparación de los datos.
49
2. El proceso de KDD
Fase de preparación de los datos.
Fuentes de datos Fuentes de datos
Extracción
ETL Limpieza
Extracción
Transformación
Preparación
Limpieza
Data de los datos Transformación
Warehouse Selección
Selección
Preparación
Limpieza
de los datos
Transformación
Vista Vista
minable minable
50
2. El proceso de KDD
Fase de Minería de Datos.
Vista
minable
Minería de
datos
Modelos
de datos
Descripción de los
Minería de datos: extracción de Modelo de patrones o relaciones
conocimiento a partir de datos los datos existentes en los datos.
almacenados.
51
2. El proceso de KDD Vista
minable
Fase de Minería de Datos.
Minería de
datos
Modelos
de datos
52
2. El proceso de KDD Vista
minable
Fase de Minería de Datos.
Minería de
datos
Modelos
de datos
53
2. El proceso de KDD Vista
minable
Fase de Minería de Datos.
Minería de
datos
Modelos
de datos
Tarea de Tipo de
DM Problema
conocimiento
54
2. El proceso de KDD Vista
minable
Fase de Minería de Datos.
Minería de
datos
Modelos
Predictivas de datos
Identificación de patrones
en los datos que los Ejemplos: 2, 4 y 5
explican o resumen.
55
2. El proceso de KDD Modelos
de datos
Conocimiento
56
2. El proceso de KDD Modelos
de datos
Conocimiento
57
2. El proceso de KDD
Ejemplo2: análisis de la cesta de la compra.
ID Huevos Aceite Pañales Vino Leche Mantequilla Salmón Lechugas ...
1 sí no no sí no sí sí sí
2 no sí no no sí no no sí
3 no no sí no sí no no no
4 no sí sí no sí no no no
5 sí sí no no no sí no sí
6 sí no no sí sí sí sí no
7 no no no no no no no no
8 sí sí sí sí sí sí sí no
...
58
2. El proceso de KDD
Ejemplo2: análisis de la cesta de la compra.
ID Huevos Aceite Pañales Vino Leche Mantequilla Salmón Lechugas ...
1 sí no no sí no sí sí sí
2 no sí no no sí no no sí
3 no no sí no sí no no no
4 no sí sí no sí no no no
5 sí sí no no no sí no sí
6 sí no no sí sí sí sí no
7 no no no no no no no no
8 sí sí sí sí sí sí sí no
...
59
2. El proceso de KDD
Ejemplo2: análisis de la cesta de la compra.
60
2. El proceso de KDD
Ejemplo2: análisis de la cesta de la compra.
Algunas asociaciones que se observan en los datos son:
"El 100% de las veces que se compran pañales también se compra leche"
"El 50% de las veces que se compran huevos también se compra aceite"
"El 33% de las veces que se compran vino y salmón también se compran
lechugas"
61
2. El proceso de KDD
Difusión y
Conocimiento
Fase de difusión y uso. uso Decisiones
62
Minería de Datos (Data Mining)
63
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos.
Minería de
datos
Modelos
de datos
Tarea de Tipo de
DM Problema
conocimiento
64
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos.
Minería de
datos
Modelos
Predictivas de datos
Identificación de patrones
en los datos que los Ejemplos: 2, 4 y 5
explican o resumen.
65
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos.
Minería de
datos
Modelos
Predictivas Clasificación de datos
Tareas de DM
Regresión
Agrupamiento
Descriptivas
(clustering)
Asociación
Correlación
66
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos.
Minería de
datos
Modelos
de datos
Dominio de ejemplos: D
tipo_ejemplo = {A1:D1, A2:D2, ..., An:Dn}
ejemplo e = {A1:v1, A2:v2, ..., An:vn} / viDi
e = <v1, v2, ..., vn> / viDi
67
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos.
Minería de
datos
Modelos
Predictivas Clasificación de datos
Tareas de DM
Regresión
Agrupamiento
Descriptivas
(clustering)
Asociación
Correlación
68
3. Técnicas de Minería de Datos
Tareas de Minería de Datos.
Clasificación
Clasificación suave
Predictivas Clasificación
Estimación de probabilidad de clasificación
Categorización
Tareas de DM
Regresión
Agrupamiento
Descriptivas
(clustering)
Asociación
Correlación
69
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos. Minería de
datos
Tareas predictivas.
Modelos
de datos
La clasificación:
A cada ejemplo del tipo de objeto a clasificar (registro de la base de datos)
se le asigna una clase, representada por el valor de un atributo (atributo de
clase). El dominio del atributo de clase es discreto, cada valor representa
una clase de objeto.
Los restantes atributos que sean significativos para determinar la clase,
son utilizadas por las técnicas de clasificación para generar funciones
(reglas) que permiten determinar la clase de un ejemplo a partir de los
valores de sus atributos significativos.
El objetivo de la tarea es poder predecir la clase de nuevos ejemplos a
partir del valor de sus atributos significativos, utilizando las reglas generadas.
70
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos. Minería de
datos
Tareas predictivas.
Modelos
de datos
La clasificación:
Entrada:
- tipo_ejemplo = {A1:D1, A2:D2, ..., An:Dn}
- D = {e: <v1, v2, ..., vn> / viDi}: dominio de ejemplos
- E D: conjunto de ejemplos (muestra)
- S = {c1, c2, ..., cm}: m clases,
- {<e, s>: eE, sS}: conjunto de ejemplos etiquetado
Salida:
: E S: función clasificador
71
3. Técnicas de Minería de Datos
Tareas predictivas: la clasificación.
72
3. Técnicas de Minería de Datos
Ejemplo1: análisis de riesgo en préstamos bancarios.
ID D-crédito C-crédito Salario Casa Cuentas ... Devuelto-
(años) (euros) (euros) propia morosas préstamo
101 15 60.000 2.200 sí 2 no
102 2 30.000 3.500 sí 0 sí
103 9 9.000 1.700 sí 1 no
104 15 18.000 1.900 no 0 sí
105 10 24.000 2.100 no 0 no
... ... ... ... ... ... ...
Regla 1:
Si cuentas-morosas > 0 entonces devuelve-préstamo = no
Regla 2:
Si cuentas-morosas = 0 Y ( salario>2.500 O D-credito>10)
entonces devuelve-préstamo = sí
... Modelo de datos
73
3. Técnicas de Minería de Datos
Ejemplo1: análisis de riesgo en préstamos bancarios.
ID D-crédito C-crédito Salario Casa Cuentas ... Devuelto-
(años) (euros) (euros) propia morosas crédito
101 15 60.000 2.200 sí 2 no
102 2 30.000 3.500 sí 0 sí
103 9 9.000 1.700 sí 1 no
104 15 18.000 1.900 no 0 sí
105 10 24.000 2.100 no 0 no
... ... ... ... ... ... ...
...
Modelo de datos
74
3. Técnicas de Minería de Datos
Ejemplo1: análisis de riesgo en préstamos bancarios.
Devuelve-préstamo = SÍ
75
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos.
Minería de
datos
Tareas predictivas.
Modelos
La clasificación suave: de datos
Entrada:
- D = {e: <v1, v2, ..., vn> / viDi}: dominio de ejemplos
- E D: conjunto de ejemplos (muestra)
- S = {c1, c2, ..., cm}: m clases,
- {<e, s>: eE, sS}: conjunto de ejemplos etiquetado
Salida:
: E S: función clasificador
: E R: función de certeza (grado de certeza de la predicción hecha
por la función )
76
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos.
Minería de
datos
Tareas predictivas.
Modelos
de datos
La estimación de probabilidad de clasificación:
Entrada:
- D = {e: <v1, v2, ..., vn> / viDi}: dominio de ejemplos
- E D: conjunto de ejemplos (muestra)
- S = {c1, c2, ..., cm}: m clases,
- {<e, s>: eE, sS}: conjunto de ejemplos etiquetado
Salida:
i: E R (i: 1..m): funciones de certeza (grado de certeza de que un
ejemplo sea de la clase i).
77
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos.
Minería de
datos
Tareas predictivas.
Modelos
de datos
La categorización:
Entrada:
- D = {e: <v1, v2, ..., vn> / viDi}: dominio de ejemplos
- E D: conjunto de ejemplos (muestra)
- S = {c1, c2, ..., cm}: m clases,
- {<e, s>: eE, sS}: conjunto de ejemplos etiquetado
Salida:
E × S: correspondencia de clasificación
78
3. Técnicas de Minería de Datos
Tareas de Minería de Datos.
Predictivas Clasificación
Tareas de DM
Regresión
Agrupamiento
Descriptivas
(clustering)
Asociación
Correlación
79
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos.
Minería de
datos
Tareas predictivas.
Modelos
de datos
La regresión:
A partir de los datos de un conjunto de ejemplos, se busca una función real
entre un atributo (atributo objetivo) y un conjunto de atributos significativos del
tipo de objeto.
Los dominios de los atributos deben ser numéricos.
El objetivo de la tarea es poder predecir el valor del atributo objetivo de
nuevos ejemplos a partir del valor de sus atributos significativos, utilizando la
función generada.
Nota: Es un caso particular de la tarea de clasificación, cuando el dominio de salida de la función es
numérico.
80
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos.
Minería de
datos
Tareas predictivas.
Modelos
La regresión: de datos
Entrada:
81
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos. Minería de
datos
Tareas predictivas.
Modelos
de datos
y w0 w1 x1... wn xn
Una manera fácil (si es lineal simple, es decir con dos dimensiones x e y):
w1
n xy x y
w0
y x x xy
2
2
n x x
2
n x x
2 2
82
3. Técnicas de Minería de Datos
Tareas predictivas: la regresión.
83
3. Técnicas de Minería de Datos
Tareas predictivas: la regresión.
ventas
producto 5
mes
84
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos. Minería de
datos
Modelos
Predictivas Clasificación de datos
Tareas de DM
Regresión
Agrupamiento
Descriptivas
(clustering)
Asociación
Correlación
85
3. Técnicas de Minería de Datos
Tareas de Minería de Datos.
Predictivas Clasificación
Tareas de DM
Regresión
Agrupamiento
Descriptivas
(clustering)
Asociación
Correlación
86
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos. Minería de
datos
Tareas descriptivas.
Modelos
de datos
87
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos. Minería de
datos
Tareas descriptivas.
Modelos
de datos
El agrupamiento:
Entrada:
- D = {e: <v1, v2, ..., vn> / viDi}: dominio de ejemplos
- E D: conjunto de ejemplos (muestra)
Salida:
- S = {c1, c2, ..., cm}: m grupos,
- : E S: función de agrupación.
88
3. Técnicas de Minería de Datos
89
3. Técnicas de Minería de Datos
Tareas descriptivas: el agrupamiento.
Ejemplo4: definir grupos diferenciados de empleados.
ID Sueldo Casado Coche Hijos Alq/Prop Sindic. Bajas/Año Antigüedad Sexo
1 10000 Sí No 0 Alquiler No 7 15 H
2 20000 No Sí 1 Alquiler Sí 3 3 M
3 15000 Sí Sí 2 Propietario Sí 5 10 H
4 30000 Sí Sí 1 Alquiler No 15 7 M
5 10000 Sí Sí 0 Propietario Sí 1 6 H
6 40000 No Sí 0 Alquiler Sí 3 16 M
7 25000 No No 0 Alquiler Sí 0 8 H
8 20000 No Sí 0 Propietario Sí 2 6 M
9 20000 Sí Sí 3 Propietario No 7 5 H
10 30000 Sí Sí 2 Propietario No 1 20 H
11 50000 No No 0 Alquiler No 2 12 M
12 8000 Sí Sí 2 Propietario No 3 1 H
13 20000 No No 0 Alquiler No 27 5 M
14 10000 No Sí 0 Alquiler Sí 0 7 H
15 8000 No Sí 0 Alquiler No 3 2 H
90
3. Técnicas de Minería de Datos
Tareas descriptivas: el agrupamiento.
Ejemplo4: definir grupos diferenciados de empleados.
Grupo 1: 5 ejemplos Grupo 2: 4 ejemplos Grupo 3: 6 ejemplos
Sueldo : 22600 Sueldo : 22500 Sueldo : 18833
Casado : No -> 0.8 Casado : No -> 1.0 Casado : Sí -> 1.0
Sí -> 0.2 Coche : Sí -> 1.0 Coche : Sí -> 1.0
Coche : No -> 0.8 Hijos : 0 Hijos : 2
Sí -> 0.2 Alq/Prop : Alquiler -> 0.75 Alq/Prop : Alquiler -> 0.17
Hijos : 0 Prop -> 0.25 Prop -> 0.83
Alq/Prop : Alquiler -> 1.0 Sindic. : Sí -> 1.0 Sindic. : No -> 0.67
Sindic. : No -> 0.8 Bajas/Año : 2 Sí -> 0.33
Sí -> 0.2 Antigüedad : 8 Bajas/Año : 5
Bajas/Año : 8 Sexo : H -> 0.25 Antigüedad : 8
Antigüedad : 8 M -> 0.75 Sexo : H -> 0.83
Sexo : H -> 0.6 M -> 0.17
M -> 0.4
91
3. Técnicas de Minería de Datos
Tareas de Minería de Datos.
Predictivas Clasificación
Tareas de DM
Regresión
Agrupamiento
Descriptivas
(clustering) Asociación
Patrones secuenciales
Correlación
92
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos.
Minería de
datos
Tareas descriptivas.
Modelos
de datos
La asociación:
Se buscan relaciones no explícitas entre los valores de atributos
discretos; ejemplo: "si el atributo X toma el valor v1 entonces el atributo
Y toma el valor v2"
La existencia de una asociación entre atributos no siempre implica la
existencia de una relación causa-efecto.
El objetivo de la tarea es poder describir de forma concisa relaciones
existentes entre los valores de los atributos del conjunto de ejemplos.
93
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos.
Minería de
datos
Tareas descriptivas.
Modelos
La asociación: de datos
Entrada:
95
3. Técnicas de Minería de Datos
Tareas descriptivas: la asociación.
Ejemplo2: análisis de la cesta de la compra.
ID Huevos Aceite Pañales Vino Leche Mantequilla Salmón Lechugas ...
1 sí no no sí no sí sí sí
2 no sí no no sí no no sí
3 no no sí no sí no no no
4 no sí sí no sí no no no
5 sí sí no no no sí no sí
6 sí no no sí sí sí sí no
7 no no no no no no no no
8 sí sí sí sí sí sí sí no
...
96
3. Técnicas de Minería de Datos
Tareas descriptivas: la asociación.
Ejemplo2: análisis de la cesta de la compra.
ID Huevos Aceite Pañales Vino Leche Mantequilla Salmón Lechugas ...
1 sí no no sí no sí sí sí
2 no sí no no sí no no sí
3 no no sí no sí no no no
4 no sí sí no sí no no no
5 sí sí no no no sí no sí
6 sí no no sí sí sí sí no
7 no no no no no no no no
8 sí sí sí sí sí sí sí no
...
R1 : pañales='si' leche='si'
R2 : huevos='si' aceite ='si'
R3 : vino='si' salmón='si' lechugas ='si'
97
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos. Minería de
datos
Modelos
Clasificación de reglas de asociación. de datos
98
3. Técnicas de Minería de Datos Vista
minable
99
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos.
Minería de
datos
Tareas descriptivas.
Modelos
La asociación: dependencias funcionales. de datos
Entrada:
- tipo_ejemplo = {A1:D1, A2:D2, ..., An:Dn} / Di es discreto
- D = {e: <v1, v2, ..., vn> / vi Di}: dominio de ejemplos
- E D: conjunto de ejemplos (muestra)
Salida:
- Ri: Ai Aj ... Ak Ar
Para cualquier conjunto de valores (x, y, ..., z, w), si existe un ejemplo para
el que Ai=x Aj=y ... Ak = z Ar=w entonces para cualquier otro
ejemplo para el que Ai=x Aj=y ... Ak = z se cumple que Ar=w.
100
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos.
Minería de
datos
Tareas descriptivas.
Modelos
de datos
101
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos.
Minería de
datos
Tareas descriptivas.
Modelos
Los patrones secuenciales: de datos
Entrada:
- tipo_ejemplo = {A1:D1, A2:D2, ..., An:Dn} / Di es discreto
103
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos. Minería
de datos
Tareas descriptivas: patrones secuenciales
Modelos
de datos
104
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos. Minería
de datos
Tareas descriptivas: patrones secuenciales
Modelos
de datos
105
3. Técnicas de Minería de Datos
Tareas de Minería de Datos.
Predictivas Clasificación
Tareas de DM
Regresión
Agrupamiento
Descriptivas
(clustering)
Asociación
Correlación
106
3. Técnicas de Minería de Datos Vista
minable
La correlación
Se busca el grado de similitud de los valores de dos atributos numéricos.
El grado de similitud se mide por el coeficiente de correlación r (r[-1 ... 1]):
si r es positivo los atributos tienen un comportamiento similar (ambos crecen o
ambos decrecen al mismo tiempo), si r es negativo cuando un atributo crece el
otro decrece, si r es cero no existe relación entre ambos atributos.
El objetivo de la tarea es poder describir de forma concisa relaciones
existentes entre atributos del conjunto de ejemplos.
107
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos. Minería de
datos
Tareas predictivas.
Modelos
La correlación: de datos
Entrada:
108
3. Técnicas de Minería de Datos
Tareas descriptivas: la correlación.
Factores:
Salud: salud del paciente. (1-10)
Necesidad: convicción del paciente de que la visita es importante. (1-10)
Transporte: disponibilidad de transporte para trasladarse al centro. (1-10)
Niños: disponibilidad de dejar a los niños. (1-10)
Laboral: posibilidad de darse de baja laboral. (1-10)
Satisfacción: satisfacción del paciente con su médico. (1-10)
Cita: facilidad del paciente para concertar una cita. (1-10)
Asistencia: indica si el paciente se ha pasado por el Centro de Salud durante el último
año (0: se ha pasado, 1: no se ha pasado).
109
3. Técnicas de Minería de Datos
Tareas descriptivas: la correlación.
Ejemplo5: análisis de visitas.
El cuadro de correlaciones obtenido es:
Salud Necesidad Transporte Niños Laboral Satisfacción Cita Asistencia
Salud 1
Necesidad -0.7378 1
Transporte 0.3116 -0.1041 1
Niños 0.3116 -0.1041 1 1
Laboral 0.2771 0.0602 0.6228 0.6228 1
Satisfacción 0.22008 -0.1337 0.6538 0.6538 0.6257 1
Cita 0.3887 -0.0334 0.6504 0.6504 0.6588 0.8964 1
Asistencia 0.3955 -0.5416 -0.5031 -0.5031 -0.7249 -0.3988 -0.3278 1
110
3. Técnicas de Minería de Datos Vista
minable
Modelos
de datos
Tarea de Tipo de
DM Problema
conocimiento
111
3. Técnicas de Minería de Datos
Fase de Minería de Datos.
Técnicas de Minería de Datos.
Clasificación:
-Ténicas estadísticas -Técnicas bayesianas
113
3. Técnicas de Minería de Datos Vista
minable
Fase de Minería de Datos. Minería de
datos
Técnicas de Minería de Datos.
Modelos
de datos
114
3. Técnicas de Minería de Datos Vista
minable
Fase de Minería de Datos. Minería de
datos
Técnicas de Minería de Datos.
Modelos
de datos
115
3. Técnicas de Minería de Datos Vista
minable
Fase de Minería de Datos. Minería de
datos
Técnicas de Minería de Datos.
Modelos
de datos
116
3. Técnicas de Minería de Datos Vista
minable
Fase de Minería de Datos. Minería de
datos
Técnicas de Minería de Datos.
Modelos
de datos
117
Predictivas Descriptivas
Redes de Kohonen
Regresión lineal y
logarítmica
Regresión logística
K-means
Apriori
Naive Bayes
118
Predictivas Descriptivas
Análisis factorial
Twostep, Cobwed
Algoritmos genéticos y
evolutivos
Máquinas de vectores
soporte
CN2 reglas
Análisis discriminante
multivariante
119
3. Técnicas de Minería de Datos
Tareas de DM Técnicas de DM
k-NN (Nearest Neighbor).
k-means (Competitive learning).
Perceptron Learning.
Multilayer ANN methods (e.g. backpropagation).
Predictivas
Agrupamiento
(clustering)
Asociación
Correlación
120
3. Técnicas de Minería de Datos
Tareas de DM Técnicas de DM
Predictivas
Clasificación
Regresión
k-NN (Nearest Neighbor).
k-means (Competitive learning).
Redes neuronales de Kohonen
Descriptivas
Agrupamiento
(clustering) EM (Estimated Means) (Dempster et al. 1977).
Cobweb (Fisher 1987).
AUTOCLASS
Asociación
...
Correlación
121
3. Técnicas de Minería de Datos
Tareas de DM Técnicas de DM
Predictivas
Clasificación
Agrupamiento
(clustering)
122
3. Técnicas de Minería de Datos
Tareas de DM Técnicas de DM
Predictivas
Clasificación
Agrupamiento
(clustering)
123
Técnicas de búsqueda de asociaciones:
124
Técnicas de búsqueda de asociaciones: Técnica APRIORI
125
Técnicas de búsqueda de asociaciones: Técnica APRIORI
FASE A:
Dado un soporte deseado s:
Paso 1. i=1 (tamaño de los conjuntos)
Paso 2. Generar un conjunto unitario para cada atributo, {Ak}: k:1..n.
Construir el conjunto Si = {{Ak}: k:1..n }.
Paso 3. Comprobar el soporte de cada conjuntos en Si. Eliminar
aquellos con soporte < s.
Paso 4. Combinar los conjuntos en Si para crear conjuntos de
tamaño i+1 para formar Si+1.
Paso 5. Si Si no es vacío entonces i:= i+1. Ir a Paso 3.
Paso 6. Si Si es vacío entonces devolver Sfinal=S2 S3 ... Si
126
Técnicas de búsqueda de asociaciones: Técnica APRIORI
FASE B:
BÚSQUEDA DE DEPENDENCIAS (REGLAS). Se hacen
particiones binarias y disjuntas (reglas) de los conjuntos de
Sfinal, y se calcula la confianza de cada partición (regla). Se
seleccionan aquellas reglas que tienen una confianza >= c
(confianza deseada).
127
atributos
FASE A: Fila 1 2 3 4 5
ejemplos
1 x x x soporte = 2
2 x x x
3 x x x x confianza = 0.75
4 x x
muestra
S1= { {1}, {2}, {3}, {4}, {5} } S'1= { {1}:2, {2}:3, {3}:3, {4}:1, {5}:3 }
S2= { {1,2}, {1,3}, {1,5}, {2,3}, {2,5}, {3,5} } S'2 = { {1,3}:2, {2,3}:2, {2,5}:3, {3,5}:2 }
S3= { {1,2,3}, {1,2,5}, {1,3,5}, {2,3,5} } S'3 = { {2,3,5}:2 }
128
3. Técnicas de Minería de Datos
Tareas de DM Técnicas de DM
Predictivas
Clasificación
Regresión
Minimal Spaning Tree
k-NN (Nearest Neighbor).
k-means (Competitive learning).
Descriptivas
Agrupamiento
(clustering) Redes neuronales de Kohonen
EM (Estimated Means) (Dempster et al. 1977).
Cobweb (Fisher 1987).
Asociación
AUTOCLASS
...
Correlación
129
3. Técnicas de Minería de Datos
Técnicas de agrupamiento: métodos jerárquicos.
Un método sencillo consiste en ir agrupando ejemplos según la distancia
entre ellos, e ir aumentando el límite de distancia para hacer nuevos
grupos. Esto genera agrupaciones a distintos niveles, de una manera
jerárquica.
Se denomina
Dendograma o
Hierarchical Tree Plot:
130
3. Técnicas de Minería de Datos
131
3. Técnicas de Minería de Datos
Algoritmo:
Paso 1. Dividir aleatoriamente la muestra en k conjuntos y calcular
la media (el punto medio) de cada conjunto.
Paso 2. Reasignar cada ejemplo al conjunto con el punto medio
más cercano (distancia mínima).
Paso 3. Calcular los puntos medios de los k conjuntos.
Paso 4. Repetir los pasos 2 y 3 hasta que los conjuntos no varíen.
132
3. Técnicas de Minería de Datos
Agrupamiento
(clustering)
Asociación
Correlación
134
3. Técnicas de Minería de Datos
Técnicas de clasificación: árboles de decisión.
135
3. Técnicas de Minería de Datos
Árboles de Decisión (ID3 (Quinlan), C4.5 (Quinlan), CART).
Algoritmo "Divide y Vencerás":
X>0.25
0 1 No Sí
0
Y>0.25
X>0.25 No Sí
X>0.75 X>0.66
No Sí No Sí
X>0.66
X>0.75 Y>0.6
No Sí
1 Y>0.6
Y>0.25
PARTICIÓN
CUADRICULAR.
136
3. Técnicas de Minería de Datos
Árboles de Decisión: Ejemplo de C4.5 con datos discretos:
137
3. Técnicas de Minería de Datos
Árboles de Decisión: Ejemplo de C4.5 con datos discretos:
Outlook?
Sunny Rain
Overcast
Humidity? YES Wind?
Reglas:
Outlook=Sunny AND Humidity=Normal PlayTenis=si
Outlook=Overcast PlayTenis=si
Outlook=Rain AND Wind=Weak PlayTenis=si
Other case PlayTenis='no'
138
3. Técnicas de Minería de Datos
Técnicas de clasificación: "vecinos más próximos".
k-NN (Nearest Neighbour):
Paso 1. Se miran los k ejemplos más cercanos (distancia mínima).
Paso 2. Si todos los ejemplos son de la misma clase, el nuevo
ejemplo se clasifica en esa clase.
Paso 3. Si los ejemplos no son de la misma clase, se calcula la
distancia media por clase y se asigna a la de menor distancia, o
bien se asigna a la clase con más elementos.
? Clasifica ? Clasifica
círculo cuadrado
139
3. Técnicas de Minería de Datos
Técnicas de clasificación: Naive Bayes
p(E|H)× p(H)
p(H|E)=
p(E)
donde:
- H es la hipótesis,
- E es el ejemplo,
- p(A|B) es la probabilidad del suceso A condicinada al suceso B
140
3. Técnicas de Minería de Datos
Técnicas de clasificación: Naive Bayes
141
3. Técnicas de Minería de Datos
Técnicas de clasificación: Naive Bayes
Edad Hijos Practica- Salario Buen-
Nuevo ejemplo E: deporte cliente
mayor no no medio ?
p(edad|'si'): 3/7
142
3. Técnicas de Minería de Datos
Técnicas de clasificación: Naive Bayes
Edad Hijos Practica- Salario Buen-
Nuevo ejemplo E: deporte cliente
mayor no no medio ?
p('si'): se calcula como el número de ejemplos en la muestra que tienen el valor buen-
cliente='si', dividido por el número de ejemplos en la muestra.
p('si'): 7/10
143
3. Técnicas de Minería de Datos
Técnicas de clasificación: Naive Bayes
Edad Hijos Practica- Salario Buen-
Nuevo ejemplo E: deporte cliente
mayor no no medio ?
144
Minería de Datos (Data Mining)
145
4. Evaluación de modelos Modelos
de datos
Evaluación
Conocimiento
146
4. Evaluación de modelos Modelos
de datos
Evaluación
Tareas Predictivas.
Conocimiento
147
Modelos
de datos
Conocimiento
148
4. Evaluación de modelos Modelos
de datos
Evaluación
Tareas Predictivas.
Conocimiento
149
4. Evaluación de modelos Modelos
de datos
Conocimiento
150
4. Evaluación de modelos Modelos
de datos
Conocimiento
La clasificación
Medida de la validez del modelo: precisión predictiva
X
Precisión =
Y
151
4. Evaluación de modelos Modelos
de datos
Conocimiento
La regresión
Medida de la validez del modelo: error cuadrático medio del valor
predicho por el modelo, respecto al valor real del ejemplo de prueba.
n
(yti - yi )2
1
Error =
n
i=1
152
4. Evaluación de modelos Modelos
de datos
Conocimiento
El agrupamiento
Medida de la validez del modelo: basadas en el concepto de distancia
153
4. Evaluación de modelos Modelos
de datos
Conocimiento
El agrupamiento
Medida de la validez del modelo: basadas en el concepto de distancia
154
4. Evaluación de modelos Modelos
de datos
Conocimiento
La asociación
Se mide la validez de cada una de las reglas de asociación generadas.
Medidas de la validez:
Cobertura (support): Nro. de ejemplos del conjunto de prueba a los
que la regla se aplica (antecedente cierto) y funciona
correctamente (consecuente cierto).
Confianza (confidence/accuracy): Proporción del nro. de ejemplos
del conjunto de prueba para los que la regla funciona
correctamente
155
4. Evaluación de modelos Modelos
de datos
Conocimiento
La asociación
Se mide la validez de cada una de las reglas de asociación generadas.
n: nro. de ejemplos
na: nro. de ejemplos a los que se aplica una regla (antecedente cierto)
nc: nro. ejemplos para los que la regla funciona correctamnete
(antecedente cierto y consecuente cierto)
Cobertura relativa = nc / n
Cobertura absoluta = nc
Confianza = nc / na
156
4. Evaluación de modelos Modelos
de datos
Conocimiento
La asociación
Se mide la validez de cada una de las reglas de asociación generadas.
Cobertura relativa = nc / n
Cobertura absoluta = nc
Confianza = nc / na
Valores deseables:
Cobertura absoluta: > 20, Cobertura relativa: 0.5 (50%)
Confianza: 0.95 (95%)
157
4. Evaluación de modelos
Tareas descriptivas: la asociación.
Ejemplo2: análisis de la cesta de la compra.
ID Huevos Aceite Pañales Vino Leche Mantequilla Salmón Lechugas ...
1 sí no no sí no sí sí sí
2 no sí no no sí no no sí
3 no no sí no sí no no no
4 no sí sí no sí no no no
5 sí sí no no no sí no sí
6 sí no no sí sí sí sí no
7 no no no no no no no no
8 sí sí sí sí sí sí sí no
...
158
4. Evaluación de modelos
Tareas descriptivas: la asociación.
Ejemplo2: análisis de la cesta de la compra.
ID Huevos Aceite Pañales Vino Leche Mantequilla Salmón Lechugas ...
1 sí no no sí no sí sí sí
2 no sí no no sí no no sí
3 no no sí no sí no no no
4 no sí sí no sí no no no
5 sí sí no no no sí no sí
6 sí no no sí sí sí sí no
7 no no no no no no no no
8 sí sí sí sí sí sí sí no
...
159
4. Evaluación de modelos
Tareas descriptivas: la asociación.
Ejemplo: .
DNI Renta Familiar Ciudad Profesión Edad Hijos Obeso Casado
11251545 5.000.000 Barcelona Ejecutivo 45 3 S S
30512526 1.000.000 Melilla Abogado 25 0 S N
22451616 3.000.000 León Ejecutivo 35 2 S S
25152516 2.000.000 Valencia Camarero 30 0 S S
23525251 1.500.000 Benidorm Animador 30 0 N N
Parque
Temático
Reglas de asociación:
R1: Casado Hijos > 0 (Confianza: 0.8, Soporte: 4 casos).
R2: Obeso Casado (Confianza: 0.8, Soporte: 4 casos)
R3: Hijos > 0 Casado (Confianza: 1, Soporte: 2 casos).
R4: Casado Obeso (Confianza: 1, Soporte: 3 casos)
160