Mineria de Datos y Data Warehouse

DATA MINING
Y
DATA WAREHOUSING
Abril-2008 1
Parte inicial
DATA MINING
Mladen W. Nadinic
2
Minería de Datos (Data Mining)
1. Introducción a la Minería de Datos (DM)

2. El proceso de KDD
3. Técnicas de Minería de Datos
4. Evaluación de modelos
3
Bibliografía
Berry M.J.A.; Linoff, G.S. “Mastering Data Mining”, Wiley, 2000.
Berthold, M.; Hand, D.J. (ed). “Intelligent Data Analysis. An Introduction” ( 2nd ed.),
Springer, 2002.
Dunham, M.H. “Data Mining. Introductory and Advanced Topics”, Prentice Hall,
2003.
Dzeroski, S.; Lavrac, N. “Relational Data Mining”, Springer, 2001.
Etzioni, O. “The World- Wide Web. Quagmire or Gold Mine” Communications of the
ACM, November 1996, Vol. 39, nº 11, 1996.
Fayyad, U.M.; Piatetskiy-Shapiro, G.; Smith, P.; Ramasasmy, U. “Advances in
Knowledge Discovery and Data Mining”, AAAI Press / MIT Press, 1996.
Fayyad, U.M.; Grinstein, G.; Wierse, A., “Information Visualization in Data Mining
and Knowledge Discovery”, Morgan Kaufmann, Harcourt Intl, 2001.
Han, J.; Kamber, M. “Data Mining: Concepts and Techniques”, Morgan Kaufmann,
2001.
Hernández, J. et al. “Introducción a la Minería de Datos”, Prentice-Hall, 2004.
4

5
1. Introducción a la Minería de datos (DM)
Situación actual de la tecnología de gestión de datos.
1970 evolución de la tecnología de gestión de datos 2000
- SGBD eficientes
- SGBD robustos
- lenguajes y herramientas de uso de alto nivel
Situación actual: uso extendido de los SGBD

 BD son el soporte del Sistema de Información de las
organizaciones
 BD son diseñadas para dar soporte (eficiente) a las funciones
básicas de la organización (ventas, producción, personal...)
SISTEMAS OPERACIONALES (OLTP On Line Transaction Processing)
 las organizaciones almacenan grandes volúmenes de datos con

información histórica
6
Una vez satisfecha la necesidad de tener un
soporte informático para los procesos básicos de
la organización: sistemas de información para la
gestión.
La organizaciones exigen nuevas prestaciones

de los sistemas de información: sistemas de
información para la toma de decisiones.
Tecnología de almacenes de datos
7
Almacenes de datos (AD) (data warehouse)
motivación
Disponer de Sistemas de
Información de apoyo a la
toma de decisiones*
Disponer de bases de datos que permitan extraer conocimiento

de la información histórica almacenada en la organización
objetivos
análisis de la previsiones de diseño de

organización evolución estrategias
* DSS: Decision Support Systems
8
SAD gestor
del AD
Datos Op. 1 Herramientas

de consultas
metadatos e informes
datos
gestor de agregados gestor de
carga consultas
datos
Datos Op. 2 agregados
datos de Herramientas
de OLAP
detalle AD
gestor
del AD
área de
Datos Op. 3
almacenamiento
intermedio
Herramientas
Arquitectura de un sistema de Data Mining
de Almacén de Datos copias
9
- visión relacional de los datos
- ejecución de consultas SQL sobre el esquema relacional
Herramientas - preparación de los resultados de la consulta: informe
de consultas
e informes  clasificación y agrupación de filas
 cálculo de totales por grupos
 adición de datos calculados
DW
Herramientas
de OLAP
consultas (informes) muy

estáticos
Herramientas
de Data Mining
10
Herramientas
de consultas - visión multidimensional de los datos
e informes
- ejecución de consultas sobre el esquema multidimensional
- navegación sobre las consultas: DRILL DOWN, ROLL UP
DW - facilidades para (dinámicamente):
Herramientas  aplicar filtros a los datos seleccionados
de OLAP
 calcular funciones estadísticas (totales, porcentajes, ...)
 resumir (agregar) o refinar (disgregar) los datos seleccionados
 algunas funciones adicionales (rango, ...)
Herramientas
de Data Mining
consultas (informes) muy
dinámicos
11
Presentación (mas o menos sofisticada)
de los datos almacenados
Herramientas
de consultas
e informes
exploración de los datos
DW Los datos por sí sólos tienen un valor relativo,

Herramientas lo que de verdad es interesante es el
de OLAP conocimiento que se puede inferir de ellos.
Estas herramientas no son capaces de extraer

conocimiento de los datos consultados:
Herramientas
patrones, tendencias, pautas, ..., que permitan
de Data Mining hacer previsiones y tomar decisiones.
12
Herramientas
de consultas
e informes
Las herramientas de minería de datos permiten

DW Herramientas extraer conocimiento a partir de los datos
de OLAP almacenados.
datos conocimiento
Herramientas patrones, pautas,

de Data Mining DW reglas, ...
13
En el contexto de un Servicio Público de Salud:
- Porcentaje de enfermos que han sido tratados

Herramientas
de consultas de gripe este año.
e informes
- Número de pacientes de gripe durante este año,
por franjas de edad.
- Crecimiento porcentual de casos de gripe en
Herramientas este año respecto al año anterior.
de OLAP
DW
- Número de casos de gripe previsibles para los
próximos años.
- Perfiles de pacientes sensibles a la gripe
Herramientas (grupos de riesgo).
de Data Mining
- Relación de la gripe con otras enfermedades.
14
Herramientas
de consultas
e informes
información extensional
(datos)
Herramientas
de OLAP
DW
información intensional
Herramientas (conocimiento)
de Data Mining
15
Herramientas
de consultas El analista parte de una pregunta o
e informes hipótesis, explora los datos y valida
o rechaza su hipótesis hasta
construir su modelo de los datos.
Herramientas (proceso deductivo)
de OLAP
DW
El sistema encuentra y sugiere

Herramientas
modelos de los datos.
de Data Mining
(proceso inductivo)
16
Herramientas
de consultas
e informes
Herramientas
de OLAP
DW
Proceso inductivo:
Razonamiento hipotético de casos
particulares (ejemplos) a casos
Herramientas
de Data Mining
generales (reglas)
17
Minería de datos [Witten & Frank 2000]: proceso de
extracción de conocimiento válido, útil, comprensible, y
desconocido, a partir de datos almacenados.
válido: el conocimiento obtenido debe ser preciso ("correcto")

para nuevos conjuntos de datos (no sólo para el conjunto utilizado
en su obtención).
útil: el conocimiento obtenido debe servir a la organización para
tomar decisiones que le reporten algún beneficio.
comprensible: el conocimiento obtenido debe ser fácil de
interpretar y usar.
novedoso: el conocimiento obtenido debe aportar a la
organización, información desconocida hasta ese momento.
18
Ejemplo1: análisis de riesgo en préstamos bancarios.

Un banco desea disponer de un modelo que le permita predecir qué
tipo de clientes podrían no devolver un préstamo solicitado. La
entidad dispone de información sobre préstamos anteriores, así como
datos personales de los titulares de esos préstamos.
ID D-crédito C-crédito Salario Casa Cuentas ... Devuelto-

(años) (euros) (euros) propia morosas préstamo
101 15 60.000 2.200 sí 2 no
102 2 30.000 3.500 sí 0 sí
103 9 9.000 1.700 sí 1 no
104 15 18.000 1.900 no 0 sí
105 10 24.000 2.100 no 0 no
... ... ... ... ... ... ...
19

101 15 60.000 2.200 sí 2 no
102 2 30.000 3.500 sí 0 sí
103 9 9.000 1.700 sí 1 no
104 15 18.000 1.900 no 0 sí
105 10 24.000 2.100 no 0 no
... ... ... ... ... ... ...
A partir de estos datos, las técnicas de DM podrían generar un

modelo de los datos, consistente en un conjunto de reglas, que
permitiesen predecir en el futuro, el posible comportamiento de un
cliente que solicitase un préstamo.
20

101 15 60.000 2.200 sí 2 no
102 2 30.000 3.500 sí 0 sí
103 9 9.000 1.700 sí 1 no
104 15 18.000 1.900 no 0 sí
105 10 24.000 2.100 no 0 no
... ... ... ... ... ... ...
Para nuestro
estudio, existen dos
clases de cliente: los
Las reglas generadas en el proceso de DM, deben que devuelven los
préstamos y los que
predecir la clase de un cliente (variable objetivo) a no los devuelven.
partir de sus características (variables predictivas).
21
101 15 60.000 2.200 sí 2 no
102 2 30.000 3.500 sí 0 sí
103 9 9.000 1.700 sí 1 no
104 15 18.000 1.900 no 0 sí
105 10 24.000 2.100 no 0 no
... ... ... ... ... ... ...
Regla 1:
Si cuentas-morosas > 0 entonces devuelve-préstamo = no
Regla 2:
Si cuentas-morosas = 0 Y ( salario>2.500 O D-credito>10)
entonces devuelve-préstamo = sí
...
22
Ejemplo2: análisis de la cesta de la compra.

Un supermercado desea obtener información sobre los hábitos de
compra de sus clientes, con el objetivo de mejorar la ubicación de los
productos en el local. La organización dispone de información
reciente sobre los productos adquiridos en las compras realizadas
por los clientes.
ID Huevos Aceite Pañales Vino Leche Mantequilla Salmón Lechugas ...
1 sí no no sí no sí sí sí
2 no sí no no sí no no sí
3 no no sí no sí no no no
4 no sí sí no sí no no no
5 sí sí no no no sí no sí
6 sí no no sí sí sí sí no
7 no no no no no no no no
8 sí sí sí sí sí sí sí no
...
23
...

modelo de los datos, consistente en un conjunto de reglas de
asociación entre los productos que con frecuencia son adquiridos
conjuntamente. Este modelo proporcionaría una descripción "mas
significativa" de los datos disponibles.
24
...
Algunas asociaciones que se observan en los datos son:

"El 100% de las veces que se compran pañales también se compra leche"
"El 50% de las veces que se compran huevos también se compra aceite"
"El 33% de las veces que se compran vino y salmón también se compran
lechugas"
25
Ejemplo3: previsión de ventas.

Una cadena de tiendas de electrodomésticos desea optimizar el
funcionamiento de su almacén, manteniendo un stock de cada
producto que sea suficiente para poder servir rápidamente los
pedidos de sus clientes. La organización dispone de información
sobre las ventas de cada producto en cada mes del último año.
ID Descripción mes-12 ... ... mes-4 mes-3 mes-2 mes-1

1 televisor 20 52 14 139 74
2 video 11 ... ... 43 32 26 59
3 MP3 50 ... ... 61 14 5 28
4 frigorífico 3 ... ... 21 27 1 49
5 microondas 14 ... ... 27 2 25 12
6 ... ... ... ... ... ... ... ...
26

1 televisor 20 52 14 139 74
2 video 11 ... ... 43 32 26 59
3 MP3 50 ... ... 61 14 5 28
4 frigorífico 3 ... ... 21 27 1 49
5 microondas 14 ... ... 27 2 25 12
6 ... ... ... ... ... ... ... ...

modelo de los datos, consistente en un conjunto de funciones, que
permitiesen predecir el número de unidades, de cada producto, que
serán vendidas el próximo mes en función de sus ventas en los
meses anteriores.
27
1 televisor 20 52 14 139 74
2 video 11 ... ... 43 32 26 59
3 MP3 50 ... ... 61 14 5 28
4 frigorífico 3 ... ... 21 27 1 49
5 microondas 14 ... ... 27 2 25 12
6 ... ... ... ... ... ... ... ...
ventas
producto 5
mes
28
Ejemplo4: definir grupos diferenciados de empleados.

El departamento de recursos humanos de una gran empresa, desea
categorizar a sus empleados en distintos grupos, con el objetivo de
establecer una trato personalizado con ellos y definir las políticas
sociales de la empresa. La organización dispone en sus bases de
datos de información sobre sus empleados.
29
ID Sueldo Casado Coche Hijos Alq/Prop Sindic. Bajas/Año Antigüedad Sexo
1 10000 Sí No 0 Alquiler No 7 15 H
2 20000 No Sí 1 Alquiler Sí 3 3 M
3 15000 Sí Sí 2 Propietario Sí 5 10 H
4 30000 Sí Sí 1 Alquiler No 15 7 M
7 25000 No No 0 Alquiler Sí 0 8 H
8 20000 No Sí 0 Propietario Sí 2 6 M
9 20000 Sí Sí 3 Propietario No 7 5 H
11 50000 No No 0 Alquiler No 2 12 M
14 10000 No Sí 0 Alquiler Sí 0 7 H
15 8000 No Sí 0 Alquiler No 3 2 H
30
3 15000 Sí Sí 2 Prop Sí 5 10 H
5 10000 Sí Sí 0 Prop Sí 1 6 H
8 20000 No Sí 0 Prop Sí 2 6 M
9 20000 Sí Sí 3 Prop No 7 5 H
10 30000 Sí Sí 2 Prop No 1 20 H
A11partir
50000de No No
estos datos, 0las técnicas
Alquiler deNo DM podrían
2 12
generar un M
12 8000
modelo de Sí Sí
los datos, 2 Prop
consistente No
en un 3
conjunto 1
de grupos de H
empleados
14 10000 No con características
Sí 0 similares.
Alquiler Sí Este 0 modelo7 proporcionaría
H
una descripción
15 8000 No "mas
Sí significativa"
0 Alquiler deNolos datos
3 disponibles.
2 H
31
Grupo 1: 5 ejemplos Grupo 2: 4 ejemplos Grupo 3: 6 ejemplos
Sueldo : 22600 Sueldo : 22500 Sueldo : 18833
Casado : No -> 0.8 Casado : No -> 1.0 Casado : Sí -> 1.0
Sí -> 0.2 Coche : Sí -> 1.0 Coche : Sí -> 1.0
Coche : No -> 0.8 Hijos : 0 Hijos : 2
Sí -> 0.2 Alq/Prop : Alquiler -> 0.75 Alq/Prop : Alquiler -> 0.17
Hijos : 0 Prop -> 0.25 Prop -> 0.83
Alq/Prop : Alquiler -> 1.0 Sindic. : Sí -> 1.0 Sindic. : No -> 0.67
Sindic. : No -> 0.8 Bajas/Año : 2 Sí -> 0.33
Sí -> 0.2 Antigüedad : 8 Bajas/Año : 5
Bajas/Año : 8 Sexo : H -> 0.25 Antigüedad : 8
Antigüedad : 8 M -> 0.75 Sexo : H -> 0.83
Sexo : H -> 0.6 M -> 0.17
M -> 0.4
• GRUPO 1: Solteros, sin hijos y de alquiler. Poco sindicados. Muchas bajas.

• GRUPO 2: Solteros, sin hijos y de alquiler. Muy sindicados. Pocas bajas. Normalmente mujeres.
• GRUPO 3: Casados, con hijos y propietarios. Poco sindicados. Normalmente hombres.
32
Ejemplo5: análisis de visitas.

Un Centro de Salud, desea analizar los factores que influyen en la asistencia
(visita) de un paciente al Centro de Salud.
Factores:
 Salud: salud del paciente (capacidad para acudir al centro). (1-10)
 Necesidad: convicción del paciente de que la visita es importante. (1-10)
 Transporte: disponibilidad de transporte para trasladarse al centro. (1-10)
 Niños: disponibilidad de dejar a los niños. (1-10)
 Laboral: posibilidad de darse de baja laboral. (1-10)
 Satisfacción: satisfacción del paciente con su médico. (1-10)
 Cita: facilidad del paciente para concertar una cita. (1-10)
 Asistencia: indica si el paciente se ha pasado por el Centro de Salud durante
el último año (0: se ha pasado, 1: no se ha pasado).
33
ID Salud Necesidad Transporte Niños Laboral Satisf. Cita Asistencia
1 4 5 1 10 10 8 1
2 4 8 1 1 6 2 0
3 6 10 1 8 1 6 8 1
A partir de los datos de estos siete factores para un conjunto de

pacientes, las técnicas de DM podrían generar un modelo de los
datos consistente en un cuadro de relaciones entre los factores y
la asistencia (o no asistencia) del paciente al Centro de Salud.
Este modelo proporcionaría una descripción "mas significativa"
de los datos disponibles
34

El cuadro de correlaciones obtenido es:
Salud Necesidad Transporte Niños Laboral Satisfacción Cita Asistencia

Salud 1
Necesidad -0.7378 1
Transporte 0.3116 -0.1041 1
Niños 0.3116 -0.1041 1 1
Laboral 0.2771 0.0602 0.6228 0.6228 1
Satisfacción 0.22008 -0.1337 0.6538 0.6538 0.6257 1
Cita 0.3887 -0.0334 0.6504 0.6504 0.6588 0.8964 1
Asistencia 0.3955 -0.5416 -0.5031 -0.5031 -0.7249 -0.3988 -0.3278 1
El coeficiente de correlación r (r[-1 ... 1]) se interpreta de la siguiente

forma: si r es positivo los atributos tienen un comportamiento similar
(ambos crecen o ambos decrecen al mismo tiempo), si r es negativo
cuando un atributo crece el otro decrece, si r es cero no existe
relación entre ambos atributos.
35
Relación de DM con otras disciplinas:

• estadística.
• aprendizaje automático / IA.
• visualización de datos.
• recuperación de información (Information Retrieval).
• computación paralela / distribuida.
• bases de datos.
36

•estadística.
técnicas de DM
•aprendizaje automático / IA.

•visualización de datos.
•recuperación de información (Information Retrieval).
tecnológico
•computación paralela / distribuida.

soporte
•bases de datos.
37

• estadística: ha proporcionado muchos conceptos, técnicas y
algorítmos utilizados en DM:
técnicas de DM
− conceptos: media, varianza, desviación, ...

− técnicas: regresión lineal y no lineal, modelización
paramétrica y no paramétrica, técnicas bayesianas, ...
• aprendizaje automático / IA: ha proporcionado los

principios y algoritmos para el aprendizaje de modelos a partir de
ejemplos.
38

• visualización de datos: ha proporcionado técnicas de
representación visual de datos, útiles en DM:
técnicas de DM
- visualización previa: comprender mejor los datos y decidir

posibles tareas de DM a utilizar.
- visualización posterior: mostrar a los usuarios, los patrones
obtenidos en el proceso de DM de una forma inteligible.
• recuperación de información (Information

Retrieval): ha proporcionado técnicas y algoritmos para la
extracción de información a partir de datos textuales, útiles para
algunas aplicaciones de DM.
39

• bases de datos: los avances en tecnología de gestión de datos
han favorecido el desarrollo del DM (mejora de la eficiencia de los
algoritmos)
soporte tecnológico
− sistemas de DW, herramientas de OLAP

− técnicas de optimización de consultas
− técnicas de indexación, ...
• computación paralela / distribuida: los avances en

computación paralela y distribuida han favorecido el desarrollo del DM:
el coste computacional de las tareas de DM se reparte entre varios
procesadores (escabilidad de las soluciones).
40
Áreas de Aplicación
• Aplicaciones financieras y de banca:

− obtención de patrones de uso fraudulento de tarjetas.
− obtención de perfiles de clientes en el uso de tarjetas.
− obtención de correlaciones entre indicadores financieros.
− análisis de riesgos en la concesión de préstamos, ...
• Análisis de mercado, distribución y comercio:

− análisis de la cesta de la compra.
− evaluación de campañas publicitarias.
− obtención de perfiles de clientes.
− análisis de la fidelidad de los clientes, ...
41
• Seguros:
− identificación de clientes potencialmente caros.
− identificación de clientes que pueden contratar nuevas pólizas.
− identificación de clientes con comportamiento fraudulento...
• Medicina:
− diagnóstico de enfermedades.
− grupos de riesgo para distintas patologías.
− recomendación priorizada de fármacos.
− gestión de servicios sanitarios, ...
42
• Otros sectores:
− compañías de servicios: telecomunicaciones, agua, gas, ....
− correo electrónico, agendas personales.
− turismo
− tráfico
− uso de web
− ...
43

44
KDD (Knowledge Discovery in Databases)
El proceso de KDD (extracción de conocimiento en bases de
datos) es el proceso global que permite la extracción de
conocimiento a partir de datos almacenados.
Sistemas de
Información
Preparación de
los Datos
Minería de Datos
KDD
Patrones
Evaluación /
Interpretación /
Visualización
Conocimiento
45
Fuentes de datos
Extracción
ETL Limpieza
Transformación
Data
Warehouse
Selección
Preparación Limpieza
de los datos
Transformación
Vista
minable
Minería de
datos
Modelos
de datos
Evaluación
Conocimiento Decisiones
Difusión y
uso
46
Fuentes de datos
Extracción
ETL Limpieza
Transformación
Data
Warehouse 1
Selección
Preparación Limpieza
de los datos
Transformación
Vista
minable
2

Minería de
datos
Modelos
de datos
3
Evaluación
Conocimiento Decisiones
Difusión y
uso 4
47
Fase de preparación de los datos.
Fuentes de datos Fuentes de datos

Extracción
ETL Limpieza
Extracción
Transformación
Preparación
Limpieza
Data de los datos Transformación
Warehouse Selección
Selección
Preparación
Limpieza
de los datos
Transformación
Vista Vista
minable Vista minable: subconjunto de
minable
los datos sobre el que se va a
aplicar una técnica de DM.
La “calidad del conocimiento extraido” en el proceso de KDD

no depende sólo de la técnica de DM utilizada, depende
también de la calidad de los datos utilizados.
48

Extracción
ETL Limpieza
Extracción
Transformación
Preparación
Limpieza
Selección
Preparación
Limpieza
de los datos
Transformación
Vista Vista
minable minable
Estas actividades de
preparación de los datos
dependen de la tarea de DM
que se vaya a realizar y de los
requisitos de la técnica o del
algoritmo utilizado.
49
Extracción
ETL Limpieza
Extracción
Transformación
Preparación
Limpieza
Selección
Preparación
Limpieza
de los datos
Transformación
Vista Vista
minable minable
La selección de datos es una de las tareas más importantes en la fase de

preparación de los datos:
• selección vertical: los atributos (campos) seleccionados deben ser significativos para el
conocimiento que se desea obtener y la tarea de DM que se pretende realizar.
• selección horizontal: a veces es suficiente realizar la tarea de DM sobre un subconjunto (muestra)
de los datos disponibles.
50
Fase de Minería de Datos.
Vista
minable
Minería de
datos
Modelos
de datos
Descripción de los
Minería de datos: extracción de Modelo de patrones o relaciones
conocimiento a partir de datos los datos existentes en los datos.
almacenados.
51
2. El proceso de KDD Vista
minable
Minería de
datos
Modelos
de datos
Decisiones previas a la fase de DM

 analizar el tipo de conocimiento que se desea obtener.
 determinar la tarea de DM que es mas apropiada para extraer
dicho conocimiento.
 elegir una técnica de DM para realizar la tarea.
 elegir el algoritmo mas adecuado para aplicar la técnica de DM
elegida.
52
minable
Minería de
datos
Modelos
de datos
Ejemplo 1: análisis de riesgo en préstamos bancarios.

 se desea poder predecir si un cliente devolverá o no un préstamo.
 la clasificación de los clientes en "clientes de confianza" y "clientes de
riesgo" a partir de sus caracterísiticas, sería una tarea de DM adecuada
para la obtención del conocimiento que se busca.
 la técnica de generación de reglas en forma de árboles de decisión
puede producir un modelo de datos sencillo y comprensible para los
empleados.
 los algoritmo CART o C5.0 son algoritmos para la generación de
árboles de decisión disponibles en el sistema de DM de la organización.
53
minable
Minería de
datos
Modelos
de datos
Tarea de Tipo de
DM Problema
conocimiento
Técnica ... Técnica Modelo de los

de DM de DM datos
Algoritmo ... Algoritmo
54
minable
Minería de
datos
Modelos
Predictivas de datos
Estimación de valores futuros

o desconocidos de variables
de interés (variable objetivo) a
Ejemplos: 1 y 3
Tareas de DM
partir de otras variables

independientes (predictivas).
Descriptivas
Identificación de patrones
en los datos que los Ejemplos: 2, 4 y 5
explican o resumen.
55
2. El proceso de KDD Modelos
de datos
Fase de Evaluación. Evaluación
Conocimiento
Principio ("escandalo") de la Inducción:

Las hipótesis inducidas se pueden
refutar, pero no se pueden confirmar.
56
2. El proceso de KDD Modelos
de datos
Fase de Evaluación. Evaluación
Conocimiento
Evaluación: Medida de la validez (calidad) del

modelo obtenido por una tarea de DM.
Medidas de validez: dependen de la tarea de

DM aplicada.
57
...

modelo de los datos, consistente en un conjunto de reglas de
asociación entre los productos que con frecuencia son adquiridos
conjuntamente. Este modelo proporcionaría una descripción "mas
significativa" de los datos disponibles.
58
...

lechugas"
59

lechugas"
¿Cuál es la validez de estas reglas?

¿Qué garantía tenemos de no equivocarnos si tomamos
decisiones usando estas reglas?
60
lechugas"
La primera regla tiene una confianza del 100%, es decir en todos

los ejemplos (en la muestra) en los que se ha comprado pañales
también se ha comprado leche. Pero, ¿cuántos ejemplos tenemos
en la muestra en los que se haya comprado pañales?. Este valor
podría ser 1, con lo cual la regla sería poco significativa.
61
Difusión y
Conocimiento
Fase de difusión y uso. uso Decisiones
Una vez generado y validado el modelo, éste se puede

usar con distintas fines:
- los analistas toman decisiones sobre las actividades del negocio
en base al conocimiento proporcionado por el modelo.
- se aplica el modelo a distintos conjuntos de datos para obtener
información (conocimiento).
- se difunde el modelo (reglas, funciones, ...) entre los empleados
de la organización para apoyar su trabajo.
62

63
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos.
Minería de
datos
Modelos
de datos
Tarea de Tipo de
DM Problema
conocimiento

de DM de DM datos
64
minable
Minería de
datos
Modelos
Predictivas de datos
Estimación de valores futuros

o desconocidos de variables
de interés (variable objetivo) a
Ejemplos: 1 y 3
Tareas de DM
partir de otras variables

independientes (predictivas).
Descriptivas
Identificación de patrones
en los datos que los Ejemplos: 2, 4 y 5
explican o resumen.
65
minable
Minería de
datos
Modelos
Predictivas Clasificación de datos
Tareas de DM
Regresión
Agrupamiento
Descriptivas
(clustering)
Asociación
Correlación
66
minable
Minería de
datos
Modelos
de datos
Dominio de ejemplos: D
tipo_ejemplo = {A1:D1, A2:D2, ..., An:Dn}
ejemplo e = {A1:v1, A2:v2, ..., An:vn} / viDi
e = <v1, v2, ..., vn> / viDi
D = {e: <v1, v2, ..., vn> / viDi}
67
minable
Minería de
datos
Modelos
Tareas de DM
Regresión
Agrupamiento
Descriptivas
(clustering)
Asociación
Correlación
68
Clasificación
Clasificación suave
Predictivas Clasificación
Estimación de probabilidad de clasificación
Categorización
Tareas de DM
Regresión
Agrupamiento
Descriptivas
(clustering)
Asociación
Correlación
69
minable
Tareas de Minería de Datos. Minería de
datos
Tareas predictivas.
Modelos
de datos
La clasificación:
 A cada ejemplo del tipo de objeto a clasificar (registro de la base de datos)
se le asigna una clase, representada por el valor de un atributo (atributo de
clase). El dominio del atributo de clase es discreto, cada valor representa
una clase de objeto.
 Los restantes atributos que sean significativos para determinar la clase,
son utilizadas por las técnicas de clasificación para generar funciones
(reglas) que permiten determinar la clase de un ejemplo a partir de los
valores de sus atributos significativos.
 El objetivo de la tarea es poder predecir la clase de nuevos ejemplos a
partir del valor de sus atributos significativos, utilizando las reglas generadas.
70
minable
datos
Tareas predictivas.
Modelos
de datos
La clasificación:
Entrada:
- tipo_ejemplo = {A1:D1, A2:D2, ..., An:Dn}
- D = {e: <v1, v2, ..., vn> / viDi}: dominio de ejemplos
- E  D: conjunto de ejemplos (muestra)
- S = {c1, c2, ..., cm}: m clases,
- {<e, s>: eE, sS}: conjunto de ejemplos etiquetado
Salida:
: E  S: función clasificador
71
Tareas predictivas: la clasificación.

Un banco desea disponer de un modelo que le permita predecir qué
tipo de clientes podrían no devolver un préstamo solicitado. La
entidad dispone de información sobre préstamos anteriores, así como
datos personales de los titulares de esos préstamos.

101 15 60.000 2.200 sí 2 no
102 2 30.000 3.500 sí 0 sí
103 9 9.000 1.700 sí 1 no
104 15 18.000 1.900 no 0 sí
105 10 24.000 2.100 no 0 no
... ... ... ... ... ... ...
72
101 15 60.000 2.200 sí 2 no
102 2 30.000 3.500 sí 0 sí
103 9 9.000 1.700 sí 1 no
104 15 18.000 1.900 no 0 sí
105 10 24.000 2.100 no 0 no
... ... ... ... ... ... ...
Regla 1:
Si cuentas-morosas > 0 entonces devuelve-préstamo = no
Regla 2:
Si cuentas-morosas = 0 Y ( salario>2.500 O D-credito>10)
entonces devuelve-préstamo = sí
... Modelo de datos
73
(años) (euros) (euros) propia morosas crédito
101 15 60.000 2.200 sí 2 no
102 2 30.000 3.500 sí 0 sí
103 9 9.000 1.700 sí 1 no
104 15 18.000 1.900 no 0 sí
105 10 24.000 2.100 no 0 no
... ... ... ... ... ... ...
 (x, y, z, w, n, ...) = 'no' : n > 0

 (x, y, z, w, n, ...) = 'si' : n = 0, z > 2500
 (x, y, z, w, n, ...) = 'si' : n = 0, x > 10
...
Modelo de datos
74
 (x, y, z, w, n, ...) = 'no' : n > 0

 (x, y, z, w, n, ...) = 'si' : n = 0, z > 2500
 (x, y, z, w, n, ...) = 'si' : n = 0, x > 10
... Modelo de datos
ID D-crédito C-crédito Salario Casa propia Cuentas morosas ...

111 15 60.000 2.600 sí 0
Devuelve-préstamo = SÍ
75
minable
Minería de
datos
Tareas predictivas.
Modelos
La clasificación suave: de datos
Entrada:
- S = {c1, c2, ..., cm}: m clases,
Salida:
: E  S: función clasificador
: E  R: función de certeza (grado de certeza de la predicción hecha
por la función )
76
minable
Minería de
datos
Tareas predictivas.
Modelos
de datos
La estimación de probabilidad de clasificación:
Entrada:
- S = {c1, c2, ..., cm}: m clases,
Salida:
i: E  R (i: 1..m): funciones de certeza (grado de certeza de que un
ejemplo sea de la clase i).
77
minable
Minería de
datos
Tareas predictivas.
Modelos
de datos
La categorización:
Entrada:
- S = {c1, c2, ..., cm}: m clases,
Salida:
  E × S: correspondencia de clasificación
78
Tareas de DM
Regresión
Agrupamiento
Descriptivas
(clustering)
Asociación
Correlación
79
minable
Minería de
datos
Tareas predictivas.
Modelos
de datos
La regresión:
 A partir de los datos de un conjunto de ejemplos, se busca una función real
entre un atributo (atributo objetivo) y un conjunto de atributos significativos del
tipo de objeto.
 Los dominios de los atributos deben ser numéricos.
 El objetivo de la tarea es poder predecir el valor del atributo objetivo de
nuevos ejemplos a partir del valor de sus atributos significativos, utilizando la
función generada.
Nota: Es un caso particular de la tarea de clasificación, cuando el dominio de salida de la función es
numérico.
80
minable
Minería de
datos
Tareas predictivas.
Modelos
La regresión: de datos
Entrada:
- tipo_ejemplo = {A1:D1, A2:D2, ..., An:Dn} / Di es numérico

- S = R|Z, (dominio numérico)
Salida:
: E  S: función de regresión
81
minable
datos
Tareas predictivas.
Modelos
de datos
Regresión Lineal Global.

Se buscan los coeficientes de una función lineal:
y  w0  w1 x1...  wn xn
Una manera fácil (si es lineal simple, es decir con dos dimensiones x e y):
w1 
n xy x  y 
w0 
 y  x    x  xy
2
 2

n  x   x 
2
n x    x 
2 2
obteniendo y = w0 + w1x (n es el número de ejemplos de la muestra)
82
Tareas predictivas: la regresión.

Una cadena de tiendas de electrodomésticos desea optimizar el
funcionamiento de su almacén, manteniendo un stock de cada
producto que sea suficiente para poder servir rápidamente los
pedidos de sus clientes. La organización dispone de información
sobre las ventas de cada producto en cada mes del último año.

1 televisor 20 52 14 139 74
2 video 11 ... ... 43 32 26 59
3 MP3 50 ... ... 61 14 5 28
4 frigorífico 3 ... ... 21 27 1 49
5 microondas 14 ... ... 27 2 25 12
6 ... ... ... ... ... ... ... ...
83
Tareas predictivas: la regresión.

1 televisor 20 52 14 139 74
2 video 11 ... ... 43 32 26 59
3 MP3 50 ... ... 61 14 5 28
4 frigorífico 3 ... ... 21 27 1 49
5 microondas 14 ... ... 27 2 25 12
6 ... ... ... ... ... ... ... ...
ventas
producto 5
mes
84
minable
datos
Modelos
Tareas de DM
Regresión
Agrupamiento
Descriptivas
(clustering)
Asociación
Correlación
85
Tareas de DM
Regresión
Agrupamiento
Descriptivas
(clustering)
Asociación
Correlación
86
minable
datos
Tareas descriptivas.
Modelos
de datos
El agrupamiento o segmentación (clustering):

 Se buscan grupos naturales en el conjunto de ejemplos, a partir de los
valores de sus atributos.
 Las técnicas de DM agrupan los ejemplos basándose en el principio de
maximizar la similitud entre los elementos de un grupo y de minimizar la
similitud entre los elementos de grupos distintos.
 El objetivo de la tarea es poder describir de forma resumida el conjunto de
ejemplos: cada grupo formado se considera un resumen de los elementos
que lo forman.
87
minable
datos
Modelos
de datos
El agrupamiento:
Entrada:
Salida:
- S = {c1, c2, ..., cm}: m grupos,
- : E  S: función de agrupación.
88
Tareas descriptivas: el agrupamiento.

El departamento de recursos humanos de una gran empresa, desea
categorizar a sus empleados en distintos grupos, con el objetivo de
establecer una trato personalizado con ellos y definir las políticas
sociales de la empresa. La organización dispone en sus bases de
datos de información sobre sus empleados.
89
8 20000 No Sí 0 Propietario Sí 2 6 M
14 10000 No Sí 0 Alquiler Sí 0 7 H
15 8000 No Sí 0 Alquiler No 3 2 H
90
Grupo 1: 5 ejemplos Grupo 2: 4 ejemplos Grupo 3: 6 ejemplos
Sueldo : 22600 Sueldo : 22500 Sueldo : 18833
Casado : No -> 0.8 Casado : No -> 1.0 Casado : Sí -> 1.0
Sí -> 0.2 Coche : Sí -> 1.0 Coche : Sí -> 1.0
Coche : No -> 0.8 Hijos : 0 Hijos : 2
Sí -> 0.2 Alq/Prop : Alquiler -> 0.75 Alq/Prop : Alquiler -> 0.17
Hijos : 0 Prop -> 0.25 Prop -> 0.83
Alq/Prop : Alquiler -> 1.0 Sindic. : Sí -> 1.0 Sindic. : No -> 0.67
Sindic. : No -> 0.8 Bajas/Año : 2 Sí -> 0.33
Sí -> 0.2 Antigüedad : 8 Bajas/Año : 5
Bajas/Año : 8 Sexo : H -> 0.25 Antigüedad : 8
Antigüedad : 8 M -> 0.75 Sexo : H -> 0.83
Sexo : H -> 0.6 M -> 0.17
M -> 0.4
• GRUPO 1: Solteros, sin hijos y de alquiler. Poco sindicados. Muchas bajas.

• GRUPO 2: Solteros, sin hijos y de alquiler. Muy sindicados. Pocas bajas. Normalmente mujeres.
• GRUPO 3: Casados, con hijos y propietarios. Poco sindicados. Normalmente hombres.
91
Tareas de DM
Regresión
Agrupamiento
Descriptivas
(clustering) Asociación
Asociación Dependencias funcionales
Patrones secuenciales
Correlación
92
minable
Minería de
datos
Modelos
de datos
La asociación:
 Se buscan relaciones no explícitas entre los valores de atributos
discretos; ejemplo: "si el atributo X toma el valor v1 entonces el atributo
Y toma el valor v2"
 La existencia de una asociación entre atributos no siempre implica la
existencia de una relación causa-efecto.
 El objetivo de la tarea es poder describir de forma concisa relaciones
existentes entre los valores de los atributos del conjunto de ejemplos.
93
minable
Minería de
datos
Modelos
La asociación: de datos
Entrada:
- tipo_ejemplo = {A1:D1, A2:D2, ..., An:Dn} (Di es generalmente discreto)

- D = {e: <v1, v2, ..., vn> / vi  Di}: dominio de ejemplos
Salida:
Ri: Ai=a  Aj=b  ...  Ak = k  Ar=c  Aw=d  ...  Am=e
(regla direccional o dependencia de valores), o
Ri: Ai=a  Aj=b  ...  Ak = k  Ar=c  Aw=d  ...  Am=e
(regla bidireccional)
94
Tareas descriptivas: la asociación.
Un supermercado desea obtener información sobre los hábitos de
compra de sus clientes, con el objetivo de mejorar la ubicación de los
productos en el local. La organización dispone de información
reciente sobre los productos adquiridos en las compras realizadas
por los clientes.
...
95
...

lechugas"
96
...
R1 : pañales='si'  leche='si'
R2 : huevos='si'  aceite ='si'
R3 : vino='si'  salmón='si'  lechugas ='si'
97
minable
datos
Modelos
Clasificación de reglas de asociación. de datos
Dominios de los atributos:

- Binarios: indican la presencia o ausencia de un item en el ejemplo.
pañales = 'si'  leche = 'si' (pañales  leche)
- Discretos:
país = 'Alemania'  precio = 'caro'
- Numéricos:
15< edad <20  riesgo = 'alto'
98
minable

datos
Clasificación de reglas de asociación. Modelos

de datos
Niveles de abstracción: reglas multinivel.
Las reglas de asociación no se definen al nivel básico en una dimensión,

sino basándose en niveles superiores jerárquicamente en la dimensión.
Vino = 'sí'  Gaseosa = 'sí'
producto categoría departamento
99
minable
Minería de
datos
Modelos
La asociación: dependencias funcionales. de datos
Entrada:
- tipo_ejemplo = {A1:D1, A2:D2, ..., An:Dn} / Di es discreto
Salida:
- Ri: Ai  Aj  ...  Ak  Ar
Para cualquier conjunto de valores (x, y, ..., z, w), si existe un ejemplo para
el que Ai=x  Aj=y  ...  Ak = z  Ar=w entonces para cualquier otro
ejemplo para el que Ai=x  Aj=y  ...  Ak = z se cumple que Ar=w.
100
minable
Minería de
datos
Modelos
de datos
Los patrones secuenciales:

 Se trata de buscar asociaciones de la forma: "si sucede el evento X en el
instante de tiempo t entonces sucederá el evento Y en el instante t+n"
El objetivo de la tarea es poder describir de forma concisa relaciones
temporales que existen entre los valores de los atributos del conjunto de
ejemplos.
101
minable
Minería de
datos
Modelos
Los patrones secuenciales: de datos
Entrada:
- tipo_ejemplo = {A1:D1, A2:D2, ..., An:Dn} / Di es discreto

Salida:
Ri: Ai=a  Aj=b  ...  Ak = k (t)  Ar=c  Aw=d  ...  Am=e (t'>t)
(regla direccional o dependencia de valores), o
Ri: Ai=a  Aj=b  ...  Ak = k (t)  Ar=c  Aw=d  ...  Am=e (t'>t)
(regla bidireccional)
102
minable
Tareas de Minería de Datos. Minería
de datos
Tareas descriptivas: patrones secuenciales
Modelos de datos
103
minable
de datos
Modelos
de datos
104
minable
de datos
Modelos
de datos
105
Tareas de DM
Regresión
Agrupamiento
Descriptivas
(clustering)
Asociación
Correlación
106
minable

datos
Modelos
de datos
La correlación
 Se busca el grado de similitud de los valores de dos atributos numéricos.
 El grado de similitud se mide por el coeficiente de correlación r (r[-1 ... 1]):
si r es positivo los atributos tienen un comportamiento similar (ambos crecen o
ambos decrecen al mismo tiempo), si r es negativo cuando un atributo crece el
otro decrece, si r es cero no existe relación entre ambos atributos.
 El objetivo de la tarea es poder describir de forma concisa relaciones
existentes entre atributos del conjunto de ejemplos.
107
minable
datos
Tareas predictivas.
Modelos
La correlación: de datos
Entrada:
- tipo_ejemplo = {A1:D1, A2:D2, ..., An:Dn} / Di es numérico

Salida:
R: {A1, A2 ,An} x {A1, A2 ,An}  [-1 .. 1]
Función que asigna a cada par de atributos del esquema del ejemplo un
valor de correlación.
108
Tareas descriptivas: la correlación.

Un Centro de Salud, desea analizar los factores que influyen en la asistencia
de un paciente al Centro de Salud.
Factores:
 Salud: salud del paciente. (1-10)
 Necesidad: convicción del paciente de que la visita es importante. (1-10)
 Transporte: disponibilidad de transporte para trasladarse al centro. (1-10)
 Niños: disponibilidad de dejar a los niños. (1-10)
 Laboral: posibilidad de darse de baja laboral. (1-10)
 Satisfacción: satisfacción del paciente con su médico. (1-10)
 Cita: facilidad del paciente para concertar una cita. (1-10)
 Asistencia: indica si el paciente se ha pasado por el Centro de Salud durante el último
año (0: se ha pasado, 1: no se ha pasado).
109
Tareas descriptivas: la correlación.
El cuadro de correlaciones obtenido es:
Salud Necesidad Transporte Niños Laboral Satisfacción Cita Asistencia
Salud 1
Necesidad -0.7378 1
Transporte 0.3116 -0.1041 1
Niños 0.3116 -0.1041 1 1
Laboral 0.2771 0.0602 0.6228 0.6228 1
Satisfacción 0.22008 -0.1337 0.6538 0.6538 0.6257 1
Cita 0.3887 -0.0334 0.6504 0.6504 0.6588 0.8964 1
Asistencia 0.3955 -0.5416 -0.5031 -0.5031 -0.7249 -0.3988 -0.3278 1
El coeficiente de correlación r (r[-1 ... 1]) se interpreta de la siguiente

forma: si r es positivo los atributos tienen un comportamiento similar
(ambos crecen o ambos decrecen al mismo tiempo), si r es negativo
cuando un atributo crece el otro decrece, si r es cero no existe
correlación entre ambos atributos.
110
minable
Fase de Minería de Datos. Minería de

datos
Modelos
de datos
Tarea de Tipo de
DM Problema
conocimiento

de DM de DM datos
111
Técnicas de Minería de Datos.
Clasificación:
-Ténicas estadísticas -Técnicas bayesianas
-Técnicas de conteo de frecuencias
-Técnicas basadas en árboles de decisión
-Técnicas relacionales declarativas
-Técnicas basadas en redes neuronales
-Técnicas basadas en núcleo
-Técnicas estocásticas o difusas
-Técnicas basadas en densidad o distancia.

112
minable
datos
Modelos
de datos
Técnicas estadísticas: expresan los modelos y patrones mediante el uso de

funciones lineales, funciones no lineales, distribuciones, correlaciones,
medidas estadísticas, etc.
Ejemplos: regresión lineal, regresión logarítmica, regresión logística,

discriminantes lineales y no lineales.
113
minable
datos
Modelos
de datos
Técnicas bayesianas: se basan en estimar la probabilidad de

pertenencia (a una clase o un grupo) mediante la estimación de las
probabilidades condicionales inversas, utilizando el teorema de Bayes.
Técnicas basadas en conteo de frecuencias: se basan en contar la

frecuencia con la que dos o mas sucesos se presentan conjuntamente.
114
minable
datos
Modelos
de datos
Técnicas basadas en árboles de decisión y sistemas de

aprendizaje de reglas: representan los modelos aprendidos en forma
de reglas.
Ejemplos: algoritmos "divide y vencerás" (ID3/C4.5, CART), algoritmos
"separa y vencerás" (CN2).
Técnicas relacionales declarativas: se basan en la representación de

los modelos mediante lenguajes declarativos (lógicos, funcionales, lógico-
funcionales).
Ejemplo: técnicas basadas en ILP (programación lógica inductiva)
denominada "minería de datos relacional".
115
minable
datos
Modelos
de datos
Técnicas basadas en redes neuronales artificiales: se trata de

técnicas que aprenden un modelo mediante el entrenamiento de los
pesos que conectan un conjunto de nodos o neuronas. La topología de
la red y los pesos de las conexiones determinan el patrón aprendido.
Ejemplos: perceptón simple, redes multicapa, redes de base radial,
redes de Kohonen, etc.
Técnicas basadas en núcleo y máquinas de soporte vectorial: se

trata de técnicas que intentan maximizar el margen entre los grupos o
las clases formadas.
116
minable
datos
Modelos
de datos
Técnicas estocásticasy difusas: se trata de técnicas en las que los

componentes aleatorios son fundamentales o en las que se utilizan
funciones de pertenencia difusa.
Técnicas basadas en casos, densidad o distancia: se trata de

técnicas que se basan en medir las distancias entre los elementos, ya
sea directamente, como el método de los vecinos más próximos (los
casos más similares) o mediante la estimación de funciones de
densidad.
Ejemplos: algoritmos de vecinos más próximos (K-NN), algoritmos
jerárquicos (Two-step, COBWED), algoritmos no jerárquicos (K-means).
117
Predictivas Descriptivas
Técnica Clasificación Regresión Agrupamiento Asociación Correlación

Redes Neuronales   
Árboles de decisión (ID.3, 

C4.5, C5.0)
Árboles de decisión (CART)  
Otros árboles de decisión    
Redes de Kohonen 
Regresión lineal y  
logarítmica
Regresión logística  
K-means 
Apriori 
Naive Bayes 
118
Predictivas Descriptivas
Técnica Clasificación Regresión Agrupamiento Asociación Correlación

Vecinos mas próximos   
Análisis factorial 
Twostep, Cobwed 
Algoritmos genéticos y     
evolutivos
Máquinas de vectores   
soporte
CN2 reglas  
Análisis discriminante 
multivariante
119
Tareas de DM Técnicas de DM
k-NN (Nearest Neighbor).
k-means (Competitive learning).
Perceptron Learning.
Multilayer ANN methods (e.g. backpropagation).
Predictivas
Decision Tree Learning (e.g. ID3, C4.5, CART).

Clasificación
Bayes Classifiers.
Center Splitting Methods.
Regresión
Pseudo-relational: Supercharging, Pick-and-Mix.
Relational: ILP, IFLP, SCIL.
Descriptivas
Agrupamiento
(clustering)
Asociación
Correlación
120
Predictivas
Clasificación
Regresión
Redes neuronales de Kohonen
Descriptivas
Agrupamiento
(clustering) EM (Estimated Means) (Dempster et al. 1977).
Cobweb (Fisher 1987).
AUTOCLASS
Asociación
...
Correlación
121
Predictivas
Clasificación
Regresión Técnicas estadísticas

Descriptivas
Agrupamiento
(clustering)
Asociación Técnicas de conteo de frecuencia
Correlación Técnicas estadísticas
122
Predictivas
Clasificación
Regresión Técnicas estadísticas

Descriptivas
Agrupamiento
(clustering)
Asociación Técnicas de conteo de frecuencia
Correlación Técnicas estadísticas
123
Técnicas de búsqueda de asociaciones:
Técnica APRIORI (Agrawal & Srikant 1994)
• es una técnica de conteo de frecuencias: se basa en

contar la frecuencia con la que dos o mas sucesos
ocurren conjuntamente.
• es una técnica para atributos con dominios binarios:

(si/no).
124
Técnicas de búsqueda de asociaciones: Técnica APRIORI
• FASE A: BÚSQUEDA DE “LARGE ITEMSETS”. Se buscan

conjuntos de atributos con soporte >= s (soporte deseado),
llamados ‘large itemsets’ (conjuntos de atributos grandes).
• FASE B: BÚSQUEDA DE DEPENDENCIAS (REGLAS). Se

hacen particiones binarias y disjuntas (reglas) de los
conjuntos formados en la fase anterior, y se calcula la
confianza de cada partición (regla). Se seleccionan aquellas
reglas que tienen una confianza >= c (confianza deseada).
Soporte (absoluto) de un atributo: número de ejemplos de la muestra en los

que el atributo toma el valor 'si'.
Confianza de una regla de asociación: proporción del número de ejemplos
de la muestra para los que la regla funciona bien respecto al número de
ejemplos de la muestra a los que se puede aplicar la regla.
125
FASE A:
Dado un soporte deseado s:
Paso 1. i=1 (tamaño de los conjuntos)
Paso 2. Generar un conjunto unitario para cada atributo, {Ak}: k:1..n.
Construir el conjunto Si = {{Ak}: k:1..n }.
Paso 3. Comprobar el soporte de cada conjuntos en Si. Eliminar
aquellos con soporte < s.
Paso 4. Combinar los conjuntos en Si para crear conjuntos de
tamaño i+1 para formar Si+1.
Paso 5. Si Si no es vacío entonces i:= i+1. Ir a Paso 3.
Paso 6. Si Si es vacío entonces devolver Sfinal=S2  S3  ...  Si
126
FASE B:
BÚSQUEDA DE DEPENDENCIAS (REGLAS). Se hacen
particiones binarias y disjuntas (reglas) de los conjuntos de
Sfinal, y se calcula la confianza de cada partición (regla). Se
seleccionan aquellas reglas que tienen una confianza >= c
(confianza deseada).
127
atributos
FASE A: Fila 1 2 3 4 5
ejemplos
1 x x x soporte = 2
2 x x x
3 x x x x confianza = 0.75
4 x x
muestra
S1= { {1}, {2}, {3}, {4}, {5} } S'1= { {1}:2, {2}:3, {3}:3, {4}:1, {5}:3 }
S2= { {1,2}, {1,3}, {1,5}, {2,3}, {2,5}, {3,5} } S'2 = { {1,3}:2, {2,3}:2, {2,5}:3, {3,5}:2 }
S3= { {1,2,3}, {1,2,5}, {1,3,5}, {2,3,5} } S'3 = { {2,3,5}:2 }
Sfinal = S'2  S'3 = { {1,3}, {2,3}, {2,5}, {3,5}, {2,3,5} }
FASE B: {1}  {3} : 1 {3}  {1} : 0.67

{2}  {3} : 0.67 {3}  {2} : 0.67
{2}  {5} : 1 {5}  {2} : 1
{3}  {5} : 0.67 {5}  {3} : 0.67
{2,3}  {5} : 1 {2,5}  {3} : 0.67
{3,5}  {2} : 1
128
Predictivas
Clasificación
Regresión
Minimal Spaning Tree
Descriptivas
Agrupamiento
(clustering) Redes neuronales de Kohonen
EM (Estimated Means) (Dempster et al. 1977).
Cobweb (Fisher 1987).
Asociación
AUTOCLASS
...
Correlación
129
Técnicas de agrupamiento: métodos jerárquicos.
Un método sencillo consiste en ir agrupando ejemplos según la distancia
entre ellos, e ir aumentando el límite de distancia para hacer nuevos
grupos. Esto genera agrupaciones a distintos niveles, de una manera
jerárquica.
Se denomina
Dendograma o
Hierarchical Tree Plot:
130
Técnicas de agrupamiento: métodos jerárquicos.

Minimal Spanning Tree Clustering
Sea C el número de grupos (clusters) deseado.
Paso 1. Se define un grupo con cada ejemplo.

Paso 2. Se agrupa el par de grupos más cercanos
(distnacia mínima) para formar un nuevo grupo.
Paso 3. Si número de grupos < C entonces ir a Paso 2.
131
Técnicas de agrupamiento: "vecinos más próximos".

K-means clustering
 Se utiliza para encontrar los k puntos más densos en un conjunto

arbitrario de puntos.
 Algoritmo:
Paso 1. Dividir aleatoriamente la muestra en k conjuntos y calcular
la media (el punto medio) de cada conjunto.
Paso 2. Reasignar cada ejemplo al conjunto con el punto medio
más cercano (distancia mínima).
Paso 3. Calcular los puntos medios de los k conjuntos.
Paso 4. Repetir los pasos 2 y 3 hasta que los conjuntos no varíen.
132
Técnicas de agrupamiento: "vecinos más próximos".

K-means clustering
 El valor de k se suele determinar heurísticamente.

 Problemas:
Si se sabe que hay n clases, hacer k=n puede
producir que, algunas veces, algún grupo use
dos centros y dos grupos separados tengan que
compartir centro.
Si k se elige muy grande, la generalización es

pobre y las agrupaciones futuras serán malas.
Determinar el k ideal es difícil.

133
Perceptron Learning.
Multilayer ANN methods (e.g. backpropagation).
Predictivas
Decision Tree Learning (ID3, C4.5, CART).

Clasificación
Bayes Classifiers.
Center Splitting Methods.
Regresión
Pseudo-relational: Supercharging, Pick-and-Mix.
Relational: ILP, IFLP, SCIL.
Descriptivas
Agrupamiento
(clustering)
Asociación
Correlación
134
Técnicas de clasificación: árboles de decisión.
Árboles de Decisión (ID3 (Quinlan), C4.5 (Quinlan), CART).

Algoritmo "Divide y Vencerás":
Paso 1. Se crea un nodo raíz con S:= conjunto de ejemplos.
Paso 2. Si todos los elementos de S son de la misma clase, el subárbol se
cierra. Solución encontrada.
Paso 3. Si todos los elementos de S no son de la misma clase entonces
- se elige una condición de partición para el conjunto S
- se aplica la condición a S (S queda subdividido en dos
subconjuntos (subárboles): los que cumplen la condición y los que
no la cumplen)
- ir al Paso 2 para cada uno de los dos subárboles.
135
Árboles de Decisión (ID3 (Quinlan), C4.5 (Quinlan), CART).
Algoritmo "Divide y Vencerás":
X>0.25
0 1 No Sí
0
Y>0.25
X>0.25 No Sí
X>0.75 X>0.66
No Sí No Sí
X>0.66
X>0.75 Y>0.6
No Sí
1 Y>0.6
Y>0.25
PARTICIÓN
CUADRICULAR.
136
Árboles de Decisión: Ejemplo de C4.5 con datos discretos:
Example Sky Temperature Humidity Wind PlayTennis

1 Sunny Hot High Weak No
2 Sunny Hot High Strong No
3 Overcast Hot High Weak Yes
4 Rain Mild High Weak Yes
5 Rain Cool Normal Weak Yes
6 Rain Cool Normal Strong No
7 Overcast Cool Normal Strong Yes
8 Sunny Mild High Weak No
9 Sunny Cool Normal Weak Yes
10 Rain Mild Normal Weak Yes
11 Sunny Mild Normal Strong Yes
12 Overcast Mild High Strong Yes
13 Overcast Hot Normal Weak Yes
14 Rain Mild High Strong No
137
Árboles de Decisión: Ejemplo de C4.5 con datos discretos:
Outlook?
Sunny Rain
Overcast
Humidity? YES Wind?
High Strong Weak

Normal
NO YES NO YES
Reglas:
Outlook=Sunny AND Humidity=Normal  PlayTenis=si
Outlook=Overcast  PlayTenis=si
Outlook=Rain AND Wind=Weak  PlayTenis=si
Other case PlayTenis='no'
138
Técnicas de clasificación: "vecinos más próximos".
k-NN (Nearest Neighbour):
Paso 1. Se miran los k ejemplos más cercanos (distancia mínima).
Paso 2. Si todos los ejemplos son de la misma clase, el nuevo
ejemplo se clasifica en esa clase.
Paso 3. Si los ejemplos no son de la misma clase, se calcula la
distancia media por clase y se asigna a la de menor distancia, o
bien se asigna a la clase con más elementos.
? Clasifica ? Clasifica
círculo cuadrado
1-nearest neighbor 7-nearest neighbor PARTICIÓN 1-

nearest neighbor
• El valor de k se suele determinar heurísticamente.
(Poliédrica o de Voronoi)
139
Técnicas de clasificación: Naive Bayes
Estas técnicas permiten determinar la probabilidad de que un

nuevo ejemplo sea de una clase. Eligiendo la clase de mayor
probabilidad.
p(E|H)× p(H)
p(H|E)=
p(E)
donde:
- H es la hipótesis,
- E es el ejemplo,
- p(A|B) es la probabilidad del suceso A condicinada al suceso B
140
Una compañia de seguros dispone de los siguientes datos sobre

sus clientes, clasificados en buenos y malos clientes.
ID Edad Hijos Practica- Salario Buen-

deporte cliente
101 joven si no alto si
102 joven no no medio no
103 joven si si medio no
104 joven si no bajo sí
105 mayor si no bajo si
106 mayor no si medio si
107 joven no si medio si
108 joven si si alto si
109 mayor si no medio si
110 mayor no no bajo no
141
Edad Hijos Practica- Salario Buen-
Nuevo ejemplo E: deporte cliente
mayor no no medio ?
Hipótesis H: el nuevo cliente es "buen cliente"
p(edadE|'si') × p(hijosE|'si') × p(practica_deporteE|'si') × p(salarioE|'si')

p('sí'|E)=
p(E)
p(edadE|'si'): se calcula dividiendo el número de ejemplos en la muestra que tienen los

valores edad='mayor' y buen-cliente='si', dividido por el número de ejemplos en la muestra que
tienen el valor buen-cliente='sí'.
p(edad|'si'): 3/7
142
mayor no no medio ?
Hipótesis H: el nuevo cliente es "buen cliente"

p('sí'|E)=
p(E)
p('si'): se calcula como el número de ejemplos en la muestra que tienen el valor buen-
cliente='si', dividido por el número de ejemplos en la muestra.
p('si'): 7/10
143
mayor no no medio ?

p('si'|E)=
p(E)
p(edadE|'no') × p(hijosE|'no') × p(practica_deporteE|'no') × p(salarioE|'no'

p('no'|E)=
p(E)
Se elige la clase para la que la probabilidad de clasificación es mayor.
144

145
4. Evaluación de modelos Modelos
de datos
Evaluación
Conocimiento
Evaluación: Medida de la validez (calidad) del

modelo obtenido por una tarea de DM.
Medidas de validez: dependen de la tarea de

DM aplicada.
146
de datos
Evaluación
Tareas Predictivas.
Conocimiento
Generación de modelos: división del conjunto de ejemplos.

conjunto de entrenamiento (training set): subconjunto de ejemplos
utilizado en la obtención del modelo.
conjunto de prueba o validación (test set): subconjunto de ejemplos
utilizado para validar el modelo obtenido.
147
Modelos
de datos
Tareas Predictivas. Evaluación
Conocimiento

 Validación simple: si se dispone de un conjunto de ejemplos
numeroso, la división se hace equitativamente (50%) y de forma
aleatoria.
 Validación cruzada: se utiliza cuando no se dispone de un conjunto
grande de ejemplos.
148
de datos
Evaluación
Tareas Predictivas.
Conocimiento

Validación cruzada:
- Validación cruzada simple: se divide el conjunto de ejemplos,
aleatoriamente, en dos subconjuntos iguales S1 y S2. Primero se genera
un modelo con S1 y se prueba con S2, obteniendo una medida para la
validez del modelo. Luego se genera otro modelo con S2 y se prueba con
S1, obteniendo una medida de la validez del modelo. Por último se genera
un modelo con todos los datos y se le asocia como medida de validez la
media de las medidas anteriores.
149
de datos
Conocimiento

Validación cruzada:
- Validación cruzada con n pliegues: se divide el conjunto de ejemplos,
aleatoriamente, en n subconjuntos iguales. Un subconjunto se reserva para
la prueba y con los otros n-1 se genera un modelo que será probado con el
subconjunto reservado, obteniendo una medida de la validez del modelo.
Este proceso se repite n veces, reservando en cada ocasión un
subconjunto de prueba distinto. Por último se genera un modelo con todos
los ejemplos y se le asocia como medida de la validez la media de las
medidas de validez anteriores.
150
de datos
Conocimiento
La clasificación
Medida de la validez del modelo: precisión predictiva
X
Precisión =
Y
X: Nro. de ejemplos del conjunto de prueba (ejemplos

etiquetados) clasificadas correctamente por el modelo.
Y: Nro. de ejemplos del conjunto de prueba
151
de datos
Conocimiento
La regresión
Medida de la validez del modelo: error cuadrático medio del valor
predicho por el modelo, respecto al valor real del ejemplo de prueba.
n
(yti - yi )2
1
Error =
n
i=1
Yt : representa el valor devuelto por el modelo para el ejemplo.

Y: representa el valor real para el ejemplo.
n. Número de ejemplos.
152
de datos
Tareas Descriptivas. Evaluación
Conocimiento
El agrupamiento
Medida de la validez del modelo: basadas en el concepto de distancia
Concepto de Similitud: ejemplos similares deben pertenecer al

mismo grupo.
Concepto de Distancia: inversa de similitud.
Definición de Distancia: euclidea, de Manhattan, de Chebychev,
del coseno, por diferencia, ..
153
de datos
Conocimiento
El agrupamiento
Medida de la validez del modelo: basadas en el concepto de distancia
las medidas de validez son función de la cohesión de los

grupos y de la separación entre ellos.
la cohesión se puede medir por la distancia de los miembros
de un grupo al centro del grupo.
la separación entre grupos se puede medir calculando la
distancia media entre grupos.
154
de datos
Conocimiento
La asociación
Se mide la validez de cada una de las reglas de asociación generadas.
Medidas de la validez:
Cobertura (support): Nro. de ejemplos del conjunto de prueba a los
que la regla se aplica (antecedente cierto) y funciona
correctamente (consecuente cierto).
Confianza (confidence/accuracy): Proporción del nro. de ejemplos
del conjunto de prueba para los que la regla funciona
correctamente
155
de datos
Conocimiento
La asociación
n: nro. de ejemplos
na: nro. de ejemplos a los que se aplica una regla (antecedente cierto)
nc: nro. ejemplos para los que la regla funciona correctamnete
(antecedente cierto y consecuente cierto)
Cobertura relativa = nc / n
Cobertura absoluta = nc
Confianza = nc / na
156
de datos
Conocimiento
La asociación
Cobertura relativa = nc / n
Cobertura absoluta = nc
Confianza = nc / na
Valores deseables:
Cobertura absoluta: > 20, Cobertura relativa: 0.5 (50%)
Confianza: 0.95 (95%)
157
...

lechugas"
158
...
R1 : pañales='si'  leche='si' (Confianza=1)

R2 : huevos='si'  aceite ='si' (Confianza=0.5)
R3 : vino='si'  salmón='si'  lechugas ='si' (Confianza=0.3)
159
Ejemplo: .
DNI Renta Familiar Ciudad Profesión Edad Hijos Obeso Casado
11251545 5.000.000 Barcelona Ejecutivo 45 3 S S
30512526 1.000.000 Melilla Abogado 25 0 S N
22451616 3.000.000 León Ejecutivo 35 2 S S
25152516 2.000.000 Valencia Camarero 30 0 S S
23525251 1.500.000 Benidorm Animador 30 0 N N
Parque
Temático
Reglas de asociación:
R1: Casado  Hijos > 0 (Confianza: 0.8, Soporte: 4 casos).
R2: Obeso  Casado (Confianza: 0.8, Soporte: 4 casos)
R3: Hijos > 0  Casado (Confianza: 1, Soporte: 2 casos).
R4: Casado  Obeso (Confianza: 1, Soporte: 3 casos)
160

Mineria de Datos y Data Warehouse

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Mineria de Datos y Data Warehouse

Transféré par

Droits d'auteur :

Formats disponibles

DATA MINING

1. Introducción a la Minería de Datos (DM)

1. Introducción a la Minería de Datos (DM)

Situación actual: uso extendido de los SGBD

 las organizaciones almacenan grandes volúmenes de datos con

La organizaciones exigen nuevas prestaciones

Tecnología de almacenes de datos

Disponer de bases de datos que permitan extraer conocimiento

análisis de la previsiones de diseño de

* DSS: Decision Support Systems

Datos Op. 1 Herramientas

de Almacén de Datos copias

consultas (informes) muy

DW Los datos por sí sólos tienen un valor relativo,

Estas herramientas no son capaces de extraer

Las herramientas de minería de datos permiten

Herramientas patrones, pautas,

- Porcentaje de enfermos que han sido tratados

El sistema encuentra y sugiere

válido: el conocimiento obtenido debe ser preciso ("correcto")

Ejemplo1: análisis de riesgo en préstamos bancarios.

ID D-crédito C-crédito Salario Casa Cuentas ... Devuelto-

ID D-crédito C-crédito Salario Casa Cuentas ... Devuelto-

A partir de estos datos, las técnicas de DM podrían generar un

ID D-crédito C-crédito Salario Casa Cuentas ... Devuelto-

Ejemplo2: análisis de la cesta de la compra.

A partir de estos datos, las técnicas de DM podrían generar un

Algunas asociaciones que se observan en los datos son:

Ejemplo3: previsión de ventas.

ID Descripción mes-12 ... ... mes-4 mes-3 mes-2 mes-1

ID Descripción mes-12 ... ... mes-4 mes-3 mes-2 mes-1

A partir de estos datos, las técnicas de DM podrían generar un

Ejemplo4: definir grupos diferenciados de empleados.

• GRUPO 1: Solteros, sin hijos y de alquiler. Poco sindicados. Muchas bajas.

Ejemplo5: análisis de visitas.

A partir de los datos de estos siete factores para un conjunto de

Ejemplo5: análisis de visitas.

Salud Necesidad Transporte Niños Laboral Satisfacción Cita Asistencia

El coeficiente de correlación r (r[-1 ... 1]) se interpreta de la siguiente

Relación de DM con otras disciplinas:

Relación de DM con otras disciplinas:

•aprendizaje automático / IA.

•computación paralela / distribuida.

Relación de DM con otras disciplinas:

− conceptos: media, varianza, desviación, ...

• aprendizaje automático / IA: ha proporcionado los

Relación de DM con otras disciplinas:

- visualización previa: comprender mejor los datos y decidir

• recuperación de información (Information

Relación de DM con otras disciplinas:

− sistemas de DW, herramientas de OLAP

• computación paralela / distribuida: los avances en

• Aplicaciones financieras y de banca:

• Análisis de mercado, distribución y comercio:

1. Introducción a la Minería de Datos (DM)

Fuentes de datos Fuentes de datos

La “calidad del conocimiento extraido” en el proceso de KDD

Fuentes de datos Fuentes de datos

La selección de datos es una de las tareas más importantes en la fase de

Decisiones previas a la fase de DM

Ejemplo 1: análisis de riesgo en préstamos bancarios.

Técnica ... Técnica Modelo de los

Algoritmo ... Algoritmo