Vous êtes sur la page 1sur 160

DATA MINING

Y
DATA WAREHOUSING

Abril-2008 1
Parte inicial
DATA MINING

Mladen W. Nadinic
2
Minería de Datos (Data Mining)

1. Introducción a la Minería de Datos (DM)


2. El proceso de KDD
3. Técnicas de Minería de Datos
4. Evaluación de modelos

3
Bibliografía
Berry M.J.A.; Linoff, G.S. “Mastering Data Mining”, Wiley, 2000.
Berthold, M.; Hand, D.J. (ed). “Intelligent Data Analysis. An Introduction” ( 2nd ed.),
Springer, 2002.
Dunham, M.H. “Data Mining. Introductory and Advanced Topics”, Prentice Hall,
2003.
Dzeroski, S.; Lavrac, N. “Relational Data Mining”, Springer, 2001.
Etzioni, O. “The World- Wide Web. Quagmire or Gold Mine” Communications of the
ACM, November 1996, Vol. 39, nº 11, 1996.
Fayyad, U.M.; Piatetskiy-Shapiro, G.; Smith, P.; Ramasasmy, U. “Advances in
Knowledge Discovery and Data Mining”, AAAI Press / MIT Press, 1996.
Fayyad, U.M.; Grinstein, G.; Wierse, A., “Information Visualization in Data Mining
and Knowledge Discovery”, Morgan Kaufmann, Harcourt Intl, 2001.
Han, J.; Kamber, M. “Data Mining: Concepts and Techniques”, Morgan Kaufmann,
2001.
Hernández, J. et al. “Introducción a la Minería de Datos”, Prentice-Hall, 2004.

4
Minería de Datos (Data Mining)

1. Introducción a la Minería de Datos (DM)


2. El proceso de KDD
3. Técnicas de Minería de Datos
4. Evaluación de modelos

5
1. Introducción a la Minería de datos (DM)
Situación actual de la tecnología de gestión de datos.
1970 evolución de la tecnología de gestión de datos 2000

- SGBD eficientes
- SGBD robustos
- lenguajes y herramientas de uso de alto nivel

Situación actual: uso extendido de los SGBD


 BD son el soporte del Sistema de Información de las
organizaciones
 BD son diseñadas para dar soporte (eficiente) a las funciones
básicas de la organización (ventas, producción, personal...)
SISTEMAS OPERACIONALES (OLTP On Line Transaction Processing)

 las organizaciones almacenan grandes volúmenes de datos con


información histórica

6
1. Introducción a la Minería de datos (DM)
Una vez satisfecha la necesidad de tener un
soporte informático para los procesos básicos de
la organización: sistemas de información para la
gestión.

La organizaciones exigen nuevas prestaciones


de los sistemas de información: sistemas de
información para la toma de decisiones.

Tecnología de almacenes de datos

7
1. Introducción a la Minería de datos (DM)
Almacenes de datos (AD) (data warehouse)

motivación
Disponer de Sistemas de
Información de apoyo a la
toma de decisiones*

Disponer de bases de datos que permitan extraer conocimiento


de la información histórica almacenada en la organización
objetivos

análisis de la previsiones de diseño de


organización evolución estrategias

* DSS: Decision Support Systems

8
1. Introducción a la Minería de datos (DM)

SAD gestor
del AD

Datos Op. 1 Herramientas


de consultas
metadatos e informes
datos
gestor de agregados gestor de
carga consultas

datos
Datos Op. 2 agregados

datos de Herramientas
de OLAP
detalle AD
gestor
del AD
área de
Datos Op. 3
almacenamiento
intermedio

Herramientas
Arquitectura de un sistema de Data Mining

de Almacén de Datos copias

9
1. Introducción a la Minería de datos (DM)
- visión relacional de los datos
- ejecución de consultas SQL sobre el esquema relacional
Herramientas - preparación de los resultados de la consulta: informe
de consultas
e informes  clasificación y agrupación de filas
 cálculo de totales por grupos
 adición de datos calculados
DW
Herramientas
de OLAP

consultas (informes) muy


estáticos

Herramientas
de Data Mining

10
1. Introducción a la Minería de datos (DM)

Herramientas
de consultas - visión multidimensional de los datos
e informes
- ejecución de consultas sobre el esquema multidimensional
- navegación sobre las consultas: DRILL DOWN, ROLL UP
DW - facilidades para (dinámicamente):
Herramientas  aplicar filtros a los datos seleccionados
de OLAP
 calcular funciones estadísticas (totales, porcentajes, ...)
 resumir (agregar) o refinar (disgregar) los datos seleccionados
 algunas funciones adicionales (rango, ...)

Herramientas
de Data Mining
consultas (informes) muy
dinámicos
11
1. Introducción a la Minería de datos (DM)
Presentación (mas o menos sofisticada)
de los datos almacenados
Herramientas
de consultas
e informes
exploración de los datos

DW Los datos por sí sólos tienen un valor relativo,


Herramientas lo que de verdad es interesante es el
de OLAP conocimiento que se puede inferir de ellos.

Estas herramientas no son capaces de extraer


conocimiento de los datos consultados:
Herramientas
patrones, tendencias, pautas, ..., que permitan
de Data Mining hacer previsiones y tomar decisiones.

12
1. Introducción a la Minería de datos (DM)

Herramientas
de consultas
e informes

Las herramientas de minería de datos permiten


DW Herramientas extraer conocimiento a partir de los datos
de OLAP almacenados.

datos conocimiento

Herramientas patrones, pautas,


de Data Mining DW reglas, ...

13
1. Introducción a la Minería de datos (DM)
En el contexto de un Servicio Público de Salud:

- Porcentaje de enfermos que han sido tratados


Herramientas
de consultas de gripe este año.
e informes
- Número de pacientes de gripe durante este año,
por franjas de edad.
- Crecimiento porcentual de casos de gripe en
Herramientas este año respecto al año anterior.
de OLAP

DW
- Número de casos de gripe previsibles para los
próximos años.
- Perfiles de pacientes sensibles a la gripe
Herramientas (grupos de riesgo).
de Data Mining
- Relación de la gripe con otras enfermedades.

14
1. Introducción a la Minería de datos (DM)

Herramientas
de consultas
e informes
información extensional
(datos)

Herramientas
de OLAP
DW

información intensional
Herramientas (conocimiento)
de Data Mining

15
1. Introducción a la Minería de datos (DM)

Herramientas
de consultas El analista parte de una pregunta o
e informes hipótesis, explora los datos y valida
o rechaza su hipótesis hasta
construir su modelo de los datos.
Herramientas (proceso deductivo)
de OLAP
DW

El sistema encuentra y sugiere


Herramientas
modelos de los datos.
de Data Mining
(proceso inductivo)

16
1. Introducción a la Minería de datos (DM)

Herramientas
de consultas
e informes

Herramientas
de OLAP
DW

Proceso inductivo:
Razonamiento hipotético de casos
particulares (ejemplos) a casos
Herramientas
de Data Mining
generales (reglas)

17
1. Introducción a la Minería de datos (DM)
Minería de datos [Witten & Frank 2000]: proceso de
extracción de conocimiento válido, útil, comprensible, y
desconocido, a partir de datos almacenados.

válido: el conocimiento obtenido debe ser preciso ("correcto")


para nuevos conjuntos de datos (no sólo para el conjunto utilizado
en su obtención).
útil: el conocimiento obtenido debe servir a la organización para
tomar decisiones que le reporten algún beneficio.
comprensible: el conocimiento obtenido debe ser fácil de
interpretar y usar.
novedoso: el conocimiento obtenido debe aportar a la
organización, información desconocida hasta ese momento.

18
1. Introducción a la Minería de datos (DM)

Ejemplo1: análisis de riesgo en préstamos bancarios.


Un banco desea disponer de un modelo que le permita predecir qué
tipo de clientes podrían no devolver un préstamo solicitado. La
entidad dispone de información sobre préstamos anteriores, así como
datos personales de los titulares de esos préstamos.

ID D-crédito C-crédito Salario Casa Cuentas ... Devuelto-


(años) (euros) (euros) propia morosas préstamo
101 15 60.000 2.200 sí 2 no
102 2 30.000 3.500 sí 0 sí
103 9 9.000 1.700 sí 1 no
104 15 18.000 1.900 no 0 sí
105 10 24.000 2.100 no 0 no
... ... ... ... ... ... ...

19
1. Introducción a la Minería de datos (DM)
Ejemplo1: análisis de riesgo en préstamos bancarios.

ID D-crédito C-crédito Salario Casa Cuentas ... Devuelto-


(años) (euros) (euros) propia morosas préstamo
101 15 60.000 2.200 sí 2 no
102 2 30.000 3.500 sí 0 sí
103 9 9.000 1.700 sí 1 no
104 15 18.000 1.900 no 0 sí
105 10 24.000 2.100 no 0 no
... ... ... ... ... ... ...

A partir de estos datos, las técnicas de DM podrían generar un


modelo de los datos, consistente en un conjunto de reglas, que
permitiesen predecir en el futuro, el posible comportamiento de un
cliente que solicitase un préstamo.

20
1. Introducción a la Minería de datos (DM)
Ejemplo1: análisis de riesgo en préstamos bancarios.

ID D-crédito C-crédito Salario Casa Cuentas ... Devuelto-


(años) (euros) (euros) propia morosas préstamo
101 15 60.000 2.200 sí 2 no
102 2 30.000 3.500 sí 0 sí
103 9 9.000 1.700 sí 1 no
104 15 18.000 1.900 no 0 sí
105 10 24.000 2.100 no 0 no
... ... ... ... ... ... ...

Para nuestro
estudio, existen dos
clases de cliente: los
Las reglas generadas en el proceso de DM, deben que devuelven los
préstamos y los que
predecir la clase de un cliente (variable objetivo) a no los devuelven.
partir de sus características (variables predictivas).

21
1. Introducción a la Minería de datos (DM)
Ejemplo1: análisis de riesgo en préstamos bancarios.
ID D-crédito C-crédito Salario Casa Cuentas ... Devuelto-
(años) (euros) (euros) propia morosas préstamo
101 15 60.000 2.200 sí 2 no
102 2 30.000 3.500 sí 0 sí
103 9 9.000 1.700 sí 1 no
104 15 18.000 1.900 no 0 sí
105 10 24.000 2.100 no 0 no
... ... ... ... ... ... ...

Regla 1:
Si cuentas-morosas > 0 entonces devuelve-préstamo = no

Regla 2:
Si cuentas-morosas = 0 Y ( salario>2.500 O D-credito>10)
entonces devuelve-préstamo = sí
...
22
1. Introducción a la Minería de datos (DM)

Ejemplo2: análisis de la cesta de la compra.


Un supermercado desea obtener información sobre los hábitos de
compra de sus clientes, con el objetivo de mejorar la ubicación de los
productos en el local. La organización dispone de información
reciente sobre los productos adquiridos en las compras realizadas
por los clientes.
ID Huevos Aceite Pañales Vino Leche Mantequilla Salmón Lechugas ...
1 sí no no sí no sí sí sí
2 no sí no no sí no no sí
3 no no sí no sí no no no
4 no sí sí no sí no no no
5 sí sí no no no sí no sí
6 sí no no sí sí sí sí no
7 no no no no no no no no
8 sí sí sí sí sí sí sí no
...

23
1. Introducción a la Minería de datos (DM)
Ejemplo2: análisis de la cesta de la compra.
ID Huevos Aceite Pañales Vino Leche Mantequilla Salmón Lechugas ...
1 sí no no sí no sí sí sí
2 no sí no no sí no no sí
3 no no sí no sí no no no
4 no sí sí no sí no no no
5 sí sí no no no sí no sí
6 sí no no sí sí sí sí no
7 no no no no no no no no
8 sí sí sí sí sí sí sí no
...

A partir de estos datos, las técnicas de DM podrían generar un


modelo de los datos, consistente en un conjunto de reglas de
asociación entre los productos que con frecuencia son adquiridos
conjuntamente. Este modelo proporcionaría una descripción "mas
significativa" de los datos disponibles.

24
1. Introducción a la Minería de datos (DM)
Ejemplo2: análisis de la cesta de la compra.
ID Huevos Aceite Pañales Vino Leche Mantequilla Salmón Lechugas ...
1 sí no no sí no sí sí sí
2 no sí no no sí no no sí
3 no no sí no sí no no no
4 no sí sí no sí no no no
5 sí sí no no no sí no sí
6 sí no no sí sí sí sí no
7 no no no no no no no no
8 sí sí sí sí sí sí sí no
...

Algunas asociaciones que se observan en los datos son:


"El 100% de las veces que se compran pañales también se compra leche"
"El 50% de las veces que se compran huevos también se compra aceite"
"El 33% de las veces que se compran vino y salmón también se compran
lechugas"

25
1. Introducción a la Minería de datos (DM)

Ejemplo3: previsión de ventas.


Una cadena de tiendas de electrodomésticos desea optimizar el
funcionamiento de su almacén, manteniendo un stock de cada
producto que sea suficiente para poder servir rápidamente los
pedidos de sus clientes. La organización dispone de información
sobre las ventas de cada producto en cada mes del último año.

ID Descripción mes-12 ... ... mes-4 mes-3 mes-2 mes-1


1 televisor 20 52 14 139 74
2 video 11 ... ... 43 32 26 59
3 MP3 50 ... ... 61 14 5 28
4 frigorífico 3 ... ... 21 27 1 49
5 microondas 14 ... ... 27 2 25 12
6 ... ... ... ... ... ... ... ...

26
1. Introducción a la Minería de datos (DM)
Ejemplo3: previsión de ventas.

ID Descripción mes-12 ... ... mes-4 mes-3 mes-2 mes-1


1 televisor 20 52 14 139 74
2 video 11 ... ... 43 32 26 59
3 MP3 50 ... ... 61 14 5 28
4 frigorífico 3 ... ... 21 27 1 49
5 microondas 14 ... ... 27 2 25 12
6 ... ... ... ... ... ... ... ...

A partir de estos datos, las técnicas de DM podrían generar un


modelo de los datos, consistente en un conjunto de funciones, que
permitiesen predecir el número de unidades, de cada producto, que
serán vendidas el próximo mes en función de sus ventas en los
meses anteriores.

27
1. Introducción a la Minería de datos (DM)
Ejemplo3: previsión de ventas.
ID Descripción mes-12 ... ... mes-4 mes-3 mes-2 mes-1
1 televisor 20 52 14 139 74
2 video 11 ... ... 43 32 26 59
3 MP3 50 ... ... 61 14 5 28
4 frigorífico 3 ... ... 21 27 1 49
5 microondas 14 ... ... 27 2 25 12
6 ... ... ... ... ... ... ... ...

ventas

producto 5

mes

28
1. Introducción a la Minería de datos (DM)

Ejemplo4: definir grupos diferenciados de empleados.


El departamento de recursos humanos de una gran empresa, desea
categorizar a sus empleados en distintos grupos, con el objetivo de
establecer una trato personalizado con ellos y definir las políticas
sociales de la empresa. La organización dispone en sus bases de
datos de información sobre sus empleados.

29
1. Introducción a la Minería de datos (DM)
Ejemplo4: definir grupos diferenciados de empleados.
ID Sueldo Casado Coche Hijos Alq/Prop Sindic. Bajas/Año Antigüedad Sexo
1 10000 Sí No 0 Alquiler No 7 15 H
2 20000 No Sí 1 Alquiler Sí 3 3 M
3 15000 Sí Sí 2 Propietario Sí 5 10 H
4 30000 Sí Sí 1 Alquiler No 15 7 M
5 10000 Sí Sí 0 Propietario Sí 1 6 H
6 40000 No Sí 0 Alquiler Sí 3 16 M
7 25000 No No 0 Alquiler Sí 0 8 H
8 20000 No Sí 0 Propietario Sí 2 6 M
9 20000 Sí Sí 3 Propietario No 7 5 H
10 30000 Sí Sí 2 Propietario No 1 20 H
11 50000 No No 0 Alquiler No 2 12 M
12 8000 Sí Sí 2 Propietario No 3 1 H
13 20000 No No 0 Alquiler No 27 5 M
14 10000 No Sí 0 Alquiler Sí 0 7 H
15 8000 No Sí 0 Alquiler No 3 2 H

30
1. Introducción a la Minería de datos (DM)
Ejemplo4: definir grupos diferenciados de empleados.
ID Sueldo Casado Coche Hijos Alq/Prop Sindic. Bajas/Año Antigüedad Sexo
1 10000 Sí No 0 Alquiler No 7 15 H
2 20000 No Sí 1 Alquiler Sí 3 3 M
3 15000 Sí Sí 2 Prop Sí 5 10 H
4 30000 Sí Sí 1 Alquiler No 15 7 M
5 10000 Sí Sí 0 Prop Sí 1 6 H
6 40000 No Sí 0 Alquiler Sí 3 16 M
7 25000 No No 0 Alquiler Sí 0 8 H
8 20000 No Sí 0 Prop Sí 2 6 M
9 20000 Sí Sí 3 Prop No 7 5 H
10 30000 Sí Sí 2 Prop No 1 20 H
A11partir
50000de No No
estos datos, 0las técnicas
Alquiler deNo DM podrían
2 12
generar un M
12 8000
modelo de Sí Sí
los datos, 2 Prop
consistente No
en un 3
conjunto 1
de grupos de H
13 20000 No No 0 Alquiler No 27 5 M
empleados
14 10000 No con características
Sí 0 similares.
Alquiler Sí Este 0 modelo7 proporcionaría
H
una descripción
15 8000 No "mas
Sí significativa"
0 Alquiler deNolos datos
3 disponibles.
2 H

31
1. Introducción a la Minería de datos (DM)
Ejemplo4: definir grupos diferenciados de empleados.
Grupo 1: 5 ejemplos Grupo 2: 4 ejemplos Grupo 3: 6 ejemplos
Sueldo : 22600 Sueldo : 22500 Sueldo : 18833
Casado : No -> 0.8 Casado : No -> 1.0 Casado : Sí -> 1.0
Sí -> 0.2 Coche : Sí -> 1.0 Coche : Sí -> 1.0
Coche : No -> 0.8 Hijos : 0 Hijos : 2
Sí -> 0.2 Alq/Prop : Alquiler -> 0.75 Alq/Prop : Alquiler -> 0.17
Hijos : 0 Prop -> 0.25 Prop -> 0.83
Alq/Prop : Alquiler -> 1.0 Sindic. : Sí -> 1.0 Sindic. : No -> 0.67
Sindic. : No -> 0.8 Bajas/Año : 2 Sí -> 0.33
Sí -> 0.2 Antigüedad : 8 Bajas/Año : 5
Bajas/Año : 8 Sexo : H -> 0.25 Antigüedad : 8
Antigüedad : 8 M -> 0.75 Sexo : H -> 0.83
Sexo : H -> 0.6 M -> 0.17
M -> 0.4

• GRUPO 1: Solteros, sin hijos y de alquiler. Poco sindicados. Muchas bajas.


• GRUPO 2: Solteros, sin hijos y de alquiler. Muy sindicados. Pocas bajas. Normalmente mujeres.
• GRUPO 3: Casados, con hijos y propietarios. Poco sindicados. Normalmente hombres.

32
1. Introducción a la Minería de datos (DM)

Ejemplo5: análisis de visitas.


Un Centro de Salud, desea analizar los factores que influyen en la asistencia
(visita) de un paciente al Centro de Salud.

Factores:
 Salud: salud del paciente (capacidad para acudir al centro). (1-10)
 Necesidad: convicción del paciente de que la visita es importante. (1-10)
 Transporte: disponibilidad de transporte para trasladarse al centro. (1-10)
 Niños: disponibilidad de dejar a los niños. (1-10)
 Laboral: posibilidad de darse de baja laboral. (1-10)
 Satisfacción: satisfacción del paciente con su médico. (1-10)
 Cita: facilidad del paciente para concertar una cita. (1-10)
 Asistencia: indica si el paciente se ha pasado por el Centro de Salud durante
el último año (0: se ha pasado, 1: no se ha pasado).

33
1. Introducción a la Minería de datos (DM)
Ejemplo5: análisis de visitas.
ID Salud Necesidad Transporte Niños Laboral Satisf. Cita Asistencia
1 4 5 1 10 10 8 1
2 4 8 1 1 6 2 0
3 6 10 1 8 1 6 8 1

A partir de los datos de estos siete factores para un conjunto de


pacientes, las técnicas de DM podrían generar un modelo de los
datos consistente en un cuadro de relaciones entre los factores y
la asistencia (o no asistencia) del paciente al Centro de Salud.
Este modelo proporcionaría una descripción "mas significativa"
de los datos disponibles

34
1. Introducción a la Minería de datos (DM)

Ejemplo5: análisis de visitas.


El cuadro de correlaciones obtenido es:

Salud Necesidad Transporte Niños Laboral Satisfacción Cita Asistencia


Salud 1
Necesidad -0.7378 1
Transporte 0.3116 -0.1041 1
Niños 0.3116 -0.1041 1 1
Laboral 0.2771 0.0602 0.6228 0.6228 1
Satisfacción 0.22008 -0.1337 0.6538 0.6538 0.6257 1
Cita 0.3887 -0.0334 0.6504 0.6504 0.6588 0.8964 1
Asistencia 0.3955 -0.5416 -0.5031 -0.5031 -0.7249 -0.3988 -0.3278 1

El coeficiente de correlación r (r[-1 ... 1]) se interpreta de la siguiente


forma: si r es positivo los atributos tienen un comportamiento similar
(ambos crecen o ambos decrecen al mismo tiempo), si r es negativo
cuando un atributo crece el otro decrece, si r es cero no existe
relación entre ambos atributos.

35
1. Introducción a la Minería de datos (DM)

Relación de DM con otras disciplinas:


• estadística.
• aprendizaje automático / IA.
• visualización de datos.
• recuperación de información (Information Retrieval).
• computación paralela / distribuida.
• bases de datos.

36
1. Introducción a la Minería de datos (DM)

Relación de DM con otras disciplinas:


•estadística.
técnicas de DM

•aprendizaje automático / IA.


•visualización de datos.
•recuperación de información (Information Retrieval).
tecnológico

•computación paralela / distribuida.


soporte

•bases de datos.

37
1. Introducción a la Minería de datos (DM)

Relación de DM con otras disciplinas:


• estadística: ha proporcionado muchos conceptos, técnicas y
algorítmos utilizados en DM:
técnicas de DM

− conceptos: media, varianza, desviación, ...


− técnicas: regresión lineal y no lineal, modelización
paramétrica y no paramétrica, técnicas bayesianas, ...

• aprendizaje automático / IA: ha proporcionado los


principios y algoritmos para el aprendizaje de modelos a partir de
ejemplos.

38
1. Introducción a la Minería de datos (DM)

Relación de DM con otras disciplinas:


• visualización de datos: ha proporcionado técnicas de
representación visual de datos, útiles en DM:
técnicas de DM

- visualización previa: comprender mejor los datos y decidir


posibles tareas de DM a utilizar.
- visualización posterior: mostrar a los usuarios, los patrones
obtenidos en el proceso de DM de una forma inteligible.

• recuperación de información (Information


Retrieval): ha proporcionado técnicas y algoritmos para la
extracción de información a partir de datos textuales, útiles para
algunas aplicaciones de DM.

39
1. Introducción a la Minería de datos (DM)

Relación de DM con otras disciplinas:


• bases de datos: los avances en tecnología de gestión de datos
han favorecido el desarrollo del DM (mejora de la eficiencia de los
algoritmos)
soporte tecnológico

− sistemas de DW, herramientas de OLAP


− técnicas de optimización de consultas
− técnicas de indexación, ...

• computación paralela / distribuida: los avances en


computación paralela y distribuida han favorecido el desarrollo del DM:
el coste computacional de las tareas de DM se reparte entre varios
procesadores (escabilidad de las soluciones).

40
1. Introducción a la Minería de datos (DM)
Áreas de Aplicación

• Aplicaciones financieras y de banca:


− obtención de patrones de uso fraudulento de tarjetas.
− obtención de perfiles de clientes en el uso de tarjetas.
− obtención de correlaciones entre indicadores financieros.
− análisis de riesgos en la concesión de préstamos, ...

• Análisis de mercado, distribución y comercio:


− análisis de la cesta de la compra.
− evaluación de campañas publicitarias.
− obtención de perfiles de clientes.
− análisis de la fidelidad de los clientes, ...

41
1. Introducción a la Minería de datos (DM)
Áreas de Aplicación

• Seguros:
− identificación de clientes potencialmente caros.
− identificación de clientes que pueden contratar nuevas pólizas.
− identificación de clientes con comportamiento fraudulento...

• Medicina:
− diagnóstico de enfermedades.
− grupos de riesgo para distintas patologías.
− recomendación priorizada de fármacos.
− gestión de servicios sanitarios, ...

42
1. Introducción a la Minería de datos (DM)
Áreas de Aplicación

• Otros sectores:
− compañías de servicios: telecomunicaciones, agua, gas, ....
− correo electrónico, agendas personales.
− turismo
− tráfico
− uso de web
− ...

43
Minería de Datos (Data Mining)

1. Introducción a la Minería de Datos (DM)


2. El proceso de KDD
3. Técnicas de Minería de Datos
4. Evaluación de modelos

44
2. El proceso de KDD
KDD (Knowledge Discovery in Databases)
El proceso de KDD (extracción de conocimiento en bases de
datos) es el proceso global que permite la extracción de
conocimiento a partir de datos almacenados.
Sistemas de
Información

Preparación de
los Datos

Minería de Datos
KDD

Patrones

Evaluación /
Interpretación /
Visualización

Conocimiento

45
Fuentes de datos
Extracción
ETL Limpieza
Transformación
2. El proceso de KDD

Data
Warehouse
Selección
Preparación Limpieza
de los datos
Transformación
Vista
minable

Minería de
datos

Modelos
de datos

Evaluación

Conocimiento Decisiones
Difusión y
uso

46
Fuentes de datos
Extracción
ETL Limpieza
Transformación
2. El proceso de KDD

Data
Warehouse 1
Selección
Preparación Limpieza
de los datos
Transformación
Vista
minable
2

Minería de
datos

Modelos
de datos
3
Evaluación

Conocimiento Decisiones
Difusión y
uso 4
47
2. El proceso de KDD
Fase de preparación de los datos.

Fuentes de datos Fuentes de datos


Extracción
ETL Limpieza
Extracción
Transformación
Preparación
Limpieza
Data de los datos Transformación
Warehouse Selección
Selección
Preparación
Limpieza
de los datos
Transformación
Vista Vista
minable Vista minable: subconjunto de
minable
los datos sobre el que se va a
aplicar una técnica de DM.

La “calidad del conocimiento extraido” en el proceso de KDD


no depende sólo de la técnica de DM utilizada, depende
también de la calidad de los datos utilizados.

48
2. El proceso de KDD
Fase de preparación de los datos.

Fuentes de datos Fuentes de datos


Extracción
ETL Limpieza
Extracción
Transformación
Preparación
Limpieza
Data de los datos Transformación
Warehouse Selección
Selección
Preparación
Limpieza
de los datos
Transformación
Vista Vista
minable minable
Estas actividades de
preparación de los datos
dependen de la tarea de DM
que se vaya a realizar y de los
requisitos de la técnica o del
algoritmo utilizado.

49
2. El proceso de KDD
Fase de preparación de los datos.
Fuentes de datos Fuentes de datos
Extracción
ETL Limpieza
Extracción
Transformación
Preparación
Limpieza
Data de los datos Transformación
Warehouse Selección
Selección
Preparación
Limpieza
de los datos
Transformación
Vista Vista
minable minable

La selección de datos es una de las tareas más importantes en la fase de


preparación de los datos:
• selección vertical: los atributos (campos) seleccionados deben ser significativos para el
conocimiento que se desea obtener y la tarea de DM que se pretende realizar.
• selección horizontal: a veces es suficiente realizar la tarea de DM sobre un subconjunto (muestra)
de los datos disponibles.

50
2. El proceso de KDD
Fase de Minería de Datos.

Vista
minable

Minería de
datos

Modelos
de datos

Descripción de los
Minería de datos: extracción de Modelo de patrones o relaciones
conocimiento a partir de datos los datos existentes en los datos.
almacenados.

51
2. El proceso de KDD Vista
minable
Fase de Minería de Datos.
Minería de
datos

Modelos
de datos

Decisiones previas a la fase de DM


 analizar el tipo de conocimiento que se desea obtener.
 determinar la tarea de DM que es mas apropiada para extraer
dicho conocimiento.
 elegir una técnica de DM para realizar la tarea.
 elegir el algoritmo mas adecuado para aplicar la técnica de DM
elegida.

52
2. El proceso de KDD Vista
minable
Fase de Minería de Datos.
Minería de
datos

Modelos
de datos

Ejemplo 1: análisis de riesgo en préstamos bancarios.


 se desea poder predecir si un cliente devolverá o no un préstamo.
 la clasificación de los clientes en "clientes de confianza" y "clientes de
riesgo" a partir de sus caracterísiticas, sería una tarea de DM adecuada
para la obtención del conocimiento que se busca.
 la técnica de generación de reglas en forma de árboles de decisión
puede producir un modelo de datos sencillo y comprensible para los
empleados.
 los algoritmo CART o C5.0 son algoritmos para la generación de
árboles de decisión disponibles en el sistema de DM de la organización.

53
2. El proceso de KDD Vista
minable
Fase de Minería de Datos.
Minería de
datos

Modelos
de datos

Tarea de Tipo de
DM Problema
conocimiento

Técnica ... Técnica Modelo de los


de DM de DM datos

Algoritmo ... Algoritmo

54
2. El proceso de KDD Vista
minable
Fase de Minería de Datos.
Minería de
datos

Modelos
Predictivas de datos

Estimación de valores futuros


o desconocidos de variables
de interés (variable objetivo) a
Ejemplos: 1 y 3
Tareas de DM

partir de otras variables


independientes (predictivas).
Descriptivas

Identificación de patrones
en los datos que los Ejemplos: 2, 4 y 5
explican o resumen.

55
2. El proceso de KDD Modelos
de datos

Fase de Evaluación. Evaluación

Conocimiento

Principio ("escandalo") de la Inducción:


Las hipótesis inducidas se pueden
refutar, pero no se pueden confirmar.

56
2. El proceso de KDD Modelos
de datos

Fase de Evaluación. Evaluación

Conocimiento

Evaluación: Medida de la validez (calidad) del


modelo obtenido por una tarea de DM.

Medidas de validez: dependen de la tarea de


DM aplicada.

57
2. El proceso de KDD
Ejemplo2: análisis de la cesta de la compra.
ID Huevos Aceite Pañales Vino Leche Mantequilla Salmón Lechugas ...
1 sí no no sí no sí sí sí
2 no sí no no sí no no sí
3 no no sí no sí no no no
4 no sí sí no sí no no no
5 sí sí no no no sí no sí
6 sí no no sí sí sí sí no
7 no no no no no no no no
8 sí sí sí sí sí sí sí no
...

A partir de estos datos, las técnicas de DM podrían generar un


modelo de los datos, consistente en un conjunto de reglas de
asociación entre los productos que con frecuencia son adquiridos
conjuntamente. Este modelo proporcionaría una descripción "mas
significativa" de los datos disponibles.

58
2. El proceso de KDD
Ejemplo2: análisis de la cesta de la compra.
ID Huevos Aceite Pañales Vino Leche Mantequilla Salmón Lechugas ...
1 sí no no sí no sí sí sí
2 no sí no no sí no no sí
3 no no sí no sí no no no
4 no sí sí no sí no no no
5 sí sí no no no sí no sí
6 sí no no sí sí sí sí no
7 no no no no no no no no
8 sí sí sí sí sí sí sí no
...

Algunas asociaciones que se observan en los datos son:


"El 100% de las veces que se compran pañales también se compra leche"
"El 50% de las veces que se compran huevos también se compra aceite"
"El 33% de las veces que se compran vino y salmón también se compran
lechugas"

59
2. El proceso de KDD
Ejemplo2: análisis de la cesta de la compra.

Algunas asociaciones que se observan en los datos son:


"El 100% de las veces que se compran pañales también se compra leche"
"El 50% de las veces que se compran huevos también se compra aceite"
"El 33% de las veces que se compran vino y salmón también se compran
lechugas"

¿Cuál es la validez de estas reglas?


¿Qué garantía tenemos de no equivocarnos si tomamos
decisiones usando estas reglas?

60
2. El proceso de KDD
Ejemplo2: análisis de la cesta de la compra.
Algunas asociaciones que se observan en los datos son:
"El 100% de las veces que se compran pañales también se compra leche"
"El 50% de las veces que se compran huevos también se compra aceite"
"El 33% de las veces que se compran vino y salmón también se compran
lechugas"

La primera regla tiene una confianza del 100%, es decir en todos


los ejemplos (en la muestra) en los que se ha comprado pañales
también se ha comprado leche. Pero, ¿cuántos ejemplos tenemos
en la muestra en los que se haya comprado pañales?. Este valor
podría ser 1, con lo cual la regla sería poco significativa.

61
2. El proceso de KDD
Difusión y
Conocimiento
Fase de difusión y uso. uso Decisiones

Una vez generado y validado el modelo, éste se puede


usar con distintas fines:
- los analistas toman decisiones sobre las actividades del negocio
en base al conocimiento proporcionado por el modelo.
- se aplica el modelo a distintos conjuntos de datos para obtener
información (conocimiento).
- se difunde el modelo (reglas, funciones, ...) entre los empleados
de la organización para apoyar su trabajo.

62
Minería de Datos (Data Mining)

1. Introducción a la Minería de Datos (DM)


2. El proceso de KDD
3. Técnicas de Minería de Datos
4. Evaluación de modelos

63
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos.
Minería de
datos

Modelos
de datos

Tarea de Tipo de
DM Problema
conocimiento

Técnica ... Técnica Modelo de los


de DM de DM datos

Algoritmo ... Algoritmo

64
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos.
Minería de
datos

Modelos
Predictivas de datos

Estimación de valores futuros


o desconocidos de variables
de interés (variable objetivo) a
Ejemplos: 1 y 3
Tareas de DM

partir de otras variables


independientes (predictivas).
Descriptivas

Identificación de patrones
en los datos que los Ejemplos: 2, 4 y 5
explican o resumen.

65
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos.
Minería de
datos

Modelos
Predictivas Clasificación de datos
Tareas de DM

Regresión

Agrupamiento
Descriptivas

(clustering)

Asociación

Correlación

66
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos.
Minería de
datos

Modelos
de datos

Dominio de ejemplos: D
tipo_ejemplo = {A1:D1, A2:D2, ..., An:Dn}
ejemplo e = {A1:v1, A2:v2, ..., An:vn} / viDi
e = <v1, v2, ..., vn> / viDi

D = {e: <v1, v2, ..., vn> / viDi}

67
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos.
Minería de
datos

Modelos
Predictivas Clasificación de datos
Tareas de DM

Regresión

Agrupamiento
Descriptivas

(clustering)

Asociación

Correlación

68
3. Técnicas de Minería de Datos
Tareas de Minería de Datos.
Clasificación

Clasificación suave
Predictivas Clasificación
Estimación de probabilidad de clasificación

Categorización
Tareas de DM

Regresión

Agrupamiento
Descriptivas

(clustering)

Asociación

Correlación

69
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos. Minería de
datos
Tareas predictivas.
Modelos
de datos

La clasificación:
 A cada ejemplo del tipo de objeto a clasificar (registro de la base de datos)
se le asigna una clase, representada por el valor de un atributo (atributo de
clase). El dominio del atributo de clase es discreto, cada valor representa
una clase de objeto.
 Los restantes atributos que sean significativos para determinar la clase,
son utilizadas por las técnicas de clasificación para generar funciones
(reglas) que permiten determinar la clase de un ejemplo a partir de los
valores de sus atributos significativos.
 El objetivo de la tarea es poder predecir la clase de nuevos ejemplos a
partir del valor de sus atributos significativos, utilizando las reglas generadas.

70
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos. Minería de
datos
Tareas predictivas.
Modelos
de datos
La clasificación:
Entrada:
- tipo_ejemplo = {A1:D1, A2:D2, ..., An:Dn}
- D = {e: <v1, v2, ..., vn> / viDi}: dominio de ejemplos
- E  D: conjunto de ejemplos (muestra)
- S = {c1, c2, ..., cm}: m clases,
- {<e, s>: eE, sS}: conjunto de ejemplos etiquetado
Salida:
: E  S: función clasificador

71
3. Técnicas de Minería de Datos
Tareas predictivas: la clasificación.

Ejemplo1: análisis de riesgo en préstamos bancarios.


Un banco desea disponer de un modelo que le permita predecir qué
tipo de clientes podrían no devolver un préstamo solicitado. La
entidad dispone de información sobre préstamos anteriores, así como
datos personales de los titulares de esos préstamos.

ID D-crédito C-crédito Salario Casa Cuentas ... Devuelto-


(años) (euros) (euros) propia morosas préstamo
101 15 60.000 2.200 sí 2 no
102 2 30.000 3.500 sí 0 sí
103 9 9.000 1.700 sí 1 no
104 15 18.000 1.900 no 0 sí
105 10 24.000 2.100 no 0 no
... ... ... ... ... ... ...

72
3. Técnicas de Minería de Datos
Ejemplo1: análisis de riesgo en préstamos bancarios.
ID D-crédito C-crédito Salario Casa Cuentas ... Devuelto-
(años) (euros) (euros) propia morosas préstamo
101 15 60.000 2.200 sí 2 no
102 2 30.000 3.500 sí 0 sí
103 9 9.000 1.700 sí 1 no
104 15 18.000 1.900 no 0 sí
105 10 24.000 2.100 no 0 no
... ... ... ... ... ... ...

Regla 1:
Si cuentas-morosas > 0 entonces devuelve-préstamo = no
Regla 2:
Si cuentas-morosas = 0 Y ( salario>2.500 O D-credito>10)
entonces devuelve-préstamo = sí
... Modelo de datos

73
3. Técnicas de Minería de Datos
Ejemplo1: análisis de riesgo en préstamos bancarios.
ID D-crédito C-crédito Salario Casa Cuentas ... Devuelto-
(años) (euros) (euros) propia morosas crédito
101 15 60.000 2.200 sí 2 no
102 2 30.000 3.500 sí 0 sí
103 9 9.000 1.700 sí 1 no
104 15 18.000 1.900 no 0 sí
105 10 24.000 2.100 no 0 no
... ... ... ... ... ... ...

 (x, y, z, w, n, ...) = 'no' : n > 0


 (x, y, z, w, n, ...) = 'si' : n = 0, z > 2500
 (x, y, z, w, n, ...) = 'si' : n = 0, x > 10

...
Modelo de datos

74
3. Técnicas de Minería de Datos
Ejemplo1: análisis de riesgo en préstamos bancarios.

 (x, y, z, w, n, ...) = 'no' : n > 0


 (x, y, z, w, n, ...) = 'si' : n = 0, z > 2500
 (x, y, z, w, n, ...) = 'si' : n = 0, x > 10
... Modelo de datos

ID D-crédito C-crédito Salario Casa propia Cuentas morosas ...


111 15 60.000 2.600 sí 0

Devuelve-préstamo = SÍ

75
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos.
Minería de
datos
Tareas predictivas.
Modelos
La clasificación suave: de datos

Entrada:
- D = {e: <v1, v2, ..., vn> / viDi}: dominio de ejemplos
- E  D: conjunto de ejemplos (muestra)
- S = {c1, c2, ..., cm}: m clases,
- {<e, s>: eE, sS}: conjunto de ejemplos etiquetado
Salida:
: E  S: función clasificador
: E  R: función de certeza (grado de certeza de la predicción hecha
por la función )

76
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos.
Minería de
datos
Tareas predictivas.
Modelos
de datos
La estimación de probabilidad de clasificación:
Entrada:
- D = {e: <v1, v2, ..., vn> / viDi}: dominio de ejemplos
- E  D: conjunto de ejemplos (muestra)
- S = {c1, c2, ..., cm}: m clases,
- {<e, s>: eE, sS}: conjunto de ejemplos etiquetado
Salida:
i: E  R (i: 1..m): funciones de certeza (grado de certeza de que un
ejemplo sea de la clase i).

77
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos.
Minería de
datos
Tareas predictivas.
Modelos
de datos
La categorización:
Entrada:
- D = {e: <v1, v2, ..., vn> / viDi}: dominio de ejemplos
- E  D: conjunto de ejemplos (muestra)
- S = {c1, c2, ..., cm}: m clases,
- {<e, s>: eE, sS}: conjunto de ejemplos etiquetado
Salida:
  E × S: correspondencia de clasificación

78
3. Técnicas de Minería de Datos
Tareas de Minería de Datos.

Predictivas Clasificación
Tareas de DM

Regresión

Agrupamiento
Descriptivas

(clustering)

Asociación

Correlación

79
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos.
Minería de
datos
Tareas predictivas.
Modelos
de datos
La regresión:
 A partir de los datos de un conjunto de ejemplos, se busca una función real
entre un atributo (atributo objetivo) y un conjunto de atributos significativos del
tipo de objeto.
 Los dominios de los atributos deben ser numéricos.
 El objetivo de la tarea es poder predecir el valor del atributo objetivo de
nuevos ejemplos a partir del valor de sus atributos significativos, utilizando la
función generada.
Nota: Es un caso particular de la tarea de clasificación, cuando el dominio de salida de la función es
numérico.

80
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos.
Minería de
datos
Tareas predictivas.
Modelos
La regresión: de datos

Entrada:

- tipo_ejemplo = {A1:D1, A2:D2, ..., An:Dn} / Di es numérico

- D = {e: <v1, v2, ..., vn> / viDi}: dominio de ejemplos


- E  D: conjunto de ejemplos (muestra)
- S = R|Z, (dominio numérico)
- {<e, s>: eE, sS}: conjunto de ejemplos etiquetado
Salida:
: E  S: función de regresión

81
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos. Minería de
datos
Tareas predictivas.
Modelos
de datos

Regresión Lineal Global.


Se buscan los coeficientes de una función lineal:

y  w0  w1 x1...  wn xn

Una manera fácil (si es lineal simple, es decir con dos dimensiones x e y):

w1 
n xy x  y 
w0 
 y  x    x  xy
2

 2

n  x   x 
2
n x    x 
2 2

obteniendo y = w0 + w1x (n es el número de ejemplos de la muestra)

82
3. Técnicas de Minería de Datos
Tareas predictivas: la regresión.

Ejemplo3: previsión de ventas.


Una cadena de tiendas de electrodomésticos desea optimizar el
funcionamiento de su almacén, manteniendo un stock de cada
producto que sea suficiente para poder servir rápidamente los
pedidos de sus clientes. La organización dispone de información
sobre las ventas de cada producto en cada mes del último año.

ID Descripción mes-12 ... ... mes-4 mes-3 mes-2 mes-1


1 televisor 20 52 14 139 74
2 video 11 ... ... 43 32 26 59
3 MP3 50 ... ... 61 14 5 28
4 frigorífico 3 ... ... 21 27 1 49
5 microondas 14 ... ... 27 2 25 12
6 ... ... ... ... ... ... ... ...

83
3. Técnicas de Minería de Datos
Tareas predictivas: la regresión.

Ejemplo3: previsión de ventas.


ID Descripción mes-12 ... ... mes-4 mes-3 mes-2 mes-1
1 televisor 20 52 14 139 74
2 video 11 ... ... 43 32 26 59
3 MP3 50 ... ... 61 14 5 28
4 frigorífico 3 ... ... 21 27 1 49
5 microondas 14 ... ... 27 2 25 12
6 ... ... ... ... ... ... ... ...

ventas

producto 5

mes

84
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos. Minería de
datos

Modelos
Predictivas Clasificación de datos
Tareas de DM

Regresión

Agrupamiento
Descriptivas

(clustering)

Asociación

Correlación

85
3. Técnicas de Minería de Datos
Tareas de Minería de Datos.

Predictivas Clasificación
Tareas de DM

Regresión

Agrupamiento
Descriptivas

(clustering)

Asociación

Correlación

86
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos. Minería de
datos
Tareas descriptivas.
Modelos
de datos

El agrupamiento o segmentación (clustering):


 Se buscan grupos naturales en el conjunto de ejemplos, a partir de los
valores de sus atributos.
 Las técnicas de DM agrupan los ejemplos basándose en el principio de
maximizar la similitud entre los elementos de un grupo y de minimizar la
similitud entre los elementos de grupos distintos.
 El objetivo de la tarea es poder describir de forma resumida el conjunto de
ejemplos: cada grupo formado se considera un resumen de los elementos
que lo forman.

87
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos. Minería de
datos
Tareas descriptivas.
Modelos
de datos
El agrupamiento:
Entrada:
- D = {e: <v1, v2, ..., vn> / viDi}: dominio de ejemplos
- E  D: conjunto de ejemplos (muestra)
Salida:
- S = {c1, c2, ..., cm}: m grupos,
- : E  S: función de agrupación.

88
3. Técnicas de Minería de Datos

Tareas descriptivas: el agrupamiento.

Ejemplo4: definir grupos diferenciados de empleados.


El departamento de recursos humanos de una gran empresa, desea
categorizar a sus empleados en distintos grupos, con el objetivo de
establecer una trato personalizado con ellos y definir las políticas
sociales de la empresa. La organización dispone en sus bases de
datos de información sobre sus empleados.

89
3. Técnicas de Minería de Datos
Tareas descriptivas: el agrupamiento.
Ejemplo4: definir grupos diferenciados de empleados.
ID Sueldo Casado Coche Hijos Alq/Prop Sindic. Bajas/Año Antigüedad Sexo
1 10000 Sí No 0 Alquiler No 7 15 H
2 20000 No Sí 1 Alquiler Sí 3 3 M
3 15000 Sí Sí 2 Propietario Sí 5 10 H
4 30000 Sí Sí 1 Alquiler No 15 7 M
5 10000 Sí Sí 0 Propietario Sí 1 6 H
6 40000 No Sí 0 Alquiler Sí 3 16 M
7 25000 No No 0 Alquiler Sí 0 8 H
8 20000 No Sí 0 Propietario Sí 2 6 M
9 20000 Sí Sí 3 Propietario No 7 5 H
10 30000 Sí Sí 2 Propietario No 1 20 H
11 50000 No No 0 Alquiler No 2 12 M
12 8000 Sí Sí 2 Propietario No 3 1 H
13 20000 No No 0 Alquiler No 27 5 M
14 10000 No Sí 0 Alquiler Sí 0 7 H
15 8000 No Sí 0 Alquiler No 3 2 H

90
3. Técnicas de Minería de Datos
Tareas descriptivas: el agrupamiento.
Ejemplo4: definir grupos diferenciados de empleados.
Grupo 1: 5 ejemplos Grupo 2: 4 ejemplos Grupo 3: 6 ejemplos
Sueldo : 22600 Sueldo : 22500 Sueldo : 18833
Casado : No -> 0.8 Casado : No -> 1.0 Casado : Sí -> 1.0
Sí -> 0.2 Coche : Sí -> 1.0 Coche : Sí -> 1.0
Coche : No -> 0.8 Hijos : 0 Hijos : 2
Sí -> 0.2 Alq/Prop : Alquiler -> 0.75 Alq/Prop : Alquiler -> 0.17
Hijos : 0 Prop -> 0.25 Prop -> 0.83
Alq/Prop : Alquiler -> 1.0 Sindic. : Sí -> 1.0 Sindic. : No -> 0.67
Sindic. : No -> 0.8 Bajas/Año : 2 Sí -> 0.33
Sí -> 0.2 Antigüedad : 8 Bajas/Año : 5
Bajas/Año : 8 Sexo : H -> 0.25 Antigüedad : 8
Antigüedad : 8 M -> 0.75 Sexo : H -> 0.83
Sexo : H -> 0.6 M -> 0.17
M -> 0.4

• GRUPO 1: Solteros, sin hijos y de alquiler. Poco sindicados. Muchas bajas.


• GRUPO 2: Solteros, sin hijos y de alquiler. Muy sindicados. Pocas bajas. Normalmente mujeres.
• GRUPO 3: Casados, con hijos y propietarios. Poco sindicados. Normalmente hombres.

91
3. Técnicas de Minería de Datos
Tareas de Minería de Datos.

Predictivas Clasificación
Tareas de DM

Regresión

Agrupamiento
Descriptivas

(clustering) Asociación

Asociación Dependencias funcionales

Patrones secuenciales
Correlación

92
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos.
Minería de
datos
Tareas descriptivas.
Modelos
de datos

La asociación:
 Se buscan relaciones no explícitas entre los valores de atributos
discretos; ejemplo: "si el atributo X toma el valor v1 entonces el atributo
Y toma el valor v2"
 La existencia de una asociación entre atributos no siempre implica la
existencia de una relación causa-efecto.
 El objetivo de la tarea es poder describir de forma concisa relaciones
existentes entre los valores de los atributos del conjunto de ejemplos.

93
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos.
Minería de
datos
Tareas descriptivas.
Modelos
La asociación: de datos
Entrada:

- tipo_ejemplo = {A1:D1, A2:D2, ..., An:Dn} (Di es generalmente discreto)


- D = {e: <v1, v2, ..., vn> / vi  Di}: dominio de ejemplos
- E  D: conjunto de ejemplos (muestra)
Salida:
Ri: Ai=a  Aj=b  ...  Ak = k  Ar=c  Aw=d  ...  Am=e
(regla direccional o dependencia de valores), o
Ri: Ai=a  Aj=b  ...  Ak = k  Ar=c  Aw=d  ...  Am=e
(regla bidireccional)
94
3. Técnicas de Minería de Datos
Tareas descriptivas: la asociación.
Ejemplo2: análisis de la cesta de la compra.
Un supermercado desea obtener información sobre los hábitos de
compra de sus clientes, con el objetivo de mejorar la ubicación de los
productos en el local. La organización dispone de información
reciente sobre los productos adquiridos en las compras realizadas
por los clientes.
ID Huevos Aceite Pañales Vino Leche Mantequilla Salmón Lechugas ...
1 sí no no sí no sí sí sí
2 no sí no no sí no no sí
3 no no sí no sí no no no
4 no sí sí no sí no no no
5 sí sí no no no sí no sí
6 sí no no sí sí sí sí no
7 no no no no no no no no
8 sí sí sí sí sí sí sí no
...

95
3. Técnicas de Minería de Datos
Tareas descriptivas: la asociación.
Ejemplo2: análisis de la cesta de la compra.
ID Huevos Aceite Pañales Vino Leche Mantequilla Salmón Lechugas ...
1 sí no no sí no sí sí sí
2 no sí no no sí no no sí
3 no no sí no sí no no no
4 no sí sí no sí no no no
5 sí sí no no no sí no sí
6 sí no no sí sí sí sí no
7 no no no no no no no no
8 sí sí sí sí sí sí sí no
...

Algunas asociaciones que se observan en los datos son:


"El 100% de las veces que se compran pañales también se compra leche"
"El 50% de las veces que se compran huevos también se compra aceite"
"El 33% de las veces que se compran vino y salmón también se compran
lechugas"

96
3. Técnicas de Minería de Datos
Tareas descriptivas: la asociación.
Ejemplo2: análisis de la cesta de la compra.
ID Huevos Aceite Pañales Vino Leche Mantequilla Salmón Lechugas ...
1 sí no no sí no sí sí sí
2 no sí no no sí no no sí
3 no no sí no sí no no no
4 no sí sí no sí no no no
5 sí sí no no no sí no sí
6 sí no no sí sí sí sí no
7 no no no no no no no no
8 sí sí sí sí sí sí sí no
...

R1 : pañales='si'  leche='si'
R2 : huevos='si'  aceite ='si'
R3 : vino='si'  salmón='si'  lechugas ='si'

97
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos. Minería de
datos

Modelos
Clasificación de reglas de asociación. de datos

Dominios de los atributos:


- Binarios: indican la presencia o ausencia de un item en el ejemplo.
pañales = 'si'  leche = 'si' (pañales  leche)
- Discretos:
país = 'Alemania'  precio = 'caro'
- Numéricos:
15< edad <20  riesgo = 'alto'

98
3. Técnicas de Minería de Datos Vista
minable

Tareas de Minería de Datos. Minería de


datos

Clasificación de reglas de asociación. Modelos


de datos

Niveles de abstracción: reglas multinivel.

Las reglas de asociación no se definen al nivel básico en una dimensión,


sino basándose en niveles superiores jerárquicamente en la dimensión.
Vino = 'sí'  Gaseosa = 'sí'

producto categoría departamento

99
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos.
Minería de
datos
Tareas descriptivas.
Modelos
La asociación: dependencias funcionales. de datos

Entrada:
- tipo_ejemplo = {A1:D1, A2:D2, ..., An:Dn} / Di es discreto
- D = {e: <v1, v2, ..., vn> / vi  Di}: dominio de ejemplos
- E  D: conjunto de ejemplos (muestra)
Salida:
- Ri: Ai  Aj  ...  Ak  Ar

Para cualquier conjunto de valores (x, y, ..., z, w), si existe un ejemplo para
el que Ai=x  Aj=y  ...  Ak = z  Ar=w entonces para cualquier otro
ejemplo para el que Ai=x  Aj=y  ...  Ak = z se cumple que Ar=w.

100
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos.
Minería de
datos
Tareas descriptivas.
Modelos
de datos

Los patrones secuenciales:


 Se trata de buscar asociaciones de la forma: "si sucede el evento X en el
instante de tiempo t entonces sucederá el evento Y en el instante t+n"
El objetivo de la tarea es poder describir de forma concisa relaciones
temporales que existen entre los valores de los atributos del conjunto de
ejemplos.

101
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos.
Minería de
datos
Tareas descriptivas.
Modelos
Los patrones secuenciales: de datos

Entrada:
- tipo_ejemplo = {A1:D1, A2:D2, ..., An:Dn} / Di es discreto

- D = {e: <v1, v2, ..., vn> / vi  Di}: dominio de ejemplos


- E  D: conjunto de ejemplos (muestra)
Salida:
Ri: Ai=a  Aj=b  ...  Ak = k (t)  Ar=c  Aw=d  ...  Am=e (t'>t)
(regla direccional o dependencia de valores), o
Ri: Ai=a  Aj=b  ...  Ak = k (t)  Ar=c  Aw=d  ...  Am=e (t'>t)
(regla bidireccional)
102
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos. Minería
de datos
Tareas descriptivas: patrones secuenciales
Modelos de datos

103
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos. Minería
de datos
Tareas descriptivas: patrones secuenciales
Modelos
de datos

104
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos. Minería
de datos
Tareas descriptivas: patrones secuenciales
Modelos
de datos

105
3. Técnicas de Minería de Datos
Tareas de Minería de Datos.

Predictivas Clasificación
Tareas de DM

Regresión

Agrupamiento
Descriptivas

(clustering)

Asociación

Correlación

106
3. Técnicas de Minería de Datos Vista
minable

Tareas de Minería de Datos. Minería de


datos
Tareas descriptivas.
Modelos
de datos

La correlación
 Se busca el grado de similitud de los valores de dos atributos numéricos.
 El grado de similitud se mide por el coeficiente de correlación r (r[-1 ... 1]):
si r es positivo los atributos tienen un comportamiento similar (ambos crecen o
ambos decrecen al mismo tiempo), si r es negativo cuando un atributo crece el
otro decrece, si r es cero no existe relación entre ambos atributos.
 El objetivo de la tarea es poder describir de forma concisa relaciones
existentes entre atributos del conjunto de ejemplos.

107
3. Técnicas de Minería de Datos Vista
minable
Tareas de Minería de Datos. Minería de
datos
Tareas predictivas.
Modelos
La correlación: de datos

Entrada:

- tipo_ejemplo = {A1:D1, A2:D2, ..., An:Dn} / Di es numérico


- D = {e: <v1, v2, ..., vn> / viDi}: dominio de ejemplos
- E  D: conjunto de ejemplos (muestra)
Salida:
R: {A1, A2 ,An} x {A1, A2 ,An}  [-1 .. 1]
Función que asigna a cada par de atributos del esquema del ejemplo un
valor de correlación.

108
3. Técnicas de Minería de Datos
Tareas descriptivas: la correlación.

Ejemplo5: análisis de visitas.


Un Centro de Salud, desea analizar los factores que influyen en la asistencia
de un paciente al Centro de Salud.

Factores:
 Salud: salud del paciente. (1-10)
 Necesidad: convicción del paciente de que la visita es importante. (1-10)
 Transporte: disponibilidad de transporte para trasladarse al centro. (1-10)
 Niños: disponibilidad de dejar a los niños. (1-10)
 Laboral: posibilidad de darse de baja laboral. (1-10)
 Satisfacción: satisfacción del paciente con su médico. (1-10)
 Cita: facilidad del paciente para concertar una cita. (1-10)
 Asistencia: indica si el paciente se ha pasado por el Centro de Salud durante el último
año (0: se ha pasado, 1: no se ha pasado).

109
3. Técnicas de Minería de Datos
Tareas descriptivas: la correlación.
Ejemplo5: análisis de visitas.
El cuadro de correlaciones obtenido es:
Salud Necesidad Transporte Niños Laboral Satisfacción Cita Asistencia
Salud 1
Necesidad -0.7378 1
Transporte 0.3116 -0.1041 1
Niños 0.3116 -0.1041 1 1
Laboral 0.2771 0.0602 0.6228 0.6228 1
Satisfacción 0.22008 -0.1337 0.6538 0.6538 0.6257 1
Cita 0.3887 -0.0334 0.6504 0.6504 0.6588 0.8964 1
Asistencia 0.3955 -0.5416 -0.5031 -0.5031 -0.7249 -0.3988 -0.3278 1

El coeficiente de correlación r (r[-1 ... 1]) se interpreta de la siguiente


forma: si r es positivo los atributos tienen un comportamiento similar
(ambos crecen o ambos decrecen al mismo tiempo), si r es negativo
cuando un atributo crece el otro decrece, si r es cero no existe
correlación entre ambos atributos.

110
3. Técnicas de Minería de Datos Vista
minable

Fase de Minería de Datos. Minería de


datos

Modelos
de datos

Tarea de Tipo de
DM Problema
conocimiento

Técnica ... Técnica Modelo de los


de DM de DM datos

Algoritmo ... Algoritmo

111
3. Técnicas de Minería de Datos
Fase de Minería de Datos.
Técnicas de Minería de Datos.

Clasificación:
-Ténicas estadísticas -Técnicas bayesianas

-Técnicas de conteo de frecuencias

-Técnicas basadas en árboles de decisión

-Técnicas relacionales declarativas

-Técnicas basadas en redes neuronales

-Técnicas basadas en núcleo

-Técnicas estocásticas o difusas

-Técnicas basadas en densidad o distancia.


112
3. Técnicas de Minería de Datos Vista
minable
Fase de Minería de Datos. Minería de
datos
Técnicas de Minería de Datos.
Modelos
de datos

Técnicas estadísticas: expresan los modelos y patrones mediante el uso de


funciones lineales, funciones no lineales, distribuciones, correlaciones,
medidas estadísticas, etc.

Ejemplos: regresión lineal, regresión logarítmica, regresión logística,


discriminantes lineales y no lineales.

113
3. Técnicas de Minería de Datos Vista
minable
Fase de Minería de Datos. Minería de
datos
Técnicas de Minería de Datos.
Modelos
de datos

Técnicas bayesianas: se basan en estimar la probabilidad de


pertenencia (a una clase o un grupo) mediante la estimación de las
probabilidades condicionales inversas, utilizando el teorema de Bayes.

Técnicas basadas en conteo de frecuencias: se basan en contar la


frecuencia con la que dos o mas sucesos se presentan conjuntamente.

114
3. Técnicas de Minería de Datos Vista
minable
Fase de Minería de Datos. Minería de
datos
Técnicas de Minería de Datos.
Modelos
de datos

Técnicas basadas en árboles de decisión y sistemas de


aprendizaje de reglas: representan los modelos aprendidos en forma
de reglas.
Ejemplos: algoritmos "divide y vencerás" (ID3/C4.5, CART), algoritmos
"separa y vencerás" (CN2).

Técnicas relacionales declarativas: se basan en la representación de


los modelos mediante lenguajes declarativos (lógicos, funcionales, lógico-
funcionales).
Ejemplo: técnicas basadas en ILP (programación lógica inductiva)
denominada "minería de datos relacional".

115
3. Técnicas de Minería de Datos Vista
minable
Fase de Minería de Datos. Minería de
datos
Técnicas de Minería de Datos.
Modelos
de datos

Técnicas basadas en redes neuronales artificiales: se trata de


técnicas que aprenden un modelo mediante el entrenamiento de los
pesos que conectan un conjunto de nodos o neuronas. La topología de
la red y los pesos de las conexiones determinan el patrón aprendido.
Ejemplos: perceptón simple, redes multicapa, redes de base radial,
redes de Kohonen, etc.

Técnicas basadas en núcleo y máquinas de soporte vectorial: se


trata de técnicas que intentan maximizar el margen entre los grupos o
las clases formadas.

116
3. Técnicas de Minería de Datos Vista
minable
Fase de Minería de Datos. Minería de
datos
Técnicas de Minería de Datos.
Modelos
de datos

Técnicas estocásticasy difusas: se trata de técnicas en las que los


componentes aleatorios son fundamentales o en las que se utilizan
funciones de pertenencia difusa.

Técnicas basadas en casos, densidad o distancia: se trata de


técnicas que se basan en medir las distancias entre los elementos, ya
sea directamente, como el método de los vecinos más próximos (los
casos más similares) o mediante la estimación de funciones de
densidad.
Ejemplos: algoritmos de vecinos más próximos (K-NN), algoritmos
jerárquicos (Two-step, COBWED), algoritmos no jerárquicos (K-means).

117
Predictivas Descriptivas

Técnica Clasificación Regresión Agrupamiento Asociación Correlación


Redes Neuronales   

Árboles de decisión (ID.3, 


C4.5, C5.0)

Árboles de decisión (CART)  

Otros árboles de decisión    

Redes de Kohonen 

Regresión lineal y  
logarítmica

Regresión logística  

K-means 

Apriori 

Naive Bayes 

118
Predictivas Descriptivas

Técnica Clasificación Regresión Agrupamiento Asociación Correlación


Vecinos mas próximos   

Análisis factorial 

Twostep, Cobwed 

Algoritmos genéticos y     
evolutivos
Máquinas de vectores   
soporte

CN2 reglas  

Análisis discriminante 
multivariante

119
3. Técnicas de Minería de Datos
Tareas de DM Técnicas de DM
k-NN (Nearest Neighbor).
k-means (Competitive learning).
Perceptron Learning.
Multilayer ANN methods (e.g. backpropagation).
Predictivas

Decision Tree Learning (e.g. ID3, C4.5, CART).


Clasificación
Bayes Classifiers.
Center Splitting Methods.
Regresión
Pseudo-relational: Supercharging, Pick-and-Mix.
Relational: ILP, IFLP, SCIL.
Descriptivas

Agrupamiento
(clustering)

Asociación

Correlación

120
3. Técnicas de Minería de Datos

Tareas de DM Técnicas de DM
Predictivas

Clasificación

Regresión
k-NN (Nearest Neighbor).
k-means (Competitive learning).
Redes neuronales de Kohonen
Descriptivas

Agrupamiento
(clustering) EM (Estimated Means) (Dempster et al. 1977).
Cobweb (Fisher 1987).
AUTOCLASS
Asociación
...

Correlación

121
3. Técnicas de Minería de Datos

Tareas de DM Técnicas de DM
Predictivas

Clasificación

Regresión Técnicas estadísticas


Descriptivas

Agrupamiento
(clustering)

Asociación Técnicas de conteo de frecuencia

Correlación Técnicas estadísticas

122
3. Técnicas de Minería de Datos

Tareas de DM Técnicas de DM
Predictivas

Clasificación

Regresión Técnicas estadísticas


Descriptivas

Agrupamiento
(clustering)

Asociación Técnicas de conteo de frecuencia

Correlación Técnicas estadísticas

123
Técnicas de búsqueda de asociaciones:

Técnica APRIORI (Agrawal & Srikant 1994)

• es una técnica de conteo de frecuencias: se basa en


contar la frecuencia con la que dos o mas sucesos
ocurren conjuntamente.

• es una técnica para atributos con dominios binarios:


(si/no).

124
Técnicas de búsqueda de asociaciones: Técnica APRIORI

• FASE A: BÚSQUEDA DE “LARGE ITEMSETS”. Se buscan


conjuntos de atributos con soporte >= s (soporte deseado),
llamados ‘large itemsets’ (conjuntos de atributos grandes).

• FASE B: BÚSQUEDA DE DEPENDENCIAS (REGLAS). Se


hacen particiones binarias y disjuntas (reglas) de los
conjuntos formados en la fase anterior, y se calcula la
confianza de cada partición (regla). Se seleccionan aquellas
reglas que tienen una confianza >= c (confianza deseada).

Soporte (absoluto) de un atributo: número de ejemplos de la muestra en los


que el atributo toma el valor 'si'.
Confianza de una regla de asociación: proporción del número de ejemplos
de la muestra para los que la regla funciona bien respecto al número de
ejemplos de la muestra a los que se puede aplicar la regla.

125
Técnicas de búsqueda de asociaciones: Técnica APRIORI
FASE A:
Dado un soporte deseado s:
Paso 1. i=1 (tamaño de los conjuntos)
Paso 2. Generar un conjunto unitario para cada atributo, {Ak}: k:1..n.
Construir el conjunto Si = {{Ak}: k:1..n }.
Paso 3. Comprobar el soporte de cada conjuntos en Si. Eliminar
aquellos con soporte < s.
Paso 4. Combinar los conjuntos en Si para crear conjuntos de
tamaño i+1 para formar Si+1.
Paso 5. Si Si no es vacío entonces i:= i+1. Ir a Paso 3.
Paso 6. Si Si es vacío entonces devolver Sfinal=S2  S3  ...  Si

126
Técnicas de búsqueda de asociaciones: Técnica APRIORI

FASE B:
BÚSQUEDA DE DEPENDENCIAS (REGLAS). Se hacen
particiones binarias y disjuntas (reglas) de los conjuntos de
Sfinal, y se calcula la confianza de cada partición (regla). Se
seleccionan aquellas reglas que tienen una confianza >= c
(confianza deseada).

127
atributos
FASE A: Fila 1 2 3 4 5

ejemplos
1 x x x soporte = 2
2 x x x
3 x x x x confianza = 0.75
4 x x
muestra
S1= { {1}, {2}, {3}, {4}, {5} } S'1= { {1}:2, {2}:3, {3}:3, {4}:1, {5}:3 }
S2= { {1,2}, {1,3}, {1,5}, {2,3}, {2,5}, {3,5} } S'2 = { {1,3}:2, {2,3}:2, {2,5}:3, {3,5}:2 }
S3= { {1,2,3}, {1,2,5}, {1,3,5}, {2,3,5} } S'3 = { {2,3,5}:2 }

Sfinal = S'2  S'3 = { {1,3}, {2,3}, {2,5}, {3,5}, {2,3,5} }

FASE B: {1}  {3} : 1 {3}  {1} : 0.67


{2}  {3} : 0.67 {3}  {2} : 0.67
{2}  {5} : 1 {5}  {2} : 1
{3}  {5} : 0.67 {5}  {3} : 0.67
{2,3}  {5} : 1 {2,5}  {3} : 0.67
{3,5}  {2} : 1

128
3. Técnicas de Minería de Datos

Tareas de DM Técnicas de DM
Predictivas

Clasificación

Regresión
Minimal Spaning Tree
k-NN (Nearest Neighbor).
k-means (Competitive learning).
Descriptivas

Agrupamiento
(clustering) Redes neuronales de Kohonen
EM (Estimated Means) (Dempster et al. 1977).
Cobweb (Fisher 1987).
Asociación
AUTOCLASS
...
Correlación

129
3. Técnicas de Minería de Datos
Técnicas de agrupamiento: métodos jerárquicos.
Un método sencillo consiste en ir agrupando ejemplos según la distancia
entre ellos, e ir aumentando el límite de distancia para hacer nuevos
grupos. Esto genera agrupaciones a distintos niveles, de una manera
jerárquica.

Se denomina
Dendograma o
Hierarchical Tree Plot:

130
3. Técnicas de Minería de Datos

Técnicas de agrupamiento: métodos jerárquicos.


Minimal Spanning Tree Clustering

Sea C el número de grupos (clusters) deseado.

Paso 1. Se define un grupo con cada ejemplo.


Paso 2. Se agrupa el par de grupos más cercanos
(distnacia mínima) para formar un nuevo grupo.
Paso 3. Si número de grupos < C entonces ir a Paso 2.

131
3. Técnicas de Minería de Datos

Técnicas de agrupamiento: "vecinos más próximos".


K-means clustering

 Se utiliza para encontrar los k puntos más densos en un conjunto


arbitrario de puntos.

 Algoritmo:
Paso 1. Dividir aleatoriamente la muestra en k conjuntos y calcular
la media (el punto medio) de cada conjunto.
Paso 2. Reasignar cada ejemplo al conjunto con el punto medio
más cercano (distancia mínima).
Paso 3. Calcular los puntos medios de los k conjuntos.
Paso 4. Repetir los pasos 2 y 3 hasta que los conjuntos no varíen.

132
3. Técnicas de Minería de Datos

Técnicas de agrupamiento: "vecinos más próximos".


K-means clustering

 El valor de k se suele determinar heurísticamente.


 Problemas:
Si se sabe que hay n clases, hacer k=n puede
producir que, algunas veces, algún grupo use
dos centros y dos grupos separados tengan que
compartir centro.

Si k se elige muy grande, la generalización es


pobre y las agrupaciones futuras serán malas.

Determinar el k ideal es difícil.


133
3. Técnicas de Minería de Datos
Tareas de DM Técnicas de DM
k-NN (Nearest Neighbor).
k-means (Competitive learning).
Perceptron Learning.
Multilayer ANN methods (e.g. backpropagation).
Predictivas

Decision Tree Learning (ID3, C4.5, CART).


Clasificación
Bayes Classifiers.
Center Splitting Methods.
Regresión
Pseudo-relational: Supercharging, Pick-and-Mix.
Relational: ILP, IFLP, SCIL.
Descriptivas

Agrupamiento
(clustering)

Asociación

Correlación

134
3. Técnicas de Minería de Datos
Técnicas de clasificación: árboles de decisión.

Árboles de Decisión (ID3 (Quinlan), C4.5 (Quinlan), CART).


Algoritmo "Divide y Vencerás":
Paso 1. Se crea un nodo raíz con S:= conjunto de ejemplos.
Paso 2. Si todos los elementos de S son de la misma clase, el subárbol se
cierra. Solución encontrada.
Paso 3. Si todos los elementos de S no son de la misma clase entonces
- se elige una condición de partición para el conjunto S
- se aplica la condición a S (S queda subdividido en dos
subconjuntos (subárboles): los que cumplen la condición y los que
no la cumplen)
- ir al Paso 2 para cada uno de los dos subárboles.

135
3. Técnicas de Minería de Datos
Árboles de Decisión (ID3 (Quinlan), C4.5 (Quinlan), CART).
Algoritmo "Divide y Vencerás":

X>0.25
0 1 No Sí
0
Y>0.25
X>0.25 No Sí

X>0.75 X>0.66
No Sí No Sí
X>0.66
X>0.75 Y>0.6
No Sí
1 Y>0.6
Y>0.25

PARTICIÓN
CUADRICULAR.

136
3. Técnicas de Minería de Datos
Árboles de Decisión: Ejemplo de C4.5 con datos discretos:

Example Sky Temperature Humidity Wind PlayTennis


1 Sunny Hot High Weak No
2 Sunny Hot High Strong No
3 Overcast Hot High Weak Yes
4 Rain Mild High Weak Yes
5 Rain Cool Normal Weak Yes
6 Rain Cool Normal Strong No
7 Overcast Cool Normal Strong Yes
8 Sunny Mild High Weak No
9 Sunny Cool Normal Weak Yes
10 Rain Mild Normal Weak Yes
11 Sunny Mild Normal Strong Yes
12 Overcast Mild High Strong Yes
13 Overcast Hot Normal Weak Yes
14 Rain Mild High Strong No

137
3. Técnicas de Minería de Datos
Árboles de Decisión: Ejemplo de C4.5 con datos discretos:

Outlook?

Sunny Rain
Overcast
Humidity? YES Wind?

High Strong Weak


Normal
NO YES NO YES

Reglas:
Outlook=Sunny AND Humidity=Normal  PlayTenis=si
Outlook=Overcast  PlayTenis=si
Outlook=Rain AND Wind=Weak  PlayTenis=si
Other case PlayTenis='no'

138
3. Técnicas de Minería de Datos
Técnicas de clasificación: "vecinos más próximos".
k-NN (Nearest Neighbour):
Paso 1. Se miran los k ejemplos más cercanos (distancia mínima).
Paso 2. Si todos los ejemplos son de la misma clase, el nuevo
ejemplo se clasifica en esa clase.
Paso 3. Si los ejemplos no son de la misma clase, se calcula la
distancia media por clase y se asigna a la de menor distancia, o
bien se asigna a la clase con más elementos.

? Clasifica ? Clasifica
círculo cuadrado

1-nearest neighbor 7-nearest neighbor PARTICIÓN 1-


nearest neighbor
• El valor de k se suele determinar heurísticamente.
(Poliédrica o de Voronoi)

139
3. Técnicas de Minería de Datos
Técnicas de clasificación: Naive Bayes

Estas técnicas permiten determinar la probabilidad de que un


nuevo ejemplo sea de una clase. Eligiendo la clase de mayor
probabilidad.

p(E|H)× p(H)
p(H|E)=
p(E)

donde:
- H es la hipótesis,
- E es el ejemplo,
- p(A|B) es la probabilidad del suceso A condicinada al suceso B

140
3. Técnicas de Minería de Datos
Técnicas de clasificación: Naive Bayes

Una compañia de seguros dispone de los siguientes datos sobre


sus clientes, clasificados en buenos y malos clientes.

ID Edad Hijos Practica- Salario Buen-


deporte cliente
101 joven si no alto si
102 joven no no medio no
103 joven si si medio no
104 joven si no bajo sí
105 mayor si no bajo si
106 mayor no si medio si
107 joven no si medio si
108 joven si si alto si
109 mayor si no medio si
110 mayor no no bajo no

141
3. Técnicas de Minería de Datos
Técnicas de clasificación: Naive Bayes
Edad Hijos Practica- Salario Buen-
Nuevo ejemplo E: deporte cliente
mayor no no medio ?

Hipótesis H: el nuevo cliente es "buen cliente"

p(edadE|'si') × p(hijosE|'si') × p(practica_deporteE|'si') × p(salarioE|'si')


p('sí'|E)=
p(E)

p(edadE|'si'): se calcula dividiendo el número de ejemplos en la muestra que tienen los


valores edad='mayor' y buen-cliente='si', dividido por el número de ejemplos en la muestra que
tienen el valor buen-cliente='sí'.

p(edad|'si'): 3/7

142
3. Técnicas de Minería de Datos
Técnicas de clasificación: Naive Bayes
Edad Hijos Practica- Salario Buen-
Nuevo ejemplo E: deporte cliente
mayor no no medio ?

Hipótesis H: el nuevo cliente es "buen cliente"

p(edadE|'si') × p(hijosE|'si') × p(practica_deporteE|'si') × p(salarioE|'si')


p('sí'|E)=
p(E)

p('si'): se calcula como el número de ejemplos en la muestra que tienen el valor buen-
cliente='si', dividido por el número de ejemplos en la muestra.

p('si'): 7/10

143
3. Técnicas de Minería de Datos
Técnicas de clasificación: Naive Bayes
Edad Hijos Practica- Salario Buen-
Nuevo ejemplo E: deporte cliente
mayor no no medio ?

p(edadE|'si') × p(hijosE|'si') × p(practica_deporteE|'si') × p(salarioE|'si')


p('si'|E)=
p(E)

p(edadE|'no') × p(hijosE|'no') × p(practica_deporteE|'no') × p(salarioE|'no'


p('no'|E)=
p(E)

Se elige la clase para la que la probabilidad de clasificación es mayor.

144
Minería de Datos (Data Mining)

1. Introducción a la Minería de Datos (DM)


2. El proceso de KDD
3. Técnicas de Minería de Datos
4. Evaluación de modelos

145
4. Evaluación de modelos Modelos
de datos

Evaluación

Conocimiento

Evaluación: Medida de la validez (calidad) del


modelo obtenido por una tarea de DM.

Medidas de validez: dependen de la tarea de


DM aplicada.

146
4. Evaluación de modelos Modelos
de datos

Evaluación
Tareas Predictivas.
Conocimiento

Generación de modelos: división del conjunto de ejemplos.


conjunto de entrenamiento (training set): subconjunto de ejemplos
utilizado en la obtención del modelo.
conjunto de prueba o validación (test set): subconjunto de ejemplos
utilizado para validar el modelo obtenido.

147
Modelos
de datos

Tareas Predictivas. Evaluación

Conocimiento

Generación de modelos: división del conjunto de ejemplos.


 Validación simple: si se dispone de un conjunto de ejemplos
numeroso, la división se hace equitativamente (50%) y de forma
aleatoria.
 Validación cruzada: se utiliza cuando no se dispone de un conjunto
grande de ejemplos.

148
4. Evaluación de modelos Modelos
de datos

Evaluación
Tareas Predictivas.
Conocimiento

Generación de modelos: división del conjunto de ejemplos.


Validación cruzada:
- Validación cruzada simple: se divide el conjunto de ejemplos,
aleatoriamente, en dos subconjuntos iguales S1 y S2. Primero se genera
un modelo con S1 y se prueba con S2, obteniendo una medida para la
validez del modelo. Luego se genera otro modelo con S2 y se prueba con
S1, obteniendo una medida de la validez del modelo. Por último se genera
un modelo con todos los datos y se le asocia como medida de validez la
media de las medidas anteriores.

149
4. Evaluación de modelos Modelos
de datos

Tareas Predictivas. Evaluación

Conocimiento

Generación de modelos: división del conjunto de ejemplos.


Validación cruzada:
- Validación cruzada con n pliegues: se divide el conjunto de ejemplos,
aleatoriamente, en n subconjuntos iguales. Un subconjunto se reserva para
la prueba y con los otros n-1 se genera un modelo que será probado con el
subconjunto reservado, obteniendo una medida de la validez del modelo.
Este proceso se repite n veces, reservando en cada ocasión un
subconjunto de prueba distinto. Por último se genera un modelo con todos
los ejemplos y se le asocia como medida de la validez la media de las
medidas de validez anteriores.

150
4. Evaluación de modelos Modelos
de datos

Tareas Predictivas. Evaluación

Conocimiento

La clasificación
Medida de la validez del modelo: precisión predictiva

X
Precisión =
Y

X: Nro. de ejemplos del conjunto de prueba (ejemplos


etiquetados) clasificadas correctamente por el modelo.
Y: Nro. de ejemplos del conjunto de prueba

151
4. Evaluación de modelos Modelos
de datos

Tareas Predictivas. Evaluación

Conocimiento

La regresión
Medida de la validez del modelo: error cuadrático medio del valor
predicho por el modelo, respecto al valor real del ejemplo de prueba.

n
(yti - yi )2
1
Error =
n
i=1

Yt : representa el valor devuelto por el modelo para el ejemplo.


Y: representa el valor real para el ejemplo.
n. Número de ejemplos.

152
4. Evaluación de modelos Modelos
de datos

Tareas Descriptivas. Evaluación

Conocimiento

El agrupamiento
Medida de la validez del modelo: basadas en el concepto de distancia

Concepto de Similitud: ejemplos similares deben pertenecer al


mismo grupo.
Concepto de Distancia: inversa de similitud.
Definición de Distancia: euclidea, de Manhattan, de Chebychev,
del coseno, por diferencia, ..

153
4. Evaluación de modelos Modelos
de datos

Tareas Descriptivas. Evaluación

Conocimiento

El agrupamiento
Medida de la validez del modelo: basadas en el concepto de distancia

las medidas de validez son función de la cohesión de los


grupos y de la separación entre ellos.
la cohesión se puede medir por la distancia de los miembros
de un grupo al centro del grupo.
la separación entre grupos se puede medir calculando la
distancia media entre grupos.

154
4. Evaluación de modelos Modelos
de datos

Tareas Descriptivas. Evaluación

Conocimiento

La asociación
Se mide la validez de cada una de las reglas de asociación generadas.

Medidas de la validez:
Cobertura (support): Nro. de ejemplos del conjunto de prueba a los
que la regla se aplica (antecedente cierto) y funciona
correctamente (consecuente cierto).
Confianza (confidence/accuracy): Proporción del nro. de ejemplos
del conjunto de prueba para los que la regla funciona
correctamente

155
4. Evaluación de modelos Modelos
de datos

Tareas Descriptivas. Evaluación

Conocimiento

La asociación
Se mide la validez de cada una de las reglas de asociación generadas.
n: nro. de ejemplos
na: nro. de ejemplos a los que se aplica una regla (antecedente cierto)
nc: nro. ejemplos para los que la regla funciona correctamnete
(antecedente cierto y consecuente cierto)

Cobertura relativa = nc / n
Cobertura absoluta = nc

Confianza = nc / na

156
4. Evaluación de modelos Modelos
de datos

Tareas Descriptivas. Evaluación

Conocimiento

La asociación
Se mide la validez de cada una de las reglas de asociación generadas.

Cobertura relativa = nc / n
Cobertura absoluta = nc

Confianza = nc / na

Valores deseables:
Cobertura absoluta: > 20, Cobertura relativa: 0.5 (50%)
Confianza: 0.95 (95%)

157
4. Evaluación de modelos
Tareas descriptivas: la asociación.
Ejemplo2: análisis de la cesta de la compra.
ID Huevos Aceite Pañales Vino Leche Mantequilla Salmón Lechugas ...
1 sí no no sí no sí sí sí
2 no sí no no sí no no sí
3 no no sí no sí no no no
4 no sí sí no sí no no no
5 sí sí no no no sí no sí
6 sí no no sí sí sí sí no
7 no no no no no no no no
8 sí sí sí sí sí sí sí no
...

Algunas asociaciones que se observan en los datos son:


"El 100% de las veces que se compran pañales también se compra leche"
"El 50% de las veces que se compran huevos también se compra aceite"
"El 33% de las veces que se compran vino y salmón también se compran
lechugas"

158
4. Evaluación de modelos
Tareas descriptivas: la asociación.
Ejemplo2: análisis de la cesta de la compra.
ID Huevos Aceite Pañales Vino Leche Mantequilla Salmón Lechugas ...
1 sí no no sí no sí sí sí
2 no sí no no sí no no sí
3 no no sí no sí no no no
4 no sí sí no sí no no no
5 sí sí no no no sí no sí
6 sí no no sí sí sí sí no
7 no no no no no no no no
8 sí sí sí sí sí sí sí no
...

R1 : pañales='si'  leche='si' (Confianza=1)


R2 : huevos='si'  aceite ='si' (Confianza=0.5)
R3 : vino='si'  salmón='si'  lechugas ='si' (Confianza=0.3)

159
4. Evaluación de modelos
Tareas descriptivas: la asociación.
Ejemplo: .
DNI Renta Familiar Ciudad Profesión Edad Hijos Obeso Casado
11251545 5.000.000 Barcelona Ejecutivo 45 3 S S
30512526 1.000.000 Melilla Abogado 25 0 S N
22451616 3.000.000 León Ejecutivo 35 2 S S
25152516 2.000.000 Valencia Camarero 30 0 S S
23525251 1.500.000 Benidorm Animador 30 0 N N
Parque
Temático

Reglas de asociación:
R1: Casado  Hijos > 0 (Confianza: 0.8, Soporte: 4 casos).
R2: Obeso  Casado (Confianza: 0.8, Soporte: 4 casos)
R3: Hijos > 0  Casado (Confianza: 1, Soporte: 2 casos).
R4: Casado  Obeso (Confianza: 1, Soporte: 3 casos)
160

Vous aimerez peut-être aussi