Vous êtes sur la page 1sur 24

Minería de datos

Ruben Egiguren
18/06/2013
Índice
● Introducción

● KDD: Proceso de Extracción de conocimiento

● Procesos de un proyecto de minería de datos

● Técnicas de minería de datos

● Ciclo de un Proyecto de Minería de Datos


De donde venimos y hacia dónde
vamos
¿Qué es la Minería de Datos?

● La minería de datos (DM, Data Mining) consiste en la


extracción no trivial de información que reside de
manera implícita en los datos. Dicha información era
previamente desconocida y podrá resultar útil para
algún proceso. En otras palabras, la minería de datos
prepara, sondea y explora los datos para sacar la
información oculta en ellos.

Fuente: wikipedia
¿Qué es la Minería de Datos?
● Deducir conocimiento examinando los datos y realizando
predicciones
○ «examinar datos» examinar ejemplos de hechos conocidos
sobre «casos» utilizando sus atributos – «variables»
○ «conocimiento»: Patrones, Clusters, Reglas, Árboles de
Decisión, Redes Neuronales, Reglas de Asociación,….

● OLAP: Análisis orientado al modelo

● DM: Análisis orientado al dato

● Nombres alternativos: Análisis Predictivo


¿Qué es la Minería de Datos?
● La minería de datos (es la etapa de análisis de "Knowledge Discovery in
Databases" o KDD)

● Proceso de detectar la información procesable de los conjuntos


grandes de datos.

● Utiliza el análisis matemático para deducir los patrones y tendencias


que existen en los datos.

● Estos patrones no se pueden detectar mediante la exploración


tradicional de los datos porque las relaciones son demasiado complejas o
porque hay demasiado datos.

● Estos patrones y tendencias se pueden recopilar y definir como un


modelo de minería de datos.
KDD: Proceso de Extracción de
conocimiento
Como muestra la figura, las etapas del proceso KDD se
dividen en 5 fases y son:
1. Selección de datos

2. Preprocesamiento

3. Transformación

4. Data Mining

5. Interpretación y Evaluación
KDD: Proceso de Extracción de
conocimiento
Como muestra la figura anterior, las etapas del proceso KDD se dividen en 5 fases y son:

1. Selección de datos. En esta etapa se determinan las fuentes de datos y el tipo de información
a utilizar. Es la etapa donde los datos relevantes para el análisis son extraídos desde la o las
fuentes de datos.
2. Preprocesamiento. Esta etapa consiste en la preparación y limpieza de los datos extraídos
desde las distintas fuentes de datos en una forma manejable, necesaria para las fases
posteriores. En esta etapa se utilizan diversas estrategias para manejar datos faltantes o en
blanco, datos inconsistentes o que están fuera de rango, obteniéndose al final una estructura de
datos adecuada para su posterior transformación.
3. Transformación. Consiste en el tratamiento preliminar de los datos, transformación y
generación de nuevas variables a partir de las ya existentes con una estructura de datos
apropiada. Aquí se realizan operaciones de agregación o normalización, consolidando los
datos de una forma necesaria para la fase siguiente.
4. Data Mining. Es la fase de modelamiento propiamente tal, en donde métodos inteligentes son
aplicados con el objetivo de extraer patrones previamente desconocidos, válidos, nuevos,
potencialmente útiles y comprensibles y que están contenidos u “ocultos” en los datos.
5. Interpretación y Evaluación. Se identifican los patrones obtenidos y que son realmente
interesantes, basándose en algunas medidas y se realiza una evaluación de los resultados
obtenidos.
Procesos de un proyecto de minería
de datos
Un proyecto de minería de datos tiene varias fases
necesarias que son, esencialmente:
● Comprensión del negocio y del problema que se quiere
resolver.
● Determinación, obtención y limpieza de los datos
necesarios.
● Creación de modelos matemáticos.
● Validación, comunicación, etc. de los resultados
obtenidos.
● Integración, si procede, de los resultados en un
sistema transaccional o similar.
Procesos de un proyecto de minería
de datos
● La relación entre todas estas fases sólo es
lineal sobre el papel. En realidad, es mucho
más compleja y esconde toda una jerarquía
de subfases. A través de la experiencia
acumulada en proyectos de minería de
datos se han ido desarrollando
metodologías que permiten gestionar esta
complejidad de una manera más o menos
uniforme.
Procesos de un proyecto de minería
de datos
● Generación de Recomendaciones
○ ¿Qué productos o servicios deberíamos de ofrecer a nuestros
clientes?
● Detección de anomalías
○ Detección de fraude
● Análisis de Rotación
○ ¿Qué clientes son más proclives de irse a la competencia?
● Gestión de Riesgos
○ ¿Debería de concederse el crédito?
● Segmentación de clientes
○ Clasificación de nuestros clientes
● Anuncios Orientados
○ Personalización de anuncios, contenido,…
Procesos de un proyecto de minería
de datos
● Previsión
○ ¿Cuánto venderemos el próximo semestre?
● Clasificación
○ Se asigna una categoría a cada caso. Cada caso tiene un conjunto de
atributos uno de ellos es el atributo clase.
○ Se busca un modelo que describa el atributo clase como una función
de los atributos de salida
● Agrupación
○ También conocido como segmentación
○ Identifica grupos naturales basándose en un conjunto de atributos
● Asociación
○ También conocido como análisis de cesta de la compra
● Regresión
○ Similar a clasificación pero con el objetivo de buscar patrones para
determinar un valor numérico
○ Ej.: Predicción de la velocidad del viento basada en temperatura
presión de aire y humedad
Técnicas de minería de datos

Las técnicas de la minería de datos provienen


de la Inteligencia artificial y de la estadística,
dichas técnicas, no son más que algoritmos,
más o menos sofisticados que se aplican sobre
un conjunto de datos para obtener unos
resultados.
Técnicas de minería de datos
Las técnicas más representativas son
● Redes neuronales
● Árboles de decisión
● Modelos estadísticos
● Agrupamiento o Clustering
● Algoritmos supervisados (o predictivos)
● Algoritmos no supervisados (o del descubrimiento
del conocimiento)
Técnicas de minería de datos

Redes neuronales
Son un paradigma de aprendizaje y procesamiento
automático inspirado en la forma en que funciona el
sistema nervioso de los animales. Se trata de un sistema
de interconexión de neuronas en una red que colabora
para producir un estímulo de salida. Algunos ejemplos de
red neuronal son:
● El Perceptrón
● El Perceptrón multicapa.
● Los Mapas Autoorganizados, también conocidos como
redes de Kohonen.
Técnicas de minería de datos

Árboles de decisión
Un árbol de decisión es un modelo de predicción utilizado
en el ámbito de la inteligencia artificial, dada una base de
datos se construyen estos diagramas de construcciones
lógicas, muy similares a los sistemas de predicción
basados en reglas, que sirven para representar y
categorizar una serie de condiciones que suceden de
forma sucesiva, para la resolución de un problema.
Ejemplos:
● Algoritmo ID3.
● Algoritmo C4.5.
Técnicas de minería de datos

Modelos estadísticos
● Es una expresión simbólica en forma de
igualdad o ecuación que se emplea en todos
los diseños experimentales y en la regresión
para indicar los diferentes factores que
modifican la variable de respuesta.
Técnicas de minería de datos

Agrupamiento o Clustering
Es un procedimiento de agrupación de una serie de
vectores según criterios habitualmente de distancia; se
tratará de disponer los vectores de entrada de forma que
estén más cercanos aquellos que tengan características
comunes.
Ejemplos:
● Algoritmo K-means.
● Algoritmo K-medoids.
Técnicas de minería de datos

Según el objetivo del análisis de los datos, los


algoritmos utilizados se clasifican en supervisados y
no supervisados (Weiss y Indurkhya, 1998):
● Algoritmos supervisados (o predictivos)

○ Predicen un dato (o un conjunto de ellos)

desconocido a priori, a partir de otros conocidos.


● Algoritmos no supervisados (o del descubrimiento del
conocimiento)
○ Se descubren patrones y tendencias en los datos.
Técnicas de minería de datos
Ejemplo
Comprador potencial de bicis:
Provincia Ciudad Edad Coche Distancia trabajo Bici
Ciclo de un Proyecto de Minería de
Datos
Muchas gracias por
vuestra atención
Algunas herramientas
● dVelox
● KXEN
● KNIME
● Orange
● Powerhouse
● Quiterian
● RapidMiner
● R
● SPSS Clementine
● SAS Enterprise Miner
● STATISTICA Data Miner
● KEEL
● mahout
● Weka
Referencias
● http://www.slideshare.net/antoniosql/minera-de-datos
● http://msdn.microsoft.com/es-es/library/ms174949.aspx
● http://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos
● http://www.slideshare.net/04071977/mineria-de-datos
● http://mahout.apache.org/
● https://www.youtube.com/watch?v=43mS9M1ZjU8

Vous aimerez peut-être aussi