Vous êtes sur la page 1sur 23

Minera de datos

Minera de datos

La revolucin digital durante los ltimos aos, permite a las empresas capturar y
almacenar una gran cantidad de datos, de los cuales es muy til el poder
recopilar informacin.

Las tcnicas tradicionales de estadsticas y las herramientas de gestin clsicas


no estn preparadas para trabajar con tanta informacin, por lo que surge la
necesidad de nuevas herramientas.

Minera de datos
De esta necesidad de descubrir conocimiento a partir de los datos , surge
el proceso de Descubrimiento de Conocimiento en Bases de Datos (KDD,
por sus siglas en ingles Knowledge Discovery in Databases) el cual consta
de 3 etapas: 1. Preprocesamiento de datos 2. Minera de Datos y 3.
Postprocesamiento de los resultados.
Un concepto formal de Minera de Datos sera: La minera de datos es el
proceso automtico para el descubrimiento de informacin til en grandes
cantidades de datos. La minera de datos consta de un campo
multidisciplinario con el cual se pretende predecir resultados y/o descubrir
relaciones entre los diferentes datos.

Escenarios

Campaas de
correo

Segmentacin de
mercado

Prediccin de
ventas

Secuencias de
compras

Escenario
s

Recomendaciones
de compras

Paso1: Definir el problema

Paso1: Definir el problema

Que se esta buscando?

Analizar los requisitos


de la organizacin.

Qu atributo del conjunto de datos


se desea intentar traducir?

Definir el mbito del


problema

Qu tipos de relaciones se intenta


buscar?

Definir la mtricas por


las que se evaluara el
modelo

Cmo se distribuyen los datos?.

Se desea realizar predicciones a


partir del modelo de minera de
datos o slo buscar asociaciones y
patrones interesantes?

Cmo se relacionan las columnas?,


o en caso de haber varias tablas,
cmo se relacionan las tablas?.

Definir el objetivo final


del proyecto de minera
de datos.

Paso 2: Preparar los datos

Paso 2: Preparar los datos


Consiste en consolidar y limpiar los datos
identificados en el paso Definir el Problema.

Calidad de Datos.

Elxito de las
actividades de Data
Miningse relaciona
directamente con la
calidad de los datos.

Problemas con los


Datos.

o Demasiados
datos.
o Pocos datos.
o Poca Cantidad de
Datos.

Paso 2: Preparar los datos

Demasiados datos:

o Datos corruptos o con


ruido.

Pocos datos:

Poca Cantidad de
Datos:

o Atributos perdidos
o Valores perdidos.

o Datos fracturados.

Datos redundantes.

o Datos incompatibles.

Datos irrelevantes.

o Mltiples fuentes de
datos.

o Excesiva cantidad de
datos (muestreo)

Paso 3: Explorar los datos

Paso 3: Explorar los datos


Debe conocer los datos para tomar las decisiones adecuadas al crear los
modelos de minera de datos
La exploracin de datos se auxilia de unas tcnicas que le permiten
obtener valores o datos mas precisos, estas son:

Calcular valores mnimos y mximos.

Calculas las medias y desviaciones de datos.

Examinar la distribucin de datos

Al realizar estas tcnicas se pueden determinas muchos aspectos


importantes de la informacin que se esta manejando.

Paso 3: Explorar los datos


Qu nos dicen las tcnicas anteriormente mencionadas?

Tendencia de datos

Irregularidad en periodos de tiempo

Determinar sectores que estn fallando

Con esos resultados podemos idear esquemas de comportamiento y de


soluciones a problemticas encontradas en la minera de datos.

Paso 3: Explorar los datos


Algunos software que permiten la exploracin de los datos son:

Master Data Services, para sondear los orgenes de datos disponibles y


determinar su disponibilidad para la minera de datos.

SQL Server Data Quality Services

Generador de perfiles de datos de Integration Services, para analizar la


distribucin de los datos y solucionar problemas, como la existencia de
datos incorrectos o la falta de datos.

Con todos los pasos anteriores definimos que la minora de datos es posible
para el modelo que se esta analizando y se procede a continuar con los
pasos restantes.

Paso 4: Generar modelos

Paso 4: Generar modelos


El cuarto paso del proceso de minera de datos necesita los conocimientos
del paso anterior para a partir de los datos explorados, se definan y se
creen modelos
Que hacer para generar modelos:

Definir qu columnas de datos se usarn

Crear una estructura de minera de datos

Esto se vincula al origen de datos, pero en verdad no contiene ningn dato


hasta que se procesa

Paso 4: Generar modelos

Tener claro antes de procesar la estructura y el modelo que

Un modelo de minera de datos simplemente es un contenedor que


especifica las columnas que se usan para la entrada

EL procesamiento de un modelo al proceso de aplicar un algoritmo


matemtico concreto a los datos de la estructura para extraer patrones

Paso 5: Validar los modelos

Paso 5: Validar los modelos


El quinto paso del proceso de minera de datos, consiste en explorar los
modelos de minera de datos que ha generado y comprobar su eficacia.
Antes de implementar un modelo en un entorno de produccin, es
aconsejable probar si funciona correctamente. Adems, al generar un
modelo, normalmente se crean varios con configuraciones diferentes y se
prueban todos para ver cul ofrece los resultados mejores para su
problema y sus datos.
Puede explorar las tendencias y patrones que los algoritmos detectan
mediante los visores del diseador de minera de datos de Herramientas de
datos de SQL Server

Paso 5: Validar los modelos


Para comprobar si el modelo es especfico de sus datos o se puede utilizar
para realizar inferencias en la poblacin general, puede utilizar la tcnica
estadstica denominada validacin cruzada para crear automticamente
subconjuntos de los datos y probar el modelo con cada uno.
Si ninguno de los modelos que ha creado en el paso Generar modelos
funciona correctamente, puede que deba volver a un paso anterior del
proceso y volver a definir el problema o volver a investigar los datos del
conjunto de datos original.

Paso 6: Implementar y actualizar los


modelos

Paso 6: Implementar y actualizar los


modelos

El ltimo paso del proceso de minera de datos, consiste en


implementar los modelos que funcionan mejor en un entorno
de produccin.

Una vez que los modelos de minera de datos se encuentran


en el entorno de produccin, puede llevar acabo diferentes
tareas, dependiendo de sus necesidades.

Paso 6: Implementar y actualizar los


modelos
Las siguientes son algunas de las tareas que puede realizar:

Incrustar la funcionalidad de minera de datos directamente en una


aplicacin

Crear consultas de contenido para recuperar estadsticas, reglas o


frmulas del modelo

Usar el modelo para tomar decisiones comerciales

GRACIAS POR SU
ATENCION!

Vous aimerez peut-être aussi