Vous êtes sur la page 1sur 47

Minera de Datos

Ing. Juan Orlando Salazar Campos.


Ingeniero Informtico.
Docente Universidad Nacional de Trujillo. Docente Universidad Privada del Norte. Docente Universidad de San Martn de Porres - FN

salazarcjo@gmail.com www.salazar.sisamec.com

Trujillo - 2013

Todo proceso

Necesita almacenar datos?

Necesitamos consultar datos?

Qu es una Base de Datos?


Una base de datos es una coleccin de elementos organizados y relacionados, que trabajan coordinadamente con un fin comn.
Sw Gerencial
Sw Administrativo Sw Transaccional

Base de Datos
2

Clasificacin
Jerrquicas Relacionales Orientadas a Objetos

Control de datos

Texto Multimedia Imgenes Sonidos Videos Documentos

Modelo

Datos

Manuales Automatizadas

Diagrama Entidad - Relacin

TRABAJADOR *

registra

ASISTENCIA

tiene

1 UBICACIN

Componentes
Fsico:
Dependencia SGBDR. Complementamos Tipos de Datos.

Comandos:
DDL. Lenguaje de definicin de datos. Create, drop, alter. DML. Lenguaje de manipulacin de datos. Select, insert, update, delete.

Qu es Minera de Datos?
- Es un mecanismo de explotacin, consistente en la bsqueda de informacin valiosa en grandes volmenes de datos. - La minera de datos se centra en llenar la necesidad de descubrir el por que, para luego predecir y pronosticar las posibles acciones con cierto factor de confianza para cada prediccin. - Es el anlisis de archivos y bitcoras de transacciones, trabaja a nivel del conocimiento con el fin de descubrir patrones, relaciones, reglas, asociaciones o incluso excepciones tiles para la toma de decisiones.

Orgenes de la Minera de Datos


La minera de datos se ha insertado desde los aos 90 en el contexto de las tecnologas de la informacin, algoritmia y desarrollo de software. Las lneas de desarrollo en el mbito de minera de datos tienen sus orgenes en tres conceptos importantes. Estadstica Clsica. Anlisis de regresin, desviacin estndar, varianza, anlisis de clustering, intervalos de confianza, entre otros. Se basan en el anlisis de estadstica clsica.

Orgenes de la Minera de Datos


Inteligencia Artificial. Esta disciplina se encuentra basada en heursticas, de forma opuesta a la estadstica, pero debido a que su implementacin necesitaba de computadoras con un poder de procesamiento alto. Aprendizaje Automtico. Podemos describir como la unin de tcnicas Estadsticas y de Inteligencia Artificial porque conjunta heursticas con anlisis estadstico avanzado.

Minera de Datos
La minera de Datos es un campo

interdisciplinario que junta las tcnicas de

aprendizaje automtico, reconocimientos de


patrones, estadstica, base de datos y

visualizacin, para dirigirla a la extraccin


e interpretacin en base de datos inmensas.

Minera de Datos
La Minera de Datos puede ser dividida en: Minera de datos predictiva (MDP) Usa primordialmente tcnicas estadsticas. Minera de datos para descubrimiento de conocimiento (MDDC) Usa principalmente tcnicas de Inteligencia Artificial.

Minera de Datos
Un proceso de apoyo a la toma de decisiones de negocio debe incluir 2 componentes: Descubrimiento. Nos ayuda a obtener informacin rpida de las Bases de Datos.

Verificacin. Nos permite obtener conclusiones, confirmar o rechazar descubrimientos obtenidos.

Caractersticas de la Minera de Datos


Las herramientas de la minera de datos se combinan fcilmente y pueden analizarse y procesarse rpidamente. Debido a la gran cantidad de datos, algunas veces resulta necesario usar procesamiento en paralelo para la minera de datos. Hurgar y sacudir descubrimiento de inesperados. a menudo implica resultados valiosos el e

Caractersticas de la Minera de Datos


En algunos casos, los datos se consolidan en un almacn de datos y en mercados de datos; en otros, se mantienen en servidores de Internet e Intranet. El entorno de la minera de datos suele tener una arquitectura cliente servidor.
Explorar los datos que se encuentran en las profundidades de las bases de datos, que algunas veces contienen informacin almacenada durante varios aos.

Fundamentos de la Minera de Datos


Las tcnicas de Minera de Datos son el resultado de un largo proceso de investigacin y desarrollo de productos.
Esta evolucin comenz cuando los datos de negocios fueron almacenados por primera vez en computadoras, y continu con mejoras en el acceso a los datos, y ms recientemente con tecnologas generadas para permitir a los usuarios navegar a travs de los datos en tiempo real.

Fundamentos de la Minera de Datos


Minera de Datos est lista para su aplicacin en la comunidad de negocios porque est soportado por tres tecnologas que ya estn suficientemente maduras:
Recoleccin masiva de datos. Potentes computadoras con multiprocesadores. Algoritmos de Minera de Datos.

Fundamentos de la Minera de Datos


Los componentes esenciales de la tecnologa de Minera de Datos han estado bajo desarrollo por dcadas, en reas de investigacin como estadsticas, inteligencia artificial y aprendizaje de mquinas.
Hoy, la madurez de estas tcnicas, junto con los motores de bases de datos relacionales de alta performance, hicieron que estas tecnologas fueran prcticas para los entornos de data warehouse actuales.

Alcance de la Minera de Datos


La Minera de Datos puede generar nuevas oportunidades de negocios al proveer ciertas capacidades: Prediccin automatizada de tendencias y comportamientos: - La Minera de Datos automatiza el proceso de encontrar informacin predecible en grandes BD. - Preguntas que tradicionalmente requeran un intenso anlisis manual, ahora pueden ser contestadas directa y rpidamente desde los datos.

Alcance de la Minera de Datos


Un tpico ejemplo de problema predecible es el marketing apuntado a objetivos (targeted marketing). Otros problemas predecibles incluyen pronsticos de problemas financieros futuros e identificar segmentos de poblacin que probablemente respondan similarmente a eventos dados.

Alcance de la Minera de Datos


Descubrimiento automatizado previamente desconocidos: de modelos

- Las herramientas de Minera de Datos barren las bases de datos e identifican modelos previamente escondidos en un slo paso. - Cuando las herramientas de Minera de Datos son implementadas en Sist. de Proc. paralelo de alta performance, pueden analizar BD masivas en minutos.

Alcance de la Minera de Datos


Descubrimiento automatizado previamente desconocidos: de modelos

- Procesamiento ms rpido significa que los usuarios pueden automticamente experimentar con ms modelos para entender datos complejos.

- Grandes BD, a su vez, producen mejores predicciones.

Modelos en la Minera de Datos


Un concepto importante reside en que la generacin de un modelo de minera de datos forma parte de un proceso mayor que incluye desde la definicin del problema bsico que resolver el modelo hasta la implementacin del modelo en un entorno de trabajo. Este proceso se puede definir mediante los seis pasos bsicos siguientes:
Definir el Problema Preparar los datos Explorar los datos Generar Modelos Explorar y Validar los Modelos Implementar y actualizar los modelos

Modelos en la Minera de Datos


El siguiente diagrama describe las relaciones entre cada paso del proceso.
La creacin de un modelo de minera de datos es un proceso dinmico e iterativo. Una vez que ha explorado los datos, puede que descubra que resultan insuficientes para crear los modelos de minera de datos adecuados y que, por tanto, debe buscar ms datos.

Modelos en la Minera de Datos


Este paso incluye analizar los requisitos empresariales, definir el mbito del problema, definir las mtricas por las que se evaluar el modelo y definir el objetivo final del proyecto de minera de datos.
Tener un estudio de disponibilidad de datos para investigar las necesidades de los usuarios de la empresa con respecto a los datos disponibles. Si los datos no son compatibles con las necesidades de los usuarios, puede que se redefina el proyecto.

Modelos en la Minera de Datos

Nos permite consolidar y limpiar los datos identificados en el paso de Definir el Problema, para poder tener datos consistentes en la futura evaluacin.

Modelos en la Minera de Datos

Debemos comprender los datos para tomar las decisiones adecuadas al crear los modelos. Entre las tcnicas de exploracin se incluyen calcular los valores mnimos y mximos, calcular la media y las desviaciones estndar y examinar la distribucin de los datos.

Modelos en la Minera de Datos


Antes de generar un modelo, se deben separar aleatoriamente los datos preparados en conjuntos de datos de entrenamiento y comprobacin independientes. El conjunto de datos de entrenamiento se utiliza para generar el modelo. El conjunto de datos de comprobacin se utilizan para verificar la precisin del modelo mediante la creacin de consultas de prediccin.

Modelos en la Minera de Datos


Consiste en explorar los modelos que ha generado y comprobar su eficacia.

No se debe implementar un modelo en un entorno de produccin sin comprobar primero si el modelo funciona correctamente.
Si ninguno de los modelos que se ha creado en el paso anterior funciona correctamente, puede que deba volver a un paso anterior del proceso o volver a definir el problema e incluso volver a investigar los datos del conjunto de datos original.

Modelos en la Minera de Datos


Utilizar los modelos para crear predicciones que pueda utilizar para tomar decisiones empresariales Incrustar la funcionalidad de minera de datos directamente en una aplicacin. Utilizar Integration Services para crear un paquete en el que se utilice un modelo de minera de datos para separar de forma inteligente los datos entrantes en varias tablas. Crear un informe que permita a los usuarios realizar consultas directamente en un modelo de minera de datos existente.

Ejemplo
Se desea conocer la tendencia de los pedidos de calamar segn los clientes.

Preparacin del modelo

Implementacin del modelo


SGBD Lenguaje de programacin

SPSS

Ejemplo
Seleccionar los datos y prepararlos. (limpiarlos, estandarizarlos)

Ejemplo
Unidades de la cantidad no nos ayudan, hay que transformarlas

Ejemplo
Unidades de la cantidad no nos ayudan, hay que transformarlas

Ejemplo
Existen valores nulos, vacos, ruidos, descartarlos, reemplazarlos o uniformizarlos. hay que

Ejemplo
Evaluar si existe una correlacin entre lo datos a analizar

Ejemplo

Como el coeficiente de correlacin de Pearson entre la cantidad de pedidos y los usuarios que realizan los mismos de 82.8%, entonces la relacin existente entre estas dos variables es elevada.

Ejemplo
Como la fase evaluacin de datos me arroj una relacin entre ellos podemos intentar formalizar esta relacin existente mediante un modelo, en este caso un modelo matemtico basado en Regresin Lineal.
Para lo cual hay que definir dos variables: Variable Independiente: Cantidades Pedidas. Variable Dependiente: Usuario

Ejemplo

Ejemplo

De este cuadro podemos obtener la siguiente ecuacin:


Y = b + aX

Para nuestro caso:


Y (Usuario) = -17.71 + 40.265 (CantidadPedido)

Ejemplo
Una vez formalizado el modelo, hacemos las pruebas para la verificacin respectiva: Datos Pruebas. Desarrollar una aplicacin Informtica que permita tener el proceso descrito anteriormente en un SOLO CLIC, actualizndose constantemente.

Por qu usar Minera de Datos?


Ahorra grandes cantidades de dinero a una empresa y abre nuevas oportunidades de negocios.

Contribuye a la toma de decisiones estratgicas y tcticas.


Proporciona poder de decisin a los usuarios del negocio, y es capaz de medir las acciones y resultados de la mejor forma.

Por qu usar Minera de Datos?


Genera Modelos descriptivos: permite a empresas, explorar y comprender los datos e identificar patrones, relaciones y dependencias que impactan en los resultados finales. Genera Modelos predictivos: permite que relaciones no descubiertas puedan ser utilizadas en posteriores procesos.

Conclusiones
El desarrollo de la tecnologa de Minera de Datos est en un momento Importante. Existen elementos que la hacen operable, pero por otra parte, hay factores que pueden crear una desventaja a esta tecnologa, como pueden ser: Los productos a comercializar son, actualmente costosos, y los consumidores pueden hallar una relacin costo/beneficio improductiva. Se requiere de experiencia para utilizar herramientas de la tecnologa, puede ser muy fcil hallar patrones equvocos, triviales o no interesantes.

Conclusiones
Hoy en da, las corporaciones comercializan con millones de perfiles personales, sin que aquellos a los que se refieren los datos intercambiados, estn en posibilidad de intervenir, entonces, se llega a pensar que presenta un peligro o riesgo para la privacidad de los clientes

Ing. Juan Orlando Salazar Campos.


Ingeniero Informtico.
salazarcjo@gmail.com www.salazar.sisamec.com

Vous aimerez peut-être aussi