Vous êtes sur la page 1sur 24

Datawarehouse Datamining

Sistemas basados en conocimiento


En este breve ensayo usted podr encontrar las definiciones tanto de Datawarehouse como de Datamining principalmente, as como sus funcionalidades, fundamentos alcances y aplicacin, tambin se agregaron mas conceptos relacionados de Bases de datos OLTP y OLAP, y Datamart para poder comprender mejor el tema. Alfredo Prez Clemente 28/02/2011

Datawarehouse - Datamining Sistemas basados en conocimiento

ndice

Datawarehouse - Datamining Sistemas basados en conocimiento

Datawarehouse (Almacn de datos)


Definicin Datawarehouse Un Datawarehouse es una base de datos corporativa que se caracteriza por integrar y depurar informacin de una o ms fuentes distintas, para luego procesarla permitiendo su anlisis desde infinidad de perspectivas y con grandes velocidades de respuesta. La creacin de un datawarehouse representa en la mayora de las ocasiones el primer paso, desde el punto de vista tcnico, para implantar una solucin completa y fiable de Business Intelligence. La ventaja principal de este tipo de bases de datos radica en las estructuras en las que se almacena la informacin (modelos de tablas en estrella, en copo de nieve, cubos relacionales... etc). Este tipo de persistencia de la informacin es homognea y fiable, y permite la consulta y el tratamiento jerarquizado de la misma (siempre en un entorno diferente a los sistemas operacionales).

El trmino Datawarehouse fue acuado por primera vez por Bill Inmon, y se traduce literalmente como

almacn de datos. No obstante, y como cabe suponer, es mucho ms que eso. Segn defini el propio
Bill Inmon, un datawarehouse se caracteriza por ser: Integrado: los datos almacenados en el datawarehouse deben integrarse en una estructura consistente, por lo que las inconsistencias existentes entre los diversos sistemas

Datawarehouse - Datamining Sistemas basados en conocimiento

operacionales deben ser eliminadas. La informacin suele estructurarse tambin en distintos niveles de detalle para adecuarse a las distintas necesidades de los usuarios. Temtico: slo los datos necesarios para el proceso de generacin del conocimiento del negocio se integran desde el entorno operacional. Los datos se organizan por temas para facilitar su acceso y entendimiento por parte de los usuarios finales. Por ejemplo, todos los datos sobre clientes pueden ser consolidados en una nica tabla del datawarehouse. De esta forma, las peticiones de informacin sobre clientes sern ms fciles de responder dado que toda la informacin reside en el mismo lugar. Histrico: el tiempo es parte implcita de la informacin contenida en un datawarehouse. En los sistemas operacionales, los datos siempre reflejan el estado de la actividad del negocio en el momento presente. Por el contrario, la informacin almacenada en el datawarehouse sirve, entre otras cosas, para realizar anlisis de tendencias. Por lo tanto, el datawarehouse se carga con los distintos valores que toma una variable en el tiempo para permitir comparaciones. No voltil: el almacn de informacin de un datawarehouse existe para ser ledo, pero no modificado. La informacin es por tanto permanente, significando la actualizacin del datawarehouse la incorporacin de los ltimos valores que tomaron las distintas variables contenidas en l sin ningn tipo de accin sobre lo que ya exista. Otra caracterstica del datawarehouse es que contiene metadatos, es decir, datos sobre los datos. Los metadatos permiten saber la procedencia de la informacin, su periodicidad de refresco, su fiabilidad, forma de clculo... etc. Los metadatos sern los que permiten simplificar y automatizar la obtencin de la informacin desde los sistemas operacionales a los sistemas informacionales. Los objetivos que deben cumplir los metadatos, segn el colectivo al que va dirigido, son: Dar soporte al usuario final, ayudndole a acceder al datawarehouse con su propio lenguaje de negocio, indicando qu informacin hay y qu significado tiene. Ayudar a construir consultas, informes y anlisis, mediante herramientas de Business Intelligence como DSS, EIS o CMI. Dar soporte a los responsables tcnicos del datawarehouse en aspectos de auditora, gestin de la informacin histrica, administracin del datawarehouse, elaboracin de

Datawarehouse - Datamining Sistemas basados en conocimiento

programas de extraccin de la informacin, especificacin de las interfaces para la realimentacin a los sistemas operacionales de los resultados obtenidos... etc. Por ltimo, destacar que para comprender ntegramente el concepto de datawarehouse, es importante entender cual es el proceso de construccin del mismo, denominado ETL (Extraccin, Transformacin y Carga), a partir de los sistemas operaciones de una compaa: Extraccin: obtencin de informacin de las distintas fuentes tanto internas como externas. Transformacin: filtrado, limpieza, depuracin, homogeneizacin y agrupacin de la informacin. Carga: organizacin y actualizacin de los datos y los metadatos en la base de datos.

Una de las claves del xito en la construccin de un datawarehouse es el desarrollo de forma gradual, seleccionando a un departamento usuario como piloto y expandiendo progresivamente el almacn de datos a los dems usuarios. Por ello es importante elegir este usuario inicial o piloto, siendo importante que sea un departamento con pocos usuarios, en el que la necesidad de este tipo de sistemas es muy alta y se pueda obtener y medir resultados a corto plazo. Principales aportaciones de un datawarehouse Proporciona una herramienta para la toma de decisiones en cualquier rea funcional, basndose en informacin integrada y global del negocio. Facilita la aplicacin de tcnicas estadsticas de anlisis y modelizacin para encontrar relaciones ocultas entre los datos del almacn; obteniendo un valor aadido para el negocio de dicha informacin.

Datawarehouse - Datamining Sistemas basados en conocimiento

Proporciona la capacidad de aprender de los datos del pasado y de predecir situaciones futuras en diversos escenarios. Simplifica dentro de la empresa la implantacin de sistemas de gestin integral de la relacin con el cliente. Supone una optimizacin tecnolgica y econmica en entornos de Centro de Informacin, estadstica o de generacin de informes con retornos de la inversin espectaculares. Los objetivos fundamentales de un Data WareHouse son: Hace que la informacin de la organizacin sea accesible: los contenidos del Data WareHouse son entendibles y navegables, y el acceso a ellos son caracterizado por el rpido desempeo. Estos requerimientos no tienen fronteras y tampoco limites fijos. Cuando hablamos de entendible significa, que los niveles de la informacin sean correctos y obvios. Y Navegables significa el reconocer el destino en la pantalla y llegar a donde queramos con solo un clic. Rpido desempeo significa, cero tiempode espera. Todo lo dems es un compromiso y por consiguiente algo que queremos mejorar. Hacer que la informacin de la organizacin sea consistente: la informacin de una parte de la organizacinpuede hacerse coincidir con la informacin de la otra parte de la organizacin. Si dos medidas de la organizacin tienen el mismo nombre, entonces deben significar la misma cosa. Y a la inversa, si dos medidas no significan la misma cosa, entonces son etiquetados diferentes. Informacin consistente significa, informacin de alta calidad. Significa que toda la informacin es contabilizada y completada. Todo lo dems es un compromiso y por consiguiente algo que queremos mejorar. Es informacin adaptable y elstica: el Data WareHouse esta diseado para cambios continuos. Cuando se le hacen nuevas preguntas al Data WareHouse, los datos existentes y las tecnologas no cambian ni se corrompen. Cuando se agregan datos nuevos al Data WareHouse, los datos existentes y las tecnologas tampoco cambian ni se corrompen. El diseo de Data Marts separados que hacen al Data WareHouse, deben ser distribuidos e incrementados. Todo lo dems es un compromiso y por consiguiente algo que queremos mejorar.

Datawarehouse - Datamining Sistemas basados en conocimiento

Es un segurobaluarte que protege los valores de la informacin: el Data WareHouse no solamente controla el acceso efectivo a los datos, si no que da a los dueos de la informacin gran visibilidad en el uso y abusos de los datos, an despus de haber dejado el Data WareHouse. Todo lo dems es un compromiso y por consiguiente algo que queremos mejorar. Es la fundacin de la toma de decisiones: el Data WareHouse tiene los datos correctos para soportar la toma de decisiones. Solo hay una salida verdadera del Data WareHouse: las decisiones que son hechas despus de que el Data WareHouse haya presentado las evidencias. La original etiqueta que preside el Data WareHouse sigue siendo la mejor descripcin de lo que queremos construir: un sistema de soporte a las decisiones.

Los elementos bsicos de un Data WareHouse Sistema fuente: sistemas operacionales de registros donde sus funcionesson capturar las transacciones del negocio. A los sistemas fuentes tambin se le conoce como Legacy System. rea de trafico de datos: es un rea de almacenamiento y grupo de procesos, que limpian transforman, combinan, remover los duplicados, guardan, archivan y preparan los datos fuente para ser usados en el Data WareHouse. Servidor de presentacin: la maquina fsica objetivoen donde los datos del Data WareHouse son organizados y almacenados para queries directos por los usuarios finales, reportes y otras aplicaciones. Modelo dimensional: una disciplina especifica para el modelado de datos que es una alternativa para los modelosde entidad relacin. Procesos de negocios: un coherente grupo de actividades de negocio que hacen sentido a los usuarios del negocio del Data WareHouse. Data Mart: un subgrupo lgico del Data WareHouse completo. Data WareHouse: bsquedas fuentes de datos de la empresa. Y es la unin de todos los data marts que la constituyen.

Datawarehouse - Datamining Sistemas basados en conocimiento

Almacenamiento operacional de datos: es el punto de integracin por los sistemas operacionales. Es el acceso al soporte de decisiones por los ejecutivos. OLAP: actividad general de bsquedas para presentacin de texto y nmeros del Data WareHouse, tambin un estilo dimensional especifico de bsquedas y presentacin de informacin y que es ejemplificada por vendedores de OLAP. ROLAP: un grupo de interfases de usuarios y aplicaciones que le dan a la base de datos relacional un estilo dimensional. MOLAP: un grupo de interfases de usuarios, aplicaciones y propietarios de tecnologa de bases de datos que tienen un fuerte estilo dimensional. Aplicaciones para usuarios finales: una coleccin de herramientas que hacen los queries, analizan y presentan la informacin objetivo para el soporte de las necesidades del negocio. Herramientas de acceso a datos por usuarios finales: un cliente de Data WareHouse. Ad Hoc Query Tool: un tipo especifico de herramientas de acceso a datos por usuarios finales que invita al usuario a formas sus propios queries manipulando directamente las tablas relacionales y sus uniones. Modelado de aplicaciones: un sofisticado tipo de cliente de Data WareHouse con capacidades analticas que transforma o digiere las salidas del Data WareHouse. Meta Data: toda la informacin en el ambiente del Data WareHouse que no son as mismo los datos actuales. Los procesos bsicos del Data WareHouse (ETL) Extraccin: este es el primer paso de obtener la informacin hacia el ambiente del Data WareHouse. Transformacin: una vez que la informacin es extrada hacia el rea de trafico de datos, hay posibles paso de transformacin como; limpieza de la informacin, tirar la basura que no nos sirve, seleccionar nicamente los campos necesarios para el Data WareHouse, combinar fuentes de datos, hacindolas coincidir por los valores de las llaves, creando nuevas llaves para cada registro de una dimensin.

Datawarehouse - Datamining Sistemas basados en conocimiento

Carga: al final del proceso de transformacin, los datos estn en forma para ser cargados. Las razones bsicas de porque una organizacin implementa Data WareHouse: Para realizar tareas en los servidoresy discos, asociados a queries y reportes en servidores y discos que no son utilizados por sistemas de proceso de transacciones.

Muchas de las empresasquieren instalar sistemas de procesos de transacciones para que haya una alta probabilidad de que las transacciones sean completadas en un tiempo razonable. Estos sistemas de procesos de transacciones hacen que las transacciones y peticiones sean ms rpidas en menores tiempos dado a que los queries y reportes consumen mucho ms de su lmite permitido en los recursosde servidores y discos, por tal motivo las empresas han implementado una arquitectura de Data WareHouse que utiliza sus servidores y discos por separado para algunos de los queries y reportes. Para utilizar modelos de datos o tecnologas de servidores que agilizan los queries y reportes, y que no son apropiados para los procesos de transacciones. Existen maneras de modelar los datos que usualmente agilizan los queries y reportes (ejemplo: el esquema del modelo estrella) y que no son apropiados para los procesos de transacciones porque la tcnica de modelado bajara el rendimiento y complicara el proceso de transacciones. Tambin existen tecnologas que aceleran el proceso de queries y reportes pero baja la velocidaden el proceso de transacciones (ejemplo: la indexacin de bitmaps) y tecnologa de servidores que incrementan la velocidad en el proceso de transacciones, pero que disminuyen la velocidad del proceso de queries y reportes (ejemplo: La tecnologa de recuperacin de transacciones). Todo esto entonces esta en el cmo se hacen los modelos de datos y que tecnologa se utiliza, inclusive que productos se adquieren para el impacto de los procesos de queries y reportes.

Datawarehouse - Datamining Sistemas basados en conocimiento

Para proveer un ambiente donde relativamente una muy poca cantidad de conocimiento de los aspectos tcnicos de tecnologa de bases de datos es requerida para escribir y mantener queries y reportes. Frecuentemente un DataWareHouse puede ser instalado de manera que los queries y reportes puedan ser escritos por personalsin tanto conocimiento tcnico, lo que hace que su mantenimiento y construccin se haga sin ms complejidad. Para proveer un repositorio del sistema de proceso de transacciones limpio que puede ser reportado y que no necesariamente requiere que se arregle el sistema de proceso de transacciones. El Data WareHouse provee la oportunidad de limpiar los datos sin cambiar los sistemas de proceso de transacciones, sin embargo algunas implementaciones de Data WareHouse provee el significado para capturar las correcciones hechas a los datos del Data WareHouse y alimenta las correcciones hacia el sistema de proceso de transacciones. Muchas veces hace ms sentido hacer las correcciones de esta manera que aplicar las correcciones directamente al sistema de proceso de transacciones. Para hacer los queries y reportes de datos bsicamente ms fcil de los mltiples procesos de transacciones y de las fuentes externas y de los datos que deben ser almacenados solamente para el propsito de hacer queries y reportes. Desde hace mucho tiempo que las compaas necesitan reportes con informacin de mltiples sistemas y han hecho extracciones de datos para despus correrlos bajo la lgicade bsqueda combinando la informacin de las extracciones con los reportes generados, lo que en muchas ocasiones es una buena estrategia. Pero cuando se tienen muchos datos y las bsquedas se vuelven muy pesadas y despus limpiar la bsqueda, entonces lo apropiado sera un Data WareHouse.

Datawarehouse - Datamining Sistemas basados en conocimiento

Datamining (Minera de datos)


Definicin datamining El datamining (minera de datos), es el conjunto de tcnicas y tecnologas que permiten explorar grandes bases de datos, de manera automtica o semiautomtica, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto. Bsicamente, el datamining surge para intentar ayudar a comprender el contenido de un repositorio de datos. Con este fin, hace uso de prcticas estadsticas y, en algunos casos, de algoritmos de bsqueda prximos a la Inteligencia Artificial y a las redes neuronales. De forma general, los datos son la materia prima bruta. En el momento que el usuario les atribuye algn significado especial pasan a convertirse en informacin. Cuando los especialistas elaboran o encuentran un modelo, haciendo que la interpretacin que surge entre la informacin y ese modelo represente un valor agregado, entonces nos referimos al conocimiento. Vea ms diferencias entre datos, informacin y conocimiento.

Datawarehouse - Datamining Sistemas basados en conocimiento

Aunque en datamining cada caso concreto puede ser radicalmente distinto al anterior, el proceso comn a todos ellos se suele componer de cuatro etapas principales: Determinacin de los objetivos. Trata de la delimitacin de los objetivos que el cliente desea bajo la orientacin del especialista en data mining. Preprocesamiento de los datos. Se refiere a la seleccin, la limpieza, el enriquecimiento, la reduccin y la transformacin de las bases de datos. Esta etapa consume generalmente alrededor del setenta por ciento del tiempo total de un proyecto de data mining. Determinacin del modelo. Se comienza realizando unos anlisis estadsticos de los datos, y despus se lleva a cabo una visualizacin grfica de los mismos para tener una primera aproximacin. Segn los objetivos planteados y la tarea que debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en diferentes reas de la Inteligencia Artificial. Anlisis de los resultados. Verifica si los resultados obtenidos son coherentes y los coteja con los obtenidos por los anlisis estadsticos y de visualizacin grfica. El cliente determina si son novedosos y si le aportan un nuevo conocimiento que le permita considerar sus decisiones.

En resumen, el datamining se presenta como una tecnologa emergente, con varias ventajas: por un lado, resulta un buen punto de encuentro entre los investigadores y las personas de negocios; por otro, ahorra grandes cantidades de dinero a una empresa y abre nuevas oportunidades de negocios. Adems, no hay duda de que trabajar con esta tecnologa implica cuidar un sinnmero de detalles debido a que el producto final involucra "toma de decisiones".

Datawarehouse - Datamining Sistemas basados en conocimiento

Definicin Datamart
Un Datamart es una base de datos departamental, especializada en el almacenamiento de los datos de un rea de negocio especfica. Se caracteriza por disponer la estructura ptima de datos para analizar la informacin al detalle desde todas las perspectivas que afecten a los procesos de dicho departamento. Un datamart puede ser alimentado desde los datos de un datawarehouse, o integrar por si mismo un compendio de distintas fuentes de informacin.

Por tanto, para crear el datamart de un rea funcional de la empresa es preciso encontrar la estructura ptima para el anlisis de su informacin, estructura que puede estar montada sobre una base de datos OLTP, como el propio datawarehouse, o sobre una base de datos OLAP. La designacin de una u otra depender de los datos, los requisitos y las caractersticas especficas de cada departamento. De esta forma se pueden plantear dos tipos de datamarts: Datamart OLAP

Se basan en los populares cubos OLAP, que se construyen agregando, segn los requisitos de cada rea o departamento, las dimensiones y los indicadores necesarios de cada cubo relacional. El modo de creacin, explotacin y mantenimiento de los cubos OLAP es muy heterogneo, en funcin de la herramienta final que se utilice. Datamart OLTP

Pueden basarse en un simple extracto del datawarehouse, no obstante, lo comn es introducir mejoras en su rendimiento (las agregaciones y los filtrados suelen ser las operaciones ms usuales) aprovechando las caractersticas particulares de cada rea de la empresa. Las estructuras ms comunes en este sentido son las tablas report, que vienen a ser fact-tables reducidas (que agregan las dimensiones oportunas), y las vistas materializadas, que se construyen con la misma estructura que

Datawarehouse - Datamining Sistemas basados en conocimiento

las anteriores, pero con el objetivo de explotar la reescritura de queries (aunque slo es posibles en algunos SGBD avanzados, como Oracle). Los datamarts que estn dotados con estas estructuras ptimas de anlisis presentan las siguientes ventajas: Poco volumen de datos Mayor rapidez de consulta Consultas SQL y/o MDX sencillas Validacin directa de la informacin Facilidad para la historizacin de los datos

Los Fundamentos del Data Mining Las tcnicas de Data Mining son el resultado de un largo proceso de investigacin y desarrollode productos. Esta evolucincomenz cuando los datos de negocios fueron almacenados por primera vez en computadoras, y continu con mejoras en el acceso a los datos, y ms recientemente con tecnologas generadas para permitir a los usuarios navegar a travs de los datos en tiempo real. Data Mining toma este proceso de evolucin ms all del acceso y navegacin retrospectiva de los datos, hacia la entrega de informacin prospectiva y proactiva. Data Mining est listo para su aplicacin en la comunidad de negocios porque est soportado por tres tecnologas que ya estn suficientemente maduras: Recoleccin masiva de datos Potentes computadoras con multiprocesadores

Datawarehouse - Datamining Sistemas basados en conocimiento

Algoritmos de Data Mining Las bases de datos comerciales estn creciendo a un ritmo sin precedentes. Un reciente estudio del META GROUP sobre los proyectos de Data Warehouse encontr que el 19% de los que contestaron estn por encima del nivel de los 50 Gigabytes, mientras que el 59% espera alcanzarlo en el segundo trimestre de 1997. En algunas industrias, tales como ventas al por menor (retail), estos nmeros pueden ser an mayores. MCI Telecommunications Corp. cuenta con una base de datos de 3 terabytes + 1 terabyte de ndices y overhead corriendo en MVS sobre IBM SP2. La necesidad paralela de motorescomputacionales mejorados puede ahora alcanzarse de forma ms costo- efectiva con tecnologa de computadoras con multiprocesamiento paralelo. Los algoritmos de Data Mining utilizan tcnicas que han existido por lo menos desde hace 10 aos, pero que slo han sido implementadas recientemente como herramientas maduras, confiables, entendibles que consistentemente son ms performantes que mtodos estadsticos clsicos.

En la evolucin desde los datos de negocios a informacin de negocios, cada nuevo paso se basa en el previo. Por ejemplo, el acceso a datos dinmicos es crtico para las aplicaciones de navegacin de datos (drill through applications), y la habilidad para almacenar grandes bases de datos es crtica para Data Mining.

Los componentes esenciales de la tecnologa de Data Mining han estadobajo desarrollo por dcadas, en reas de investigacin como estadsticas, inteligencia artificial y aprendizaje de mquinas. Hoy, la madurez de estas tcnicas, junto con los motores de bases de datos relacionales de alta performance, hicieron que estas tecnologas fueran prcticas para los entornos de data warehouse actuales.

Datawarehouse - Datamining Sistemas basados en conocimiento

El Alcance de Data Mining El nombre de Data Mining deriva de las similitudes entre buscar valiosa informacin de negocios en grandes bases de datos - por ej.: encontrar informacin de la venta de un producto entre grandes montos de Gigabytes almacenados - y minar una montaa para encontrar una veta de metales valiosos. Ambos procesosrequieren examinar una inmensa cantidad de material, o investigar inteligentemente hasta encontrar exactamente donde residen los valores. Dadas bases de datos de suficiente tamao y calidad, la tecnologa de Data Mining puede generar nuevas oportunidades de negocios al proveer estas capacidades:

Prediccin automatizada de tendencias y comportamientos. Data Mining automatiza el proceso de encontrar informacin predecible en grandes bases de datos. Preguntas que

tradicionalmente requeran un intenso anlisis manual, ahora pueden ser contestadas directa y rpidamente desde los datos. Un tpico ejemplo de problema predecible es el marketing apuntado a objetivos (targeted marketing). Data Mining usa datos en mailing promocionales anteriores para identificar posibles objetivos para maximizar los resultados de la inversin en futuros mailing. Otros problemas predecibles incluyen pronsticos de problemas financieros futuros y otras formas de incumplimiento, e identificar segmentos de poblacinque probablemente respondan similarmente a eventos dados. Descubrimiento automatizado de modelos previamente desconocidos.Las herramientas de Data Mining barren las bases de datos e identifican modelos previamente escondidos en un slo paso. Otros problemas de descubrimiento de modelos incluye detectar transacciones fraudulentas de tarjetas de crditos e identificar datos anormalesque pueden representar errores de tipeado en la carga de datos. Las tcnicas de Data Mining pueden redituar los beneficios de automatizacinen las plataformas de hardware y software existentes y puede ser implementadas en sistemas nuevos a medida que las plataformas existentes se actualicen y nuevos productos sean desarrollados. Cuando las herramientas de Data Mining son implementadas en sistemas de procesamiento paralelo de alta performance,

Datawarehouse - Datamining Sistemas basados en conocimiento

pueden analizar bases de datos masivas en minutos. Procesamiento ms rpido significa que los usuarios pueden automticamente experimentar con ms modelos para entender datos complejos. Alta velocidadhace que sea prctico para los usuarios analizar inmensas cantidades de datos. Grandes bases de datos, a su vez, producen mejores predicciones. Las bases de datos pueden ser grandes tanto en profundidad como en ancho: Ms columnas. Los analistas muchas veces deben limitar el nmero de variables a examinar cuando realizan anlisis manualesdebido a limitaciones de tiempo. Sin embargo, variables que son descartadas porque parecen sin importancia pueden proveer informacin acerca de modelos desconocidos. Un Data Mining de alto rendimiento permite a los usuarios explorar toda la base de datos, sin preseleccionar un subconjunto de variables. Ms filas.Muestras mayores producen menos errores de estimacin y desvos, y permite a los usuarios hacer inferencias acerca de pequeos pero importantes segmentos de poblacin. Las tcnicas ms comnmente usadas en Data Mining son: Redes neuronales artificiales: modelos predecible no-lineales que aprenden a travs del entrenamiento y semejan la estructura de una red neuronal biolgica. Arboles de decisin: estructuras de forma de rbol que representan conjuntos de decisiones. Estas decisiones generan reglas para la clasificacin de un conjunto de datos. Mtodos especficos de rboles de decisin incluyen Arboles de Clasificacin y Regresin (CART: Classification And Regression Tree) y Deteccin de Interaccin Automtica de Chi Cuadrado (CHAI: Chi Square Automatic Interaction Detection) Algoritmos genticos: tcnicas de optimizacin que usan procesos tales como combinaciones genticas, mutaciones y seleccinnatural en un diseobasado en los conceptos de evolucin. Mtodo del vecino ms cercano: una tcnica que clasifica cada registro en un conjunto de datos basado en una combinacin de las clases del/de los k registro (s) ms

la tcnica del vecino k-ms cercano.

Datawarehouse - Datamining Sistemas basados en conocimiento

Regla de induccin: la extraccin de reglas if-then de datos basados en significado estadstico. Muchas de estas tecnologas han estado en uso por ms de una dcada en herramientas de anlisis especializadas que trabajan con volmenes de datos relativamente pequeos. Estas capacidades estn ahora evolucionando para integrarse directamente con herramientas OLAP y de Data Warehousing. Cun exactamente es capaz Data Mining de decirle cosas importantes que usted desconoce o que van a pasar? La tcnica usada para realizar estas hazaas en Data Mining se llama Modelado. Modelado es simplemente el acto de construir un modeloen una situacin donde usted conoce la respuesta y luego la aplica en otra situacin de la cual desconoce la respuesta. Por ejemplo, si busca un galen espaolhundido en los mares lo primero que podra hacer es investigar otros tesoros espaoles que ya fueron encontrados en el pasado. Notara que esos barcos frecuentemente fueron encontrados fuera de las costas de Bermuda y que hay ciertas caractersticas respecto de las corrientes ocenicas y ciertas rutas que probablemente tomara el capitn del barco en esa poca. Usted nota esas similitudes y arma un modelo que incluye las caractersticas comunes a todos los sitios de estos tesoros hundidos. Con estos modelos en mano sale a buscar el tesoro donde el modelo indica que en el pasado hubo ms probabilidad de darse una situacin similar. Con un poco de esperanza, si tiene un buen modelo, probablemente encontrar el tesoro.

Este acto de construccinde un modelo es algo que la gente ha estado haciendo desde hace mucho tiempo, seguramente desde antes del auge de las computadoras y de la tecnologa de Data Mining. Lo que ocurre en las computadoras, no es muy diferente de la manera en que la gente construye modelos. Las computadoras son cargadas con mucha informacin acerca de una variedad de situaciones donde una respuesta es conocida y luego el software de Data Mining en la computadoradebe correr a travs de los datos y distinguir las caractersticas de los datos que llevarn al modelo. Una vez que el modelo se construy, puede ser usado en situaciones similares donde usted no conoce la respuesta.

Datawarehouse - Datamining Sistemas basados en conocimiento

Si alguien le dice que tiene un modelo que puede predecir el uso de los clientes, Cmo puede saber si es realmente un buen modelo? La primera cosa que puede probar es pedirle que aplique el modelo a su base de clientes - donde usted ya conoce la respuesta. Con Data Mining, la mejor manera para realizar esto es dejando de lado ciertos datos para aislarlos del proceso de Data Mining. Una vez que el proceso est completo, los resultados pueden ser testeados contra los datos excluidos para confirmar la validez del modelo. Si el modelo funciona, las observaciones deben mantenerse para los datos excluidos.

Una arquitectura para Data Mining Para aplicar mejor estas tcnicas avanzadas, stas deben estar totalmente integradas con el data warehouse as como con herramientas flexibles e interactivas para el anlisis de negocios. Varias herramientas de Data Mining actualmente operan fuera del warehouse, requiriendo pasos extra para extraer, importar y analizar los datos. Adems, cuando nuevos conceptos requieren implementacin operacional, la integracin con el warehouse simplifica la aplicacin de los resultados desde Data Mining. El Data warehouse analtico resultante puede ser aplicado para mejorar procesos de negocios en toda la organizacin, en reas tales como manejo de campaas promocionales, deteccin de fraudes, lanzamiento de nuevos productos, etc.

El punto de inicio ideal es un data warehouse que contenga una combinacin de datos de seguimiento interno de todos los clientes junto con datos externos de mercadoacerca de la actividad de los competidores. Informacin histrica sobre potenciales clientes tambin provee una excelente base para prospecting. Este warehouse puede ser implementado en una variedad de sistemas de bases relacionales y debe ser optimizado para un acceso a los datos flexible y rpido. Un server multidimensional OLAP permite que un modelo de negocios ms sofisticado pueda ser aplicado cuando se navega por el data warehouse. Las estructuras multidimensionales permiten que el usuario analice los datos de acuerdo a como quiera mirar el negocio - resumido por lnea de producto,

Datawarehouse - Datamining Sistemas basados en conocimiento

u otras perspectivas claves para su negocio. El server de Data Mining debe estar integrado con el data warehouse y el server OLAP para insertar el anlisis de negocios directamente en esta infraestructura. Un avanzado, metadata centrado en procesos define los objetivos del Data Mining para resultados especficos tales como manejos de campaa, prospecting, y optimizacin de promociones. La integracin con el data warehouse permite que decisiones operacionales sean implementadas directamente y monitoreadas. A medida que el data warehouse crece con nuevas decisiones y resultados, la organizacin puede "minar" las mejores prcticas y aplicarlas en futuras decisiones. Este diseo representa una transferencia fundamental desde los sistemas de soporte de decisin convencionales. Ms que simplemente proveer datos a los usuarios finales a travs de software de consultas y reportes, el server de Anlisis Avanzado aplica los modelos de negocios del usuario directamente al warehouse y devuelve un anlisis proactivo de la informacin ms relevante. Estos resultados mejoran los metadatos en el server OLAP proveyendo una estrato de metadatos que representa una vista fraccionada de los datos. Generadores de reportes, visualizadores y otras herramientas de anlisis pueden ser aplicadas para planificar futuras accionesy confirmar el impacto de esos planes.

Glosario de Trminos de Data Mining Algoritmos genticos: Tcnicas de optimizacin que usan procesos tales como combinacin gentica, mutacin y seleccin natural en un diseo basado en los conceptos de evolucin natural. Anlisis de series de tiempo (time-series): Anlisis de una secuencia de medidas hechas a intervalos especficos. El tiempo es usualmente la dimensin dominanate de los datos. Anlisis prospectivo de datos: Anlisis de datos que predice futuras tendencias,

comportamientos o eventos basado en datos histticos. Anlisis exploratorio de datos: Uso de tcnicas estadsticas tanto grficascomo descriptivas para aprender acerca de la estructura de un conjunto de datos.

Datawarehouse - Datamining Sistemas basados en conocimiento

Anlisis retrospectivo de datos: Anlisis de datos que provee una visin de las tendencias , comportamientos o eventos basado en datos histricos. rbol de decisin: Estructura en forma de rbol que representa un conjunto de decisiones. Estas decisiones generan reglas para la clasificacin de un conjunto de datos. Ver CART y CHAID. Base de datos multidimensional:Base de datos diseada para procesamiento analtico on-line ( OLAP). Estructurada como un hipercubo con un eje por dimensin. CART rboles de clasificacin y regresin: Una tcnica de rbol de decisin usada para la clasificacin de un conjunto da datos. Provee un conjunto de reglas que se pueden aplicar a un nuevo (sin clasificar) conjunto de datos para predecir cules registros darn un cierto resultado. Segmenta un conjunto de datos creando 2 divisiones. Requiere menos preparacin de datos que CHAID . CHAID Deteccin de interaccin automtica de Chi cuadrado: Una tcnica de rbol de decisin usada para la clasificacinde un conjunto da datos. Provee un conjunto de reglas que se pueden aplicar a un nuevo (sin clasificar) conjunto de datos para predecir cules registros darn un cierto resultado. Segmenta un conjunto de datos utilizando tests de chi cuadrado para crear mltiples divisiones. Antecede, y requiere ms preparacin de datos, que CART. Clasificacin: Proceso de dividir un conjunto de datos en grupos mutuamente excluyentes de tal manera que cada miembro de un grupoest lo "ms cercano" posible a otro, y grupos diferentes estn lo "ms lejos" posible uno del otro, donde la distancia est medida con respecto a variable(s) especfica(s) las cuales se estn tratando de predecir. Por ejemplo, un problema tpico de clasificacin es el de dividir una base de datos de compaas en grupos que son lo ms homogneos posibles con respecto a variables como "posibilidades de crdito" con valores tales como "Bueno" y "Malo". Clustering (agrupamiento): Proceso de dividir un conjunto de datos en grupos mutuamente excluyentes de tal manera que cada miembro de un grupo est lo "ms cercano" posible a otro, y grupos diferentes estn lo "ms lejos" posible uno del otro, donde la distancia est medida con respecto a todas las variables disponibles.

Datawarehouse - Datamining Sistemas basados en conocimiento

Computadoras con multiprocesadores: Una computadora que incluye mltiples procesadores conectados por una red. Ver procesamiento paralelo. Data cleansing: Proceso de asegurar que todos los valores en un conjunto de datos sean consistentes y correctamente registrados. Data Mining: La extraccin de informacin predecible escondida en grandes bases de datos. Data Warehouse: Sistema para el almacenamiento y distribucin de cantdades masivas de datos Datos anormales: Datos que resultan de errores (por ej.: errores en el tipeado durante la carga) o que representan eventos inusuales. Dimensin: En una base de datos relacional o plana, cada campo en un registro representa una dimensin. En una base de datos multidimensional, una dimensin es un conjunto de entidades similares; por ej.: una base de datos multidimensional de ventas podra incluir las dimensiones Producto, Tiempo y Ciudad. Modelo analtico: Una estructura y proceso para analizar un conjunto de datos. Por ejemplo, un rbol de decisin es un modelo para la clasificacin de un conjunto de datos Modelo lineal: Un modelo analticoque asume relaciones lineales entre una variable seleccionada (dependiente) y sus predictores (variables independientes). Modelo no lineal: Un modelo analticoque no asume una relacin lineal en los coeficientes de las variables que son estudiadas. Modelo predictivo: Estructura y proceso para predecir valores de variables especificadas en un conjunto de datos. Navegacin de datos: Proceso de visualizar diferentes dimensiones, "fetas" y niveles de una base de datos multidimensional. Ver OLAP. OLAP Procesamiento analtico on-line (On Line Analitic prossesing):Se refiere a aplicaciones de bases de datos orientadas a array que permite a los usuarios ver, navegar, manipular y analizar bases de datos multidimensionales. Outlier: Un item de datos cuyo valor cae fuera de los lmites que encierran a la mayora del resto de los valores correspondientes de la muestra. Puede indicar datos anormales. Deberan ser examinados detenidamente; pueden dar importante informacin.

Datawarehouse - Datamining Sistemas basados en conocimiento

Procesamiento paralelo: Uso coordinado de mltiples procesadores para realizar tareas computacionales. El procesamiento paralelo puede ocurrir en una computadora con mltiples procesadores o en una red de estaciones de trabajo o PCs. RAID: Formacin redundante de discos baratos (Redundant Array of inexpensive disks). Tecnologa para el almacenamiento paralelo eficiente de datos en sistemas de computadoras de alto rendimiento. Regresin lineal: Tcnica estadstica utilizada para encontrar la mejor relacin lineal que encaja entre una variable seleccionada (dependiente) y sus predicados (variables independientes). Regresin logstica: Una regresin lineal que predice las proporciones de una variable seleccionada categrica, tal como Tipo de Consumidor, en una poblacin. Vecino ms cercano: Tcnica que clasifica cada registro en un conjunto de datos basado en una combinacin de las clases del/de los k registro (s) ms similar/es a l en un conjunto de -ms cercano. SMP Multiprocesador simtrico (Symmetric multiprocessor): Tipo de computadora con multiprocesadores en la cual la memoria es compartida entre los procesadores

Datawarehouse - Datamining Sistemas basados en conocimiento

Bases de datos OLTP y OLAP


Definicin - OLTP - On-Line Transactional Processing Los sistemas OLTP son bases de datos orientadas al procesamiento de transacciones. Una transaccin genera un proceso atmico (que debe ser validado con un commit, o invalidado con un

rollback), y que puede involucrar operaciones de insercin, modificacin y borrado de datos. El


proceso transaccional es tpico de las bases de datos operacionales. El acceso a los datos est optimizado para tareas frecuentes de lectura y escritura. (Por ejemplo, la enorme cantidad de transacciones que tienen que soportar las BD de bancos o hipermercados diariamente). Los datos se estructuran segn el nivel aplicacin (programa de gestin a medida, ERP o CRM implantado, sistema de informacin departamental...). Los formatos de los datos no son necesariamente uniformes en los diferentes departamentos (es comn la falta de compatibilidad y la existencia de islas de datos). El historial de datos suele limitarse a los datos actuales o recientes.

OLAP - On-Line Analytical Processing Los sistemas OLAP son bases de datos orientadas al procesamiento analtico. Este anlisis suele implicar, generalmente, la lectura de grandes cantidades de datos para llegar a extraer algn tipo de informacin til: tendencias de ventas, patrones de comportamiento de los consumidores, elaboracin de informes complejos etc. Este sistema es tpico de los datamarts. El acceso a los datos suele ser de slo lectura. La accin ms comn es la consulta, con muy pocas inserciones, actualizaciones o eliminaciones. Los datos se estructuran segn las reas de negocio, y los formatos de los datos estn integrados de manera uniforme en toda la organizacin. El historial de datos es a largo plazo, normalmente de dos a cinco aos. Las bases de datos OLAP se suelen alimentar de informacin procedente de los sistemas operacionales existentes, mediante un proceso de extraccin, transformacin y carga (ETL).

Vous aimerez peut-être aussi