Vous êtes sur la page 1sur 23

La Minera de Datos

Felipe Nieto Rhans Leiva Axel Chvez Felipe Barrueto

ndice

La minera de datos.3 Procesos de la minera de datos...4 Protocolo de un proyecto5 Tcnicas de mieneria de datos..6 Ejemplos de uso..7 Otras disciplinas anlogas15 La minera basada en la teora de la informacin.19 Tendencias.22 Conclusin23

La minera de datos. La minera de datos (o DATA MINING) consiste en la extraccin no trivial de informacin que esta de manera implcita en los datos. Esta informacin era previamente desconocida y podr resultar til para algun proceso. En otras palabras, la minera de daros prepara, sondea y explora los datos para poder sacar la informacin oculta en ellos. Bajo el nombre de minera de datos se engloba todo un conjunto de tcnicas encaminadas a la extraccin de conocimiento procesable, implcito en las bases de datos. Est fuertemente ligado con la supervisin de procesos industriales ya que resulta muy til para aprovechar los datos almacenados en las bases de datos. Las bases de las mineras de datos se encuentran en la inteligencia artificial y en el anlisis estadstico. Mediante los modelos extrados utilizando tcnicas de minera de datos se aborda la solucin a problemas de prediccin, clasificacin y segmentacin.

Procesos: Un proceso tpico de data mining consta de los siguientes pasos generales: Seleccin del conjunto de datos: Tanto en lo que se refiere a las variables objetivo (aquellas que se quieren predecir, calcular o inferir), como a las variables independientes (las que sirven para hacer el clculo o proceso). Anlisis de las propiedades de los datos: En especial los histogramas, diagramas de dispersin, presencia de valores atpicos y ausencia de datos (valores nulos). Transformacin del conjunto de datos de entrada: Se realizara de diversas formas en funcin del anlisis previo con el objetivo de prepararlo para aplicar la tcnica de minera de datos que mejor se adapte a los datos y al problema, a este paso tambin se le conoce como pre procesamiento de los datos. Seleccionar la tcnica de minera de datos: Se construye el modelo predictivo, de clasificacin o segmentacin. Extraccin de conocimiento: Mediante una tcnica de minera de datos, se obtiene en modelo de conocimiento, que presenta patrones de comportamiento observado en los valores de las variables del problema o relaciones de asociacin entre dichas variables. Interpretacin y evaluacin de datos: Una vez obtenido el modelo, se debe proceder a su validacin comprobando que las conclusiones que

arroja son vlidas y suficientemente satisfactorias. Si se obtiene ms de un resultado, se debe buscar el modelo que mejor se ajuste.

Una vez validado el modelo, si resulta ser aceptable (proporciona salidas adecuadas y/o con mrgenes de error admisibles) ste ya est listo para su explotacin. Los modelos obtenidos por tcnicas de minera de datos se aplican incorporndolos en los sistemas de anlisis de informacin de las organizaciones, e incluso, en los sistemas transaccionales. En este sentido cabe destacar los esfuerzos del Data Mining Group, que est estandarizando el lenguaje PMML (Predictive Model Markup Language), de manera que los modelos de minera de datos sean interoperables en distintas plataformas, con independencia del sistema con el que han sido construidos. Los principales fabricantes de sistemas de bases de datos y programas de anlisis de la informacin hacen uso de este estndar. Tradicionalmente, las tcnicas de minera de datos se aplicaban sobre informacin contenida en almacenes de datos. De hecho, muchas grandes empresas e instituciones han creado y alimentan bases de datos especialmente diseadas para proyectos de minera de datos en las que centralizan informacin potencialmente til de todas sus reas de negocio. No obstante, actualmente est cobrando una importancia cada vez mayor la minera de datos desestructurados como informacin contenida en ficheros de texto, en Internet, etc.

Protocolo de un proyecto de minera de datos

Un proyecto de minera de datos tiene varias fases necesarias que son, esencialmente: Comprensin del negocio y del problema que se quiere resolver. Determinacin, obtencin y limpieza de los datos necesarios. Creacin de modelos matemticos. Validacin, comunicacin, etc. de los resultados obtenidos. Integracin, si procede, de los resultados en un sistema transaccional o similar. La relacin entre todas estas fases slo es lineal sobre el papel. En realidad, es mucho ms compleja y esconde toda una jerarqua de subfases. A travs de la experiencia acumulada en proyectos de minera de datos se han ido desarrollando metodologas que permiten gestionar esta complejidad de una manera ms o menos uniforme.

Tcnicas de minera de datos

Como ya se ha comentado, las tcnicas de la minera de datos provienen de la Inteligencia artificial y de la estadstica, dichas tcnicas, no son ms que algoritmos, ms o menos sofisticados que se aplican sobre un conjunto de datos para obtener unos resultados. Las tcnicas ms representativas son: Redes neuronales.- Son un paradigma de aprendizaje y procesamiento automtico inspirado en la forma en que funciona el sistema nervioso de los animales. Se trata de un sistema de interconexin de neuronas en una red que colabora para producir un estmulo de salida. Algunos ejemplos de red neuronal son: El Perceptron (red neuronal artificial) El Perceptrn multicapa. Los Mapas Autoorganizados, tambin conocidos como redes de Kohonen. Regresin lineal: Es la ms utilizada para formar relaciones entre datos. Rpida y eficaz pero insuficiente en espacios multidimensionales donde puedan relacionarse ms de 2 variables. rboles de decisin: Un rbol de decisin es un modelo de prediccin utilizado en el mbito de la inteligencia artificial, dada una base de datos se construyen estos diagramas de construcciones lgicas, muy similares a los sistemas de prediccin basados en reglas, que sirven para representar y

categorizar una serie de condiciones que suceden de forma sucesiva, para la resolucin de un problema. Ejemplos: Algoritmo ID3. Algoritmo C4.5. Modelos estadsticos: Es una expresin simblica en forma de igualdad o ecuacin que se emplea en todos los diseos experimentales y en la regresin para indicar los diferentes factores que modifican la variable de respuesta. Agrupamiento o Clustering: Es un procedimiento de agrupacin de una serie de vectores segn criterios habitualmente de distancia; se tratar de disponer los vectores de entrada de forma que estn ms cercanos aquellos que tengan caractersticas comunes. Ejemplos: Algoritmo K-means. Algoritmo K-medoids.

Ejemplos de uso de la minera de datos

Negocios La minera de datos puede contribuir significativamente en las aplicaciones de administracin empresarial basada en la relacin con el cliente. En lugar de contactar con el cliente de forma indiscriminada a travs de un centro de llamadas o enviando cartas, slo se contactar con aquellos que se perciba que tienen una mayor probabilidad de responder positivamente a una determinada oferta o promocin. Por lo general, las empresas que emplean minera de datos ven rpidamente el retorno de la inversin, pero tambin reconocen que el nmero de modelos predictivos desarrollados puede crecer muy rpidamente. En lugar de crear modelos para predecir qu clientes pueden cambiar, la empresa podra construir modelos separados para cada regin y/o para cada tipo de cliente. Tambin puede querer determinar qu clientes van a ser rentables durante una ventana de tiempo (una quincena, un mes, ...) y slo enviar las ofertas a las personas que es probable que sean rentables. Para mantener esta cantidad de modelos, es necesario gestionar las versiones de cada modelo y pasar a una minera de datos lo ms automatizada posible.

Hbitos de compra en supermercados El ejemplo clsico de aplicacin de la minera de datos tiene que ver con la deteccin de hbitos de compra en supermercados. Un estudio muy citado detect que los viernes haba una cantidad inusualmente elevada de clientes que adquiran a la vez paales y cerveza. Se detect que se deba a que dicho da solan acudir al supermercado padres jvenes cuya perspectiva para el fin de semana consista en quedarse en casa cuidando de su hijo y viendo la televisin con una cerveza en la mano. El supermercado pudo incrementar sus ventas de cerveza colocndolas prximas a los paales para fomentar las ventas compulsivas.

Patrones de fuga Un ejemplo ms habitual es el de la deteccin de patrones de fuga. En muchas industrias existe un comprensible inters en detectar cuanto antes aquellos clientes que puedan estar pensando en rescindir sus contratos para, posiblemente, pasarse a la competencia. A estos clientes se les podran hacer ofertas personalizadas, ofrecer promociones especiales, etc., con el objetivo ltimo de retenerlos. La minera de datos ayuda a determinar qu clientes son los ms proclives a darse de baja estudiando sus patrones de comportamiento y comparndolos con muestras de clientes que, efectivamente, se dieron de baja en el pasado.

10

Fraudes Un caso anlogo es el de la deteccin de transacciones de lavado de dinero o de fraude en el uso de tarjetas de crdito o de servicios de telefona mvil e, incluso, en la relacin de los contribuyentes con el fisco. Generalmente, estas operaciones fraudulentas o ilegales suelen seguir patrones caractersticos que permiten, con cierto grado de probabilidad, distinguirlas de las legtimas y desarrollar as mecanismos para tomar medidas rpidas frente a ellas.

Recursos humanos La minera de datos tambin puede ser til para los departamentos de recursos humanos en la identificacin de las caractersticas de sus empleados de mayor xito. La informacin obtenida puede ayudar a la contratacin de personal, centrndose en los esfuerzos de sus empleados y los resultados obtenidos por stos. Adems, la ayuda ofrecida por las aplicaciones para Direccin estratgica en una empresa se traducen en la obtencin de ventajas a nivel corporativo, tales como mejorar el margen de beneficios o compartir objetivos; y en la mejora de las decisiones operativas, tales como desarrollo de planes de produccin o gestin de mano de obra.

11

Comportamiento en Internet Tambin es un rea en boga el del anlisis del comportamiento de los visitantes en una pgina de Internet. O la utilizacin de la sobre ellos para ofrecerles propaganda adaptada especficamente a su perfil. O para, una vez que adquieren un determinado producto, saber inmediatamente qu otro ofrecerle teniendo en cuenta la informacin histrica disponible acerca de los clientes que han comprado el primero.

Terrorismo La minera de datos ha sido citada como el mtodo por el cual la unidad Able Danger del Ejrcito de los EE. UU. haba identificado al lder de los atentados del 11 de septiembre de 2001, Mohammed Atta, y a otros tres secuestradores del atentado a las torres gemelas como posibles miembros de una clula de Al Qaeda que operan en los EE. UU. ms de un ao antes del ataque. Se ha sugerido que tanto la Agencia Central de Inteligenciay sus homloga canadiense, Servicio de Inteligencia y Seguridad Canadiense, tambin han empleado este mtodo.

Juegos Desde comienzos de la dcada de 1960, con la disponibilidad de orculos para determinados juegos combinacionales, tambin llamadosfinales de juego de tablero (por ejemplo, para las tres en raya o en finales de ajedrez) con cualquier configuracin de inicio, se ha abierto
12

una nueva rea en la minera de datos que consiste en la extraccin de estrategias utilizadas por personas para estos orculos. Los planteamientos actuales sobre reconocimiento de patrones, no parecen poder aplicarse con xito al funcionamiento de estos orculos. En su lugar, la produccin de patrones perspicaces se basa en una amplia experimentacin con bases de datos sobre esos finales de juego, combinado con un estudio intensivo de los propios finales de juego en problemas bien diseados y con conocimiento de la tcnica .

Ciencia e Ingeniera En los ltimos aos la minera de datos se est utilizando ampliamente en diversas reas relacionadas con la ciencia y la ingeniera. Algunos ejemplos de aplicacin en estos campos son: Gentica En el estudio de la gentica humana, el objetivo principal es entender la relacin cartogrfica entre las partes y la variacin individual en las secuencias del ADN humano y la variabilidad en la susceptibilidad a las enfermedades. En trminos ms llanos, se trata de saber cmo los cambios en la secuencia de ADN de un individuo afectan al riesgo de desarrollar enfermedades comunes (como por ejemplo el cncer). Esto es muy importante para ayudar a mejorar el diagnstico, prevencin y tratamiento de las enfermedades. La tcnica de minera de datos que se utiliza para

13

realizar esta tarea se conoce como "reduccin de dimensionalidad multifactorial". Ingeniera elctrica En el mbito de la ingeniera elctrica, las tcnicas minera de datos han sido ampliamente utilizadas para monitorizar las condiciones de las instalaciones de alta tensin. La finalidad de esta monitorizacin es obtener informacin valiosa sobre el estado del aislamiento de los equipos. Para la vigilancia de las vibraciones o el anlisis de los cambios de carga en transformadores se utilizan ciertas tcnicas para agrupacin de datos tales como los Mapas Auto-Organizativos Estos mapas sirven para detectar condiciones anormales y para estimar la naturaleza de dichas anomalas.

Anlisis de gases Tambin se han aplicado tcnicas de minera de datos para el anlisis de gases disueltos(DGA) en transformadores elctricos. El anlisis de gases disueltos se conoce desde hace mucho tiempo como herramienta para diagnosticar transformadores. Los Mapas Auto-Organizativos se utilizan para analizar datos y determinar tendencias que podran pasarse por alto utilizando las tcnicas clsicas DGA.

14

Minera de datos y otras disciplinas anlogas

Produce cierta polmica el definir las fronteras existentes entre la minera de datos y disciplinas anlogas, como pueden serlo la estadstica, la inteligencia artificial, etc. Hay quienes sostienen que la minera de datos no es sino estadstica envuelta en una jerga de negocios que la conviertan en un producto vendible. Otros, en cambio, encuentran en ella una serie de problemas y mtodos especficos que la hacen distinta de otras disciplinas. El hecho es, que en la prctica la totalidad de los modelos y algoritmos de uso general en minera de datos gozan de una tradicin relativamente larga en otros campos.

De la estadstica Ciertamente, la minera de datos bebe de la estadstica, de la que toma las siguientes tcnicas: Anlisis de varianza, mediante el cual se evala la existencia de diferencias significativas entre las medias de una o ms variables continuas en poblaciones distintos. Regresin: define la relacin entre una o ms variables y un conjunto de variables predictoras de las primeras. Prueba chi-cuadrado: por medio de la cual se realiza el contraste la hiptesis de dependencia entre variables.

15

Anlisis de agrupamiento o clustering: permite la clasificacin de una poblacin de individuos caracterizados por mltiples atributos(binarios, cualitativos o cuantitativos) en un nmero determinado de grupos, con base en las semejanzas o diferencias de los individuos. Anlisis discriminante: permite la clasificacin de individuos en grupos que previamente se han establecido, permite encontrar la regla de clasificacin de los elementos de estos grupos, y por tanto una mejor identificacin de cules son las variables que definan la pertenencia al grupo. Series de tiempo: permite el estudio de la evolucin de una variable a travs del tiempo para poder realizar predicciones, a partir de ese conocimiento y bajo el supuesto de que no van a producirse cambios estructurales.

De la informtica De la informtica toma las siguientes tcnicas: Algoritmos genticos: Son mtodos numricos de optimizacin, en los que aquella variable o variables que se pretenden optimizar junto con las variables de estudio constituyen un segmento de informacin. Aquellas configuraciones de las variables de anlisis que obtengan mejores valores para la variable de respuesta, correspondern a segmentos con mayor capacidad reproductiva. A travs de la

16

reproduccin, los mejores segmentos perduran y su proporcin crece de generacin en generacin. Se puede adems introducir elementos aleatorios para la modificacin de las variables (mutaciones). Al cabo de cierto nmero de iteraciones, la poblacin estar constituida por buenas soluciones al problema de optimizacin, pues las malas soluciones han ido descartndose, iteracin tras iteracin. Inteligencia Artificial: Mediante un sistema informtico que simula un sistema inteligente, se procede al anlisis de los datos disponibles. Entre los sistemas de Inteligencia Artificial se encuadraran los Sistemas Expertos y las Redes Neuronales. Sistemas Expertos: Son sistemas que han sido creados a partir de reglas prcticas extradas del conocimiento de expertos. Principalmente a base de inferencias o de causa-efecto. Sistemas Inteligentes: Son similares a los sistemas expertos, pero con mayor ventaja ante nuevas situaciones desconocidas para el experto.

17

Redes neuronales: Genricamente, son mtodos de proceso numrico en paralelo, en el que las variables interactan mediante transformaciones lineales o no lineales, hasta obtener unas salidas. Estas salidas se contrastan con los que tenan que haber salido, basndose en unos datos de prueba, dando lugar a un proceso de retroalimentacin mediante el cual la red se reconfigura, hasta obtener un modelo adecuado.

18

Minera de datos basada en teora de la informacin Todas las herramientas tradicionales de minera de datos asumen que los datos que usarn para construir los modelos contienen la informacin necesaria para lograr el propsito buscado: obtener suficiente conocimiento que pueda ser aplicado al negocio (o problema) para obtener un beneficio (o solucin). El inconveniente es que esto no es necesariamente cierto. Adems, existe otro problema mayor an. Una vez construido el modelo no es posible conocer si el mismo ha capturado toda la informacin disponible en los datos. Por esta razn la prctica comn es realizar varios modelos con distintos parmetros para ver si alguno logra mejores resultados. Un enfoque relativamente nuevo al anlisis de datos soluciona estos problemas haciendo que la prctica de la minera de datos se parezca ms a una ciencia que a un arte. En 1948 Claude Shannon public un trabajo llamado Una Teora Matemtica de la Comunicacin. Posteriormente esta pas a llamarseTeora de la informacin y sent las bases de la comunicacin y la codificacin de la informacin. Shannon propuso una manera de medir la cantidad de informacin a ser expresada en bits. En 1999 Dorian Pyle public un libro llamado Data Preparation for Data Mining en el que propone una manera de usar la Teora de la Informacin para analizar datos. En este nuevo enfoque, una base de datos es un canal
19

que transmite informacin. Por un lado est el mundo real que captura datos generados por el negocio. Por el otro estn todas las situaciones y problemas importantes del negocio. Y la informacin fluye desde el mundo real y a travs de los datos, hasta la problemtica del negocio. Con esta perspectiva y usando la Teora de la informacin, es posible medir la cantidad de informacin disponible en los datos y qu porcin de la misma podr utilizarse para resolver la problemtica del negocio. Como un ejemplo prctico, podra encontrarse que los datos contienen un 65% de la informacin necesaria para predecir qu cliente rescindirn sus contratos. De esta manera, si el modelo final es capaz de hacer predicciones con un 60% de acierto, se puede asegurar que la herramienta que gener el modelo hizo un buen trabajo capturando la informacin disponible. Ahora, si el modelo hubiese tenido un porcentaje de aciertos de solo el 10%, por ejemplo, entonces intentar otros modelos o incluso con otras herramientas podra valer la pena. La capacidad de medir informacin contenida en los datos tiene otras ventajas importantes. Al analizar los datos desde esta nueva perspectiva se genera un mapa de informacin que hace innecesario la preparacin previa de los datos, una tarea absolutamente imprescindible si se desea buenos resultados, pero que lleva enorme cantidad de tiempo. Es posible seleccionar un grupo de variables ptimo que contenga la informacin necesaria para realizar un modelo de prediccin.
20

Una vez que las variables son procesadas con el fin de crear el mapa de informacin y luego seleccionadas aquellas que aportan la mayor informacin, la eleccin de la herramienta que se usar para crear el modelo deja de tener importancia, ya que el mayor trabajo fue realizado en los pasos previos.

21

Tendencias

La Minera de Datos ha sufrido transformaciones en los ltimos aos de acuerdo con cambios tecnolgicos, de estrategias de marketing, la extensin de los modelos de compra en lnea, etc. Los ms importantes de ellos son: La importancia que han cobrado los datos no estructurados (texto, pginas de Internet, etc.). La necesidad de integrar los algoritmos y resultados obtenidos en sistemas operacionales, portales de Internet, etc. La exigencia de que los procesos funcionen prcticamente en lnea (por ejemplo, frente a un fraude con una tarjeta de crdito). Los tiempos de respuesta. El gran volumen de datos que hay que procesar en muchos casos para obtener un modelo vlido es un inconveniente; esto implica grandes cantidades de tiempo de proceso y hay problemas que requieren una respuesta en tiempo real.

22

Conclusin Nuestra capacidad para almacenar datos ha crecido en los ltimos aos a velocidades Exponenciales. En contrapartida, nuestra capacidad para procesarlos y utilizarlos no Ha ido a la par. Por este motivo, el data mining se presenta como una tecnologa de Apoyo para explorar, analizar, comprender y aplicar el conocimiento obtenido usando Grandes volmenes de datos. Descubrir nuevos caminos que nos ayuden en la Identificacin de interesantes estructuras en los datos es una de las tareas Fundamentales en el data mining.

23

Vous aimerez peut-être aussi