Vous êtes sur la page 1sur 11

2013

indic

Ensayo
Minera de Datos
Este Documento, tratara sobre algunos temas de suma importancia para la minera de datos, tales como cuales son los nuevos retos y las nuevas tcnicas de la minera de datos.

Jorge Flores de ngel Universidad Politcnica de Tlaxcala 08/02/2013

ndice.

Introduccin..Pg. 03 Problemticas de MD....Pg. 04 Desarrollo de la DKK...Pg. 04 reas de Inters de la MD...Pg. 06 Tareas de la Minera de Datos..Pg. 08 OLAP...Pg. 09 Conclusin.....Pg. 10 Bibliografa.....Pg. 11

Introduccin. La minera de datos es un proceso de extraccin de tendencias y patrones de un archivo de datos previamente elaborado. A medida que se almacenan ms datos, la cantidad de datos se duplica, la minera de datos se est convirtiendo en una herramienta cada vez ms importante para transformar esos datos en informacin. Si bien la minera de datos se utiliza para descubrir patrones en las muestras de datos al igual que cualquier otra herramienta, slo funciona en relacin con la materia prima adecuada: en este caso, indicativa y datos representativos, que el usuario primero debe recoger. Adems, el descubrimiento de un patrn particular en un determinado conjunto de datos no significa necesariamente que el patrn es representativo.

Desarrollo. Problemtica de MD. Dentro de los principales problemas de la minera de datos, es que las tcnicas empleadas no nos ayuden a identificar patrones, que permitan al usuario contar con la informacin necesaria para la toma de decisiones.

Desarrollo de KDD. El proceso de minera de datos pertenece a un esquema ms amplio denominado extraccin o descubrimiento de conocimiento en bases de datos, en ingls, Knowledge Discovery in Databases, ms conocido por las siglas KDD.

El proceso KDD tiene como ncleo principal la minera de datos, que mediante una preparacin previa de una cantidad inmensa de datos, por lo general almacenados en muchas veces de datos, se aplica un algoritmo de minera de datos para sacar el conocimiento implcito en estos y poder ser utilizado en la vida real para poder ayudar a multitud de campos. Las etapas a seguir en el proceso KDD son las siguientes: 1. Determinacin de objetivos: Es necesario identificar que datos seleccionamos para que sean compatibles para aplicar minera de datos y adems precisar qu objetivos quieren cumplirse desde el punto de vista del usuario. 4

2. Preparacin de los Datos: Depurar la fuente de datos para evitar problemas comunes, pueden contener ambigedades, ruido o, simplemente, no estar en el formato adecuado para su posterior procesamiento. 3. Minera de Datos: Todas las etapas anteriores son necesarias para que la aplicacin de un algoritmo de minera sea exitoso y se puede sacar el conocimiento implcito en los datos que nos interesan. Estructura interna de la Minera de datos

El aprendizaje automtico o machine learning es una rama de la Inteligencia Artificial que estudia el desarrollo de tcnicas para extraer de forma automtica conocimiento subyacente en infinidad de informacin, en minera se utilizan dos tipos: Supervisado y No Supervisado. Una vez terminada la fase del aprendizaje, se procede a representar el conocimiento mediante un modelo. La fase de la validacin del conocimiento es la encargada de verificar si los resultados obtenidos del aprendizaje y representados posteriormente mediante un modelo de visualizacin han sido obtenidos de forma totalmente al azar, o de otro modo el resultado obtenido tiene una razn de ser que es difcilmente de ver a simple vista. Aqu es donde entra en juego el Anlisis estadstico que nos ayudar a evaluar estos casos. Una vez terminada la validacin, se deben haber eliminado aquellos casos que mediante el anlisis estadstico se consider que surgieron totalmente al azar.

Despus de esto se vuelve a entrar de nuevo en el ciclo de la minera de datos hasta que la 5

depuracin de todos los datos sea tal, que podamos salir de este ciclo con todos los casos verdaderos que tienen un porqu. 4. Anlisis e Interpretacin: En esta etapa se estudia, interpreta y evala el modelo de conocimiento generado por el algoritmo de minera de datos. El uso de tcnicas de visualizacin facilita al usuario la comprensin, permitiendo la aplicacin de este en la toma de decisiones. Ejemplo de modelo de visualizacin.

5. Aplicacin: Integracin del conocimiento adquirido al campo real para su aplicacin, si procede.

reas de Inters de MD Negocios La minera de datos puede contribuir significativamente en las aplicaciones de administracin empresarial basada en la relacin con el cliente. En lugar de contactar con el cliente de forma indiscriminada a travs de un centro de llamadas o enviando cartas, slo se contactar con

aquellos que se perciba que tienen una mayor probabilidad de responder positivamente a una determinada oferta o promocin. Por lo general, las empresas que emplean minera de datos ven rpidamente el retorno de la inversin, pero tambin reconocen que el nmero de modelos predictivos desarrollados puede crecer muy rpidamente. Hbitos de compra en supermercados El ejemplo clsico de aplicacin de la minera de datos tiene que ver con la deteccin de hbitos de compra en supermercados. Un estudio muy citado detect que los viernes haba una cantidad inusualmente elevada de clientes que adquiran a la vez paales y cerveza. Se detect que se deba a que dicho da solan acudir al supermercado padres jvenes cuya perspectiva para el fin de semana consista en quedarse en casa cuidando de su hijo y viendo la televisin con una cerveza en la mano. El supermercado pudo incrementar sus ventas de cerveza colocndolas prximas a los paales para fomentar las ventas compulsivas. Patrones de fuga Un ejemplo ms habitual es el de la deteccin de patrones de fuga. En muchas industrias como la banca, las telecomunicaciones, etc. existe un comprensible inters en detectar cuanto antes aquellos clientes que puedan estar pensando en rescindir sus contratos para, posiblemente, pasarse a la competencia. A estos clientes y en funcin de su valor se les podran hacer ofertas personalizadas, ofrecer promociones especiales, etc., con el objetivo ltimo de retenerlos. La minera de datos ayuda a determinar qu clientes son los ms proclives a darse de baja estudiando sus patrones de comportamiento y comparndolos con muestras de clientes que, efectivamente, se dieron de baja en el pasado. Fraudes Un caso anlogo es el de la deteccin de transacciones de lavado de dinero o de fraude en el uso de tarjetas de crdito o de servicios de telefona mvil e, incluso, en la relacin de los contribuyentes con el fisco. Generalmente, estas operaciones fraudulentas o ilegales suelen seguir patrones caractersticos que permiten, con cierto grado de probabilidad, distinguirlas de las legtimas y desarrollar as mecanismos para tomar medidas rpidas frente a ellas. Recursos humanos La minera de datos tambin puede ser til para los departamentos de recursos humanos en la identificacin de las caractersticas de sus empleados de mayor xito. La informacin obtenida puede ayudar a la contratacin de personal, centrndose en los esfuerzos de sus empleados y los resultados obtenidos por stos. Adems, la ayuda ofrecida por las aplicaciones para Direccin estratgica en una empresa se traducen en la obtencin de ventajas a nivel corporativo, tales como mejorar el margen de beneficios o compartir objetivos; y en la mejora de las decisiones operativas, tales como desarrollo de planes de produccin o gestin de mano de obra. Comportamiento en Internet

Tambin es un rea en boga el del anlisis del comportamiento de los visitantes sobre todo, cuando son clientes potenciales en una pgina de Internet. O la utilizacin de la informacin obtenida por medios ms o menos legtimos sobre ellos para ofrecerles propaganda adaptada especficamente a su perfil. O para, una vez que adquieren un determinado producto, saber inmediatamente qu otro ofrecerle teniendo en cuenta la informacin histrica disponible acerca de los clientes que han comprado el primero. Ciencia e Ingeniera En los ltimos aos la minera de datos se est utilizando ampliamente en diversas reas relacionadas con la ciencia y la ingeniera. Algunos ejemplos de aplicacin en estos campos son:

Gentica En el estudio de la gentica humana, el objetivo principal es entender la relacin cartogrfica entre las partes y la variacin individual en las secuencias del ADN humano y la variabilidad en la susceptibilidad a las enfermedades. En trminos ms llanos, se trata de saber cmo los cambios en la secuencia de ADN de un individuo afectan al riesgo de desarrollar enfermedades comunes (como por ejemplo el cncer). Esto es muy importante para ayudar a mejorar el diagnstico, prevencin y tratamiento de las enfermedades. La tcnica de minera de datos que se utiliza para realizar esta tarea se conoce como "reduccin de dimensionalidad multifactorial".2 Ingeniera elctrica En el mbito de la ingeniera elctrica, las tcnicas minera de datos han sido ampliamente utilizadas para monitorizar las condiciones de las instalaciones de alta tensin. La finalidad de esta monitorizacin es obtener informacin valiosa sobre el estado del aislamiento de los equipos. Para la vigilancia de las vibraciones o el anlisis de los cambios de carga en transformadores se utilizan ciertas tcnicas para agrupacin de datos (clustering) tales como los Mapas AutoOrganizativos (SOM, Self-organizing map). Estos mapas sirven para detectar condiciones anormales y para estimar la naturaleza de dichas anomalas.3 Anlisis de gases Tambin se han aplicado tcnicas de minera de datos para el anlisis de gases disueltos (DGA, Dissolved gas analysis) en transformadores elctricos. El anlisis de gases disueltos se conoce desde hace mucho tiempo como herramienta para diagnosticar transformadores. Los Mapas Auto-Organizativos (SOM) se utilizan para analizar datos y determinar tendencias que podran pasarse por alto utilizando las tcnicas clsicas DGA.

Tareas de la Minera de Datos Clasificacin Se asigna una categora a cada caso. Cada caso tiene un conjunto de atributos uno de ellos es el atributo clase. Se busca un modelo que describa el atributo clase como una funcin de los atributos de salida

Agrupacin Tambin conocido como segmentacin Identifica grupos naturales basndose en un conjunto de atributos

Asociacin Tambin conocido como anlisis de cesta de la compra

Regresin Similar a clasificacin pero con el objetivo de buscar patrones para determinar un valor numrico Ej.: Prediccin de la velocidad del viento basada en temperatura presin de aire y humedad

Previsin La entrada es un conjunto de valores a lo largo del tiempo de los que extrae valores futuros

Anlisis de secuencia Busca patrones en una serie de eventos llamada secuencia Ej. Secuencia de navegacin en Web

Anlisis de desviaciones Busca casos raros diferentes a los dems

OLAP Actualmente los data warehouse y las tcnicas olap son las maneras ms efectivas y tecnolgicamente ms avanzadas para integrar, transformar y combinar los datos para facilitar al usuario o a otros sistemas el anlisis de la informacin. La tecnologa OLAP generalmente se asocia a los almacenes de datos, aunque se puede tener almacenes de datos sin OLAP y viceversa. Habitualmente se utilizan herramientas OLAP (On-line Analytical Processing) como herramientas frontales para el acceso a los datos. Las herramientas OLAP, como los almacenes de datos y bases de datos multidimensionales, estn basadas en el modelo multidimensional. Las tcnicas de modelado conceptual y los modelos conceptuales utilizados para las aplicaciones OLTP (On-line Transaction Processing) no son adecuados para las aplicaciones OLAP ya que no son capaces de representar los requisitos bsicos de este tipo de aplicaciones. Definicin de Sistemas OLAP Es un mtodo para buscar en los datos de diferentes maneras. Con OLAP los datos son clasificados en diferentes dimensiones las que pueden ser vistas unas con otras en cualquier combinacin para obtener diferentes anlisis de los datos que contienen. Beneficios de OLAP Es de fcil uso y acceso flexible para el usuario. Los datos estn organizados en varias dimensiones lo que permite que los usuarios hagan un mejor anlisis. Ahorro generado por la productividad de personal altamente profesional y caro que usa permanentemente software y sistemas de informacin. Permite encontrar la historia en los datos

Conclusin. Desde mi opinin la Minera de Datos constituye una parte muy importante en todo el ciclo de la creacin, organizacin, recuperacin y difusin de nuevo conocimiento en el Ciclo de la Gestin del Conocimiento en las organizaciones. Esto le permite a una organizacin mejorar significativamente en su eficiencia y en su eficacia. La Minera de Datos interviene a lo largo de todo el proceso, en la Adquisicin, Captura, Organizacin, Almacenamiento y en la Recuperacin del Conocimiento de las organizaciones.

10

No obstante, es importante tomar en consideracin que tipo de conocimiento, tcito o explcito se ha descubierto, analizar la forma de generacin, organizacin y recuperacin del mismo para lograr una potenciacin del papel de la Minera de Datos en el Ciclo de la Gestin del Conocimiento. La Minera de Datos se usa tanto en la bsqueda de la informacin, como en el anlisis de la misma para descubrir relaciones ocultas entre los datos, brinda mtodos de procesamiento de la informacin, de clasificacin automtica y de almacenamiento. Sirve para fomentar el planeamiento estratgico, entendindose por tal, el proceso sistemtico de identificacin, adquisicin, anlisis, registro y presentacin de las oportunidades y amenazas de una organizacin, para apoyar de esta manera, la toma de decisiones por parte de los directivos. La Gestin del Conocimiento aliada con la Minera de Datos debe permitirle a la organizacin la creacin continua de capital intelectual para generar un valor agregado en los servicios que la organizacin brinda a sus clientes, aportando de esta forma, un plus de competitividad a la organizacin en comparacin con otras organizaciones del mismo nicho.

Bibliografa. http://www.buenastareas.com/ensayos/Mineria-De-Datos/434747.html http://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos http://www.slideshare.net/pattsul/019 http://html.rincondelvago.com/mineria-de-datos.html

11

Vous aimerez peut-être aussi