Vous êtes sur la page 1sur 10

Jose Ignacio Gonzlez Gmez. Departamento de Economa Financiera y Contabilidad Universidad de La Laguna www.ecofin.ull.es/users/jggomez.

Tema: Generalidades de la Minera de Datos (Borrador)


Revisado: 2009

Indice
1 ASPECTOS GENERALES DE LA MINERA DE DATOS. 2 FASES DE UN PROYECTO DE MINERA DE DATOS. 2.1 2.2 2.3 2.4 2.5 INTRODUCCIN FASE FILTRADO DE DATOS. FASE SELECCIN DE VARIABLES. FASE ALGORITMOS DE EXTRACCIN DE CONOCIMIENTO FASE INTERPRETACIN Y EVALUACIN

3 CASOS DE ESTUDIO 4 MINERA DE DATOS CON EXCEL. 4.1 4.2 4.3


4.3.1 4.3.2 4.3.3 4.3.4 4.3.5 4.3.6 4.3.7 4.3.8

CARACTERSTICAS GENERALES DEL ADD DATA MINING PARA EXCEL. NOTAS SOBRE LA INSTALACIN. ANLISIS DE LOS PRINCIPALES ALGORITMOS Y USOS.
Introduccin. Algoritmo Naive Bayes Decisin Trees (rboles de decisin) Clustering Time Series (Series temporales) Sequence clustering Association rules (Reglas de asociacin) Neural Network (Redes neuronales)

5 CONCLUSIONES 6 BIBLIOGRAFA

1 A Aspecto Genera os ales de la Minera de Dat tos.


Las t tcnicas de minera de datos se em mplean para mejorar el rendimient de proces de to sos nego ocio o indu ustriales en los que s manejan grandes v n se n volmenes de inform macin estru ucturada y almacenada en bases de datos. Por ejemp a s plo, se usa con xit en an to aplic caciones de control de procesos productivo como h e os, herramienta de ayuda a la a plani ificacin y a la decisin en market n ting, finanza etc. as, Asim mismo, la m minera de d datos es fun ndamental en la investi e igacin cien ntfica y tc cnica, como herramien de anlisis y descu o nta ubrimiento de conocim miento a pa artir de datos de obser rvacin o de resultados de experim s mentos.

2 Fases de un proy e yecto de Minera de Dato e a os.


2.1 Introdu 1 uccin Los p pasos a seg para la realizacin de un proy guir n yecto de mi inera de da son sie atos empre los m mismos, ind dependientem mente de la tcnica esp a pecfica de extraccin de conocim miento usada.

El pr roceso de m minera de da pasa po las siguie atos or entes fases: Filtrado de datos Seleccin de Variab bles n ocimiento Extracci de Cono Interpret tacin y Eva aluacin

2 iltrado de Datos. 2.2 Fase Fi

El fo formato de los datos contenidos en la fu s uente de da atos (base de datos, Data Ware ehouse...) n nunca es el idneo, y l mayora de las vece no es po la es osible ni siq quiera utiliz ningn a zar algoritmo de minera so e obre los dat "en bruto tos o". Medi iante el pr reprocesado se filtran los datos (de forma que se e o, n s a eliminan va alores incor rrectos, no v vlidos, des sconocidos... segn las necesidade y el algo s es oritmo a usa se ar), obtie enen muestr de los m ras mismos (en busca de una mayor velocidad de respuest del n u ta proce eso), o se re educen el n mero de va alores posib (median redonde clusterin bles nte eo, ng,...).
Jose Ignacio Gonzlez Gmez z

2.3 Fase Se 3 eleccin d Variable de es.

An despus de haber sid preproce e do esados, en la mayora de los cas se tiene una sos e canti idad ingente de datos. La selecci de caract e n tersticas red duce el tam mao de los datos eligie endo las va ariables ms influyente en el pro s es oblema, sin apenas sacr rificar la ca alidad del m modelo de conocimient obtenido del proceso de minera to o a. Los m mtodos par la selecci de carac ra in ctersticas son bsicam mente dos: Aquellos basados en la eleccin de los mej s n n ejores atribu del prob utos blema, los scan variabl independientes med les diante tests de sensibil lidad, Y aquell que bus algoritm de distan o heursticos. mos ncia 4 lgoritmos de Extrac ccin de Conocimie C ento 2.4 Fase Al

Medi iante una t cnica de m minera de d datos, se obtiene un mo odelo de co onocimiento que o, repre esenta patro ones de com mportamien observad en los v nto dos valores de las variable del es probl lema o rela aciones de asociacin entre dich variable Tambin pueden usarse n has es. n u varia tcnicas a la vez p as para genera distintos modelos, aunque gen ar neralmente cada tcni obliga a un preprocesado difere de los datos. ica ente 2.5 Fase In 5 nterpretaci in y Eval luacin

Una vez obtenid el mode se debe proceder a su valida do elo, e acin, comp probando qu las ue conclusiones qu arroja son vlidas y suficientem ue n mente satisfa actorias. En el caso de haber obten nido varios modelos m mediante el uso de distintas tcnicas, se deb compara los ben ar

Jose Ignacio Gonzlez Gmez z

modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos.

3 Casos de estudio
En la Web de la empresa DAEDALUS (http://www.daedalus.es/AreasMD-E.php ) , se presentan un conjunto de casos entre los que destacan:
Optimizacin de la produccin de cartn en la Industria Papelera Optimizacin del Proceso de Produccin de Cemento Mejorar el rendimiento de la fabricacin de cartn optimizando el control de la velocidad de la lnea. Desarrollo de un sistema de ayuda a la decisin para la optimizacin del proceso de produccin en una fbrica de cemento. Desarrollo de un modelo para predecir las ventas de un producto en un determinado mes, basndose en datos sobre las ventas en meses previos. Desarrollo de un sistema para clasificacin del estado del trfico Desarrollo de un sistema de prediccin del tiempo de trabajo demandado por actividades de reparto postal Segmentacin de los clientes de un banco mediante un modelo basado en agrupamiento (clustering) borroso.

Aplicacin de minera de datos para prediccin de ventas Aplicacin de minera de datos para anlisis del estado del trfico en carretera Aplicacin de minera de datos para prediccin de demandas de tiempo de trabajo

Aplicacin de minera de datos para segmentacin de clientes de entidades financieras

4 Minera de Datos con Excel.


4.1 Caractersticas generales del Add Data Mining para Excel. Los analistas de informacin en general, algunos tomadores de decisiones e incluso algunos gerentes suelen basar sus decisiones de negocio en la informacin histrica de su organizacin, en algunos casos cuentan con herramientas de inteligencia de negocios que les permiten conocer en forma grfica el estado de sus inversiones, el comportamiento de ventas a travs del tiempo, el efecto causado por una promocin especfica en un momento del tiempo y hasta el detalle del desempeo de su organizacin por reas de la misma; algunos otros no cuentas an con este tipo de soluciones de inteligencia de negocios y basan sus decisiones en la experiencia, pero en trminos generales, todos suelen usar Excel para analizar cifras, realizar clculos e incluso para generar informes. Para todos estos usuarios Excel es una herramienta conocida y fcil de manejar para sus necesidades, por esta razn Microsoft ha creado add-Ins o complementos que permiten que desde ese mismo Excel, los usuarios puedan acceder a tecnologas mucho ms avanzadas como lo es la minera de datos soportada por Microsoft SQL Server en sus versiones 2005 y 2008 Los Complementos de minera de datos de Microsoft SQL Server 2005 para 2007 Microsoft Office system derivan los patrones y tendencias existentes en datos complejos, visualizan dichos patrones en grficos y visores interactivos, y generan

Jose Ignacio Gonzlez Gmez

resm menes comp pletos, en c color, para presentacio ones y anal lticas empr resariales. Puede P usar estos comp plementos p para utilizar las analtic predictiv de SQL Server 200 en cas vas L 05 Micr rosoft Office Excel 200 y Micros Office Visio 2007. e 07 soft V Este paquete i incluye los dos com s mplementos siguientes para Offi fice Excel 2007 (Herr ramientas d anlisis de tabla y Cliente de minera de datos) y u complem de e un mento para Office Visi 2007 (Pla io antillas de m minera de datos). d Este conjunto de compleme e entos se pod descarga de: dr ar
http://www w.microsoft.co om/download ds/details.aspx x?familyid=89 96A493A-2502 2-4795-94AE EE00632BA A6DE7&displ laylang=es

As, Excel prese enta un com mplemento tanto para la versin 2 l 2003 as com para la 2007 mo que nos facilita el desarro a ollo de la minera de datos bajo este estn o ndar de hoj de oja clcu ulo. Esta herramient permite c ta crear un mo odelo de est timacin ba asado en dat existent de tos tes una t tabla del Ex xcel, de un r rango de Ex xcel, o de un consulta de Analysis Services 2005. na s 2 El m modelo extra patrones de datos y utiliza la informacin para pred ae n decir los fac ctores que afectan val lores contin nuos. Por e ejemplo, es posible an s nalizar los factores qu se ue cionan con l valores numricos tales como tipos de da de mon los o ato neda o de fe echas. relac Si la columna so obre la que queremos a aplicar la pr rediccin, po ejemplo, est relacio or onada con l cantidad de coches p cliente, es posible analizar fact la por a tores tales c como la can ntidad de pe ersonas solt teras o casa adas que tien coche, el sexo de e nen estas person y la can nas ntidad de co oches por se etc. exo, 4.2 Notas s 2 sobre la in nstalacin n. Sea y destac que Microsoft Off alar car fice Excel 2007 no es la herramie 2 enta de soft ftware que h hace miner de datos la miner de datos se realiza desde un s ra s, a servidor de SQL Server Analysis Services (Analysis Se s ervices es uno de los s u servicios de Microsoft SQL e Server) por eso el primer re equisito par habilitar a Excel con Minera de datos es contar ra n c un con u servidor de Analysis Services. Exce presenta u complem el un mento tanto para la ve ersin 2003 as como p para la 2007 que 7 nos facilita el d desarrollo d la miner de de a datos bajo este estnda de hoja de s ar a clcu ulo. Una vez instalad los Addi para min do ins nera de datos para Office 2007, es neces d sario conf figurar los mismos. S lanzamo la Si os aplic cacion Gettting Started del men All d Prog grams - Mi icrosoft SQ Server 2005 QL 2 DM Add-ins - Getting St tarted; vere emos n e . que nos aparece un wizard.

Ilustracin 1 I

El m mismo nos p permite sele eccionar la i instancia de servidor q utilizar el que remos en nu uestro startu up.

Jose Ignacio Gonzlez Gmez z

Una vez finalizado este pa o aso, debere emos configurar y crear un nueva ins r na stancia de bases b de datos de Data Min d ning que se la DB do er onde almacenar remos nuest proyecc tras ciones y nue estro trabajo desde nuest d tro cliente Office 2007. e 2 Despus de la pan ntalla de b bienvenida del wizard, se nos pres senta un f formulario para definir el servidor de base de da o bien para e atos la creacin de una ba de dato o utilizar una n ase os r existente. En tal caso definimos los permis de acces y o s sos sos completad la configu da uracin.
Ilus stracin 2

4.3 Anlisis de los p 3 s principales algoritmos y usos s s. 4.3.1 Introduccin In n.

Una vez finaliza la conf ada figuracin de nuestro acceso a u base de datos de Data una e ing; podrem comenzar a trabajar y utilizar las herramientas de Da Mining desde mos r ata d Mini el pro opio Micros Excel 2 soft 2007.

Ilustracin 3

lo,. As por ejempl dentro de la de Ribb bon Excel, E selec ccionamos el Tab Data Mini y hace ing emos click en el boto Estimate. on . A co ontinuacin debemos definir d la columna sobre la que remos estim los dat y mar tos quer las c columnas qu servirn como ue "inpu Data" p ut para realiz el zar anli de estimacin. En este isis n caso trabajare o, emos sobr la re colu umna "cars" que deter " rmina la ca antidad de c coches que posee p una p persona o u cliente. un

Ilustra acin 4

Jose Ignacio Gonzlez Gmez z

Una vez definidos los parmetros de entrada, podremos comenzar a generar y analizar los datos. Para esto creamos una nueva tabla (Table2 Structure_1) basada en modelo de decisin. Finalmente, una vez finalizado el proceso de generacin de datos, podremos ver los mismos en 2 modos grficos:
Ilustracin 5

Arbol de decisin. Red de depencias

Como vemos es muy sencillo de aplicar, pasamos a continuacin a introducirnos en los principales algoritmos que presentan este aadido y para qu sirven.

Ilustracin 6

rbol de decisin

Ilustracin 7

Red de dependencias

Jose Ignacio Gonzlez Gmez

Ilustracin 8

4.3.2

Algoritmo Naive Bayes

Empezamos por este porque es el algoritmo que primero se suele utilizar para explorar datos. Bsicamente, este algoritmo busca correlaciones entre atributos. Cuando no tenemos muy claro qu atributo se puede predecir en funcin de otros, una tcnica muy habitual es tratar de utilizar el algoritmo de Naive Bayes tratando de predecir el valor de todos los atributos en funcin de todos los atributos (un "todos contra todos"). El resultado de esta orga de correlaciones suele ser un modelo en el que tenemos ms o menos claro qu vamos a poder predecir en esos datos. Otra ventaja de este algoritmo es que se entrena muy rpido... pero su desventaja es que no es muy preciso. Vamos, yo lo usara para: Exploracin inicial de los datos Tareas de clasificacin, en las que el rendimiento sea crtico. Se me ocurre, por ejemplo, entornos en tiempo real en los que queramos detectar entradas anmalas, validaciones, clasificaciones y filtrados de mensajes... etc. 4.3.3 Decisin Trees (rboles de decisin)

Los rboles de decisin son clarsimamente una herramienta potentsima de clasificacin... de hecho, son probablemente el mejor algoritmo que podemos utilizar para clasificar. Bsicamente, construyen un arbol del que se pueden extraer reglas, del estilo "Si eres hombre, tienes unos ingresos superiores a 'X', y eres comprador de revistas de coches... la probabilidad de que tengas coche es del 90%". Nos pueden servir para tareas como: Clasificacin en general Validaciones. Podemos detectar elementos anmalos en funcin de si encajan o no con las reglas surgidas del rbol (por ejemplo, "si tienes coche, menos de 20 aos y estas en paro... probablemente mientas") Predecir el valor de un atributo con precisin

Jose Ignacio Gonzlez Gmez

El asistente de creacin, utiliza el algoritmo de rboles de la decisin de Microsoft, y a partir del mismo crea los grficos que representan las dependencias y reglas en ventana interactiva. 4.3.4 Clustering Sirve sobre todo para buscar elementos afines dentro de un conjunto. Por ejemplo, podemos usarlo para saber que en una poblacin hay hombres y mujeres jvenes solteros, hombres mayores solteros, hombres y mujeres mayores casados... pero no mujeres mayores solteras. Nos puede servir para: Segmentar un mercado. Validaciones (las entradas que no pertenecen a un cluster, pueden ser "outliners" o elementos anmalos). 4.3.5 Time Series (Series temporales)

Este algoritmo es especfico para predecir el valor de una magnitud en funcin del tiempo. Por ejemplo: Anlisis burstiles... subir o bajar el IBEX maana? Prediccin de una magnitud analgica, en general. 4.3.6 Sequence clustering

Tambin es bastante especfico para detectar secuencias tpicas dentro de un conjunto de eventos. Por ejemplo... saber en qu orden hace click la gente en las noticias de una web, puede ayudarnos a ordenar los titulares de arriba a abajo y de derecha a izquierda. Usos tpicos: Estudio de secuencias de eventos Deteccin de algunas anomalas de comportamiento (eventos que llegan fuera de secuencia) 4.3.7 Association rules (Reglas de asociacin)

Este se suele usar casi exclusivamente para anlisis de cesta de la compra. Detecta asociaciones comunes entre elementos (por ejemplo, quien compra cerveza suele comprar tambin palitos salados). Usos tpicos: Anlisis de la cesta de la compra Ofrecer recomendaciones al comprador: has comprado cerveza, seguro que no quieres palitos salados? 4.3.8 Neural Network (Redes neuronales)

Al igual que los rboles de decisin, este algoritmo tambin resuelve problemas de clasificacin y regresin. Puede ser adecuado para detectar patrones no lineales, difcilmente descriptibles por medio de reglas. Se usa como alternativa al algoritmo de arboles de decisin: lo mejor es probar ambos sobre un mismo problema y utilizar el que mayor acierto nos de en sus predicciones. Nos pueden servir para tareas como:

Jose Ignacio Gonzlez Gmez

10

Las mismas tareas que los rboles de decision, cuando los grupos en los que se divide la poblacin no son lineales. Si no sabes a qu me refiero, imagina la tarea de clasificar puntos en un espacio... cuando no se pueden clasificar fcilmente trazando lneas, el problema no es lineal. Regresiones (es similar a la clasificacin, pero cuando se trata de predecir una magnitud contnua).

5 Conclusiones
Como podemos ver las capacidades de minera de datos son realmente impresionantes y adems, a partir de este momento podemos tenerlas incorporadas en Excel 2007 lo que supone que el Business Intelligence se acercan ms a los usuarios finales, ya que todo el mundo sabe cmo utilizar y representar datos en Excel. Ahora lo nico que necesitamos, es que estos usuarios comiencen a conocer estas nuevas funcionalidades y a explotarlas !!! (El bruno)

6 Bibliografa
DAEDALUS - Data, Decisions and Language, S. A (2007): http://www.daedalus.es/AreasMD-E.php http://geeks.ms/blogs/gelexgaray/archive/2007/03/01/aplicaciones-pr-cticas-de-los-algoritmos-de-minera-de-datos.aspx http://elbruno.com/blogs/elbruno/archive/2007/02/26/bi-data-mining-ahora-desde-excel-2007.aspx http://office.microsoft.com/es-es/excel/HA102257543082.aspx http://alejandroesteban.files.wordpress.com/2008/09/como-habilitar-microsoft-office-excel-2007-parahacer-mineria-de-datos-apoyandose-en-sql-server.pdf

Jose Ignacio Gonzlez Gmez