Vous êtes sur la page 1sur 644
INCLUY CD-ROM 4 MINERIA DE VATOS TECNICAS Y HERRAMIENTAS PARANINFO MINERIA DE DATOS JOSE M2, MONTERO LORENZO Gerente Editorial Area Universitaria. Andrés Otero Reguera Editora de Produccién Clara MP de la Fuente Rojo COPYRIGHT © 2007 Intemational Fesorvci oe: cevesion. pare Tomson Ediciones Paraninio, SA. gia De oniormidad oon 1 di a puesto en el articulo 270 del Codi- go Penal vigente, podran ser casti- gados oon penas de mula y piva Gin do Iertad cuieres roprodu- jeren o plagiaren, en todo o en pare, una obra Wrara, artistes 0 entifica fijada en cualquier tipo de soporte sin I precepiva auto ‘Baoin, Ninguna parte Jo osta publicacién, incluido el disefio de fe cublera, puede ser reproduct da, almacenada o transmitida de ISBN: 976-64-9732-492-2 ninguna forma, ni por ningun me- Depésito legal : M-25.036-2008 dio, cea éste electrénico, quimico, mecédnico, electro-ptico, graba- Gin, olecopa © cualquier oto, (051/84/PO} sin la previa autorizacion escrita por parte de la Editorial. Magallanes 25; 28015 Madrid, ESPANA Teléfono: 902'995 240 Fax: 914 456 218 clientes@paraninfo.es woww.paraninto.es Impresa en Espafia Printed in Spain Disefio de cubierta: Montytexto Impresién: Closas Orcoyen,S.L. Polig. Igarsa Naves 21, 22, 23, y 24 Paracuellos de jarama (Madrid). Introduccién Capitulo 1. Mineria de datos: Conceptos, técnicas y sistemas... Aproximacién al concepto de mineria de datos .. El proceso de extraccién del conocimiento. Técnicas de mineria de datos. Sistemas de mineria de datos Capitulo 2. Entorno de trabajo de SPSS Clementine. Introduccién a Clementine . Usando el rat6n.. Ayuda en Clementine .. Panel de control en Clementine Ejemplo de trabajo con Clementine Insertar un nodo fuente (origen) de datos en el area de trabajo... Enlazar un nodo con una fuente de datos Controlar la carga de datos con el nodo Tabla Definir variables predictoras con el nodo Tipo Utilizar un nodo de modelado..... Ejecutar una ruta... Interpretar un modelo .. Predecir con un modelo .. Guardar un modelo .. Nodos de origenes de datos Nodos de operaciones con registros . XVIT 13 16 16 18 21 22 23 25 27 29 29 32 34 34 aS 35 VIll_ MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Nodos de operaciones con campos. Nodos para graficos .. Nodos para modelado Nodos de salida .. Capitulo 3. Entorno de trabajo de SAS Enterprise Miner. Introduccién a SAS Enterprise Miner Comenzando con SAS Enterprise Miner. Inicio de un proyecto nuevo... Ment principal de SAS Enterprise Miner. Ejemplo de trabajo con SAS Enterprise Miner . Leer ficheros y enlazarlos con Enterprise Miner mediante el nodo Input Data Source Definir tipos de variables con el nodo Input Data Source Enlace de nodos de un diagrama. El nodo Data Partition Utilizar un nodo de modelado . Capitulo 4. Fase de seleccién en mineria de datos. Seleceién en el proceso de extraccién del conocimiento Recopilacién e integracién de datos: Data Warehouse Data Warehouse y Data Mining Seleccién de datos mediante muestreo . Muestreo aleatorio simple. Muestreo estratificado Muestreo sistemitico.. ae Muestreo unietdpico de conglomerados Muestreo bietipico de conglomerades .. Muestreo polietapico de conglomerados. Diseitos complejos: Bietapico con estratificacién en primera etapa . Seleceién de mimeros aleatorios: Método de Montecarl Seleccién de caracteristicas relevantes... Anilisis de correlaciones.. Capitulo 5. Fase de seleccién en SAS Enterprise Miner y SPSS Clementine... La fase de seleccién en Enterprise Miner.. El nodo Fuente de Datos El nodo Muestreo El nodo de Particién de Datos El nodo de Seleccién de Variables El nodo de Series Temporales .. 36 37 38 40 41 41 43 47 48 58 58 63 65 67 73 B "4 77 2B 82 85 OL 95 a9 101 101 102 104 105 109 109 109 117 122 125 129 INDICE 1K La fase de seleccién en SPSS Clementine... 139 Importacién de datos ASCII. 140 Importacién de datos de una fuente ODBC (Access, Excel, et 140 Importacién de datos de SPSS. 143 Importacién de datos de SAS... 145 Seleccién de datos 148 Muestreo de datos .... 149 Capitulo 6. Fase de seleccién en SPSS Muestras Complejas y SAS Base. 151 Técnicas de muestreo a través de SPSS 151 Disefios complejos y el asistente de muestreo. Creacién de un nuevo plan de muestreo........ 152 Asistente de muestreo: modificar un plan existente 161 Asistente de muestreo: ejecutar un plan de muestreo dado 164 Preparacién de una muestra compleja para su anilisis: Creacién de un nuevo plan de anilisis .... 164 Preparacién de una muestra compleja para su a 168 Calculos en muestras complejas: Frecuencias, descriptivos, tablas de contingencia y razones 168 Seleccién de casos en SPSS 174 Seleccién de casos mediante criterios condicionales .. 174 Seleccion de fechas, horas y fik 175 Seleccién de una muestra aleatoria. 175, Semilla de aleatorizacion. 176 Operadores para la seleccién en SPSS 176 Operadores aritméticos. 176 Operadores relacionales .. 177 Operadores logicos... 177 Funciones de generacin de mimeros aleatorios en SPS: 177 Seleccién de la informacién en SAS Base ... 180 Declarando valores perdidos con la sentencia MISSING 180 Seleccionando informacién por grupos: sentencia BY .. 180 Seleccionando variables de frecuencias: sentencia FREQ 182 Seleccionando variables de pesos: sentencia WEIGTH .. 183 Seleccionando variables de identificacién: Sentencia ID. 184 Operadores para la selei 184 Operadores aritmétic 185 Operadores de comparacién .. 185 Operadores légicos 0 booleanos.. 186 Operadores MIN, MAX y coneatenacién 187 Orden de evaluacién de los operadores en las expresiones 188 Funciones de generacin de nimeros aleatorios en SAS 189 Calculos con funciones en SAS. 191 X _MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Capitulo 7. Fase de exploracién en mineria de datos...... Exploracién en el proceso de extraccién del conocimiento Anilisis exploratorio Herramientas de exploracién visual Histograma de frecuencias Diagrama de tallo y hojas Grafico de caja y bigotes Grafico multiple de caja y bigotes Gréfico de simetr Gréfico de dispersién. Graficos para variables cualitativas.. Herramientas de exploracién formal Contrastes de la bondad de ajuste a una distribucién: Test de la Chi-cuadrado.... Contraste de Kolmogorov-Smirnov Lilliefors de la bondad de ajuste auna distribueién Estadisticos robustos de centralizacion Estadisticos robustos de dispersién Estadisticos robustos de asimetria y curtosi: Contrastes de aleatoriedad. Transformaciones de las variables... Supuestos subyacentes en las técnicas de mineria de datos . Normalidad .. Heteroscedasticidad.. Multicolinealidad. Autocorrelacién Linealidad Un ejemplo ... Capitulo 8. Fase de exploracién en SAS Enterprise Miner y SPSS Clementine . La fase de exploracién en Enterprise Miner El nodo Explorador de distribuciones El nodo Multigraficos El nodo de exploracién de patrones La fase de exploracién en SPSS Clementine. El nodo Grafico El nodo Distribucién El nodo Histograma El nodo Malla El nodo Malla Direccional. El nodo Gréfico Miiltiple El nodo Recoleciar ... 193 193 194 194 195 196 198 199 201 203 205 207 208 209 211 212 214 216 220 221 221 225 227 227 228 230 239 239 239 243 250 266 267 270 271 2723 274 275 276 INDICE xl Capitulo 9, Fase de exploracién en SPSS y SAS. Analisis exploratorio de datos con SPSS. Procedimiento Explorar. Graficos de andlisis exploratorio con SPSS Tipos de graficos Histograme Graficos de normalidas Graficos de caja y bigotes Graficos de dispersion Graficos interactivos dinamicos de andlisis exploratorio con SPSS Creacién interactiva de gréficos a partir de tablas... Graficos interactivos de caja y bigotes.. Histogramas interactives ... Diagramas interactivos de dispersion Analisis exploratorio formal con SPSS Contraste de aleatotiedad. Procedimiento Prueba de rachas . Contraste de ajuste a una distribucién de frecuencias. Procedimiento Prueba de Kolmogorov-Smirnov Anilisis exploratorio de los datos con SAS Base. Procedimiento Univariate .. Graficos de andlisis exploratorio con SAS... GrAficos exploratorios de alta resolucién. Procedimiento GCHART. Gréficos exploratorios de mapas: Procedimiento GMAP ..sse. Graficos exploratorios de caja y bigotes: Procedimiento BOXPLOT Capitulo 10. Fases de limpieza y transformacién de datos.... Limpieza y transformacién de datos en el proceso de extraceién del conocimiento ... Valores atipicos (Outliers) ... Informacién faltante (Datos missing). Soluciones para los datos ausente: de informacién faltant Transformacién de datos Transponer, fusionar, agregar, segmentar y ordenar atchivos Ponderar casos y categorizar y numerizar variables Pareamiento 0 matching . Transformacién de datos mediante técnicas de reduccién de la dimension ‘Componentes principales Anilisis factorial. upresion de datos ¢ imputacién 277 277 282 282 283 283 286 288 290 297 298 299 301 303 303 304 305 318 318 322 328 333 333 333 O37. 343 346 346 347 348 349 350 357 Xil__MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Capitulo 11. Las fases de limpieza y transformacién de datos en SAS Enterprise Miner y SPSS Clementine. 365 Las fases de limpieza y transformacién de datos en Enterprise Miner . 365 El nodo Transformacién de variables .. 365 El nodo Asignacién de atributos a Tratamiento de los datos atfpicos con el nodo Filtro de Outliers 378 El nodo Imputacién de datos missing... 384 El nodo Exploracién de patrones para Componentes Principales .. 393 Lasa fases de limpieza y transformacién de datos en Clementine .. 400 El nodo Seleccionar. 402 El nodo Muestra para procesos de muestre 404 El nodo Combinar para procesos de maiching... 408 El nodo Equilibrar.. El nodo Ordenar... El nodo Agregar para calcular estadisticos por subgrupos 409 El nodo Distinguir El nodo Anadir para concatenacién de archivos El nodo Filtrar... El nodo Derivar para transformacién de variables... El nodo Tipo para asignar atributos a variables. El nodo Rellenar para imputacién de datos missing ... El nodo Factor/PCA para Anélisis Factorial y Componentes Principale: Capitulo 12. Fases de limpieza y transformacién de datos en SPSS y SAS... 427 Técnicas de reduccién de la dimensién en SPSS Base 427 Componentes principales con SPSS 428 Anilisis factorial con SPSS. 439 Transformacién de datos en SPSS Base 447 Transformacién de valores de datos 447 Remodificacién de variables 449 Ordenar casos 5 451 Transponer, fusionar, agregar y segmentar archivos. Matching 451 Ponderar casos. 458 Categorizar variables: Categorizador visua 459 Asignar rangos a casos y tipificar variables 462 SPSS y el anilisis de datos missing. Imputacién.. 463 Reemplazar valores perdidos.... 469 Deteccidn de valores atipicos en SPSS . 470 Deteccidn de casos atipicos mediante grificos de control 470 Deteccidn de casos atipicos mediante grificos de caja y bigotes. 472 Técnicas de reduccién de la dimensién en SAS STAT 475 INDICE xm Componentes principales en SAS, Procedimiento PRINCOMP y Procedimiento FACTOR Anilisis factorial en SAS. Procedimiento FACTOR 482 Transformacién de datos en SAS Base . 487 Operaciones con ficheros: Coneatenacién y Matching . 487 Actualizando ficheros de datos SAS . 489 Afiadir informacion. Procedimiento APPEND 491 Tipificacién de datos: Procedimiento STANDARD. 494 Capitulo 13. Fase de mineria de datos. Técnicas predictivas de modelizacién ..._ 497 Técnicas de mineria de datos propiamente dichas 497 Técnicas predictivas para la modelizacién... 498 Modelo de regresién multiple 504 Estimacién del modelo lineal de regresién miiltiple 505 Estimacién del modelo, contrastes e intervalos de confianza a través del cdleulo matricial 506 Analisis de la varianza en el modelo de regresién miltiple . 507 Predicciones. 510 Analisis de los residuo: Su Técnicas de seleccién en el modelo de regresién.. 512 Modelos de eleccidn discret .....:.u.:useiusnsseniete fone 51 Modelos de eleccién discreta binaria: Modelo lineal de probabilidad y regresidn logistica binatia ... Sid Modelos de eleccién miiltiple: Modelo Logit Multinomial . 519 Modelo lineal general de regresion multiple (GLM) ... 521 Clasificacién ad hoc: Andlisis di i 521 Hipotesis en el modelo discriminante.... $22 Estimacién del modelo discriminante 523 Clasificacién mediante el modelo discriminante. 525 Capitulo 14, Técnicas predictivas de modelizacién con SAS Enterprise Miner y SPSS Clementine. 529 Técnicas predictivas de modelizacién con SAS Enterprise Miner. 529 El nodo Regression: Modelo de regresién miltiple 530 El nodo Regression: Modelo lineal general GLM 538 El nodo Regression: Modelo de eleccién discreta Logit y Probit 551 ‘Técnicas predictivas de modelizacién con SPSS Clementine... 554 El nodo Regresién Lineal: Modelo de regresién miiltiple. 555 El nodo Regresién Logistica: Modelos de eleccién discreta .. 561 XIV_ MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Capitulo 15. Técnicas predictivas de modelizacién con SAS y SPSS... El modelo lineal general con SAS. Procedimiento GLM. Modelos del anilisis de la varianza y la covarianza con SA‘ Modelo de eleccién discreta en SAS............ Modelo Logit: Procedimiento LOGISTIC. Modelo Probit: Procedimiento PROBIT . SAS y el anilisis discriminante: Procedimiento DISCRIM El modelo lineal general con SPSS. Procedimiento MLG Multivariante Modelo de eleccién discreta en SPSS ..., Modelo Logit: Procedimiento LOGISTICA MULTINOMIAL. Modelo Probit: Procedimiento PROBIT .. SPSS y el analisis discriminante... Capitulo 16. Técnicas descriptivas y predictivas de clasificacion. Clusters y drbotes de decision Elanilisis cluster como técnica descriptiva de clasificacion Medidas de similitud Técnicas en el andlisis cluster Clusters jerarquicos, secuenciales, aglomerativos y exclusivos (S.A.H.N.) El dendograma en el analisis cluster jerérquico Anilisis cluster no jerarquico Los drboles de decisién como técnica predictiva de clasificacién Caracteristicas de los arboles de decisin Herramientas para el trabajo con arboles de decision Arboles CHAID Arboles CART Arboles QUEST Analisis de conglomerados y arboles de decisién como método de segmentacién... Capitulo 17. Clusters y drboles de decision con SAS Enterprise Miner y SPSS Clementine .. Analisis cluster con Enterprise Miner. El nodo Clustering... Arboles de decisién con Enterprise Miner. El nodo Tree Entrenamiento interactivo (Jnieractive Training) Analisis cluster con SPSS Clementin El nodo Entrenar K-medias: Cluster no jerarquico. El nodo Cluster Bietdpico: Cluster jerarquico Arboles de decision con SPSS Clementine. El nodo Crear C5.0.. El nodo Arbol C&R 565 565 571 574 574 579 581 585 593 593 599 601 609 609 610 614 616 617 617 621 622 626 627 628 630 631 633 633 641 652 656 656 661 662 662 664 INDICE xv Capitulo 18. Clusters y drboles de decision con SAS y SPSS... SPSS y el anillisis cluster jerarquic SPSS y el anilisis cluster no jerérquico SAS y el anélisis cluster jerarquico Procedimiento ACECLUS.. Procedimiento CLUSTER: Procedimiento TREE SAS y el andlisis cluster no jerarquico Arboles de decisién (0 clasificacién) con SPSS. Creacién de un arbol de decisién: Método CHAID Métodos CRT y QUEST. Poda de Arboles Capitulo 19. Redes neuronales.. Descripcién de una red neuronal Definicién Funcién de salida y fi Redes neuronales y ajuste de modelos de regresion Aprendizaje en las redes neuronale: Funcionamiento de una red neuronal . El algoritmo de aprendizaje Retropropagaci6n (Back-Propagation).. Analisis discriminante a través del Perceptron Anilisis de series temporales mediante redes neuronales Analisis de componentes principales con redes neuronales Clustering mediante redes neuronales. ciones de transferencia o activac Capitulo 20. Redes neuronales con SAS Enterprise Miner y SPSS Clementine... Redes neuronales con SAS Enterprise Miner. Optimizacién y ajuste de modelos con redes: Nodo Neural Network Anilisis en componentes principales a través de redes neuronales: Nodo Princomp/Dmneural .. Prediccion y andlisis discriminante a trav Nodo Two Stage Model Analisis clusier con redes neuronales: Node SOM/Kohonen ... de redes neuronales: Redes neuronales con SPSS Clementine Nodo Entrenar red. Nodo Entrenar Kohonen Nodo Entrenar K-medias. indice alfabético 665 665 671 675 675 677 678 681 687 689 695 699 699 699 701 703 704 707 708 709 713 715 717 721 721 722 751 756 765 765 769 771 775 NTRODUCCION Este libro presenta las técnicas més habituales utilizadas en mineria de datos de una forma sencilla y ficil de entender a través de las soluciones de software mas comunes de enire las existentes en el mercado. Se persigue como finalidad inicial clarificar las aplicaciones relativas a métodos tradicionalmente calificados como dificiles u opacos. Se busca presentar las aplicaciones en la mineria de datos sin necesidad de manejar desarrollos matematicos elevados ni algoritmos tedricos complicados, que es la razén més comin de las dificultades en la comprensién y aplicacién de esta materia. Hoy en dia se utiliza la mineria de datos en diferentes campos de la ciencia. Cabe destacar las aplicaciones financieras y en banca, en andlisis de mercados y comercio, en seguros y salud privada, en educacién, en procesos industriales, en medicina, en biologia y bioingenieria, en telecomunicaciones y en muchas otras reas. Lo esencial para empezar a trabajar en mineria de datos, sea cual sea el campo en que se aplique, es la comprensién de los propios conceptos, tarea que no exige ni mucho menos el dominio de aparato cientifico que conlleva la materia. Posteriormente, cuando ya sea necesaria la operatoria avanzada, los programas de ordenador permiten obtener los resultados sin necesidad de descifrar el desarrollo matematico de los algoritmos que estan debajo de los procedimientos. En este libro se describen los conceptos de mineria de datos de la forma mas sencilla posible, de modo que sean inteligibles por lectores con formacién diversa. Los capitulos comienzan describiendo las técnicas en lenguaje asequible y presentando a continuacion la forma de tratarlas mediante aplicaciones practicas. Una parte importante de cada capitulo son casos prdcticos totalmente resueltos, incluyendo Ia interpretacién de los resultados, que precisamenie es lo més importante en cualquier materia con la que se trabaje. XVII MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS El libro comienza con una introduccién a la mineria de datos y sus fases. En sucesivos capitulos se desarrollan las fases iniciales (seleccién de la informacién, exploracién de datos, limpieza de datos, transformacién de datos, etc.). Posteriormente se profundiza en técnicas especificas de mineria de datos, tanto predictivas como descriptivas. Entre las técnicas predietivas se abordan todo tipo de modelos de regresién, andlisis discriminante, arboles de decisin, redes neuronales y ottas técnicas basadas en modelos. Entre las técnicas descriptivas se contemplan las técnicas de reduccién de la dimension, las técnicas de clasificacion y segmentacion (clustering) y las técnicas de anilisis exploratorio de datos. Los entornos de trabajo automatizados especificos de mineria de datos que se utilizan en el libro son SAS Enterprise Miner y SPSS Clementine, Adicionalmente se utilizan determinados procedimientos de SPSS y SAS que realizan tareas de mineria de datos de modo sencillo. El libro va acompaiiado de un CD-ROM que contiene los archivos de datos relativos, tanto a todos los ejemplos que ilustran la parte tedrica, como a los ejercicios resueltos. © ITES-Paraninfo CAPITULO 1 MINERIA DE DATOS: CONCEPTOS, TECNICAS Y SISTEMAS APROXIMACION AL CONCEPTO DE MINERiA DE DATOS La mineria de datos puede definirse inicialmente como un proceso de descubrimiento de nuevas y significativas relaciones, patrones y tendencias al examinar grandes cantidades de datos. La disponibilidad de grandes volimenes de informacién y el uso generalizado de herramientas informaticas ha transformado el andlisis de datos orientindolo hacia determinadas téenicas especializadas englobadas bajo el nombre de mineria de datos 0 Data Mining. Las técnicas de mineria de datos persiguen el descubrimiento automatico del conocimiento contenido en la informacién almacenada de modo ordenado en grandes bases de datos. Estas técnicas tienen como objetivo descubrir patrones, perfiles y tendencias a través del analisis de los datos utilizando teenologias de reconocimiento de patrones, redes neuronales, légica difusa, algoritmos genéticos y otras técnicas avanzadas de anilisis de datos. No obstante, la mineria de datos es ya un concepto muy evolucionado que necesita ser aproximado conceptualmente por etapas. Inicialmente la finalidad de los sistemas de informacién era recopilar informacién sobre una parcela determinada para ayudar en la toma de decisiones. Con la informatizacion de las organizaciones y la aparicién de aplicaciones software operacionales sobre el sistema de informacién, la finalidad principal de los sistemas de informacién es dar soporte a los procesos basics de la organizacién (ventas, produccién, personal...). Una vez satisfecha la necesidad de tener un soporte informatico para los procesos basicos de la organizacidn (sistemas de informacién para la gestién), las organizaciones exigen nuevas prestaciones de los sistemas de informacién (sistemas de informacién para la toma de decisiones). 2 — MINERIA DE DATOS: CONCEPTOS, TECNICAS Y SISTEMAS De esta forma han aparecido diferentes herramientas de negocio para la toma de decisiones (DSS 0 Decision Support Systems) que coexisten: EIS, OLAP, consultas ¢ informes, y las propias herramientas de mineria de datos. Un EIS (Executive Information System) es un sistema de informacién y un conjunto de herramientas asociadas que proporciona a los directivos acceso a la informacion de estado y sus actividades de gestién, Est especializado en analizar el estado diario de la organizacién (mediante indicadores clave) para informar rapidamente sobre cambios a los directives. La informacién solicitada suele ser, en gran medida, numérica (ventas semanales, nivel de stocks, balances parciales, etc.) y representada de forma grifica al estilo de las hojas de céleulo. Las herramientas OLAP (On-Line Analyitical Processing) son mas genéricas, funcionan sobre un sistema de informacion (transaccional o almacén de datos) y permiten realizar agregaciones y combinaciones de los datos de maneras mucho més complejas y ambiciosas, con objetivos de andlisis mas estratégicos. Las herramientas OLAP estin basadas, generalmente, en sistemas o interfaces multidimensionales, que presentan la informacién de una manera matricial, Las hetramientas OLAP proporcionan facilidades para “manejar” y “transformar” los datos, producen otros “datos” (mas agregados, combinados) y son una gran ayuda para analizar los datos porque producen diferentes vistas de los mismos. Los sistemas de informes 0 consultas avanzadas estan basados, generalmente, en sistemas relacionales u objeto-relacionales y el resultado se presenta de forma tabular. Generalmente estan implementados en bases de datos relacionales. Las herramientas de mineria de datos permiten extraet patrones, tendencias y regularidades para describir y comprender mejor los datos y para predecir comportamientos futuros. La Mineria de Datos analiza los datos y el resto de herramientas citadas anteriormente facilitan el acceso a la informacién para que el anilisis sea ms efectivo, es decir, son instrumentos de apoyo a la mineria de datos. No obstante las heramientas anteriormente citadas suelen necesitar de la existencia previa de un almacén de datos (Data Warehouse). El almacén de datos es el sistema de informacién central en todo este proceso. Un almaeén de datos es una coleecién de datos orientada a un dominio, integrada, no volatil y variante en el tiempo para ayudar en la toma de decisiones. Un almacén de datos es un conjunto de datos histéricos, intemos © externos y descriptivos de un contexto o area de estudio, que estén integrados y organizados de tal forma que permiten aplicar eficientemente herramientas para resumir, describir y analizar los datos con el fin de ayudar en la toma de decisiones estratégic: Las fuentes internas y externas de datos estén separadas. Gran parte de los datos que se incorporan en un almacén de datos provienen de una base de datos transaecional que es el origen de datos interno y cuya informacién es fruto de las transacciones derivadas dela actividad diaria, pero también existen otras fuentes externas de informacion. © MES-Paraninfo CAPITULO 1: MINERIA DE DATOS: CONCEPTOS, TECNICAS Y SISTEMAS 3 Existe un sistema especializado para realizar la carga y mantenimiento de un almacén de datos, denominado sistema ETL (Extraction, Transformation, Load). Este sistema se encarga de la lectura de datos transaccionales, de la incorporacién de datos exiernos, creacién de claves, integracion de datos, agregaciones, limpiezay transformacion de datos, creacién y mantenimiento de metadatos, planificacin de carga y mantenimiento, indizacién, pruebas de calidad, ete. La Figura 1-1, cuya fuente es Orallo, Quintana y Ramirez (Insroduccién a la Mineria de datos) ordena los conceptos expuestos en los pirrafos anteriores. Henaniontes de conautas ¢ nferes Base de Datos Transacclonal Hoiranertas j Hememientes oe st n= No obstante hay que tener claro que los almacenes de datos no son imprescindibles para hacer exiraccién de conocimiento a partir de los datos. Se puede hacer mineria de datos sobre un simple fichero de datos. Pero las ventajas de organizar un almacén de datos para realizar mineria de datos se amortizan sobradamente a medio y largo plazo cuando tenemos grandes volmenes de datos, o éstos aumentan con el tiempo, 0 provienen de fuentes heterogéneas o se van a combinar de maneras arbitrarias y no predefinidas. EL PROCESO DE EXTRACCION DEL CONOCIMIENTO Pero la mineria de datos es slo una etapa del proceso de extraccién de conocimiento a partir de datos (KDD). Este proceso consta de varias fases como la preparacién de datos (seleccién, limpieza, y transformacién), su exploracién y auditorfa, mineria de datos propiamente dicha (desarrollo de modelos y anilisis de datos), evaluacién, difusion y utilizacion de modelos (output). Ademas, el proceso de extraccién del conocimiento incorpora muy diferentes técnicas (arboles de decisién, regresién lineal, redes neuronales artificiales, técnicas bayesianas, maquinas de soporte vectorial, etc.) de campos diversos (aprendizaje automatico e inteligencia artificial), estadistica, bases de datos, etc.) y aborda una tipologia variada de problemas (clasificacién, categorizacién, estimacién/regresi6n, agrupamiento, etc.). La Figura 1-2 muestra las etapas del KDD. Figura 1-1 © ITES-Pararinfo 4 MINERIA DE DATOS: CONCEPTOS, TECNICAS Y SISTEMAS Dominio de Modelos /informes 7 Limpieza Desarrollo Analisis Genericién Base de Datos ¥ de de de ‘Transform, Modelos Datos Resultados . Herramientas | [Herramientas | _[ Herramientas | {Herramientas ) {Herramientas de Estadisticas &e de e Consulta yde La, Visuatizaciin } [Presemacion J (Transformacion Figura 1-2 EI KDD comienza con la recopilacién e iniegracién de la informacién a pattit de uunos datos iniciales de que se dispone (fase de seleccién de datos). Las primeras fases del KDD determinan que las fases sucesivas sean capaces de extraer conocimiento valido y util a partir de la informacién original. Generalmente, la informacién que se quiere investigar sobre un cierto dominio de la organizacién se encuentra en bases de datos (Database) y otras fuentes muy diversas, tanto intemas como extemas (en general la informacién se encuentra ordenada en almacenes de datos). Muchas de estas fuentes son las que se utilizan para el trabajo transaccional. El andlisis posterior seré mucho més sencillo si la fuente es unificada, accesible (interna) y desconectada del trabajo transaccional, Aparte de informacién intema de la organizacién, los almacenes de datos pueden recoger informacién externa, como demografias (censo), paginas amarillas, psicografias (perfiles por zonas), uso de Intemet, informacién de otras organizaciones y bases de datos extemias compradas a otras compaitias. La disponibilidad de grandes vollimenes de informacién en esta fase nos lleva a la necesidad de usar técnicas de muestreo para la seleccién de datos. La fase siguiente del KDD integra la exploracién, la limpieza o criba de datos (Data Cleaning) y la transformacion de datos. Se deben eliminar el mayor ntimero posible de datos erréneos © inconsistentes (limpieza) © irrelevantes (criba). En esta fase se utilizan herramientas de consulta (Query tools) y herramientas estadisticas (Statistics tools) casi exclusivamente. En la exploracién se usan_técnicas de andlisis exploratorio de datos como los histogramas y los diagramas de caja, tallo y hojas, que ayudan a detectar datos anomalos 0 atipicos (outliers). La presencia de datos atipicos y valores desaparecidos (datos missing) puede llevamos a usar algoritmos robustos a datos atipicos y desaparecidos (p.j. érboles de decisién), a filtrar la informacién, a reemplazar valores mediante técnicas de imputacién y a transformar datos continuos en discretos mediante téenicas de discretizacién. Entre las técnicas avanzadas de transformacién tenemos las de reduccién y aumento de la dimensién. © MES-Paraninfo CAPITULO 1: MINERIA DE DATOS: CONCEFTOS, TECNICAS Y SISTEMAS 5 La fase siguiente en el KDD es la propia mineria de datos que se llevar. a cabo a partir del desarrollo de modelos predictivos y descriptivos (Model Development) y mediante el andlisis de datos (Data Analysis). Una vez recogidos los datos de interés, un explorador puede decidir qué tipo de patron quiere descubrir. El tipo de conocimiento que se desea extraer va a marcar claramente la técnica de mineria de datos a utilizar. Para seleccionar y validar los modelos anteriores es necesaria una nueva fase consistente en el uso de criterios de evaluacién de hipétesis. El despliegue del modelo a veces es trivial pero otras veces requiere un proceso de implementacién o interpretacién. En esta fase se utilizan adicionalmente herramientas estadisticas y de visualizacién (Visualization tools) Una fase posterior del KDD es la relativa a la difusion y uso del conocimiento derivado de las técnicas de mineria de datos a través del los modelos correspondientes que habitualmente desembocan en la generacién de resultados (Output Generation). El modelo puede tener muchos usuarios y necesitar difuusién, con lo que puede requerir ser expresado de una manera comprensible para ser distribuido en la organizacién. En esta fase se utilizan herramientas de visalizacion (Visualization tools), presentacion (Presentation tools) y transformacién de datos (Data transformation tools). Por lo tanto, observamos en el proceso de extraccién del conocimiento KDD la secuencia de fases siguiente: SELECCION > EXPLORACION — LIMPIEZA > TRANSFORMACION > MINERIA DE DATOS > EVALUACION > DIFUSION En la fase de seleccidn se integran y recopilan los datos, se determinan las fuentes de informacion que pueden ser titiles y dénde conseguirlas, se identifican y seleccionan las variables relevantes en los datos y se aplican las técnicas de muestreo adecuadas. Todo ello se facilita disponiendo de un almacén de datos con la informacion en formato comin y sin inconsistencias. Dado que los datos provienen de diferentes fuentes, es necesaria su exploracién mediante técnicas de analisis exploratorio de datos, buscando entre otras cosas la distribucién de los datos, su simetria y normalidad y las correlaciones existentes en la informacidn. A continuacidn es necesaria la limpieza de los datos, ya que pueden contener valores atipicos, valores faltantes y valores erréneos. En esta fase se analiza la influencia de los datos atipicos, se imputan los valores faltantes y se eliminan o corrigen los datos incorrectos. A continuacién, si es necesario, se lleva a cabo la iransformacién de los datos, generalmente mediante técnicas de reduccién o aumento de la dimensi6n y escalado simple y multidimensional, entre otras. Las cuatro primeras fases se suelen englobar bajo el nombre de preparacién de datos. En la fase de mineria de datos, se decide cual es la tarea a realizar (clasificar, agrupar, etc.) y se elige la técnica descriptiva o predictiva que se va a utilizar. En la fase de evaluacién e interpretacién se evaliian los patrones y se analizan por los expertos, y si es necesario se vuelve a las fases anteriores para una nueva iteracion. Finalmente, en la fase de aifision se hace uso del nuevo conocimiento y se hace participe de él a todos los posibles usuarios. Entonces, la clasificacién de las fases del proceso de extraccién del conocimiento podria resumirse en el siguiente esquema: © ITES-Paraninfo 6 — MINERIA DE DATOS: CONCEPTOS, TECNICAS Y SISTEMAS Recopilar e integrar las fuentes de datos existentes SELECCION} Identificar y seleccionar las variables relevantes en los datos Aplicar las técnicas de muestreo adecuadas (Utilizar las técnicas de anilisis exploratorio de datos EXPLORACION, Deducir la distribucién de los datos, simetria y normalidad Analizar las correlaciones existentes en la informacién Detectar y tratar la presencia de valores ati LIMPIEZA} Imputar la informacién faltanteo valores perdidos (datos missing) Eliminar datos erréneos e irrelevanies Utilizar técnicas de reduccién y aumento dela dimension TRANSFORMACION } Aplicar técnicas de discretizacion y numerizacion Realizar escalade simple y multidimensional Regresi6n y series temporales Andlists discriminante KDD. ; an . ‘Métodos bayesianos Uitilizar técnicas predictivas 5 Algoritmos genéticos Arboles de decision Redes neuronales MINERIA DE DATOS: Clustering y Segmentacion Excalamiento Utilizar técnicas deseriptivas} Reglas de asociacién y dependencia Andlisis exploratorio Reduccién de la dimension Intervalos de confianza Bootstrap Aniilisis ROC Evaluacién de modelos EVALUACION E INTERPRETACION DE RESULTADOS: Visualizacién DIFUSION ¥ USO DE MODELOS: Simulacién © ITESParaninfo CAPITULO 1: MINERIA DE DATOS: CONCEFTOS, TECNICAS Y SISTEMAS 7 No obstante, la clasificacién anterior no es la tinica que aparece en la literatura de esta materia. Existen otras interpretaciones del concepto de mineria de datos, en la linea de considerar las fases del proceso de extraccién del conocimiento expresadas previamente como técnicas de mineria de datos. Por ejemplo, SAS Institute define el concepto de Data Mining como el proceso de Seleccionar (Selecting), Explorar (Exploring), Modificar (Modifving), Modelizar (Modeling) y Valorar (Assessment) grandes cantidades de datos con el objetivo de descubrir patrones desconocidos que puedan ser utilizados como ventaja comparativa respecto a los competidores. Este proceso es resumido con las siglas SEMMA. La Figura 1-3 ilustra las fases del proceso de mineria de datos segin SAS Institute. Vaoracion Problema Modelizacion 7 Ke CONOCIMIENTO Objetivos 77 Moateacon ogous Exploracon ii, wa arelomades | * Dawe ‘Seleccion: Pipe Figura 1-3 Se observa Ia equivalencia entre las componentes del concepio de mineria de datos de SAS Institute y las fases del KDD expuestas anteriormente. La fases de Limpieza y Transformacién en KDD equivalen a la fase de Modificacién en SAS, y la fase de Mineria de Datos equivale a Modelizacién. Evaluacién y Valoracién pueden considerarse sindnimos. SAS Institute implementa la mineria de datos en el software Enterprise Miner, que sera utilizado en este libro, y en otros procedimientos y médulos (STAT, ETS,...). Por su parte SPSS considera que las seis fases que forman el proceso de la mineria de datos son: la comprensién del negocio, la comprensién de los datos, la preparacién de los datos, el modelado, la evaluacién y el uso del modelo. SPSS implementa esta filosofia de la mineria de datos en el software Clemeniine, que sera utilizado en este libro, y en otros procedimientos y médulos (Answer Tree, Neural Connection...) © ITES-Paraninto 8 — MINERIA DE DATOS: CONCEPTOS, TECNICAS Y SISTEMAS TECNICAS DE MINERIA DE DATOS, La clasificacién inicial de las técnicas de mineria de datos distingue entre técnicas predictivas, en las que las variables pueden clasificarse inicialmente en dependientes e independientes (similares a las técnicas del andlisis de la dependencia 0 métodos explicativos del andlisis multivariante), técnicas descriptivas, en las que todas mo estatus (similares a las téc as del andlisis isis multivariante) y técnicas las variables tienen inicialmente el de la interdependencia 0 métodos descriptivos del ani auxiliares. Las técnicas predictivas especifican el modelo para los datos en base a un conocimiento tedrico previo. El modelo supuesto para los datos debe contrastarse después del proceso de mineria de datos antes de aceptarlo como valido. Formalmente, la aplicacién de todo modelo debe superar las fases de identificacién objetiva (a partir de los datos se aplican reglas que permitan identificar el mejor modelo posible que ajuste los datos), estimacién (proceso de calculo de los parimetros del modelo elegido para los datos en la fase de identificacién), diagnosis (proceso de contraste de la validez del modelo estimado) y prediccidn (proceso de utilizacién del modelo identificado, estimado y validado para predecir valores futuros de las variables dependientes). En algunos casos, el modelo se obtiene como mezcla del conocimiento obtenido antes y después del Data Mining y también debe contrastarse antes de aceptarse como valido. Por ejemplo, las redes neuronales permiten descubrir modelos complejos y afinarlos a medida que progresa la exploracién de los datos. Gracias a su capacidad de aprendizaje, permiten descubrir relaciones complejas entre variables sin ninguna intervencién extema. Podemos incluir entre estas técnicas todos los tipos de regresién, series temporales, analisis de la varianza y covarianza, analisis discriminante, arboles de decision, redes neuronales, algoritmos genéticos y técnicas bayesianas. Tanto los arboles de decision, como las redes neuronales y el andlisis discriminante son a su vez téenicas de clasificacién que pueden extraer perfiles de comportamiento o clases, siendo el objetivo construir un modelo que permita clasificar cualquier nuevo dato. Los arboles de decisién permiten clasificar los datos en grupos basados en los valores de las variables. El mecanismo de base consiste en elegir un atributo como raiz y desarrollar el arbol segtin las variables mas significativas. En las ‘éenicas descriptivas no se asigna ningin papel predeterminado a las variables. No se supone la existencia de variables dependientes ni independientes y tampoco se supone la existencia de un modelo previo para los datos. Los modelos se crean automiticamente partiendo del reconocimiento de patrones. En este grupo se incluyen las técnicas de clustering y segmentacin (que también son técnicas de clasificacién en cierto modo), las técnicas de asociacién y dependencia, las técnicas de anilisis exploratorio de datos y las técnicas de reduccion de la dimensién (factorial, componentes principales, correspondencias, etc.) y de esealamiento multidimensional, © MES-Paraninfo CAPITULO 1: MINERIA DE DATOS: CONCEFTOS, TECNICAS Y SISTEMAS Tanto las técnicas predictivas como las técnicas descriptivas estin enfocadas al descubrimiento del conocimiento embebido en los datos. Las ‘écnicas auxiliares son herramientas de apoyo mas superticiales y limitadas. Se trata de nuevos métodos basados en técnicas estadisticas descriptivas, consultas e informes y enfocados en general hacia la verificacién. A continuacién se muestra una clasificacion de las técnicas de Data Mining. Regresion Anilisis de la Varianza y Covarianza Series temporales Métodos bayesianos Predictivas ; Algoritmos genéticos Discriminante Clasificacién ad hoc} Arboles de decision Redes neuronales Descubrimiento . . “lustering Técnicas Clasificacién post hoc . ‘egmentacién Asociacién Descriptivas } Dependencia Reduccién de la dimensién Anélisis exploratorio Escalamiento Multidimensional Proceso Analitico de Transacciones (OLAP) Técnicas auxiliares | SQL y herramientas de consulta Verificacién Reporting Se observa que las técnicas de clasificacién pueden pertenecer tanto al grupo de técnicas predictivas (discriminante, arboles de decisién y redes neuronales) como a las desctiptivas (clustering y segmentacién). Las técnicas de clasificacién predictivas suelen denominarse iécnicas de clasificacién ad hoc ya que clasifican individuos u observaciones dentro de grupos previamente definidos. Las técnicas de clasificacién descriptivas se denominan iécnicas de clasificacién post hoc porque realizan clasificacién sin especificacién previa de los grupos. © ITES-Paraninto 10 MINERIA DE DATOS: CONCEPTOS, TECNICAS Y SISTEMAS En la Figura 1-4 se muestra un diagrama con la clasificacion de las técnicas de mineria de datos, que es clésico en la literatura de esta materia. Figura 1-4 SISTEMAS DE MINERiA DE DATOS La Figura 1-5 muestra los sistemas de mineria de datos mas utilizados en el mercado junto con las técnicas que tratan cada uno de ellos, las plataformas sobre las que trabajan y los interfaces de lectura de datos. Producto Compaiia Técnicas Plataforma Interfaz Knowledge Angoss Arboles de Decision | Win ‘ODBC Seeker CART. Salford Systems_| Arboles de Decisién_[ Win/UNIX ‘Clementine SPSS ‘Amplio abanico WinJUNIX ‘ODBC Data Surveyor Data Amplio abanico UNIX, ODBC Gain Smarts Urban Grificos-Ganancias_| Win/UNIX Intelligent Miner | IBM ‘Amplio abanico UNIX (AIX) | IBM, DB2 Micostrateg Micostrategy | Datawarehouse Win Oracle Polyanalyst Megaputer Simbélicas Win Oracle, ODBC Darwi Oracle ‘Amplio abanico WinJUNDX Oracle Enterprise Miner_| SAS Insfituie | Amplio abanico Win/INTX/Mac SGI MineSet Silicon Graphies | Asociacién y UNIX Oracle, Sybase, Clasificacién Informix Wizsof Wizwhy Wizsoft Figura 1-5 © ITESParaninfo CAPITULO 1: MINERIA DE DATOS: CONCEFTOS, TECNICAS Y SISTEMAS 11 Los sistemas de mineria de datos que utilizaremos en este libro son SPSS Clementine y SAS Enterprise Miner. SPSS Clementine es un sistema de mineria de datos que contempla diferentes fuentes de datos (ASCII, Oracle, Informix, Sybase, Ingres, etc.), una interfaz visual sencilla y distintas herramientas de mineria de datos (redes neuronales, arboles de decision, regresiin, series temporales, cluster, etc.), Trabaja bajo los sistemas operativos UNIX y Windows. SAS Enterprise Miner es una herramienta completa que incluye conexién a bases de datos (a través de ODBC y SAS datasets), muestreo e inclusién de variables derivadas, particién de la evaluacién del modelo respecto a conjuntos de entrenamiento, validacién y chequeo, distintas herramientas de minerfa de datos (algoritmos y tipos de Arboles de decisién, redes neuronales, regresin y clustering, ete.), comparacién de modelos y conversin de los modelos en cédigo SAS. Dispone de un interfaz grafico muy sencillo e incluye herramientas para flujo de proceso, tratando el proceso KDD como un proceso y las fases se pueden repetir, modificar y grabar. Existen en el mercado otros sistemas que permiten realizar Data Mining a través de bases de datos. Concretamente, las bases de datos Oracle y SQL Server disponen de sistemas de mineria de datos asociados. Oracle dispone de herramientas de “Business Intelligence” y “Data Mining” (hutp://ww.oracle.conVip/analyze/warehouse/bus_intell/index.hml) que tienen una orientacién mas empresatial y de sistemas de informacién. También dispone de herramientas de OLAP, Datawarehouse e Informes Avanzados. Asimismo, presenta herramientas propias de Mineria de Datos a través del producto Oracle Darwin (http:/Avww.oracle.convip/analyze/warehouse/datamining/index. html). Microsoft SOL Server dispone del producto Analysis Services que implementa la mineria de datos. Se fundamenta en el “OLE DB for Data Mining” e implementa una extensién del SQL que trabaja con DMM (Data Mining Model) que permite crear el modelo, entrenarlo y realizar predicciones. La version SQL Server 2005, en su médulo Analisys Services cuenta con los algoritmos de mineria de datos mas avanzado entre los que se incluyen arboles de decisién y regresion, series temporales, agrupacién en clisteres, regias de asociacién, algoritmo Naive Bayes y mineria de textos. Dispone de unasistente y diseftador para mineria de datos que permite construir modelos sofisticados a través de una interfaz ficil de usar. Ademids, se proporcionan grificos de elevacién y beneficios, por lo que podré comparar y contrastar la calidad de los modelos antes de dedicarse a la distribucion. Existe una representacién clisica de los sistemas de mineria de datos cuya fuente es Elder Research (www.dataminiglab.com)y que se presenta en la Figura 1-6. © ITES-Paraninto 12 MINERIA DE DATOS: CONCEPTOS, TECNICAS Y SISTEMAS BM pew Dats wind C. “Ae Wintoes Figura 1-6 © ITESParaninfo CAPITULO 2 ENTORNO DE TRABAJO DE SPSS CLEMENTINE INTRODUCCION A CLEMENTINE SPSS Clementine es una herramienta integrada de mineria de datos que incluye diversas fuentes de datos (ASCII, XLS, ODBC, etc.), un interfaz visual basado en procesosiflujos de datos (streams), distintas herramientas de mineria de datos (correlacion, reglas de asociacién, regresién, segmentacién, clasificacién, redes neuronales, reglas y Arboles de decisién, etc.), manipulacién de datos (pick & mix, muestreo, combinacién y separacién, etc.), combinacién de modelos, visualizacién de datos, exportacién de modelos a distintos lenguajes (C, SPSS, SAS, etc.), exportacién de datos integrada a otros programas (XLS) y generacién de informes. El entomo del Clementine esti basado en nodos que se van disponiendo y conectando para formar un flujo, o stream, traducido por Clementine también como “ruta”. Los streams pueden alojarse en ficheros separados (.str) 0 se pueden organizar en proyectos (.cp/). De hecho, tanto los streams como los proyectos de mineria de datos se almacenan en ficheros separados que se puede cargar, guardar, modificar, reejecutar o reorganizar (Figura 2-1) y que son independientes de las fuentes de datos. Eero ona een nine tet Figura 2-1 14 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS. En la Figura 2-2 se muestra la pantalla de carga de la ruta druglearn.str. ag —— S| Lore Undated by divers on 04/Dec/2004 12:54:22 Figura 2-2 En Ia Figura 2-3 se muestra la ruta druglearn.st con seis nodos interconectados. See Ba] Coen Figura 2-3 © (TES Paraninfo CAPITULO 2: ENTORNO DE TRABAJO DE SPSSCLEMENTINE 15 Como se puede ver en la parte inferior de la Figura 2-3 (Figura 2-4), Clementine presenta varias paletas que clasifican los nodos en seis categorias: © — Origenes: nodos para obtener los datos de trabajo (fuentes de datos). © Oper. con registros: operadores para modificar 0 combinar registros (filas) de distintas fuentes. Es decir, selecciones y combinaciones. ‘© Oper. con campos: operadores para modificar o combinar campos (columnas). © Gréficos: graficas. * Modelado: tipos de modelos/patrones que puede generar Clementine © — Salida: presentacion de tablas, andlisis de modelos, estadisticas, exportacion de datos. Figura 2-4 En la parte superior derecha de la pantalla se encuentra la paleta Modelos generados (Figura 2-5) que muestra los resultados que actualmente se estan elaborando. SB 6 ropa fees Bietépico Figura 2-5 © ITES-Paraninfo 16 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Debajo de la paleta Modelos generados se encuentra el botén Ejecutar, que permite la ejecucién e interrupcién de las tareas definidas en la ruta (stream). Usando el ratén Alguna de las operaciones cn Clementine se ven facilitadas con un raton de tres botones. El tercer botén suele utilizarse a menudo para realizar conexiones entre los diferentes nodos de una ruta. Si el ratén no tiene el tercer botén, puede emularse su efecto presionando simultaneamente los dos botones. El clic simple con los botones izquierdo y derecho del ratén permite seleccionar opciones de mentis o abrir meniis contextuales. El doble clic con el botén izquierdo del ratén permite situar nodos en una ruta y editar nodos existentes. El clic simple con el tercer botén del ratén (equivalente al clic simultneo de los dos botones cuando no existe el tercero) seguido de arrastre, permite conectar nodos en una ruta. El doble clic en el tercer bot6n permite desconectar nodos. Ayuda en Clementine La opcién Ayuda del menti de Clementine (Figura 2-6) permite varios caminos para acceder a su contenido. La subopcién Contenido permite acceder a toda la ayuda de Clementine por capitulos (Figura 2-7). La subopcién Tutorial da acceso a un tutorial sencillo sobre el programa (Figura 2-8). La subopcién Modo ayuda contextual transforma el cursor del ratén en un interrogante, de modo que al hacer clic sobre cualquier objeto del interfaz de Clementine, aparece la ayuda relativa ese objeto. Por ejemplo, si hacemos clic en Modo Ayuda Contextual sobre el nodo etiquetado Droga '5.0 de la ruta de la Figura 2-3 obtendremos ayuda contextual sobre la construccin de arboles de decisién con el modelo C 5.0 (Figura 2-9). Paneer) neste Ayuda Figura 2-6 © MES Paraninto CAPITULO 2: ENTORNO DE TRABAJO DE SPSS CLEMENTINE 17 ELE ‘activo Eakin Ver Eavortos Herramientas Ayuda Ox OO orm @ A 28-WOas hac (6) ts drone Seb 6b Ceo, sto ee saore |B 2 Welcome Be ne . Wilcune to Clementine, the data ining tolkit that Cembires sivanced modeing tecmnology with eas6-of- I ndatancdna ota Mina tse, nelpng you to discover te teresting ane valuable ee : resstonsnise wtnin your data, Be || You cen uc Clementine for decison-suppert activites B® saten made traction B® soca nodes + Finding timely answers to critical business questions + Gecovering when factors have the greatest impact B® secant Oneations Hades ‘on your bottom line [B® ats operation nodes | + Creating customer profiles to actieve the highest Fe sich posstie buy rate Be rahi fate Arends saa ard grow igen + Pofng fr drect nai responses ad ret rk -suceuhods * Perforning chum predition clasifestion, and B® scneated Modes ‘segmentation EO sceaes ne ‘These are lust a sanpling ofthe many ways that you standing masna als » Eigmentine to po tract valable nfermavon fom Figura 2-7 recs |B) ceetivs de wrooranaiConerane\é Swe 6nEngh UT ontut hm Welcome to Clementine ‘This tutorial introduces you to Clementine. it will familiarize you with the Glamentine interface nd ie> visu! programming approach ta dats mining To do this, it wales you through the process of using Clamantine to create 2 model and draw some canclusions spout a data fle. You may want to. Fave Clementine running <0 that you can follew the staps a2 you read. For further information about the concepts ard procedures introduced here, be sure to rever to your Clementine User's auide and aivanced Features Guide ‘Ta get started with tha tutaral, click the right arraw button in the bottem fight comer of this window. ®—-@--®--@ arugin waste Drug Figura 2-8 © ITES-Paraninfo 18 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS FREE eee eee ‘we Eécin er Evertss Weremevas te O~-O AEG ku OSS 8 WOR s Sieseitn | 8 C Wecthos de prog sna\Canantrsi. Spb iringkh_USiCer wb lcSOvode_seneat hin BO ernst nest Build C5.0 Node “Taig node uses the C5.0 algorithm to buld either a helen tre or 3 relowshs A.CE.O modal wars by Spitine the sample Eased on the field that provides the ‘maximum Information gain Each subeample dafined Sy the fist spit is then salt again, usualy based on a ‘Fferant fe, and the process rapests intl fe Subsanpies carrot ba spit any Turtner. Final, the lowest level splits are reavanined, and those ‘hat Ge not Contribute signifeanty to the value of the medel are removed or pruned. [B® pcos operations nodes ne 5.0 can produce tw kinds ofmodels_ & decston tree ald aac toas is a staigheforvard ceserotion af the spits found by 2 B® sect aadae algorithm. Each termnal or "leaf" node describes ae partcula sist of the tsineg data, and each case in eden tts the training data balongs to exactly one ternal rade in [BP oxic nade the treo, In other wards, szcetly ore prediction Is | ennas cs goes fo any part data record poser to [B® sresmadar sot of nos that thes to mala Figura 2-9 Panel de control de Clementine En el grupo de programas de Clementine aparece Ia utilidad Control Panel (Figura 2-10) que, a través de las opciones que se muestran en la pantalla de la Figura 2-11, nos va a permitir configurar la memoria de uso, situar preferencias de lenguaje y leer y seleccionar actualizaciones relevantes para Clementine que pueden venir dadas en médulos externos. Por defecto las actualizaciones se espera que estén localizadas en el directorio de instalacién de Clementine. Con el botén Buscar se puede elegir cualquier otro subdirectorio en el que estén situadas las actualizaciones, Con el botén Actualizar se ejecutan las actualizaciones seleccionadas. BD Stottranster7 @ cementne 6.5 Figura 2-10 © (TES Paraninfo CAPITULO 2: ENTORNO DE TRABAJO DE SPSSCLEMENTINE 19 Clementine Panel de control Las subopciones del meni Opciones de Clementine (Figura 2-12) permiten configurar opciones de usuario (Figura 2-13), de ejecucién (Figura 2-14), de ruta (Figura 2-15), de SPSS (Figura 2-16), requisitos de memoria (Figura 2-17) y opciones de idioma. knee Figura 2-12 © ITES-Paraninfo 20 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Figura 2-15 © TES Pareninfo CAPITULO 2: ENTORNO DE TRABAJO DE SPSSCLEMENTINE 21 EJEMPLO DE TRABAJO CON CLEMENTINE Figura 2-17 Con los datos del fichero ASCII ‘enis.txt situado en f:\libros\minigh\datos\tenis, que contiene informacién acerca de los dias que se ha podido jugar al tenis en funcién de diversos aspectos metereol6gicos, se trata de construir un modelo basado en arboles de decisin que permita predecir si a dia de hoy es posible jugar al tenis. Los datos se ‘muestran en la Figura 2-18, een one ‘Temperatura caluroso €aluroso caluroso suave Fresco Fresco Fresco suave Fresco suave Suave Suave Caluroso suave Humedad Viento alta alta alta alta Norma Normal norma alta Norma] norma] Norma alta Normal alta Figura 2-18 foja ieee iojo Hele Flojo fuerte fuerte fleje flojo Flee fuerte fuerte Flojo Fuerte © ITES-Paraninfo 22 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS. Comenzamos abriendo Clementine mediante Inicio > Todos los programas _ Clementine (Figura 2-19). Al abrir el programa, las dos areas de trabajo (izquierda superior y derecha superior) aparecen en blanco (mejor en dicho en azul y gris). Insertar un nodo fuente (origen) de datos en el area de trabajo Lo primero que vamos a hacer es insertar un nodo fuente de datos al drea de trabajo. Para ello, pinchamos dos veces (0 una vez en el nodo y después otra vez en el rea de trabajo) en el nodo Archivo variable (Figura 2-20) que esta en la categoria Origenes en la parte inferior izquierda de la pantalla, Apareceri el nodo en el drea de trabajo, tal y como se muestra en la Figura 2-21, BD Stativarefer7 Control Panel (@ Exceed a Demos Wb M5N Messenger 7.5 feritie” — aactiier Figura 2-19 Figura 2-20 Figura 2-21 © (TES Paraninfo CAPITULO 2: ENTORNO DE TRABAJO DE SPSS CLEMENTINE 23 Si fuese necesario borrar un nodo, simplemente se selecciona y se pulsa la tecla ‘Supr, También se puede borrar con la opcién Eliminar del ment de contexto asociado al nodo, el cual se abre pulsando el botén derecho sobre él (Figura 2-22). Figura 2-22 Enlazar un nodo con una fuente de datos La siguiente tarea sera enlazar el nodo con una fuente de datos. Para ello, hacemos clic con el botén derecho del ratén sobre el nodo archivo “variable” de la zona de trabajo y seleccionaremos Modificar en la Figura 2-22. En la pantalla de edi (Figura 2-23) modificaremos el nombre del fichero, el directorio donde esta y la forma de importarlo (utilizando los tabuladores). Se puede escribir directamente el nombre del archivo a seleccionar y el directorio directamente en sus campos correspondientes, o simplemente se hace clic en el botén Definir archivo y se busca el fichero en el campo Directorio de la pantalla Buscar archivo (Figura 2-24), En el campo Nombre de archivo se hace clic en el fichero a seleccioner. A continuacién se hace clic en el campo Tabulador para considerar los datos del fichero ASCII separados por tabuladores. Ademas seleccionaremos el campo Obrener nombres de campo del archivo para que nos coja el nombre de los atributos del propio fichero. Al hacer clic en Aceprar, el nodo archivo variable aparece ya etiquetado con el nombre del fichero origen de sus datos fenis.ovt (Figura 2-25). © ITES-Paraninfo 24 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Especificactin de archi Nonbre de archivo: Rente.txt Directorio: Fi \libroswiningbvcatcsvtenisN DeFinie erchivors Niner de conpoct titonition C Hamel : -l- Cre ree ere ere) Cicer ewan? icf Caratteres de conentario de £0L:[Caracteres de dolinitacién:[ F espacio 1 Tebulacor Delimitado cont Formato var table Nuova Linea T Caracteres no. inprintbles =o E Wiletples delimitadores vactos: Caniltast Simplest Bessartan [poor Elininer espacios precedentes y postertores: T~ anipulacion de tipos ia ios aa Limes gin starr on busca del tips” ___ a] vf 4 Carpe ape Selacoionar torcs| Ne selacotonan Onsionss: © Sinbolo autonstice Real autonitico C Entero autonstico C Sin tibo © (Cano esta) = S| I carer | (sets | Figura 2-23 nd Nombre de archivo Directerio Establecer frenis.txt funcT\oaTOsTenis a 2) ptuation benis un Carole Lister archive de tip Unidad i* Fi Nuevo vol Figura 2-24 © MES-Paraninfo CAPITULO 2: ENTORNO DE TRABAJO DE SPSSCLEMENTINE 25 Figura 2-25 Figura 2-26 Controlar la carga de datos con un nodo tabla La siguiente tarea es controlar la carga de los datos afiadiendo un nodo Tabla (Figura 2-26) de la categoria Salida (iltima de la derecha) haciendo doble clic sobre él (Figura 2-27). Una vez que aparece el nodo Tabla en la zona de trabajo, hay que enlazarlo al nodo ienis.txt. Para enlazar dos nodos en Clementine, se han de pulsar el bot6n izquierdo y derecho a la vez sobre el nodo origen y arrastrar el ratén hasta el nodo destino (Figura 2-28), soltando en este momento los dos botones. Si el rat6n tiene botén del medio, también se puede utilizar este boton, El resultado se presenta en la Figura 2-29. © ITES-Paraninfo 26 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS. oe © —-@ MEHENES tenis.txt tala Figura 2-28 Figura 2.29 Para eliminar un enlace, simplemente se hace clic con el botén derecho en el enlace y en el ment contextual resultante (Figura 2-30) se elige Borrar. tenis tat Figura 2-30 Si una vez conectados los dos nodos, pulsamos el botén verde EJECUTAR obtenemos los datos importados en una tabla (Figura 2-31) re) eats (© (TES Paraninfo CAPITULO 2: ENTORNO DE TRABAJO DE SPSSCLEMENTINE 27 Definir variables predictoras con el nodo Tipo Nuestro problema era ver si hoy podemos jugar al tenis, Para poder abordar este problema hemos definir los campos Cielo, Temperatura, Humedad y Viento como predictores (es decir de entrada), mientras que el campo Jugar es la clase a predecir, 0 sea, el resultado (es decir la salida). Para ello vamos a afiadir un nodo Tipo (Figura 2-32) que se encuentra en la categoria Oper. con campos haciendo doble clic sobre él. A continuacién enlazamos el nodo ‘enis.txi con el nodo tipo haciendo clic sobre el primero con los dos botones del raién a la vez, desplazindonos hacia el segundo (Figura 2-33) y soltando a la vez los dos botones. Se obtiene la Figura 2-34a con los nodos enlazados. Ahora hacemos clic con el botén derecho del ratén en el nodo Tipo y elegimos Modificar en el ment emergente resultante (Figura 2-34b) y se obtiene la tabla Tipo de la Figura 2-35. Como vemos todos los nodos tienen direccién ENTRADA (estan definidos como preductores), Como la salida va a ser la variable Jugar, modificamos su direccién a SALIDA haciendo clic sobre ENTRADA. Se observa ya la tabla Tipo con las propiedades adecuadas (Figura 2-36). Tipo Figura 2-32 , 4 @ = = - @ ee - we ~~ fonts, tae tenis.tat ae po Figura 2-33 Figura 2-34a © ITES-Paraninto 28 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS i a — tenis.txt See Figura 2-34b Viento Ty) agar Son rary Sera) omer Semenoe TT) ron ere) pera Sena) © ITESParaninfo CAPITULO 2: ENTORNO DE TRABAJO DE SPSSCLEMENTINE 29 Utilizar un nodo de modelado Ahora ya estamos en situacién de intentar utilizar un modelo a partir de los datos, en este caso una funcién, de modo que dados unos determinados valores de los atributos de entrada obtengamos un valor para la salida, Para ello afiadimos el nuevo nodo Crear C5.0 (Figura 2-37) de la categoria Modelado (haciendo doble clic sobre é!) con cl objeto de construir un arbol de decisién con los datos. A continuacién conectamos el nodo tipo con el nodo Crear C5.0 (Figura 2-38) que pasa a llamarse Jugar: tabla tenis. txt ® —-@ tipo Jugar Figura 2-38 Ejecutar una ruta Ahora ya estamos en disposicién de trabajar con el arbol de decision). Para ello, hacemos clic en el botén verde EJECUTAR. Se observa que, aparte de volver a mostrar la tabla con los datos de origen (pantalla que se puede cerrar para que no moleste), se ha generado un nuevo icono en el érea de trabajo de la derecha, con la forma de un diamante (Figura 2-39). © ITES-Paraninto 30 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS nn ee eerie Figura 2-39 Si ahora pinchamos dos veces en el diamante de la derecha, éste apareceri en la parte superior izquierda del area de trabajo (Figura 2-40). Figura 2-40 A continuacién hacemos clic con el botén derecho del ratén en el diamante del area de trabajo y en el menit emergente resultante (Figura 2-41) elegimos Examinar. Se obtiene una ventana donde podemos ver el arbol de decision creado (Figura 2-42). Si ahora en el menti Ver elegimos Mostrar ocurrencias/confianzas (Figura 2-43) obtenemos los resultados de la Figura 2-44 que nos muestra para cada rama cuantos ejemplos de Ia evidencia son cubiertos y con qué confianza (100% en todas las ramas salvo Iluvioso al 60%). © ITESParaninfo CAPITULO 2: ENTORNO DE TRABAJO DE SPSSCLEMENTINE 31 eee ee ce pee _ Concer sts} rest Cerone tery ocr Hunedad Alta ene cay rrr) ers Per Peace pris st Figura 2-43 ITES-Paraninto 32 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS eek Interpretar un modelo La representacién l6gica del arbol anterior seria: (Cielo = Cubierto) OR (Cielo = Lluvioso) OR (Cielo = Soleado AND Humedad = Normal) <> Cubierto Lluvioso Soleado SI (100%) $1 (60%) Humedad Alta Normal NO (100%) $1(100%) Para ver el Arbol en forma de reglas elegimos Generar —> Conjunto de reglas (Figura 2-45) y rellenamos la pantalla Generar conjunto de reglas como se indica en la Figura 2-46. Al pulsar Aceprar se genera el conjunto de reglas de la Figura 2-47, que no es més que otra forma mas de expresar cl Arbol de decisién, © ITESParaninfo CAPITULO 2: ENTORNO DE TRABAJO DE SPSSCLEMENTINE 33 Room sety Pence process) Figura 2-45 cacti ce Opciones de gereracicn Generando conjunto de reglas parat Jugar Crear nedo ent Nonbre de conjunto de reglass flugarRS Cobertura ninina: al~ Confianza nininat fP-0 al == S| (een S| Figura 2-46 Reglas para Na: Frere By ts as si Cielo == Soleado Pape eee tra ean epee es er ew ha eet ae Regla n°2 para Si: ey ene ac Por defecto: —> Si Figura 2-47 © ITES-Paraninto 34 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Predecir con un modelo La finalidad dltima de nuestro modelo de Arbol de decision es. predecir si podemos jugar 0 no jugar al tenis hoy segtin el tiempo que haga. Se observa que si hoy el cielo esté cubierto se jugar al tenis con una confianza del 100%. Si hoy el ciclo esta Iluvioso se jugara al tenis con una confianza del 60%. Si hoy el cielo esta soleado y la humedad es normal se jugara al tenis con una confianza del 100%, pero si el cielo esti soleado y Ia humedad es alta no se jugar al tenis con una confianza también del 100%. Guardar un modelo Mediante Archivo — Guardar ruta (Figura 2-48) se almacena la ruta que hemos seguido para construir y utilizar ef modelo, De esta forma serd posible utilizarlo posteriormente mediante Archivo —» Cargar ruta y el bot6n Ejecutar. © ITESParaninfo CAPITULO 2: ENTORNO DE TRABAJO DE SPSS CLEMENTINE 35 NODOS DE ORIGENES DE DATOS Clementine offece las opciones de obtencién de datos de diversas fuentes a través de los nodos de origenes de datos (Origenes), algunos de los cuales se muestran en la paleta Origenes de la Figura 2-49, Figura 2-49 La paleta Origenes contiene los siguientes nodos: * Archivo variable: Permite obtener datos ASCII en formato libre. « Archivo fijo: Permite obtener datos ASCII en formato fijo. * ODBC: Permite obtener datos via ODBC. © Import SPSS: Importa datos de formato SPSS. * Import SAS: Importa datos de formato SAS. NODOS DE OPERACIONES CON REGISTROS Clementine presenta un grupo de nodos cuya finalidad es la seleccién y transformacién de los datos, que como ya sabemos es una fase previa a la aplicacién de las técnicas de mineria de datos. Clementine permite operaciones con registros y operaciones con campos. Los nodos relativos a operaciones con registros, que son las que nos ocupan en este apartado, se muestran en la paleta Operaciones con registros (Figuras 2-50 y 2-51). © ITES-Paraninto 36 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Figura 2-50 Figura 2-51 La paleta Operaciones con registros contiene los siguientes nodos: * Seleccionar: Permite seleccionar un subconjunto de registros segiin una condicién especificada, tanto para incluirlos como para excluirlos del andlisis. * Muestra: Permite obtener una muestra de los registros iniciales. © Combinar: Permite combinar en un solo archivo registros provenientes de distintos archivos que tienen campos diferentes, con la condicién de que haya un campo comin para poder hacer Ia fusi6n, © Equilibrar: Permite corregir desajustes de registros en conjuntos de datos. © Ordenar: Permite ordenar registros de modo ascendente o descendente de acuerdo a los valores de uno 0 mas campos. * Distinguir: Permite ignorar registros duplicado. * Agregar: Permite reemplazar una secuencia de registros de entrada por un resumen suyo. © Aiiadir: Permite concatenar conjuntos de registros. Se utiliza para unir conjuntos de datos con estructuras similares. NODOS DE OPERACIONES CON CAMPOS Dentro de los nodos cuya finalidad es la seleceién, preparacién y transformacién de los datos, que como ya sabemos es una fuse previa a la aplicacion de las técnicas de mineria de datos, Clementine dispone de nodos relativos a operaciones con campos, que se muestran en la paleta Operaciones con campos (Figuras 2-52 y 2-53). (© ITESParaninfo CAPITULO 2: ENTORNO DE TRABAJO DE SPSS CLEMENTINE 37 a yi. Zz fl tLe Figura 2-52 Figura 2-53 La paleta Operaciones con campos contiene los siguientes nodos: © Filtrar: Permite filtrar la informacién de miltiples campos simultinemente. * Derivar: Permite obtener nuevos campos en funcién de otros campos. * Tipo: Permite especificar determinadas propiedades de los campos como su tipo, naturaleza (predictor o predicho) y definicién de blancos. © Rellenar: Permite reemplazar blancos segin una condicién. * Histérico: Permite crear nuevos campos conteniendo datos de registros previos. Se usa para datos secuenciales, como por ejemplo las series temporales © Convertir: marca: Permite derivar campos basados en valores simbélicos definidos por uno © mas conjuntos de campos NODOS PARA GRAFICOS Determinadas fases de la mineria de datos necesitan de las representaciones graficas. Por ejemplo, es posible conectar un nodo grifico a un conjunto de datos para ver su distribucién. Dentro de la paleta Grdficos, Clementine dispone de los que se muestran en las Figuras 2-54 y 2-55. © ITES-Paraninto 38 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS. Tistribucién Halla Figura 2-54 Figura 2-55 La funcionalidad de los nodos de la paleta Gréficos es la siguiente: * — Grdfico: Permite crear grificos de lineas y de dispersi6n. © Distribucién: Permite graficar la distribucién de los valores de una variable que puede ser cualitativa * Histograma: Permite graficar la distribucién de los valores de una variable cuantitativa. ¢ Malla: Permite graficar las relaciones entre los valores de dos 0 mas variables cualitativas. * — Recolectar: Permite crear histogramas que muestran la distribucion de los valores de una variable numérica relativos a cada valor de otra. + Grdfico miiltiple: Permite realizar varios graficos de lineas sobre los mismos ejes. © Malla direccionada: Permite realizar un grifico de malla con los puntos conectados indicando la direcci6n tinica de la linea de conexién. © Evaluacién: Permite evaluar y comparar modelos predictivos eligiendo el mejor modelo para su aplicacién. NODOS PARA MODELADO Los nodos de modelado constituyen el corazén del proceso de mineria de datos. Clementine ofrece gran variedad de métodos de modelado asociados con las distintas técnicas de data mining. Dentro de la paleta Modelado, Clementine dispone de los nodos que se muestran en las Figuras 2-56, 2-37 y 2-58. (© ITESParaninfo CAPITULO 2: ENTORNO DE TRABAJO DE SPSSCLEMENTINE 39 frbol (8R —-Bietapica A priori Reg, logistics Figura 2-56 Figura 2-57 Figura 2-58 La paleta Modelado contiene los siguientes nodos: Entrenar red: Permite crear y entrenar una red neuronal (perceptrén multicapa). Crear C5.0: Permite construir arboles de decision y conjunto de reglas utilizando elalgoritmo C5.0. Entrenar Kohonen; Permite crear y entrenar redes neuronales de Kohonen, que suelen usarse para crear clusters cuando no se conoce el niimero inicial de grupos. Regresién lineal: Permite crear y estimar un modelo de regresién lineal simple 0 miiltiple. Regla de induccién generalizada (GRl): Permite descubrir reglas de asociacién en los datos, A priori: Permite descubrir reglas de asociacién en los datos mediante cinco métodos distintos utilizando un esquema sofisticado de indexado para procesos eficientes con grandes conjuntos de datos. Entrenar K-Medias: Permite realizar el método K-Medias de andlisis cluster. Regresion logistica: Permite crear y ajustar modelos de regresién logistica con la finalidad de clasificar registros. Factor/PCA: Permite ejecutar técnicas de reduccién de la dimensién como el andlisis factorial y las componentes principales. Cluster Bietdpico: Permite realizar anilisis cluster por el método de las dos fases, que suele utilizarse cuando se mezclan variables cualitativas y cuantitativas. Arboles de clasificacién y regresién (Sequence): Permite construir arboles de decision para clasificacién y regresion (C&R) con la finalidad de predecir. © ITES-Paraninto 40 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS. NODOS DE SALIDA Los nodos de salida permiten obtener informacién acerca de los datos y modelos mediante la presentacién de tablas, anilisis de modelos, estadisticas, exportacién de datos, ete. Dentro de la paleta salida, Clementine dispone de los nodos que se muestran en las Figuras 2-59, 2-60, 2-61 y 2-62. Jef, globalee —frchivo | Export, SPSS Calidad Informe Salida ODBC | Proceso SPSS. Excel Aattivte ‘ “ a Figura 2-59 Figura 2-60 Figura 2-61 Figura 2-62 La paleta Salida contiene los siguientes nodos: * Tabla: Permite crear una tabla con los datos de un analisis para mostrarlos 0 guardarlos en un fichero. © Matriz: Permite crear una tabla que muestra las relaciones entre dos campos. * Andlisis: Permite analizar, evaluar y comparat modelos predictivos. © Def. globales: Permite computar estadisticos de campos para usar en expresiones. * Informe: Permite obtener informes con formato de texto fijo y expresiones. © Archivo: Permite escribir datos en un archivo * Salida ODBC: Permite escribir datos en origenes de datos ODBC. * Export SPSS: Permite exportar datos a formato SPSS. * Proceso SPSS: Permite llamar a un procedimiento SPSS para analizar datos. © Calidad: Permite comprobar el ajuste de los datos. © Excel: Permite exportar datos a formato Excel. © Export SAS: Permite exportar datos a formato SAS. © Publisher: Permite exportar cadenas de Clementine a aplicaciones externas. (© ITESParaninfo CAPITULO 3 ENTORNO DE TRABAJO DE SAS ENTERPRISE MINER INTRODUCCION A SAS ENTERPRISE MINER SAG Institute implementa la mineria de datos en el software Enterprise Miner que ser utilizado en este libro, y en otros procedimientos y médulos (STAT, ..) que también se utilizaran a lo largo del texto, SAS Institute define el creas de Data Mining como el proceso de Seleccionar (Selecting), Explorar (Exploring), Modificar (Modifying), Modelizar (Modeling) y Valorar (Assessment) grandes cantidades de datos con el objetivo de descubrir patrones desconocidos que puedan ser utilizados como ventaja comparativa respecto a los competidores. Este proceso es resumido con las siglas SEMMA que constituyen las iniciales de las 5 fases de las que consta el proceso de Data Mining segin SAS Institute. Cada una de estas fases lleva asociados diferentes nodos, tal y como se indica a continuacién: "Fase de Seleccién (Selecting): \leva asociados los nodos Fuente de Datos (Input Data Source), Muestreo (Sampling), Particién de Datos (Data Partition) y Series Temporales (Time series), Ver la Figura 3-1. Sample Input Data Source Sampling Data Pattiton Figura 3-1 = Fase de Exploracién (Explore): \leva asociados los nodos Explorador de distribuciones (Disiribution Explorer); Graficos (Multiplot); Analisis ivariante (Insight); Asociacién (Association); Seleccién de Variables (Variable Selection), Anilisis de Uniones (Link Analysis). Ver la Figura 3-2. 42 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS. Explore ld. Distribution Explorer E Mutiplet Insight Text Miner & Association Vaiable Selection Link Analysis Figura 3-2 Fase de Modificacién (Modif): Definicién de variables (Data Set Attributes); Transformacién de Variables (Transform Variables); Tratamiento de Valores Extremos (Filter Outliers); Reemplazo de valores perdidos (Replacement); Clasificacion (Clustering); Redes Neuronales autoorganizadas (SOM/Kohonen), Agrupacién interactiva (Interactive Grouping) y Series Temporales (Time Series). Ver la Figura 3-3 Fase de Modelizacién (Model): Regresién (Regression); Arboles de Decision (Tree); Redes Neuronales Artificiales (Neural Network); Redes Neuronales y/o Analisis de Componentes Principales (Princomp/Dmneural), Modelo Definido por el Usuario (User Defined Model); Unién de Modelos (Ensemble), Razonamiento basado en memoria (Memory Based Reasoning) y Modelos en dos Etapas (Two Stage Model). Ver la Figura 3-4. MO iver Sige hack Figura 3-4 © (TES Paraninfo CAPITULO 3: ENTORNO DE TRABAJO DE SAS ENTERPRISE MINER 43 = Fase de Valoracién (Assess): Valoracin (Assessment) e Informes (Reporter). Ver la Figura 3-5. fawvir Figura 3-5 Comenzando con SAS Enterprise Miner Para acceder a Enterprise Miner basta con escribir miner en la caja de comandos de SAS Explorer (Figura 3-6) ‘Archivo Ediion Ver Heramientas Ejectar Solucones Yerkans Ayuda _y [ner lOc B\SQ\+ >a Mae *xOe Figura 3-6 También se puede acceder a Enterprise Miner desde la barra de menus de SAS seleccionando Soluciones — Andlisis + Enterprise Miner (Figura 3-7). wrancby aera iemei , se de orca ose en Iran de res Salen do cbs teenager de esters By outet- (in tus) | Elleg- tin teva) 2 Favor - 5m wot S| Seinen adore Loh aL Figura 3-7 © ITES-Paraninto 44 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS. Por ambos caminos se llega a la ventana de Enterprise Miner, en la que se distingue la zona de trabajo, la barra de herramientas y el navegador del proyecto con las pestaiias para diagramas, herramientas e informes (Figura 3-8). SAS Enterprise Miner - Cesar [] sap-(Bs| 6 2 Cesar Barta de herramientas: Beg United lavegattor del proyect’> | Figura 3-8 La pestana de diagramas (Diagrams) del navegador de proyectos permite seleccionar los proyectos y diagramas abiertos. La pestafia herramientas (Tools) despliega el conjunto de tareas que pueden ser realizadas por Enterprise Miner (Figura 3-9). La pestafia de informes (Reports) contiene los informes generados que suelen ser creados a través del nodo de informes (Reporter node) de Enterprise Miner. Mediante la pestaiia Tools nos situamos sobre el conjunto de herramientas de andlisis para el Data Mining. Las entradas principales de este meni (Input Data Source, Sampling, ete.) son los nodos que contienen las diferentes herramientas de Daia Mining. Les nodos son los elementos basicos de los que constan todos los andlisis de Enterprise Miner asi como todo el trabajo que comprende el ciclo de Data Mining. Todos los procesos girarin por tanto en torno al uso de los mismos. Mas adelante describiremos las utilidades particulares de cada uno de ellos. © (TES Paraninfo CAPITULO 3: ENTORNO DE TRABAJO DE SAS ENTERPRISE MINER 45 Sample Input Data Source Sampling ES Data Patition Explore Mik. Distribution Explorer E Mutitot Insight Text Miner "> Association Variable Selection Link Analysis Modiy Data Set Attributes: Transform Variables shh Filter Qutiers [Replacement Clustering fH SoMAKohonen Q Time Series @ Interactive Gioupng Model Lz Regression &R Tree > Neural Network, > Princomp/ Dmneural User Defined Model Ensemble [5] Memory Based Reasoning Two Stage Model Assess 89K Atosemont ‘#e Reporter (BY Scoring Mi Diagrams Tools | Reports Figura 3-9 En la zona de trabajo de la Figura 3-8 se llevan a cabo todas las tareas del proceso de Data Mining. Es aqui donde se procesan los datos, se ejecutan los modelos y se valoran los resultados. Este proceso se lleva a cabo mediante diagramas de flujos. Un diagrama de flujos no es mas que la conexién ordenada de todos los nodos que forman un problema de Data Mining. © ITES-Paraninfo 46 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS. La barra de herramientas (Figura 3-10) contiene el subconjunto de tareas de Enterprise Miner que son frecuentemente utilizadas por el usuario. El programa permite afiadir 0 borrar los iconos de los nodos de la barra de herramientas segiin sus preferencias. Origenes de datos de entrada Muestreo Particién de datos Seleceién de variables Asociacién Cluster Regresion Arbol de decision Red neuronal ‘Valoracion Predicein Cédigo SAS Ainformes o-[Bs| 8 EME eel [Ra Figura 3-10 EA Para afiadir un elemento a la barra de herramientas, seleccione el icono en la zona de herramientas del navegador del proyecto y arrastre hasta la barra. Para eliminar un elemento que no es usado, seleccione con el botén derecho del ratén la tarea y elija Remove from tool bar. Los nodos que forman la barra de herramientas pueden ser afladidos a la zona de trabajo sin necesidad de la barra de aplicaciones principalmente de tres maneras: = Pulsar y arrastrar el nodo a la zona de trabajo desde la barra de herramientas. = Pulsar y arrastrar el nodo a la zona de trabajo desde el conjunto de herramientas de andlisis de SAS Enterprise Miner. = Pulsar con el botén derecho sobre la zona de trabajo y seleccionar Add Node desde donde se desplegard una ventana para abrir el nodo. El nodo puede ser posteriormente abierto bien haciendo doble clic con el botén izquierdo, bien realizando la seleccidn con el boton derecho del ratén pulsando a continuacién Open. © (TES Paraninfo CAPITULO 3: ENTORNO DE TRABAJO DE SAS ENTERPRISE MINER 47, Inicio de un proyecto nuevo En SAS Enterprise Miner el proyecto es el documento en el que se guardan la informacién, los datos, los diagramas y los resultados de un andlisis determinado. Los proyectos estin por tanto asociados a distintos problemas de Data Mining normalmente por corresponderse con distintas bases de datos. No existe restriceién al numero de proyectos y Enterprise Miner permite hasta 100.000 diagramas por proyecto. Los proyectos se guardan con extensién *.dmp mientras que los diagramas tienen extensién *dimd. Para iniciar un nuevo proyecto, desde el meni principal seleccionar File > New — Project (Figura 3-11). Esta accién abre la ventana Create new project (Figura 3-12), En esta ventana es necesario especificar el nombre del proyecto y la localizacién del mismo. Una vez realizadas ambas opciones seleccionamos create. El proyecto se crea junto a un diagrama, que por defecto se Hamard untitled hasta que le sea asignado un nuevo nombre al guardarlo (Figura 3-13). Una vez que el proyecto esta creado el siguiente paso es realizar un andlisis siguiendo las fases de Data Mining: seleccién, exploracién, modificacién, modelizacién y valoracién de resultados. Btu enna Pant Set, Delete curren profct Che project Eat Entec Miner Figura 3-11 pane Nane: 7 F Client/server project Location: [Ce\LiBROS\WININGT\DATOS\PT Browse. Figura 3-12 © ITES-Paraninfo 48 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS. Figura 3-13 Meni principal de SAS Enterprise Miner Enterprise Miner contiene un meni que permite seleccionar y ejecutar tareas comunes. Este menii (parte superior de la Figura 3-13) presenta las opeiones File, Edit, View, Options, Actions y Help cuyas subopciones y finalidades se estudiaran a continuacién, La opeién File (Figura 3-11) presenta las subopciones siguientes: New — Proje diagramas. > erea un nuevo proyecto al que se pueden asociar multitud de New — Diagram: crea un nuevo diagrama, Para eliminar el bloqueo de un diagrama es necesario eliminar el archivo con extension *./ck asociado al diagrama. Open: abre un diagrama nuevo o existente dentro del proyecto en uso. Esta tarea también puede ser ejecutada con el icono ©. © (TES Paraninfo CAPITULO 3: ENTORNO DE TRABAJO DE SAS ENTERPRISE MINER 49 Save Diagram: guarda el diagrama que esté siendo utilizado dentro del proyecto. Esta tarea también puede ser ejecutada con el icono A, Save Diagram as: proyecto. asigna un nombre y guarda el diagrama utilizado dentro del Print Setup: especitica las opciones de impresién. Print: imprime los contenidos de Enterprise Miner. Esta tarea también puede ser ejecutada con el icono Delete current Project: elimina el proyecto activo. Esta accién supone eliminar tambign todos los ficheros que contenga el proyecto. Esta tarea también puede ser ejecutada con el icono % . Close Diagram: guarda y cierra el diagrama seleccionado. Close Project: cierra el proyecto actualmente en uso. Exit Enterprise Miner: termina la sesién con Enterprise Miner volviendo al entorno principal del programa SAS. ion Edit (Figura 3-14) presenta las subopciones siguientes: Pe eee en eet Uae | Cerpetas mas sadas Figura 3-14 © ITES-Paraninfo 50 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS. Copy Diagram to clipboard: permite copiar el grafico de la zona de trabajo para posteriormente ser pegado en un documento de texto 0 para su presentacién en un informe. Esta tarea también puede ser ejeeutada con el icono BB. Undelete: recupera el iltimo nodo borrado. Copy: copia un nodo, diagrama u objeto de la zona de trabajo. Delete: borra ¢l nodo o conexién seleccionada de la zona de trabajo. Clone: clona el nodo seleccionado. La clonacién implica copiar el nodo y pegerlo en la carpeta Custom de la paleta de herramientas, Paste: pega el nodo, objeto o diagrama, Select all: selecciona todos los nodos de la zona de trabajo. Create subdiagram: crea un subdiagrama para agrupar un conjunto de nodos y conexiones seleccionados dentro de un icono nodo subdiagrama. La opcién View (Figura 3-15) presenta las subopciones siguientes: See gery ae Options Actions Help Ventana] Figura 3-15 Messages: muestra una ventana con los mensajes para el diagrama activo. Refresh: actualiza el navegador de proyectos y los diagramas de la zona de trabajo. Up One Level: muestra el nivel inmediatamente més alto del conjunto de sucesivos diagramas. Si no existen subdiagramas en el diagrama considerado, sélo tendremos un Unico diagrama. Si por el contrario existen subdiagramas en el diagrama cn uso, entonees los subdiagramas pueden ser mostrados 0 en su forma agnupada (escondiendo su estructura interna) 0 en su forma expandida (mostrando su estructura interna). El nivel mas alto muestra los subdiagramas en su forma agrupada. © (TES Paraninfo CAPITULO 3: ENTORNO DE TRABAJO DE SAS ENTERPRISE MINER 51 Top Level: muestra el diagrama de proceso en su forma mas agrupada y por tanto todos los subdiagramas aparecen agrupados. La opcién Options (Figura 3-15) presenta las subopciones siguientes: SAS - [SAS Enterprise Miner - P1 [Untitled]} rote " CContenidada Ertoeno SAS" Propertss. Figura 3-15 User preferences: abre la ventana de preferencias del usuario (Figura 3-16) que permite especificar distintas opciones al empezar Enterprise Miner. Ademés establece los directorios que se usan por defecto para nuevos proyectos, establece el servidor para proyectos que asi lo requieran y especifica los resultados HTML que se desea sean mostrados cuando se utilice el nodo de resultados (Reporter node). Esta sg : ¢ : ; tarea también puede ser ejecutada con el icono =! . Después de hacer los cambios oportunos es necesario seleccionar OK para que éstos tengan efecto. eco Beeston | Projects | Server profiles When starting Enterprise Miner: “Open the Tost project | worked on @ Open the last diagram I worked on ©Bon't open anything (blank workepace ) Loa and output: F Send node log to SAS Systen loa [Send nede output to AS Systen output [Suppress model assessment after training Interactive graphics: Graphice font: System font Browse... Figura 3-16 Project > Data Projiles: mediante esta opcién el usuario define la informacién sobre los objetivos a alcanzar en el proyecto. © ITES-Paraninto 52 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS. Project -» Properties: muestra las propiedades del proyecto tales como el nombre y tipo, si esté o no compartido, su localizacién (solapa General) asi como las opciones de inicializacién (solapa Initialization de la Figura 3-18), las opciones de servidor (solapa Server), la ruta del Data Warehouse que alimenta los datos (solapa Warehouse de la Figura 3-19) y la lista de usuarios que tienen abierto el proyecto (solapa Users de la Figura 3-20). oe flee icone Figura 3-17 Bess at fal teste Geren sessment Run start-up code when project opened Edit... un exit code when project closed Edit... | Figura 3-19 © (TES Paraninfo CAPITULO 3: ENTORNO DE TRABAJO DE SAS ENTERPRISE MINER 53, pe fof fatal Ved) Serra ere Cae People currently using this project: Figura 3-20 Diagram: presenta varias opciones de trabajo con los diagramas (Figura 3-21), xX H|eh/2 4 ser preferences. Broject , onneet te oye tems UF oe ad comet jee |¥ Snal cons Ubrers —_Accesos rect. icorpetasimds MPC iadas Pi fy Properties. Figura 3-21 Diagram — Connect items: sirve para establecer conexiones entre los iconos de los nodos. Diagram — Move items: sirve para mover los iconos de los nodos dentro de la zona de trabajo. Diagram —» Move and Connect: (Opeidn por defecto): permite mover y conectar los iconos de los nodos en la zona de trabajo. Diagram — Large icons: aumenta el tamafto de los iconos en la zona de trabajo. Diagram —> Small icons: (Opcién por defecto): muestra los iconos con un tamafio pequefio dentro de la zona de trabajo © ITES-Paraninfo 54 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS. Diagram —> Properties: abre la ventana de propiedades del diagrama (Figura 3-22). Esta opcién permite también proteger el diagrama o crear y almacenar notas en tomo al mismo. Benner General | History | Protection | Notes | Bag nrietea Type: Diagran Status: Currently open Figura 3-22 La opcién Actions (Figura 3-23) presenta las subopciones siguientes: Archivo Fis Edt Yew Ontons (Ean CConteid ce Ertema SAS’ a @ LUberias ——_Aecesos drecta, Figura 3-23 Open: abre el nodo seleccionado. Run: gjecuta el nodo seleccionado asi como cualquier nodo anterior conectado que no haya sido ejecutado. Resulis: abre el administrador de resultados para aquellos nodos que hayan generado resultados, Add node: abre la ventana de afadir nodo (Figura 3-24) que permite afiadir un nodo dentro de la zona de trabajo. Add endpoints: afiade puntos finales al flujo del proceso. © (TES Paraninfo CAPITULO 3: ENTORNO DE TRABAJO DE SAS ENTERPRISE MINER 55 fee Node types: [Assessnent lassoc tat ion ICluster ing IControl point IData Mining Database lbata Partition Data Set Attributes Distribution Explorer lEnseable Filter Outliers |Group Processing Input Data Source Ins ight Interact ive Grouping Link Analysis lNenory-Based Reasoning IMultiptot Neural Network IPr inconp/ Daneural lReoress ion IReplacenent lRepor ter ISAS Code |SO"/Kohonen lamp ing IScore IScore Converter [Subd agran Text Niner Tine Ser tes Transforn Var lables Tree Two Stage Model lUser Def ined Mode! \Variable Selection Figura 3-24 La opeién Help (Figura 3-25) presenta las subopciones siguientes: Pach He Edt View Ope Acne A [se "Getty Started wth Enterprise Miner Software ane toes ion Conterido de ‘Ertoina SAS" — 7 g Akout EntrreNner be = L tress acasos ia io Figura 3-25 Getting Started with Enterprise Miner Software: abre una ventana con un tutorial para Enterprise Miner (Figura 3-26). Esta accion también puede ser ejecutada con el icono &. Help on this Window: Abre una ventana con ayuda sobre el tema seleccionado (Figura 3-27). Esta tarea también puede ser ejecutada con el icono ? . © ITES-Paraninto 56 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS. (© ITESParaninfo a.) pret Figura 3-26 a sf Bobb Layout of the Enterprise Miner Workspace olnratt Eye rr: domed ost uw so da mire ona gst rk Thr eons + Erwcs Mne at eget ner care he Ereceea Mee ection vo na netomat Paes tsa dears cea so nan: Salsmrane sags Corp trarpace tare bom ahd ‘lowserer data ortgstent hep mimaton's aesbb seed Cerner rar noe oae poco os ‘Seperate scr nay eee sy seh yet ern ‘The Enterprise Miner Window Figura 3-27 CAPITULO 3: ENTORNO DE TRABAJO DE SAS ENTERPRISE MINER 57, EM Reference Help: Proporciona ayuda especifica sobre todos y cada uno de los nodos de Enterprise Miner (Figura 3-28). About Enterprise Miner: Informaci6n de la version de Enterprise Miner utilizada (Figura 3-29). BS Enterprise Miner 4.3 Reference Help ee coma tw Emaerie hiner4 3 Rene Hap + hat ein Eres ne + Gating tates wen Ertrpite nar Ancninevwrscn tne roca books alae trough SAS Hab + Sun caeong criss + DatatannsRatahasa eds + tae Atte Nae + Dstawien=ione + Emcenbe ade Figura 3-28 cece 868 Enterprise Miner Release 4.3 LagalNotices Figura 3-29 © ITES-Paraninto 58 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS. EJEMPLO DE TRABAJO CON SAS ENTERPRISE MINER Con los datos del fichero ASCII ‘enis.txt situado en f:\libros minigt\datos\tenis, que contiene informacién acerca de los dias que se ha podido jugar al tenis en funcién de diversos aspectos metereol6gicos, se trata de construir un modelo basado en arboles de decisién que permita pedecir sia dia de hoy es posible jugar al tenis. Los datos se muestran en la Figura 3-30. Temperatura Humedad viento Caluroso Alta fojo calureso alta fuerce Caluroso alta flojo Suave alta flojo Fresco normal flo}o Fresco Normal Fustee Cubierto Fresco Normal fuerte jsotesda suave ata flojo soleado Fresco Norm] flo}a Ciuvinso Suave Norm} flojo soleato Suave Normal fuerte cupterto Suave ata, fuerte cubierto Zaiuroso sorml flojo Ciuviose suave alta Fuerte Figura 3-30 Leer ficheros de datos y enlazarlos con Enterprise Miner mediante el nodo Input Data Source La primera tarea en un proceso de mineria de datos es leer el conjunto de datos de partida. Esta tarea la realiza SAS Enterprise Miner a través del nodo Input Data Source (nodo de datos). El nodo de datos es un nodo fundamental, ya que permite leer los datos del analisis y definir sus atributos, El nodo slo lee los datos en formato SAS, es por ello que si nuestros datos estan en otro formato, en nuestro caso en ASCII delimitado por columnas o tabuladores, deberemos importarlos a alguna de las librerias activas. Si es necesario, se crea una nueva libreria. Para crear una libreria pulsaremos el icon y en tos campos de la Figura 3-31 nombraremos la nueva libreria (Trabajo) y activaremos el cuadro Asignar al inicio para que esté disponible cada vez que abramos SAS. Para importar el archivo ASCII tenis.txt a SAS, en el menti principal de SAS seleccionaremos Archivo — Importar Datos eligiendo Fichero delimitado por Tab (-tc1) segin de indica en la Figura 3-32. Se pulsa Siguienie y se elige el camino en que se encuentra el fichero a importar (Figura 3-33). Se pulsa Siguiente otra vez y se elije la libreria en que se slojara el nuevo fichero SAS importado y su nombre (Figura 3-34). Al pulsar Finalizar se obtiene ya el fichero importado en formato SAS tenis.sas7bdat que se aloja en la libreria Trabajo (C:\libros\miningt\datos). © (TES Paraninfo CAPITULO 3: ENTORNO DE TRABAJO DE SAS ENTERPRISE MINER 59 ‘rcivo ver Henares. Soluones Veriana vids be oe eB Xe Bee Home [Tise —Eroee: Feast =] main Se ge Cami: [EWSROSMARINGTIONTOS ———_ Ean Spcions | Bloat Gin tue | Eltoe- Gin tt) | BReaor- Sn ett [fp mee me [DcAbocuments and Setengelcs| Figura 3-31 Brrooamerve ij ater ogra. ‘eepotar das. kenge corso. Sta dit soca Seca a sauce on tet be Uses ome Def aes eal ire th tend Fle Biowtout- isin teat] Etoe- Gin tuted | [AEator- sn tttot Jirmporta detos alconputo de datos SAS — Figura 3-32 © ITES-Paraninto 60 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS. Import Wizard. Select File Where ithe fie located? [EIBFOSWANINGT AT OS\Tenveri ut Browse ptee. sas Inpat ies Stet He Ayuda Lerrelar < bbs: Sigaerte> fi Figura 3-33 Import Wizard. Select library and member ‘Cheas he SAS detain: ray [reo TTT Menoer Tene Figura 3-34 En el Jog de SAS se obtiene un mensaje informando de la creacién del nuevo fichero (Figura 3-35), Si queremos ver su contenido basta con hacer clic en la libreria Trabajo y hacer doble clic sobre el fichero Tenis. Se abre una ventana con el contenido del fichero SAS (Figura 3-36). De forma similar se importan datos desde Excel, Access, dBase, Lotus, ete. © ITESParaninfo CAPITULO 3: ENTORNO DE TRABAJO DE SAS ENTERPRISE MINER 61 the. icin ie ieroneiae pleas Pre Ade ed ee ee) pes del *infile” C°C:\L1BROS\MININGT ‘ora 27. longitud de register fre 99. ET cond. ‘datos TARBAJD “TENTS. long 1 ‘obsorvaciongs y § variab Gentanoia BATA uti Tizado, (Tianna fia proomee totat Tlespe real 0214 "segundos Elerpe de cpu 0.08" segundos ‘\LInROs\WININGTIDATIS Ten is tenis. txt. Figura 3-35 Five acer Yer Heranerias ceca, sioner Yerana Ads en 62) Cane de Tb ae [Sobedo Souats Tats Cabens ree Lance Cubes Sonate Sokato Lhe tout {Sin ttl. | EE Loe in tate) ||} aor - Sn alot VEWTac [Sciioamats ardsatinasiceln Colt Figura 3-36 © ITES-Paraninto 62 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Una vez que disponemos ya de nuestros datos de trabajo en formato SAS en una determinada libreria, ejecutamos SAS Enterprise Miner tecleando miner en la caja de comandos de SAS y pulsando Enter 0 mediante Soluciones —> Andlisis Enterprise Miner. Al hacer clic en el botén Tools del navegador de proyecto se obtiene el listado de herramientas de Enierprise Miner entre las que se observa el nodo Input Data Source (Figura 3-37) como subopcién de la categoria Sample. El nodo se inserta en la zona de trabajo arrastrandolo hasta ella desde el listado de herramientas o desde el icono [2 de la barra de herramientas (Figura 3-38). ik Dattusen Eker ; alin 1D Aoison ato Secon Trout DataSource, Sante 4 eal DalaPatiion Ecore - ec le Ditéaten Exloee EE Mato Iniahe Wi Ton tee 1D Asocision Line Ansys LB Moy Figura 3-38 © ITESParaninfo CAPITULO 3: ENTORNO DE TRABAJO DE SAS ENTERPRISE MINER 63 Al hacer doble clic sobre el nodo Input Data Source en la zona de trabajo, se obtiene la pantalla de entrada de datos. Se hace clic en la pestafia Data y en el campo Source Data debemos indicar en qué libreria se encuentran los datos. Una vez que éstos han sido seleccionados el nodo oftece informacion acerca del nimero de filas y columnas que contiene el archivo (Figura 3-39). Ademas, el nodo realiza una valoracién de las caracteristicas de las variables. Si la muestra es muy grande, y dado que el objetivo perseguido es tinicamente definir el tipo de variable, Enterprise Miner tomata una muestra que por defecto se fija en 2000 datos. Si la base de datos contiene menos que esta cantidad entonces se seleccionan todos los datos. De esta forma ya estan enlazados los datos del fichero de entrada con SAS Enterprise Miner. Per Data | Variables | Interval Variebles | Class Veriables | Notes | f BF Output: Empara.VIE_x7D Desor iption: _[TAIBAD. TENTS ‘Raw Mi Metadata samole: 14 | size: 14 S| mane: EMPROY .SNP_vI96 Figura 3-39 Definir tipos de variables con el nodo Input Data Source La pestafia Variables de la pantalla Input Data Source (Figura 3-40) permite asignar tipos de variables siguiendo una serie de patrones que posteriormente pueden ser cambiados por el usuario. Nuestro problema es ver si hoy podemos jugar al tenis Para poder abordar este problema hemos de definir las variables Cielo, Temperatura, Humedad y Viento como predictoras 0 independientes (de entrada o input), mientras que el campo Jugar es la clase a predecir (variable dependiente), 0 sea, el resultado (de destino 0 target). Por defecto Enierprise Miner define todas las variables como input y por tanto las variables carger o variables respuesta deben ser asignadas por el usuario. Para ello se hace clic con el botén secundario del ratén sobre la variable a cambiar de tipo y se elije Set Model Rol en el menti emergente resultante (Figura 3-41). A continuacién se elije el nuevo tipo (Zarger) en la lista de la Figura 3-42. La Figura 3-43 muestra las variables con su tipo definitivo para este problema. © ITES-Paraninfo 64 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Por tanto el objetivo del nodo Inpui Data Source es tanto abrir los datos como definir el tipo de variable y su papel en el anilisis de forma conveniente. tata Variable 66 | Chace Variables | water | Nae Tieasurenent | Type [Forant | Inforent [Variable Cael ceo rosinal char $9.8. TenFERATIRA nominal char $8. $8. ‘HurEDAD Binary cher 87.87, vieo binary chor $7.87. uGeh Binary cher $2.82, pF af Figura 3-40 1 ] Intervet Variables | Clase Variables ] Hotee Yiode| Role” Heasurenent | Type [Forest | Inforsat | Variable Label -) Figura 3-41 past [Rais Rete | Hessorenent [Wee | Forest | Infernet | Vartebie Lael -| conan neat coniont kar BB =a we0 Toole [eparee] pet I ——Peviercomseg co Figura 3-42 © ITESParaninfo CAPITULO 3: ENTORNO DE TRABAJO DE SAS ENTERPRISE MINER 65 Tote Vor tablex | Interval Yor aes | Claes Vertebter [ister | Tae [fedet Bole" Rassurosont [Tope [Forot [taferaot [Variable Label -| ‘etna ‘mt ion har as view ime kay ers Figura 3-43 Enlace de nodos de un diagrama, El nodo Data Partition Una ver que el nodo de datos recopila la informacién del problema éste debe ser conectado con otros nodos para implementar el proceso de Data Mining. La conexién de distintos nodos crearé un diagrama l6gico de flujo (process flow’) que permitira ir completando las etapas de muestreo, estadisticas descriptivas, codificacion, modelado y valoracion de resultados. La mayoria de los nodos solo pueden ser abiertos una vez que han sido conectados con nodos de datos. En nuestro caso uniremos el nodo de datos (Input Data Source) con el de particién (Data Partition) con la finalidad de asignar de manera aleatoria un 80% de los datos a entrenamiento, un 10% a validacion y un 10% a test. Para ello arrastramos el nodo Dara Partition desde el listado de herramietas (Tools) 0 desde el icono Sa la zona de trabajo (Figura 3-44). Poneto) Sample Input Data Source Sampling ES pate Ele Partition Ly. Cation Capone E Mate & inane BB Tost nr 5 Assocision ‘anita Seleton Link eas ‘ons Tools | Reports a | Figura 3-44 © ITES-Paraninfo 66 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Para conectar dos nodos basta con hacer clic con el botén derecho sobre el nodo que queremos conectar y seleccionar connect items (Figura 3-45). Una vez elegida esta opcidn pulsaremos sobre el nodo origen y arrastraremos la flecha que se origina hasta el nodo destino (Figura 3-46). le Cistibwion Exe EE amp Be Insight WB Tet Mines SD Associaion Variable Sesion Lr rab fete TBR. Partition TEMS Figura 3-46 Para borrar una conexién pulsaremos con el boién derecho del ratén sobre fa flecha que conecta los dos nodos y seleccionaremos la opcién Delete (Figura 3-47). TENIS About. Connect terns * Move tems Move andconnect Figura 3-47 © (TES Paraninfo CAPITULO 3: ENTORNO DE TRABAJO DE SAS ENTERPRISE MINER 67 A medida que los nodos sean creados sera necesario ubicarlos de forma adecuada sobre la zona de trabajo para lograr una mejor organizacién y comprensién del diagrama de flujo. Para mover un nodo pulsaremos sobre el botén derecho sobre el nodo que queremos desplazar y seleccionaremos la opcién Move items de la Figura 3-45. Al elegir esta opcidn cuando situemos el cursor encima del nodo veremos como éste toma la forma de una mano. Cuando esto ocurra podemos coger el nodo con el botén izquierdo del ratén y sin soltar el nodo moverlo hasta la nueva posicién, En general resulta conveniente elegir la opcién Move and connect. Asi, cuando el cursor esté sobre el borde del nodo, se transformard en una cruz indicando que podemos conectar dos nodos. Si situamos el cursor sobre el centro del ratén podremos mover el nodo seleccionado. Para asignar de manera aleatoria un 80% de los datos a entrenamiento, un 10% a validacién y un 10% a test hacemos doble clic sobre el nodo Data Partition en la zona de trabajo y rellenamos la pestatia Partition como se indica en la Figura 3-48. Notes | Date | Variables Partition | Stratitication | User Det ined | Output rip Percentages: _ Ente Rondon Pee [tox FStratiried (User Defined Validation: [18% Tost: [tex Total: 100% Figura 3-48 Utilizar un nodo de modelado Ahora ya estamos en situacién de intentar utilizar un modelo a partir de los datos, en nuestro caso un arbol de decisién. Para ello conectaremos el nodo de particién de datos con un nodo de Arboles de decision (ree) que arrastramos a la zona de trabajo desde el listado de herramientas o desde el icono 4% segin se indica en la Figura 3-49. O I id 2 . Lets Tee TBR, fwrcitian MUS Figura 3-49 © ITES-Paraninfo 68 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Una vez abierto el nodo Tree haciendo doble clic sobre él en el digrama, en la pestafla Advanced especificaremos como medida para la valoracién del modelo el porcentaje de casos correctamente clasificados, Ademas definiremos como niimero de observaciones suficientes para buscar una variable de division 14 (Figura 3-50). fat | Vertabtew | Rete deeneat | Bier | totem | | toro f Observations sufficient for split search: | ia Maxinun tries in an exhaustive split search: [5000 i -—Povalue adjustment. F Kass before choos ing nuaber of tranches WFtor choosing ntmber oF © depth Cetrective nuer of inputs: [@ Figura 3-50 En la pestafia Score indicaremos que guarde la respuesta para los datos de entrenamiento, validacion y test (Figura 3-51). ees Date | tar lables’) Basie | Adeinced | Beore | tes) pcre eer Training, Validation, and Toot Show detaile of: Training CValidation Test Library: ENDATA fata set: STMHIXT Properties... Doser iption: Figura 3-51 Una ver definidas estas opciones, y previa asignacién de un nombre para el modelo (Figura 3-52), ejecutaremos el nodo mediante Actions > Run (Figura 3-53) © haciendo clic con el botén derecho del ratén sobre el nodo Tree y eligiendo Run (Figura 3-54). Después de una vision de ejecucién con éxito (Figura 3-55) podemos ver los resultados del ajuste (Figura 3-56) que se interpretaran mas adelante. © (TES Paraninfo CAPITULO 3: ENTORNO DE TRABAJO DE SAS ENTERPRISE MINER 69 ene Mode! Nane : [arbolt Made! Description: [Arbol de decisiél liaacio Sugg fas Soasr Ke Been te Enea, Freon! Sonal TRABAJO. Data, Open, Interactive, Results. Mol manager ony Delite Clone About. Conact tame Move tens Move and comect Figura 3-54 © ITES-Paraninto 70 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS. 18 | Sammy | Flun for Tree completed successfuly. Do you wish to view results? Yes No Figura 3-55 Model Manager fRieg | Table | Plot | Score | Lou Podemos visualizar el Arbol seleccionando View — Tree (Figura Tran NS 0 5 feat how to a Lo ect Figura 3-56 '-57). Dado que el conjunto de datos es muy pequeito, se ve una sola rama (Figura 3-58). Notes | ode 11 | Summary | Troe Mino | Table Plot | Scare | Loy | tees ed Sates | (Soonck sar meno siror | BF tm men Sj few nos commas ras ws ont ena qm ees nae Tis an © ITESParaninfo Figura 3-57 CAPITULO 3: ENTORNO DE TRABAJO DE SAS ENTERPRISE MINER 71 Figura 3-58 Para solucionar el problema de una sola rama, eliminamos la fase intermedia de particion del conjunto de datos y construimos el Arbol solamente con los nodos Input Data Source y Tree. Para ello abrimos un nuevo diagrama dentro de nuestro proyecto mediante File New — Diagram (Figura 3-59). A continuacién: insertamos en el diagrama los dos nodos y los unimos (Figura 3-60), Al ejecutar ahora el arbol obtenemos los resultados de la Figura 3-61. svedagan fi se: bre Pere Seu, ee & (Geletocurert project carpet dose dagran lose project Et rerpia Mer Figura 3-59 ray nono. Tree TERI Figura 3-60 © ITES-Paraninfo 72 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Notes | Fodel Alt | Summary | Tree Ring | Table | Plot | Score | tog | ‘svat | wuGAA | ==> NO | => Si] TOTAL =| S38 ow Figura 3-61 La pestafia All muestra a la vez las cuatro pestaiias siguientes. En primer lugar muestra las estadisticas de ajuste del modelo (pestaiia Summary). En segundo lugar muestra la proporcidn de casos que se encuentra en cada uno de los nodos en cada uno de los niveles 0 anillos del arbol (pestafia Ring). En tercer lugar muestra la proporcién de casos correctamente clasificados, tanto de entrenamiento como de validacion, segin el numero de hojas de cada arbol (pestafia Table). Por ultimo se realiza una representaci6n grifica del resultado anterior (pestana plot). Podemos visualizar el Arbol seleccionando View —> Tree (Figura 3-62). eee Figura 3-62 (© ITESParaninfo CAPITULO 4 FASE DE SELECCION EN MINERIA DE DATOS SELECCION EN EL PROCESO DE EXTRACCION DEL CONOCIMIENTO El proceso de extraccién del conocimiento (KDD) comienza con la recopilacion e integracion de la informacién a partir de unos datos iniciales de que se dispone (fase de seleccién de datos). Las primeras fases del KDD son muy importantes porque determinan que las fases sucesivas sean capaces de extraer conocimiento valido y til a partir de la informacién original. Generalmente, la informacion que se quiere investigar sobre un cierto dominio de la organizacién se encuentra en bases de datos y otras fuentes muy diversas, tanto internas como externas. En general la informacién se encuentra ordenada en almacenes de datos, El analisis posterior sera mucho mas sencillo si la fuente es unificada, accesible (interna) y desconectada del trabajo transaccional, Aparte de informacién intema de la organizacion, los almacenes, de datos pueden recoger informacién externa, como demografias (censo), pi amarillas, psicografias (perfiles por zonas), uso de Intemet, informacién de otras organizaciones y bases de datos externas compradas a otras compafias. La disponibilidad de grandes volimenes de informacién en esta fase nos lleva a la necesidad de usar técnicas de muestreo para la seleccién de datos. En el proceso de extraccién del conocimiento observamos la secuencia de fases siguiente: SELECCION + EXPLORACION — LIMPIEZA —> TRANSFORMACION — MINERIA DE DATOS > EVALUACION > DIFUSION En la fase de seleccidn se integran y recopilan los datos, se determinan las fuentes de informacion que pueden ser titiles y dénde conseguirlas, se identifican y seleccionan las variables relevantes en los datos y se aplican las técnicas de muestro adecuadas. Todo ello se facilita disponiendo de un almacén de datos (Data Warehouse) con la informacién en formato comiin y sin inconsistencias. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 76 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS. Los sistemas MOLAP disponen de estructuras de almacenamiento especificas (arrays) y técnicas de compactacién de datos que favorecen el rendimiento del almacén, El objetivo de los sistemas MOLAP es almacenar fisicamente los datos en estructuras multidimensionales de forma que la representacién extema y la representacién intema coincidan. El esquema de la Figura 4-2 ilustra estos conceptos. ~ El servider MOLAP. multidimensionales, teneryey amacea ees gs crestuctras a ce musmeniontes ~~ La herramienta de OLAP- prs etasokurtos our Wiarehouse Figura 4-2 Una vez disefiado un almacén de datos implementado mediante la tecnologia ROLAP 0 MOLAP, se aborda el proceso de carga y mantenimiento de dicho almacén. Estas tareas se abordan mediante un Sisiema ETL (Extraction, Transformation, Load), que se representa en la Figura 4-3. eet ‘ore Bases de datos ‘operacionales Almacen d Fuentes fi 7 Aimacenamiento inecen de Exemes' intermedio Figura 4-3, Si los datos operacionales estan mantenidos en un SGBDR (Sistema Gestor de Base de Datos Relacional), la Extraccion o Seleccidn de datos se puede reducir a consultas en SQL © rutinas programadas. Si los datos operacionales estén en un sistema propietario (no se conoce el formato de los datos) 0 en fuentes externas textuzles, hipertextuales u hojas de calculo, la extraccién puede ser muy dificil y puede tener que realizarse a partir de informes © voleados de datos proporcionados por los propietarios que deberin ser procesados posteriormente. © (TES Paraninfo aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 80 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS. Si para cada unidad 1; i= 1, 2..... N de la poblacién definimos la caracteristica 4,, que toma valor I si la unidad 1, pertenece a la clase A, y que toma valor 0 si la unidad 1, no pertenece a la clase A, podemos definir el total de elementos de la poblacién que pertenecen a la clase A (total de clase) y la proporcién de elementos de la poblacion que pertenecen a la clase A (proporcién de clase) de la forma siguiente: v © Total de clase: A = Ay... Ay) = A, © Proporeién de clase: P= Ay.» Analizados ya los cuatro parimetros poblacionales mas tipicos a estimar, vemos que, en general, un parimetro poblacional @ puede expresarse como una suma de elementos Y; = f.X;) funcién de los valores que la caracteristica cuantitativa X 0 cualitativa A considerada toma sobre los elementos de la poblacion. De esta forma, podemos escribir: o=dy,=d 7) ¥,=S(X,) =X, parael total poblacional X Xx, = ¥=f(X)= ye Pare Ja media poblacional X } en cuyo caso tenemos: Yi= f(4,)=A, para el total de clase A i= f(A)= = para la proporcién de clase P N Ahora surge el problema de analizar la forma de los estimadores. puntuales 6ptimos @ = 6(X;..., X,) para estos parimetros poblacionales tipicos. Resulta que las mejores propiedades suelen presentarlas los estimadores lineales insesgados de la forma: 6 Sw, a Los valores @ se denominan pesos 0 factores de elevacién, ya que so los nimeros por los que hay que multiplicar los valores muestrales para obtener los valores poblacionales. © MTESParaninfo aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 84 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS. En cuanto a los estimadores, partimos de que el estimador lineal insesgado general para el caso de muestreo con reposicién es el estimador de Hansen y Hurwitz ~ oy Sm = Lap ‘ar nF, (P; = probabilidad de scleccionar la unidad u; de la poblacién para la muestra = JN), que estima insesgadamente Ia caracteristica poblacional @ = >Y,. et Segiin los distintos valores de ¥, se tiene: Da la casualidad de que se obtienen los mismos estimadores insesgados para los parémetros poblacionales que para el caso de muestreo aleatorio simple sin teposicidn. Por lo tanto, los estimadores de la media y la proporcién poblacional son los estimadores por analogia (media y proporcion muestral), mientras que los estimadores del total y el total de clase poblacionales son la expansién mediante el tamaiio poblacional de la media y proporcién muestrales (en este caso, X = NF =(N/n)x = los factores de clevacién son N/n). El error de los estimadores (varianza) siempre es menor en el caso del muestreo sin reposicién, lo que nos indica que el muestreo sin reposicién es en general mas preciso que el muestreo con reposicion. Ademés, en el caso de muestreo sin reposicién se necesita menos tamao de muestra para cometer el mismo error que en el caso del muestreo con reposicion, con lo que el muestreo sin reposicién es més eficiente que el muestreo con reposicién. (© (TES Pareninfo CAPITULO 4: FASE DE SELECCION EN MINERIA DE DATOS 85 Muestreo estratificado Supongamos que la poblacién objeto de estudio, formada por N unidades elementales, se divide en L subpoblaciones o estratos, los cuales constituyen una particién, es decir, no se solapan y la unién de todos ellos es el total. De forma mas precisa podemos decir que en el muestreo estratificado, una poblacién heterogénea con N unidades {uj} ; -1,2,, » se subdivide en ZL subpoblaciones disjuntas lo més homogéneas posible (que forman una particién) de tamaiios Nj, Np .... N;-, denominadas estratos {Uy} nai El muestreo estratificado es un tipo de muestreo de unidades elementales ya que la muestra estratificada de tamafio n se obtiene seleccionando m, elementos (h = 1, 2... L) de cada uno de los L estratos en los que se subdivide la poblacion de forma independiente. Si la seleccién en cada estrato es aleatoria simple y de forma independiente, el muesireo se denomina muestreo aleatorio estratificado, pero en general nada impide utilizar diferentes tipos de seleccién en cada estrato. Si el muestreo aleatorio en cada estrato es sin reposicién, el muestrco estratificado es sin reposicién, y si cl muestreo aleatorio en cada estrato es con reposicién, el muestreo estratificado es con reposicién. La Figura 4-5 muestra la poblacién dividida en A estratos de tamafio N,,, en cada uno de los cuales elegimos de modo independiente n, unidades (por muestreo aleatorio simple si no se especifica otra cosa) para la muestra estratificada de tamaiio n. POBLACION Figura 4-5 A continuacién se expresa de modo esquematico la formacién de estratos en la poblacién y la formacién de la muestra estratificada de la forma siguiente: POBLACION Uy May, Uy, Uy Ul L Seaivide en Lestranes | 421M 22°*"M2 Qo —————e NaN n=l Uy Myr © ITES-Paraninto 86 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS. MUESTRA Se extrae en cada estrato {uyugru El principal objetivo del muestreo estratificado es mejorar la precisién de las estimaciones reduciendo los errores de muestreo. Intenta minimizar la varianza de los estimadores mediante la creacién de estratos lo mas homogéneos posible entre sus elementos (para que los estimadores del estrato sean precisos) y lo mas heterogéneos entre si (para tener el maximo de informacién). Otros objetivos del muestreo estratificado son los siguientes: 1, Obtener estimaciones separadas para cada uno de los estratos. 2. Hacer un uso mds racional de la organizacion administrativs 3. Paliar los defectos del marco, aislando esos defectos en algunos estratos. Es muy conveniente utilizar muestreo estratificado cuando existe una variable precisa para la estratificacién cuyos valores permitan dividir convenientemente la poblacién en estratos homogéneos. Las variables utilizadas para la estratificacién deberan estar correlacionadas con las variables objeto de la investigaci6n. Por ejemplo, para realizar estadisticas sobre los ingresos de las familias en una ciudad puede estratificarse segtin los valores de la variable cualificacion profesional de los cabezas de sus componentes (a mas cualificacién normalmente hay ms ingresos, con lo que los estratos resultaran homogéneos). Si se quiere estudiar el volumen de negocio de los establecimientos de venta al piiblico de una ciudad, se puede utilizar como variable de estratificacién su nimero de empleados, y clasificar (estratificar) los establecimientos en grandes superficies, supermereados, tiendas grandes, tiendas pequefias y otros, segiin el niimero de empleados; asi resulta una division de los establecimientos en grupos homogéneos. Si se quiere estudiar caracteristicas de hospitales se puede utilizar la variable de estratificacion namero de pacientes, para estratificarlos en grandes hospitales, clinicas medias y clinicas pequefias, resultando asi grupos de hospitales con problemitica similar. Para realizar estadisticas en el sector educativo puede utilizarse la variable de estratificacion nivel de ensefianza, tomando como estratos los niveles de ensefianza infantil, ensefianza primaria, ensefianza secundaria obligatoria, bachillerato y ensefianza universitaria (cada estrato tiene asi unas caracteristi muy peculiares que lo hacen homogéneo). © MTESParaninfo aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 88 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS. Para muestreo estratificado con reposicién, el parametro @ puede ser estimado mediante la suma extendida a todos los estratos de los estimadores lineales insesgados de Hansen y Hurwitz en cada estrato, es decir, mediante: donde P,, es la probabilidad inicial de seleccién de la unidad w ,, para la muestra (¥,)de nyunidades, obtenida de entre las Ni, unidades del estrato h-ésimo ( P,, = 1/N;)- Las expresiones de los diferentes estimadores para muestreo con reposicién coinciden con las del muestreo sin reposicién, ya que: TT By 6= En muestreo estratificado se lama afijacién de la muestra al reparto, asignacién, adjudicacién, adscripcién o distribucién del tamaiio muestral n entre los diferentes estratos; esto es, a la determinacién de los valores de n, que verifiquen y+ my *....+ nm = Nn, Pueden establecerse muchas afijaciones o maneras de repartir la muestra entre los estratos, pero las mas importantes son: la afljacién uniforme, la afijacién proporcional, la afijacién de varianza minima y la afijacién éptima. La afijacién uniforme consiste en asignar el mismo numero de unidades muestrales a cada estrato, con lo que se tomarin todos los m, iguales a n/L, aumentando o disminuyendo este tamafio en una unidad sin no fuese miltiplo de Z, esto es, m, = E(n/L)+ |, donde £ denota la parte entera. ae? Ykonelk> f mS La f= h Para este tipo de afijacién, las varianzas de los estimadores y sus ines se hallan sustituyendo en las férmulas generales f, por k/N. Este tipo de afijacién da la misma importancia a todos los estratos, en cuanto a tamaiio de la muestra, con lo cual favorecerd a los estratos de menor tamaiio y perjudicara a los grandes en cuanto a precisién. Sélo es conveniente en poblaciones con estratos de tamaiio similar. © MTESParaninfo aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 90 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS * El estimador insesgado para la media poblacional puede expresarse como el cociente entre el total muestral y el tamafio de la muestra. Similar propiedad tiene el estimador insesgado para la proporcién poblacional (cociente entre el total de clase muestral y el tamaito de la muestra). nN, # ‘ # © Como m,,=~*=k= f todas las unidades de la poblacién tienen la misma probabilidad de figurar en la muestra de n unidades; es decir, estamos en el caso de muestras autoponderadas. La afijacién de minima varianza 0 afijacién de Neyman consiste en determinar los valores den, (nimero de unidades que se extraen del estrato h-ésimo para la muestra) de forma que para un tamajio de muestra fijo igual an la varianza de los estimadores sea minima. WiSy DNS: "Ems, it Vemos que los valores de m, son proporcionales a los productos NV, - S, yen el supuesto de que S, = S, Vh = 1, 2,..., L esta afijacién de minima varianza coincidiria con la proporcional, tal y como se ve a continuacién: N,S poe “ kN, («-2) yN,S i La expresion para ny es 1, t= La utilidad de esta afijacién es mayor si hay grandes diferencias en la variabilidad de los estratos. En otro caso, la mayor sencillez y autoponderacion de la afijacién proporcional hacen preferible el empleo de ésta. La afijacién éptima consiste en determinar los valores de n, (niimero de unidades que se extraen del estrato /-ésimo para la muesira) de forma que para un coste fijo C la varianza de los estimadores sea minima. El coste fijo C seré la suma de los costes derivados de la seleccién de las unidades muestrales de los estratos; es. decir, sic, es el coste por unidad de muestreo en el estrato h, el coste total de seleccién de las m, unidades muestrales en ese estrato sera cm. Sumando los costes cans para los L estratos tenemos el coste total de seleccién de la muestra estratificada. i SMsi/le dm, 8,/ le a W, Sif Ve, Podemos escribir que nj, = tHE © MTESParaninfo CAPITULO 4: FASE DE SELECCION EN MINERIA DE DATOS 91 Vemos que los valores de n, son proporcionales a los productos V,-S,/ Je, y en el supuesto de que Cj, = k Wh = 1, 2,..., L (coste constante en todos los estratos) aE tenemos que la afijacién éptima coincidir’ con la de minima varianza y con la proporcional. la afijacién dptima coincide con la de minima varianza, y si ademis S, = S, Wh = 1,2, Muestreo sistematico Partimos de una poblacién de tamaiio V, y agrupamos sus elementos en 7 zonas (filas) de tamafo k (N = nk), Podriamos representar la poblacién como sigue: A continuacién se numeran los elementos de la tabla anterior de izquierda a derecha empezando por la primera unidad de la primera fila y pasando a la primera unidad de la fila siguiente cuando se agota cualquier fila. Tendriamos la siguiente estructura: 7 ws 1 fu, u, us, uM, wl a Us Una Uys bs] Mask Yes Uy Ung eon ogy Urpek P| Moyen Meenee Meenas 7 Macneey 77 Macnesk Tl Moir Monier Mines 9 Mmnnes “7 Momayek uy Para extraer una muestra de tamafio 7 se elige al azar una unidad en la primera zona, y para seleccionar las ~ 1 unidades restantes para la muestra se toma en cada zona la unidad que ocupa el mismo lugar dentro de su zona que el que ocupaba la primera unidad seleccionada dentro de la primera zona, © ITES-Paraninto 92 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Por ejemplo, si la unidad seleccionada para la muestra al azar en la primera zona es la tercera, se elegirén las » — 1 unidades restantes para la muestra tomando la tercera unidad de cada zona. Las muestras sistematicas asi obtenidas (columnas de la tabla anterior) suelen denominarse muestras 1 en k La probabilidad de seleccionar cualquier muestra serd la probabilidad de elegir la unidad que la origina en la primera fila por muestreo aleatorio simple, es decir, I/k. Por tanto, el muestreo sistemitico proporciona muestras equiprobables. Por otro lado, la probabilidad que tiene cualquier unidad de la poblacién (de NV unidades) de pertenecer a la muestra (de tamafio k) es k/N = k/nk = 1/n; por lo tanto, el muestreo sistematico es un tipo de muestreo con probabilidades iguales. Las muestras del espacio muestral pueden representarse como sigue: Y= {as sttins se Mieco f (,) = {uj teyee oe Myeenene } {eesticesHescr-ne El muestreo sistemdtico extiende la muestra a toda la poblacién, recoge el posible efecto de estratificacién debido al orden en que figuran las unidades de la poblacién (cada fila se puede considerar como un estrato), permite la consideracién de conglomerados en la poblacién (cada columna se puede considerar como un conglomerado), es facil de aplicar y comprobar, no presenta problemas de célculo algebraico y no precisa distincién entre reposicién y no reposicién. Ademas, si la disposicidn de los elementos en la poblacién es aleatoria, la seleccién sistematica equivale a un muestreo aleatorio simple. Por ultimo, el error de muestreo suele ser menor que en muestreo aleatorio simple o incluso que en estratificado. Por otro lado, hay que tener presente la posibilidad de aumento de la varianza si existe periodicidad en la poblacién y el problema tedrico que se presenta en la estimacién de varianzas debido a que no hay independencia en la seleccién de unidades en las distintas zonas, ya que la unidades extraidas en cada zona dependen de la seleccionada en la primera zona. En general solo hay seleccién aleatoria para la primera unidad de la muestra. Para el cdlculo de estimadores éptimos se utilizard el estimador lineal insesgado de Horwitz y Thompson porque el muestreo sistemitico es sin reposicion. En general sabemos que: © MTESParaninfo CAPITULO 4: FASE DE SELECCION EN MINERIA DE DATOS 93 Gy = Pir estima insesgadamente el parimetro poblacional 6 = >.Y,. En muestreo sistemitico la probabilidad z; de seleccién de un elemento poblacional cualquiera para la muestra sera igual a la probabilidad de que resulte elegida la zona que lo contiene, esto es, z; = I/k = nnk) = n/N, luego podemos utilizar la forma general del estimador de Horwitz y Thompson para asegurar lo siguiente: EE; y a = estima insesgadamente el parimetro poblacional @ = D2 i va k Si aplicamos la expresin anterior a las estimaciones del total, media, proporcién y total de clase poblacionales, se obtienen los siguientes estimadores: ed =N. La 1 Total +0 =X =Y, =X, => X= Bey Media @= X =>Y, =— Proporcién->0=P=31, =" = B= ite nk k a dy A ot le . - = = a = = Total de clase 9 =X =, = A, 24-2 Dk A, NDA = NP, kooOW Hemos demostrado que un estimador lineal insesgado para la media poblacional es la media de la muestra sistematica obtenida, para la proporcién poblacional cs la proporcién de la muestra sistematica, para cl total poblacional es N veces el total de la muestra sistematica, y para el total de clase es N veces el total de clase muestral. Es decir, podemos escribir lo siguiente: Total X¥ ¥,, Proporcién —» P =P, , Total de clase > A= NP, NK. Media > © ITES-Paraninto aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 96 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Vamos a suponer ahora probabilidades iguales y que todos los conglomerados son del mismo tamaito M , en cuyo caso utilizaremos la siguiente notacién: N: Numero de conglomerados en la poblacion N: Numero de conglomerados en la muestra M: Nimero de unidades clementales por conglomerado (tamajio del conglomerado) NM : Nimero total de unidades clementales en la poblacién nM: Nimero total de unidades elementales en la muestra wat Consideraremos la caracteristica poblacional general @ = 7Y,=>>“Y, que, suponiendo muestreo sin reposicién y probabilidades iguales, puede ser estimada mediante el estimador lineal insesgado de Horwitz y Thompson: i y, * nH =~ AS Yr, La aplicacién del estimador lineal insesgado de Horwitz y Thompson para probabilidades iguales a las estimaciones del total, media, proporeidn y total de clase poblacionales, proporciona los siguientes estimadores: Sh gt oy, NM MG ni O=A= 24 =>Y,=4, a4ASO4, Mists 4 =Niny ns En caso de muestreo con reposicién, probabilidades igualesy conglomerados del mismo tamaio, los estimadores son los mismos. En caso de muestreo sin y con reposicién, probabilidades iguales y conglomerados de distinto tamafio, los estimadores son los siguientes: © MTESParaninfo aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 100 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Suponiendo conglomerados de distinto tamaiio y probabilidades iguales, se tiene: Suponiendo conglomerados de distinto tamaio y probabilidades desiguales, podemos considerar la unidad muestral primaria i-ésima de muestreo como una poblacién, siendo ¥, una estimacién de su total al considerar el submuestreo, y representando por X, un estimador insesgado de su media, podemos aplicar la expresién del estimador general de Hansen y Hurwitz X,,, al muestreo bietdpico, siendo la primera etapa con reposicién (la segunda etapa puede ser con o sin reposicidn). Asi, un estimador insesgado del total sera: Un estimador insesgado del total sera: luego: Los estimadores para medias, proporciones y totales de clase en el muestreo bietdpico con probabilidades desiguales son inmediatos: P= proporcién muestral en el conglomerado i-ésimo. © MTESParaninfo aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. 104 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS FQ) NA > x x=F'(NA) Figura 4-7 Dado el niimero aleatorio NA, se toma para la muestra el valor x tal que (NA). ¥ SELECCION DE CARACTERISTICAS RELEVANTES Es habitual en el trabajo prictico disponer de muchas variables medidas u observadas en una coleccién de individuos y pretender estudiarlas conjuntamente, para lo cual se suele acudir al andlisis multivariante de datos. Entonces se dispone de una diversidad de téenicas y debe seleccionarse la mas adecuada a los datos y al objetivo cientifico. Al observar muchas variables sobre una muestra es presumible que una parte de la informacion recopilada pueda ser redundante o que sea excesiva, en cuyo caso los mtodos multivariantes de seleccin de caracteristicas relevantes tratan de eliminarla. Estos métodos combinan muchas variables observadas para obtener pocas variables que las representen con la minima pérdida de informacion, Estos métodos de seleccién de caracteristicas relevantes pueden clasificarse en métodos de filtro y métodos basados en modelos. Los métodos de filtro son métodos multivariantes de la interdepedencia en el sentido de que todas sus variables tienen una importancia equivalente, es decir, si ninguna variable destaca como dependiente principal en el objetivo de la investigacién. En este caso también debers tenerse en cuenta el tipo de variables que se maneja, Si son variables cuantitativas, las técnicas mAs habituales a aplicar son las de reduccién de la dimensién (Andlisis de Componentes Principales y Andlisis Factorial) y si son variables cualitativas, puede acudirse al Andlisis de Correspondencias. © MTESParaninfo aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. CAPITULO 5 FASE DE SELECCION EN SAS ENTERPRISE MINER Y SPSS CLEMENTINE LA FASE DE SELECCION EN ENTERPRISE MINER Recordamos que SAS Institute considera el proceso de Data Mining las fases de Seleccionar (Selecting), Explorar (Exploring), Modificar (Modifying), Modelizar (Modeling) y Valorar (Assessment) y que este proceso es resumido con las siglas SEMMA que constituyen las iniciales de las 5 fases. Cada una de estas fases lleva asociados diferentes nodos. Inicialmente la fase de seleccién lleva a asociados los nodos Fuente de Datos (Unput Data Source), Muestreo (Sampling) y Particién de Datos (Data Partition) segiin se observa en la Figura 5-1, pero suelen considerarse también pertenecientes a esta fase los nodos de Selecein de Variables (Variable Selection) que inicialmente aparece en la fase Explorar y Series Temporales (Time series) que inicialmente aparece en la fase Modificar. Sample Input Data Source Sampling Data Pattition Figura 5-1 El nodo Fuente de Datos El nodo Fuente de Datos permite leer los datos para el andlisis y definir sus atributos. El nodo sélo lee los datos en formato SAS, es por ello que si nuestros datos estin en otro formato, deberemos importarlos a alguna de las librerias activas. Si es necesario, se crea una nueva libreria, Estas tareas se explicaron en el capitulo tres. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. CAPITULO 5: FASE DE SELECCION EN SAS ENTERPRISE MINER Y SPSSCLEMENTINE 113 Por tanto el objetivo de este nodo es tanto abrir los datos como definir el tipo de variable y su papel en el andlisis de forma conveniente. Adems el nodo permite una rapida exploracién de las variables. Para ello se puede pulsar con el botén derecho encima de la variable (en nuestro caso CAT_PROF) y seleccionar la opcién View Distribution of en la Figura 5-7. Se obtiene la Figura 5-8. Figura 5-8 El perfil del objetivo (Target profile) Por defecto Enterprise Miner define todas las variables como input y por tanto las variables target o variables respuesta deben ser asignadas por el usuario. Para ello se hace clic con el botén secundario del ratén sobre la variable a cambiar de tipo (en nuestro caso CREDIT_V) y se elije Ser Model Rol en el menit emergente resultante (Figura 5-9). A continuacién se clije el nuevo tipo (Target) en la lista de la Figura 5-10. La Figura 5-11 muestra las variables con su tipo definitivo en este caso. Data Variables | Interval Variebles | Class Veriabli Notes | Mame. Model Role | Neasurenent | Type | For «| ee ‘Tn 2s a ieternaas ee os TPE sunset by Model Rok a Ire peaminon fom es Figura 5-9 © ITESParaninfo aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. CAPITULO 5: FASE DE SELECCION EN SAS ENTERPRISE MINER Y SPSSCLEMENTINE 117 Dota Variables | tntervet Variables Class Veriables T Wotes Trier Depend Ba cReDIT_Y 2 Descending car FOF 5 Ascending 60.NES 2 © Ascending eno 3 Ascending me 2 %Aecending Figura 5-16 Pestaiia Notes Todos los nodos de Enterprise Miner tienen una pestaiia denominada Notes en la cual podemos reunir distinta informacion acerca del nodo utilizado. En el proceso de Data Mining es importante apuntar toda la informacién y resultados que vayamos obteniendo a fin de optimizar el tiempo de andlisis. En el caso de usar dos nodos iguales podemos apuntar en que se diferencia un nodo de otro. Finalmente, al salir de la pantalla del nodo Input Daia Source, el programa permite salvar o no los cambios realizados en las variables (Figura 5-17). Dae ware [incesal ware View Uariabien Tees None [edsl Rote | Reosresont | Type | Formt | lnfornat | Variable Label | inout interval num GESTIP. 12. LIEN Input ordinal rum RESTIZ. 12 (CaT_PROF rum RESTI2. 12 AGO_NES mum ESTIP, 12. Epo mum HERTIEL 12 arex 2). covuwento soe mesoronons (eee Figura 5-17 El nodo Muestreo EI nodo de muestreo (Sampling) permite extraer una muestra de los datos en los casos en que sea necesario. Su uso esta especialmente indicado en bases de datos muy grandes con el objetivo de posibilitar su tratamiento y disminuir el tiempo de andlisis. Después de abrir el proyecto (P1) y el diagrama de trabajo (D3), el nodo Sampling se obtiene mediante el bot6n Tools del navegador de proyecto de Enterprise Miner como subopcién de la categoria Sample (Figura 5-1) 0 arrastrando el propio nodo sobre la zona de trabajo (Figura 5-18). © TES Paraninfo aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. CAPITULO 5: FASE DE SELECCION EN SAS ENTERPRISE MINER Y SPSSCLEMENTINE 121 La pestafia Output (Figura 5-24) permite ver el conjunto de datos en que se guardara la muestra (archivo SMP3WGMI de la libreria EMDATA). Date | Variables | General | Stratisicatwn | Cluster Library: EMDATA Data set: SNP3HGM! Proper ti Description: [imple Rendon fron: ENDATA .VIEM_A7V Figura 5-24 Para ejecutar el muestreo seleccionado (en nuestro caso una muestra aleatoria simple del 10%) se hace clic en el nodo Sampling con el boton derecho del raton y se elige Run en el ments emergente resultante (Figura 5-25), La pantalla de la Figura 5-26 nos avisa de que el muestreo se ha realizado con éxito y nos offece la posibilidad de ver los resultados (Figura 5-27). SAS Enterprise Miner -P1 (03 Figura 5-25 © TES Paraninfo aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. CAPITULO 5: FASE DE SELECCION EN SAS ENTERPRISE MINER Y SPSSCLEMENTINE 125 Este nodo presenta, a diferencia del nodo de muestreo, la opcién de User Definer. Si elegimos esta opcién, la base de datos debe contener una variable que especifique para cada dato si este sera usado para entrenar, validar o probar el modelo (Figura 5-31). Notes | Date | Variables | Partition | Siratificstion User Defined | Output | Partition variable: [EDAD Partition Values: Training: Val idat ton: Test: Figura 5-31 El nodo de Seleccion de Variables El nodo de seleceidn de variables (Variable Selection) permite reducir el niimero inicial de variables a un nimero menor que tengan la mayor relacién posible con la variable objetivo del andlisis. Muchos problemas de Data Mining tienen cientos de variables potencialmente explicativas de la respuesta o respuestas a evaluar. El nodo de seleccién de variables es una herramienta ditil para ayudar a reducir el nimero de inputs eliminando aquellos que no tienen relacién con la variable objetivo del problema. En principio este proceso podia ser realizado manualmente en el nodo Input Daia Source asignando el estatus rejected a las variables input que no queramos considerar. Mediante la eliminacién de variables que no aportan nada al andlisis conseguiremos eliminar informacién redundante y aumentaremos las opciones de obtener un modelo mas adecuado. Es por ello que este nodo es usado frecuentemente enel diagrama de flujo del problema de Data Mining antes que el modelo. Después de abrir el proyecto (P1) y el crear un nuevo diagrama de trabajo (D5), el nodo Variable selection se obtiene mediante el botén Tools del navegador de proyecto de Enterprise Miner como subopcién de la categoria Explore o arrastrando el propio nodo sobre la zona de trabajo (Figura 5-32), A continuacién es necesario enlazar el nodo Input Data Source con el nodo Variable Selection para realizar la seleccién sobre el conjunto de datos. Par ello basta con hacer clic con el botén derecho sobre el nodo Input Data Source y seleccionar connect items. Una vez elegida esta opcién pulsaremos sobre el nodo origen y arrastraremos la flecha que se origina hasta el nodo destino (Figura 5-33). © TES Paraninfo aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. CAPITULO 5: FASE DE SELECCION EN SAS ENTERPRISE MINER Y SPSSCLEMENTINE 129 Noten Dace’ Gar taktan |) Reem eetecttes i farpee hementavtene [iemrat [omer | eee ee tee teeter ‘Ge lection ori terion: oe Se Settings... | Score data sets cutorr: ED Figura 5-38 variables | R-squnro | Efteces | Gade | Lop | Output | Notes Dependencies | % Mixing -| CAT PROF input ox PAGoNES input oz Arex. rejected Smal) chi-square on ee Figura 5-39 El nodo de Series Temporales El nodo de series temporales (Time Series) permite seleccionar caracteristicas temporales para variables. Este nodo permite ademds indagar acerca de las tendencias y comportamientos ciclicos o estacionales de determinadas variables. También es til para transformar datos con informacién de transacciones realizadas en distintos momentos del tiempo en una serie temporal con una frecuencia determinada. Para su utilizacién el nodo requiere una iinica variable objetivo, una variable temporal (Timeid). Opcionalmente se puede especificar una variable de seccién cruzada (Crossid). Después de abrir el proyecto (P1) y el crear un nuevo diagrama de trabajo (D6), el nodo Time Series se obtiene mediante el botén Tools del navegador de proyecto de Enterprise Miner como subopcién de la categoria modify arrastrando el propio nodo sobre la zona de trabajo al lado del nodo input Data Source al que esta vez se le asignara el conjunto de datos AIR de la libreria TRABAJO (Figura 5-40) situando coma variable objetivo (Target) la variable 03 y situando las demas variables con las caracteristicas que se observan en la Figura 5-41 © TES Paraninfo aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. CAPITULO 5: FASE DE SELECCION EN SAS ENTERPRISE MINER Y SPSSCLEMENTINE 133, Para acceder a las opciones del anilisis debemos pulsar en el meni de herramientas el icono &_ 9 bien seleccionar en el menti principal Tools — Setings... La ventana de opciones contiene tres pesiafias: Time interval, Options y Output Data Set. Time Interval En esta ventana (Figura 5-45) debemos definir cual es el intervalo temporal de los datos. Lengeh of ¢ 1% Opply time ranve. Start Tine: Figura 5-45 = Automatic: ¢| nodo busca la variable timeid ¢ intenta determinar cual es el intervalo y ciclo relativo de la variable. Si no pudiera definirlo el nodo fallard al ser ejecutado. Si ello sucediera deberemos hacer la especificacién manualmente. = User Specified: al hacer clic en el botén Specify se abre una ventana para especificar las opciones temporales. Antes nos pediré una confirmacién ya que el nodo debe examinar previamente los datos (Figura 5-46), Las opciones de esta ventana se describen a continuacién. Tope: [DAY =] Mucor, [Td shit [T= Figura 5-46 © TES Paraninfo aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. aa You have either reached a page that is unavailable for viewing or reached your viewing limit for this book. CAPITULO 5: FASE DE SELECCION EN SAS ENTERPRISE MINER Y SPSSCLEMENTINE 137 o Last: sustituidos por el ultimo valor. © Previous: sustituidos por el valor previo. © Next: sustituidos por el valor siguiente. © Constant: sustituidos por una constanie que deberemos especificar en el cuadro Value. = Statistics to be printed: seleccionaremos si queremos que imprima en el nodo de resultados del visor las estadisticas de temporalidad (Seasonal), tendencia (Trend) 0 ambas. Output Data Set Seleccionando el cuadrado Export transposed seasonal data set (Figura 5-49) el nodo calculara la matriz transpuesta donde las filas se transforman en columnas y las columnas en filas. Wey esas Tine Interval Export transposed seasonal data set. ——— Generate seasons based on: | Sun i Figura $-49 La variable utilizada para generar los datos temporales puede ser cambiada desplegando las opciones del cuadro Generate seasons based on, que presenta las siguientes opciones. © Nobs: el valor de temporada es el numero total de observaciones. el valor de temporada es el ntimero total de observaciones validas. 0 — Nmiss; el valor de temporada es el nimero total de observaciones perdidas. © TES Paraninfo

Vous aimerez peut-être aussi