Vous êtes sur la page 1sur 27

lvaro J.

Mndez Services Engagement Manager IBM SPSS / Profesor Econometra UAM Jecas, 22 Oct 2010

Aplicaciones prcticas de Minera de Datos con IBM SPSS Modeler

Business Analytics software


2010 IBM Corporation

Business Analytics software

Agenda

Minera de Datos y Anlisis Predictivo Qu es y qu no es Minera de Datos? Proceso estndar: CRISP-DM Aplicaciones e Industrias Demo IBM SPSS Modeler 14

2010 IBM Corporation

Business Analytics software

Agenda

Minera de Datos y Anlisis Predictivo Qu es y qu no es Minera de Datos? Proceso estndar: CRISP-DM Aplicaciones e Industrias Demo IBM SPSS Modeler 14

2010 IBM Corporation

Business Analytics software

IBM SPSS: posicionamiento en el mundo del anlisis predictivo


IBM SPSS: Reconocida como lder en Anlisis Predictivo Las aplicaciones de IBM SPSS tiene una buena visibilidad y fuerza de ventas en el mercado, con marcada visin analtica de CRM IBM SPSS es considerada como el mejor proveedor de data mining - muy focalizado en CRM IBM SPSS es percibida como la compaa ms visionaria en el mercado

94% de los clientes alcanzaron un ROI positivo, con un regreso de la inversin en 10.7 meses. El 90% de los usuarios atribuyen un incremento de su productividad a IBM SPSS 81% de los proyectos se acabaron a tiempo, 75% bajo presupuesto previsto. Este es uno de los ROI ms altos que Nucleus ha visto es sus informes de Real ROI Series Rebecca Wettemann, VP de Research, Nucleus ResearchSPSS
4 2010 IBM Corporation

Business Analytics software

Minera de Datos (Data Mining) y Anlisis Predictivo

Minera deTexto

Anlisis Predictivo

Informes

Estadstica

2010 IBM Corporation

Business Analytics software

Resultados de Minera de Datos incluyen

Clasificar sujetos y objetos en grupos reconociendo patrones / basndose en sus atributos Asociar qu eventos ocurren habitualmente de forma simultnea Secuenciar qu eventos normalmente llevan a otros Prediccin de lo que puede ocurrir en el futuro

2010 IBM Corporation

Business Analytics software

Lo ideal.

PELIGRO!! EL SISTEMA PREDICE UN ATAQUE BIOLGICO(PROB. 78.7%) FECHA: 17-19 DIC 10 LUGAR PROBABLE: BUITRAGO DE LOZOYA OBJETIVO PROBABLE: RECINTO PBLICO ESTADIO DEPORTIVO RECINTO DE JUEGOS PERFIL DEL ATACANTE: NORTEAMERICANO, MLTIPLES ENTRADAS RECIENTES, SIN ANTECEDENTES PENALES
2010 IBM Corporation

Business Analytics software

Pero .

La Minera de Datos no es una tecnologa mgica Necesita datos: Limpios, organizados, procesados Necesita ser aplicada con objetivos especficos en mente Herramienta usada por analistas con conocimientos en el campo especfico

2010 IBM Corporation

Business Analytics software

Agenda

Minera de Datos y Anlisis Predictivo Qu es y qu no es Minera de Datos? Proceso estndar: CRISP-DM Aplicaciones e Industrias Demo IBM SPSS Modeler 14

2010 IBM Corporation

Business Analytics software

Qu no es Minera de Datos?

Triturar datos por la fuerza bruta Aplicacin ciega de algoritmos Intentar encontrar relaciones donde no existen Presentar datos en diferentes formatos Una tarea que demande recursos intensos de base de datos Una tecnologa difcil de comprender que necesite de un avanzado conocimiento de informtica
2010 IBM Corporation

Business Analytics software

Minera de Datos es

Una palabra de moda para tcnicas que encuentran patrones de datos Un proceso interactivo orientado al usuario que utiliza conjuntamente tecnologas anliticas con potencia computacional Un grupo de tcnicas que encuentran relaciones que no haban sido encontradas previamente No dependiente de una base de datos existente Una tarea relativamente sencilla que requiere de conocimiento del problema/asunto/negocio
2010 IBM Corporation

Business Analytics software

Minera de Datos vs. Anlisis Estadstico

Minera de Datos
Menos interesado en los mecanismos de cada tcnica No necesita de asunciones hechas sobre los datos Puede encontrar patrones en cantidades enormes de datos Necesita comprensin y conocimiento de los datos y de los problemas tratados

Anlisis Estadstico
Pruebas sobre validez de modelos Pruebas de hiptesis
Es la relacin significativa?

Normalmente se basa en muestras seleccionadas Las tcnicas no estn optimizadas para grandes cantidades de informacin

2010 IBM Corporation

Business Analytics software

Agenda

Minera de Datos y Anlisis Predictivo Qu es y qu no es Minera de Datos? Proceso estndar: CRISP-DM Aplicaciones e Industrias Demo IBM SPSS Modeler 14

13

2010 IBM Corporation

Business Analytics software

Preguntas clave sobre Minera de Datos

Cul es el problema fundamental que se quiere resolver? Qu fuentes de datos estn disponibles y qu partes de las mismas son relevantes al problema actual? Qu tipo de preprocesamiento y limpieza de la informacin se necesita hacer antes de comenzar el proceso de minera? Qu tcnica de Minera de Datos va a usar? Cmo va a evaluar los resultados de su anlisis de Minera de Datos? De qu manera va a sacar el mayor provecho de la informacin que obtenga del proceso de Minera de Datos?
14 2010 IBM Corporation

Business Analytics software

Proceso CRISP-DM

15

2010 IBM Corporation

Business Analytics software

Estrategia para la Minera de Datos: Metodologa CRISP-DM


www.crisp-dm.org. 6 fases:

1.

Comprensin del Problema


Determinar los objetivos globales Evaluar la situacin actual Elaborar un plan de desarrollo

2. 3.

Comprensin de los Datos (Recoleccin, Descripcin, Exploracin y Valoracin) Preparacin de la informacin


Extraer los datos de diferentes fuentes Fundir varias tablas de datos en una sola Combinar datos de distintas fuentes Identificar datos perdidos, anmalos o valores Seleccionar los datos de inters Reestructurar los datos en el formato requerido Transformar los datos en otros nuevos Selecin de las tcnicas de modelizaje Determinacin de los diseos de prueba Construccin y validez de los modelos

4.

Modelado

5. 6.
16

Evaluacin (Resultados, Revisin del proceso, Prximos pasos) Explotacin (Uso del modelo, Informe final, Revisin del proyecto)
2010 IBM Corporation

Business Analytics software

Agenda

Minera de Datos y Anlisis Predictivo Qu es y qu no es Minera de Datos? Proceso estndar: CRISP-DM Aplicaciones e Industrias Demo IBM SPSS Modeler 14

17

2010 IBM Corporation

Business Analytics software

20 Aplicaciones posibles

1. Optimizacin de campaas de marketing sobre varios productos y canales 2. Modelizacin de marcha de empleados en empresas 3. Identificacin de estudiantes en riesgo en colegios 4. Compaa que descubre las mejores pelculas para los clientes, basndose en sus elecciones anteriores 5. Deteccin de Riesgo de fraude en reclamacin de seguros de automviles

18

2010 IBM Corporation

Business Analytics software

20 Aplicaciones posibles

6. Anlisis de navegacin de pginas web para detectar caminos habituales: cul es el prximo enlace ms probable? 7. Anlisis de delitos y comportamientos violentos, con grabaciones de actividad en Internet y telfono por la Polica, para detectar amenazas criminales 8. Administracin de Categoras en Hipermercados: encontrar la mejor localizacin para productos en los lineales 9. Anlisis y planificacin de Promociones: caractersticas de clientes ms proclives a responder a futuros mailings 10. Clasificacin correcta de tumores cerebrales en nios
19 2010 IBM Corporation

Business Analytics software

20 Aplicaciones posibles

11. Optimizacin de contratacin de personal en empresas 12. Prediccin e identificacin de la conducta y gasto de un consumidor durante un perodo de tiempo tras el cual deja de comprar en una cadena 13. Quines son los 10 clientes que me ofrecen el mayor potencial de beneficio? 14. Deteccin de anomalas en el comportamiento online de usuarios para predecir futuros delitos electrnicos. Complementado con el anlisis de conductas en redes sociales 15. Detectar actividad fraudulenta en el uso de tarjetas de crdito
20 2010 IBM Corporation

Business Analytics software

20 Aplicaciones posibles

16. Deteccin del momento preciso en que un cliente abandonar o cambiar de proveedor telefnico 17. Anlisis de reclamaciones de garanta de productos 18. Prediccin de componentes que fallarn para abastecerse a tiempo de los recambios: prediccin del siguiente problema 19. Anlisis de texto para mejora de las presentaciones realizadas por farmacuticas a mdicos: caractersticas comunes a mdicos que mejor responden a ofertas de farmacuticas 20. Predecir con cierta probabilidad un espacio temporal en el que podra producirse un paro cardaco en aquellos sujetos con enfermedad del corazn
21 2010 IBM Corporation

Business Analytics software

Aplicaciones e Industrias

Servicios Financieros
- Contratacin - Retencin - Cross-sell y Up-sell - Fraude

Minera de Datos
- Fraude - Recaudacin - Satisfaccin ciudadano

Sector Pblico
2010 IBM Corporation

Business Analytics software

Qu tnicas estn disponibles en IBM SPSS Modeler?

Segmentacin (K-medias, Kohonen, Bietpico, Anomala) Asociacin (A priori, GRI, CARMA, Anlisis de Secuencia) Clasificacin (Factorial, Discriminante, Red Neuronal, C5.0, GLM,
Mquinas de Vectores de Soporte, Redes Bayesianas, Modelos de auto aprendizaje, Vecino ms prximo, rboles, Listas de Decisin, Seleccin de caractersticas)

Prediccin (Regresin Lineal, Series Temporales, Regresin de Cox,


Regresin Logstica

Automticos (Auto numrico, Auto clasificador, Auto Agrupacin,


Modelizador ARIMA automtico)

23

2010 IBM Corporation

Business Analytics software

Agenda

Minera de Datos y Anlisis Predictivo Qu es y qu no es Minera de Datos? Proceso estndar: CRISP-DM Aplicaciones e Industrias Demo IBM SPSS Modeler 14

24

2010 IBM Corporation

Business Analytics software

Portfolio IBM SPSS

IBM SPSS Statistics (SPSS) IBM SPSS Data Collection (Dimensions) IBM SPSS Modeler (Clementine) IBM SPSS Decision Management (PES)

25

2010 IBM Corporation

Business Analytics software

IBM SPSS Modeler 14


Visualizacin

Rutas, Resultados, Modelos Acceso a los datos Modelado Transformacin Distribucin Proyecto Evaluacin

Nodos
26 2010 IBM Corporation

Business Analytics software

Preguntas?

alvaro.mendez@es.ibm.com

27

2010 IBM Corporation