Vous êtes sur la page 1sur 19

Academia Rusa de economia nacional bajo del Presidente de Rusia Universidad Autnoma de Barcelona

Mineria de Datos y Mineria de Textos (informacin general)

Dr. Mikhail Alexandrov Profesor visitante

Moquegua 2011

Objeto de consideracin

Datos estructurados

Datos en una forma libre

Objeto de consideracin

Ejemplo (Minera de Datos)

Resultados de votacin en el Consejo de deputados de Mosc: filas = deputados; columnas = questiones; celdas = Si/No/Neutral

Ejemplo (Mineria de Textos)

Dilogos parameterizados: violeto = importancia de la ciudad amarillo = nivel de urgencia, etc. Una muestra de dilogos, grabados en el terminal central de trenes de Barcelona Totalmente hay 200 dialogos (catalan, espaol) Que se puede encontrar en este conjunto?

Terminologa
Sinnimos
Mineria de Datos Descubrimiento de Conocimientos Aprendizaje de Maquina Data Mining Knowledge Discovery Machine Learning

Area nueva
Hay: ciencias naturales, ciencias tcnicas, ciencias de vida Ahora se forma una nueva area Data Sciences = { Preprocessing, Data Mining, ......... } Ciencias sobre Datos = { Preprocamiento, Mineria de Datos,.. }

Definicin
Definicin (Piatetski-Shapiro) MD es un proceso de revelacin (deteccin, extraccin ) en datos crudos los conocimientos necesarios para toma de decisiones en diferentes areas de actividad humana y los cuales son anteriormente desconocidos non-triviales practicamente tiles accesibles para interpretacin [G. Piatetsky-Shapiro, Knowledge Stream Partners]

Historia
Hasta 90s
Estadstica aplicada nos satisfacia por sus funciones: - Transformacin de datos para usar herramientas de estadstica - Descripcin generalizada de datos y prueba de hiptesis

Challenge de tiempo - Datos tienen un gran volumen - Datos no son uniformes por su tipo(numerosos, cuantitativos, etc.) - Herramientas deben ser simples para usuarios - Resultados deben ser facilmente interpretados

Historia
Despues de 90s

Estadstica matemtica tradicional que pretendia que ser una herramienta principal para anlisis de datos result insolvente Y por eso despues de 90s
Se forma Mineria de Datos a la cual ayudaron mucho los metodos y tecnologias de Inteligencia Artificial

Nota. Inteligencia Artificial = modelacin de tales gneros de actividad humana que se considera como una actividad intelectual

Historia
Concepcin de enfoque estadtistico

Es la concepcin de promediar un muestreo que reduce a procesamiento de valores ficticios (la temperatura promedia en un hospital, la altura promedia de edificios en una calle donde hay palacios y barracas, etc.)
OLAP Mtodos de estadstica matemtica fueron utiles para prueba de hipteses anteriormente formuladas que es una base para asi-llamado OLAP = On-Line Analitical Processing OLAP es un otro enfoque moderno a anlisis de datos

Historia
Concepcin de enfoque de Mineria de Datos

es la concepcin de patrones que reflejan varios aspectos (partes) de interelaciones multidimencionales en datos

Patrones
Patrones son regularidades que - son inmanentes inmanentes a muestreos de datos - pueden ser presentados en una forma comprensible a humano

Busqueda de patrones
Caracterstica de busqueda de patrones

A. Mtodos que se usan para bsqueda de patrones - pueden tener en cuenta una informacin sobre la estuctura de muestreo y el tipo de dstribucin (ley) de parametros que se analizan - pueden no tener en cuenta ninguna informacin a priori !! (ya que no existe!)
B. Patrones que se buscan no deben ser triviales! Es decir estos patrones deben reflejar algunas regularidades in-expectados que reflejan conocimientos ocultos !!

Mineria de Datos vs OLAP (no hay info a priori)


Preguntas a Data Mining
a) Hay algunos stereotipos para descripcin de personas los cuales son propensos a traumatizmo ? b) Hay algunas esquemas tipicas de compras para los casos de fraude con credit-cards ? Preguntas a OLAP

a) Cuales son valores promedios de parametros de traumatizmo para fumadores y no-fumadores ? b) Cual es valor promedio para
compras diarias usando credit-cards robados y normales?

Tecnologa Discovery-driven Data Mining

Technology

Verification-driven Data Mining

Mineria de Datos vs OLAP (conocimientos ocultos) Tecnologas


De ariba por abajo

Niveles de conocimientos que se extraen desde los datos

Herramientas analticas

<=

<=

De abajo por ariba

<=

Ejemplo (Minera de Datos)


Conocimiento nuevo Hay deputados que: - ahora pertenece a partidas diferentes - tienen el pasado comun (en la poca de socializmo) Por eso es muy posible tener coaliciones de deputados quienes perteneces a diferentes partidas

Resultados de votacin en el Consejo de deputados de Mosc: filas = deputados columnas = questiones celdas = Si/No/Neutral

Nota. Es el ejemplo de Dr. Pavel Makagonov (UTM, Mexico)

Ejemplo (Mineria de Textos)


Conocimientos nuevos Hay dos grupos principales - Pasajeros quienes van a ciudades pequeas y locales (ida, sin cochecama, platica breve) - Pasajeros quienes van a ciudades medias y grandes (sin urgencia, ida y vuelta, viaje por la noche con coche-cama, platica bastante larga) Entonces un contestador automtico debe tener en cuenta estas circunstancias

Una muestra de dilogos, grabados en el terminal central de trenes de Barcelona, Espaya

Nota. Es el ejemplo de Dr. Paolo Rosso (UPV, Espaya)

Mineria de Datos muy malos


Definicin de datos muy malos ( Ian Davidson, Xinghuan Zhu) Nota. De Baja calidad = muy malos Tenemos datos muy malos cuando ellos son crudos y ademas 1. Son non-completos Ejemplo: muchos objetos tienen parametros perdidos 2. Son contradictorios Ejemplo: hay objetos con parametros a casi iguales que pertenecen a diferentes clases 3. Son mal integrados Ejemplo: parametros que pertenecen a diferentes escalas en diferentes intervalos de tiempo

Enfoques Principales en Mineria de Datos


Agrupamiento de Datos - Clustering - Clasificacin - Semi-supervised learning

Bsqueda de relaciones lgicas en Datos - Revelacin de factores - Construccin de reglas

Modelacin inductiva - Recuperacin de un modelo por datos de observacin

Academia Rusa de economia nacional bajo del Presidente de Rusia Universidad Autnoma de Barcelona

Final de Introduccin

Contactos: Mikhail Alexandrov MAlexandrov@ mail.ru MAlexandrov.UAB@ gmail.com Tel. (54) 605630 ext. 362

Vous aimerez peut-être aussi