Vous êtes sur la page 1sur 22

DataMining

Agenda
Proceso de Extraccin de Conocimiento
Minera de Datos - Data Mining
Conceptos e Historia
Los Fundamentos del Data Mining
Principales caractersticas y objetivos de la Minera de Datos
El alcance de Data Mining
Una arquitectura para Data Mining

Fases de un Proyecto de MD
Filtrado de datos
Seleccin de variables
Algoritmos de Extraccin de Conocimiento
Interpretacin y evaluacin
Aplicaciones de Uso
En el Gobierno
En la Empresa
En la Universidad
En Investigaciones Espaciales
En los Clubes Deportivos

CONCLUSINES

Proceso de
Extracin del
Conocimiento
En los ltimos aos, ha existido un gran crecimiento
en nuestras capacidades de generar y colectar datos,
debido bsicamente al gran poder de procesamiento de
las mquinas como a su bajo costo de almacenamiento.

Minera de Datos Data Mining


Conceptos e historia
Una definicin tradicional es la siguiente: Un proceso no
trivial de identificacin vlida, novedosa, potencialmente til y
entendible de patrones comprensibles que se encuentran
ocultos en los datos (Fayyad y otros, 1996).
El data mining es una tecnologa compuesta por etapas que
integra varias reas y que no se debe confundir con un gran
software. Rene las ventajas de varias reas como la
Estadstica, la Inteligencia Artificial, la Computacin Grfica, las
Bases de Datos y el Procesamiento Masivo, principalmente
usando como materia prima las bases de datos.
4

Fundamentos del Data Mining


Las tcnicas de Data Mining son el resultado de un
largo proceso de investigacin y desarrollo de
productos
Data Mining est listo para su aplicacin en la
comunidad de negocios porque est soportado por tres
tecnologas que ya estn suficientemente maduras:
1.- Recoleccin masiva de datos.
2.- Potentes computadoras con multiprocesadores.
3.- Algoritmos de Data Mining.
5

Principales caractersticas y
objetivos
1.- Explorar los datos que se encuentran en las profundidades de las bases de datos.
2.- Los datos se consolidan en un almacn de datos y en mercados de datos; en otros, se
mantienen en servidores de Internet e Intranet.
3.- El entorno de la minera de datos.
4.- Las herramientas de la minera de datos
5.- El minero
6.- Hurgar y sacudir a menudo implica el descubrimiento de resultados valiosos e inesperados.
7.- Las herramientas de la minera de datos se combinan fcilmente y pueden analizarse y
procesarse rpidamente.
8.- La minera de datos produce cinco tipos de informacin:
* Asociaciones. * Secuencias. * Clasificaciones. * Agrupamientos. Pronsticos.

Alcance de Data
Mining
El nombre de Data Mining deriva de las similitudes
entre buscar valiosa informacin de negocios en grandes
bases de datos
Dadas bases de datos de suficiente tamao y calidad,
la tecnologa de Data Mining puede generar nuevas
oportunidades de negocios al proveer estas capacidades:
1.-Prediccin
automatizada
comportamientos.

de

tendencias

2.-Descubrimiento automatizado de modelos previamente


desconocidos.
7

Arquitectura para Data


Mining
Para aplicar mejor estas tcnicas avanzadas Data Mining,
stas deben estar totalmente integradas con el data
warehouse as como con herramientas flexibles e
interactivas para el anlisis de negocios.
El Data warehouse analtico resultante puede ser aplicado
para mejorar procesos de negocios en toda la organizacin,
en reas tales como manejo de campaas promocionales,
deteccin de fraudes, lanzamiento de nuevos productos, etc.
El punto de inicio ideal es un data warehouse que
contenga una combinacin de datos de seguimiento interno
de todos los clientes junto con datos externos de mercado
acerca de la actividad de los competidores.
8

Fases de un Proyecto de MD
Los pasos a seguir para la realizacin de un proyecto de minera de
datos son siempre los mismos, independientemente de la tcnica
especfica de extraccin de conocimiento usada.
El proceso de minera de datos pasa por las siguientes fases:
*
*
*
*

Filtrado de datos.
Seleccin de Variables.
Extraccin de Conocimiento.
Interpretacin y Evaluacin.

Filtrado de Datos
El formato de los datos contenidos en la fuente
de datos, nunca es el idneo, y la mayora de las
veces no es posible ni siquiera utilizar ningn
algoritmo de minera sobre los datos en bruto.
Mediante el preprocesado, se filtran los datos,
se obtienen muestras de los mismos, o incluso se
reducen el nmero de valores posibles.
10

Seleccin de
Variables
La seleccin de caractersticas reduce el tamao de los datos
eligiendo las variables ms influyentes en el problema, sin
apenas sacrificar la calidad del modelo de conocimiento
obtenido del proceso de minera.
Los mtodos para
bsicamente dos:

la

seleccin

de

caractersticas

son

1.- Aquellos basados en la eleccin de los mejores atributos del


problema.
2.-Aquellos que buscan variables independientes mediante tests
de sensibilidad, algoritmos de distancia o heursticos.
11

Algoritmos de Extraccin de
Conocimineto
Mediante una tcnica de minera de datos, se
obtiene un modelo de conocimiento, que representa
patrones de comportamiento observados en los valores
de las variables del problema o relaciones de
asociacin entre dichas variables.
De igual manera pueden usarse varias tcnicas a la
vez para generar distintos modelos, aunque
generalmente cada tcnica obliga a un preprocesado
diferente de los datos.
12

Interpretacin y Evaluacin
Una vez obtenido el modelo, se debe
proceder a su validacin, comprobando que
las conclusiones que arroja son vlidas y
suficientemente satisfactorias.
En el caso de haber obtenido varios
modelos mediante el uso de distintas
tcnicas, se deben comparar los modelos en
busca de aquel que se ajuste mejor al
problema.

13

Aplicaciones de Uso
Cada ao el data mining se ha ido
incorporando a la vida de empresas,
gobiernos,
universidades,
hospitales
y
diversas organizaciones que estn interesadas
en explorar sus bases de datos y sacar
provecho de ellas.

14

En el Gobierno
El FBI analizar las bases de datos
comerciales para detectar terroristas.
A principios del mes de julio de 2002, el
director del Federal Bureau of Investigation (FBI),
John Aschcroft, anunci que el Departamento de
Justicia comenzar a introducirse en la vasta
cantidad de datos comerciales referentes a los
hbitos y preferencias de compra de los
consumidores, con el fin de descubrir potenciales
terroristas antes de que ejecuten una accin.
15

En la Empresa
Deteccin de fraudes en las tarjetas de
crdito.
En 2001, las instituciones financieras a
escala mundial perdieron ms de 2.000
millones de dlares estadounidenses en fraudes
con tarjetas de crdito y dbito. El Falcon Fraud
Manager es un sistema inteligente que examina
transacciones, propietarios de tarjetas y datos
financieros para detectar y mitigar fraudes.
16

En la Empresa
Hbitos de compra en supermercados.
Un estudio muy citado detect que los viernes
haba una cantidad inusualmente elevada de clientes
que adquiran a la vez paales y cerveza.
Prediciendo el tamao de las audiencias
televisivas.
La British Broadcasting Corporation (BBC) del Reino
Unido emplea un sistema para predecir el tamao de
las audiencias televisivas para un programa
propuesto, as como el tiempo ptimo de exhibicin.
17

En la Universidad
Conociendo si los recin titulados de una
universidad
llevan
a
cabo
actividades
profesionales relacionadas con sus estudios.
Se hizo un estudio sobre los recin titulados de la
carrera de Ingeniera en Sistemas Computacionales
del Instituto Tecnolgico de Chihuahua II, en Mjico
(Rodas, 2001). Se quera observar si sus recin
titulados se insertaban en actividades profesionales
relacionadas con sus estudios y, en caso negativo, se
buscaba saber el perfil que caracteriz a los
exalumnos durante su estancia en la universidad.
18

En Investigaciones Espaciales
Proyecto SKYCAT.
El sistema Sky Image Cataloguing and
Analysis Tool (SKYCAT) se basa en tcnicas de
agrupacin (clustering) y rboles de decisin
para poder clasificar los objetos en estrellas,
planetas, sistemas, galaxias, etc. con una alta
confiabilidad .

19

En los Clubes Deportivos


Los equipos de la NBA utilizan
aplicaciones inteligentes para apoyar a
su cuerpo de entrenadores.
El Advanced Scout es un software que
emplea tcnicas de data mining y que han
desarrollado investigadores de IBM para
detectar patrones estadsticos y eventos
raros.

20

Conclusiones
1.
2.
3.
4.

5.
6.
7.

El Data Mining es una tcnica de extraccin de informacin


valiosa.
El Data Mining no se debe confundir con un software,
aunque integre varias reas.
En el Data Mining se busca que de los datos emerjan
hiptesis.
El Data Mining requiere tecnologa adecuada y una buena
organizacin de los datos para garantizar su ptimo
desempeo.
El usuario del Data Mining puede tener o no un alto
conocimiento de programacin para aplicar esta tcnica.
El Data Mining y los Almacenes de Datos estn fuertemente
relacionados, en lo que arquitectura se refiere.
Segn el objetivo del anlisis de los datos, los algoritmos
utilizados se clasifican en supervisados y no supervisados.

21

Preguntas?

22

Vous aimerez peut-être aussi