Académique Documents
Professionnel Documents
Culture Documents
Agenda
Proceso de Extraccin de Conocimiento
Minera de Datos - Data Mining
Conceptos e Historia
Los Fundamentos del Data Mining
Principales caractersticas y objetivos de la Minera de Datos
El alcance de Data Mining
Una arquitectura para Data Mining
Fases de un Proyecto de MD
Filtrado de datos
Seleccin de variables
Algoritmos de Extraccin de Conocimiento
Interpretacin y evaluacin
Aplicaciones de Uso
En el Gobierno
En la Empresa
En la Universidad
En Investigaciones Espaciales
En los Clubes Deportivos
CONCLUSINES
Proceso de
Extracin del
Conocimiento
En los ltimos aos, ha existido un gran crecimiento
en nuestras capacidades de generar y colectar datos,
debido bsicamente al gran poder de procesamiento de
las mquinas como a su bajo costo de almacenamiento.
Principales caractersticas y
objetivos
1.- Explorar los datos que se encuentran en las profundidades de las bases de datos.
2.- Los datos se consolidan en un almacn de datos y en mercados de datos; en otros, se
mantienen en servidores de Internet e Intranet.
3.- El entorno de la minera de datos.
4.- Las herramientas de la minera de datos
5.- El minero
6.- Hurgar y sacudir a menudo implica el descubrimiento de resultados valiosos e inesperados.
7.- Las herramientas de la minera de datos se combinan fcilmente y pueden analizarse y
procesarse rpidamente.
8.- La minera de datos produce cinco tipos de informacin:
* Asociaciones. * Secuencias. * Clasificaciones. * Agrupamientos. Pronsticos.
Alcance de Data
Mining
El nombre de Data Mining deriva de las similitudes
entre buscar valiosa informacin de negocios en grandes
bases de datos
Dadas bases de datos de suficiente tamao y calidad,
la tecnologa de Data Mining puede generar nuevas
oportunidades de negocios al proveer estas capacidades:
1.-Prediccin
automatizada
comportamientos.
de
tendencias
Fases de un Proyecto de MD
Los pasos a seguir para la realizacin de un proyecto de minera de
datos son siempre los mismos, independientemente de la tcnica
especfica de extraccin de conocimiento usada.
El proceso de minera de datos pasa por las siguientes fases:
*
*
*
*
Filtrado de datos.
Seleccin de Variables.
Extraccin de Conocimiento.
Interpretacin y Evaluacin.
Filtrado de Datos
El formato de los datos contenidos en la fuente
de datos, nunca es el idneo, y la mayora de las
veces no es posible ni siquiera utilizar ningn
algoritmo de minera sobre los datos en bruto.
Mediante el preprocesado, se filtran los datos,
se obtienen muestras de los mismos, o incluso se
reducen el nmero de valores posibles.
10
Seleccin de
Variables
La seleccin de caractersticas reduce el tamao de los datos
eligiendo las variables ms influyentes en el problema, sin
apenas sacrificar la calidad del modelo de conocimiento
obtenido del proceso de minera.
Los mtodos para
bsicamente dos:
la
seleccin
de
caractersticas
son
Algoritmos de Extraccin de
Conocimineto
Mediante una tcnica de minera de datos, se
obtiene un modelo de conocimiento, que representa
patrones de comportamiento observados en los valores
de las variables del problema o relaciones de
asociacin entre dichas variables.
De igual manera pueden usarse varias tcnicas a la
vez para generar distintos modelos, aunque
generalmente cada tcnica obliga a un preprocesado
diferente de los datos.
12
Interpretacin y Evaluacin
Una vez obtenido el modelo, se debe
proceder a su validacin, comprobando que
las conclusiones que arroja son vlidas y
suficientemente satisfactorias.
En el caso de haber obtenido varios
modelos mediante el uso de distintas
tcnicas, se deben comparar los modelos en
busca de aquel que se ajuste mejor al
problema.
13
Aplicaciones de Uso
Cada ao el data mining se ha ido
incorporando a la vida de empresas,
gobiernos,
universidades,
hospitales
y
diversas organizaciones que estn interesadas
en explorar sus bases de datos y sacar
provecho de ellas.
14
En el Gobierno
El FBI analizar las bases de datos
comerciales para detectar terroristas.
A principios del mes de julio de 2002, el
director del Federal Bureau of Investigation (FBI),
John Aschcroft, anunci que el Departamento de
Justicia comenzar a introducirse en la vasta
cantidad de datos comerciales referentes a los
hbitos y preferencias de compra de los
consumidores, con el fin de descubrir potenciales
terroristas antes de que ejecuten una accin.
15
En la Empresa
Deteccin de fraudes en las tarjetas de
crdito.
En 2001, las instituciones financieras a
escala mundial perdieron ms de 2.000
millones de dlares estadounidenses en fraudes
con tarjetas de crdito y dbito. El Falcon Fraud
Manager es un sistema inteligente que examina
transacciones, propietarios de tarjetas y datos
financieros para detectar y mitigar fraudes.
16
En la Empresa
Hbitos de compra en supermercados.
Un estudio muy citado detect que los viernes
haba una cantidad inusualmente elevada de clientes
que adquiran a la vez paales y cerveza.
Prediciendo el tamao de las audiencias
televisivas.
La British Broadcasting Corporation (BBC) del Reino
Unido emplea un sistema para predecir el tamao de
las audiencias televisivas para un programa
propuesto, as como el tiempo ptimo de exhibicin.
17
En la Universidad
Conociendo si los recin titulados de una
universidad
llevan
a
cabo
actividades
profesionales relacionadas con sus estudios.
Se hizo un estudio sobre los recin titulados de la
carrera de Ingeniera en Sistemas Computacionales
del Instituto Tecnolgico de Chihuahua II, en Mjico
(Rodas, 2001). Se quera observar si sus recin
titulados se insertaban en actividades profesionales
relacionadas con sus estudios y, en caso negativo, se
buscaba saber el perfil que caracteriz a los
exalumnos durante su estancia en la universidad.
18
En Investigaciones Espaciales
Proyecto SKYCAT.
El sistema Sky Image Cataloguing and
Analysis Tool (SKYCAT) se basa en tcnicas de
agrupacin (clustering) y rboles de decisin
para poder clasificar los objetos en estrellas,
planetas, sistemas, galaxias, etc. con una alta
confiabilidad .
19
20
Conclusiones
1.
2.
3.
4.
5.
6.
7.
21
Preguntas?
22