Académique Documents
Professionnel Documents
Culture Documents
QUE
PRESENTA
1. INTRODUCCIN
La minera de datos es un conjunto de tcnicas de anlisis de datos que nos
permite, extraer patrones, tendencias, regularidades para describir y comprender
los datos, pero tambin nos apoya para predecir comportamientos futuros.
Podemos decir que la minera de datos convierte informacin en conocimiento.
Debido al gran volumen de datos el anlisis ya no se puede realizar de una forma
manual, si no que ahora se realiza de manera semi- automtico, es por esta razn
que la minera de datos se diferencia de otras herramientas, en el sentido de que
nos transforma y facilita el acceso a la informacin para ser analizada
sencillamente.
El proceso de la minera datos consta de varias fases: preparacin de datos
(seleccin, limpieza y transformacin), minera de datos evaluacin difusin y uso
de modelos.
Existen tcnicas que integran a la minera de datos las cuales se pueden clasificar
por su propsito general: modelos descriptivos y modelos predictivos, dentro de
estas las tcnicas tambin pueden ser; arboles de decisin, redes neuronales,
regresin lineal, tcnicas bayesianas, mquinas de soporte vectorial etc. La
minera de datos tambin tiene una tipologa de problemas: clasificacin,
categorizacin, estimacin, regresin y agrupamiento.
La cantidad excesiva de documentos en lenguaje natural disponibles en formato
electrnico hace imposible su anlisis. Una solucin propuesta a este problema
son los sistemas de extraccin de informacin, los cuales permite estructurar
datos relevantes a un dominio especfico en los documentos [4].
La extraccin de informacin incluye aquellos algoritmos, mtodos y procesos
centrados en la identificacin de informacin dentro de un texto. La posibilidad de
localizar determinados elementos dentro del texto facilitar la representacin de su
contenido semntico. La extraccin de informacin incorporara cuatro procesos
que proporcionan distintos datos de un texto de esta manera se facilitan su
interpretacin: Identificacin de estructuras, Identificacin de palabras clave,
Reconocimiento de entidades con nombre y Elaboracin de resmenes.
Para el proyecto que se realiza nos enfocaremos en la extraccin de palabras
claves.
Identificacin de palabras clave. Aparte de reconocer estructuras, es importante
determinar de forma automtica qu palabras de un texto resultan ms adecuadas
1.2 Objetivos
Para cumplir con tal objetivo, se expone una herramienta (weka) para
realizar el anlisis con minera de datos de las mejores tcnicas, que sean
compatibles y que generen una mejora al proceso de extraccin de palabras
claves.
1.3 Hiptesis
En los estudios cualitativos, la hiptesis se genera durante el proceso de trabajo,
que afina paulatinamente conforme se recaban ms datos, o la hiptesis son uno
de los resultados del estudio. Las hiptesis se modificaran sobre la base de los
razonamientos del investigador, y desde luego no se prueban estadsticamente
[21].
Analizar y probar las tcnicas que ya existen de esta manera poder determinar
que tcnicas son compatibles, y realizar una combinacin de ellas logrando un
nuevo mtodo hibrido, que nos ayude a la extraccin de palabras claves de un
texto.
1.4 Entregables
Se entregara una metodologa hibrida para la extraccin de palabras claves.
Una metodologa es el conjunto de pasos y procedimientos que deben seguirse
para el desarrollo de un sistema [18].
Para hibrido, se dice de todo lo que es producto de elementos de distinta
naturaleza [23].
1.5 Requerimientos
1.6 Alcance
El mtodo hibrido solo proporcionara un apoyo a la extraccin de palabras claves.
Sera probado en el repositorio Cast3lb, para comprobar la hiptesis.
2. Marco terico
Se define la minera de datos como el proceso de extraer conocimiento til y
comprensible, previamente desconocido, desde grandes cantidades de datos
almacenados en distintos formatos [7].
La minera de datos es solo una etapa del proceso de extraccin de conocimiento
a partir de datos [2].
Otra definicin, los mtodos hibrido son mtodos de aprendizaje formados a partir
de componentes de otros mtodos de aprendizaje. Los mtodos hbridos buscan
combinar varios mtodos de aprendizaje [1].
Se debe tomar en cuenta que la calidad del mtodo combinado depende de la
precisin y diversidad de los componentes del conjuntos [10]. Tambin tomemos
en cuenta que la mayora de las investigaciones y mtodos desarrollados estn
enfocados principalmente para modelos predictivos (clasificacin y regresin) [1].
Algunos mtodos usados combinan tcnicas de visualizacin, induccin, redes
neuronales y sistemas basados en reglas para llevar a cabo el descubrimiento de
conocimiento deseado [9].
ACTIVIDADES
A medida que la importancia del software ha crecido, la Ingeniera de Software ha
intentado desarrollar tecnologas que faciliten y disminuyan el tiempo y costo de
construccin y mantenimiento de software; entre las cuales se pueden mencionar
a las metodologas como una aportacin que ha simplificado la labor no trivial de
desarrollo de software [19].
El desarrollo del presente proyectos se encuentra basado en una metodologa
gil.
Los mtodos agiles nacen entre los aos 80 y principios de los 90, donde exista
una opinin general de que la mejor forma de obtener un mejor software era a
travs de una planificacin cuidadosa del proyecto [17]. De los diferentes tipos de
metodologa gil se ha seleccionado la XP.
La Programacin Extrema (XP) es posiblemente el mtodo gil ms conocido y
ampliamente utilizado. El nombre fue acuado por Kent Beck, debido a que el
enfoque fue desarrollado utilizando buenas prcticas reconocidas, como el
desarrollo iterativo y con la participacin del cliente en niveles extremos [17].
XP
se
diferencia de las metodologas tradicionales principalmente en que pone ms
nfasis en la adaptabilidad que en la previsibilidad; considera que los cambios de
requisitos sobre la marcha son un aspecto natural, inevitable e incluso deseable
del desarrollo de proyectos [19].
En base a todas las ventajas que presentan las metodologas agiles, en particular
la XP, se utilizara para el desarrollo de este proyecto. La metodologa XP consta
de las siguientes etapas:
1. Planeacin
Es la etapa inicial de todo proyecto en XP. En este punto se comienza a
interactuar con el cliente y el resto del grupo de desarrollo para descubrir los
requerimientos del sistema. En este punto se identifica el nmero y tamao de las
iteraciones al igual que se plantean ajustes necesarios a la metodologa segn las
caractersticas del proyecto [20].
2. Diseo
En XP se enfoca en un diseo simple, proporciona al usuario un sistema que
cubra las necesidades inmediatas del cliente, ni ms ni menos. Este proceso
permite eliminar redundancias y rejuvenecer los diseos obsoletos [19].
3. Codificacin
Proceso que se realiza en forma paralela con el diseo y la cual est sujeta a
varias observaciones por parte de XP consideradas controversiales por algunos
CRONOGRAMA DE ACTIVIDADES
REFERENCIAS
[1] J. Hernndez Orallo, Introduccin a la minera de datos., Ed. Pearson, Prentice Hall, Madrid
2004, 680 p.
[2] C. Prez Lpez and D. Satn Gonzlez, Minera de Datos, Tcnicas y Herramientas. Thomson
Ediciones, 2008, 775 p.
[3] A. Romero Rodrguez, Extraccin de informacin Semntica a Partir de Categora de Texto.,
Universidad Nacional de Colombia, 4 p., Bogot Colombia.
[4] A. Tllez Valero, Extraccin de Informacin con Algoritmos de Clasificacin. Tesis M en C.C,
Instituto Nacional de Astrofsica ptica y Electrnica, Tonantzintlan, Puebla 2005, 87 p.
[5] M. A. Torres Cardona, P. Pez Crdenas, C. A. Martinez Rivera, J. E. Rodrguez Rodrguez,
Algoritmos para la bsqueda de texto, Universidad Distrital Francisco Jos de Caldas, Bogot
Colombia, 6 p.
[6] M. Vallez, Keyword Research: mtodos y herramientas pa identificar palabras claves.,
Departamento de Comunicacin, Universidad Pompeu Fabra, 18 p.
[7] I. H. Witten, E. Frank, Data Mining: practical machine learning tools and techniques, Elsevier,
2005 558 p.
[8] Berry y Linoff: Data Mining Techniques. Wiley, 1997
[9] M. I. Kubski Minera de datos, Universidad Nacional del Nordeste, Argentina 2004, 64 p.
[10] Hansen L.K.; Salamon P. Neural Network Ensembles IEEE Transactions on Pattern Analysis
and Machine Intelligence, Vol. 12(10), pp 993-1001, 1990.
[11] A. Casali, C. Deco, C. Bender, S. Fontanarrosa, C. Sabater, Asistente para el depsito de
objetos en repositorios con extraccin automtica de metadatos Universidad Pblica, Argentina pp
133- 136.
[12] A. Olivera, Extraccin de informacin de un corps de Artculos. 6 p.
[13] M. Vallez, C. Rovira, L. Codina, R. Pedraza, Procedimientos para la extraccin de palabras
claves web basadas en criterios de posicionamiento en buscadores., Universidad Pompeu Fabra
11 p.
[14] A. M. Martnez Tamayo, Extraccin de palabras claves de la tabla de contenido e ndices
analticos: una tcnica rpida para la indizacin de monografas en bibliotecas especializadas.,
Universidad Nacional de la Plata, Buenos Aires 2008, 11 p.
[15] X. Gmez Guinovart, E. Sacau Fontenla, Mtodos de optimizacin de la extraccin de lxico
bilinge a partir de corpus paralelo., Universidad de Vigo, 8 p.
[16] B. Gil Urdiciain, R. Snchez Jimnez, Tcnicas de recuperacin de informacin aplicadas a la
construccin de tesauros., Universidad Complutense de Madrid, Madrid Espaa 2013, pp 19-26.
[17] I. Sommerville, Ingeniera de software., Pearson Educacin S.A., Madrid 2005, 712 p.
[18] Sommerville, Software Engineering., Prentice Hall, 2009.
[19] M. Jimnez Hernndez, META, Una metodologa hibrida para el desarrollo de software web
propuesta para las empresas de software en Mxico. Tesis M en C.C, Instituto Politcnico
Nacional, Mxico DF 2012, 122 p.