Vous êtes sur la page 1sur 12

UNIVERSIDAD AUTNOMA DEL ESTADO DE MXICO

UNIDAD ACADMICA PROFESIONAL TIANGUISTENCO


INGENIERA EN SOFTWARE

CREACIN DE UN MTODO HIBRIDO PARA LA


EXTRACCIN DE PALABRAS CLAVES

PROYECTO DE METODOLOGA DE LA INVESTIGACIN

QUE

PRESENTA

ESTHER MARITZA GALLEGOS CAMACHO

PROFESOR: DR. JOS LUIS TAPIA FABELA

TIANGUISTENCO, MX. SEPTIEMBRE 2015

1. INTRODUCCIN
La minera de datos es un conjunto de tcnicas de anlisis de datos que nos
permite, extraer patrones, tendencias, regularidades para describir y comprender
los datos, pero tambin nos apoya para predecir comportamientos futuros.
Podemos decir que la minera de datos convierte informacin en conocimiento.
Debido al gran volumen de datos el anlisis ya no se puede realizar de una forma
manual, si no que ahora se realiza de manera semi- automtico, es por esta razn
que la minera de datos se diferencia de otras herramientas, en el sentido de que
nos transforma y facilita el acceso a la informacin para ser analizada
sencillamente.
El proceso de la minera datos consta de varias fases: preparacin de datos
(seleccin, limpieza y transformacin), minera de datos evaluacin difusin y uso
de modelos.
Existen tcnicas que integran a la minera de datos las cuales se pueden clasificar
por su propsito general: modelos descriptivos y modelos predictivos, dentro de
estas las tcnicas tambin pueden ser; arboles de decisin, redes neuronales,
regresin lineal, tcnicas bayesianas, mquinas de soporte vectorial etc. La
minera de datos tambin tiene una tipologa de problemas: clasificacin,
categorizacin, estimacin, regresin y agrupamiento.
La cantidad excesiva de documentos en lenguaje natural disponibles en formato
electrnico hace imposible su anlisis. Una solucin propuesta a este problema
son los sistemas de extraccin de informacin, los cuales permite estructurar
datos relevantes a un dominio especfico en los documentos [4].
La extraccin de informacin incluye aquellos algoritmos, mtodos y procesos
centrados en la identificacin de informacin dentro de un texto. La posibilidad de
localizar determinados elementos dentro del texto facilitar la representacin de su
contenido semntico. La extraccin de informacin incorporara cuatro procesos
que proporcionan distintos datos de un texto de esta manera se facilitan su
interpretacin: Identificacin de estructuras, Identificacin de palabras clave,
Reconocimiento de entidades con nombre y Elaboracin de resmenes.
Para el proyecto que se realiza nos enfocaremos en la extraccin de palabras
claves.
Identificacin de palabras clave. Aparte de reconocer estructuras, es importante
determinar de forma automtica qu palabras de un texto resultan ms adecuadas

para caracterizarlo, es decir, qu palabras deben elegirse como posibles palabras


clave. La correcta combinacin de una palabra en el texto junto con su frecuencia
global, es decir, en la red, es un indicativo de la importancia de esa palabra para
representar al texto completo.
Ahora bien ya presentando el rea de minera de datos para la extraccin de
palabras claves, indagaremos sobre mtodos que podemos aplicar para obtener
los resultados solicitados.
Hablaremos sobre los mtodos Hbridos, que consisten la combinacin de
tcnicas o algoritmos para la creacin de un nuevo mtodo.
Para poder lograr la creacin de un mtodo hibrido se tiene que realizar un
anlisis de todas las tcnicas que existen en minera de datos, para poder
determinar que tcnicas son compatibles y cuales nos proporcionan mejores
resultados, que es lo buscado en este proyecto.
El trabajo se realizara sobre la coleccin de textos cast3lb; estos datos se
procesaran y analizaran con la herramienta WEKA, que nos permitir una
automatizacin sobre los datos.

1.1 Planteamiento de problema

El aumento considerable en la cantidad de informacin que se maneja tanto en


empresas como en personas ha hecho que este volumen de datos enorme sea
difcil de organizar, las herramientas actuales solo proveen un medio de
almacenamiento, pero no se aprovecha el conocimiento contenido en dicha
informacin [3].
Debido a esta masa de datos, como podemos extraer palabras claves con la
implementacin de un mtodo hibrido, o bien la creacin de uno en base a las
tcnicas ya existentes.

1.2 Objetivos

Disear un mtodo, que realice la extraccin de palabras claves a partir de un


texto, basado en las diferentes tcnicas ya propuestas como:
Modelos: Booleano, Probabilstico, Vectorial.
Algoritmos: Bsqueda secuencial, Knuth-Morris-Pratt (KMP), Bayer- MooreHorspool (BMH), rboles de sufijos, Filtrados, Caracteres lejanos, Q-gramas,
Chang y Marr, Rocchio, Redes neuronales.
Tecnologas:
Analizadores
morfolgicos,
Analizadores
Sintcticos
y
Desambiguadores [5].
Realizar la combinacin de diferentes mtodos, para la optimizacin del tiempo y
la calidad de las palabras, unificando las ventajas de cada tcnica en una sola, a
este principio se le conoce como, mtodos hbridos.
Los mtodos hbridos buscan combinar varios mtodos de aprendizaje [1].

1.2.1 Objetivos Especficos

Identificar las necesidades y prcticas de las personas o empresas


que se encuentran actualmente realizan la
extraccin de
informacin, especializado en palabras claves.

Definir un mtodo hibrido que permita una extraccin de palabras


claves ms precisa y confiable que tome en cuenta lo investigado en
el punto anterior.

Lograr la incorporacin de diferentes tcnicas compatibles, para unos


resultados positivos, que hagan crecer el proceso de clasificacin y
extraccin de palabras y no disminuir sus resultados.

Determinar a base de pruebas si el mtodo hibrido definido es


eficientes para la extraccin de palabras claves y si cumplen su
objetivo.

Para cumplir con tal objetivo, se expone una herramienta (weka) para
realizar el anlisis con minera de datos de las mejores tcnicas, que sean
compatibles y que generen una mejora al proceso de extraccin de palabras
claves.

1.3 Hiptesis
En los estudios cualitativos, la hiptesis se genera durante el proceso de trabajo,
que afina paulatinamente conforme se recaban ms datos, o la hiptesis son uno
de los resultados del estudio. Las hiptesis se modificaran sobre la base de los
razonamientos del investigador, y desde luego no se prueban estadsticamente
[21].
Analizar y probar las tcnicas que ya existen de esta manera poder determinar
que tcnicas son compatibles, y realizar una combinacin de ellas logrando un
nuevo mtodo hibrido, que nos ayude a la extraccin de palabras claves de un
texto.

1.4 Entregables
Se entregara una metodologa hibrida para la extraccin de palabras claves.
Una metodologa es el conjunto de pasos y procedimientos que deben seguirse
para el desarrollo de un sistema [18].
Para hibrido, se dice de todo lo que es producto de elementos de distinta
naturaleza [23].

1.5 Requerimientos

El principal requerimiento es una base de datos de texto para poder trabajar


con ella.

La base de datos es una coleccin de datos interrelacionados almacenados


conjuntamente en uno o ms ficheros de computadora [22].

el anlisis de las tcnicas ya propuestas para la extraccin de palabras


claves.

1.6 Alcance
El mtodo hibrido solo proporcionara un apoyo a la extraccin de palabras claves.
Sera probado en el repositorio Cast3lb, para comprobar la hiptesis.

1.7 Beneficios o Aportaciones


Contribuir con la Minera de Datos, a la extraccin de informacin, con un nuevo
mtodo Hibrido para el proceso de extraccin de palabras claves a partir de un
texto.

2. Marco terico
Se define la minera de datos como el proceso de extraer conocimiento til y
comprensible, previamente desconocido, desde grandes cantidades de datos
almacenados en distintos formatos [7].
La minera de datos es solo una etapa del proceso de extraccin de conocimiento
a partir de datos [2].

Otros autores definen la minera de datos como, un proceso de descubrimiento de


nuevas y significativas relaciones, patrones y tendencias al examinar grandes
cantidades de datos [1].
Para poder concluir con la definicin de minera de datos, revisaremos otra
definicin; la minera de datos es la exploracin y anlisis, por medios automticos
o semiautomticos, de grandes cantidades de datos con el propsito de describir
patrones y reglas interesantes [8].
Los diferentes autores concuerdan que la minera de datos es un proceso, las
diversas actividades varan dependiendo del autor, pues unos dicen que examina
otros que realiza un anlisis y otro ocupa la palabra exploracin. Si bien es cierto
que las actividades que ellos expresan son diferentes todas son aplicadas a datos,
y con el objetivo de un fin comn la extraccin de conocimiento.
El conocimiento lo podemos obtener mediante los patrones, reglas, tendencias,
que es el resultado de aplicar minera de datos.

Para poder aplicar la minera de datos en la extraccin de palabras claves


debemos conocer en que consiste.
Keyword Research, es el termino anglosajn que designa el mtodo empleado
para identificar, filtrar y evaluar que palabras claves son relevantes en

determinadas bsquedas, para despus utilizar estas palabras clave con el


mximo efecto en diferentes circunstancias [6].
De esta manera la extraccin de informacin, palabras claves, convierte el
problema de analizar una coleccin de textos en consultar una base de datos,
siendo esto ltimo ms rpido [4].
Se realizara un nuevo mtodo, con la combinacin de tcnicas de la minera de
datos para aplicarla a la extraccin de palabras claves, esta combinacin de
tcnicas se conoce como modelo hibrido.
El filsofo griego Epicurus defenda una teora si ms de una hiptesis es
consistente con los datos, debemos mantenerlas todas; esta teora es la base de
los mtodos llamados multiclasificadores, mtodos de construccin de metamodelos, mtodos de fusin [1].
Otra tcnica similar es la fusin o combinacin de algoritmos de aprendizaje
creando nuevas tcnicas de aprendizaje hbridas que unifican las ventajas de los
mtodos de aprendizaje fusionados en un solo mtodo de aprendizaje [1].

Al mtodo Hibrido, tambin se le conoce como mtodo multi-paradigmtico.


Aunque la implementacin puede ser ms difcil, las herramientas hibridas son
capaces de combinar la potencia de varios mtodos [9].

Otra definicin, los mtodos hibrido son mtodos de aprendizaje formados a partir
de componentes de otros mtodos de aprendizaje. Los mtodos hbridos buscan
combinar varios mtodos de aprendizaje [1].
Se debe tomar en cuenta que la calidad del mtodo combinado depende de la
precisin y diversidad de los componentes del conjuntos [10]. Tambin tomemos
en cuenta que la mayora de las investigaciones y mtodos desarrollados estn
enfocados principalmente para modelos predictivos (clasificacin y regresin) [1].
Algunos mtodos usados combinan tcnicas de visualizacin, induccin, redes
neuronales y sistemas basados en reglas para llevar a cabo el descubrimiento de
conocimiento deseado [9].

Con base a la informacin investigada se analizaran datos para poder lograr la


construccin de un mtodo hibrido.

ACTIVIDADES
A medida que la importancia del software ha crecido, la Ingeniera de Software ha
intentado desarrollar tecnologas que faciliten y disminuyan el tiempo y costo de
construccin y mantenimiento de software; entre las cuales se pueden mencionar
a las metodologas como una aportacin que ha simplificado la labor no trivial de
desarrollo de software [19].
El desarrollo del presente proyectos se encuentra basado en una metodologa
gil.
Los mtodos agiles nacen entre los aos 80 y principios de los 90, donde exista
una opinin general de que la mejor forma de obtener un mejor software era a
travs de una planificacin cuidadosa del proyecto [17]. De los diferentes tipos de
metodologa gil se ha seleccionado la XP.
La Programacin Extrema (XP) es posiblemente el mtodo gil ms conocido y
ampliamente utilizado. El nombre fue acuado por Kent Beck, debido a que el
enfoque fue desarrollado utilizando buenas prcticas reconocidas, como el
desarrollo iterativo y con la participacin del cliente en niveles extremos [17].
XP
se
diferencia de las metodologas tradicionales principalmente en que pone ms
nfasis en la adaptabilidad que en la previsibilidad; considera que los cambios de
requisitos sobre la marcha son un aspecto natural, inevitable e incluso deseable
del desarrollo de proyectos [19].
En base a todas las ventajas que presentan las metodologas agiles, en particular
la XP, se utilizara para el desarrollo de este proyecto. La metodologa XP consta
de las siguientes etapas:
1. Planeacin
Es la etapa inicial de todo proyecto en XP. En este punto se comienza a
interactuar con el cliente y el resto del grupo de desarrollo para descubrir los
requerimientos del sistema. En este punto se identifica el nmero y tamao de las
iteraciones al igual que se plantean ajustes necesarios a la metodologa segn las
caractersticas del proyecto [20].
2. Diseo
En XP se enfoca en un diseo simple, proporciona al usuario un sistema que
cubra las necesidades inmediatas del cliente, ni ms ni menos. Este proceso
permite eliminar redundancias y rejuvenecer los diseos obsoletos [19].
3. Codificacin
Proceso que se realiza en forma paralela con el diseo y la cual est sujeta a
varias observaciones por parte de XP consideradas controversiales por algunos

expertos tales como la rotacin de los programadores o la programacin en pareja


[20]. La programacin en parejas es un concepto clave, XP recomienda que dos
personas trabajen junta en una misma computadora para crear el cdigo, este es
un mecanismo de resolucin de problemas en tiempo real y el aseguramiento de
la calidad en las mismas condiciones [19].
4. Prueba
Consiste en establecer un periodo de pruebas de aceptacin del programa, donde
se definirn entradas al sistema y resultados esperados [19].
XP enfatiza mucho los aspectos relacionados con las pruebas, clasificndolas en
diferentes tipos y funcionalidades especficas, indicando quin, cundo y cmo
deben ser implementadas y ejecutas. Del buen uso de las pruebas depende el
xito de otras prcticas [20].

DESCRIPCIN DE ACTIVIDADES PARA LOS ENTREGABLES


PLANEACIN
Se realiza la investigacin y estudio de los temas abordados, lectura de artculos,
tesis relacionadas con el tema propuesto. as como el anlisis de los datos a
trabajar.
DISEO
Se presentara un prototipo del mtodo hibrido a desarrollar.
CODIFICACIN
Iniciaremos con el desarrollo del mtodo, combinando diferentes tcnicas, todo
esto en base a la lo investigado en la etapa de planeacin y al anlisis de datos.
PRUEBAS
Nos basaremos en la etapa de pruebas para comprobar que el mtodo propuesto
funcione correctamente, para las pruebas se trabajara sobre el repositorio
Cast3lb.

CRONOGRAMA DE ACTIVIDADES

REFERENCIAS
[1] J. Hernndez Orallo, Introduccin a la minera de datos., Ed. Pearson, Prentice Hall, Madrid
2004, 680 p.

[2] C. Prez Lpez and D. Satn Gonzlez, Minera de Datos, Tcnicas y Herramientas. Thomson
Ediciones, 2008, 775 p.
[3] A. Romero Rodrguez, Extraccin de informacin Semntica a Partir de Categora de Texto.,
Universidad Nacional de Colombia, 4 p., Bogot Colombia.
[4] A. Tllez Valero, Extraccin de Informacin con Algoritmos de Clasificacin. Tesis M en C.C,
Instituto Nacional de Astrofsica ptica y Electrnica, Tonantzintlan, Puebla 2005, 87 p.
[5] M. A. Torres Cardona, P. Pez Crdenas, C. A. Martinez Rivera, J. E. Rodrguez Rodrguez,
Algoritmos para la bsqueda de texto, Universidad Distrital Francisco Jos de Caldas, Bogot
Colombia, 6 p.
[6] M. Vallez, Keyword Research: mtodos y herramientas pa identificar palabras claves.,
Departamento de Comunicacin, Universidad Pompeu Fabra, 18 p.
[7] I. H. Witten, E. Frank, Data Mining: practical machine learning tools and techniques, Elsevier,
2005 558 p.
[8] Berry y Linoff: Data Mining Techniques. Wiley, 1997
[9] M. I. Kubski Minera de datos, Universidad Nacional del Nordeste, Argentina 2004, 64 p.
[10] Hansen L.K.; Salamon P. Neural Network Ensembles IEEE Transactions on Pattern Analysis
and Machine Intelligence, Vol. 12(10), pp 993-1001, 1990.
[11] A. Casali, C. Deco, C. Bender, S. Fontanarrosa, C. Sabater, Asistente para el depsito de
objetos en repositorios con extraccin automtica de metadatos Universidad Pblica, Argentina pp
133- 136.
[12] A. Olivera, Extraccin de informacin de un corps de Artculos. 6 p.
[13] M. Vallez, C. Rovira, L. Codina, R. Pedraza, Procedimientos para la extraccin de palabras
claves web basadas en criterios de posicionamiento en buscadores., Universidad Pompeu Fabra
11 p.
[14] A. M. Martnez Tamayo, Extraccin de palabras claves de la tabla de contenido e ndices
analticos: una tcnica rpida para la indizacin de monografas en bibliotecas especializadas.,
Universidad Nacional de la Plata, Buenos Aires 2008, 11 p.
[15] X. Gmez Guinovart, E. Sacau Fontenla, Mtodos de optimizacin de la extraccin de lxico
bilinge a partir de corpus paralelo., Universidad de Vigo, 8 p.
[16] B. Gil Urdiciain, R. Snchez Jimnez, Tcnicas de recuperacin de informacin aplicadas a la
construccin de tesauros., Universidad Complutense de Madrid, Madrid Espaa 2013, pp 19-26.
[17] I. Sommerville, Ingeniera de software., Pearson Educacin S.A., Madrid 2005, 712 p.
[18] Sommerville, Software Engineering., Prentice Hall, 2009.
[19] M. Jimnez Hernndez, META, Una metodologa hibrida para el desarrollo de software web
propuesta para las empresas de software en Mxico. Tesis M en C.C, Instituto Politcnico
Nacional, Mxico DF 2012, 122 p.

[20] L. M. Echeverry Tobn, L. E. Delgado Carmona, Caso prctico de la metodologa gil XP al


desarrollo de software., Tesis Ing. Sis.C. Universidad Tecnolgica de Pereira, Pereira 2007, 110 p.
[21] Sampieri, Metodologa de la investigacin, McGraw-Hill 2006, pp 533.
[22] IEEE, Standard Glosary of Software Engineering Terminology., IEEE 1990.
[23] Real Academia Espaola, Vigsima segunda edicin, 2001.

Vous aimerez peut-être aussi