Vous êtes sur la page 1sur 21

Minería de Textos

Selección de Características en
Documentos
El Curso Avanzado

Introducción

Preparación
de Datos

Modelos
Predictivos

Modelos de
Agrupamiento

Extracción de
Información

Recuperación
de
Información
Tabla de Contenido
1. SELECCIÓN DE CARACTERISTICAS
Mapa Conceptual del Curso

Tokenization
Stopwords
Stemming
Sinónimos

T8 T8

T7 T5 T7 T5
Naive Bayes

T6 T4
T3 T3

T2
T1 T1
SVM

Regresión Logística
Selección de Características
Reducción de Datos

• Selecciona/extrae datos relevantes para la tarea de la


minería de datos/extracción de información.

1. Reducción de Instancias (muestreo, agrupamiento)


2. Reducción de Atributos (selección de características)
Selección de Instancias

• Elegir ejemplos que sean relevantes para el modelo y


lograr el máximo rendimiento:
– Menos datos  los algoritmos aprender más rápido
– Mayor exactitud  el clasificador generaliza mejor
– Resultados simples  más fácil de entender

8000 puntos 2000 puntos 500 puntos


Población y Muestra
Población Muestra
Conjunto de todas las Subconjunto, extraído de la
instancias objeto de estudio. población, sus propiedades
sirven para inferir caracterís-
No siempre se conoce ticas de la población.

Sin reposición de los elementos


aleatorio Con reposición de los elementos
Con reposición múltiple
Muestreo
probabilístico
Asignación proporcional
estratificado
muestreo Asignación óptima

Muestreo por cuotas


Muestreo no
Muestreo de bola de nieve
probabilístico
Muestreo subjetivo por decisión razonada
Ejercicio 1
• Para los datos proporcionados, extraiga muestras
aleatorias del 25%, 50% y 75%.

• Extraiga una muestra balanceada de los datos.


• Grabe los datos balanceados en formato ARFF
• Ingrese al Weka y levante los datos obtenidos.
Ejercicio 1
Ejercicio 1
Selección de Características

• Pretende elegir atributos relevantes para el modelo, lograr


el máximo rendimiento con el mínimo esfuerzo.
– Menos datos  los algoritmos aprender más rápido
– Mayor exactitud  el clasificador generaliza mejor.
– Resultados simples  más fácil de entender
Ejercicio 2
• Para los datos (balanceados) del ejercicio anterior, prepare
el histograma de cada una de las características (use el
weka).

• Use la opción de selección de características del weka


para identificar los atributos de mayor significancia.

• Use la opción de ranking de pesos por cada características


para identificar las características que mejor aportan en la
clasificación.
Ejercicio 2
Ejercicio 2
Ejercicio 3
• Haciendo uso de los pesos obtenidos en el proceso
anterior, efectúe el proceso de selección de características
usando como criterio el peso de cada atributo.
Ejercicio 4
• Para el ejercicio anterior, calcule el rendimiento de un
modelo de clasificación (use un árbol de decisión)

• Evalúe para la data original.


Ejercicio 4
Ejercicio 5
• Para el corpus proporcionado:
1. Identifique las palabras (raíces) de mayor significancia
para el proceso de clasificación
2. Aplique el proceso de selección de características por
pesos.
3. Construya un clasificador bayesiano con las
características identificadas.
soporto@kasperu.com
www.kasperu.com
PREGUNTAS

Vous aimerez peut-être aussi