Bienvenue sur Scribd !

Ignorer le carrousel

dm0427 Feature Selection2

Transféré par

admin@wiphala.net

0% ont trouvé ce document utile (0 vote)

85 vues21 pages

Titre original

dm0427 feature selection2

Copyright

Formats disponibles

PDF, TXT ou lisez en ligne sur Scribd

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Signaler ce document

Droits d'auteur :

Attribution Non-Commercial (BY-NC)

Formats disponibles

Téléchargez comme PDF, TXT ou lisez en ligne sur Scribd

Signaler comme contenu inapproprié

0% ont trouvé ce document utile (0 vote)

85 vues21 pages

dm0427 Feature Selection2

Transféré par

admin@wiphala.net

Droits d'auteur :

Attribution Non-Commercial (BY-NC)

Formats disponibles

Téléchargez comme PDF, TXT ou lisez en ligne sur Scribd

Signaler comme contenu inapproprié

Passer à la page

Vous êtes sur la page 1sur 21

Rechercher à l'intérieur du document

Minería de Textos

Selección de Características en
Documentos
El Curso Avanzado

Introducción

Preparación
de Datos

Modelos
Predictivos

Modelos de
Agrupamiento

Extracción de
Información

Recuperación
de
Información
Tabla de Contenido
1. SELECCIÓN DE CARACTERISTICAS
Mapa Conceptual del Curso

Tokenization
Stopwords
Stemming
Sinónimos

T8 T8

T7 T5 T7 T5
Naive Bayes

T6 T4
T3 T3

T2
T1 T1
SVM

Regresión Logística
Selección de Características
Reducción de Datos

• Selecciona/extrae datos relevantes para la tarea de la

minería de datos/extracción de información.

1. Reducción de Instancias (muestreo, agrupamiento)

2. Reducción de Atributos (selección de características)
Selección de Instancias

• Elegir ejemplos que sean relevantes para el modelo y

lograr el máximo rendimiento:
– Menos datos  los algoritmos aprender más rápido
– Mayor exactitud  el clasificador generaliza mejor
– Resultados simples  más fácil de entender

8000 puntos 2000 puntos 500 puntos

Población y Muestra
Población Muestra
Conjunto de todas las Subconjunto, extraído de la
instancias objeto de estudio. población, sus propiedades
sirven para inferir caracterís-
No siempre se conoce ticas de la población.

Sin reposición de los elementos

aleatorio Con reposición de los elementos
Con reposición múltiple
Muestreo
probabilístico
Asignación proporcional
estratificado
muestreo Asignación óptima

Muestreo por cuotas

Muestreo no
Muestreo de bola de nieve
probabilístico
Muestreo subjetivo por decisión razonada
Ejercicio 1
• Para los datos proporcionados, extraiga muestras
aleatorias del 25%, 50% y 75%.

• Extraiga una muestra balanceada de los datos.

• Grabe los datos balanceados en formato ARFF
• Ingrese al Weka y levante los datos obtenidos.
Ejercicio 1
Ejercicio 1
Selección de Características

• Pretende elegir atributos relevantes para el modelo, lograr

el máximo rendimiento con el mínimo esfuerzo.
– Menos datos  los algoritmos aprender más rápido
– Mayor exactitud  el clasificador generaliza mejor.
– Resultados simples  más fácil de entender
Ejercicio 2
• Para los datos (balanceados) del ejercicio anterior, prepare
el histograma de cada una de las características (use el
weka).

• Use la opción de selección de características del weka

para identificar los atributos de mayor significancia.

• Use la opción de ranking de pesos por cada características

para identificar las características que mejor aportan en la
clasificación.
Ejercicio 2
Ejercicio 2
Ejercicio 3
• Haciendo uso de los pesos obtenidos en el proceso
anterior, efectúe el proceso de selección de características
usando como criterio el peso de cada atributo.
Ejercicio 4
• Para el ejercicio anterior, calcule el rendimiento de un
modelo de clasificación (use un árbol de decisión)

• Evalúe para la data original.

Ejercicio 4
Ejercicio 5
• Para el corpus proporcionado:
1. Identifique las palabras (raíces) de mayor significancia
para el proceso de clasificación
2. Aplique el proceso de selección de características por
pesos.
3. Construya un clasificador bayesiano con las
características identificadas.
soporto@kasperu.com
www.kasperu.com
PREGUNTAS

Vous aimerez peut-être aussi

6th Central Pay Commission Salary Calculator
Document15 pages
6th Central Pay Commission Salary Calculator
rakhonde
100% (436)
Ejemplo Aplicación de Matrices
Document4 pages
Ejemplo Aplicación de Matrices
Génesis Acosta
81% (16)
Manual mp3 GoGear - Mix - Español
Document23 pages
Manual mp3 GoGear - Mix - Español
adrianamoyar296
Pas encore d'évaluation
Formulario 1 - Inscripción de Empresa
Document2 pages
Formulario 1 - Inscripción de Empresa
admin@wiphala.net
Pas encore d'évaluation
Python For Artificial Intelligence - 00. Python 1
Document1 page
Python For Artificial Intelligence - 00. Python 1
admin@wiphala.net
Pas encore d'évaluation
Pasta 1ra Semana
Document1 page
Pasta 1ra Semana
admin@wiphala.net
Pas encore d'évaluation
Tutorial On Good Lisp Programming Style-Peter - Norvig-1993-116pp
Document14 pages
Tutorial On Good Lisp Programming Style-Peter - Norvig-1993-116pp
admin@wiphala.net
Pas encore d'évaluation
KASPeru Catálogo de Cursos 2015 - Inhouse
Document15 pages
KASPeru Catálogo de Cursos 2015 - Inhouse
admin@wiphala.net
Pas encore d'évaluation
10011069INSA Presentacion CMMI
Document14 pages
10011069INSA Presentacion CMMI
jos1984
Pas encore d'évaluation
Pasta 2da Semana
Document1 page
Pasta 2da Semana
admin@wiphala.net
Pas encore d'évaluation
Student Churn Predictor KASPeru
Document1 page
Student Churn Predictor KASPeru
admin@wiphala.net
Pas encore d'évaluation
KASPeru Cat+ílogo de Cursos 2013 - P+ Blico
Document14 pages
KASPeru Cat+ílogo de Cursos 2013 - P+ Blico
admin@wiphala.net
Pas encore d'évaluation
KASPeru Catálogo de Cursos 2015 - Inhouse
Document15 pages
KASPeru Catálogo de Cursos 2015 - Inhouse
admin@wiphala.net
Pas encore d'évaluation
Informe de Comision
Document143 pages
Informe de Comision
César A. Aquise
Pas encore d'évaluation
El Estado Mafioso - Manuel Dammert
Document26 pages
El Estado Mafioso - Manuel Dammert
LatinCrack MasterByte
Pas encore d'évaluation
Asa
Document1 page
Asa
admin@wiphala.net
Pas encore d'évaluation
1
Document2 pages
1
admin@wiphala.net
Pas encore d'évaluation
4 Historia
Document4 pages
4 Historia
admin@wiphala.net
Pas encore d'évaluation
Aplicaciones Del Diseño de Experimentos
Document11 pages
Aplicaciones Del Diseño de Experimentos
admin@wiphala.net
Pas encore d'évaluation
Bizagi ejemplo-BPMNbyExampleSPA
Document10 pages
Bizagi ejemplo-BPMNbyExampleSPA
Carlos Yañez
100% (1)
Lalg U2 Ea Sarm
Document7 pages
Lalg U2 Ea Sarm
Salvador Rodriguez Meza
Pas encore d'évaluation
Actividad3 - Álgebra Lineal
Document6 pages
Actividad3 - Álgebra Lineal
paquely
Pas encore d'évaluation
Cristian - Prieto - Modelar Problemas de Lenguajes Estructurados Por Frases
Document6 pages
Cristian - Prieto - Modelar Problemas de Lenguajes Estructurados Por Frases
SoteloAndres
Pas encore d'évaluation
Características de Los Números Pseudoaleatorios
Document6 pages
Características de Los Números Pseudoaleatorios
Alonso Briones
Pas encore d'évaluation
PDF Matematica Financiera II DL
Document48 pages
PDF Matematica Financiera II DL
luis lopez
Pas encore d'évaluation
BC Tes 4228
Document224 pages
BC Tes 4228
friquisito50
Pas encore d'évaluation
MN Segundo Parcial
Document3 pages
MN Segundo Parcial
JULWIN VILLANUEVA QUISPE
Pas encore d'évaluation
Equipo 01 ReporteTema
Document2 pages
Equipo 01 ReporteTema
Andrés Arango M.
Pas encore d'évaluation
Diapositivas Método de Transporte
Document12 pages
Diapositivas Método de Transporte
Wendy De La Cruz
Pas encore d'évaluation
Curve Fit
Document8 pages
Curve Fit
Rubén Anguiano
Pas encore d'évaluation
Polinomios especiales: homogéneos, ordenados, completos e idénticos
Document4 pages
Polinomios especiales: homogéneos, ordenados, completos e idénticos
Alexander Uracahua
Pas encore d'évaluation
Matemáticas ENTREGABLE II
Document4 pages
Matemáticas ENTREGABLE II
Lola Gauna
Pas encore d'évaluation
Raíces Múltiples
Document26 pages
Raíces Múltiples
nomadani
Pas encore d'évaluation
Mii506 S2 Apunte Sistema de Inventario PDF
Document12 pages
Mii506 S2 Apunte Sistema de Inventario PDF
Rodrigo Maturana
Pas encore d'évaluation
Código de Bloques Lineales
Document9 pages
Código de Bloques Lineales
Lucia Rodriguez Cesin
Pas encore d'évaluation
Matemática Ii: Unidad I Matrices y Sistema de Ecuaciones Lineales
Document16 pages
Matemática Ii: Unidad I Matrices y Sistema de Ecuaciones Lineales
Liz Angela Tintaya Alvarez
Pas encore d'évaluation
Tarea 6 Estadistica 2 MV
Document4 pages
Tarea 6 Estadistica 2 MV
Nay Jey Dss
0% (1)
Metodo Hashing o Disperso para Archivos
Document6 pages
Metodo Hashing o Disperso para Archivos
Eduardo Lulichac Rojas
Pas encore d'évaluation
2 Codigo Hamming
Document5 pages
2 Codigo Hamming
It'z Isaac Gonzalez Peña
Pas encore d'évaluation
Guias de Practica 8
Document6 pages
Guias de Practica 8
Wladimir Paredes Carpio
Pas encore d'évaluation
Optimizar la producción de camisas y blusas
Document15 pages
Optimizar la producción de camisas y blusas
ERIK ORONZOR TELLEZ
Pas encore d'évaluation
Programacion Dinamica IO. Skarleth Cruz.
Document15 pages
Programacion Dinamica IO. Skarleth Cruz.
Brian Dario Rodriguez
Pas encore d'évaluation
ECUACIÓN
Document1 page
ECUACIÓN
Shania Lagunes
Pas encore d'évaluation
XT03
Document5 pages
XT03
Anonymous 105zV1
Pas encore d'évaluation
Estadística Conteo Puntos Muestrales
Document20 pages
Estadística Conteo Puntos Muestrales
OhtliTlahuilli
40% (5)
Guia 13
Document6 pages
Guia 13
RAFAEL ALEXIS PE�A SERRATO
Pas encore d'évaluation
S-30-Programación Lineal
Document12 pages
S-30-Programación Lineal
JESUS CALDERON
Pas encore d'évaluation
Seguridad Informática y Criptografía. Protocolos y Esquemas Criptográficos
Document73 pages
Seguridad Informática y Criptografía. Protocolos y Esquemas Criptográficos
Carlos Espinoza
100% (3)
Teoría de Colas
Document6 pages
Teoría de Colas
David Huerta
Pas encore d'évaluation