Clasificacion

Tareas de la minera de datos: clasificacin
CI-2352 Intr. a la minera de datos
Prof. Braulio Jos Solano Rojas

ECCI, UCR
Clasificacin (discriminacin)

Empareja o asocia datos a grupos predefinidos (aprendizaje supervisado). Encuentra modelos (funciones) que describen y distinguen clases o conceptos para futuras predicciones. Probablemente la tarea ms familiar y ms popular de la minera de datos.
2 de 33
Ejemplos de aplicacin: Calificacin de crdito (credit scoring), reconocimiento de imgenes y patrones, diagnstico mdico, deteccin de fallos en aplicaciones industriales, clasificar tendencias de mercados financieros, ... Mtodos: Anlisis discriminante, rboles de decisin, reglas de clasificacin, redes neuronales.
Ejemplo simple:
En EE.UU. los maestros clasifican a los estudiantes en A, B, C, D o F segn sus notas. Utilizando simplemente lmites (60, 70, 80, 90), las siguientes clasificaciones son posibles: 90 <= nota 80 <= nota <= 90 70 <= nota <= 80 60 <= nota < 70 Nota < 60 A B C D F
Clasificacin contra prediccin
En alguna literatura de minera de datos se considera a la clasificacin como el emparejamiento contra clases (etiquetas de valores), mientras que la prediccin est asociada a valores continuos. Es decir, en el conjunto de entrenamiento la variable objetivo es una variable continua. Finalmente, clasificacin y prediccin vienen siendo lo mismo, aunque se pueden hacer la diferenciacin segn el tipo de variable.
Clasificacin: aprendizaje
6 de 33
Clasificacin: pruebas
7 de 33
Preparacin de los datos para clasificacin y prediccin
Limpieza de los datos
Tratamiento del ruido y de valores faltantes. Algunos atributos en los datos pueden ser irrelevantes o redundantes. Eliminar dichos atributos mejora la eficiencia y la eficacia. Se pueden hacer generalizaciones de los datos a conceptos de mayor nivel. Tambin se pueden normalizar los datos.
Anlisis de relevancia
Transformacin de datos
8 de 33
Evaluacin de mtodos de clasificacin
Precisin en la prediccin
Capacidad de predecir correctamente. Costos computacionales. Habilidad para funcionar con ruido y ausencia de ciertos valores. Habilidad para trabajar con grandes cantidades de datos. Entendimiento y comprensin que brinda.
9 de 33
Eficiencia
Robustez
Escalabilidad
Interpretabilidad
Clasificacin: definicin formal
Dada una base de datos D = {t1, t2, , tn} de tuplas (elementos, registros) y un conjunto de clases C = {C1, , Cm}, el problema de
clasificacin trata de definir un mapeo f : D C donde cada ti se asigna a una clase. Una clase Cj contiene precisamente aquellas tuplas mapeadas a ella; esto es, Cj = { ti | f(ti) = Cj, 1<=i<=n y ti D }.
10 de 33
Clasificacin: algoritmos
Estadsticos
Regresin simple, regresin mltiple, bayes, ... k vecinos ms cercanos, ... ID3, C4.5, CART, ... Retropropagacin, ... Reglas de asociacin, ...
Distancia
rboles de decisin
Redes neuronales
Reglas
11 de 33
Clasificacin por induccin de rboles de decisin
El aprendizaje por rboles de decisin es un mtodo comnmente utilizado en minera de datos. El objetivo es crear un modelo que prediga el valor de una variable objetivo basndose en varias variables de entrada. Se muestra un ejemplo en las dos filminas siguientes. Cada nodo interior corresponde a a una de las variables de entrada. Hay aristas hacia un hijo para cada uno de los posibles valores de dicha variable de entrada. Cada hoja representa un valor de la variable objetivo dados los valores de las variables entrada representadas por el camino de la raz a la hoja.
12 de 33

edad <=30 <=30 31...40 >40 >40 >40 31...40 <=30 <=30 >40 <=30 31...40 31...40 >40 ingreso alto alto alto medio bajo bajo bajo medio bajo medio medio medio alto medio estudiante no no no no s s s no s s s no s no calificacin_crdito suficiente excelente suficiente suficiente suficiente excelente excelente suficiente suficiente suficiente excelente excelente suficiente excelente 13 de 33 clase:compra_computador no no s s s no s no s s s s s no
14 de 33
Un rbol puede ser aprendido separando el conjunto fuente en subconjuntos basados en una prueba de valor de atributo. Este proceso es repetido en cada subconjunto derivado de una manera recursiva llamada particionamiento recursivo. La recursin termina cuando el subconjunto en un nodo tiene para todos sus miembros el mismo valor de la variable objetivo o cuando separar ya no agrega valor a la prediccin.
15 de 33
Los datos vienen en registros de la forma: (x,Y) = (x1, x2, x3, ..., xk, Y)
La variable dependiente Y es la variable objetivo que se est tratando de explicar, clasificar o generalizar. El vector x est compuesto de las variables de entrada The vector x is composed of the input variables x1, x2, x3, etc., que son usadas para la tarea de minera.
16 de 33
17 de 33
Clasificacin por los k vecinos ms cercanos (KNN)
Esquema de clasificacin comn, basado en el uso de medidas de distancia. Es un tipo de aprendizaje por analoga. La tcnica asume que el conjunto completo de entrenamiento incluye no slo los datos sino tambin la clasificacin deseada. Los datos de entrenamiento son entonces el modelo.
18 de 33
Cuando se va a clasificar un nuevo elemento (t) se determina su distancia contra todos los elementos en el conjunto de entrenamiento. Luego slo se consideran los K elementos ms cercanos al nuevo elemento (t). El nuevo elemento (t) es entonces clasificado en la clase mayoritaria de los vecinos cercanos.
19 de 33
De manera ms formal:
El conjunto de entrenamiento es descrito por atributos numricos n-dimensionales. Cada individuo representa un punto en un espacio n-dimensional. As, el conjunto de entrenamiento es almacenado en un espacio patrn n-dimensional. Cuando se clasifica un individuo nuevo se busca en el espacio patrn los k individuos ms cercanos al nuevo individuo.
20 de 33
La cercana es usualmente definida en trminos de la distancia euclidiana, donde la distancia entre dos puntos, X=(x1, x2, , xn) y Y=(y1, y2, , yn) es
d ( X , Y )=
n i =1
( xi yi )
El nuevo individuo es asignado a la clase ms comn o mayoritaria entre sus k vecinos ms cercanos. Cuando k=1 se asigna la clase del elemento ms cercano.
21 de 33
Clasificacin por los k vecinos ms cercanos (KNN): ejemplo
22 de 33
Clasificacin por los k vecinos ms cercanos (KNN): algoritmo
23 de 33
La tcnica KNN es muy sensible a la escogencia de k. Una regla prctica es k menor o igual a la raz del nmero de elementos de entrenamiento. Los clasificadores de vecinos ms cercanos son aprendizaje basados en instancia o aprendizaje flojo (lazy learning). Tienen mayor eficiencia en el entrenamiento. Sin embargo, los costos computacionales pueden ser caros en la clasificacin si los individuos de entrenamiento (el modelo) son muchos.
24 de 33
Regresin lineal simple
25 de 33
26 de 33
27 de 33
28 de 33
29 de 33
Clasificacin bayesiana ingenua
Sea X un conjunto de datos cuya clase es desconocida. Sea H alguna hiptesis tal que el conjunto de datos pertenece a una clase C. Se desea entonces determinar P(H|X), la probabilidad de que la hiptesis H sea vlida dados los datos observados en X. P(H|X) es la probabilidad posterior, o la probabilidad a posteriori, de H condicionada en X.
30 de 33
Clasificacin bayesiana ingenua
El teorema de Bayes es til en el hecho de que provee una manera de calcular la probabilidad posterior, P(H|X), de P(H), P(X) y P(X|H). El teorema de Bayes adaptado a la clasificacin es:
P ( X H ) P ( H ) P ( H X )= P(X )
31 de 33
Clasificacin bayesiana ingenua: ejemplo

edad <=30 <=30 31...40 >40 >40 >40 31...40 <=30 <=30 31...40 <=30 >40 >40 31...40 ingreso alto alto alto medio bajo bajo bajo medio bajo medio medio medio alto medio estudiante no no no no s s s no s s s no s no calificacin_crdito suficiente excelente suficiente suficiente suficiente excelente excelente suficiente suficiente suficiente excelente excelente suficiente excelente 32 de 33 clase:compra_computador no no s s s no s no s s s s s no
Gracias por su atencin!
Preguntas?

Clasificacion

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Clasificacion

Transféré par

Droits d'auteur :

Formats disponibles

Tareas de la minera de datos: clasificacin

CI-2352 Intr. a la minera de datos

Prof. Braulio Jos Solano Rojas

Tareas de la minera de datos: clasificacin

Tareas de la minera de datos: clasificacin

Tareas de la minera de datos: clasificacin

Clasificacin contra prediccin

Preparacin de los datos para clasificacin y prediccin

Limpieza de los datos

Evaluacin de mtodos de clasificacin

Clasificacin: definicin formal

Clasificacin por induccin de rboles de decisin

Clasificacin por induccin de rboles de decisin

Clasificacin por induccin de rboles de decisin

Clasificacin por induccin de rboles de decisin

Clasificacin por induccin de rboles de decisin

Clasificacin por induccin de rboles de decisin

Clasificacin por los k vecinos ms cercanos (KNN)

Clasificacin por los k vecinos ms cercanos (KNN)

Clasificacin por los k vecinos ms cercanos (KNN)

Clasificacin por los k vecinos ms cercanos (KNN)

Clasificacin por los k vecinos ms cercanos (KNN): ejemplo

Clasificacin por los k vecinos ms cercanos (KNN): algoritmo

Clasificacin por los k vecinos ms cercanos (KNN)

Regresin lineal simple

Regresin lineal simple

Regresin lineal simple

Regresin lineal simple

Regresin lineal simple

Clasificacin bayesiana ingenua

Clasificacin bayesiana ingenua

Clasificacin bayesiana ingenua: ejemplo

Gracias por su atencin!

Vous aimerez peut-être aussi