Vous êtes sur la page 1sur 33

Tareas de la minera de datos: clasificacin

CI-2352 Intr. a la minera de datos

Prof. Braulio Jos Solano Rojas


ECCI, UCR

Tareas de la minera de datos: clasificacin

Clasificacin (discriminacin)

Empareja o asocia datos a grupos predefinidos (aprendizaje supervisado). Encuentra modelos (funciones) que describen y distinguen clases o conceptos para futuras predicciones. Probablemente la tarea ms familiar y ms popular de la minera de datos.

2 de 33

Tareas de la minera de datos: clasificacin

Ejemplos de aplicacin: Calificacin de crdito (credit scoring), reconocimiento de imgenes y patrones, diagnstico mdico, deteccin de fallos en aplicaciones industriales, clasificar tendencias de mercados financieros, ... Mtodos: Anlisis discriminante, rboles de decisin, reglas de clasificacin, redes neuronales.

Tareas de la minera de datos: clasificacin

Ejemplo simple:

En EE.UU. los maestros clasifican a los estudiantes en A, B, C, D o F segn sus notas. Utilizando simplemente lmites (60, 70, 80, 90), las siguientes clasificaciones son posibles: 90 <= nota 80 <= nota <= 90 70 <= nota <= 80 60 <= nota < 70 Nota < 60 A B C D F

Clasificacin contra prediccin

En alguna literatura de minera de datos se considera a la clasificacin como el emparejamiento contra clases (etiquetas de valores), mientras que la prediccin est asociada a valores continuos. Es decir, en el conjunto de entrenamiento la variable objetivo es una variable continua. Finalmente, clasificacin y prediccin vienen siendo lo mismo, aunque se pueden hacer la diferenciacin segn el tipo de variable.

Clasificacin: aprendizaje

6 de 33

Clasificacin: pruebas

7 de 33

Preparacin de los datos para clasificacin y prediccin

Limpieza de los datos

Tratamiento del ruido y de valores faltantes. Algunos atributos en los datos pueden ser irrelevantes o redundantes. Eliminar dichos atributos mejora la eficiencia y la eficacia. Se pueden hacer generalizaciones de los datos a conceptos de mayor nivel. Tambin se pueden normalizar los datos.

Anlisis de relevancia

Transformacin de datos

8 de 33

Evaluacin de mtodos de clasificacin

Precisin en la prediccin

Capacidad de predecir correctamente. Costos computacionales. Habilidad para funcionar con ruido y ausencia de ciertos valores. Habilidad para trabajar con grandes cantidades de datos. Entendimiento y comprensin que brinda.
9 de 33

Eficiencia

Robustez

Escalabilidad

Interpretabilidad

Clasificacin: definicin formal

Dada una base de datos D = {t1, t2, , tn} de tuplas (elementos, registros) y un conjunto de clases C = {C1, , Cm}, el problema de

clasificacin trata de definir un mapeo f : D C donde cada ti se asigna a una clase. Una clase Cj contiene precisamente aquellas tuplas mapeadas a ella; esto es, Cj = { ti | f(ti) = Cj, 1<=i<=n y ti D }.
10 de 33

Clasificacin: algoritmos

Estadsticos

Regresin simple, regresin mltiple, bayes, ... k vecinos ms cercanos, ... ID3, C4.5, CART, ... Retropropagacin, ... Reglas de asociacin, ...

Distancia

rboles de decisin

Redes neuronales

Reglas

11 de 33

Clasificacin por induccin de rboles de decisin

El aprendizaje por rboles de decisin es un mtodo comnmente utilizado en minera de datos. El objetivo es crear un modelo que prediga el valor de una variable objetivo basndose en varias variables de entrada. Se muestra un ejemplo en las dos filminas siguientes. Cada nodo interior corresponde a a una de las variables de entrada. Hay aristas hacia un hijo para cada uno de los posibles valores de dicha variable de entrada. Cada hoja representa un valor de la variable objetivo dados los valores de las variables entrada representadas por el camino de la raz a la hoja.
12 de 33

Clasificacin por induccin de rboles de decisin


edad <=30 <=30 31...40 >40 >40 >40 31...40 <=30 <=30 >40 <=30 31...40 31...40 >40 ingreso alto alto alto medio bajo bajo bajo medio bajo medio medio medio alto medio estudiante no no no no s s s no s s s no s no calificacin_crdito suficiente excelente suficiente suficiente suficiente excelente excelente suficiente suficiente suficiente excelente excelente suficiente excelente 13 de 33 clase:compra_computador no no s s s no s no s s s s s no

Clasificacin por induccin de rboles de decisin

14 de 33

Clasificacin por induccin de rboles de decisin

Un rbol puede ser aprendido separando el conjunto fuente en subconjuntos basados en una prueba de valor de atributo. Este proceso es repetido en cada subconjunto derivado de una manera recursiva llamada particionamiento recursivo. La recursin termina cuando el subconjunto en un nodo tiene para todos sus miembros el mismo valor de la variable objetivo o cuando separar ya no agrega valor a la prediccin.

15 de 33

Clasificacin por induccin de rboles de decisin

Los datos vienen en registros de la forma: (x,Y) = (x1, x2, x3, ..., xk, Y)

La variable dependiente Y es la variable objetivo que se est tratando de explicar, clasificar o generalizar. El vector x est compuesto de las variables de entrada The vector x is composed of the input variables x1, x2, x3, etc., que son usadas para la tarea de minera.
16 de 33

Clasificacin por induccin de rboles de decisin

17 de 33

Clasificacin por los k vecinos ms cercanos (KNN)

Esquema de clasificacin comn, basado en el uso de medidas de distancia. Es un tipo de aprendizaje por analoga. La tcnica asume que el conjunto completo de entrenamiento incluye no slo los datos sino tambin la clasificacin deseada. Los datos de entrenamiento son entonces el modelo.
18 de 33

Clasificacin por los k vecinos ms cercanos (KNN)

Cuando se va a clasificar un nuevo elemento (t) se determina su distancia contra todos los elementos en el conjunto de entrenamiento. Luego slo se consideran los K elementos ms cercanos al nuevo elemento (t). El nuevo elemento (t) es entonces clasificado en la clase mayoritaria de los vecinos cercanos.

19 de 33

Clasificacin por los k vecinos ms cercanos (KNN)

De manera ms formal:

El conjunto de entrenamiento es descrito por atributos numricos n-dimensionales. Cada individuo representa un punto en un espacio n-dimensional. As, el conjunto de entrenamiento es almacenado en un espacio patrn n-dimensional. Cuando se clasifica un individuo nuevo se busca en el espacio patrn los k individuos ms cercanos al nuevo individuo.
20 de 33

Clasificacin por los k vecinos ms cercanos (KNN)

La cercana es usualmente definida en trminos de la distancia euclidiana, donde la distancia entre dos puntos, X=(x1, x2, , xn) y Y=(y1, y2, , yn) es
d ( X , Y )=

n i =1

( xi yi )

El nuevo individuo es asignado a la clase ms comn o mayoritaria entre sus k vecinos ms cercanos. Cuando k=1 se asigna la clase del elemento ms cercano.
21 de 33

Clasificacin por los k vecinos ms cercanos (KNN): ejemplo

22 de 33

Clasificacin por los k vecinos ms cercanos (KNN): algoritmo

23 de 33

Clasificacin por los k vecinos ms cercanos (KNN)

La tcnica KNN es muy sensible a la escogencia de k. Una regla prctica es k menor o igual a la raz del nmero de elementos de entrenamiento. Los clasificadores de vecinos ms cercanos son aprendizaje basados en instancia o aprendizaje flojo (lazy learning). Tienen mayor eficiencia en el entrenamiento. Sin embargo, los costos computacionales pueden ser caros en la clasificacin si los individuos de entrenamiento (el modelo) son muchos.
24 de 33

Regresin lineal simple

25 de 33

Regresin lineal simple

26 de 33

Regresin lineal simple

27 de 33

Regresin lineal simple

28 de 33

Regresin lineal simple

29 de 33

Clasificacin bayesiana ingenua

Sea X un conjunto de datos cuya clase es desconocida. Sea H alguna hiptesis tal que el conjunto de datos pertenece a una clase C. Se desea entonces determinar P(H|X), la probabilidad de que la hiptesis H sea vlida dados los datos observados en X. P(H|X) es la probabilidad posterior, o la probabilidad a posteriori, de H condicionada en X.
30 de 33

Clasificacin bayesiana ingenua

El teorema de Bayes es til en el hecho de que provee una manera de calcular la probabilidad posterior, P(H|X), de P(H), P(X) y P(X|H). El teorema de Bayes adaptado a la clasificacin es:
P ( X H ) P ( H ) P ( H X )= P(X )

31 de 33

Clasificacin bayesiana ingenua: ejemplo


edad <=30 <=30 31...40 >40 >40 >40 31...40 <=30 <=30 31...40 <=30 >40 >40 31...40 ingreso alto alto alto medio bajo bajo bajo medio bajo medio medio medio alto medio estudiante no no no no s s s no s s s no s no calificacin_crdito suficiente excelente suficiente suficiente suficiente excelente excelente suficiente suficiente suficiente excelente excelente suficiente excelente 32 de 33 clase:compra_computador no no s s s no s no s s s s s no

Gracias por su atencin!

Preguntas?

Vous aimerez peut-être aussi