Académique Documents
Professionnel Documents
Culture Documents
Clasificacin (discriminacin)
Empareja o asocia datos a grupos predefinidos (aprendizaje supervisado). Encuentra modelos (funciones) que describen y distinguen clases o conceptos para futuras predicciones. Probablemente la tarea ms familiar y ms popular de la minera de datos.
2 de 33
Ejemplos de aplicacin: Calificacin de crdito (credit scoring), reconocimiento de imgenes y patrones, diagnstico mdico, deteccin de fallos en aplicaciones industriales, clasificar tendencias de mercados financieros, ... Mtodos: Anlisis discriminante, rboles de decisin, reglas de clasificacin, redes neuronales.
Ejemplo simple:
En EE.UU. los maestros clasifican a los estudiantes en A, B, C, D o F segn sus notas. Utilizando simplemente lmites (60, 70, 80, 90), las siguientes clasificaciones son posibles: 90 <= nota 80 <= nota <= 90 70 <= nota <= 80 60 <= nota < 70 Nota < 60 A B C D F
En alguna literatura de minera de datos se considera a la clasificacin como el emparejamiento contra clases (etiquetas de valores), mientras que la prediccin est asociada a valores continuos. Es decir, en el conjunto de entrenamiento la variable objetivo es una variable continua. Finalmente, clasificacin y prediccin vienen siendo lo mismo, aunque se pueden hacer la diferenciacin segn el tipo de variable.
Clasificacin: aprendizaje
6 de 33
Clasificacin: pruebas
7 de 33
Tratamiento del ruido y de valores faltantes. Algunos atributos en los datos pueden ser irrelevantes o redundantes. Eliminar dichos atributos mejora la eficiencia y la eficacia. Se pueden hacer generalizaciones de los datos a conceptos de mayor nivel. Tambin se pueden normalizar los datos.
Anlisis de relevancia
Transformacin de datos
8 de 33
Precisin en la prediccin
Capacidad de predecir correctamente. Costos computacionales. Habilidad para funcionar con ruido y ausencia de ciertos valores. Habilidad para trabajar con grandes cantidades de datos. Entendimiento y comprensin que brinda.
9 de 33
Eficiencia
Robustez
Escalabilidad
Interpretabilidad
Dada una base de datos D = {t1, t2, , tn} de tuplas (elementos, registros) y un conjunto de clases C = {C1, , Cm}, el problema de
clasificacin trata de definir un mapeo f : D C donde cada ti se asigna a una clase. Una clase Cj contiene precisamente aquellas tuplas mapeadas a ella; esto es, Cj = { ti | f(ti) = Cj, 1<=i<=n y ti D }.
10 de 33
Clasificacin: algoritmos
Estadsticos
Regresin simple, regresin mltiple, bayes, ... k vecinos ms cercanos, ... ID3, C4.5, CART, ... Retropropagacin, ... Reglas de asociacin, ...
Distancia
rboles de decisin
Redes neuronales
Reglas
11 de 33
El aprendizaje por rboles de decisin es un mtodo comnmente utilizado en minera de datos. El objetivo es crear un modelo que prediga el valor de una variable objetivo basndose en varias variables de entrada. Se muestra un ejemplo en las dos filminas siguientes. Cada nodo interior corresponde a a una de las variables de entrada. Hay aristas hacia un hijo para cada uno de los posibles valores de dicha variable de entrada. Cada hoja representa un valor de la variable objetivo dados los valores de las variables entrada representadas por el camino de la raz a la hoja.
12 de 33
14 de 33
Un rbol puede ser aprendido separando el conjunto fuente en subconjuntos basados en una prueba de valor de atributo. Este proceso es repetido en cada subconjunto derivado de una manera recursiva llamada particionamiento recursivo. La recursin termina cuando el subconjunto en un nodo tiene para todos sus miembros el mismo valor de la variable objetivo o cuando separar ya no agrega valor a la prediccin.
15 de 33
Los datos vienen en registros de la forma: (x,Y) = (x1, x2, x3, ..., xk, Y)
La variable dependiente Y es la variable objetivo que se est tratando de explicar, clasificar o generalizar. El vector x est compuesto de las variables de entrada The vector x is composed of the input variables x1, x2, x3, etc., que son usadas para la tarea de minera.
16 de 33
17 de 33
Esquema de clasificacin comn, basado en el uso de medidas de distancia. Es un tipo de aprendizaje por analoga. La tcnica asume que el conjunto completo de entrenamiento incluye no slo los datos sino tambin la clasificacin deseada. Los datos de entrenamiento son entonces el modelo.
18 de 33
Cuando se va a clasificar un nuevo elemento (t) se determina su distancia contra todos los elementos en el conjunto de entrenamiento. Luego slo se consideran los K elementos ms cercanos al nuevo elemento (t). El nuevo elemento (t) es entonces clasificado en la clase mayoritaria de los vecinos cercanos.
19 de 33
De manera ms formal:
El conjunto de entrenamiento es descrito por atributos numricos n-dimensionales. Cada individuo representa un punto en un espacio n-dimensional. As, el conjunto de entrenamiento es almacenado en un espacio patrn n-dimensional. Cuando se clasifica un individuo nuevo se busca en el espacio patrn los k individuos ms cercanos al nuevo individuo.
20 de 33
La cercana es usualmente definida en trminos de la distancia euclidiana, donde la distancia entre dos puntos, X=(x1, x2, , xn) y Y=(y1, y2, , yn) es
d ( X , Y )=
n i =1
( xi yi )
El nuevo individuo es asignado a la clase ms comn o mayoritaria entre sus k vecinos ms cercanos. Cuando k=1 se asigna la clase del elemento ms cercano.
21 de 33
22 de 33
23 de 33
La tcnica KNN es muy sensible a la escogencia de k. Una regla prctica es k menor o igual a la raz del nmero de elementos de entrenamiento. Los clasificadores de vecinos ms cercanos son aprendizaje basados en instancia o aprendizaje flojo (lazy learning). Tienen mayor eficiencia en el entrenamiento. Sin embargo, los costos computacionales pueden ser caros en la clasificacin si los individuos de entrenamiento (el modelo) son muchos.
24 de 33
25 de 33
26 de 33
27 de 33
28 de 33
29 de 33
Sea X un conjunto de datos cuya clase es desconocida. Sea H alguna hiptesis tal que el conjunto de datos pertenece a una clase C. Se desea entonces determinar P(H|X), la probabilidad de que la hiptesis H sea vlida dados los datos observados en X. P(H|X) es la probabilidad posterior, o la probabilidad a posteriori, de H condicionada en X.
30 de 33
El teorema de Bayes es til en el hecho de que provee una manera de calcular la probabilidad posterior, P(H|X), de P(H), P(X) y P(X|H). El teorema de Bayes adaptado a la clasificacin es:
P ( X H ) P ( H ) P ( H X )= P(X )
31 de 33
Preguntas?