Académique Documents
Professionnel Documents
Culture Documents
Deduccin de reglas rudimentarias Modelacin estadstica Construccin de rboles de decisin Construccin de reglas Aprendizaje de reglas de la asociacin Modelos lineales Aprendizaje basado en casos Agrupamiento
La simplicidad primero
Los algoritmos simples trabajan a menudo muy bien! Hay muchas clases de estructura simple: Una caracterstica hace todo el trabajo Todas las cualidades contribuyen igualmente e independientemente Una combinacin lineal pesada puede servir. Basado en casos: utilizar pocos prototipos El uso de reglas lgicas simples El xito del mtodo depende del dominio
1R: aprende un rbol de decisin de 1 nivel reglas donde todas prueban por un atributo en particular Versin bsica Un rama para cada valor Cada rama asigna la clase ms frecuente Tasa de error: proporcin de los casos que no pertenecen a la clase de la mayora de su rama correspondiente Elija el atributo con la tasa de error ms baja (asume atributos nominales)
Pseudo-cdigo de 1R
Para cada atributo,
Para cada valor del atributo, haga una regla como sigue: cuente cuantas veces aparece cada clase encuentre la clase ms frecuente haga que la regla asigne esa clase a este atributo-valor Calcule el ndice de error de las reglas Elija las reglas con la tasa de error ms pequea
El problema de overfitting
Este procedimiento es muy sensible al ruido
Un caso con una etiqueta incorrecta de la clase producir probablemente un intervalo separado
Evitando el overfitting
Discusin de 1R
1R fue descrito en un artculo de Holte (1993) )
Contiene una evaluacin experimental en 16 datasets (que usan la validacin cruzada de modo que los resultados fueran el representativos del funcionamiento en los datos futuros) El nmero mnimo de casos fue fijado a 6 despus de cierta experimentacin Las reglas simples de 1R se comportaron no mucho peor que los mucho ms complejos rboles de decisin
La modelacin estadstica
Opuesto a 1R: usa todos los atributos Dos asunciones: Los atributos son
igualmente importante estadsticamente independiente (dado el valor de la clase) es decir, sabiendo el valor de un atributo no dice nada sobre el valor de otro (si se sabe la clase)
La asuncin de independencia nunca es correcta! Pero este esquema trabaja bien en la prctica
La regla de Bayes
Qu si un valor de un atributo no ocurre con cada valor de la clase? (por ejemplo. Humidity = high para la clase yes)
La probabilidad ser cero! la probabilidad Aposteriori tambin ser cero!
Remedio: agregue 1 a la cuenta para cada combinacin valor-clase (el estimador de Laplace) Resultado: las probabilidades nunca sern cero! (tambin: estabiliza estimaciones de la probabilidad)
Valores ausentes
Entrenamiento: el caso no se incluye en la cuenta de la frecuencia para la combinacin clase-valor del atributo Clasificacin: el atributo ser omitido del clculo
Ejemplo:
Likelihood of yes = 3/ 9 3/ 9 3/ 9 9/ 14 = 0.0238 Likelihood of no = 1/ 5 4/ 5 3/ 5 5/ 14 = 0.0343 P(yes) = 0.0238 / (0.0238 + 0.0343) = 41% P(no) = 0.0343 / (0.0238 + 0.0343) = 59%
Atributos Numricos
Asuncin general: los atributos tienen una distribucin de probabilidad normal o Gaussiana (dada la clase) La funcin de la densidad de la probabilidad para la distribucin normal es definida por dos parmetros:
Clasificar un nuevo da
Un nuevo da:
Likelihood of yes = 2/9 0.0340 0.0221 3/9 9/14 = 0.000036 Likelihood of no = 3/5 0.0221 0.0381 3/5 5/14 = 0.000108 P(yes) = 0.000036 / (0.000036 + 0. 000108) = 25% P(no) = 0.000108 / (0.000036 + 0. 000108) = 75%
Los valores ausentes durante el entrenamiento no se incluyen en el clculo de la media ni la desviacin estndar
Densidades de la probabilidad
Nave Bayes trabaja asombrosamente bien (aunque la asuncin de la independencia se viola claramente) Por qu? Porque la clasificacin no requiere estimaciones exactas de la probabilidad mientras sea mximo probabilidad se asigna a la clase correcta No obstante, la adicin de demasiados atributos redundantes causar problemas (por ejemplo atributos idnticos) Note tambin que muchos atributos numricos no se distribuyen normalmente ( estimadores de densidad basados en kernel)
Qu cualidad a seleccionar?
Qu cualidad a seleccionar?
Clculo de la Informacin
La informacin se mide en bits
Dado una distribucin de la probabilidad, la informacion
requerida para predecir un acontecimiento es la entropa de la distribucin
Continuacin de la particin
Information gain est predispuesta hacia atributos con una gran cantidad de valores Esto puede dar lugar a overfitting (seleccin de un atributo que produce una prediccin no ptima)
Entropa del corte: Aumento de la informacin es mxima para el atributo ID code (0.940 bits)
Info(ID code)=info([0,1])+info([0,1])+...+info([0,1])=0bits
Gain ratio
Gain ratio: una modificacin del aumento de la informacin que reduce la influencia de atributos con mltiples valores. Gain ratio toma en cuenta el numero y tamao de las ramas en consideracin al elegir un atributo
Corrige el aumento de la informacin tomando la informacin intrnseca de la particin bajo consideracin
Discusin
Induccin Top-down de rboles de decisin: ID3, algoritmo desarrollado por Ross Quinlan
Radio de la ganancia es apenas una modificacin de este algoritmo bsico C4.5: trata con atributos numricos, valores ausentes, datos ruidosos
Acercamiento similar: CART Hay muchos otros criterios de seleccin del atributo! (Solamente poca diferencia en la exactitud del resultado)
Trabajan ms naturalmente con atributos numricos Tcnica estndar para la prediccin numrica
El resultado es combinacin linear de atributos x=w0+w1a1+w2a2+...+wkak
Los pesos se calculan de los datos de entrenamiento Valor predicho para el primer caso del entrenamiento a(1)
w0a0(1)+w1a1(1)+w2a2(1)+...+wkak(1)=wjaj(1) (si se asume que cada caso se ampla con un atributo constante con valor 1)
Derive los coeficientes usando operaciones estndares con matrices Se puede hacer si hay ms casos que atributos (en lnea general) La reduccin al mnimo del error absoluto es ms difcil
Clasificacin
Para la regresin linear esto se conoce como regresin lineal multi-respuesta Problema: valores de la salida no estn en el intervalo [0.1], por lo que no son estimaciones apropiadas de probabilidad
Construye un modelo linear para una variable objetivo transformada Asuma que tenemos dos clases La regresin logstica substituye el objetivo:
Transformacin Logit
Modelo que resulta:
Los parmetros se encuentran a partir de los datos de entrenamiento usando afinidad mxima
Afinidad Mxima
Mltiples clases
Puede realizar la regresin logstica independientemente para cada clase (como la regresin linear multi-respuesta) Problema: las estimaciones de la probabilidad para diversas clases no sumarn 1 Mejor: entrene a los modelos juntados maximizando la afinidad sobre todas las clases Una alternativa que trabaja a menudo bien en la prctica: clasificacin en parejas
Clasificacin en parejas
Idea: construir el modelo para cada par de clases, usando solamente datos de entrenamiento de esas clases Problema? Se tienen que solucionar k(k-1)/2 problemas de la clasificacin para el problema de la clase de k Resulta no ser un problema en muchos casos porque los conjuntos de entrenamiento llegan a ser pequeos:
Asume datos distribuidos uniformemente, es decir 2n/k para cada problema de aprendizaje de n instancias en total Si se supone que el algoritmo de aprendizaje es linear en n entonces el tiempo de clasificacion en parejas es proporcional a (k(k-1)/2) (2n/k) = (k-1) n
As la regresin logstica puede separar solamente los datos que se pueden separar por un hiperplano
La funcin de distancia define qu se aprende. La mayora de los esquemas basados en instancias utilizan la distancia euclidiana:
Tomar la raz cuadrada no se requiere al comparar distancias Otra medida popular: medida de bloques de la ciudad
Agrega diferencias sin elevarlas al cuadrado
Se encuadran en el paradigma perezoso de aprendizaje, frente al voraz al que pertenecen los paradigmas anteriores
Perezoso: El trabajo se retrasa todo lo posible .No se construye ningn modelo, el modelo es el propio conjunto de entrenamiento. Se trabaja cuando llega un nuevo caso a clasificar: Se buscan los casos ms parecidos y la clasificacin se construye en funcin de la clase a la que dichos casos pertenecen Los algoritmos ms conocidos estn basados en la regla del vecino ms prximo
Atributos nominales: distancia de 0 o 1 Poltica comn para los valores ausentes: se asume
distancia mxima (dado atributos normalizados)
Clasificacin
La extensin a la regla del vecino ms prximo, es considerar los k vecinos ms prximos. Funcionamiento: Dado e el ejemplo a clasificar
1.
2.
Seleccionar los k ejemplos con K = {e1,, ek} tal que, no existe ningn ejemplo e fuera de K con d(e,e)<d(e,ei), i=1,,k Devolver la clase que ms se repite en el conjunto {clase(e1), , clase (ek)} (la clase mayoritaria)
Ejemplo
Se podra tratar de forma diferente a los k-vecinos, p.e., dependiendo de la distancia al objeto a clasificar. De esta forma tendramos: Clasificacin
Caractersticas
El algoritmo k-NN es robusto frente al ruido cuando se utilizan valores de k moderados (k>1) Es bastante eficaz, puesto que utiliza varias funciones lineales locales para aproximar la funcin objetivo Es vlido para clasificacin y para prediccin numrica (devolviendo la media o la media ponderada por la distancia) La distancia entre vecinos podra estar dominada por variables irrelevantes
Seleccin previa de caractersticas
El algoritmo k-NN est disponible en WEKA bajo el nombre de ibk. Permite voto por mayora o voto ponderado por la distancia (1/d y 1-d). No permite ponderar la variables
Su complejidad temporal (para evaluar un ejemplo) es O(dn2) siendo O(d) la complejidad de la distancia utilizada
Una forma de reducir esta complejidad es mediante el uso de prototipos Otra forma es hacer la busqueda ms eficiente mediante las estructuras de datos apropiadas: Arbole kD (kD-Tree)