Vous êtes sur la page 1sur 11

Aprendizaje Automtico

BOOSTING

Aprendizaje Automtico

Como funciona boosting?


Boosting construye un nico clasificador fuerte como

adicin de mltiples clasificadores dbiles.


Ahora el peso de los datos originales, cambia despus de cada

iteracin de la secuencia, es decir antes de ajustar cada nuevo


clasificador dbil.

En Bagging cada rbol se ajusta a una muestra distinta y

se promedian: Disminucin de Varianza


En Boosting se construye un nico clasificador de forma
secuencial a partir de todas las muestras, mejorando en
cada paso: Disminucin de Sesgo

Boosting

Ada Boost.M1
The most popular boosting algorithm Fruend and

Schapire (1997)
Consider a two-class problem, output variable coded as Y
{-1,+1}
For a predictor variable X, a weak classifier G(X) produces
predictions that are in {-1,+1}
The error rate on the training sample is

1
err I( y G ( x ))
N
N

i 1

Ada Boost.M1 (Contd)


Sequentially apply the weak classification to repeatedly

modified versions of data


produce a sequence of weak classifiers Gm(x)
m=1,2,..,M
The predictions from all classifiers are combined via
majority vote to produce the final prediction

Algorithm AdaBoost.M1

Some slides borrowed from http://www.stat.ucl.ac.be/

Example: Adaboost.M1 (Contd)

Aprendizaje Automtico

Que minimiza AdaBoost?


Exponential Loss:

(, ) = exp( )
La imagen adjunta muestra

como Adaboost NO minimiza el


criterio Error de Training
La funcin que minimiza

Exponential Loss sigue


decreciendo despus de que el
error de training sea cero.

El error de test tambin sigue

decreciendo.
AdaBoost tiene un equivalente

como modelo probabilistico

Aprendizaje Automtico

Boosting en regresin

Aprendizaje Automtico

10

Boosting en regresin: Parmetros


Hay que fijar tres parmetros:
El nmero de rboles B ( si es muy grande podra sobre-ajustar). Se
puede estimar por validacin-cruzada.
El valor del parmetro de amortiguacin . Valores entre 0.01 y 0.001 son
tpicos. Si el valor de es muy pequeo podemos necesitar un valor de B
muy grande.
El nmero de particiones del rbol d que controla la complejidad de cada
uno de los rboles individuales. Normalmente d=1 y tenemos rboles con
una sola particin (stump)
En el caso d=1 tenemos un modelo que solo usa 1 variable en cada paso y por

tanto ajusta un modelo aditivo ( fcilmente interpretable!)


El parmetro d se denomina profundidad-de-interaccin ya que d particiones
podran hacer participar a d variables distintas.
Aunque d=1 funciona bien en muchas aplicaciones, en general 2<= d <=3
funciona bien en el contexto de boosting.

Aprendizaje Automtico

11

Comparativa RF vs Boosting

Conjunto de datos de
expresiones genticas de
15 -clases

Vous aimerez peut-être aussi