Académique Documents
Professionnel Documents
Culture Documents
p.1/21
A.X. Falcao
Roteiro da Aula
Bagging
Boosting
Ver livro da Kuncheva.
p.2/21
A.X. Falcao
Bagging
Bagging (Bootstrap AGGregatING) e boosting so tcnicas
de treinamento para colees de classificadores instveis.
A idia criar uma coleo de classificadores distintos. Em
bagging, esta diversidade surge por amostragem aleatria,
independente e uniforme dos objetos em Z para criar um
conjunto de treinamento
(i)
Z1 ,
classificador Di , i = 1, 2, . . . , L. Os conjuntos
(i)
Z1
podem ter
Bagging
Treinamento
1. Para um dado L, inicialize o conjunto de
classificadores D .
2. Para i = 1, 2, . . . , L, faa:
3.
(i)
Bagging
Em bagging, os classificadores so quase independentes.
Nestas condies, sabemos que a exatido da coleo
maior que a individual. Espera-se, portanto, uma
correlao i,j 0 entre as sadas de quaisquer pares de
classificadores Di e Dj , i 6= j , da coleo. Para duas
classes, por exemplo:
N 11 N 00 N 01 N 10
i,j = p
(N 11 + N 10 )(N 01 + N 00 )(N 11 + N 01 )(N 10 + N 00 )
Bagging
O bagging com rvores de deciso denominado florestas
aleatrias. O mtodo pasting small votes outro variante
que busca minimizar o tamanho N1 dos conjuntos de treinamento. Conjuntos de treinamento com tamanho relativo
pequeno so denominados bites. O bagging com bites
chamado Rvotes e apresenta pssimos resultados. A variao mais interessante chamada Ivotes, onde a amos(i)
p.6/21
A.X. Falcao
Bagging
Em Ivotes, os classificadores so construdos um aps o
outro de forma que aproximadamente a metade das
(l+1)
so classificadas corretamente pela
amostras em Z1
coleo Dl = {D1 , D2 , . . . , Dl }, 1 < l L 1, e a outra
metade no. Seja Dl uma coleo com erro el < 0.5 em Z3 .
(l+1)
so obtidas pelo seguinte algoritmo.
As amostras em Z1
1. Obtenha aleatoriamente (com distribuio uniforme)
um objeto z de Z .
2. Identifique quais classificadores em Dl no possuem z
nos seus conjuntos de treinamento. Estes
classificadores so chamados out-of-bag. Se z estiver
em todos os conjuntos, ignore-o e volte para 1. Caso
contrrio...
p.7/21
A.X. Falcao
Bagging
3. Submeta z classificao pelos classificadores
out-of-bag e atribua-o um rtulo final por voto
majoritrio.
4. Se o rtulo de z estiver errado, insira z em
(l+1)
contrrio, insira ou no z em Z1
el
de insero.
probabilidade 1e
l
(l+1)
.
Z1
Caso
respeitando
l = L.
p.8/21
A.X. Falcao
Boosting
O mtodo boosting foi inspirado em um algoritmo de aprendizado on-line, denominado Hedge( ). Este algoritmo atribui pesos para um conjunto de estratgias que predizem o
resultado de um certo evento. As estratgias aqui so classificadores e os pesos so suas probabilidades de acerto. O
algoritmo assume que dispomos de um conjunto de classificadores D = {D1 , D2 , . . . , DL } j treinados e de um conjunto
de avaliao Z2 = {z1 , z2 , . . . , zN2 }. O objetivo atualizar os
pesos de forma a identificar o classificador mais adequado
para o problema (o mais exato em Z2 ).
p.9/21
A.X. Falcao
Hedge()
Considere:
A taxa [0, 1] de aprendizado.
A perda lij = 1 do classificador Di quando erra o rtulo
de um objeto zj Z2 (lij = 0 quando Di acerta).
A perda i acumulada de Di .
A perda acumulada de D.
O peso pji de Di no instante que classifica zj Z2 ,
j = 1, 2, . . . , N2 .
O peso normalizado pji de Di quando classifica zj .
p.10/21
A.X. Falcao
Hedge()
1. Faa 0, i 0 e p1i =
1
L
para i = 1, 2, . . . , L.
2. Para zj , j = 1, 2, . . . , N2 , faa
pji
pji
para i = 1, 2, . . . , L.
3.
Calcule a distribuio
4.
5.
6.
7.
j
p
k=1 k
PL
Atualize i i + lij .
Atualize os pesos
8. Retorne , i , e
pj+1
i
+1
pN
i
j lij
pi .
+1
pN
PL i N +1 ,
k=1 pk
i = 1, 2, . . . , L.
p.11/21
A.X. Falcao
Hedge()
ln L
p
ln L + ln L
min i + 2
i=1
p.12/21
A.X. Falcao
Adaboost
O algoritmo Adaboost (ADAptive BOOSTing) est relacionado ao problema de predio exata por combinar regras
mais simples e menos exatas. Os classificadores so construdos um aps o outro, e seus objetos de treinamento so
amostrados de Z de forma aleatria, inicialmente com distribuio uniforme e posteriormente com distribuio proporcional a sua dificuldade de classificao. A relao com
hedge( ) est em que os eventos so os classificadores,
as estratgias so os objetos, e as probabilidades de amostragem desses objetos so atualizadas durante o algoritmo.
p.13/21
A.X. Falcao
Adaboost
Considere:
A probabilidade pij do objeto zj Z , j = 1, 2, . . . , N , ser
(i)
p.14/21
A.X. Falcao
Treinamento em Adaboost
1. Para um dado L, faa p1j
1
N,
j = 1, 2, . . . , N e D .
2. Para i = 1, 2, . . . , L faa
3.
objetos em Z1 .
4.
5.
(i)
Z1 .
p.15/21
A.X. Falcao
Treinamento em Adaboost
6.
1
N,
D D Di , calcule i
e pi+1
j
i (1li )
pj i
PN
(1lk )
i
i
k=1 pk i
ei
1ei
, para j = 1, 2, . . . , N .
7. Retorne D e 1 , 2 , . . . , L .
Note que o nmero final de classificadores pode ser menor
que L.
p.16/21
A.X. Falcao
Classificao em Adaboost
1. Para uma amostra x, calcule o suporte
P
j (x) = Di (x)=wj ln 1i , para j = 1, 2, . . . , c.
2. A classe wj com o maior suporte escolhida como
rtulo de .
O algoritmo arc-x4 um variante do Adaboost que difere
em dois aspectos. Primeiro, o peso pij calculado como
a proporo de vezes que zj foi classificado errado pelos
i 1 classificadores construdos at o momento. Segundo,
Treinamento em arc-x4
1. Para um dado L, faa p1j
1
N,
j = 1, 2, . . . , N e D .
2. Para i = 1, 2, . . . , L faa
3.
4.
5.
pi+1
j
1+m4j
PN
4
k=1 1+mk
para j = 1, 2, . . . , N .
6. Retorne D.
p.18/21
A.X. Falcao
Classificao em arc-x4
A classificao igual a do algoritmo bagging (voto majoritrio). O desempenho equivalente ao do adaboost, apesar
do mtodo ser ad hoc.
p.19/21
A.X. Falcao
Pc
j=1 j (x)
= 1.
p.20/21
A.X. Falcao
p.21/21
A.X. Falcao