Vous êtes sur la page 1sur 24

Aprendizado de Mquina

Aprendizagem Bayesiana

Luiz Eduardo S. Oliveira

Universidade Federal do Paran


Departamento de Informtica
http://web.inf.ufpr.br/luizoliveira

Luiz S. Oliveira (UFPR) Aprendizado de Mquina 1 / 22


Introduo

O pensamento Bayesiano fornece uma abordagem probabilstica para a


aprendizagem.
Est baseado na suposio de que as quantidades de interesse so
reguladas por distribuies de probabilidades.
Quantificar o custo/benefcio entre diferentes decises de classificao
usando probabilidades e custos associados a classificao.
Teorema de Bayes
I Mostra como alterar as probabilidades a priori tendo em conta novas
evidncias de forma a obter probabilidades a posteriori.

Luiz S. Oliveira (UFPR) Aprendizado de Mquina 2 / 22


Terminologia

Classes i (varivel aleatria)


Probabilidades a priori P(i )
I Conhecimento a priori que se tem sobre o problema, ou seja,
conhecimento a priori sobre a apario de exemplos das classes do
problema.
Funo de Densidade Probabilidade P(x)
I Freqncia com a qual encontramos uma determinada caracterstica
I Evidncias

Luiz S. Oliveira (UFPR) Aprendizado de Mquina 3 / 22


Terminologia

Densidade de Probabilidade Condicional


I P(x|j ) (Likelihood)
I Frequncia com que encontramos uma determinada caracterstica dado
que a mesma pertence a classe j

Densidade de duas classes em que x representa uma caracterstica qualquer.

Luiz S. Oliveira (UFPR) Aprendizado de Mquina 4 / 22


Terminologia

Probabilidade a posteriori
I P(j |x)
I Probabilidade que o padro pertena a classe j data a caracterstica x
Regra de deciso baseada apenas em priors
I 1 , se P(1 ) > P(2 )
I 2 , caso contrrio.

Luiz S. Oliveira (UFPR) Aprendizado de Mquina 5 / 22


Tomando deciso usando Bayes

Probabilidades a posteriori calculadas usando P(1 ) = 2/3 e P(2 ) = 1/3.


Nesse caso, para um valor de x = 14, a probabilidade do padro pertencer
a 2 de 0.08, enquanto que a probabilidade do padro pertencer a 1
de 0.92.
Para cada x, as probabilides a posteriori somam 1.

Luiz S. Oliveira (UFPR) Aprendizado de Mquina 6 / 22


Teorema de Bayes

Basicamente o teorema de Bayes mostra como rever as crenas


sempre que novas evidncias so coletadas.
Ou seja, atualizar a probabilidade a posteriori utilizando para isso a
probabilidade a priori e as verossimilhanas e as evidncias

P(A) P(B|A)
P(A|B) =
P(B)

P(A|B) a probabilidade a posteriori


P(A) a probabilidade a priori
P(B|A) so as verossimilhanas (likelihood)
P
P(B) so as evidncias, dado por P(Ai ) P(B|Ai )

Luiz S. Oliveira (UFPR) Aprendizado de Mquina 7 / 22


Exemplo

Um mdico sabe que a meningite causa torcicolo em 50% dos casos.


Porm, o mdico sabe que a meningite atinge 1/50000 e tambm que
a probabilidade de se ter torcicolo de 1/20.
Usando Bayes pra saber a probabilidade de uma pessoa ter meningite
dado que ela est com torcicolo

Luiz S. Oliveira (UFPR) Aprendizado de Mquina 8 / 22


Exemplo

Um mdico sabe que a meningite causa torcicolo em 50% dos casos.


Porm, o mdico sabe que a meningite atinge 1/50000 e tambm que
a probabilidade de se ter torcicolo de 1/20.
Usando Bayes pra saber a probabilidade de uma pessoa ter meningite
dado que ela est com torcicolo
Temos ento
P(T |M) = 0.5
P(M) = 1/50000
P(T ) = 1/20

P(M) P(T |M) 1/50000 0.5


P(M|T ) = = = 0.0002
P(T ) 1/20

Luiz S. Oliveira (UFPR) Aprendizado de Mquina 8 / 22


Exerccio

Considere o sistema de classificao de peixes. Para essa poca do


ano, sabe-se que a probabilidade de pescar salmo maior que pescar
robalo, P(salmao) = 0.82 e P(robabo) = 0.18.
Suponha que a nica caracterstica que voc pode contar a
intensidade do peixe ou seja, se ele claro ou escuro. Sabe-se que
49.5% dos salmes tem intensidade clara e que 85% dos robalos tem
intensidade clara.
Calcule a probabilidade de ser salmo dado que o peixe pescado tem
intensidade clara.

Luiz S. Oliveira (UFPR) Aprendizado de Mquina 9 / 22


Exerccio

Considere o sistema de classificao de peixes. Para essa poca do


ano, sabe-se que a probabilidade de pescar salmo maior que pescar
robalo, P(salmao) = 0.82 e P(robabo) = 0.18.
Suponha que a nica caracterstica que voc pode contar a
intensidade do peixe ou seja, se ele claro ou escuro. Sabe-se que
49.5% dos salmes tem intensidade clara e que 85% dos robalos tem
intensidade clara.
Calcule a probabilidade de ser salmo dado que o peixe pescado tem
intensidade clara.

P(S) P(C |S) 0.82 0.495


P(S|C ) = = = 0.726
P(C ) 0.82 0.495 + 0.18 0.85

Luiz S. Oliveira (UFPR) Aprendizado de Mquina 9 / 22


Classificador Nave Bayes

Um dos algoritmos de aprendizagem mais prticos e utilizados na


literatura.
Denominado Nave (ingnuo) por assumir que os atributos so
condicionalmente independentes, ou seja, a informao de um evento
no informativa sobre nenhum outro.
Apesar dessa premissa, o classificador reporta bom desempenho em
diversas tarefas de classificao.
Aplicaes bem sucedidas:
I Diagnstico
I Classificao de documentos textuais

Luiz S. Oliveira (UFPR) Aprendizado de Mquina 10 / 22


Classificador Nave Bayes

Se aplica a tarefas de aprendizagem onde cada instncia x descrita


por um conjuno de valores de atributos em que a funo alvo, f (x)
pode assumir qualquer valor de um conjunto V .
Um conjunto de exemplos de treinamento da funo alvo fornecido a
uma nova instncia apresentada, descrita pela tupla de valores de
atributos < a1 , a2 , . . . , an >.
A tarefa predizer o valor alvo (ou classificao) para esta nova
instncia.

Luiz S. Oliveira (UFPR) Aprendizado de Mquina 11 / 22


Classificador Nave Bayes

O classificador baseado na suposio de que os valores dos atributos


so condicionalmente independentes dados o valor alvo.
Se usarmos Bayes para mltiplas evidncias, temos
P(E1 , E2 , . . . , En |H) P(H)
P(H|E1 , E2 , . . . , En ) =
P(E1 , E2 , . . . , En )

Considerando a hiptese de independncia, podemos re-escrever o


teorema de Bayes da seguinte forma:

P(E1 |H), P(E2 |H), . . . , P(En |H) P(H)


P(H|E1 , E2 , . . . , En ) =
P(E1 , E2 , . . . , En )

O denominador pode ser ignorado por se tratar de um termo comum.

Luiz S. Oliveira (UFPR) Aprendizado de Mquina 12 / 22


Exemplo
Para entender melhor o considere o seguinte problema:

Luiz S. Oliveira (UFPR) Aprendizado de Mquina 13 / 22


Construindo o Modelo (NB)

O primeiro passo consiste em construir o modelo de probabilidades


condicionais Nave Bayes (NB)

A tabela acima contem a frequncia de diferentes evidncias.


Por exemplo, existem duas instncias mostrando (outlook=sunny)
para (jogar=yes)

Luiz S. Oliveira (UFPR) Aprendizado de Mquina 14 / 22


Avaliao

Aps definir todas as frequncias necessrio calcular todas as


probabilidades condicionais e as probabilidades a priori.

Por exemplo:
P(outlook=sunny|play=yes) = 2/9
P(play=yes) = 9/14

Luiz S. Oliveira (UFPR) Aprendizado de Mquina 15 / 22


Predio
De posse do modelo, podemos us-lo para predizer um evento play
com base em um conjunto qualquer de evidncias.
Por exemplo: [Sunny,Cool,High,True,?]

P(Yes|E ) = (P(Outlook = sunny |Yes)


P(Temp = Cool|Yes)
P(Humidity = High|Yes)
P(Windy = True|Yes)
P(Yes))/P(E )

P(E) pode ser ignorada por se tratar de um denominador comum quando


queremos comparar as duas classes. Deste modo, temos
2 3 3 3 9
P(Yes|E ) =
9 9 9 9 14
Luiz S. Oliveira (UFPR) Aprendizado de Mquina 16 / 22
Predio

Calculando a predio para as duas classes


2 3 3 3 9
Para Yes temos 9 9 9 9 14 = 0.0053
3 1 4 3 5
Para No temos 5 5 5 5 14 = 0.0206
Convertendo esses valores para probabilidade atravs da normalizao,
temos
P(Yes|E ) = 0.0053/(0.0053 + 0.0206) = 0.205
P(No|E ) = 0.0206/(0.0053 + 0.0206) = 0.795

Luiz S. Oliveira (UFPR) Aprendizado de Mquina 17 / 22


Tcnica de Suavizao
Em alguns casos, a frequncia pode ser zero, como por exemplo
P(outlook=overcast|play=No) = 0/5.
Isso cria um problema para calcular P(No), a qual ser sempre zero
quando esta evidncia for utilizada.
A tcnica de suavizao mais utilizada a estimao de Laplace, a
qual dada
nc + p
P 0 (H|E ) =
n+

nc o nmero de hipteses existentes para a classe (Ex: Zero para


outlook=overcast e play=no)
n nmero e exemplos totais para o treinamento
nmero de exemplos virtuais
Considerado que as evidncias so igualmente distribudas, tempo
p = 13 (sunny,overcast,rainy)
Luiz S. Oliveira (UFPR) Aprendizado de Mquina 18 / 22
Tcnica de Suavizao

Reestimando os valores usando Laplace, teriamos


3+31/3
P(outlook = Sunny |play = No) = 5+3 = 84
P(outlook = Overcast|play = No) = 0+31/3
5+3 = 18
P(outlook = Rainy |play = No) = 2+31/3
5+3 = 38
Desta forma, todos os valores foram redistribudos mantendo uma
proporo similar

Luiz S. Oliveira (UFPR) Aprendizado de Mquina 19 / 22


Calculando as probabilidade para atributos contnuos
Existem duas maneiras
Discretizar os atributos continuos em algumas categorias. Por
exemplo, temperatura acima de 80F pode ser considerada alta.
Outra forma consiste em usar uma funo de densidade probabilidade
e desta forma preservar os valores continuos.
I Nesse caso assumimos que as variveis continuas seguem uma
distribuio normal
I Com isso em mente, podemos calcular a mdia e desvio de cada
varivel usando a base de aprendizagem.
I De posse da mdia e desvio, basta aplicar a formula da normal para
estimar a probabilidade

1 (x)2
f (x) = p e 22
(2)
scipy.stats.norm(, ).pdf (x)

Luiz S. Oliveira (UFPR) Aprendizado de Mquina 20 / 22


Exemplo

Luiz S. Oliveira (UFPR) Aprendizado de Mquina 21 / 22


Exerccio

Calcular a probabilidade para


E =[Outlook=rainy, Temp=65, Humid, 70, Wind=True)
P(Yes|E) = ?
P(No|E) = ?
Luiz S. Oliveira (UFPR) Aprendizado de Mquina 22 / 22

Vous aimerez peut-être aussi