Bayesiana

Aprendizado de Mquina
Aprendizagem Bayesiana
Luiz Eduardo S. Oliveira
Universidade Federal do Paran

Departamento de Informtica
http://web.inf.ufpr.br/luizoliveira
Luiz S. Oliveira (UFPR) Aprendizado de Mquina 1 / 22

Introduo
O pensamento Bayesiano fornece uma abordagem probabilstica para a

aprendizagem.
Est baseado na suposio de que as quantidades de interesse so
reguladas por distribuies de probabilidades.
Quantificar o custo/benefcio entre diferentes decises de classificao
usando probabilidades e custos associados a classificao.
Teorema de Bayes
I Mostra como alterar as probabilidades a priori tendo em conta novas
evidncias de forma a obter probabilidades a posteriori.

Terminologia
Classes i (varivel aleatria)

Probabilidades a priori P(i )
I Conhecimento a priori que se tem sobre o problema, ou seja,
conhecimento a priori sobre a apario de exemplos das classes do
problema.
Funo de Densidade Probabilidade P(x)
I Freqncia com a qual encontramos uma determinada caracterstica
I Evidncias

Terminologia
Densidade de Probabilidade Condicional

I P(x|j ) (Likelihood)
I Frequncia com que encontramos uma determinada caracterstica dado
que a mesma pertence a classe j
Densidade de duas classes em que x representa uma caracterstica qualquer.

Terminologia
Probabilidade a posteriori
I P(j |x)
I Probabilidade que o padro pertena a classe j data a caracterstica x
Regra de deciso baseada apenas em priors
I 1 , se P(1 ) > P(2 )
I 2 , caso contrrio.

Tomando deciso usando Bayes
Probabilidades a posteriori calculadas usando P(1 ) = 2/3 e P(2 ) = 1/3.

Nesse caso, para um valor de x = 14, a probabilidade do padro pertencer
a 2 de 0.08, enquanto que a probabilidade do padro pertencer a 1
de 0.92.
Para cada x, as probabilides a posteriori somam 1.

Teorema de Bayes
Basicamente o teorema de Bayes mostra como rever as crenas

sempre que novas evidncias so coletadas.
Ou seja, atualizar a probabilidade a posteriori utilizando para isso a
probabilidade a priori e as verossimilhanas e as evidncias
P(A) P(B|A)
P(A|B) =
P(B)
P(A|B) a probabilidade a posteriori

P(A) a probabilidade a priori
P(B|A) so as verossimilhanas (likelihood)
P
P(B) so as evidncias, dado por P(Ai ) P(B|Ai )

Exemplo
Um mdico sabe que a meningite causa torcicolo em 50% dos casos.

Porm, o mdico sabe que a meningite atinge 1/50000 e tambm que
a probabilidade de se ter torcicolo de 1/20.
Usando Bayes pra saber a probabilidade de uma pessoa ter meningite
dado que ela est com torcicolo

Exemplo
Um mdico sabe que a meningite causa torcicolo em 50% dos casos.

Porm, o mdico sabe que a meningite atinge 1/50000 e tambm que
a probabilidade de se ter torcicolo de 1/20.
Usando Bayes pra saber a probabilidade de uma pessoa ter meningite
dado que ela est com torcicolo
Temos ento
P(T |M) = 0.5
P(M) = 1/50000
P(T ) = 1/20
P(M) P(T |M) 1/50000 0.5

P(M|T ) = = = 0.0002
P(T ) 1/20

Exerccio
Considere o sistema de classificao de peixes. Para essa poca do

ano, sabe-se que a probabilidade de pescar salmo maior que pescar
robalo, P(salmao) = 0.82 e P(robabo) = 0.18.
Suponha que a nica caracterstica que voc pode contar a
intensidade do peixe ou seja, se ele claro ou escuro. Sabe-se que
49.5% dos salmes tem intensidade clara e que 85% dos robalos tem
intensidade clara.
Calcule a probabilidade de ser salmo dado que o peixe pescado tem
intensidade clara.

Exerccio
Considere o sistema de classificao de peixes. Para essa poca do

ano, sabe-se que a probabilidade de pescar salmo maior que pescar
robalo, P(salmao) = 0.82 e P(robabo) = 0.18.
Suponha que a nica caracterstica que voc pode contar a
intensidade do peixe ou seja, se ele claro ou escuro. Sabe-se que
49.5% dos salmes tem intensidade clara e que 85% dos robalos tem
intensidade clara.
Calcule a probabilidade de ser salmo dado que o peixe pescado tem
intensidade clara.
P(S) P(C |S) 0.82 0.495

P(S|C ) = = = 0.726
P(C ) 0.82 0.495 + 0.18 0.85

Classificador Nave Bayes
Um dos algoritmos de aprendizagem mais prticos e utilizados na

literatura.
Denominado Nave (ingnuo) por assumir que os atributos so
condicionalmente independentes, ou seja, a informao de um evento
no informativa sobre nenhum outro.
Apesar dessa premissa, o classificador reporta bom desempenho em
diversas tarefas de classificao.
Aplicaes bem sucedidas:
I Diagnstico
I Classificao de documentos textuais

Se aplica a tarefas de aprendizagem onde cada instncia x descrita

por um conjuno de valores de atributos em que a funo alvo, f (x)
pode assumir qualquer valor de um conjunto V .
Um conjunto de exemplos de treinamento da funo alvo fornecido a
uma nova instncia apresentada, descrita pela tupla de valores de
atributos < a1 , a2 , . . . , an >.
A tarefa predizer o valor alvo (ou classificao) para esta nova
instncia.

O classificador baseado na suposio de que os valores dos atributos

so condicionalmente independentes dados o valor alvo.
Se usarmos Bayes para mltiplas evidncias, temos
P(E1 , E2 , . . . , En |H) P(H)
P(H|E1 , E2 , . . . , En ) =
P(E1 , E2 , . . . , En )
Considerando a hiptese de independncia, podemos re-escrever o

teorema de Bayes da seguinte forma:
P(E1 |H), P(E2 |H), . . . , P(En |H) P(H)

P(H|E1 , E2 , . . . , En ) =
P(E1 , E2 , . . . , En )
O denominador pode ser ignorado por se tratar de um termo comum.

Exemplo
Para entender melhor o considere o seguinte problema:

Construindo o Modelo (NB)
O primeiro passo consiste em construir o modelo de probabilidades

condicionais Nave Bayes (NB)
A tabela acima contem a frequncia de diferentes evidncias.

Por exemplo, existem duas instncias mostrando (outlook=sunny)
para (jogar=yes)

Avaliao
Aps definir todas as frequncias necessrio calcular todas as

probabilidades condicionais e as probabilidades a priori.
Por exemplo:
P(outlook=sunny|play=yes) = 2/9
P(play=yes) = 9/14

Predio
De posse do modelo, podemos us-lo para predizer um evento play
com base em um conjunto qualquer de evidncias.
Por exemplo: [Sunny,Cool,High,True,?]
P(Yes|E ) = (P(Outlook = sunny |Yes)

P(Temp = Cool|Yes)
P(Humidity = High|Yes)
P(Windy = True|Yes)
P(Yes))/P(E )
P(E) pode ser ignorada por se tratar de um denominador comum quando

queremos comparar as duas classes. Deste modo, temos
2 3 3 3 9
P(Yes|E ) =
9 9 9 9 14
Predio
Calculando a predio para as duas classes

2 3 3 3 9
Para Yes temos 9 9 9 9 14 = 0.0053
3 1 4 3 5
Para No temos 5 5 5 5 14 = 0.0206
Convertendo esses valores para probabilidade atravs da normalizao,
temos
P(Yes|E ) = 0.0053/(0.0053 + 0.0206) = 0.205
P(No|E ) = 0.0206/(0.0053 + 0.0206) = 0.795

Tcnica de Suavizao
Em alguns casos, a frequncia pode ser zero, como por exemplo
P(outlook=overcast|play=No) = 0/5.
Isso cria um problema para calcular P(No), a qual ser sempre zero
quando esta evidncia for utilizada.
A tcnica de suavizao mais utilizada a estimao de Laplace, a
qual dada
nc + p
P 0 (H|E ) =
n+
nc o nmero de hipteses existentes para a classe (Ex: Zero para

outlook=overcast e play=no)
n nmero e exemplos totais para o treinamento
nmero de exemplos virtuais
Considerado que as evidncias so igualmente distribudas, tempo
p = 13 (sunny,overcast,rainy)
Tcnica de Suavizao
Reestimando os valores usando Laplace, teriamos

3+31/3
P(outlook = Sunny |play = No) = 5+3 = 84
P(outlook = Overcast|play = No) = 0+31/3
5+3 = 18
P(outlook = Rainy |play = No) = 2+31/3
5+3 = 38
Desta forma, todos os valores foram redistribudos mantendo uma
proporo similar

Calculando as probabilidade para atributos contnuos
Existem duas maneiras
Discretizar os atributos continuos em algumas categorias. Por
exemplo, temperatura acima de 80F pode ser considerada alta.
Outra forma consiste em usar uma funo de densidade probabilidade
e desta forma preservar os valores continuos.
I Nesse caso assumimos que as variveis continuas seguem uma
distribuio normal
I Com isso em mente, podemos calcular a mdia e desvio de cada
varivel usando a base de aprendizagem.
I De posse da mdia e desvio, basta aplicar a formula da normal para
estimar a probabilidade
1 (x)2
f (x) = p e 22
(2)
scipy.stats.norm(, ).pdf (x)

Exemplo

Exerccio
Calcular a probabilidade para

E =[Outlook=rainy, Temp=65, Humid, 70, Wind=True)
P(Yes|E) = ?
P(No|E) = ?

Bayesiana

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Bayesiana

Transféré par

Droits d'auteur :

Formats disponibles

Aprendizado de Mquina

Luiz Eduardo S. Oliveira

Universidade Federal do Paran

Luiz S. Oliveira (UFPR) Aprendizado de Mquina 1 / 22

O pensamento Bayesiano fornece uma abordagem probabilstica para a

Luiz S. Oliveira (UFPR) Aprendizado de Mquina 2 / 22

Classes i (varivel aleatria)

Luiz S. Oliveira (UFPR) Aprendizado de Mquina 3 / 22

Densidade de Probabilidade Condicional

Densidade de duas classes em que x representa uma caracterstica qualquer.

Luiz S. Oliveira (UFPR) Aprendizado de Mquina 4 / 22

Luiz S. Oliveira (UFPR) Aprendizado de Mquina 5 / 22

Probabilidades a posteriori calculadas usando P(1 ) = 2/3 e P(2 ) = 1/3.

Luiz S. Oliveira (UFPR) Aprendizado de Mquina 6 / 22

Basicamente o teorema de Bayes mostra como rever as crenas

P(A|B) a probabilidade a posteriori

Luiz S. Oliveira (UFPR) Aprendizado de Mquina 7 / 22

Um mdico sabe que a meningite causa torcicolo em 50% dos casos.

Luiz S. Oliveira (UFPR) Aprendizado de Mquina 8 / 22

Um mdico sabe que a meningite causa torcicolo em 50% dos casos.

P(M) P(T |M) 1/50000 0.5

Luiz S. Oliveira (UFPR) Aprendizado de Mquina 8 / 22

Considere o sistema de classificao de peixes. Para essa poca do

Luiz S. Oliveira (UFPR) Aprendizado de Mquina 9 / 22

Considere o sistema de classificao de peixes. Para essa poca do

P(S) P(C |S) 0.82 0.495

Luiz S. Oliveira (UFPR) Aprendizado de Mquina 9 / 22

Um dos algoritmos de aprendizagem mais prticos e utilizados na

Luiz S. Oliveira (UFPR) Aprendizado de Mquina 10 / 22

Se aplica a tarefas de aprendizagem onde cada instncia x descrita

Luiz S. Oliveira (UFPR) Aprendizado de Mquina 11 / 22

O classificador baseado na suposio de que os valores dos atributos

Considerando a hiptese de independncia, podemos re-escrever o

P(E1 |H), P(E2 |H), . . . , P(En |H) P(H)

O denominador pode ser ignorado por se tratar de um termo comum.

Luiz S. Oliveira (UFPR) Aprendizado de Mquina 12 / 22

Luiz S. Oliveira (UFPR) Aprendizado de Mquina 13 / 22

O primeiro passo consiste em construir o modelo de probabilidades

A tabela acima contem a frequncia de diferentes evidncias.

Luiz S. Oliveira (UFPR) Aprendizado de Mquina 14 / 22

Aps definir todas as frequncias necessrio calcular todas as

Luiz S. Oliveira (UFPR) Aprendizado de Mquina 15 / 22

P(Yes|E ) = (P(Outlook = sunny |Yes)

P(E) pode ser ignorada por se tratar de um denominador comum quando

Calculando a predio para as duas classes

Luiz S. Oliveira (UFPR) Aprendizado de Mquina 17 / 22

nc o nmero de hipteses existentes para a classe (Ex: Zero para

Reestimando os valores usando Laplace, teriamos

Luiz S. Oliveira (UFPR) Aprendizado de Mquina 19 / 22

Luiz S. Oliveira (UFPR) Aprendizado de Mquina 20 / 22

Luiz S. Oliveira (UFPR) Aprendizado de Mquina 21 / 22

Calcular a probabilidade para

Vous aimerez peut-être aussi