Anderson L. Souza - Redes Bayesianas - VSINAPE Final - 0

UNIVERSIDADE FEDERAL DE SO CARLOS UFSCAR
CENTRO DE CINCIAS EXATAS E TECNOLGICAS CCET

DEPARTAMENTO DE ESTATSTICA DES
A NDERSON L UI Z A R A -S OUZA
REDES BAYESIANAS:
UMA INTRODUO APLICADA A CREDIT SCORING
ORIENTADOR: PROF. DR. FRANCISCO LOUZADA NETO
SO CARLOS
2010
A NDERSON L UI Z A R A -S OUZA
REDES BAYESIANAS:
UMA INTRODUO APLICADA A CREDIT SCORING
Relatrio apresentado comisso julgadora do concurso de
Iniciao
Cientfica
do
19
Simpsio
Nacional
de
Probabilidade e Estatstica (SINAPE) - realizado na Estncia

de So Pedro-SP, durante 26 a 30 de 2010.
ORIENTADOR: PROF. DR. FRANCISCO LOUZADA NETO
SO CARLOS
2010
A verdadeira medida de um homem no como ele se comporta em

momentos de conforto e convenincia, mas como ele se
mantm em tempos de controvrsia e desafio
-Martin Luther King
AGRADECIMENTOS
minha famlia, principalmente meus pais, Carmen e Valdeci, por todo esforo,
compreenso e apoio para dar continuidade aos meus estudos. minha av Aparecida, por
estar sempre ao meu lado interessada e solidria aos meus avanos. minha irm Crystiane
pela tolerncia e horas de distrao.
Aos meus verdadeiros amigos, mesmo no havendo a necessidade de citar seus nomes,
pois quem me conhece, os conhece. Agradeo pelo intenso apoio e longas conversas sobre os
muitos variados assuntos, que contriburam para nos fortalecer em que somos hoje.
professora Teresa Cristina Martins Dias, pela amizade e por ter acreditado em meu
potencial desde meu ingresso no Bach. em Estatstica.
Ao meu orientador Francisco Louzada Neto pela amizade, oportunidades e toda a
experincia que tem me passado nesses anos de trabalho.
A todos os docentes e funcionrios do Departamento de Estatstica da UFSCar, pela
formao e estrutura disponvel.
RESUMO
A Inteligncia Artificial, segundo Tafner et al. (1995), uma rea catalisadora do

desejo humano de reproduzir inteligncia em mecanismos no-biolgicos; constitui-se em um
conjunto de tcnicas de programao para resolver problemas. Ela procura imitar as formas de
resoluo de problemas do mesmo modo que o homem o faz.
Alm disso, a Inteligncia Artificial uma rea interdisciplinar dentro das Cincias
Exatas, sendo explorada com maior intensidade pelas reas de Cincias da Computao e
Engenharia Eltrica, com o auxlio de metodologia e pensamento estatstico.
Segundo Mitchel, citado por Rezende (2004, p.93), entre os mtodos estatsticos,
destaca-se o aprendizado Bayesiano, que utiliza um modelo probabilstico baseado no
conhecimento prvio do problema, o qual combinado com exemplos de treinamento para
determinar a probabilidade final de uma hiptese.
Assim, as Redes Bayesianas so uma abordagem interpretativa e analtica para o
raciocnio probabilista e tem sido utilizada recentemente em diversas reas como, por
exemplo, estimao de risco operacional, diagnstico mdico, credit scoring, projeto de jogos
computacionais, imputao de dados, entre outras.
Desta forma, a tcnica de Redes Bayesianas um mtodo de modelagem e de deciso,
sendo alternativo s tcnicas comumente utilizadas como, por exemplo, Regresso Logstica e
Anlise Discriminante.
Esse trabalho de concluso de curso, desenvolvido de julho a dezembro de 2008, tem a
finalidade de apresentar de forma clara e objetiva fundamentos bsicos da tcnica de Redes
Bayesianas, realizar sua aplicao em exemplos, alguns deles envolvendo dados reais, e
apresentar os resultados de um estudo de simulao que compara a capacidade preditiva das
Redes Bayesianas com um procedimento padro, comumente utilizado na modelagem de
dados com respostas dicotmicas.
Palavras Chaves: Inteligncia Artificial Probabilstica, Redes Bayesianas, Aprendizado

Bayesiano, Naive Bayes, Credit Scoring.
NDICE
1. INTRODUO............................................................................................................... 08
1.1. INTELIGNCIA ARTIFICIAL................................................................................. 09
1.2. CREDIT SCORING................................................................................................... 12
1.3. PROBABILIDADES................................................................................................. 12
1.3.1. Thomas Bayes....................................................................................................... 13
1.3.2. Conceitos probabilistas......................................................................................... 13
1.3.2.1. Probabilidade e suas propriedades................................................................... 13
1.3.2.2. Probabilidade condicional................................................................................ 16
1.3.2.3. Independncia probabilstica............................................................................ 17
1.3.2.4. Teorema de Bayes............................................................................................ 18
1.3.2.5. As distribuies Multinomial e Dirichlet......................................................... 19
1.3.3. As Redes Bayesianas so Bayesianas? ................................................................. 20
1.4. COMENTRIOS FINAIS........................................................................................ 21
2. REDES BAYESIANAS.................................................................................................. 22
2.1. ESTRUTURA............................................................................................................. 23
2.1.1. Elementos Bsicos................................................................................................. 23
2.1.2. Estruturas de Teoria de Grafos.............................................................................. 23
2.1.3. Hierarquia entre ns.............................................................................................. 25
2.1.4. Formalizao Estatstica da Estrutura................................................................... 25
2.1.5. Tabela de probabilidade condicional..................................................................... 26
2.1.6. Exemplo Bsico de uma Rede Bayesiana.............................................................. 26
2.2. EVIDNCIA.............................................................................................................. 28
2.3. PROPRIEDADES MARKOVIANAS....................................................................... 29
2.4. A PROPRIEDADE DE D-SEPARAO................................................................. 31
2.5. EQUIVALNCIA DE MARKOV............................................................................. 32
2.6. MTODO GERAL PARA A CONSTRUO DE UMA REDE BAYESIANA..... 33
2.7. COMENTRIOS FINAIS......................................................................................... 34
3. INFERNCIA EM REDES BAYESIANAS.................................................................. 35

3.1. ALGORITMOS DE INFERNCIA EXATA............................................................ 36
3.1.1 Passagem de mensagem......................................................................................... 36
3.1.1.1. Passagem de mensagem para rvore simples................................................... 40
3.1.1.2. Passagem de mensagem para poli-rvore......................................................... 45
3.1.2. Mtodo de formao de agrupamentos................................................................ 48
3.2. ALGORITMOS DE INFERNCIA APROXIMADA............................................... 50
3.2.1. Amostragem por Rejeio..................................................................................... 51
3.2.2. Ponderao de Probabilidade................................................................................ 53
3.2.3. Gibbs Sampling .................................................................................................... 55
4. APRENDIZAGEM EM REDES BAYESIANAS........................................................... 56

4.1. ESTIMAO DE PARMETROS........................................................................... 56
4.1.1. Estimao via Mxima verossimilhana............................................................... 57
4.1.2 Estimao Bayesiana............................................................................................. 60
4.2. ESTIMAO DE ESTRUTURA.............................................................................. 62
4.2.1 Algoritmo PC.......................................................................................................... 63
4.2.2 Algoritmo K2.......................................................................................................... 63
4.2.3 Estimao Hbrida utilizando o Software R........................................................... 64
5. SOFTWARE HUGIN...................................................................................................... 69
5.1. PRIMEIROS PASSOS............................................................................................... 70
5.1.1. Instalao............................................................................................................... 70
5.1.2. Acessando Arquivos.............................................................................................. 70
5.1.3. Compilao............................................................................................................ 71
5.1.4. Salvando os arquivos............................................................................................. 71
5.2. CONSTRUINDO UMA REDE BAYESIANA.......................................................... 71
5.3. INFERNCIA EM UMA REDE BAYESIANA....................................................... 74
5.4. ESTIMAO DA REDE ATRAVS DOS DADOS............................................... 76
6. REDES BAYESIANAS PARA CLASSIFICAO..................................................... 84

6.1. ESTRUTURAS DE CLASSIFICAO................................................................... 84
6.2. REDE BAYESIANAS SIMPLES.............................................................................. 84
6.3. REDE BAYESIANAS SIMPLES COM K-DEPENDNCIA.................................. 86
6.3.1. INFORMAO MTUA...................................................................................... 87
6.4. CURVA ROC............................................................................................................ 88
6.3. REGRESSO LOGSTICA...................................................................................... 88
6.4. REGRESSO LOGSTICA VERSUS NAIVE BAYES........................................... 89
7. CONSIDERAES FINAIS......................................................................................... 94
REFERNCIAS BIBLIOGRFICAS................................................................................ 95
1. INTRODUO
As tcnicas Bayesianas, alm de serem amplamente utilizadas dentro da rea de

Estatstica, so tambm utilizadas em outros enredos. Um deles o da Inteligncia Artificial,
uma rea que pode ser denominada Inteligncia Artificial Probabilstica.
Os mtodos e teorias Bayesianos para Inteligncia Artificial Probabilstica,
freqentemente referidos como aprendizado Bayesiano, vm sendo aplicados em diversos
contextos, desde a rea da sade como reas de entretenimento (ver por exemplo, Korb e
Nicholson, 2004). Um caso particular de aplicao do aprendizado Bayesiano para a rea de
credit scoring, rea importante onde mtodos precisos de classificao so requeridos.
Porm, existe uma grande escassez de textos para tais procedimentos na literatura
especializada nacional, principalmente na rea da Estatstica, visto que esse assunto
abordado, geralmente, dentro do cenrio da Cincia da Computao.
Mesmo assim, a Inteligncia Artificial pode ser considerada uma rea interdisciplinar
dentro das Cincias Exatas e, muitas vezes, utilizada com o auxlio de metodologia e
pensamento estatstico. Essa contextualizao um assunto ainda no explorado em cursos
tradicionais de Graduao em Estatstica. Quando tal investigao existe, ocorre apenas em
nvel de Ps-Graduao.
Desta forma, o presente trabalho tem entre seus principais objetivos apresentar uma
abordagem introdutria e didtica da tcnica de Redes Bayesianas, a fim de desmistificar a
tcnica de nome geralmente conhecido, mas pouco investigado na rea da Estatstica. Toda a
exemplificao da tcnica ser apresentada no decorrer do texto e no enredo de credit scoring.
Tais exemplos so construdos baseados em um conjunto de dados reais.
O presente captulo expe contextualizaes importantes para a Inteligncia Artificial,
credit scoring e teoria bsica de probabilidades. O Captulo 2 apresenta conceitos bsicos da
tcnica de Redes Bayesianas. No Captulo 3, mtodos comuns de inferncia em redes
Bayesianas so apresentados. Idias bsicas sobre estimao de estruturas e de probabilidades
so exibidas no Captulo 4. O Captulo 5 apresenta um software importante para rea e sua
compatibilidade com o Software R. Subseqentemente, o Captulo 6 apresenta a estrutura
Naive Bayes em Redes Bayesianas utilizada para classificao, bem como sua comparao
com a tcnica de Regresso Logstica. Por fim, o Captulo 7 exibe comentrios finais sobre o
trabalho.
1.1. INTELIGNCIA ARTIFICIAL
A inteligncia sempre esteve em destaque entre as cincias desenvolvidas pelo ser

humano, sendo um intenso objeto de estudo. Podemos notar esse fato, por exemplo, atravs
do estudo da inteligncia por filsofos Gregos como Plato, Aristteles e Scrates desde 460
a.C.
Assim, com a evoluo das ferramentas tecnolgicas, o homem desenvolveu mquinas
para realizar servios comuns a ele, sendo a mais extraordinria, at hoje, o computador. A
partir da, muitos processos tecnolgicos foram focados para desenvolv-lo ainda mais, a fim
de transform-lo em uma mquina totalmente pensante e capaz de realizar qualquer tarefa de
forma inteligente. Todo esse processo criou a cincia conhecida atualmente como Inteligncia
Artificial.
De uma forma mais geral, segundo Rich (1988), a Inteligncia Artificial (I.A.) pode
ser entendida como o estudo de como fazer os computadores realizarem tarefas em que, no
momento, as pessoas so melhores. Alm disso, segundo Tafner et al. (1995), uma rea
catalisadora do desejo humano de reproduzir inteligncia em mecanismos no-biolgicos,
constitui-se em um conjunto de tcnicas de programao para resolver problemas. Ela procura
imitar as formas de resoluo de problemas do mesmo modo que o homem o faz. Ainda, para
Russel e Norvig (2004) as definies de Inteligncia Artificial podem ser divididas em quatro
grandes grupos, sendo estes os grupos de sistemas que pensam como seres humanos, sistemas
que pensam racionalmente, sistemas que atuam como seres humanos e sistemas que atuam
racionalmente. Neste contexto, a analogia entre racional e humano dado pela perfeio de
um sistema racional, ou seja, o sistema racional no suscetvel aos erros comuns realizados
por seres humanos.
Como podemos notar, existe uma grande dificuldade de definir precisamente o que
I.A. devido ao atual estado da arte da cincia, que envolve inclusive questes filosficas de
interpretao do pensamento humano.
Alm disso, o inteligente se remete ao prprio processo de pensamento humano, o
qual se refere a raciocinar baseado no conhecimento que possui sobre determinado problema,
ignorando se tal processo perfeito ou no.
Desta forma, um sistema de I.A. baseado em quantidades de conhecimento a respeito
do domnio de um problema em estudo, ou seja, informao sobre o escopo do problema.
Uma forma tradicional de quantificar tal conhecimento a partir de uma base de dados.
A partir dos anos 80, tcnicas especficas surgiram motivadas pela grande aplicao da
rea em domnios especializados como a diagnose mdica, anlise qumica, reconhecimento
de padres etc., sendo realizadas hoje rotineiramente. Desta forma, problemas realizados por
apenas um pequeno contingente de especialistas, como a avaliao de crdito ou a diagnose
de doenas, podem ser realizados por sistemas inteligentes comumente denominados na
literatura especializada de sistemas especialistas.
A lista seguinte contm um resumo de alguns problemas que se enquadram dentro
deste contexto (Rich, 1988):
o Jogos
o Prova de teoremas
o Resoluo de problemas gerais
o Percepo
Viso
Fala
o Compreenso da linguagem natural

o Resoluo de problemas especializados
Matemtica simblica
Diagnose
Anlise qumica
Projeto de engenharia
Assim, para cada uma dessas tarefas seleciona-se um conjunto de informaes que
representam o escopo do problema, geralmente baseado no conhecimento emprico ou de um
especialista, buscando especificar o mximo possvel os critrios para o sucesso do sistema.
Atravs desta breve introduo sobre I. A. e sistemas especialistas, notamos que existe
grande relao entre os mtodos estatsticos e alguns objetivos especficos de Inteligncia
Artificial. De uma forma mais precisa, esse relacionamento ocorre no mbito da motivao
para a anlise, uma vez que ambas as reas buscam informaes refletidas em variveis e em
um conjunto de observaes representativas do problema, visando resolver problemas
especficos como o de classificao e dependncia entre variveis em diversos enredos.
Desta forma, mtodos estatsticos so tambm utilizados na grande rea de
Inteligncia Artificial. Estes vm a contribuir e concorrer com os mtodos mais comuns, mais
precisamente para a resoluo de sistemas especialistas. Um exemplo disso a aplicabilidade
10
para os mesmos fins das tcnicas de Redes Neurais, uma metodologia originariamente
desenvolvida dentro da rea de I.A. e de Regresso Logstica, dentro da rea da Estatstica.
Alm disso, confirmando o relacionamento comum entre as duas reas, podemos
realizar uma breve consulta literatura especializada e encontraremos facilmente assuntos
como Data Mining, Modelagem e Aprendizado sendo direcionados para ambas.
Entre os mtodos estatsticos utilizados em I.A., destaca-se o aprendizado Bayesiano,
que utiliza um modelo probabilstico baseado no conhecimento prvio do problema, o qual
combinado com exemplos de treinamento para determinar a probabilidade final de uma
hiptese (Mitchel citado por Rezende, 2004, p.93).
Neste contexto, a tcnica de Redes Bayesianas uma poderosa ferramenta de
aprendizado Bayesiano que utiliza raciocnio probabilista e aplicada no contexto de I.A..
O raciocnio probabilista, bem como o raciocnio lgico, uma das abordagens
principais utilizadas para modelar sistemas que agem racionalmente dentro da rea de
Inteligncia Artificial. Marques e Dutra (1999) consideram que o raciocnio lgico retira suas
concluses sobre a base ponderada do conhecimento prvio a respeito do problema. O
raciocnio probabilista, por sua vez, adequado para situaes onde no se conhece
previamente todo o escopo do problema, ou seja, para representar inferncias provveis,
porm incertas como, por exemplo, no contexto: Muitas vezes bons pagadores possuem um
saldo devedor menor.
Em I.A., as probabilidades no esto presentes apenas no mbito deste tipo de
raciocnio, mas tambm esto presentes em outros contextos como, por exemplo, aquele da
probabilidade lgica. Segundo Haenni (2005), o raciocnio probabilista e a probabilidade
lgica podem ser interpretados como casos extremamente opostos dentro do universo de
estudo do raciocnio, chamado de argumentao probabilstica.
Em referncia ao tipo de raciocnio de embasamento, podemos utilizar o Inteligncia
Artificial Probabilstica para categorizar esta subrea do conhecimento em I. A..
De uma forma geral, a tcnica de Redes Bayesianas uma abordagem interpretativa e
analtica para a Inteligncia Artificial Probabilstica e tem sido utilizada recentemente em
diversas reas como, por exemplo, estimao de risco operacional, diagnstico mdico, credit
scoring, projeto de jogos computacionais, imputao de dados, entre outras. Desta forma,
pode ser utilizada para fins de deciso, classificao, anlise de dependncia entre variveis,
sendo alternativa s tcnicas comumente utilizadas como, por exemplo, Regresso Logstica e
Anlise Discriminante.
11
1.2. CREDIT SCORING
A necessidade de anlise de crdito nasceu nos primrdios do comrcio conjuntamente

com a concesso de emprstimos de dinheiro ou com a autorizao de compras a pagar
futuramente, pois, desde aquela poca, quando um comerciante oferece demasiado crdito
pessoa errada, este corre o risco de perder dinheiro e ter futuros problemas financeiros. Com o
passar dos anos, os comerciantes comearam a levantar informaes sobre os solicitantes de
crdito e catalog-los para decidir se emprestariam ou no determinada quantia em dinheiro.
Com o desenvolvimento da cincia em anlise de dados refletida em mtodos precisos,
hoje credit scoring um mtodo de avaliao de risco de crdito para aplicao de
emprstimos (Mester, 1997). Baseado em mtodos estatsticos para anlise de dados, tal
mtodo produz um score para cada cliente, quantificando o risco deste cliente ser bom ou mau
pagador, a fim de minimizar as perdas ou ganhos de uma empresa, geralmente financeira.
Por ter como objetivo final a classificao binria de uma determinada caracterstica,
na rea de credit scoring so aplicadas diversos mtodos de tratamento de dados, dentre elas
temos modelos probito, logito, regresso por rvores, anlise discriminante, redes neurais e,
tambm, Redes Bayesianas, entre outras.
Neste trabalho, alm de introduzir a teoria bsica de Redes Bayesianas, temos por
objetivo expor exemplos de aplicaes em credit scoring para as manipulaes mais
importantes da tcnica. Especificamente, iremos expor a aplicao do algoritmo de Naive
Bayes, associado a uma estrutura particular de Redes Bayesianas, para a classificao de
indivduos como maus pagadores. Alm disso, iremos visualizar o relacionamento, dentro de
uma estrutura estimada de Redes Bayesianas, das variveis de um conjunto de dados reais de
credit scoring.
1.3. PROBABILIDADES
O clculo das probabilidades teve origem em estudos de jogos de azar na Idade Mdia.
Assim, em 1654, o desenvolvimento desta cincia deu-se devido a uma srie de cartas
trocadas entre dois matemticos e pensadores notveis, Blaise Pascal (1623-1662) e Pierre de
Fermat (1601-1665), sobre problemas com apostas em jogo composto por moedas e dados.
Desde ento, a teoria de probabilidades foi amplamente estudada, como pelo tambm
renomado Thomas Bayes, e sendo hoje utilizada em diversos procedimentos das Cincias
Exatas.
12
Nesta seo, introduzimos uma breve histria sobre Thomas Bayes e conceitos
fundamentais em probabilidade que so necessrios para o entendimento da teoria de Redes
Bayesianas.
1.3.1. Thomas Bayes
Nascido em Londres no ano de 1702 e falecido em Kent, a 58 km de Londres, em
1761, o ingls Thomas Bayes (Figura 1.1) foi matemtico e reverendo da igreja presbiteriana
e imortalizado por formular um importante teorema de probabilidade, o qual intitula seu nome
e deu origem, anos depois, a um novo ramo da cincia estatstica denominada Estatstica
Bayesiana.
Sua famlia possua o alinhamento no conformista ttulo dado a europeus noanglicanos ou que prezam a liberdade religiosa e, antes de seu nascimento, havia feito
fortuna no setor da cutelaria, arte de fabricar instrumentos cortantes, um ramo importante em
Shefeld, cidade de origem do av de Thomas Bayes, Richard Bayes.
Figura 1.1. nica Ilustrao conhecida de Thomas Bayes
Desta forma, o pai de Thomas, Joshua Bayes (16381703), foi enviado Academia de
Frankland (Inglaterra), onde estudou filosofia e religio. Em 1694, Joshua partiu para
Londres, onde havia o primeiro grupo de presbiterianos ingleses. L foi ordenado ministro e,
13
em poucos anos, tornou-se um homem respeitado. Durante esse perodo, Joshua Bayes casouse com Anne Carpenter e juntos tiveram 7 filhos. Assim, Thomas Bayes, seguindo os passos
do pai e por ser o filho mais velho, tornou-se ministro.
Thomas Bayes estudou teologia na Universidade de Edimburgo (Esccia) e em 1731
assumiu a parquia de Tunbridge Wells, em Kent. Historicamente, publicou apenas dois
livros em vida, o primeiro chamado de Benevolncia divina (1731) e o segundo chamado de
Uma Introduo a doutrina dos fluxions, no qual ele defendia Isaac Newton contra a crtica
de George Berkley, conhecido filosofo irlands da poca. Aps sua morte, outro trabalho de
sua autoria foi revelado, Ensaio buscando resolver um problema na doutrina das
probabilidades, no qual havia a formulao do Teorema de Bayes. Era creditado que esse
artigo fornecia uma prova da existncia de Deus.
Para maiores detalhes sobre a vida de Thomas Bayes consultar Bellhouse (2004), uma
completa biografia realizada em comemorao ao seu 300 aniversrio de nascimento.
1.3.2. Conceitos probabilistas
As Redes Bayesianas so ferramentas que utilizam o raciocnio probabilista, ou seja,

toda sua metodologia baseada em probabilidades, especialmente a probabilidade
condicional. Para melhor exposio da teoria de Redes Bayesianas, uma breve reviso da
teoria de probabilidades ser apresentada abaixo.
1.3.2.1. Probabilidade e suas propriedades
Em poucas palavras, a probabilidade pode ser introduzida, segundo Costa Neto e

Cymbalista (2006), como sendo o nmero que mede a maior ou menor possibilidade de
ocorrncia de diversos eventos.
Porm, o conceito de probabilidade , historicamente, cenrio de ampla discusso e
tem sido definido de diferentes maneiras, sendo que algumas so as definies de
probabilidade freqentista, clssica e subjetiva.
Hoje em dia, a definio axiomtica, dada por Komolgorov em 1933, comumente
adotada e considera que a probabilidade uma funo definida numa classe de eventos de
que satisfaz as seguintes condies:
(a) P(A) 0 para todo A ;
(1.1)
14
(b) Se (An) n 1 uma seqncia de eventos de , que so mutuamente exclusivos,

ento:

P An P( An ) ;
n 1 n1
(1.2)
(c) P( ) =1.
(1.3)
onde A um evento no espao e um conjunto de eventos de interesse denominado

espao amostral.
A definio acima origina as seguintes propriedades:
(d) P( ) =0
(1.4)
(e) Se E, F, ..., K so eventos mutuamente exclusivos
P( E F ... K ) P( E ) P ( F ) ... P( K ) ;
(1.5)
(f) P ( E ) 1 P ( E )
(1.6)
(g) P( E F ) P ( E ) P( F ) P( E F )
(1.7)
entre outras.
Desta forma, uma forma objetiva de atribuio de probabilidade ao evento F dada

por (1.8).
P( F )
#F
,
#
(1.8)
onde #F nmero de resultados favorveis ao evento F e # o nmero de resultados totais,

ou seja, o nmero de resultados no espao amostral .
Para melhor entendimento dos termos probabilsticos, considere os itens 1, 2, 3 e 4 da

Figura 1.2, os quais exibem uma visualizao freqente na literatura da teoria de
15
probabilidades baseada na diagramao de Eller-Venn para os eventos e o seu espao

amostral.
(2)
(1)
(3)
(4)
Figura 1.2. Diagramas de Eller-Venn
Na Figura 1.2, o item (1) exibe todo o espao amostral , o item (2) exibe o evento E
sob o espao amostral, o item (3) exibe os eventos E e F sendo mutuamente exclusivos, ou
seja, P(E F)=0 e, finalmente, o item (4) exibe os eventos E e F como no exclusivos.
1.3.2.2. Probabilidade condicional
A probabilidade condicional trata do fato de que muitas vezes temos conhecimento

que um determinado evento j ocorreu, desta forma surge o interesse de calcular a
probabilidade de outro evento de interesse e possivelmente relacionado ao evento anterior.
Denotamos como P( E | F ) probabilidade de ocorrncia do evento E, sabendo que o
evento F ocorreu, ou simplesmente, a probabilidade de E dado F.
Desta forma, temos (1.9).
P( E | F )
P( E F )
P( F )
(1.9)
16
Analogamente,
P( E F ) P( E | F ) P ( F ) ou P( E F ) P( F | E ) P( E )
Assim
temos
tambm,
generalizando
(1.10)
(1.10)
considerando
notao
P( E F ) P( E , F ) ,
P ( E1 , E 2 , , E n ) P ( E1 ) P ( E 2 | E1 ) P ( E 3 | E1 , E 2 ) P ( E n | E1 , E 2 , E n 1 )
(1.11)
Alm disso, considerando E1 E n eventos exclusivos e exaustivos, ou seja, eventos

que no possuem interseco e sua unio igual ao espao amostral , temos para um
evento F,
P( F ) P( F | E k ) P( E k )
(1.12)
k 1
A propriedade (1.12) comumente denominada de frmula de probabilidades totais.

Note que esta permite calcular a probabilidade de um evento F quando se conhece as
probabilidades de um conjunto de eventos distintos, sendo que sua unio forma o espao
amostral.
1.3.2.3. Independncia probabilstica
Assim como a probabilidade condicional, a dependncia probabilstica uma das

propriedades fundamentais utilizadas na teoria de Redes Bayesianas.
Basicamente, podemos considerar que os eventos E e F so independentes quando
existe a relao (1.13).
P( E | F ) P( E ) ou P( F | E ) P( F )
(1.13)
A relao (1.13) vem de outra propriedade bsica de independncia probabilstica

entre dois eventos, apontada em (1.14).
17
P( E , F ) P( E ) P( F )
(1.14)
Para chegarmos relao (1.13) basta aplicar (1.14) em (1.9).
Note que a relao de independncia no est ligada relao de exclusividade de

eventos.
1.3.2.4. Teorema de Bayes
Como anteriormente, considere o evento F e E1 E n eventos exclusivos e exaustivos,

ou seja, que no possuem interseco e que a unio deles forma o espao amostral. Assim, o
Teorema de Bayes definido em (1.15)
P( E j | F )
P( E j ) P( F | E j )
n
(1.15)
P( E ) P( F | E )
i
i 1
O teorema de Bayes uma juno do teorema de probabilidade condicional e da

frmula de probabilidades totais. Assim, P ( E j ) pode ser denominada como probabilidade a
priori, P ( F | E j ) como verossimilhana e P ( E j | F ) como probabilidade a posteriori, ou seja,
a probabilidade posterior observao do evento F. Alm disso, o denominador a
decomposio de P(E ) , ou seja, pode se considerado como constante normalizadora; desta
forma, (1.15) pode ser reescrito na forma (1.16).
P( E j | F ) P ( E j ) P( F | E j )
(1.16)
sendo indicador de proporcionalidade. Em outros termos, podemos dizer que a

probabilidade a posteriori proporcional probabilidade a priori multiplicada pela
verossimilhana.
18
1.3.2.5. As distribuies Multinomial e Dirichlet
Estas duas distribuies, aqui introduzidas, so amplamente utilizadas no contexto de

Redes Bayesianas quando mtodos de estimao bayesiana so requeridos.
Considere uma varivel aleatria X discreta que represente um experimento com r
possveis resultados, sendo que cada tipo de resultado possui uma probabilidade especfica
r
P( X x r ) pr e
1. Alm disso, o experimento repetido de forma independente N
i 1
vezes, de forma que a varivel Xi seja o nmero de vezes que o resultado xi est presente na
amostra com i=1,...,r. Temos que a varivel X segue distribuio Multinomial, sendo sua
funo densidade de probabilidade expressa pela frmula (1.17).
P( X | N , p)
N!
p1x1 p2x2 ... p rxr
x1! x 2 !...x r !
(1.17)
sendo
N.
i 1
Considerando o termo
N!
como normalizador, temos
x1! x2!...xr !
P( X | N , p) p1x1 p 2x2 ... prxr
(1.18)
Alm disso, temos que para um vetor p=(p1, p2,...,pr) de valores desconhecidos
r
com pi 1 , podemos assumir que p segue distribuio Dirichlet com parmetros = ( 1, .

i 1
. . , r) com i > 1, E(pi) = i/0 e funo densidade de probabilidade expressa pela frmula
(1.19).
P( p | )
( 0 )
p1 11 p 2 21 ... p r r 1
( 1 )( 2 )...( r )
Da mesma forma, podemos considerar o termo
(1.19)
( 0 )
( 1 ) ( 2 )...( r )
como
normalizador, assim temos (1.20).

19
P( p | ) p11 1 p 2 2 1 ... pr r 1
(1.20)
Assumindo como priori P( p | ) e como verossimilhana P( X | N , p ) , temos que a

posteriori P( p | X ) dada pela expresso (1.21) a qual tem distribuio Dirichlet com
parmetros = (1+x1, . . . , r+xr), ou seja E ( p i )
r
i xi
, sendo 0 i .
0 N
i 1
P( p | X ) p1 1 x11 p2 2 x 21 ... prr xr 1
(1.21)
Notamos que neste caso a posteriori possui o mesmo tipo de distribuio que a priori,
assim dizemos que a famlia Dirichlet conjugada para amostras com distribuio
Multinomial.
1.3.3. As Redes Bayesianas so Bayesianas?
Existe uma grande discusso na literatura sobre se as Redes Bayesianas so realmente

Bayesianas ou no. Alega-se que esse termo seja uma nomenclatura inadequada. Korb e
Nicholson (2004) evidenciam a pronncia formal do Professor Geoff Webb, especialista em
Data Mining da universidade australiana de Monash, que declarou dois pontos de vista:
1. A tcnica de Redes Bayesianas pode ser considerada um mtodo de Data Mining

que utiliza mtodos no-Bayesianos.
2. As Redes Bayesianas so um mtodo para representar probabilidades, que podem
ser interpretadas de forma Bayesiana ou no.
Deste modo, notamos que atualmente essa discusso pode gerar bastante polmica
entre os especialistas da rea. Porm, temos que o objetivo fundamental da tcnica realizar
inferncia e estimativas com base em condicionamentos de informaes, o que gera uma
ponte de ligao slida com a filosofia Bayesiana.
20
Ainda assim, como mostramos neste trabalho, os mtodos de estimao dentro da

teoria de Redes Bayesianas podem ser realizados por mtodos Bayesianos ou no-Bayesianos.
1.4. COMENTRIOS FINAIS
Neste captulo, apresentamos uma conceituao bsica sobre Inteligncia Artificial e

sua subdiviso denominada Inteligncia Artificial Probabilstica, sendo que tal termo provm
do tipo de raciocnio utilizado, ou seja, o raciocnio probabilista. Alm disso, introduzimos a
necessidade de anlise para a rea de credit scoring
A respeito da teoria de probabilidade, exibimos importantes propriedades probabilistas
que sero utilizadas ao decorrer do trabalho, sendo as mais importantes a propriedade de
dependncia, o Teorema de Bayes e o relacionamento entre as distribuies de probabilidade
Multinomial e Dirichlet.
Assim, estamos prontos para introduzir os conceitos bsicos de Redes Bayesianas.
21
2. REDES BAYESIANAS
As Redes Bayesianas, tambm conhecidas como Redes casuais, Rede de crena e
Grficos de dependncia probabilstica, surgiram na dcada de 80 e tm sido aplicadas em
uma grande variedade de atividades do mundo real (Bobbio et al., 2001). Algumas aplicaes
atuais se estendem s reas como finanas (Chang et al., 2000), sade (Abicalaff, Amaral e
Dias, 2004) (Korb e Nicholson, 2004), desenvolvimento de jogos (Vieira Filho e
Albuquerque, 2007), entre outras.
Ainda, as Redes Bayesianas vm sendo bastante utilizadas em reas financeiras para a
estimao de risco operacional e credit scoring (ex: Sistema BayesCredit, um sistema criado
por Nykredit, uma das principais empresas no mercado dinamarqus de financiamento
imobilirio) e possui vrios programas especficos disponveis como, por exemplo, os
softwares Netica (www.norsys.com) e Hugin (www.hugin.com).
Segundo Neapolitan (2004), a tcnica de Redes Bayesianas surgiu no contexto no qual
h um grande nmero de variveis e o objetivo de verificar qual a influncia probabilstica
no direta de uma varivel para as demais.
Assim, a teoria de Redes Bayesianas combina princpios de Teoria de grafos, teoria de
probabilidades, Cincia da Computao e Estatstica (Ben-Gal, 2007).
Alm disso, as Redes Bayesianas podem ser consideradas como uma representao
visual e informativa da tabela de probabilidade conjunta de todas as variveis que envolvem o
domnio do problema.
Desta forma, na literatura especializada, uma terminologia especfica utilizada para
definir tipos de variveis, dependncias probabilsticas e outras propriedades das Redes
Bayesianas. Neste trabalho, optamos por simplificar tal terminologia, quando possvel,
aproximando-a de termos utilizados na modelagem estatstica de dados.
Esse captulo tem como objetivo introduzir conceitos bsicos da teoria de Redes
Bayesianas, que envolvem os tipos de estruturas de teoria de grafos, noes de evidncia,
propriedade markoviana, equivalncia, noo de independncia, definio bsica para
construo e ordem das variveis, bem como exibir breves exemplos.
22
2.1. ESTRUTURA
Nesta seo sero introduzidos conceitos elementares dentro da estrutura grfica de

uma Rede Bayesiana, em sua maioria um conjunto de nomenclaturas originadas atravs das
relaes visualmente perceptveis da estrutura grfica.
2.1.1. Elementos Bsicos
As Redes Bayesianas so uma representao grfica de variveis e suas relaes para

um problema especfico, tal representao comumente chamada de grafo, sendo este um
elemento fundamental da rede.
O estudo dos grafos realizado pelo ramo da matemtica denominado Teoria de
Grafos e diz respeito ao estudo das relaes de seus elementos, os quais so comumente
chamados de ns e arcos. Os ns so elementos principais os quais representam as variveis
aleatrias consideradas no problema e so representados por crculos. Os arcos so setas que
representam a relao de direta dependncia entre um n e outro, ou seja, representa a
dependncia probabilstica direta entre duas variveis. Esses elementos podem ser
visualizados na Figura 2.1.
A
N
Arco
Figura 2.1. Elementos bsicos da Teoria de Grafos
2.1.2. Estruturas de Teoria de Grafos
Existem diversos tipos de aplicaes da Teoria de Grafos na literatura. Maiores

detalhes podem ser encontrados em Feoloff et al.(2007).
Alm disso, existem diversos tipos de estruturas bsicas dentro da Teoria de Grafos.
Para uma visualizao geral, tais estruturas so exibidas na Figura 2.2.
23
A teoria de Redes Bayesianas construda considerando grafos direcionados,

conectados e acclicos, freqentemente referenciados pela sigla DAG (directed acyclic
graph).
Grafo
Direcionado
No direcionado
A
Conectado
No conectado
A
Acclico
Cclico
A
Conexes Simples
A
rvore Simples
B
D
A
C
Polirvore
A
B
D
Mltiplas Conexes
B
D
C
E
C
E
C
E
C
E
C
E
Figura 2.2. Estruturas bsicas existentes dentro da Teoria de grafos
O termo direcionado faz referncia presena de direo dos arcos, o termo

conectado utilizado para designar que todos os ns esto conectados na rede e, por fim, o
termo acclico se refere propriedade de no retorno para um n aps seguida a direo dos
arcos.
Desta forma, atravs da Figura 2.2, notamos que as Redes Bayesianas envolvem
apenas alguns tipos de estruturas bsicas: a estrutura de conexes simples, que engloba as
estruturas de rvore simples e polirvore, e a estrutura de mltiplas conexes.
Para as estruturas de conexes simples dada a regra geral de que existe apenas um
caminho que liga uma varivel a outra, independente da direo dos arcos. Analogamente,
para as estruturas de mltiplas conexes h mais de um possvel caminho que liga uma
varivel a outra, independente da direo dos arcos.
A subdiviso das estruturas de conexo simples se d pelo nmero de ns que
originam a rede, ou seja, ns que no possuem nenhum arco chegando, apenas arcos partindo.
24
Assim, como notamos na Figura 2.2, as estruturas de rvores simples possuem apenas uma
varivel que origina a rede (varivel A) e as estruturas de polirvore possuem duas (ou mais)
variveis que originam a rede (variveis A e C). Estas variveis geralmente possuem um
nome especfico o qual ser apresentado no prximo item.
2.1.3. Hierarquia entre ns
Dentro da terminologia de Redes Bayesianas, outros termos tambm so comuns e

utilizados para considerar a hierarquia de ns dentro da rede, o que o caso dos termos pai e
filho. Esses termos referem-se relao de dependncia direta entre dois ns por meio do arco
que os conecta, o n de onde o arco parte designado n pai, o n de onde o arco chega com
sua ponta designado n filho. Assim, considerando a estrutura de simples conexes da
Figura 2.2, o n A pai do n B, sendo o n B filho do n A. Analogamente, o n B pai dos
ns C e D, sendo os mesmos filhos do n B.
Alm disso, um n que no possui filhos chamado de folha e um n que origina a
rede, ou seja, que no possui pais, chamado de raiz.
Os ns antecedentes a um determinado n A, ou seja, o(s) pai(s) e seus respectivos
pais e assim por diante, so denominados como ancestrais de A. Da mesma forma, os ns
derivados de determinado n A, ou seja, o(s) filho(s) e seus respectivos filhos e assim por
diante, so denominados como descendentes de A, analogamente a uma estrutura de
genealogia.
2.1.4. Formalizao Estatstica da Estrutura
Como dito anteriormente, em Redes Bayesianas cada varivel aleatria do estudo

representada por um n. Por esse motivo, iremos substituir o termo n pelo termo
varivel, ou seja, ao nos referimos ao n A, iremos represent-lo pelo termo varivel A.
Estendendo esse conceito para a hierarquia de ns, temos que a varivel A pai da varivel B.
Os valores das variveis podem ser de qualquer tipo de escala, contnua ou discreta.
Porm, neste trabalho, a maior parte do texto ir tratar de variveis discretas, pois, segundo
Korb e Nicholson (2004), a tecnologia de redes Bayesianas primeiramente direcionada ao
tratamento de variveis discretas, como por exemplo, para a confeco de algoritmos de
inferncia. Alm disso, as variveis contnuas podem ser facilmente transformadas em
variveis discretas atravs de simples categorizaes. Analogamente, as tcnicas
25
desenvolvidas at o presente momento para variveis contnuas no so ainda to

desenvolvidas. Por exemplo, condio bsica a uma varivel discreta no possuir variveispai contnuas.
Assim, de uma forma geral para este trabalho, uma Rede Bayesiana definida pelo
trio ( , , X), onde uma estrutura DAG e um conjunto de parmetros especficos
de distribuies de probabilidades condicionais envolvendo um conjunto X de variveis
aleatrias discretas.
2.1.5. Tabela de probabilidade condicional
Outro elemento importante dentro da estrutura de Redes Bayesianas a tabela de

probabilidade condicional (CPT). Trata-se da exibio dos parmetros de probabilidade
condicional da varivel sendo condicionada a seu(s) pai(s).
Por exemplo, dado o conjunto de trs variveis A, B e C, todas dicotmicas assumindo
valores binrios, onde A e B so pais da varivel C, temos a Tabela 2.1.
Tabela 2.1. Tabela de Probabilidade Condicional P(C|A,B)

C
P(C|A,B)
Com base nas definies acima, podemos exibir um exemplo de Rede Bayesiana.
2.1.6. Exemplo Bsico de uma Rede Bayesiana
26
Considere uma Rede Bayesiana dada sua estrutura j conhecida e relacionando

seguintes variveis binrias:
o Sexo { M, F };
o Idade { <20 anos, >=20 anos };
o Crditos Anteriores { 1, >1 };
o Credit Rating { Bom , Ruim }.
Assim, a rede representada pela Figura 2.3.
Sexo
M
F
P(Sexo)
0.6
0.4
Idade
<20 anos
>=20 anos
P(Idade)
0.18
0.82
Idade
Sexo
Crditos
Anteriores
Sexo
M
M
M
M
F
F
F
F
Idad e
Crditos Anterios
<20 anos
1
<20 anos
>1
>=20 anos
1
>=20 anos
>1
<20 anos
1
<20 anos
>1
>=20 anos
1
>=20 anos
>1
P(Cred. Ant.|Sexo, Idade)

0.72
0.28
0.45
0.55
0.28
0.72
0.65
0.35
Credit
Rating
Crdito Anteriores Credit Rating
1
Bom
1
Ruim
>1
Bom
>1
Ruim
P(Credit Rating |Cred. Ant.)

0.67
0.33
0.54
0.46
Figura 2.3 Exemplo de Rede Bayesiana para dados de Credit Scoring
Considerando o exemplo da Figura 2.3 temos que as variveis Sexo, Idade, Crditos
Anteriores e Credit Rating so representadas por seu respectivo n na rede, sendo Sexo e
Idade variveis-pai da varivel Crdtios Anteriores e Crditos Anteriores pai da varivel
Credit Rating. Ainda realizando uma anlise hierrquica, as variveis Sexo e Idade so
classificadas na rede como variveis-raiz e Credit Rating como folha.
27
Alm disso, notamos que Sexo e Idade influenciam diretamente a varivel Crditos
Anteriores, que por sua vez influencia probabilisticamente de uma forma direta a varivel
Credit Rating.
Interpretando os relacionamentos, se o cliente do sexo masculino, ou no, isso
influencia na probabilidade do cliente ter um, ou mais, crditos anteriores realizados na
instituio. Se o cliente menor de 20 anos, ou no, tambm influencia a probabilidade do
cliente ter um ou mais crditos anteriores realizados na instituio. Assim, a probabilidade do
cliente ter, ou no, realizado requisio de crditos anteriormente na instituio financeira
influencia a probabilidade dele ser classificado como um bom pagador ou mau pagador.
Para cada uma das variveis e seus cruzamentos condicionais, temos uma tabela de
probabilidade condicional (CPT) explicando numericamente a chance da cada categoria
evento ocorrer dado premissas anteriores.
Idade
Sexo
Crditos
Anteriores
Credit
Rating
Figura 2.4. Rede Bayesiana tendo como evidencia a varivel Idade (Idade <20)
2.2. EVIDNCIA
Dada a estrutura grfica DAG, outra definio importante para a teoria de Redes
Bayesianas. Esta denominada como evidncia e refere-se ao fato de uma varivel ser
28
indicada pelo usurio da rede, ou seja, uma varivel aleatria com valor conhecido e acoplado
Rede Bayesiana com estrutura j conhecida. Basicamente, podemos definir uma evidncia
com uma observao.
Considere o exemplo da Figura 2.3. Desta forma, observamos que um novo cliente
possui a idade de 18 anos; assim, na rede, indicamos a varivel Idade para a categoria
respectiva, ou seja, definimos Idade <20 anos. A varivel idade classificada como uma
evidncia para a rede. A Figura 2.4 exibe uma demonstrao visual para Idade <20 anos.
As evidncias so teis quando existe o objetivo de realizao de inferncia
probabilstica para a rede em estudo. Este procedimento ser visto com mais detalhes
posteriormente.
2.3. PROPRIEDADES MARKOVIANAS
Assim como em alguns tipos de processos estocsticos, a dinmica de uma Rede

Bayesiana controlada pela propriedade de Markov, a qual rege que no existem
dependncias diretas entre as variveis de uma Rede Bayesiana que no esto explcitas
atravs da apresentao orientada dos arcos, ou seja, cada varivel possui dependncia direta
apenas de sua (s) varivel (eis) pai.
A partir de todas as propriedades acima, temos que uma Rede Bayesiana um par
( , ) definido sobre um conjunto de variveis aleatrias X { X 1 , X 2 ,..., X K } , onde cada Xi

corresponde a uma varivel da rede, satisfazendo a propriedade de Markov:
P X i | X j , pais ( X i ) P X i | pais( X i )
(2.1)
Alm disso, consideremos a distribuio de probabilidade conjunta de uma Rede

Bayesiana com k variveis e a propriedade (2.1), temos que em uma Rede Bayesiana ( , ) ,
definida sobre um conjunto de variveis aleatrias X { X 1 , X 2 ,..., X K } , a probabilidade
conjunta de toda a rede dada atravs da expresso (2.2).
P( X 1 x1 ,..., X K x k ) PX i xi | pais( X i )
(2.2)
i 1
29
Ou seja, as propriedades probabilsticas esto intimamente ligadas com o condicionamento da

varivel com seu (s) pai (s) respectivo (s). Note que (2.2) resultado direto do
desenvolvimento do Teorema de Bayes visto na seo 1.3.2.4., dada a propriedade (2.1).
Para o exemplo da Figura 2.3, a varivel Sexo e Idade so independentes, pois no
existe nenhum arco relacionando-as. Alm disso, Credit Rating diretamente independente de
Sexo e Idade, a varivel Credit Rating depende apenas diretamente da varivel Crditos
Anteriores, a qual sua varivel-pai.
Uma Rede Bayesiana na qual cada dependncia probabilstica entre as variveis dada
por um nico arco chamada de Rede perfeita (Korb e Nicholson, 2004).
Outro conceito muito utilizado na teoria de Redes Bayesianas a cobertura de
Markov, que consiste no conjunto formado pelas variveis-pai, variveis-filhos e pais dos
filhos de uma determinada varivel. Como exemplo, temos que a cobertura de Markov para a
varivel Idade da Figura 2.4 envolve a varivel Crditos Anteriores (varivel-filho da varivel
Idade) e a varivel Sexo (varivel-pai de uma varivel-filho da varivel Idade), note que a
varivel Idade no possui variveis-pai, se estas existissem seriam consideradas na cobertura
de Markov. Outro exemplo de cobertura de Markov pode ser visualizado na Figura 2.5 que
exibe a cobertura de Markov para a varivel A.
Figura 2.5. Cobertura de Markov de A representada pelas variveis-n cinza
30
2.4. A PROPRIEDADE DE D-SEPARAO
Atravs das propriedades markovianas, notamos que uma varivel independente de

outra se no existe nenhum arco conectando-as. Porm, possvel definir independncia
quando existe entre as variveis analisadas um grupo especfico de variveis, podendo ser um
grupo de evidncias, por exemplo.
Neste caso, surge a conceito de d-separao. Para defini-la consideremos alguns tipos
de conexes dadas em Neopolitan (2004). Seja X, Z e Y variveis de uma Rede Bayesiana
( ,V ) , definimos alguns tipos de conexo:
1. Se X Z Y , temos um relacionamento head-to-tail;

2. Se X Z Y , temos um relacionamento tail-to-tail;
3. Se X Z Y , temos um relacionamento head-to-head.
Alm disso, podemos definir A V , sendo X e Y V A . Desta forma, para os

casos 1 e 2, se consideramos que Z A , a varivel Z bloquear o caminho entre X e Y. Para
o caso 3, se consideramos que Z e seus descendentes A , a varivel Z bloquear o caminho
entre X e Y. Se o caminho entre duas variveis, ou conjunto de variveis, bloqueado,
dizemos que essas variveis, ou conjuntos, so d-separados.
A Figura 2.6, retirada de Marques e Dutra (1999), ilustra os trs casos de d-separao,
onde os conjuntos U e W so d-separados.
1.
2.
A
3.
U
Figura 2.6. Tipos de d-separao, U e W d-separados
31
Maiores detalhes sobre d-separao so dados em Neapolitan (2004).
2.5. EQUIVALNCIA DE MARKOV
Existem inmeras estruturas possveis no enredo de Redes Bayesianas. Porm,

podemos construir para cada conjunto de variveis um grupo de estruturas extremamente
semelhantes, chamadas de equivalentes de Markov.
Segundo Neapolitan (2004), dois grafos so equivalentes quando mantm as mesmas
independncias condicionais. Ou seja, dois grafos so considerados equivalentes quando
conservam as mesmas ligaes de arcos entre as variveis independente da direo, com
exceo s ligaes head-to-head, ou seja, quando uma varivel-filho possui mais que uma
varivel-pai.
Assim, considere o exemplo da Figura 2.7.
(a)
(b)
(c)
Figura 2.7. Exemplo de identificao de redes Bayesianas Markov equivalentes
Analisando a Figura 2.7, notamos que a estrutura (a) no equivalente a (b), pois alm
de no preservar a conexo head-to-head C E D , a estrutura (b) no mantm a conexo
entre as variveis A e B. Esses mesmos motivos fazem (b) no equivalente estrutura (c).
Comparando a estrutura (a) com (c), notamos que existe apenas diferena entre a
direo de ligao entre as variveis A e B, ou seja, (a) e (c) so equivalentes. Dizemos que
(a) e (c) pertencem mesma classe de equivalncia markoviana.
32
2.6. MTODO GERAL PARA A CONSTRUO DE UMA REDE BAYESIANA
A construo de uma Rede Bayesiana no trivial, alm de existir vrios mtodos para
a estimao de estruturas de rede atravs do conjunto de dados, os mtodos podem ser
influenciados por fatores como a ordem e escolha das variveis que compem o problema.
Esse problema proporciona atualmente intensas pesquisas buscando um mtodo timo para
estimao de estruturas DAG para domnios de problemas prticos.
Porm, de uma forma geral, Pearl (1988) criou um algoritmo baseando-se nas
propriedades 2.1 e 2.2, no qual, dado um conjunto de variveis discretas ordenadas, constri
uma Rede Bayesiana nica, adicionando s variveis a rede em sua ordem e acrescentando
arcos para a formao da estrutura. Assim, cada varivel conectada s variveis antigas da
rede, o que garante que a estrutura seja sempre acclica.
O algoritmo de Pearl dado abaixo.
1. Escolha um conjunto de variveis Xi que em suposio descreva o problema;

2. Escolha uma ordem para as variveis;
3. Para todas as variveis em ordem, faa:
a. Escolha a varivel X e adicione-a na rede;
b. Determine os pais da varivel X dentre os ns que j esto na rede, que
satisfaa P X i | X j , pais( X i ) P X i | pais( X i ) .

c. Construa a tabela de probabilidade condicional (CPT) para X.
Para uma Rede Bayesiana ser adequada, ela deve ser perfeita, ou seja, todos arcos
devem expressar corretamente as dependncias entre as variveis.
Desta forma, fcil notar que para a construo de uma Rede Bayesiana devemos
escolher uma ordem correta para as variveis, pois diferentes ordens podem gerar Redes
Bayesianas diferentes. Desta forma, Korb e Nicholson (2004) sugerem que primeiramente
consideremos as variveis possveis a serem razes e suas variveis independentes, a seguir as
demais variveis.
Outros mtodos de construo de Redes Bayesianas sero apresentados no decorrer do
trabalho.
33
Neste captulo, foram apresentamos conceitos bsicos sobre a tcnica de Redes

Bayesianas, sendo estes de suma importncia para o entendimento geral do mtodo. Alguns
dos conceitos mais importantes englobam a propriedade de d-separao, base para diversos
tipos de clculos, e a propriedade de cobertura de Markov utilizada em algoritmos para
estimao de probabilidades condicionais.
Alm disso, introduzimos a idia bsica para a criao de uma estrutura de Redes
Bayesianas. Porm, a construo geral de uma estrutura no trivial, alm de existir vrios
mtodos para este mesmo objetivo.
Neste contexto, nos prximos dois captulos exibimos como inferncias e estimaes
podem ser realizadas.
34
3. INFERNCIA EM REDES BAYESIANAS

No contexto de Redes Bayesianas, o termo inferncia, tambm conhecido como
atualizao de crena (belief updating), comumente utilizado para referenciar a atualizao
de probabilidades por toda a estrutura da rede dada um conjunto de evidncias. Ou seja,
segundo Korb e Nicholson (2004), trata-se de um mecanismo para clculo da distribuio
posteriori de probabilidade para um conjunto de variveis, dado um conjunto de evidncias,
ou seja, variveis aleatrias com valores instanciados.
Porm, como visto anteriormente, existem diversos tipos de estruturas de Redes
Bayesianas, assim as inferncias probabilistas podem ser realizadas de diferentes formas
assumindo tipos de estruturas especficas e com diferentes quantidades de variveis.
Entretanto, existem fatores que dificultam o processo de inferncia, como a
complexidade da estrutura em anlise e o nmero de variveis. Ou seja, para poucas variveis
e uma estrutura grfica dirigida acclica (DAG) no complexa, a propagao das
probabilidades pode ser facilmente calculada. medida que existe um grande nmero de
variveis e estruturas mais complexas, existe grande dificuldade no clculo das probabilidades
da rede.
Marques e Dutra (1999) consideram que existe maior dificuldade quando o problema
modelado de uma forma complexa, ou seja, quando a estrutura considerada para a inferncia
possui relaes complexas entre as variveis. Assim, em algumas situaes, uma rede com
apenas uma dezena de variveis pode necessitar de um tempo computacional muito grande
para trmino da inferncia (s vezes invivel), enquanto uma rede contendo milhares de
variveis e uma estrutura simplista pode levar apenas alguns instantes de processamento.
Buscando contornar tal problema, utilizamos algoritmos de inferncia probabilstica
que facilitem os clculos, sendo essa uma rea de pesquisa em Redes Bayesianas.
Deste modo, alguns algoritmos so utilizados de forma particular para tipos gerais de
estruturas, basicamente as estruturas citadas na seo 2.1.2.
Considerando as estruturas mais comuns, existem dois tipos de algoritmos para
realizar inferncia probabilista, estes so chamados de algoritmos exatos e algoritmos
aproximados. Os algoritmos exatos produzem resultados mais satisfatrios, porm exigem um
grande esforo computacional na presena de um alto nmero de variveis na rede. Os
algoritmos aproximados so construdos atravs de mtodos de simulao, tendo uma
preciso inferior, porm maior velocidade de processamento que os algoritmos exatos.
35
Neste captulo, sero expostos os mais comuns tipos de algoritmos exatos e

aproximados, bem como suas utilizaes em diferentes tipos de estruturas de Redes
Bayesianas.
3.1. ALGORITMOS DE INFERNCIA EXATA
Os algoritmos de inferncia exata, de uma forma geral, so mais complexos

computacionalmente. Na prtica, so indicados quando existe um nmero de variveis inferior
a trinta e seis (Korb e Nicholson, 2004).
Alguns dos algoritmos exatos freqentemente encontrados na literatura so:
Passagem de mensagens;
Mtodo de formao de agrupamentos.
Esses algoritmos sero apresentados nesta seo.
3.1.1 Passagem de mensagem
Este algoritmo utilizado para um tipo de estrutura de Redes Bayesianas chamada de

rvores, tanto para rvores simples quanto para poli-rvores.
Tais estruturas so definidas na seo 2.1.2, porm, como uma breve reviso, temos
que o termo rvore simples utilizado para definir Redes Bayesianas com estrutura de
grafos DAG de simples conexes que possuem apenas uma varivel como raiz. Alm disso,
cada varivel da rede possui precisamente um pai. O termo poli-rvore utilizado para
definir Redes Bayesianas com a mesma estrutura de rvore dada na definio de rvore
simples, porm possui duas ou mais varveis como raiz.
Um exemplo de rvore simples e outro de poli-rvore podem ser visualizados na
Figura 3.1 e 3.2, respectivamente.
Notamos atravs da Figura 3.1 que a estrutura da rede apresenta apenas uma varivelraiz, a varivel X. Alm disso, todas as variveis possuem apenas uma varivel-pai. Para a
Figura 3.2, notamos que a estrutura apresenta duas variveis-raiz, neste caso existe pelo
menos uma varivel que possui pelo menos duas variveis-pai.
36
Figura 3.1. Rede Bayesiana com estrutura rvore simples
Figura 3.2. Rede Bayesiana com estrutura poli-rvore
O algoritmo de passagem de mensagem de Pearl baseia-se na repetio do teorema de

Bayes considerando a estrutura de independncia entre determinados conjuntos de variveis
presentes em uma Rede Bayesiana, proporcionada por propriedades markovianas como visto
anteriormente. Assim, o teorema de Bayes aplicado para variveis, dadas as evidncias
vizinhas; tais variveis passam para seus novos vizinhos, assim por diante at envolver toda a
rede.
37
Para sua formalizao, realizamos uma breve exposio probabilista de passagens

importantes do algoritmo dentro da teoria de Redes Bayesianas. Algumas passagens so
extradas de uma demonstrao completa encontrada em Neapolitan (2004).
Consideremos E um conjunto contendo todas as variveis instanciadas, evidncias da
rede. Assim, tendo uma varivel X como referncia, podemos dividir esse conjunto em E =
{E+,E-}, sendo que E+ representa o conjunto de variveis de evidncias e ancestrais de X, e Erepresenta o conjunto de variveis-evidncia descendentes de X. A visualizao grfica desta
estrutura dada pela Figura 3.2.
E+
EFigura 3.2. Dimenses do conjunto E de uma Rede Bayesiana
Estamos interessados em calcular a probabilidade de P ( X | E ) , ou seja, dado o

conjunto de variveis instanciadas, temos o objetivo de calcular a probabilidade de X.
Assim, seguem as seguintes passagens matemticas.
38
P( X | E ) P( X | E , E )
P( X | E , E )
.
P( E , E | X ) P ( X )
P( E , E )
P( E | X ) P( E | X ) P( X )
P( E , E )
P( X | E ) P( E ) P( E | X ) P( X )
P ( X | E ) P( E | X )
P( X ) P( E , E )
Para o desenvolvimento realizado utilizamos na segunda linha o Teorema de Bayes e

na terceira linha a propriedade de d-separao vista na seo 2.4. Em sua finalizao,
consideramos como constante, pois no depende de X, ou seja,
P( E )
.
P( E , E )
Atravs deste desenvolvimento e considerando P ( X | E ) ( x) e P ( E | X ) ( x) ,

chegamos igualdade (3.1).
P ( X | E ) ( x ) ( x )
(3.1)
Korb e Nicholson (2007) interpretam os termos (x) e (x) , respectivamente, como

verossimilhana e priori de X. Mas tambm consideram que os termos representam
mensagens probabilsticas, ou seja, mensagens enviadas de uma varivel para outra para a
realizao da inferncia em toda a rede.
O algoritmo passagem de mensagem, como dito anteriormente, aplicado para dois
tipos de estrutura, a estrutura de rvore simples e a estrutura de poli-rvore. Desta forma,
apresentamos os dois procedimentos respectivamente.
Todo o desenvolvimento destes algoritmos pode ser encontrado detalhadamente em
Neapolitan (2004).
39
3.1.1.1. Passagem de mensagem para rvore simples
Generalizando esse procedimento para todas as variveis da rede e adotando

alternativas de fcil demonstrao probabilstica para as variveis-raiz, evidncias e variveisfolha, temos o Algoritmo 3.1.
Algoritmo 3.1. Considere (G, ) como uma Rede Bayesiana com a estrutura DAG de rvore
simples e G={V, }, sendo V o conjunto de variveis, E o conjunto de evidncias e a
estrutura destas variveis em grafos, sendo E V. Para cada varivel X so definidos
mensagens , valores , mensagens e valores .
1. Mensagens
a. Para cada Y varivel-filho de X, para todos os valores de x ,
Y ( x) P( y | x) ( y )
(3.2)
2. Valores
a. Se X E e X possui o valor x , ou seja, caso X seja instanciada,
( x ) 1 e ( x) 0
(3.3)
b. Se XE e X uma folha, para todos os valores de x ,
( x) 1
(3.4)
c. Se XE e X no uma folha, para todos os valores de x ,
( x ) i ( x )
(3.5)
onde F indicador para todas as variveis-filho da varivel X.
40
3. Mensagens
a. Se W pai da varivel X, ento para todos os valores de x ,
X ( w) (w) i (w)
(3.6)
onde F indica para todas as variveis-filho da varivel W, exceto a varivel X.
4. Valores
( x ) 1 e ( x) 0
(3.7)
b. Se XE e X uma raiz, para todos os valores de x ,
( x) P( x)
(3.8)
c. Se XE e X no uma raiz e W pai de X, para todos os valores de x ,
( x) P( x | w) x ( w)
(3.9)
5. Dadas as definies acima, para cada varivel X cada um de seus respectivos valores
x , chegamos expresso (3.1).
Para ilustrar a aplicabilidade do algoritmo 3.1, seus clculos so realizados atravs de

um exemplo.
41
Exemplo 3.1: Considere um conjunto de dados constitudo de 3 variveis dicotmicas e 24

observaes referentes credit scoring, sendo as variveis:
- Sexo { Masculino, Feminino };

- Crditos Anteriores { Um, Diferente de um };
- Credit Rating { Bom, Ruim }.
Para este problema considere a possvel estrutura de Rede Bayesiana exibida na Figura
3.3.
Sexo
{M,F}
Crditos
Anteriores
{ 1 , 1 }
Credit
Rating
{B,R}
Figura 3.3. Possvel Rede Bayesiana para dados aplicados credit scoring
Realizamos a atualizao de probabilidades considerando a varivel Crditos

Anteriores conhecida, ou seja, a varivel Crditos Anteriores como evidncia, sabemos
apenas que um cliente possui somente um crdito anterior na instituio financeira. Desta
forma, temos a estrutura apresentada na Figura 3.4.
Assim, aplicando as definies do Algoritmo 3.1, temos a seguinte resoluo.
Primeiramente, devemos considerar a localizao de cada varivel na rede, ou seja, S

uma varivel-raiz, CA uma varivel-evidncia e CR uma varivel-folha. Desta forma,
podemos estabelecer mensagens para cada valor de cada varivel.
42
CA (S )
S
CR (CA)
CA
CR
Figura 3.4. Mensagens para o Algoritmo de passagem de mensagem para dados de credit
scoring
Mensagens
Aplicando a propriedade 2.a do Teorema 3.1, temos:
(CA 1) 1
(CA 1) 0
Aplicando a propriedade 2.b do Teorema 3.1, temos:
(CR Bom ) 1
(CR Ruim ) 1
Aplicando as propriedades 2.c e 1.a do Teorema 3.1, temos:
( S M ) CA ( S M )
P (CA 1 | S M ) (CA 1) P (CA 1 | S M ) (CA 1)
0.60 1 0.40 0
0.60
( S F ) CA ( S F )
P (CA 1 | S F ) (CA 1) P (CA 1 | S F ) (CA 1)
0.58 1 0.42 0
0.58
43
Mensagens
Aplicando a propriedade 4.a do Teorema 3.1, temos:
(CA 1) 1
(CA 1) 0
Aplicando a propriedade 4.b do Teorema 3.1, temos:
( S M ) P( S M )
0.79
( S F ) P( S F )
0.21
Aplicando a propriedade 3 do Teorema 3.1, temos:
CR (CA 1) (CA 1)
CR (CA 1) (CA 1)
Note que CA possui apenas CR de filho na rede.
Aplicando a propriedade 4.c e os resultados da propriedade 3, temos:
(CR Bom)
P(CR Bom | CA 1) CR (CA 1) P(CR Bom | CA 1) CR (CA 1)
0.71x1 0.60 x0
0.71
(CR Ruim)
P(CR Ruim | CA 1) CR (CA 1) P(CR Ruim | CA 1) CR (CA 1)
0.29 x1 0.40 x0
0.29
Desta forma, aplicamos a propriedade 5 para cada um dos valores de cada varivel da
rede.
44
P(S M | CA 1)
( S M ) (S M )
0.58 x0.79
0.4740
P(S F | CA 1)
( S F ) (S F )
0.58 x0.21
0.1218
Normalizando os resultados, temos:
P ( S M | CA 1)
0.4740
0.796
0.4740 0.1218
P(S F | CA 1)
0.1218
0.204
0.4740 0.1218
Aplicando a definio (1) para a varivel Credit Rating, temos:
P(CR Bom | CA 1) 0.71

P(CR Ruim | CA 1) 0.29
Notamos que a probabilidade P(CR Bom | CA) exatamente igual probabilidade

obtida via tabela de probabilidade condicional (CPT), pois CR filho direto de CA. Ou seja, o
algoritmo necessrio quando a varivel-evidncia no pai direto de uma determinada
varivel, porm capaz de calcular a probabilidade de qualquer varivel dada, uma ou mais
variveis-evidncia na rede.
3.1.1.2. Passagem de mensagem para poli-rvore
Este algoritmo extremamente semelhante ao procedimento de inferncia para rvore

simples, porm embasado na existncia de duas ou mais variveis-raiz e considera que ao
menos uma varivel da rede possui pelo menos duas variveis-pai.
45
Algoritmo 3.2. Considere (G, ) como uma Rede Bayesiana com a estrutura DAG de polirvore e G={V, }, sendo V o conjunto de variveis e a estrutura destas variveis em
grafos e sendo E V. Para cada varivel X so definidos mensagens , valores ,
mensagens e valores .
1. Mensagens
a. Para cada Y varivel-filho de X, para todos os valores de x ,
Y ( x) P( y | x, w1 , w2 ,..., wk ) Y ( wi ) ( y)
y i
k
(3.10)
2. Valores
( x ) 1 e ( x) 0
(3.11)
b. Se XE e X uma folha, para todos os valores de x ,
( x) 1
(3.12)
c. Se XE e X no uma folha, para todos os valores de x ,
( x ) i ( x )
(3.13)
46
3. Mensagens
a. Se W pai da varivel X, ento para todos os valores de x ,
X ( w) (w) i (w)
(3.14)
onde F indica para todas as variveis-filho da varivel W, exceto a varivel X.
4. Valores
( x ) 1 e ( x) 0
(3.15)
b. Se XE e X uma raiz, para todos os valores de x ,
( x) P( x)
(3.16)
c. Se XE e X no uma raiz e W1,...,Wj so variveis-pai de X, para todos os valores

de x ,
( x) P( x | w1 , wi ,...w j ) x (wi )
W
W
(3.17)
5. Dadas as definies acima, para cada varivel X cada um de seus respectivos valores
x , chegamos expresso (3.1).
47
Notamos que a maior diferena entre os dois algoritmos a generalizao para a

possibilidade da presena de mais de uma varivel-pai.
Segundo Korb e Nicholson (2004), as notaes utilizadas atravs letras gregas e
podem parecer confusas a primeira vista, mas, em suma, podemos definir as mensagens
dentro da estrutura inteligente da modelagem como:
: notao de mensagem probabilstica utilizada na direo do arco, de pai para filho,

ou seja, filho ( pai) ;
: notao de mensagem probabilstica utilizada contra a direo do arco, de filho

para pai, ou seja, pai ( filho) .
3.1.2. Mtodo de formao de agrupamentos
Para a realizao do clculo de propagao de probabilidades em estruturas de

mltiplas conexes um tempo muito extenso necessrio. Por esse motivo, um dos mtodos
comumente utilizados para a reduo de esforo computacional o de formao de
agrupamentos, tambm conhecidos como algoritmos de formao de rvores.
P( T = Prprio )
0.90
Tipo
Apartamento
T
P( I = <20 anos | T )
Prprio
0.80
No prprio
0.20
Idade
Sexo
T
P( S = Masculino | T )
Prprio
0.20
No prprio
0.05
Credit
Rating
S
Masculino
Masculino
Feminino
Feminino
I
P( CR = Bom | S, I)
< 20 anos
0.80
>=20 anos
0.80
< 20 anos
0.80
>=20 anos
0.05
Figura 3.5. Estrutura de Mltiplas conexes para dados de credit scoring

48
A idia principal deste mtodo manipular uma Rede Bayesiana de estrutura de

mltiplas conexes a fim de transform-la em uma estrutura do tipo rvore (poli ou simples).
A partir da, aplicamos o algoritmo de passagem de mensagem, ou outro algoritmo desejado
para este tipo de estrutura.
Exemplo 3.2: Para ilustrar o procedimento, consideramos algumas variveis utilizadas em
exemplos anteriores, acrescentando varivel tipo de moradia. Deste modo, temos as letras S,
I, T e CR representando respectivamente as variveis:

- Idade { <20 anos; 20 anos };
- Tipo de Moradia { Prpria, No prpria };
Para tais variveis supomos a Rede Bayesiana com estrutura de mltiplas conexes
exibida na Figura 3.4. Em critrio de simplificao, algumas categorias foram ocultadas,
porm so facilmente verificadas.
P( T = Prprio )
0.90
Tipo
Apartamento
T
Prprio
Z
Masculino
Masculino
Feminino
Feminino
< 20 anos
>=20 anos
< 20 anos
>=20 anos
P( Z | T )
0.16
0.64
0.16
0.16
Credit
Rating
Z
Masculino
Masculino
Feminino
Feminino
< 20 anos
>=20 anos
< 20 anos
>=20 anos
P( CR=Bom | Z )
0.80
0.60
0.80
0.50
Figura 3.6. Estrutura aps o clustering para dados de credit scoring
49
Assim, aplicamos um simples mtodo de formao de agrupamentos, mais conhecido

como clustering, ou seja, unimos as categorias das variveis Sexo e Idade, transformando-as
em uma nica varivel cruzada. Ou seja, criamos uma varivel nova, sendo Z = {(Masculino,
<20 anos), (Feminino, <20 anos), Masculino, 20 anos), (Feminino, 20 anos)}. A juno
apresentada na Figura 3.6.
Desta forma, a estrutura se transforma de mltiplas conexes para rvores simples e o
mtodo de passagem de mensagem pode ser aplicado.
Esse mtodo uma ferramenta de fcil entendimento e de aplicao, porm seu
processo pode ser computacionalmente lento, devido ao tempo extenso para clculo da
propagao. Alm disso, a utilizao deste mtodo pode gerar gigantescas tabelas de CPT,
pois estas aumentam quando existe uma alta complexidade de ligao entre as variveis.
Mesmo assim, algoritmos do tipo de juno de rvore so amplamente utilizados em
ferramentas comerciais em Redes Bayesianas.
3.2. ALGORITMOS DE INFERNCIA APROXIMADA
Para contornar o problema de dependncias complexas que ocasionam um grande

intervalo de tempo para a resoluo de inferncias exatas, os mtodos de inferncia
aproximada so uma poderosa alternativa. Tais algoritmos baseiam-se em processos de
simulao dentro da estrutura da rede, onde a cada passo uma mesma estatstica observada.
Neste caso, todas elas so relacionadas probabilidade posteriori da varivel consulta dado
um conjunto de evidncias.
De uma forma geral, estes mtodos so uma forma de extrair amostras de uma
distribuio difcil de amostrar, com base em uma distribuio fcil de amostrar. Ou seja,
extrair amostras de uma estrutura da rede em estudo dado evidncias, para inferir para a
distribuio condicional de uma varivel especfica, dado um conjunto de evidncias.
Alguns dos algoritmos exatos freqentemente encontrados na literatura e citados por
Russel e Norvig (2004) so:
Amostragem por Rejeio;

Ponderao de Probabilidade;
Gibbs Sampling.
50
Estes algoritmos sero apresentados subseqentemente nesta seo.
3.2.1. Amostragem por Rejeio
A idia bsica deste algoritmo percorrer toda a rede, dada a estrutura de arcos e
CPTs, gerando N amostras e verificando se aquele tipo de amostra consistente, ou seja, se
ela contm a evidncia dada. Caso isso no ocorra, tal amostra rejeitada.
Desta forma, a probabilidade condicional para uma varivel em questo X dada uma
evidncia e estimada pela contagem do nmero de ocorrncias em cada uma de suas
categorias, dividida pelo nmero de amostras consistncias.
Genericamente:
P ( X | e)
P ( X , e)
Contagem das categorias de X
P (e )
Nmero de amostras consistent es
(3.18)
O algoritmo para este tipo de amostragem dado abaixo:
Algoritmo 3.3:
Indique:
X
Varivel consulta;
E=e
Variveis instanciadas (evidncia);
( , )
Estrutura da Rede Bayesiana;
Nmero de repeties a serem realizadas;
C[xj]
Contador para cada categoria j da varivel consulta.
Para i=1 at N
xj= amostre com base em RB;
Se xj consistente com e ento
C[xj]= C[xj]+1;
Retorne
C[x j ]
C[x
51
Exemplo 3.3: Considerando a Rede Bayesiana da Figura 3.5, vamos supor que desejamos
estimar P( Idade | Sexo M ) . Ento, geramos uma quantidade fixa de amostras, neste caso
igual a 100. Desta forma, verificamos para cada amostra se esta possui ou no a evidncia
desejada, caso no possua, o algoritmo rejeita a amostra. Por exemplo, a amostra <
T=Prprio, Sexo=M, Idade=<20anos, Credito=B> no rejeitada, pois se enquadra com a
evidncia da rede (sexo = masculino).
Realizando a simulao das 100 amostras, apenas 18 so consistentes com a evidncia,
dentre elas, 3 com idade maior que 20 anos e 15 com a idade menor ou igual h 18 anos.
Assim, de (3.18) temos:
P ( Idade | Sexo M )
15,3
(0.833,0.166)
18
Ou seja,
P( Idade 20 | Sexo M ) 0.166
0.6
0.4
0.0
0.2
P(Idade>20|Sexo=M)
0.8
1.0
P( Idade 20 | Sexo M ) 0.833
200
400
600
800
1000
Repeties
Figura 3.7. Convergncia de probabilidade em amostragem por rejeio
52
Quanto maior o nmero de repeties, maior ser a preciso de estimao. Desta

forma, construmos o Grfico da Figura 3.7, realizando para esse exemplo repeties de 1 a
1000 e verificando a probabilidade P( Idade 20 | Sexo M ) .
Notamos atravs da Figura 3.7 que a probabilidade em foco converge para 0.21, sendo
que existe instabilidade para repeties de tamanho 0 a 200.
Esse algoritmo torna-se preciso com o aumento do nmero de repeties, porm seu
maior problema o descarte de um grande nmero de amostras geradas, note que
anteriormente apenas 18 amostras foram utilizadas em um total de 100 repeties.
Segundo Russel e Norvig (2004), o nmero de amostras consistentes ainda menor
quando aumentamos o nmero de variveis-evidncia.
3.2.2.
Ponderao de Probabilidade
O algoritmo de ponderao de probabilidade evita o descarte de amostras que ocorre

para a amostragem por rejeio. Desta forma, gera apenas amostras que possuem o valor
instanciado da varivel-evidncia, ou seja, fixa valores para as evidncias e amostra as demais
variveis. Cada evento associado varivel em estudo possui um peso especfico, medida
pelo produto das probabilidades condicionais para cada varivel-evidncia, dadas suas
respectivas variveis-pai.
Os procedimentos deste algoritmo so dados abaixo:
Algoritmo 3.4:
Indique:
X
Varivel consulta;
E=e
Variveis instanciadas (evidncia);
( , )
Estrutura da Rede Bayesiana;
Nmero de repeties a serem realizadas;
W[xj]
Contador de pesos cada categoria j da varivel consulta.
Para i=1 at N
Xj, w = Amostrar {
Se Xj uma evidncia
W=w P(Ej|pais(Ej))
53
Seno Xj = amostra aleatria P(Xj|pais(Xj))

}
W[xj]=W[xj]+w
Retorne
W[x j ]
W[x ]
j
Exemplo 3.4: Considerando novamente a Rede Bayesiana da Figura 3.4, aplicamos esse
algoritmo com 100 repeties, sendo suas probabilidades estimadas:
P( Idade 20 | Sexo M ) 0.258

P( Idade 20 | Sexo M ) 0.742
Esse algoritmo possui rpida convergncia, sendo esses valores de probabilidade mais
precisos do que os gerados pelo algoritmo de rejeio. Para ilustrar a convergncia do
0.6
0.4
0.0
0.2
P(Idade=>20|Sexo=M)
0.8
1.0
algoritmo de Ponderao de Probabilidade, observamos a Figura 3.8.
200
400
600
800
1000
Repeties
Figura 3.8. Convergncia de probabilidade em ponderao de probabilidade
54
Segundo Russel e Norvig (2004), esse algoritmo muito eficiente, porm pode sofrer
degradao quando o nmero de evidncias aumenta.
3.2.3. Gibbs Sampling
Outro tipo comum de algoritmo para inferncia o Gibbs Sampling, ou Amostrador

de Gibbs, sendo este um mtodo particular de MCMC. A idia bsica deste algoritmo gerar
cada evento a partir do estado atual da rede, ou seja, podemos imaginar que a rede se encontra
em um determinado estado e cada varivel possui um valor especfico. Assim, o prximo
estado gerado por uma passagem aleatria dependente do estado atual. Para esse tipo de
procedimento, as variveis de evidncias so consideradas fixas.
Conceitos importantes como probabilidade de transio e cobertura de Markov so
importantes para a aplicao desse algoritmo.
Mesmo assim, tal algoritmo no freqentemente implementado em softwares bsicos
de Redes Bayesianas, devido a sua complexidade de manipulao das probabilidades para
cada estado da rede. Um software indicado na literatura para realizar esse tipo de inferncia
o software WinBUGS (www.mrc-bsu.cam.ac.uk/bugs/winbugs/).
Maiores detalhes e uma aplicao mais profunda sobre o Amostrador de Gibbs em
Redes Bayesianas podem ser encontradas em Russel e Norvig (2004).
Observamos que o termo inferncia, neste contexto, est intimamente ligado

verificao de probabilidades condicionais aps a observao de determinadas informaes,
denominadas evidncias. Para isso, utilizamos mtodos especficos para diferentes tipos de
estrutura.
Com isso, notamos que, dependendo do tipo de algoritmo utilizado, teremos esforos
computacionais diferenciados de processamento, relacionados ao alto grau de complexidade
do algoritmo e da estrutura em questo.
Assim, algoritmos so freqentemente utilizados para o cumprimento de objetivos em
Redes Bayesianas, um deles o de estimao de estrutura e de probabilidades condicionais.
Estes mtodos sero apresentados no captulo seguinte.
55
4. APRENDIZAGEM EM REDES BAYESIANAS

O termo aprendizado muito comum no contexto de Inteligncia Artificial e denota
a assimilao de experincia que gera a capacidade de um agente ou sistema obter sucesso em
determinada tarefa.
Desta forma, o aprendizado estatstico est intimamente ligado ao processo de
aprendizagem quando existem incerteza e variabilidade. Para isso, atravs de um conjunto de
dados, utilizamos o processo de estimao e validao do sistema em estudo, sendo aplicada
qualquer tcnica estatstica que se enquadre ao domnio do problema.
Assim, devido dificuldade da construo de uma Rede Bayesiana unicamente
consultando um especialista, existe o interesse de se estimar todos os elementos da rede, estes
sendo sua estrutura, e as probabilidades condicionais de cada CPT, tambm chamadas de
parmetros ou elementos numricos.
At o presente momento, assumimos que as estruturas e as probabilidades
condicionais j estavam definidas. Porm, a partir de agora temos o interesse de estimar a rede
por completo.
Neste captulo, exibimos de uma forma rpida mtodos para estimao conhecidos na
literatura. Assim, apresentamos mtodos especficos para ambos objetivos, a estimao de
parmetros e a estimao de estrutura.
4.1. ESTIMAO DE PARMETROS
Neste caso, estamos interessados em estimar as probabilidades condicionais para cada

varivel-n da rede. Estes procedimentos podem ser realizados para conjuntos de dados
completos e incompletos, sendo aqui apresentado apenas o mtodo de estimao para dados
completos.
Porm, um procedimento utilizado quando a base de dados incompleta o algoritmo
EM. Basicamente, se alguma varivel possui uma falta de informao, tambm conhecido
como missing, este algoritmo utiliza os casos observados para estimar os valores faltantes.
Esse mtodo utilizado pelo software Hugin, tambm para dados completos assumindo o
conjunto de missing como vazio.
56
Alm disso, a estimao pode ser realizada utilizando estimadores de mxima

verossimilhana e estimadores bayesianos, tais abordagens sero dadas nas Sees 4.1.1 e
4.1.2, respectivamente.
4.1.1. Estimao via Mxima verossimilhana
Esse processo de estimao extremamente simples, no consideram nenhum tipo de

conhecimento a priori, sendo suas estimativas baseadas em freqncias relativas e contagens
atravs da base de dados.
Para esta abordagem, considere que cada varivel-n Xi possua ri estados possveis,
sendo indicados por xi1 , xi2 , xi3 , xiri , dado o j-simo paii e estrutura conhecida. Assim
tempos (4.1).
P( X i xik | paij , ) ijk
P( X i xik , paij ) f ( xik , paij )
P( pa ij )
f ( paij )
(4.1)
onde f (.) denota freqncia relativa.
Note que nenhuma suposio a priori foi dada sobre qualquer um dos elementos em
anlise. Porm, a forma mais clara de exibir tal pensamento atravs de um exemplo.
Exemplo 4.1. Considere um conjunto de dados constitudo de 3 variveis dicotmicas e 24

observaes referentes credit scoring, sendo as variveis:

- Crditos Anteriores { Um, Diferente de um };
Assim, o conjunto de dados exposto na Tabela 4.1. Para este problema considere a
possvel estrutura de Rede Bayesiana exibida na Figura 4.1.
Atravs da Figura 4.1, notamos que existe apenas uma varivel-raiz e todas as demais
variveis possuem somente uma varivel-pai.
57
Tabela 4.1. Conjunto de dados referentes credit scoring.

Credit Rating
Ruim
Bom
Ruim
Bom
Bom
Bom
Ruim
Bom
Bom
Ruim
Ruim
Ruim
Ruim
Bom
Bom
Bom
Bom
Ruim
Bom
Bom
Bom
Bom
Bom
Bom
Sexo
Masculino
Masculino
Feminino
Feminino
Masculino
Masculino
Masculino
Masculino
Masculino
Masculino
Masculino
Feminino
Masculino
Masculino
Feminino
Masculino
Masculino
Feminino
Masculino
Masculino
Masculino
Masculino
Masculino
Masculino
Crditos Anteriores
Diferente de um
Um
Diferente de um
Diferente de um
Um
Um
Um
Diferente de um
Diferente de um
Diferente de um
Um
Um
Diferente de um
Diferente de um
Um
Um
Um
Um
Um
Um
Um
Diferente de um
Diferente de um
Um
Sexo
{M,F}
Crditos
Anteriores
{ 1 , 1 }
Credit
Rating
{B,R}
Figura 4.1. Possvel Rede Bayesiana para dados aplicados a credit scoring
Para facilitar os clculos, a varivel Sexo ser representada pela letra S, a varivel
Crditos Anteriores pela sigla CA, e a varivel Credit Rating pela sigla CR.
58
Desta forma, levando em considerao a estrutura de relacionamento apresentada,

necessitamos dos clculos das probabilidades P(S ) , P(CA | S ) e P(CR | CA) .
Assim, P(S ) estimada facilmente atravs da freqncia relativa calculada via Tabela
3.1. Para o clculo das probabilidades P(CA | S ) e P(CR | CA) , partimos de tabelas de
distribuio conjunta obtidas das tabelas cruzadas entre as variveis de interesse.
As
probabilidades conjuntas P(CA, S ) e P(CR, CA) so estimadas atravs das Tabelas 4.2 e 4.3,
respectivamente.
Tabela 4.2. Probabilidade conjunta P(CA, S )
CA
S
1
1
Total
F
0.13
0.08
0.21
M
0.46
0.33
0.79
Total
0.58
0.42
1.00
Tabela 4.3. Probabilidade conjunta P(CR, S )
CR
CA
Ruim
Bom
Total
1
0.17
0.42
0.58
1
0.17
0.25
0.42
Total
0.33
0.67
1.00
Note que em cada tabela as clulas referentes ao total so as probabilidades marginais

de cada categoria, ou seja, para a Tabela 4.2 a probabilidade marginal da varivel CA.
Fixando CA em 1, a probabilidade marginal dada por P(CA 1) 0.58 .
Assim, atravs do Teorema de Bayes visto na seo 1.3.2.4, no qual, por exemplo,
P(CR | CA) P(CR, CA) / P(CA) , realizamos o clculo de cada clula de probabilidade
conjunta dividida por sua respectiva clula de probabilidade marginal.
As probabilidades condicionais P (CA | S ) e P (CR | CA) so estimadas atravs das
Tabelas de probabilidade condicionais (CPT) 4.4 e 4.5, respectivamente.
59
Tabela 4.4. Probabilidade condicional P(CA | S )

S
CA
F
0.60
0.40
M
0.58
0.42
Tabela 4.5. Probabilidade condicional P(CR | CA)
CR
CA
Ruim
1
0.29
0.40
Bom
0.71
0.60
Deste modo, a Rede Bayesiana pode ser expressa pela Figura 4.2.
{M,F}
Sexo
Crditos
Anteriores
{ 1 , 1 }
Credit
Rating
{B,R}
Figura 4.2. Possvel Rede Bayesiana com CPT para dados de credit scoring
4.1.2 Estimao Bayesiana
Considere o parmetro numrico da rede, sendo instncia da varivel e a Rede

Bayesiana em estudo com estrutura conhecida. Desta forma, temos que X representa todo o
conjunto de dados fornecido. Assim, nosso problema se resume em estimar a P( | X , ) .
Desta forma temos as seguintes suposies:
60
X uma amostra aleatria de dados completos com distribuio multinomial.
ij representa todas as probabilidade da varivel Xi em qualquer um de seus

estados, dados seus pais no j-simo estado e sendo independentes dada a amostra
X.
P ( | X , ) P ( ij | X , )
i
Dadas
as
suposies
anteriores,
podemos
assumir
que
ij | ~
Dirichlet
( ij | a ij1 ,..., i jri ) e temos que ij |X, ~ Dirichlet ( ij | a ij1 N ij1 ,...,i jri N ijri ), como visto na
seo 1.3.2.4. Sendo Nijk a freqncia na amostra X com que a varivel Xi assume o k-simo
estado, condicionada ao j-simo estado dos pais.
Assim, tomando a mdia da distribuio de ij |X, como estimador de ijk temos que
(4.2).
P( X i xik | pa ij , )
(1 N ijk )
(4.2)
(ri N ij )
Para maiores detalhes da formulao deste procedimento para o aprendizado dos

parmetros de uma rede Bayesiana, consultar Luna (2004).
Exemplo 4.2: Para aplicao desta tcnica, considere o conjunto de dados de exemplo 4.1,
mais especificamente a Tabela 4.3. Assim, podemos construir a nova tabela a seguir.
Tabela 4.6. Freqncia CR, CA
CR
CA
Ruim
Bom
Total
1
4
10
14
1
4
6
10
Total
16
8
24
Assim, podemos realizar os clculos a partir de (4.2).

61
P(CR Ruim | CA 1)
(1 N CR ,1, Ruim )
(rCA N CR ,1 )
(1 4)
0.312
(2 14)
Tabela 4.7. Probabilidade condicional P(CR | CA)
CR
CA
Ruim
1
0.312
0.417
Bom
0.688
0.583
Note que os valores da Tabela 4.7 so bastante similares aos encontrados na Tabela
4.5.
4.2. ESTIMAO DE ESTRUTURA
Para este tipo de estimao estamos interessados na busca da melhor estrutura de

Redes Bayesianas para um determinado conjunto de dados, ou seja, a melhor disposio de
dependncias e independncias entre as variveis que explique melhor o problema em estudo.
Segundo Hrushchka (2003), a estimao de estrutura de uma Rede Bayesiana, tambm
conhecida na literatura como aprendizado de estrutura, pode ser dividida em duas partes: a
primeira baseada em uma busca heurstica e a segunda baseada no conceito de independncia
condicional dos atributos da rede. Assim, algoritmos so requeridos para ambos os tipos de
estimao.
Os algoritmos de busca heurstica pesquisam a melhor estrutura com base na busca de
uma pontuao adequada, assim, comeam com uma rede sem arcos e, gradativamente,
adicionam arcos ligando varivel a varivel, analisando um determinar score em cada
passagem. Por fim, indica como sendo a melhor estrutura aquela com o mximo score obtido.
Uma desvantagem desse tipo de algoritmo que ele depende diretamente da ordenao inicial
das variveis.
Os algoritmos baseados no conceito de independncia condicional utilizam a
propriedade de d-separao (Seo 2.4), o que diminui significativamente o esforo
computacional.
62
Porm, Magalhes (2007) aponta a aplicao de mtodos hbridos como uma terceira
alternativa para estimao de estrutura, os quais se utilizam de uma composio dos
algoritmos de busca por pontuao e dos baseados em propriedades de d-separao.
Bottcher e Dethlefsen (2003) sugerem um algoritmo hbrido implementado no pacote
deal do Software R.
A abordagem aqui apresentada meramente informativa, pois existem vrias
abordagens sobre algoritmos de aprendizado de estrutura, sendo que a rea est em constante
desenvolvimento (Russell e Norvig, 2004). Assim, nesta seo, apresentamos de forma
sucinta o algoritmo K2, que busca maximizar a mtrica de determinada funo, tambm
aprestamos o algoritmo PC, implementado no Software Hugin, como sendo um algoritmo
baseado em propriedades de d-separao. Alm disso, apresentamos como realizar o
aprendizado hbrido utilizando o software R.
4.2.1 Algoritmo PC
O algoritmo PC foi proposto por Spirtes, Glymour e Scheines (1991), levando assim
no nome as iniciais de seus principais criadores, Peter Spirtes e Clark Glymour. A idia bsica
do algoritmo realizar testes estatsticos para determinar grupos de variveis independentes,
utilizando o critrio de d-separao. Geralmente, o teste utilizado o teste estatstico de Quiquadrado, sendo calculado atravs do conjunto de dados (Abellan et al, 2006). Assim, os
testes so realizados a cada par de variveis da rede. Tal processo considera que se o teste
significativo, as variveis se encontram conectas e, assim, estabelecem a orientao dos arcos,
atravs do critrio de d-separao.
4.2.2 Algoritmo K2
O algoritmo K2 considerado um dos mais importantes dentre todos os algoritmos

que se referenciam a busca de pontuao para estimao de estrutura. Assim, sua idia base ,
partindo de uma ordenao das variveis, a fim de tornar a estrutura acclica, pesquisar entre
os 2 n(n-1)/2 tipos de configuraes de estruturas de rede e verificar qual entre elas maximiza a
funo score dada por (3.3)( Hrushchka,1997).
63
P( | X ) c
qi
ri
( ri 1)!
N ijk !
i 1 j 1 ( N ij ri 1)! k 1
(4.3)
Onde, X a base de dados com n observaes, representa a dimenso de estrutura,

m o nmero de variveis, ri a quantidade total de possveis valores que a varivel Xi (i =
1,..., m) pode assumir. O termo qi est relacionado s possveis configuraes dos pais. O
valor de Nijk representa a quantidade total de observaes em X onde a varivel Xi est no ksimo estado e os seus pais apresentam a j-sima configurao. A constante c a constante de
proporcionalidade. J Nij o nmero total de observaes em X onde se tem Xi com qualquer
um de seus possveis valores e com a j-sima configurao.
4.2.3. Estimao Hbrida utilizando o Software R
O tipo de estimao realizada por Bottcher e Dethlefsen (2003) est relacionado a um

mtodo de busca particular, denominada pesquisa vida com reincios aleatrios (Heckerman
et al.,1995). Esse mtodo perturba a Rede Bayesiana atravs de inseres, remoes ou troca
de sentidos de arcos, comparando os scores de duas diferentes estruturas de rede. Note que o
mtodo ainda essencialmente influenciado por busca de pontuao.
Um possvel mtodo para realizar tal comparao baseado na utilizao da razo
posteriori, dada em (4.4).
P( | X )
P( )
P( X | )
*
*
P( | X ) P( ) P( X | * )
(4.4)
Esse mtodo de aprendizado tambm aplicado na existncia de variveis contnuas

na rede. Porm, no h metodologia desenvolvida para Redes Bayesianas exclusivamente
contnuas, sendo denominadas mistas as redes que possuem ambos os tipos de variveis.
Para a abordagem de Redes Bayesianas mistas, os autores consideram uma restrio
para capacitar mtodos exatos locais. Deste modo, no permitido que variveis discretas
possuam variveis-pai contnuas.
Todo esse processo de estimao para estrutura de rede e o mtodo de estimao
Bayesiana de parmetros baseado na distribuio Dirichlet e esto disponveis no pacote
deal do Software R.
64
No h conhecimento de nenhum pacote ou algoritmo implementado em R para

realizao de inferncias probabilsticas em Redes Bayesianas. Devido a esse fato o pacote
deal possui compatibilidade com o Software Hugin, permitindo a exportao da rede aps o
trmino da estimao. Este procedimento atualmente poderoso, pois o Software Hugin no
capaz de realizar qualquer tipo de estimao na presena de variveis contnuas.
Assim, os principais comandos do pacote deal so apresentados na Tabela 4.2.
Tabela 4.2. Funes importantes para ajuste de Rede Bayesiana no Software R

Nome da Funo
network()
jointprior()
learn()
Descrio
Transforma um conjunto de dados
em um objeto da classe network.
Calcula a probabilidade conjunta,
dado um objeto de classe network.
Realiza
estimao
das
probabilidades.
Capta a rede sem arcos, parte
getnetwork()
integrante do comeo da estimao

da estrutura.
heuristic()
savenet()
Realiza
pesquisa
vida
com
reincios aleatrios.
Salva a rede para ser utilizada pelo
Software Hugin.
Para ilustrar o procedimento de ajuste de uma Rede Bayesiana, exibimos um exemplo.
Exemplo 4.3. Para realizar um breve exemplo de estimao de estrutura e de probabilidades

via o Software R, consideramos um conjunto de dados reais em credit scoring, composto por
499 observaes e 5 variveis, sendo a varivel de interesse Y (Credit Rating). Uma extenso
desse conjunto de dados ser utilizada para exibir como os procedimentos de estimao
podem ser realizados atravs do Software Hugin.
Assim, temos as seguintes variveis:
65
Y = Credit Rating
X1 = Saldo da conta corrente
Mau
Sem movimento
Bom
Sem balano
$300
<= $300
X4 = Valor da Poupana em Dlares
X2 = Durao do Crdito em meses

<21
Sem economias
>=21
<140
140-700
700-1400
X3 = Valor do Crdito em Dlares
>1400
< 4 828.15
>= 4 828.15
A estrutura estimada da Rede Bayesiana pode ser visualizada pela Figura 4.3. Alm
disso, salvamos essa estrutura em um arquivo chamado rede.net a fim de utiliz-lo no
prximo captulo, onde ser apresentado o Software Hugin.
Score: -2223.170
Y
X4
X1
X3
X2
Figura 4.3. Estrutura de Rede Bayesiana estimada atravs do Software R
66
Atravs da Figura 4.3, notamos que a varivel Y influenciada probabilisticamente

pelas variveis X1, X2 e X4. Ou seja, a probabilidade de um indivduo ser classificado como
bom ou mau pagador est relacionada diretamente com seu saldo na conta corrente, a durao
do crdito em meses e o valor da poupana.
Todo o processo de estimao realizado atravs do Software R e seus cdigos de
programao so apresentados abaixo.
dados=read.csv("C:\\...\\CreditScoring.csv",
sep=';',header=T) # Abrindo o conjunto de dados
require(deal) # Abrindo o pacote deal
# Transformado o conjunto de dados para o tipo Frame

x=data.frame(dados)
# Transformando x para a classe network

fit
<- network(x)
# Calculando as probabilidades conjuntas

fit.prior <- jointprior(fit)
# Calculando as probabilidades conjuntas

fit
<- getnetwork(learn(fit,x,fit.prior))
# Realizando a busca heurstica. Os atributos restart e degree

# esto associados aos nmeros de reincio e a fora de
# perturbao. O atributo removecycles quando TRUE, remove
# redes que so cclicas da estimao, retornando apenas as
# aclicas.
hisc
<- heuristic(fit,x,fit.prior,restart=2,degree=5,
trace=F,removecycles=T)
67
#Exibe a Rede estimada, visualizada atravs da Figura 3.3

plot(hisc$nw)
# Salva a rede na pasta Meus documentos, se o sistema

# operacional for Windows.
savenet(hisc$nw,file("rede.net"))
Para os mtodos de estimao de estrutura e probabilidades condicionais, exibimos

dois tipos de procedimentos para a estimao de probabilidades e trs tipos de mtodos para a
estimao de estrutura, sendo estes os mtodos mais comuns utilizados na literatura
especializada.
Alm disso, apresentamos como um procedimento de estimao de Redes Bayesianas
pode ser realizado utilizando o Software R. Assim, temos um importante relacionamento entre
este software e o Software Hugin, que ser apresentado no captulo seguinte.
68
5. SOFTWARE HUGIN
O Software Hugin (http://www.hugin.com) foi construdo pela empresa Hugin Expert
S/A fundada em 1989 e localizada em Aalborg, Dinamarca. Assim, foi implementado como
instrumento de anlise para metodologias voltadas rea da sade, mais especificamente para
a diagnose muscular. Hoje em dia, tornou-se um sistema comercial altamente conhecido e
direcionado a solues utilizando a tecnologia de Redes Bayesianas.
De uma forma geral, existem vrios tipos de verses e licenas para este software,
cada uma direcionada a uma finalidade diferente. Por exemplo, as verses Hugin Developer,
Explorer e OTM so voltadas apenas para o uso comercial, as verses Hugin Researcher,
Classroom e Educational so voltadas apenas uso acadmico.
Figura 5.1. Interface Grfica do Software Hugin Lite
Mesmo assim, a empresa fornece uma verso demonstrativa e para uso pessoal do
software, tal verso conhecida como Hugin Lite, sendo uma edio limitada das licenas
Hugin Developer e Researcher.
69
Entre outras limitaes, o Hugin Lite fornece a manipulao de um conjunto de dados

com apenas 500 observaes e com at 50 categorias. O download desta verso pode ser
realizado gratuitamente no site da empresa e est disponvel para os sistemas operacionais
Windows (95/98/NT4/2000/XP), Solaris Sparc, Solaris x86, Linux e Mac OS X 10.4, 10.5.
A pgina principal do Software Hugin Lite pode ser visualizada na Figura 5.1.
Nesta seo, apresentamos como as tcnicas bsicas em Redes Bayesianas podem ser
realizadas no Hugin Lite, alm de proporcionar um rpido entendimento das funes bsicas
do software.
5.1. PRIMEIROS PASSOS
5.1.1. Instalao
Para realizar o download do arquivo HuginLiteR70.msi atravs do site, um breve

cadastro deve ser preenchido, no qual o e-mail de extrema importncia, nele ser enviado o
cdigo de utilizao do software. Aps realizar o download do arquivo, um duplo clique
inicializar o procedimento de instalao, avance e fornea o cdigo que foi enviado para seu
e-mail quando requisitado, continue avanando e aguarde a instalao do programa. Assim,
para todas as verses do Windows, ele pode ser acessado em Iniciar > Programas > Hugin
Lite 7.0 > Hugin Lite 7.0.
5.1.2. Acessando Arquivos
As Redes Bayesianas so armazenadas em arquivos no formato especifico .net. Alm

disso, o Hugin Lite possui uma pasta contendo alguns exemplos de Redes Bayesianas, esta
pode ser acessada atravs do cone
ou com um duplo clique em File > Open que se
encontra no menu principal. Para qualquer verso do Windows, a pasta de exemplos est
localizada no endereo Arquivos de programas\Hugin Expert\Hugin Lite 7.0\Samples\.
70
5.1.3. Compilao
Aps a Rede Bayesiana ter sido aberta e antes mesmo de probabilidades de

propagaes serem definidas ou evidncias instanciadas, devemos acionar Switch Run
, ou
Network > Run, para iniciar a compilao da rede.

Aps isso, uma nova janela se abrir ao lado esquerdo da tela, mostrando todas as
variveis-n com suas respectivas probabilidades, clicar no boto Expand note list
exibe
todas as probabilidades a posteriori, dada uma evidncia atual. Note que o programa
iniciado sem nenhuma evidncia, ou seja, o conjunto de evidncias vazio. O boto Collapse
node list
oculta todas as probabilidades a posteriori.
5.1.4. Salvando os arquivos
Quando uma rede est aberta, o salvamento efetuado de maneira simples. Selecione
Save As no menu File ou pressione o boto Save the select network
, encontre o melhor
local para o salvamento, digite o nome do arquivo e pressione Save.
5.2. CONSTRUINDO UMA REDE BAYESIANA
Uma Rede Bayesiana pode ser criada e/ou editada facilmente atravs do Software
Hugin. Para abrir o mdulo de edio, basta clicar no boto Switch to edit mode
Os procedimentos para edio so similares aos de construo de redes, aqui o termo

construo entendido como transferir uma rede j existente para o software.
Exemplo 5.1: Considere a estrutura apresentada no captulo de inferncia probabilstica,

sendo novamente exibido na Figura 5.2. Vamos construir tal Rede Bayesiana no Software
Hugin.
O mdulo de criao e edio de uma Rede Bayesiana , geralmente, inicializado
conjuntamente com o software. Tal mdulo apresentado na Figura 5.3.
Para adicionar uma varivel-n discreta basta clicar em Discrete change tool
adicionar uma varivel-n contnua basta clicar em Continuous change tool
, para
. Adicionamos
71
quatro variveis-n discretas como indicado na Figura 5.2, para isso basta clicar em
clicar novamente dentro da janela principal do mdulo. Caso for necessrio, a varivel-n
pode ser arrastada para um lugar desejado, para isso basta segurar o clique e arrastar com o
mouse.
Para adicionar os arcos indicando a dependncia direta entre as variveis, basta clicar
no boto Link tool
, clicar segurando o boto e arrastar at a varivel-filho desejada. Ou
seja, Tipo de imvel para Idade e Sexo, e estas para credit rating, como indicado na Figura
5.2.
P( T = Prprio )
0.90
Tipo
Imvel
T
Prprio
No Prprio
P(I<=20|T)
0.20
0.80
Idade
Sexo
T
P( S = Masculino | T )
Prprio
0.20
No prprio
0.05
Credit
Rating
S
Masculino
Masculino
Feminino
Feminino
I
P( CR = Bom | S, I)
< 20 anos
0.80
>=20 anos
0.80
< 20 anos
0.80
>=20 anos
0.05
Figura 5.2. Rede Bayesiana a ser transferida para o software Hugin
Desta forma, at o presente momento devemos ter encontrado a estrutura indicada

acima.
72
Figura 5.3. Mdulo de Edio e construo de uma Rede Bayesiana no Hugin
Figura 5.4. Mdulo de Edio com a construo parcial da Rede da Figura 5.2
Observando a Figura 5.4, notamos que ainda necessrio estabelecer os nomes para as
variveis-n, bem como seus possveis estados e suas probabilidades.
73
Deste modo, para alterar os estados e nome de cada varivel-n, clicamos duas vezes
sobre cada varivel e alteramos o campo name da aba node e os estados so alterados atravs
do boto rename da aba States.
Para inserir as probabilidades de cada CPT associada a cada varivel-n, clicamos
com o boto direito sobre a varivel respectiva e selecionamos Open Tables. A partir da,
digitamos todos os valores dados pela estrutura da Figura 5.2.
Figura 5.5. Tabelas de probabilidade condicional no Hugin para a rede da Figura 5.2
A Figura 5.5 exibe a tabela de probabilidade condicional para a varivel Credit Rating,
note que as demais tabelas da rede se encontram nas abas vizinhas.
Assim, a rede est pronta para outros procedimentos.
5.3. INFERNCIA EM UMA REDE BAYESIANA
A partir de uma Rede Bayesiana com estrutura j definida e com suas tabelas de
probabilidades condicionais j construdas, podemos realizar os procedimentos de inferncia
utilizando o software Hugin.
Essa habilidade uma das mais importantes deste software, pois ele efetua a inferncia
probabilstica de forma rpida e fcil. Para maiores informaes sobre os tipos de algoritmos
para inferncia probabilstica implementados no Hugin consultar Jensen et al.(1994).
O processo de propagao de probabilidades procedente da compilao da rede.
Desta forma, para realizar esse procedimento, basta abrir uma Rede Bayesiana e acionar o
boto Switch Run
, ou Network > Run.
Assim, acionar o boto Expand note list
para exibir todas as probabilidades dado
um conjunto de evidencias. Como dito anteriormente, neste momento o conjunto de

evidncias vazio.
74
Deste modo, basta clicar duas vezes sobre a categoria de qualquer uma das variveis
que se deseja evidenciar, ou seja, informar tal observao para a rede. Automaticamente, o
software j realizar a propagao de probabilidades para as demais variveis-n, exibindo a
probabilidade a posteriori de todas as categorias dado o novo conjunto de evidncias.
Exemplo 5.2: Considere a Rede Bayesiana construda no Exemplo 5.1, para ela observamos
que um cliente do sexo masculino e possui 38 anos de idade. Assim, estas categorias so
instanciadas, tornando-se evidncias. Note que a Figura 5.6 exibe a rede sem a propagao da
evidencia, j a Figura 5.7 exibe a figura com a propagao para os ns Tipo de Apartamento
(T) e Credit Rating (TR).
Figura 5.6. Rede Bayesiana sem propagao de probabilidades
Note que para a rede j com as probabilidades propagadas, a probabilidade de o cliente

ser bom pagador, dado que ele do sexo masculino e possui idade maior ou igual a 20 anos,
cresce de 0.3537 para 0.80. Da mesma forma, a probabilidade de o cliente possuir imvel
prprio, dado que ele do sexo masculino e maior que 20 anos, cresce de 0.90 para 0.9931.
Ou seja, para esse conjunto de dados, se as estimativas de probabilidades fossem
corretas poderamos dizer que um indivduo de sexo masculino, com idade maior que 20 anos
e toda a estrutura de dependncia entre as variveis, possui um risco menor de ser mau
75
pagador. Observe que no foi necessria a coleta de informao sobre o tipo de imvel do
cliente.
Figura 5.7. Rede Bayesiana com propagao de probabilidades
Note tambm que os valores que o software apresenta esto em porcentagem e no em

valor de probabilidade de 0 a 1.
5.4. ESTIMAO DA REDE ATRAVS DOS DADOS
O Software Hugin proporciona a facilidade de atravs de um conjunto de dados em

formato .dat realizar a estimao da estrutura de rede, bem como estimar as probabilidades
em cada varivel-n.
Para os procedimentos de estimao o software possui duas possibilidades de
algoritmos a serem aplicados: o PC e o NPC. O primeiro, como visto anteriormente, baseiase na construo de conjuntos condicionalmente dependentes ou independentes realizando
testes estatsticos. O segundo estima a rede atravs de critrios de dependncia ou
independncia estabelecidos pelo usurio.
Uma maneira rpida de iniciar os procedimentos de estimao basta acessar o Wizards
> Learning Wizard ... atravs do menu principal.
76
Neste trabalho, iremos apenas demonstrar a estimao da rede atravs do algoritmo

PC. Aps o exemplo 5.3, exibiremos como o arquivo redes.net, estimado pelo Software R,
pode ser utilizado no Hugin.
Exemplo 5.3: Devido s restries do Hugin Lite, consideramos um conjunto de dados reais
com 499 observaes, 28 categorias divididas em 8 covariveis, as quais dizem respeito
varivel-resposta Credit Rating. Esse conjunto de dados salvo no formato .dat e exibido na
Figura 5.8. Abaixo segue o detalhamento das variveis.
X1 = Saldo da conta corrente
X5= Tempo de Emprego em anos
Sem movimento
<1
Sem balano
1-5
$300
5-8
<= $300
>8
X2 = Durao do Crdito em meses
X6 = Parcela do Rendimento em %
<21
< 15
>=21
15-25
25-35
X3 = Valor do Crdito em Dlares
>35
< 4 828.15
>= 4 828.15
X7 = Idade em anos
<34
X4 = Valor da Poupana em Dlares

Sem economias
<140
140-700
700-1400
>=34
X8 = Tipo de imvel
Prprio
Alugado
Cedida
>1400
Y = Credit Rating
Mau
Bom
77
Desta forma, podemos clicar em Wizards > Learning Wizard ... para dar incio a
estimao da rede.
Figura 5.8. Rede Bayesiana com propagao de probabilidades
Comeando o procedimento, a primeira janela indicada na Figura 5.9 e faz referncia

importao do arquivo contendo o conjunto de dados. Assim, basta acionar o boto
Browser, procurar o arquivo e seguir para a prxima tela, atravs do boto Next. Note que
existe a opo para que o programa leia ou no o nome das variveis na primeira linha do
arquivo de dados. Como indicado na Figura 5.8, na qual podemos observar os nomes das
variveis, devemos manter essa opo.
Figura 5.9. Tela inicial do Learning Wizard

78
A prxima tela fornece a possibilidade para usurio editar o conjunto de dados, como
remover variveis atravs dos botes Include All e Exclude All, bem como alterar o nome das
variveis atravs do boto Label Variables. Alm disso, essa tela fornece uma anlise de
freqncia de cada varivel atravs do boto Analyze. Neste exemplo, nenhuma alterao
realizada e prosseguimos atravs da tecla Next.
A terceira janela disponibiliza a construo de contrastes e relaes importantes a qual
o usurio acredita atravs de sua experincia como profissional. Neste exemplo, nenhuma
alterao realizada e prosseguimos atravs da tecla Next.
A janela seguinte pode ser visualizada na Figura 5. 10 e solicita o tipo de algoritmo a
ser utilizado, bem como o nvel de significncia para os testes estatsticos. Para o exemplo,
selecionamos o nvel de significncia de 0.05 e o algoritmo PC.
Figura 5.10. Janela do procedimento para selecionar o algoritmo a ser utilizado
A janela seguinte exibe a possibilidade de o usurio inserir manualmente os valores

das CPTs, porm atravs deste procedimento a estimao de probabilidades condicionais pode
ser dada atravs da base de dados na janela seguinte. Assim, nenhuma alterao realizada e
prosseguimos atravs da tecla Next.
79
A ltima tela exibida na Figura 5.11 e solicita para o usurio informar um limiar de
convergncia para a realizao da estimao das probabilidades atravs do algoritmo de
estimao EM, ou seja, um erro mximo permitido para verificar a convergncia do
algoritmo. Novamente, nenhuma alterao realizada e terminamos o procedimento atravs
da tecla Finish.
Figura 5.11. Finalizao atravs da estimao das probabilidades via algoritmo EM.
Na Figura 5.12 exibida a Rede Bayesiana estimada atravs dos dados. Note que os
relacionamentos primeira vista so confusos, porm podem ser organizados da forma
indicada pela Figura 5.13. O procedimento de organizao totalmente manual, porm o
software disponibiliza um boto no menu principal, atravs de Network > Layout the
nodes
. Porm, o processo manual mais flexvel, basta clicar e arrastar cada varivel-n
para o local desejado.
80
Figura 5.12. Rede Bayesiana estimada pelo software Hugin
Figura 5.13. Rede Bayesiana estimada pelo Hugin aps organizao
Atravs da Rede Bayesiana indicada na Figura 5.13, podemos tirar inmeras

concluses. Porm, notamos claramente que as variveis so dividas em dois grupos
diferentes, um contendo apenas as variveis X5, X7 e X8 e o outro contendo as demais
variveis. Ou seja, existe uma relao intrnseca entre o tempo no emprego atual, idade e tipo
de imvel, a qual no se relaciona de forma alguma ao fato de o cliente ser dado como bom
ou mau pagador.
Notamos tambm que a varivel Y influenciada diretamente apenas pelas variveis
X1, X2 e X4. Ou seja, o cliente ser classificado como bom ou mau pagador est diretamente
relacionado com seu saldo da conta corrente, a durao do crdito e ao valor da poupana do
cliente.
Para realizar os procedimentos de inferncia basta acionar o boto Switch Run
proceder da forma como foi vista anteriormente.

81
No Captulo 4, exibimos mtodos de estimao para a estrutura e para as

probabilidades das CPTs de uma Rede Bayesiana. Agora exibimos como o arquivo salvo
anteriormente, rede.net, pode ser utilizado para realizao da propagao de probabilidades.
Exemplo 5.4: Para abrir o arquivo acione File > Open... ou d um duplo clique sobre o cone
do arquivo. Assim, uma vez que ele se encontre no Software Hugin, podemos organizar a rede
da forma indicada na Figura 5.13.
Figura 5.13. Rede Bayesiana estimada pelo Software R e editada no Software Hugin
Desta forma, podemos realizar os procedimentos vistos anteriormente para a

realizao de inferncias, ou seja, acionando Switch Run
e selecionando as categorias de
evidncia.
Assim, selecionamos como evidncia a varivel X1, sendo instanciada para a categoria
sem movimentao, isto , o cliente no possui movimentao em sua conta corrente. A
Figura 5.14 exibe as mudanas de probabilidades para esse caso.
Note que a probabilidade de ter mais que U$ 1400 em sua conta, dado que o cliente
no possui movimentao em conta corrente, tem um decrscimo de 0.1595 para 0.0661 e a
probabilidade de ser classificado como mau pagador cresce de 0.3862 para 0.4661.
82
Figura 5.14. Inferncia probabilstica realizada atravs do Software Hugin.
Neste captulo, apresentamos o Software Hugin, sendo este um aplicativo fundamental

na rea de Redes Bayesianas, bem como os procedimentos passo a passo de como uma Rede
Bayesiana pode ser tratada utilizando este software.
Assim, englobamos todo o processo de definies bsicas da tcnica Redes Bayesianas
e seus mtodos. Desta forma, apresentamos no prximo captulo uma abordagem especfica
da tcnica para anlises de classificao.
83
6. REDES BAYESIANAS PARA CLASSIFICAO

Neste capitulo apresentamos uma estrutura geral de Redes Bayesianas utilizada para
realizar anlise de classificao, dado um grupo de variveis-categoria e uma varivel de
interesse a ser classificada. Alm disso, exibimos um estudo de simulao estocstica para
uma estrutura conhecida e particular desta estrutura geral, o classificador de Naive Bayes.
6.1. ESTRUTURAS DE CLASSIFICAO
Os mtodos de classificao so motivos de intensa pesquisa na rea da Estatstica.

Neste contexto, vrios mtodos tradicionalmente conhecidos so utilizados como, por
exemplo, Regresso Logstica, rvores de deciso, redes neurais, anlise discriminante etc.
(Friedman et al., 1997).
Da mesma forma, Redes Bayesianas com estruturas particulares podem ser aplicadas a
problemas de classificao e, neste contexto, tambm so conhecidas como classificadores
bayesianos.
Neste trabalho, consideramos a estrutura de Rede Bayesiana Simples, popularmente
conhecida como classificador de Naive Bayes, e a estrutura de Redes Bayesiana Simples com
K-Dependncia, tambm conhecida como classificador bayesiano com k-dependncia. (KDB)
(Sahami, 1996).
6.2. REDE BAYESIANAS SIMPLES
A construo de uma Rede Bayesiana Simples, conhecida tambm como classificador

de Naive Bayes, est baseada no clculo da distribuio de probabilidade a posteriori P(Y|X),
onde Y=(y1,y2,...,yk) a varivel aleatria a ser classificada apresentando k categorias e X=
(X1, X2, ... Xp) um conjunto de p variveis explicativas discretas.
Para o clculo da probabilidade condicional P(Y|X) este mtodo assume independncia
probabilstica entre as variveis explicativas, facilitando a aplicao do mtodo
computacionalmente.
Desta forma, P(Y|X) dada por (6.1)
84
P(Y y k | x1 ,..., x p ) P(Y y k ) P ( xi | Y y k )
(6.1)
i 1
Desta forma, o mtodo baseia-se em calcular a probabilidade de uma respectiva

observao pertencer a cada uma das categorias e classifica a observao na categoria mais
plausvel. Se a classificao em foco for binria, podemos utilizar a curva ROC para inferir
sobre a classificao.
A Figura 6.1 exibe o caso geral de uma Rede Bayesiana Simples.
X1
X2
Xp
Figura 6.1 Rede Bayesiana Simples
Atravs da Figura 6.1, notamos que todas as variveis explicativas Xi possuem apenas
Y como varivel-pai, ou seja, Y a nica varivel-raiz, a qual origina a rede.
Porm, na maioria das vezes a suposio de independncia entre as variveis

explicativas no condiz com a realidade, ou seja, o mtodo no leva em conta a possvel
relao de dependncia probabilstica entre as variveis explicativas.
Assim, outras estruturas de Redes Bayesianas devem ser utilizadas, uma possvel
alternativa apresentada a seguir.
85
6.3. REDE BAYESIANAS SIMPLES COM K-DEPENDNCIA
Este mtodo, ao contrrio do anterior, considera possveis relaes de dependncia

entre as variveis explicativas. Desta forma, uma Rede Bayesiana Simples com kDependncia trata-se de uma Rede Bayesiana Simples a qual permite em sua estrutura que
cada varivel explicativa Xi possua no mximo k variveis-pai. Em outras palavras pais(Xi) =
{ Y, Z } onde Z um conjunto de no mximo k variveis explicativas.
Assim, temos que uma Rede Bayesiana Simples (Naive-Bayes) caso particular de
uma Rede Bayesiana com k-dependncia, sendo k=0. Note tambm que k pode variar de 0 a
1-p, onde p o nmero de variveis explicativas consideradas.
A Figura 6.2 exibe o caso geral de uma Rede Bayesiana Simples com k-dependncia
com k=1.
X1
X2
Xp
Figura 6.2 Rede Bayesiana Simples com k-dependncia (k=1)
Para realizar o ajuste de tal estrutura atravs de um conjunto de dados, Sahami (1996)
prope o seguinte algoritmo:
1. Para cada varivel Xi, calcule a medida de informao mtua I(Xi,Y);

2. Para cada par de variveis explicativas, calcule a medida de informao mtua
condicional I(Xi, Xj|Y);
86
3. Defina S como a lista de variveis explicativas utilizadas, inicialmente considere S

como vazio;
4. Inicie a Rede Bayesiana com a varivel de classificao Y;
5.
Repita at a lista S conter todas as variveis explicativas:

a. Selecione a varivel explicativa X max que ainda no est contida em S e que
possua a maior medida I(Xmax,Y);
b. Adicione rede a varivel Xmax;
c. Adicione um arco de Y para Xmax;
d. Adicione m=min(|S|,k) arcos partindo das m Xj variveis explicativas com o
maior valor I(Xmax,Xj|Y) ;
e. Adicione Xmax lista S;
6. Calcule as tabelas de probabilidades condicionais considerando a estrutura

construda.
Note que o algoritmo necessita do clculo da medida de informao mtua entre as

variveis Xi e Y, I(Xi,Y), a qual definimos subseqentemente.
6.3.1. Informao Mtua
Foi desenvolvida em um ramo da teoria da probabilidade e da matemtica estatstica

que lida com problemas relacionados comunicao denominada Teoria da Informao e
introduzida por Shannon (1948).
A Informao mtua est relacionada de forma muito prxima com testes estatsticos
como o teste Chi-square. E definida por:
I ( X , Y ) H ( X , Y ) H ( X ) H (Y )
(6.2)
Onde H ( X , Y ) p ( x, y ) log( p ( x, y)) a entropia conjunta das variveis X e Y e

X
H ( X ) p( x) log( p( x)) a entropia da varivel aleatria X.

X
Analogamente I ( X 1 , X 2 | Y ) E ( I ( X 1 , X 2 ) | Y ) .
A medida de informao mtua expressa a quantidade de informao que X
compartilha com Y. Ou seja, quando X e Y so independentes temos que I(X,Y)=0
87
De uma forma geral, quando temos o interesse em decidir entre duas categorias
estamos realizando uma classificao dicotmica, a discriminao destas categorias pode ser
realizada atravs da utilizao da curva ROC.
6.4. CURVA ROC
A curva ROC (curva Caracterstica Operativa do Receptor), introduzida em 1993 por

Zweig e Campbell, pode ser definida, geometricamente, como um grfico em que para a
abscissa temos a medida de 1-especificidade e para a ordenada temos a medida de
sensibilidade, sendo esse plano designado unitrio, pois cada eixo possui tamanho 1. A
sensibilidade responsvel pela proporo de indivduos com a caracterstica do modelo, a
especificidade responsvel pela proporo de indivduos sem a caracterstica de interesse
que identificada corretamente pelo modelo.
Assim, a curva ROC construda variando o ponto de corte de classificao e atravs
da amplitude dos scores, para ambos os casos temos os scores como probabilidades. Um
exemplo de curva ROC exibido na Figura 6.3.
Figura 6.3 Exemplo de Curva ROC
Uma curva ROC obtida ao longo da diagonal principal corresponde a uma

classificao obtida sem a utilizao de qualquer ferramenta preditiva, ou seja, sem a presena
de modelos. Conseqentemente, a curva ROC deve ser interpretada de forma que, quanto
mais a curva estiver distante da diagonal principal, melhor o desempenho do modelo
associado a ela.
88
Para definir o melhor ponto de corte, temos que escolher o ponto que maximize
conjuntamente a sensibilidade e a especificidade da classificao. Sendo assim escolhemos o
ponto mais prximo do eixo superior esquerdo do grfico, ou seja, temos que o melhor ponto
de corte o que possui menor distncia euclidiana do ponto (0,1).
6.5. REGRESSO LOGSTICA
O modelo de Regresso Logstica, tambm conhecido por modelo logstico, , em

geral, um mtodo de classificao bastante solidificado e utilizado para tratar problemas
relacionados classificao dicotmica em vrias reas do conhecimento.
Este modelo estabelece uma relao entre a probabilidade de ocorrncia dos resultados
de uma varivel-resposta dicotmica, que normalmente representada pelos termos sucesso
e fracasso ou bom e mau, e variveis explicativas, sendo estas categricas ou contnuas.
Este modelo representado por (Hosmer e Lemeshow, 1989).
Dessa forma, considerando Y como a varivel de classificao, sendo a categoria de
sucesso igual a 1, e Xi como varivel explicativa, a probabilidade de sucesso para a varivel
de classificao dada pelo modelo indicado em 6.3.
P(Y 1)
exp{ 0 1 x1 .... p x p , }
1 exp{ 0 1 x1 .... p x p , }
(6.3)
Assim, atravs da probabilidade expressa por P(Y=1), decidimos se classificamos ou

no um indivduo como possuidor da caracterstica em estudo. Geralmente, um ponto de corte
especificado para tal deciso. Um mtodo freqentemente utilizado para estimar este ponto
atravs da curva ROC.
6.6. REGRESSO LOGSTICA VERSUS NAIVE BAYES
Como podemos observar, aqui so apresentados dois mtodos de classificao, o

mtodo de Naive Bayes, utilizado especialmente em aplicaes computacionais de
aprendizado para classificao (Ex: Plugin ThuderBayes utilizado para o Gerenciador de e-
89
mails da Firefox), e o mtodo de Regresso Logstica, mtodo solidificado e utilizado em

diversos enredos.
Desta forma, realizamos uma avaliao comparativa entre os mtodos, utilizando um
mtodo exaustivo de amostragem na qual retiramos K amostras de tamanho n e verificamos a
mesma estatstica para cada uma delas, com o objetivo de estudar as distribuies destas
estatsticas para as K amostras. Utilizamos 399 replicaes (K=399), sendo esse nmero
utilizado por Hall (1986) para construo de intervalos de confiana utilizando a tcnica
Bootstrap (Efron, 1982).
Deste modo, atravs de uma base de dados artificiais, analisamos o rendimento de
ambas as formas de classificao. Assim, geramos 4 tipos de populaes com o mesmo
tamanho, possuindo uma varivel dicotmica para classificao e com diferentes quantidades
de observaes com a caracterstica de interesse. Ou seja, cada populao composta por 50%,
25%, 10% e 1% de observaes com a caracterstica de interesse, respectivamente. Alm
disso, fixamos os tamanhos de amostra de 100, 300, 1000 e 10000 observaes.
A base de dados artificiais foi gerada seguindo o contexto de dados de credit scoring,
no qual consideramos a caracterstica de interesse como maus pagadores e, segundo Breiman
(1998), a distribuio dos bons pagadores segue uma normal p-variada, com mdia (0,..., 0) e
matriz de covarincia 4Ip, onde Ip matriz identidade de ordem p . E a distribuio dos maus
e matriz de
pagadores segue uma normal p-variada, com mdia 1
,..., 1
p
p
covarincia Ip, sendo p o nmero de covariveis em anlise. Neste caso, utilizamos 10

covariveis (p=10).
Porm, para atender os critrios de ambas as tcnicas, especialmente para a tcnica de
Naive Bayes, categorizamos todas as covariveis considerando como categoria verdadeiro se
a varivel maior ou igual a 0 e como categoria falso se menor que zero. Alm disso,
consideramos apenas amostras que, para as observaes da categoria de classificao,
possuam pelo menos uma observao para cada categoria das covariveis. A fim de a tcnica
ser aplicada ao procedimento de Naive Bayes.
As Tabelas 6.1 e 6.2 exibem para ambas as tcnicas as estatsticas de TTA (taxa total
de acerto), TAB (taxa de acerto dos bons pagadores) e TAM (taxa de acerto dos maus
pagadores), bem como os respectivos intervalos de confiana considerando um nvel de
significncia de 5%.
90
Tabela 6.1 Avaliao das tcnicas de Regresso Logstica e Naive Bayes, n=100 e 300
n=100
n=300
Tcnica Estatstica para Classificao
Configurao Medidas
TTA
TAB
TAM
TTA
TAB
TAM
TTA
TAB
TAM
TTA
TAB
TAM
Naive-Bayes
Reg. Log.
Naive-Bayes
Reg. Log.
0.722 (0.650; 0.810)
0.729 (0.640; 0.810)
0.681 (0.630; 0.730)
0.683 (0.633; 0.730)
0.727 (0.592; 0.852)
0.733 (0.612; 0.844)
0.685 (0.606; 0.771)
0.687 (0.612; 0.762)
0.718 (0.596; 0.836)
0.727 (0.596; 0.845)
0.679 (0.603; 0.760)
0.680 (0.606; 0.756)
0.739 (0.640; 0.850)
0.747 (0.630; 0.850)
0.686 (0.620; 0.763)
0.690 (0.613; 0.764)
0.896 (0.811; 0.966)
0.900 (0.812; 0.960)
0.873 (0.826; 0.916)
0.873 (0.824; 0.917)
0.493 (0.349; 0.655)
0.503 (0.341; 0.656)
0.424 (0.329; 0.518)
0.429 (0.325; 0.531)
0.782 (0.660; 0.921)
0.800 (0.660; 0.930)
0.717 (0.607; 0.804)
0.717 (0.613; 0.817)
0.972 (0.931; 1.000)
0.974 (0.938; 1.000)
0.960 (0.930; 0.984)
0.961 (0.933; 0.984)
0.316 (0.170; 0.534)
0.343 (0.185; 0.600)
0.227 (0.143; 0.329)
0.229 (0.143; 0.324)
---
---
0.787 (0.607; 0.954)
0.796 (0.620; 0.947)
---
---
0.996 (0.989; 1.000)
0.996 (0.989; 1.000)
---
---
0.079 (0.032; 0.200)
0.083 (0.031; 0.200)
Tabela 6.2 Avaliao das tcnicas de Regresso Logstica e Naive Bayes, n=1000 e 10000
n=1 000
n=10 000
Tcnica Estatstica para Classificao
Configurao Medidas
TTA
TAB
TAM
TTA
TAB
TAM
TTA
TAB
TAM
TTA
TAB
TAM
Naive-Bayes
Reg. Log.
Naive-Bayes
Reg. Log.
0.661 (0.634; 0.689)
0.662 (0.634; 0.689)
0.666 (0.662;0.670)
0.653 (0.647;0.659)
0.662 (0.617; 0.704)
0.663 (0.619; 0.707)
0.677 (0.664;0.686)
0.733 (0.722;0.742)
0.661 (0.619; 0.704)
0.662 (0.621; 0.704)
0.656 (0.650;0.664)
0.571 (0.562;0.582)
0.664 (0.619; 0.708)
0.664 (0.622; 0.708)
0.653 (0.646;0.668)
0.648 (0.637;0.663)
0.857 (0.827; 0.886)
0.858 (0.828; 0.885)
0.858 (0.853;0.863)
0.856 (0.849;0.862)
0.399 (0.348; 0.452)
0.399 (0.351; 0.452)
0.390 (0.382;0.400)
0.384 (0.375;0.395)
0.678(0.598; 0.749)
0.679 (0.604; 0.759)
0.639 (0.619;0.664)
0.640 (0.620;0.667)
0.952(0.936; 0.966)
0.952 (0.936; 0.966)
0.947 (0.943;0.949)
0.947 (0.943;0.950)
0.195(0.156; 0.245)
0.196 (0.155; 0.240)
0.171 (0.164;0.178)
0.171 (0.166;0.179)
0.751(0.597; 0.910)
0.753 (0.604; 0.912)
0.675 (0.586;0.765)
0.674 (0.587;0.757)
0.997(0.993; 0.999)
0.997 (0.993; 0.999)
0.995 (0.994;0.997)
0.995 (0.994;0.997)
0.035(0.017; 0.073)
0.035 (0.018; 0.075)
0.021 (0.016;0.028)
0.021 (0.016;0.027)
Assim, temos para as respectivas configuraes:

Configurao 1: 50% Bons pagadores e 50% de Maus pagadores;
Configurao 4: 99% Bons pagadores e 1% de Maus pagadores.
Note que para a configurao 4 no possvel realizar o processo de simulao com
tamanho de amostra 100, pois existe apenas uma observao sendo classificada como mau
pagador, em mdia. Sendo assim, nem todas as covariveis possuiro uma observao para
cada uma de suas categorias.
91
Observando ambas as Tabelas 6.1 e 6.2, notamos que existe uma grande queda na
assertividade de ambos os modelos quando o desbalanceamento cresce, ainda mais quando o
nmero de bons pagadores grande, gerando uma alta proporo de acerto para TAB.
Alm disso, notamos que existe uma grande aproximao dos resultados para ambas
as tcnicas, as estatsticas de desempenho so aproximadamente iguais.
Mesmo assim, existe um leve ganho da Regresso Logstica com relao ao algoritmo
de Naive Bayes, variando em mdia de 1% a 2%, para todos os tipos de configurao
realizados, de uma forma geral. Porm, esse fato no acontece para n=10000, especialmente
para os conjuntos de dados balanceados ou com baixo desbalanceamento (configurao 1 e 2),
note que o rendimento do algoritmo Naive Bayes superior para todas as estatsticas, sendo o
maior e mais importante encontrado para a TAM da configurao 1, com um ganho mdio de
8.5%. Ainda assim, quando existe o aumento do desbalanceamento do conjunto de dados
essa diferena tende a desaparecer.
Existe tambm uma leve diferena entre as estatsticas de TAM em ambos os mtodos
para n=100.
Assim, podemos considerar que, com a utilizao de variveis-categoria para realizar a
modelagem, ambas as tcnicas possuem o grau de preciso extremamente semelhante.
Mesmo, a Regresso Logstica tendo um slido embasamento e sendo uma tcnica bem
estruturada e dotada de outros resultados auxiliares importantes, como a anlise de impacto de
variveis atravs da interpretao dos coeficientes do modelo e razo de chances.
Analogamente, a tcnica de Naive Bayes assume uma grosseira suposio terica e pouco
explorada pela rea da Estatstica, onde seu estudo mais focalizado dentro da Cincia da
Computao.
Estes resultados tambm so indicativos que a Regresso Logstica possui um leve em
ganho em comparao a Naive Bayes quando utilizada para amostras pequenas
(aproximadamente 100), independente do balanceamento da amostra. Da mesma forma, a
tcnica de Naive Bayes possui um leve ganho em comparao a Regresso Logstica quando
utilizada para grandes amostras (aproximadamente 10 000) balanceadas ou com baixo
desbalanceamento.
Neste captulo, notamos que as Redes Bayesianas podem ser utilizadas com objetivos
de classificao, sendo a estrutura de Naive Bayes particular a esse procedimento.
92
Alm disso, realizamos um exaustivo procedimento de simulao para avaliar o

rendimento da estrutura de Naive Bayes comparada tcnica de Regresso Logstica. Desta
forma, notamos que estas so extremamente semelhantes, mas se diferenciam levemente em
alguns tipos de estrutura de dados.
Com isso, abordamos todos os tpicos inicialmente almejados em nossa proposta,
sendo que o prximo captulo finaliza este trabalho com consideraes finais sobre a tcnica
de Redes Bayesianas.
93
7. CONSIDERAES FINAIS
Neste trabalho foram expostas idias bsicas, breves definies e implementaes da

tcnica de Redes Bayesianas, a fim de contribuir falta de textos cientficos introdutrios
sobre o assunto e de fcil entendimento para alunos de graduao. Alm disso, construmos
todo o embasamento de exemplos no enredo de credit scoring, rea de grande aplicao para
a tcnica, na qual as Redes Bayesianas auxiliam a verificar, de forma grfica, a dinmica das
variveis financeiras e, tambm, predizer a probabilidade de um cliente ser classificado como
bom ou mau pagador.
Apresentamos, tambm, um importante relacionamento entre o Software Hugin e o
Software R, sendo o primeiro aplicativo utilizado mundialmente para a realizao de todo o
ajuste de uma Rede Bayesiana.
Por fim, apresentamos o mtodo de Naive Bayes, um mtodo estruturado em Redes
Bayesianas e utilizado para classificao, bem como sua comparao com a tcnica de
Regresso Logstica. Verificamos que ambas as tcnicas possuem rendimentos extremamente
semelhantes, mesmo com a tcnica de Naive Bayes possuindo embasamentos e formulaes
tericas mais grosseiras que a tcnica de Regresso Logstica.
Notamos tambm que as tcnicas de Redes Bayesianas esto em atual progresso,
abrangendo diversos tipos de pesquisa, como o desenvolvimento de algoritmos para
aprendizado de estrutura, algoritmos para aprendizado de probabilidades condicionais e
tcnicas de classificao. Porm, sendo pouco exploradas pela comunidade estatstica quando
comparadas aos demais assuntos da rea.
Alm disso, atravs do presente estudo, possveis trabalhos podem ser realizados para
verificar se existe um ganho significativo entre a tcnica de Naive Bayes e Regresso
Logstica. Em caso afirmativo, qual deve ser o grau de desbalanceamento, tamanho de
amostra e nmero de covariveis a serem considerados.
94
REFERNCIAS BIBLIOGRFICAS
ABELLAN J.; GOMEZ-OLMEDO M.; MORAL. S. Some variations on the PC algorithm.

In Proceedings of the Third European Workshop on Probabilistic Graphical Models (PGM
06), pages 1-8, 2006.
ABICALAFFE, C.; AMARAL, V. F.; DIAS, J. S.. Aplicao da Rede Bayesiana na

Preveno da Gesto de Alto Risco. In: Congresso Brasileiro de Informtica Mdica,
Ribeiro Preto. Anais do Congresso Brasileiro de Informtica Mdica, v. 1. p. 1-1, 2004.
BELLHOUSE, D. R..The Reverend Thomas Bayes, FRS: A Biography to Celebrate the

Tercentenary of His Birth. Statistical Science. Volume 19, N. 1, 3-43, 2004.
BEN-GAL, I.. Bayesian Networks. Encyclopedia of Statistics in Quality and Reliability,

John Wiley & Sons, 2007.
BOBBIO, A.; PORTINALE, L.; MINICHINO, M.; CIANCAMERLA, E.. Improving the
Analysis of Dependable Systems by Mapping Fault Trees into Bayesian Networks.
Realiability Engineering & System Safety, Vol. 71, p.249-260, 2001.
BTTCHER, S. G.; DETHLEFSEN, C.. Learning Bayesian Networks with R. Proceedings

of the 3rd International Workshop on Distributed Statistical Computing, Vienna, Austria,
March 20-22, 2003.
BREIMAN, L. Arcing classifiers. The Annals of Statistics, N. 26, p. 801-849, 1998.
CHANG, K. C.; FUNG, R; LUCAS, A.; OLIVER R.; SHIKALOFF, N. Bayesian networks
applied to credit scoring. IMA Journal of Mathematics Applied in Business and Industry.
London: Oxford University Press, N. 11, p. 1-18, 2000.
COSTA NETO, P. L. O. ; CYMBALISTA, M. . Probabilidades. 2. ed. So Paulo: Edgard

Blcher, 2006.
95
EFRON, B.. The jackknife, the bootstrap, and other resampling plans. Society of
Industrial and Applied Mathematics CBMS-NSF Monographs, 38 , 1982.
FEOFILLOFF, P. Uma introduo sucinta teoria dos grafos. So Paulo: Universidade de

So Paulo, 2007. Disponvel em <http://www.ime.usp.br/pf/teoriados grafos/>. Acesso em 17
de outubro de 2008.
FRIEDMAN, N.; GEIGER, D.; GOLDSZMIDT, M. Bayesian network classifiers. Machine

Learning, 29(2-3):131163, 1997.
HAENNI, R..Towards a Unifying Theory of Logical and Probabilistic Reasoning. 4th

International Symposium on Imprecise Probabilities and Their Applications, Pittsburgh,
Pennsylvania, 2005.
HALL, P.. On the number of bootstrap simulations required to construct a confidence

interval. Annals of Statistics, 14,1453-1462, 1986.
HECKERMAN, D.; GEIGER D.; CHICKERING D.. Learning Bayesian networks: The
combination of knowledge and statistical data. Machine Learning, 1995.
HRUSCHKA, E. R.. Propagao de Evidncias em Redes Bayesianas: Diagnstico sobre

Doenas Pulmonares. Tese (Mestrado em Cincia da Computao) Universidade de
Braslia, Braslia- DF, 1997.
JENSEN F.; JENSEN F. V.; DITTMER S. L.. From influence diagrams to junction trees.
In R. L. de Mantaras and D. Poole, editors, Proceedings of the Tenth Conference on
Uncertainty in Artificial Intelligence, pages 367-373, Seattle, Washington, July 29-31, 1994.
KORB, K. B.; NICHOLSON, A. E.. Bayesian artificial intelligence. London: Chapman &
Hall/CRC Press UK, 2004.
96
LUNA, J. E. O.. Algoritmos EM para Aprendizagem de Redes Bayesianas a partir de

Dados Incompletos. Tese (Mestrado em Cincia da Computao) Universidade Federal do
Mato Grosso do Sul, Campo Grande - MS, 2004.
MAGALHES, I. B.. Avaliao de redes Bayesianas para imputao de variveis

qualitativas e quantitativas. Tese (Doutorado em Engenharia) - POLI-USP, So Paulo,
2007.
MARQUES, R. L.; DUTRA, I.. Redes Bayesianas: o que so, para que servem, algoritmos e
exemplos
de
aplicaes.
Maio
de
1999.
Disponvel
em:
<http://www.cos.ufrj.br/~ines/courses/cos740/leila/cos740/Bayesianas.pdf>. Acesso em 3 de
agosto de 2008.
MESTER, L. J. What's the point of credit scoring?. Business Review, p3, 14p, Set/Out
1997.
NEAPOLITAN, R. E. Learning Bayesian Networks. Upper Saddle River: Pearson, 2004.
PEARL, J. Probabilistic Reasoning in Intelligent Systems. Morgan Kaufmann, San Mateo,

CA, 1988.
REZENDE, S. O. (Org.). Sistemas inteligentes: Fundamentos e Aplicaes. Barueri-SP:

Malone, 2005.
RICH, E.. Inteligncia Artificial. So Paulo: McGraw-Hill, 1988.
RUSSEL, S. J.; NORVIG, P.. Inteligncia Artificial. Editora Campus, 2004.
SAHAMI, M.. Learning Limited Dependence Bayesian Classifiers. In KDD-96: Proceedings of the
Second International Conference on Knowledge Discovery and Data Mining, pp. 335-338, Menlo
Park, CA: AAAI Press, 1996.
SHANNON, C. E.. A mathematical theory of communication. Bell System Tech. J. 27, 379-423,
623-656. 1948.
97
SPIRTES, P.; GLYMOUR, C.; SCHEINES, R. An algorithm for fast recovery of sparse
causal graphs. Social Science Computer Review, v. 9, p. 62-72, 1991.
TAFNER, M.A.; XERES M.; RODRIGUES-FILHO I.W.. Redes Neurais Artificiais:
Introduo e Princpios de Neuro-computao, 1a ed.. Blumenau, EKO, Ed. da Furb, 1995.
VIEIRA FILHO, V.; ALBUQUERQUE, M. T. C. F. . Abordagem Bayesiana para

Simulao de Jogos Complexos. In: SBGames, 2007, So Paulo. Proceedings of SBGames
2007, 2007.
ZWEIG, M. H.; CAMPBELL, G. Receiver-operating characteristic (ROC) plots.

Clin. Chem., 1993, N. 29, p. 561-577, 1993.
98

Anderson L. Souza - Redes Bayesianas - VSINAPE Final - 0

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Anderson L. Souza - Redes Bayesianas - VSINAPE Final - 0

Transféré par

Droits d'auteur :

Formats disponibles

UNIVERSIDADE FEDERAL DE SO CARLOS UFSCAR

CENTRO DE CINCIAS EXATAS E TECNOLGICAS CCET

ORIENTADOR: PROF. DR. FRANCISCO LOUZADA NETO

Probabilidade e Estatstica (SINAPE) - realizado na Estncia

ORIENTADOR: PROF. DR. FRANCISCO LOUZADA NETO

A verdadeira medida de um homem no como ele se comporta em

A Inteligncia Artificial, segundo Tafner et al. (1995), uma rea catalisadora do

Palavras Chaves: Inteligncia Artificial Probabilstica, Redes Bayesianas, Aprendizado

3. INFERNCIA EM REDES BAYESIANAS.................................................................. 35

4. APRENDIZAGEM EM REDES BAYESIANAS........................................................... 56

6. REDES BAYESIANAS PARA CLASSIFICAO..................................................... 84

As tcnicas Bayesianas, alm de serem amplamente utilizadas dentro da rea de

1.1. INTELIGNCIA ARTIFICIAL

A inteligncia sempre esteve em destaque entre as cincias desenvolvidas pelo ser

o Compreenso da linguagem natural

1.2. CREDIT SCORING

A necessidade de anlise de crdito nasceu nos primrdios do comrcio conjuntamente

Figura 1.1. nica Ilustrao conhecida de Thomas Bayes

1.3.2. Conceitos probabilistas

As Redes Bayesianas so ferramentas que utilizam o raciocnio probabilista, ou seja,

1.3.2.1. Probabilidade e suas propriedades

Em poucas palavras, a probabilidade pode ser introduzida, segundo Costa Neto e

que satisfaz as seguintes condies:

(a) P(A) 0 para todo A ;

(b) Se (An) n 1 uma seqncia de eventos de , que so mutuamente exclusivos,

onde A um evento no espao e um conjunto de eventos de interesse denominado

(e) Se E, F, ..., K so eventos mutuamente exclusivos

Desta forma, uma forma objetiva de atribuio de probabilidade ao evento F dada

onde #F nmero de resultados favorveis ao evento F e # o nmero de resultados totais,

Para melhor entendimento dos termos probabilsticos, considere os itens 1, 2, 3 e 4 da

probabilidades baseada na diagramao de Eller-Venn para os eventos e o seu espao

Figura 1.2. Diagramas de Eller-Venn

1.3.2.2. Probabilidade condicional

A probabilidade condicional trata do fato de que muitas vezes temos conhecimento

Desta forma, temos (1.9).

Alm disso, considerando E1 E n eventos exclusivos e exaustivos, ou seja, eventos

A propriedade (1.12) comumente denominada de frmula de probabilidades totais.

1.3.2.3. Independncia probabilstica

Assim como a probabilidade condicional, a dependncia probabilstica uma das

A relao (1.13) vem de outra propriedade bsica de independncia probabilstica

Para chegarmos relao (1.13) basta aplicar (1.14) em (1.9).

Note que a relao de independncia no est ligada relao de exclusividade de

1.3.2.4. Teorema de Bayes

Como anteriormente, considere o evento F e E1 E n eventos exclusivos e exaustivos,

O teorema de Bayes uma juno do teorema de probabilidade condicional e da

sendo indicador de proporcionalidade. Em outros termos, podemos dizer que a

1.3.2.5. As distribuies Multinomial e Dirichlet

Estas duas distribuies, aqui introduzidas, so amplamente utilizadas no contexto de

1. Alm disso, o experimento repetido de forma independente N

P( X | N , p) p1x1 p 2x2 ... prxr

com pi 1 , podemos assumir que p segue distribuio Dirichlet com parmetros = ( 1, .

Da mesma forma, podemos considerar o termo

normalizador, assim temos (1.20).

Assumindo como priori P( p | ) e como verossimilhana P( X | N , p ) , temos que a

P( p | X ) p1 1 x11 p2 2 x 21 ... prr xr 1

1.3.3. As Redes Bayesianas so Bayesianas?

Existe uma grande discusso na literatura sobre se as Redes Bayesianas so realmente

1. A tcnica de Redes Bayesianas pode ser considerada um mtodo de Data Mining

Ainda assim, como mostramos neste trabalho, os mtodos de estimao dentro da

1.4. COMENTRIOS FINAIS

Neste captulo, apresentamos uma conceituao bsica sobre Inteligncia Artificial e

Nesta seo sero introduzidos conceitos elementares dentro da estrutura grfica de

2.1.1. Elementos Bsicos