Académique Documents
Professionnel Documents
Culture Documents
A NDERSON L UI Z A R A -S OUZA
REDES BAYESIANAS:
UMA INTRODUO APLICADA A CREDIT SCORING
SO CARLOS
2010
A NDERSON L UI Z A R A -S OUZA
REDES BAYESIANAS:
UMA INTRODUO APLICADA A CREDIT SCORING
Relatrio apresentado comisso julgadora do concurso de
Iniciao
Cientfica
do
19
Simpsio
Nacional
de
SO CARLOS
2010
AGRADECIMENTOS
minha famlia, principalmente meus pais, Carmen e Valdeci, por todo esforo,
compreenso e apoio para dar continuidade aos meus estudos. minha av Aparecida, por
estar sempre ao meu lado interessada e solidria aos meus avanos. minha irm Crystiane
pela tolerncia e horas de distrao.
Aos meus verdadeiros amigos, mesmo no havendo a necessidade de citar seus nomes,
pois quem me conhece, os conhece. Agradeo pelo intenso apoio e longas conversas sobre os
muitos variados assuntos, que contriburam para nos fortalecer em que somos hoje.
professora Teresa Cristina Martins Dias, pela amizade e por ter acreditado em meu
potencial desde meu ingresso no Bach. em Estatstica.
Ao meu orientador Francisco Louzada Neto pela amizade, oportunidades e toda a
experincia que tem me passado nesses anos de trabalho.
A todos os docentes e funcionrios do Departamento de Estatstica da UFSCar, pela
formao e estrutura disponvel.
RESUMO
NDICE
1. INTRODUO............................................................................................................... 08
1.1. INTELIGNCIA ARTIFICIAL................................................................................. 09
1.2. CREDIT SCORING................................................................................................... 12
1.3. PROBABILIDADES................................................................................................. 12
1.3.1. Thomas Bayes....................................................................................................... 13
1.3.2. Conceitos probabilistas......................................................................................... 13
1.3.2.1. Probabilidade e suas propriedades................................................................... 13
1.3.2.2. Probabilidade condicional................................................................................ 16
1.3.2.3. Independncia probabilstica............................................................................ 17
1.3.2.4. Teorema de Bayes............................................................................................ 18
1.3.2.5. As distribuies Multinomial e Dirichlet......................................................... 19
1.3.3. As Redes Bayesianas so Bayesianas? ................................................................. 20
1.4. COMENTRIOS FINAIS........................................................................................ 21
2. REDES BAYESIANAS.................................................................................................. 22
2.1. ESTRUTURA............................................................................................................. 23
2.1.1. Elementos Bsicos................................................................................................. 23
2.1.2. Estruturas de Teoria de Grafos.............................................................................. 23
2.1.3. Hierarquia entre ns.............................................................................................. 25
2.1.4. Formalizao Estatstica da Estrutura................................................................... 25
2.1.5. Tabela de probabilidade condicional..................................................................... 26
2.1.6. Exemplo Bsico de uma Rede Bayesiana.............................................................. 26
2.2. EVIDNCIA.............................................................................................................. 28
2.3. PROPRIEDADES MARKOVIANAS....................................................................... 29
2.4. A PROPRIEDADE DE D-SEPARAO................................................................. 31
2.5. EQUIVALNCIA DE MARKOV............................................................................. 32
2.6. MTODO GERAL PARA A CONSTRUO DE UMA REDE BAYESIANA..... 33
2.7. COMENTRIOS FINAIS......................................................................................... 34
5. SOFTWARE HUGIN...................................................................................................... 69
5.1. PRIMEIROS PASSOS............................................................................................... 70
5.1.1. Instalao............................................................................................................... 70
5.1.2. Acessando Arquivos.............................................................................................. 70
5.1.3. Compilao............................................................................................................ 71
5.1.4. Salvando os arquivos............................................................................................. 71
5.2. CONSTRUINDO UMA REDE BAYESIANA.......................................................... 71
5.3. INFERNCIA EM UMA REDE BAYESIANA....................................................... 74
5.4. ESTIMAO DA REDE ATRAVS DOS DADOS............................................... 76
5.5. COMENTRIOS FINAIS......................................................................................... 83
7. CONSIDERAES FINAIS......................................................................................... 94
REFERNCIAS BIBLIOGRFICAS................................................................................ 95
1. INTRODUO
A partir dos anos 80, tcnicas especficas surgiram motivadas pela grande aplicao da
rea em domnios especializados como a diagnose mdica, anlise qumica, reconhecimento
de padres etc., sendo realizadas hoje rotineiramente. Desta forma, problemas realizados por
apenas um pequeno contingente de especialistas, como a avaliao de crdito ou a diagnose
de doenas, podem ser realizados por sistemas inteligentes comumente denominados na
literatura especializada de sistemas especialistas.
A lista seguinte contm um resumo de alguns problemas que se enquadram dentro
deste contexto (Rich, 1988):
o Jogos
o Prova de teoremas
o Resoluo de problemas gerais
o Percepo
Viso
Fala
Matemtica simblica
Diagnose
Anlise qumica
Projeto de engenharia
Assim, para cada uma dessas tarefas seleciona-se um conjunto de informaes que
representam o escopo do problema, geralmente baseado no conhecimento emprico ou de um
especialista, buscando especificar o mximo possvel os critrios para o sucesso do sistema.
Atravs desta breve introduo sobre I. A. e sistemas especialistas, notamos que existe
grande relao entre os mtodos estatsticos e alguns objetivos especficos de Inteligncia
Artificial. De uma forma mais precisa, esse relacionamento ocorre no mbito da motivao
para a anlise, uma vez que ambas as reas buscam informaes refletidas em variveis e em
um conjunto de observaes representativas do problema, visando resolver problemas
especficos como o de classificao e dependncia entre variveis em diversos enredos.
Desta forma, mtodos estatsticos so tambm utilizados na grande rea de
Inteligncia Artificial. Estes vm a contribuir e concorrer com os mtodos mais comuns, mais
precisamente para a resoluo de sistemas especialistas. Um exemplo disso a aplicabilidade
10
para os mesmos fins das tcnicas de Redes Neurais, uma metodologia originariamente
desenvolvida dentro da rea de I.A. e de Regresso Logstica, dentro da rea da Estatstica.
Alm disso, confirmando o relacionamento comum entre as duas reas, podemos
realizar uma breve consulta literatura especializada e encontraremos facilmente assuntos
como Data Mining, Modelagem e Aprendizado sendo direcionados para ambas.
Entre os mtodos estatsticos utilizados em I.A., destaca-se o aprendizado Bayesiano,
que utiliza um modelo probabilstico baseado no conhecimento prvio do problema, o qual
combinado com exemplos de treinamento para determinar a probabilidade final de uma
hiptese (Mitchel citado por Rezende, 2004, p.93).
Neste contexto, a tcnica de Redes Bayesianas uma poderosa ferramenta de
aprendizado Bayesiano que utiliza raciocnio probabilista e aplicada no contexto de I.A..
O raciocnio probabilista, bem como o raciocnio lgico, uma das abordagens
principais utilizadas para modelar sistemas que agem racionalmente dentro da rea de
Inteligncia Artificial. Marques e Dutra (1999) consideram que o raciocnio lgico retira suas
concluses sobre a base ponderada do conhecimento prvio a respeito do problema. O
raciocnio probabilista, por sua vez, adequado para situaes onde no se conhece
previamente todo o escopo do problema, ou seja, para representar inferncias provveis,
porm incertas como, por exemplo, no contexto: Muitas vezes bons pagadores possuem um
saldo devedor menor.
Em I.A., as probabilidades no esto presentes apenas no mbito deste tipo de
raciocnio, mas tambm esto presentes em outros contextos como, por exemplo, aquele da
probabilidade lgica. Segundo Haenni (2005), o raciocnio probabilista e a probabilidade
lgica podem ser interpretados como casos extremamente opostos dentro do universo de
estudo do raciocnio, chamado de argumentao probabilstica.
Em referncia ao tipo de raciocnio de embasamento, podemos utilizar o Inteligncia
Artificial Probabilstica para categorizar esta subrea do conhecimento em I. A..
De uma forma geral, a tcnica de Redes Bayesianas uma abordagem interpretativa e
analtica para a Inteligncia Artificial Probabilstica e tem sido utilizada recentemente em
diversas reas como, por exemplo, estimao de risco operacional, diagnstico mdico, credit
scoring, projeto de jogos computacionais, imputao de dados, entre outras. Desta forma,
pode ser utilizada para fins de deciso, classificao, anlise de dependncia entre variveis,
sendo alternativa s tcnicas comumente utilizadas como, por exemplo, Regresso Logstica e
Anlise Discriminante.
11
1.3. PROBABILIDADES
O clculo das probabilidades teve origem em estudos de jogos de azar na Idade Mdia.
Assim, em 1654, o desenvolvimento desta cincia deu-se devido a uma srie de cartas
trocadas entre dois matemticos e pensadores notveis, Blaise Pascal (1623-1662) e Pierre de
Fermat (1601-1665), sobre problemas com apostas em jogo composto por moedas e dados.
Desde ento, a teoria de probabilidades foi amplamente estudada, como pelo tambm
renomado Thomas Bayes, e sendo hoje utilizada em diversos procedimentos das Cincias
Exatas.
12
Nesta seo, introduzimos uma breve histria sobre Thomas Bayes e conceitos
fundamentais em probabilidade que so necessrios para o entendimento da teoria de Redes
Bayesianas.
1.3.1. Thomas Bayes
Nascido em Londres no ano de 1702 e falecido em Kent, a 58 km de Londres, em
1761, o ingls Thomas Bayes (Figura 1.1) foi matemtico e reverendo da igreja presbiteriana
e imortalizado por formular um importante teorema de probabilidade, o qual intitula seu nome
e deu origem, anos depois, a um novo ramo da cincia estatstica denominada Estatstica
Bayesiana.
Sua famlia possua o alinhamento no conformista ttulo dado a europeus noanglicanos ou que prezam a liberdade religiosa e, antes de seu nascimento, havia feito
fortuna no setor da cutelaria, arte de fabricar instrumentos cortantes, um ramo importante em
Shefeld, cidade de origem do av de Thomas Bayes, Richard Bayes.
Desta forma, o pai de Thomas, Joshua Bayes (16381703), foi enviado Academia de
Frankland (Inglaterra), onde estudou filosofia e religio. Em 1694, Joshua partiu para
Londres, onde havia o primeiro grupo de presbiterianos ingleses. L foi ordenado ministro e,
13
em poucos anos, tornou-se um homem respeitado. Durante esse perodo, Joshua Bayes casouse com Anne Carpenter e juntos tiveram 7 filhos. Assim, Thomas Bayes, seguindo os passos
do pai e por ser o filho mais velho, tornou-se ministro.
Thomas Bayes estudou teologia na Universidade de Edimburgo (Esccia) e em 1731
assumiu a parquia de Tunbridge Wells, em Kent. Historicamente, publicou apenas dois
livros em vida, o primeiro chamado de Benevolncia divina (1731) e o segundo chamado de
Uma Introduo a doutrina dos fluxions, no qual ele defendia Isaac Newton contra a crtica
de George Berkley, conhecido filosofo irlands da poca. Aps sua morte, outro trabalho de
sua autoria foi revelado, Ensaio buscando resolver um problema na doutrina das
probabilidades, no qual havia a formulao do Teorema de Bayes. Era creditado que esse
artigo fornecia uma prova da existncia de Deus.
Para maiores detalhes sobre a vida de Thomas Bayes consultar Bellhouse (2004), uma
completa biografia realizada em comemorao ao seu 300 aniversrio de nascimento.
(1.1)
14
P An P( An ) ;
n 1 n1
(1.2)
(c) P( ) =1.
(1.3)
(d) P( ) =0
(1.4)
P( E F ... K ) P( E ) P ( F ) ... P( K ) ;
(1.5)
(f) P ( E ) 1 P ( E )
(1.6)
(g) P( E F ) P ( E ) P( F ) P( E F )
(1.7)
entre outras.
#F
,
#
(1.8)
(2)
(1)
(3)
(4)
Na Figura 1.2, o item (1) exibe todo o espao amostral , o item (2) exibe o evento E
sob o espao amostral, o item (3) exibe os eventos E e F sendo mutuamente exclusivos, ou
seja, P(E F)=0 e, finalmente, o item (4) exibe os eventos E e F como no exclusivos.
P( E | F )
P( E F )
P( F )
(1.9)
16
Analogamente,
P( E F ) P( E | F ) P ( F ) ou P( E F ) P( F | E ) P( E )
Assim
temos
tambm,
generalizando
(1.10)
(1.10)
considerando
notao
P( E F ) P( E , F ) ,
P ( E1 , E 2 , , E n ) P ( E1 ) P ( E 2 | E1 ) P ( E 3 | E1 , E 2 ) P ( E n | E1 , E 2 , E n 1 )
(1.11)
P( F ) P( F | E k ) P( E k )
(1.12)
k 1
P( E | F ) P( E ) ou P( F | E ) P( F )
(1.13)
17
P( E , F ) P( E ) P( F )
(1.14)
P( E j | F )
P( E j ) P( F | E j )
n
(1.15)
P( E ) P( F | E )
i
i 1
P( E j | F ) P ( E j ) P( F | E j )
(1.16)
18
P( X x r ) pr e
i 1
vezes, de forma que a varivel Xi seja o nmero de vezes que o resultado xi est presente na
amostra com i=1,...,r. Temos que a varivel X segue distribuio Multinomial, sendo sua
funo densidade de probabilidade expressa pela frmula (1.17).
P( X | N , p)
N!
p1x1 p2x2 ... p rxr
x1! x 2 !...x r !
(1.17)
sendo
N.
i 1
Considerando o termo
N!
como normalizador, temos
x1! x2!...xr !
(1.18)
Alm disso, temos que para um vetor p=(p1, p2,...,pr) de valores desconhecidos
r
. . , r) com i > 1, E(pi) = i/0 e funo densidade de probabilidade expressa pela frmula
(1.19).
P( p | )
( 0 )
p1 11 p 2 21 ... p r r 1
( 1 )( 2 )...( r )
(1.19)
( 0 )
( 1 ) ( 2 )...( r )
como
P( p | ) p11 1 p 2 2 1 ... pr r 1
(1.20)
r
i xi
, sendo 0 i .
0 N
i 1
(1.21)
Notamos que neste caso a posteriori possui o mesmo tipo de distribuio que a priori,
assim dizemos que a famlia Dirichlet conjugada para amostras com distribuio
Multinomial.
Deste modo, notamos que atualmente essa discusso pode gerar bastante polmica
entre os especialistas da rea. Porm, temos que o objetivo fundamental da tcnica realizar
inferncia e estimativas com base em condicionamentos de informaes, o que gera uma
ponte de ligao slida com a filosofia Bayesiana.
20
21
2. REDES BAYESIANAS
As Redes Bayesianas, tambm conhecidas como Redes casuais, Rede de crena e
Grficos de dependncia probabilstica, surgiram na dcada de 80 e tm sido aplicadas em
uma grande variedade de atividades do mundo real (Bobbio et al., 2001). Algumas aplicaes
atuais se estendem s reas como finanas (Chang et al., 2000), sade (Abicalaff, Amaral e
Dias, 2004) (Korb e Nicholson, 2004), desenvolvimento de jogos (Vieira Filho e
Albuquerque, 2007), entre outras.
Ainda, as Redes Bayesianas vm sendo bastante utilizadas em reas financeiras para a
estimao de risco operacional e credit scoring (ex: Sistema BayesCredit, um sistema criado
por Nykredit, uma das principais empresas no mercado dinamarqus de financiamento
imobilirio) e possui vrios programas especficos disponveis como, por exemplo, os
softwares Netica (www.norsys.com) e Hugin (www.hugin.com).
Segundo Neapolitan (2004), a tcnica de Redes Bayesianas surgiu no contexto no qual
h um grande nmero de variveis e o objetivo de verificar qual a influncia probabilstica
no direta de uma varivel para as demais.
Assim, a teoria de Redes Bayesianas combina princpios de Teoria de grafos, teoria de
probabilidades, Cincia da Computao e Estatstica (Ben-Gal, 2007).
Alm disso, as Redes Bayesianas podem ser consideradas como uma representao
visual e informativa da tabela de probabilidade conjunta de todas as variveis que envolvem o
domnio do problema.
Desta forma, na literatura especializada, uma terminologia especfica utilizada para
definir tipos de variveis, dependncias probabilsticas e outras propriedades das Redes
Bayesianas. Neste trabalho, optamos por simplificar tal terminologia, quando possvel,
aproximando-a de termos utilizados na modelagem estatstica de dados.
Esse captulo tem como objetivo introduzir conceitos bsicos da teoria de Redes
Bayesianas, que envolvem os tipos de estruturas de teoria de grafos, noes de evidncia,
propriedade markoviana, equivalncia, noo de independncia, definio bsica para
construo e ordem das variveis, bem como exibir breves exemplos.
22
2.1. ESTRUTURA
A
N
Arco
23
Grafo
Direcionado
No direcionado
A
Conectado
No conectado
A
Acclico
Cclico
A
Conexes Simples
A
rvore Simples
B
D
A
C
Polirvore
A
B
D
Mltiplas Conexes
B
D
C
E
C
E
C
E
C
E
C
E
Assim, como notamos na Figura 2.2, as estruturas de rvores simples possuem apenas uma
varivel que origina a rede (varivel A) e as estruturas de polirvore possuem duas (ou mais)
variveis que originam a rede (variveis A e C). Estas variveis geralmente possuem um
nome especfico o qual ser apresentado no prximo item.
P(C|A,B)
Com base nas definies acima, podemos exibir um exemplo de Rede Bayesiana.
26
o Sexo { M, F };
o Idade { <20 anos, >=20 anos };
o Crditos Anteriores { 1, >1 };
o Credit Rating { Bom , Ruim }.
Sexo
M
F
P(Sexo)
0.6
0.4
Idade
<20 anos
>=20 anos
P(Idade)
0.18
0.82
Idade
Sexo
Crditos
Anteriores
Sexo
M
M
M
M
F
F
F
F
Idad e
Crditos Anterios
<20 anos
1
<20 anos
>1
>=20 anos
1
>=20 anos
>1
<20 anos
1
<20 anos
>1
>=20 anos
1
>=20 anos
>1
Credit
Rating
Crdito Anteriores Credit Rating
1
Bom
1
Ruim
>1
Bom
>1
Ruim
Considerando o exemplo da Figura 2.3 temos que as variveis Sexo, Idade, Crditos
Anteriores e Credit Rating so representadas por seu respectivo n na rede, sendo Sexo e
Idade variveis-pai da varivel Crdtios Anteriores e Crditos Anteriores pai da varivel
Credit Rating. Ainda realizando uma anlise hierrquica, as variveis Sexo e Idade so
classificadas na rede como variveis-raiz e Credit Rating como folha.
27
Alm disso, notamos que Sexo e Idade influenciam diretamente a varivel Crditos
Anteriores, que por sua vez influencia probabilisticamente de uma forma direta a varivel
Credit Rating.
Interpretando os relacionamentos, se o cliente do sexo masculino, ou no, isso
influencia na probabilidade do cliente ter um, ou mais, crditos anteriores realizados na
instituio. Se o cliente menor de 20 anos, ou no, tambm influencia a probabilidade do
cliente ter um ou mais crditos anteriores realizados na instituio. Assim, a probabilidade do
cliente ter, ou no, realizado requisio de crditos anteriormente na instituio financeira
influencia a probabilidade dele ser classificado como um bom pagador ou mau pagador.
Para cada uma das variveis e seus cruzamentos condicionais, temos uma tabela de
probabilidade condicional (CPT) explicando numericamente a chance da cada categoria
evento ocorrer dado premissas anteriores.
Idade
Sexo
Crditos
Anteriores
Credit
Rating
Figura 2.4. Rede Bayesiana tendo como evidencia a varivel Idade (Idade <20)
2.2. EVIDNCIA
Dada a estrutura grfica DAG, outra definio importante para a teoria de Redes
Bayesianas. Esta denominada como evidncia e refere-se ao fato de uma varivel ser
28
indicada pelo usurio da rede, ou seja, uma varivel aleatria com valor conhecido e acoplado
Rede Bayesiana com estrutura j conhecida. Basicamente, podemos definir uma evidncia
com uma observao.
Considere o exemplo da Figura 2.3. Desta forma, observamos que um novo cliente
possui a idade de 18 anos; assim, na rede, indicamos a varivel Idade para a categoria
respectiva, ou seja, definimos Idade <20 anos. A varivel idade classificada como uma
evidncia para a rede. A Figura 2.4 exibe uma demonstrao visual para Idade <20 anos.
As evidncias so teis quando existe o objetivo de realizao de inferncia
probabilstica para a rede em estudo. Este procedimento ser visto com mais detalhes
posteriormente.
P X i | X j , pais ( X i ) P X i | pais( X i )
(2.1)
P( X 1 x1 ,..., X K x k ) PX i xi | pais( X i )
(2.2)
i 1
29
30
1.
2.
A
3.
U
31
(a)
(b)
(c)
Analisando a Figura 2.7, notamos que a estrutura (a) no equivalente a (b), pois alm
de no preservar a conexo head-to-head C E D , a estrutura (b) no mantm a conexo
entre as variveis A e B. Esses mesmos motivos fazem (b) no equivalente estrutura (c).
Comparando a estrutura (a) com (c), notamos que existe apenas diferena entre a
direo de ligao entre as variveis A e B, ou seja, (a) e (c) so equivalentes. Dizemos que
(a) e (c) pertencem mesma classe de equivalncia markoviana.
32
A construo de uma Rede Bayesiana no trivial, alm de existir vrios mtodos para
a estimao de estruturas de rede atravs do conjunto de dados, os mtodos podem ser
influenciados por fatores como a ordem e escolha das variveis que compem o problema.
Esse problema proporciona atualmente intensas pesquisas buscando um mtodo timo para
estimao de estruturas DAG para domnios de problemas prticos.
Porm, de uma forma geral, Pearl (1988) criou um algoritmo baseando-se nas
propriedades 2.1 e 2.2, no qual, dado um conjunto de variveis discretas ordenadas, constri
uma Rede Bayesiana nica, adicionando s variveis a rede em sua ordem e acrescentando
arcos para a formao da estrutura. Assim, cada varivel conectada s variveis antigas da
rede, o que garante que a estrutura seja sempre acclica.
Para uma Rede Bayesiana ser adequada, ela deve ser perfeita, ou seja, todos arcos
devem expressar corretamente as dependncias entre as variveis.
Desta forma, fcil notar que para a construo de uma Rede Bayesiana devemos
escolher uma ordem correta para as variveis, pois diferentes ordens podem gerar Redes
Bayesianas diferentes. Desta forma, Korb e Nicholson (2004) sugerem que primeiramente
consideremos as variveis possveis a serem razes e suas variveis independentes, a seguir as
demais variveis.
Outros mtodos de construo de Redes Bayesianas sero apresentados no decorrer do
trabalho.
33
34
35
Passagem de mensagens;
Mtodo de formao de agrupamentos.
36
37
E+
38
P( X | E ) P( X | E , E )
P( X | E , E )
.
P( E , E | X ) P ( X )
P( E , E )
P( E | X ) P( E | X ) P( X )
P( E , E )
P( X | E ) P( E ) P( E | X ) P( X )
P ( X | E ) P( E | X )
P( X ) P( E , E )
P( E )
.
P( E , E )
P ( X | E ) ( x ) ( x )
(3.1)
39
Algoritmo 3.1. Considere (G, ) como uma Rede Bayesiana com a estrutura DAG de rvore
simples e G={V, }, sendo V o conjunto de variveis, E o conjunto de evidncias e a
estrutura destas variveis em grafos, sendo E V. Para cada varivel X so definidos
mensagens , valores , mensagens e valores .
1. Mensagens
Y ( x) P( y | x) ( y )
(3.2)
2. Valores
( x ) 1 e ( x) 0
(3.3)
( x) 1
(3.4)
( x ) i ( x )
(3.5)
40
3. Mensagens
X ( w) (w) i (w)
(3.6)
4. Valores
( x ) 1 e ( x) 0
(3.7)
( x) P( x)
(3.8)
( x) P( x | w) x ( w)
(3.9)
5. Dadas as definies acima, para cada varivel X cada um de seus respectivos valores
x , chegamos expresso (3.1).
41
Para este problema considere a possvel estrutura de Rede Bayesiana exibida na Figura
3.3.
Sexo
{M,F}
Crditos
Anteriores
{ 1 , 1 }
Credit
Rating
{B,R}
Figura 3.3. Possvel Rede Bayesiana para dados aplicados credit scoring
42
CA (S )
S
CR (CA)
CA
CR
Figura 3.4. Mensagens para o Algoritmo de passagem de mensagem para dados de credit
scoring
Mensagens
(CA 1) 1
(CA 1) 0
(CR Bom ) 1
(CR Ruim ) 1
( S M ) CA ( S M )
P (CA 1 | S M ) (CA 1) P (CA 1 | S M ) (CA 1)
0.60 1 0.40 0
0.60
( S F ) CA ( S F )
P (CA 1 | S F ) (CA 1) P (CA 1 | S F ) (CA 1)
0.58 1 0.42 0
0.58
43
Mensagens
(CA 1) 1
(CA 1) 0
Aplicando a propriedade 4.b do Teorema 3.1, temos:
( S M ) P( S M )
0.79
( S F ) P( S F )
0.21
CR (CA 1) (CA 1)
CR (CA 1) (CA 1)
Note que CA possui apenas CR de filho na rede.
(CR Bom)
P(CR Bom | CA 1) CR (CA 1) P(CR Bom | CA 1) CR (CA 1)
0.71x1 0.60 x0
0.71
(CR Ruim)
P(CR Ruim | CA 1) CR (CA 1) P(CR Ruim | CA 1) CR (CA 1)
0.29 x1 0.40 x0
0.29
Desta forma, aplicamos a propriedade 5 para cada um dos valores de cada varivel da
rede.
44
P(S M | CA 1)
( S M ) (S M )
0.58 x0.79
0.4740
P(S F | CA 1)
( S F ) (S F )
0.58 x0.21
0.1218
P ( S M | CA 1)
0.4740
0.796
0.4740 0.1218
P(S F | CA 1)
0.1218
0.204
0.4740 0.1218
45
Algoritmo 3.2. Considere (G, ) como uma Rede Bayesiana com a estrutura DAG de polirvore e G={V, }, sendo V o conjunto de variveis e a estrutura destas variveis em
grafos e sendo E V. Para cada varivel X so definidos mensagens , valores ,
mensagens e valores .
1. Mensagens
Y ( x) P( y | x, w1 , w2 ,..., wk ) Y ( wi ) ( y)
y i
k
(3.10)
2. Valores
( x ) 1 e ( x) 0
(3.11)
( x) 1
(3.12)
( x ) i ( x )
(3.13)
46
3. Mensagens
X ( w) (w) i (w)
(3.14)
4. Valores
( x ) 1 e ( x) 0
(3.15)
( x) P( x)
(3.16)
( x) P( x | w1 , wi ,...w j ) x (wi )
W
W
(3.17)
5. Dadas as definies acima, para cada varivel X cada um de seus respectivos valores
x , chegamos expresso (3.1).
47
Tipo
Apartamento
T
P( I = <20 anos | T )
Prprio
0.80
No prprio
0.20
Idade
Sexo
T
P( S = Masculino | T )
Prprio
0.20
No prprio
0.05
Credit
Rating
S
Masculino
Masculino
Feminino
Feminino
I
P( CR = Bom | S, I)
< 20 anos
0.80
>=20 anos
0.80
< 20 anos
0.80
>=20 anos
0.05
Para tais variveis supomos a Rede Bayesiana com estrutura de mltiplas conexes
exibida na Figura 3.4. Em critrio de simplificao, algumas categorias foram ocultadas,
porm so facilmente verificadas.
P( T = Prprio )
0.90
Tipo
Apartamento
T
Prprio
Z
Masculino
Masculino
Feminino
Feminino
< 20 anos
>=20 anos
< 20 anos
>=20 anos
P( Z | T )
0.16
0.64
0.16
0.16
Credit
Rating
Z
Masculino
Masculino
Feminino
Feminino
< 20 anos
>=20 anos
< 20 anos
>=20 anos
P( CR=Bom | Z )
0.80
0.60
0.80
0.50
49
50
A idia bsica deste algoritmo percorrer toda a rede, dada a estrutura de arcos e
CPTs, gerando N amostras e verificando se aquele tipo de amostra consistente, ou seja, se
ela contm a evidncia dada. Caso isso no ocorra, tal amostra rejeitada.
Desta forma, a probabilidade condicional para uma varivel em questo X dada uma
evidncia e estimada pela contagem do nmero de ocorrncias em cada uma de suas
categorias, dividida pelo nmero de amostras consistncias.
Genericamente:
P ( X | e)
P ( X , e)
Contagem das categorias de X
P (e )
Nmero de amostras consistent es
(3.18)
Algoritmo 3.3:
Indique:
X
Varivel consulta;
E=e
( , )
C[xj]
Para i=1 at N
xj= amostre com base em RB;
Se xj consistente com e ento
C[xj]= C[xj]+1;
Retorne
C[x j ]
C[x
51
Exemplo 3.3: Considerando a Rede Bayesiana da Figura 3.5, vamos supor que desejamos
estimar P( Idade | Sexo M ) . Ento, geramos uma quantidade fixa de amostras, neste caso
igual a 100. Desta forma, verificamos para cada amostra se esta possui ou no a evidncia
desejada, caso no possua, o algoritmo rejeita a amostra. Por exemplo, a amostra <
T=Prprio, Sexo=M, Idade=<20anos, Credito=B> no rejeitada, pois se enquadra com a
evidncia da rede (sexo = masculino).
Realizando a simulao das 100 amostras, apenas 18 so consistentes com a evidncia,
dentre elas, 3 com idade maior que 20 anos e 15 com a idade menor ou igual h 18 anos.
Assim, de (3.18) temos:
P ( Idade | Sexo M )
15,3
(0.833,0.166)
18
Ou seja,
0.6
0.4
0.0
0.2
P(Idade>20|Sexo=M)
0.8
1.0
200
400
600
800
1000
Repeties
52
3.2.2.
Ponderao de Probabilidade
Algoritmo 3.4:
Indique:
X
Varivel consulta;
E=e
( , )
W[xj]
Para i=1 at N
Xj, w = Amostrar {
Se Xj uma evidncia
W=w P(Ej|pais(Ej))
53
Retorne
W[x j ]
W[x ]
j
Exemplo 3.4: Considerando novamente a Rede Bayesiana da Figura 3.4, aplicamos esse
algoritmo com 100 repeties, sendo suas probabilidades estimadas:
Esse algoritmo possui rpida convergncia, sendo esses valores de probabilidade mais
precisos do que os gerados pelo algoritmo de rejeio. Para ilustrar a convergncia do
0.6
0.4
0.0
0.2
P(Idade=>20|Sexo=M)
0.8
1.0
200
400
600
800
1000
Repeties
54
Segundo Russel e Norvig (2004), esse algoritmo muito eficiente, porm pode sofrer
degradao quando o nmero de evidncias aumenta.
55
56
P( pa ij )
f ( paij )
(4.1)
Note que nenhuma suposio a priori foi dada sobre qualquer um dos elementos em
anlise. Porm, a forma mais clara de exibir tal pensamento atravs de um exemplo.
Assim, o conjunto de dados exposto na Tabela 4.1. Para este problema considere a
possvel estrutura de Rede Bayesiana exibida na Figura 4.1.
Atravs da Figura 4.1, notamos que existe apenas uma varivel-raiz e todas as demais
variveis possuem somente uma varivel-pai.
57
Sexo
Masculino
Masculino
Feminino
Feminino
Masculino
Masculino
Masculino
Masculino
Masculino
Masculino
Masculino
Feminino
Masculino
Masculino
Feminino
Masculino
Masculino
Feminino
Masculino
Masculino
Masculino
Masculino
Masculino
Masculino
Crditos Anteriores
Diferente de um
Um
Diferente de um
Diferente de um
Um
Um
Um
Diferente de um
Diferente de um
Diferente de um
Um
Um
Diferente de um
Diferente de um
Um
Um
Um
Um
Um
Um
Um
Diferente de um
Diferente de um
Um
Sexo
{M,F}
Crditos
Anteriores
{ 1 , 1 }
Credit
Rating
{B,R}
Figura 4.1. Possvel Rede Bayesiana para dados aplicados a credit scoring
Para facilitar os clculos, a varivel Sexo ser representada pela letra S, a varivel
Crditos Anteriores pela sigla CA, e a varivel Credit Rating pela sigla CR.
58
As
probabilidades conjuntas P(CA, S ) e P(CR, CA) so estimadas atravs das Tabelas 4.2 e 4.3,
respectivamente.
CA
S
1
1
Total
F
0.13
0.08
0.21
M
0.46
0.33
0.79
Total
0.58
0.42
1.00
CR
CA
Ruim
Bom
Total
1
0.17
0.42
0.58
1
0.17
0.25
0.42
Total
0.33
0.67
1.00
P(CR | CA) P(CR, CA) / P(CA) , realizamos o clculo de cada clula de probabilidade
conjunta dividida por sua respectiva clula de probabilidade marginal.
As probabilidades condicionais P (CA | S ) e P (CR | CA) so estimadas atravs das
Tabelas de probabilidade condicionais (CPT) 4.4 e 4.5, respectivamente.
59
F
0.60
0.40
M
0.58
0.42
CR
CA
Ruim
1
0.29
0.40
Bom
0.71
0.60
Deste modo, a Rede Bayesiana pode ser expressa pela Figura 4.2.
{M,F}
Sexo
Crditos
Anteriores
{ 1 , 1 }
Credit
Rating
{B,R}
Figura 4.2. Possvel Rede Bayesiana com CPT para dados de credit scoring
60
P ( | X , ) P ( ij | X , )
i
Dadas
as
suposies
anteriores,
podemos
assumir
que
ij | ~
Dirichlet
( ij | a ij1 ,..., i jri ) e temos que ij |X, ~ Dirichlet ( ij | a ij1 N ij1 ,...,i jri N ijri ), como visto na
seo 1.3.2.4. Sendo Nijk a freqncia na amostra X com que a varivel Xi assume o k-simo
estado, condicionada ao j-simo estado dos pais.
Assim, tomando a mdia da distribuio de ij |X, como estimador de ijk temos que
(4.2).
P( X i xik | pa ij , )
(1 N ijk )
(4.2)
(ri N ij )
Exemplo 4.2: Para aplicao desta tcnica, considere o conjunto de dados de exemplo 4.1,
mais especificamente a Tabela 4.3. Assim, podemos construir a nova tabela a seguir.
CR
CA
Ruim
Bom
Total
1
4
10
14
1
4
6
10
Total
16
8
24
P(CR Ruim | CA 1)
(1 N CR ,1, Ruim )
(rCA N CR ,1 )
(1 4)
0.312
(2 14)
CR
CA
Ruim
1
0.312
0.417
Bom
0.688
0.583
Note que os valores da Tabela 4.7 so bastante similares aos encontrados na Tabela
4.5.
62
Porm, Magalhes (2007) aponta a aplicao de mtodos hbridos como uma terceira
alternativa para estimao de estrutura, os quais se utilizam de uma composio dos
algoritmos de busca por pontuao e dos baseados em propriedades de d-separao.
Bottcher e Dethlefsen (2003) sugerem um algoritmo hbrido implementado no pacote
deal do Software R.
A abordagem aqui apresentada meramente informativa, pois existem vrias
abordagens sobre algoritmos de aprendizado de estrutura, sendo que a rea est em constante
desenvolvimento (Russell e Norvig, 2004). Assim, nesta seo, apresentamos de forma
sucinta o algoritmo K2, que busca maximizar a mtrica de determinada funo, tambm
aprestamos o algoritmo PC, implementado no Software Hugin, como sendo um algoritmo
baseado em propriedades de d-separao. Alm disso, apresentamos como realizar o
aprendizado hbrido utilizando o software R.
4.2.1 Algoritmo PC
O algoritmo PC foi proposto por Spirtes, Glymour e Scheines (1991), levando assim
no nome as iniciais de seus principais criadores, Peter Spirtes e Clark Glymour. A idia bsica
do algoritmo realizar testes estatsticos para determinar grupos de variveis independentes,
utilizando o critrio de d-separao. Geralmente, o teste utilizado o teste estatstico de Quiquadrado, sendo calculado atravs do conjunto de dados (Abellan et al, 2006). Assim, os
testes so realizados a cada par de variveis da rede. Tal processo considera que se o teste
significativo, as variveis se encontram conectas e, assim, estabelecem a orientao dos arcos,
atravs do critrio de d-separao.
4.2.2 Algoritmo K2
63
P( | X ) c
qi
ri
( ri 1)!
N ijk !
i 1 j 1 ( N ij ri 1)! k 1
(4.3)
P( | X )
P( )
P( X | )
*
*
P( | X ) P( ) P( X | * )
(4.4)
64
jointprior()
learn()
Descrio
Transforma um conjunto de dados
em um objeto da classe network.
Calcula a probabilidade conjunta,
dado um objeto de classe network.
Realiza
estimao
das
probabilidades.
Capta a rede sem arcos, parte
getnetwork()
heuristic()
savenet()
Realiza
pesquisa
vida
com
reincios aleatrios.
Salva a rede para ser utilizada pelo
Software Hugin.
65
Y = Credit Rating
Mau
Sem movimento
Bom
Sem balano
$300
<= $300
X4 = Valor da Poupana em Dlares
Sem economias
>=21
<140
140-700
700-1400
>1400
< 4 828.15
>= 4 828.15
A estrutura estimada da Rede Bayesiana pode ser visualizada pela Figura 4.3. Alm
disso, salvamos essa estrutura em um arquivo chamado rede.net a fim de utiliz-lo no
prximo captulo, onde ser apresentado o Software Hugin.
Score: -2223.170
Y
X4
X1
X3
X2
66
dados=read.csv("C:\\...\\CreditScoring.csv",
sep=';',header=T) # Abrindo o conjunto de dados
<- network(x)
<- getnetwork(learn(fit,x,fit.prior))
hisc
<- heuristic(fit,x,fit.prior,restart=2,degree=5,
trace=F,removecycles=T)
67
68
5. SOFTWARE HUGIN
O Software Hugin (http://www.hugin.com) foi construdo pela empresa Hugin Expert
S/A fundada em 1989 e localizada em Aalborg, Dinamarca. Assim, foi implementado como
instrumento de anlise para metodologias voltadas rea da sade, mais especificamente para
a diagnose muscular. Hoje em dia, tornou-se um sistema comercial altamente conhecido e
direcionado a solues utilizando a tecnologia de Redes Bayesianas.
De uma forma geral, existem vrios tipos de verses e licenas para este software,
cada uma direcionada a uma finalidade diferente. Por exemplo, as verses Hugin Developer,
Explorer e OTM so voltadas apenas para o uso comercial, as verses Hugin Researcher,
Classroom e Educational so voltadas apenas uso acadmico.
Mesmo assim, a empresa fornece uma verso demonstrativa e para uso pessoal do
software, tal verso conhecida como Hugin Lite, sendo uma edio limitada das licenas
Hugin Developer e Researcher.
69
5.1.1. Instalao
encontra no menu principal. Para qualquer verso do Windows, a pasta de exemplos est
localizada no endereo Arquivos de programas\Hugin Expert\Hugin Lite 7.0\Samples\.
70
5.1.3. Compilao
, ou
exibe
todas as probabilidades a posteriori, dada uma evidncia atual. Note que o programa
iniciado sem nenhuma evidncia, ou seja, o conjunto de evidncias vazio. O boto Collapse
node list
Quando uma rede est aberta, o salvamento efetuado de maneira simples. Selecione
Save As no menu File ou pressione o boto Save the select network
, encontre o melhor
Uma Rede Bayesiana pode ser criada e/ou editada facilmente atravs do Software
Hugin. Para abrir o mdulo de edio, basta clicar no boto Switch to edit mode
, para
. Adicionamos
71
quatro variveis-n discretas como indicado na Figura 5.2, para isso basta clicar em
clicar novamente dentro da janela principal do mdulo. Caso for necessrio, a varivel-n
pode ser arrastada para um lugar desejado, para isso basta segurar o clique e arrastar com o
mouse.
Para adicionar os arcos indicando a dependncia direta entre as variveis, basta clicar
no boto Link tool
seja, Tipo de imvel para Idade e Sexo, e estas para credit rating, como indicado na Figura
5.2.
P( T = Prprio )
0.90
Tipo
Imvel
T
Prprio
No Prprio
P(I<=20|T)
0.20
0.80
Idade
Sexo
T
P( S = Masculino | T )
Prprio
0.20
No prprio
0.05
Credit
Rating
S
Masculino
Masculino
Feminino
Feminino
I
P( CR = Bom | S, I)
< 20 anos
0.80
>=20 anos
0.80
< 20 anos
0.80
>=20 anos
0.05
72
Figura 5.4. Mdulo de Edio com a construo parcial da Rede da Figura 5.2
Observando a Figura 5.4, notamos que ainda necessrio estabelecer os nomes para as
variveis-n, bem como seus possveis estados e suas probabilidades.
73
Deste modo, para alterar os estados e nome de cada varivel-n, clicamos duas vezes
sobre cada varivel e alteramos o campo name da aba node e os estados so alterados atravs
do boto rename da aba States.
Para inserir as probabilidades de cada CPT associada a cada varivel-n, clicamos
com o boto direito sobre a varivel respectiva e selecionamos Open Tables. A partir da,
digitamos todos os valores dados pela estrutura da Figura 5.2.
Figura 5.5. Tabelas de probabilidade condicional no Hugin para a rede da Figura 5.2
A Figura 5.5 exibe a tabela de probabilidade condicional para a varivel Credit Rating,
note que as demais tabelas da rede se encontram nas abas vizinhas.
Assim, a rede est pronta para outros procedimentos.
A partir de uma Rede Bayesiana com estrutura j definida e com suas tabelas de
probabilidades condicionais j construdas, podemos realizar os procedimentos de inferncia
utilizando o software Hugin.
Essa habilidade uma das mais importantes deste software, pois ele efetua a inferncia
probabilstica de forma rpida e fcil. Para maiores informaes sobre os tipos de algoritmos
para inferncia probabilstica implementados no Hugin consultar Jensen et al.(1994).
O processo de propagao de probabilidades procedente da compilao da rede.
Desta forma, para realizar esse procedimento, basta abrir uma Rede Bayesiana e acionar o
boto Switch Run
74
Deste modo, basta clicar duas vezes sobre a categoria de qualquer uma das variveis
que se deseja evidenciar, ou seja, informar tal observao para a rede. Automaticamente, o
software j realizar a propagao de probabilidades para as demais variveis-n, exibindo a
probabilidade a posteriori de todas as categorias dado o novo conjunto de evidncias.
Exemplo 5.2: Considere a Rede Bayesiana construda no Exemplo 5.1, para ela observamos
que um cliente do sexo masculino e possui 38 anos de idade. Assim, estas categorias so
instanciadas, tornando-se evidncias. Note que a Figura 5.6 exibe a rede sem a propagao da
evidencia, j a Figura 5.7 exibe a figura com a propagao para os ns Tipo de Apartamento
(T) e Credit Rating (TR).
75
pagador. Observe que no foi necessria a coleta de informao sobre o tipo de imvel do
cliente.
76
Exemplo 5.3: Devido s restries do Hugin Lite, consideramos um conjunto de dados reais
com 499 observaes, 28 categorias divididas em 8 covariveis, as quais dizem respeito
varivel-resposta Credit Rating. Esse conjunto de dados salvo no formato .dat e exibido na
Figura 5.8. Abaixo segue o detalhamento das variveis.
X1 = Saldo da conta corrente
Sem movimento
<1
Sem balano
1-5
$300
5-8
<= $300
>8
X6 = Parcela do Rendimento em %
<21
< 15
>=21
15-25
25-35
>35
< 4 828.15
>= 4 828.15
X7 = Idade em anos
<34
>=34
X8 = Tipo de imvel
Prprio
Alugado
Cedida
>1400
Y = Credit Rating
Mau
Bom
77
Desta forma, podemos clicar em Wizards > Learning Wizard ... para dar incio a
estimao da rede.
A prxima tela fornece a possibilidade para usurio editar o conjunto de dados, como
remover variveis atravs dos botes Include All e Exclude All, bem como alterar o nome das
variveis atravs do boto Label Variables. Alm disso, essa tela fornece uma anlise de
freqncia de cada varivel atravs do boto Analyze. Neste exemplo, nenhuma alterao
realizada e prosseguimos atravs da tecla Next.
A terceira janela disponibiliza a construo de contrastes e relaes importantes a qual
o usurio acredita atravs de sua experincia como profissional. Neste exemplo, nenhuma
alterao realizada e prosseguimos atravs da tecla Next.
A janela seguinte pode ser visualizada na Figura 5. 10 e solicita o tipo de algoritmo a
ser utilizado, bem como o nvel de significncia para os testes estatsticos. Para o exemplo,
selecionamos o nvel de significncia de 0.05 e o algoritmo PC.
79
A ltima tela exibida na Figura 5.11 e solicita para o usurio informar um limiar de
convergncia para a realizao da estimao das probabilidades atravs do algoritmo de
estimao EM, ou seja, um erro mximo permitido para verificar a convergncia do
algoritmo. Novamente, nenhuma alterao realizada e terminamos o procedimento atravs
da tecla Finish.
Figura 5.11. Finalizao atravs da estimao das probabilidades via algoritmo EM.
Na Figura 5.12 exibida a Rede Bayesiana estimada atravs dos dados. Note que os
relacionamentos primeira vista so confusos, porm podem ser organizados da forma
indicada pela Figura 5.13. O procedimento de organizao totalmente manual, porm o
software disponibiliza um boto no menu principal, atravs de Network > Layout the
nodes
. Porm, o processo manual mais flexvel, basta clicar e arrastar cada varivel-n
80
Exemplo 5.4: Para abrir o arquivo acione File > Open... ou d um duplo clique sobre o cone
do arquivo. Assim, uma vez que ele se encontre no Software Hugin, podemos organizar a rede
da forma indicada na Figura 5.13.
Figura 5.13. Rede Bayesiana estimada pelo Software R e editada no Software Hugin
e selecionando as categorias de
evidncia.
Assim, selecionamos como evidncia a varivel X1, sendo instanciada para a categoria
sem movimentao, isto , o cliente no possui movimentao em sua conta corrente. A
Figura 5.14 exibe as mudanas de probabilidades para esse caso.
Note que a probabilidade de ter mais que U$ 1400 em sua conta, dado que o cliente
no possui movimentao em conta corrente, tem um decrscimo de 0.1595 para 0.0661 e a
probabilidade de ser classificado como mau pagador cresce de 0.3862 para 0.4661.
82
83
84
(6.1)
i 1
X1
X2
Xp
Atravs da Figura 6.1, notamos que todas as variveis explicativas Xi possuem apenas
Y como varivel-pai, ou seja, Y a nica varivel-raiz, a qual origina a rede.
85
X1
X2
Xp
Para realizar o ajuste de tal estrutura atravs de um conjunto de dados, Sahami (1996)
prope o seguinte algoritmo:
86
I ( X , Y ) H ( X , Y ) H ( X ) H (Y )
(6.2)
Analogamente I ( X 1 , X 2 | Y ) E ( I ( X 1 , X 2 ) | Y ) .
A medida de informao mtua expressa a quantidade de informao que X
compartilha com Y. Ou seja, quando X e Y so independentes temos que I(X,Y)=0
87
De uma forma geral, quando temos o interesse em decidir entre duas categorias
estamos realizando uma classificao dicotmica, a discriminao destas categorias pode ser
realizada atravs da utilizao da curva ROC.
Para definir o melhor ponto de corte, temos que escolher o ponto que maximize
conjuntamente a sensibilidade e a especificidade da classificao. Sendo assim escolhemos o
ponto mais prximo do eixo superior esquerdo do grfico, ou seja, temos que o melhor ponto
de corte o que possui menor distncia euclidiana do ponto (0,1).
P(Y 1)
exp{ 0 1 x1 .... p x p , }
1 exp{ 0 1 x1 .... p x p , }
(6.3)
89
e matriz de
pagadores segue uma normal p-variada, com mdia 1
,..., 1
p
p
90
Tabela 6.1 Avaliao das tcnicas de Regresso Logstica e Naive Bayes, n=100 e 300
n=100
n=300
Tcnica Estatstica para Classificao
Configurao Medidas
TTA
TAB
TAM
TTA
TAB
TAM
TTA
TAB
TAM
TTA
TAB
TAM
Naive-Bayes
Reg. Log.
Naive-Bayes
Reg. Log.
---
---
---
---
---
---
Tabela 6.2 Avaliao das tcnicas de Regresso Logstica e Naive Bayes, n=1000 e 10000
n=1 000
n=10 000
Tcnica Estatstica para Classificao
Configurao Medidas
TTA
TAB
TAM
TTA
TAB
TAM
TTA
TAB
TAM
TTA
TAB
TAM
Naive-Bayes
Reg. Log.
Naive-Bayes
Reg. Log.
0.666 (0.662;0.670)
0.653 (0.647;0.659)
0.677 (0.664;0.686)
0.733 (0.722;0.742)
0.656 (0.650;0.664)
0.571 (0.562;0.582)
0.653 (0.646;0.668)
0.648 (0.637;0.663)
0.858 (0.853;0.863)
0.856 (0.849;0.862)
0.390 (0.382;0.400)
0.384 (0.375;0.395)
0.678(0.598; 0.749)
0.639 (0.619;0.664)
0.640 (0.620;0.667)
0.952(0.936; 0.966)
0.947 (0.943;0.949)
0.947 (0.943;0.950)
0.195(0.156; 0.245)
0.171 (0.164;0.178)
0.171 (0.166;0.179)
0.751(0.597; 0.910)
0.675 (0.586;0.765)
0.674 (0.587;0.757)
0.997(0.993; 0.999)
0.995 (0.994;0.997)
0.995 (0.994;0.997)
0.035(0.017; 0.073)
0.021 (0.016;0.028)
0.021 (0.016;0.027)
91
Observando ambas as Tabelas 6.1 e 6.2, notamos que existe uma grande queda na
assertividade de ambos os modelos quando o desbalanceamento cresce, ainda mais quando o
nmero de bons pagadores grande, gerando uma alta proporo de acerto para TAB.
Alm disso, notamos que existe uma grande aproximao dos resultados para ambas
as tcnicas, as estatsticas de desempenho so aproximadamente iguais.
Mesmo assim, existe um leve ganho da Regresso Logstica com relao ao algoritmo
de Naive Bayes, variando em mdia de 1% a 2%, para todos os tipos de configurao
realizados, de uma forma geral. Porm, esse fato no acontece para n=10000, especialmente
para os conjuntos de dados balanceados ou com baixo desbalanceamento (configurao 1 e 2),
note que o rendimento do algoritmo Naive Bayes superior para todas as estatsticas, sendo o
maior e mais importante encontrado para a TAM da configurao 1, com um ganho mdio de
8.5%. Ainda assim, quando existe o aumento do desbalanceamento do conjunto de dados
essa diferena tende a desaparecer.
Existe tambm uma leve diferena entre as estatsticas de TAM em ambos os mtodos
para n=100.
Assim, podemos considerar que, com a utilizao de variveis-categoria para realizar a
modelagem, ambas as tcnicas possuem o grau de preciso extremamente semelhante.
Mesmo, a Regresso Logstica tendo um slido embasamento e sendo uma tcnica bem
estruturada e dotada de outros resultados auxiliares importantes, como a anlise de impacto de
variveis atravs da interpretao dos coeficientes do modelo e razo de chances.
Analogamente, a tcnica de Naive Bayes assume uma grosseira suposio terica e pouco
explorada pela rea da Estatstica, onde seu estudo mais focalizado dentro da Cincia da
Computao.
Estes resultados tambm so indicativos que a Regresso Logstica possui um leve em
ganho em comparao a Naive Bayes quando utilizada para amostras pequenas
(aproximadamente 100), independente do balanceamento da amostra. Da mesma forma, a
tcnica de Naive Bayes possui um leve ganho em comparao a Regresso Logstica quando
utilizada para grandes amostras (aproximadamente 10 000) balanceadas ou com baixo
desbalanceamento.
Neste captulo, notamos que as Redes Bayesianas podem ser utilizadas com objetivos
de classificao, sendo a estrutura de Naive Bayes particular a esse procedimento.
92
93
7. CONSIDERAES FINAIS
94
REFERNCIAS BIBLIOGRFICAS
BOBBIO, A.; PORTINALE, L.; MINICHINO, M.; CIANCAMERLA, E.. Improving the
Analysis of Dependable Systems by Mapping Fault Trees into Bayesian Networks.
Realiability Engineering & System Safety, Vol. 71, p.249-260, 2001.
CHANG, K. C.; FUNG, R; LUCAS, A.; OLIVER R.; SHIKALOFF, N. Bayesian networks
applied to credit scoring. IMA Journal of Mathematics Applied in Business and Industry.
London: Oxford University Press, N. 11, p. 1-18, 2000.
95
EFRON, B.. The jackknife, the bootstrap, and other resampling plans. Society of
Industrial and Applied Mathematics CBMS-NSF Monographs, 38 , 1982.
HECKERMAN, D.; GEIGER D.; CHICKERING D.. Learning Bayesian networks: The
combination of knowledge and statistical data. Machine Learning, 1995.
JENSEN F.; JENSEN F. V.; DITTMER S. L.. From influence diagrams to junction trees.
In R. L. de Mantaras and D. Poole, editors, Proceedings of the Tenth Conference on
Uncertainty in Artificial Intelligence, pages 367-373, Seattle, Washington, July 29-31, 1994.
KORB, K. B.; NICHOLSON, A. E.. Bayesian artificial intelligence. London: Chapman &
Hall/CRC Press UK, 2004.
96
MARQUES, R. L.; DUTRA, I.. Redes Bayesianas: o que so, para que servem, algoritmos e
exemplos
de
aplicaes.
Maio
de
1999.
Disponvel
em:
<http://www.cos.ufrj.br/~ines/courses/cos740/leila/cos740/Bayesianas.pdf>. Acesso em 3 de
agosto de 2008.
MESTER, L. J. What's the point of credit scoring?. Business Review, p3, 14p, Set/Out
1997.
SAHAMI, M.. Learning Limited Dependence Bayesian Classifiers. In KDD-96: Proceedings of the
Second International Conference on Knowledge Discovery and Data Mining, pp. 335-338, Menlo
Park, CA: AAAI Press, 1996.
SHANNON, C. E.. A mathematical theory of communication. Bell System Tech. J. 27, 379-423,
623-656. 1948.
97
SPIRTES, P.; GLYMOUR, C.; SCHEINES, R. An algorithm for fast recovery of sparse
causal graphs. Social Science Computer Review, v. 9, p. 62-72, 1991.
TAFNER, M.A.; XERES M.; RODRIGUES-FILHO I.W.. Redes Neurais Artificiais:
Introduo e Princpios de Neuro-computao, 1a ed.. Blumenau, EKO, Ed. da Furb, 1995.
98