Vous êtes sur la page 1sur 10

Universidade Estadual do Cear (UECE) Pr-Reitoria de Ps-Graduao e Pesquisa ( PROP GPG ) Instituto Federal de Cincia de Tecnologia do Cear (IFCE-CE)

Diretoria de Pesquisa e Ps-Graduao ( D I PPG)

GRAFOS PROBABILSTICOS E RVORES DE DECISO

Edilson Duarte Neto MPCOMP - Mestrado Profissional em Computao Aplicada UECE/IFCE

SUMRIO Os Grafos Probabilsticos utilizam a Teoria da Probabilidade e a Teoria dos Grafos para representar e manipular conhecimento em diversas reas, buscando minimizar os problemas que ocorrem em situaes do mundo real relacionados incerteza e a complexidade. Uma rvore de deciso consiste numa representao grfica das alternativas disponveis geradas a partir de um estado inicial, sendo uma das formas eficientes de construir classificadores que podem prognosticar valores de determinados atributos de um agrupamento de dados. Este trabalho demonstra como usar grafos probabilsticos e arvores de deciso no processo de compra de mercadorias para empresa Alpha indicando a melhor compra. Palavras-chave: rvore Grafos Probabilsticos, Bayesianas,

grafos probabilsticos esto cada vez mais sendo estudados e usados em problemas reais que foram citados por [FONSECA, J. M., 1994] e que seguem abaixo: Medicina: biomedicina, efeitos secundrios provenientes do consumo de drogas, conteno de custos em hospitais, anlises genticas; Finanas: aprovao de crdito, predio em de situaes deteco acesso de de no bancarrota, deteco de fraudes seguros, de situaes

autorizado a cartes de crdito; Agricultura: classificao de

doenas em produtos agrcolas; Social: informao demogrfica, tendncia eleitorais; Marketing e de vendas: grupos com de voto, resultados

de Deciso,

Redes

Redes Gaussianas, Redes Neurais.

INTRODUO As rvores de deciso juntamente com os

identificao econmico-sociais

Universidade Estadual do Cear (UECE) Pr-Reitoria de Ps-Graduao e Pesquisa ( PROP GPG ) Instituto Federal de Cincia de Tecnologia do Cear (IFCE-CE) Diretoria de Pesquisa e Ps-Graduao ( D I PPG)

comportamentos

particulares,

anlise

de

Assim

grficos

probabilsticos

produtos, predio de vendas; Seguros: deteco de pedidos de

utilizam teorias da probabilidade e dos grafos para representar e manipular conhecimento nas mais diversas amenizar mundo reas, dois real: procurando que e a problemas incerteza Um

indenizao excessivos ou fraudulentos; Engenharia: diagnstico automvel, bases de dados e CAD, qumica: estimao de empregos; Fsica eletroqumica, pesquisa da supercondutividade; Militar: anlise de informaes vrias, correlao de informaes, aplicaes vrias consideradas secretas; Policiamento: de fugas ao fisco, digitais, verificao impresses

ocorrem em situaes prticas do complexidade. grfico

probabilstico composto de duas partes, uma qualitativa e outra quantitativa. A parte qualitativa expressa por um grafo em que os ns representam variveis a entre aleatrias e os arcos que as relacionam dependncia denotam estatstica

recuperao de objetos roubados; Cincias espaciais: astronomia, anlise de informao espacial; Grafos Probabilsticos Grafos probabilsticos so modelos grficos de interaes entre um conjunto de variveis, onde as variveis so representadas como vrtices (ns) de um grfico e as interaes (dependncias diretas) como arestas dirigidas (links ou arcos) entre os vrtices. Qualquer par de vrtices no conectados de tal grfico indica (condicional) independncia entre as variveis representadas por esses vrtices em circunstncias especiais que podem ser facilmente lidos o grfico. Assim, os grafos probabilsticos pela condio usam definida a e dependncia

elas. O segundo componente, quantitativo, a distribuio de probabilidades variveis. Existem dois principais tipos de grafos que so utilizados para representar a dependncia entre as variveis em os grficos noprobabilsticos: para essas

direcionados e os direcionados. Em um grafo no-direcionado, os arcos no esto orientados. Podese citar as redes de Markov como exemplo de modelos grficos que utilizam este tipo de estrutura. J nos grafos direcionados, os arcos possuem orientao. Temos como

propriedades de independncia associadas a variveis, UFFE & ANDERS (2008).

Universidade Estadual do Cear (UECE) Pr-Reitoria de Ps-Graduao e Pesquisa ( PROP GPG ) Instituto Federal de Cincia de Tecnologia do Cear (IFCE-CE) Diretoria de Pesquisa e Ps-Graduao ( D I PPG)

exemplo para representar esse tipo de grafo as redes bayesianas e as gaussianas, os quais devem ser acclicas. Neste trabalho, aborda-se apenas os

recebem

nome

de

rede

bayesiana. Se as variveis forem contnuas, o modelo chamado de rede gaussiana. Na figura 1 apresentado ilustra os um exemplo de modelo grfico probabilstico que conceitos O definidos de previamente. conjunto

grficos probabilsticos cuja estrutura um grafo direcionado e acclico usando conceito probabilstico das redes bayesianas e aprendizado de criao de modelos de grafos probabilsticos.

variveis X={x1,x2,x3,x4,x5} retrata as variveis do modelo, que so representadas pelos ns do grafo.

Modelo de Grafos Probabilstico Teoricamente, um modelo grfico

Alm da dependncia condicional explcita entre as variveis, os modelos grficos entre representam elas. dita Uma ser implicitamente as independncias condicionais varivel

probabilstico para um conjunto X = {X1, X2, , XN} de variveis aleatrias uma fatorao grfica da distribuio de probabilidade conjunta de X. O modelo grfico consiste de uma estrutura em grafo que conjunto representa de as dependncias para cada condicionais das variveis em X, e de um probabilidades varivel. Modelos grficos probabilsticos cuja estrutura um grafo acclico, foi verificado que: -Cada n corresponde a uma varivel aleatria; -Os arcos ligando os ns indicam as relaes de dependncia entre as variveis. Um arco saindo de uma varivel Xi e chegando numa varivel Xj significa que Xi pai de Xj e que Xj filho de Xi; Se as variveis forem discretas, os modelos direcionado

condicionalmente

independente

de outras que no so suas filhas, dados os seus pais. Na rede da Figura 1, a varivel X5 condicionalmente independente

de X1, X2, X3 e X4, dado seu pai X3. Desta forma, p(x5 | (x1 x2 x3 x4)) a mesma que p(x5 | x3). Portanto, expressar a os grficos probabilidade probabilsticos so capazes de conjunta das variveis de uma forma mais compacta. Assim, a distribuio conjunta das variveis do modelo da Figura 1 pode ser expressada por:

Universidade Estadual do Cear (UECE) Pr-Reitoria de Ps-Graduao e Pesquisa ( PROP GPG ) Instituto Federal de Cincia de Tecnologia do Cear (IFCE-CE) Diretoria de Pesquisa e Ps-Graduao ( D I PPG)

Figura 1: Exemplo de modelo grfico probabilstico e a probabilidade conjunta definida por este modelo.

problema

os

dados

Equao 1

representarem, mais acurado ser o modelo do grafo. O aprendizado da estrutura da rede consiste entre ou em as excluir direes, grafo o qual determinar variveis, arcos, enfim, sero de um relaes adicionar estabelecer definir acclico um para

p(x1x2x3x4x5)=p(x1) / p(x2|x1) p(x3|x1) p(x4 | x2x3) p(x5 | x3)

De uma forma geral, a distribuio conjunta de X dada por:


Equao 2

direcionado

calculadas Em que Xi um possvel valor da varivel aleatria X pai o conjunto de pais da varivel Xi. Por exemplo, na Figura 1, PA4={X2, X3}. O termo p(Xi | PAi) probabilidade condicional de Xi, dados os valores das variveis contidas no conjunto PAi. Aprendizado em Grficos Probabilsticos A construo de modelos grficos probabilidade. et al, 1997].

distribuies Este

problema NP completo, [Cheng

Para caracterizar esse enfoque de aprendizagem [TEIXEIRA, W. S. & LADEIRA M, 2002] relataram dois paradigmas: A independncia condicional que busca uma rede que melhor represente a distribuio conjunta subjacente amostra aleatria. Nessa rede deve representar de todas as e na assertivas dependncia presentes

probabilsticos feita tipicamente por um especialista no domnio do problema que se est tentando modelar. sobre o Quanto mais o conhecimento problema

especialista possuir, mais acurado ser o modelo. Entretanto, dependendo da natureza desse problema, tal processo pode ser difcil e demorado ou o especialista pode no estar disponvel. Dessa forma, nos ltimos anos tm sido utilizadas tcnicas automticas que geram o modelo a partir de dados numricos que representam amostras ou exemplos do problema. Quanto mais informao sobre o

independncia

distribuio conjunta induzida pela amostra, e busca e pontuao, que consiste na escolha de uma mtrica para pontuar a aderncia de cada rede aos dados e de um algoritmo para selecionar, dentre as redes possveis do espao de busca, aquelas mais promissoras.

Universidade Estadual do Cear (UECE) Pr-Reitoria de Ps-Graduao e Pesquisa ( PROP GPG ) Instituto Federal de Cincia de Tecnologia do Cear (IFCE-CE) Diretoria de Pesquisa e Ps-Graduao ( D I PPG)

Nessa figura a influncia causal Redes Bayesianas As Redes bayesianas so grafos acclicos dirigidos que representam dependncias entre variveis em um modelo probabilstico. Esta abordagem representa uma boa estratgia para lidar com problemas que tratam incertezas, onde concluses no podem ser construdas apenas do conhecimento prvio a respeito do problema. da varivel Fraude (Carto Fraudado), Idade e Sexo sobre compras de Gasolina e Jias, foram estabelecidos. O conjunto de variveis X={Fraude, Idade, Sexo, Gasolina, Jias} retrata as variveis do modelo; as elipses representam tanto os ns da rede quanto as variveis do conjunto X; os arcos e so do representam os o relacionamento causal entre as variveis; numricos condicionais
Figura 2 Rede Bayesiana [TEIXEIRA & LADEIRA, 2002]

parmetros representados modelo. A

pelas distribuies marginais ou distribuio conjunta das variveis do modelo pode ser expressa por P(Fraude, Na viso de [TEIXEIRA & LADEIRA, 2002] existem dois componentes principais em uma rede Bayesiana, uma estrutura, S, que define relacionamento qualitativo causal entre os ns; e, parmetros numricos, que quantificam a relao probabilstica causal entre os ns da estrutura. Demonstrado na figura 2, sendo um exemplo fictcio e improvvel, mas que ilustra bem a abordagem conceito acima. Idade, Sexo, Gasolina,Jias)=P(Fraude).P(Idad e).P(Sexo).P(Gasolina/Fraude).P( Jias/Fraude,Idade, Sexo). Lembrando que Fraude influencia a compra de Gasolina, e que Fraude, Idade e Sexo, a conjuntamente, compra de Jias. influenciam

Universidade Estadual do Cear (UECE) Pr-Reitoria de Ps-Graduao e Pesquisa ( PROP GPG ) Instituto Federal de Cincia de Tecnologia do Cear (IFCE-CE) Diretoria de Pesquisa e Ps-Graduao ( D I PPG)

Assim a rede bayesiana representa uma distribuio conjunta de probabilidade, P, sobre um conjunto de variveis aleatrias x ={x1, x2,..., xn}. Uma rede bayesiana para X como tendo uma estrutura S que codifica as assertivas de independncia condicional sobre as variveis em X;. A decomposio em produtos da distribuio de probabilidade conjunta para X adquire a seguinte forma, quando o modelo utilizado uma rede bayesiana.
Equao 3

condio a aplicar sobre um atributo, sendo a classificao dos exemplos realizada com base num progresso recursivo de na navegao descendente

rvore, terminando quando se atinge na folha, onde esta inscrita o valor da classe. Quando o atributo a testar num dado nodo nominal, comum que cada um dos ramos saem desse nodo corresponda a um dos valores possveis para o atributo. Por outro lado, em caso de atributos numricos, as condies tomam tipicamente a forma de

Note que a Equao 3 um caso particular da Equao 2, levando em considerao a natureza discreta das variveis.

desigualdade (e.g. < ou >) ou de pertena a intervalos de valores. Uma rvore de uma deciso srie de que

essencialmente rvore de Deciso A rvore de deciso uma maneira grfica de visualizar as consequncias de decises atuais e futuras bem como os eventos aleatrios relacionados, permitindo a contextualizao e o controle de um grande nmero de problemas. Atravs de algoritmos de classificao, sempre representando o conhecimento, assim tornando um meio eficiente de construir classificadores que predizem ou revelam classes ou informaes teis baseadas nos valores de atributos de um conjunto de dados. Para [ROCHA & CORTEZ, 2008] cada nodo representa uma declaraes

Se-Ento,

quando aplicados a um registro de uma base de dados, resultam na classificao daquele registro. O mais interessante sobre utilizao de rvores de deciso atravs de programas, no a sua construo e de o a sim partir a de sua classificao de um conjunto de treinamento, habilidade Quando aprendizado. treinamento

finalizado, possvel alimentar sua rvore de deciso construda

Universidade Estadual do Cear (UECE) Pr-Reitoria de Ps-Graduao e Pesquisa ( PROP GPG ) Instituto Federal de Cincia de Tecnologia do Cear (IFCE-CE) Diretoria de Pesquisa e Ps-Graduao ( D I PPG)

a partir de exemplos com novos casos a fim de classific-los. uma das estruturas de dados mais fcies de entender com uma boa representao grfica. A figura 3, ilustra um exemplo de rvore de deciso.

dependentes

independentes

em bases de dados rotuladas. Com objetivo de aferir qual a porcentagem produtos de compras em de um realizados

determinado fornecedor do tipo atacado e varejo, com ou sem urgncia, verificamos na empresa Alpha no perodo de um ms, a
Figura 3: Exemplo de uma rvore de deciso

seguinte arvore de deciso para ilustrar o conceito da rvore.


1 9% 1 . 1 a ta c a d o R $ 0,00 FA LS E 1 c o m u r g n c ia R $ 0 ,0 0 R $ 0 ,0 0 1 1% R $ 0,00 11 % 0 % 1.2.1 p re o b o m R $ 0 ,0 0 R $ 0 ,0 0 R $ 0 ,0 0 89 % 0 % 1 . 2 . 2 p r e o r u im R $ 0 ,0 0 R $ 0 ,0 0 59 % 3 5% 2.1.1 p re o b o m R $ 0 ,0 0 R $ 0 ,0 0 R $ 0 ,0 0 41 % 2 4% 2 . 1 . 2 p r e o r u im R $ 0 ,0 0 R $ 0 ,0 0 71 % 2 9% 2.2.1 p re o b o m R $ 0 ,0 0 R $ 0 ,0 0 R $ 0 ,0 0 29 % 1 2% 2 . 2 . 2 p r e o r u im R $ 0 ,0 0 R $ 0 ,0 0 19 % 0 % 1.1.1 p re o b o m R $ 0 ,0 0 R $ 0 ,0 0 R $ 0 ,0 0 81 % 0 % 1 . 1 . 2 p r e o r u im R $ 0 ,0 0 R $ 0 ,0 0

Numa rvore de deciso os ns de deciso so geralmente representados por quadrados, enquanto que os ns de chance so os ns de probabilidade e custo que somados indicam a medida de utilidade da deciso associada a eles. A deciso tomada ento em relao ao caminho, partindo do n raiz, que melhor caracteriza a soluo do problema, dentro das possibilidades indicadas. Para [Zuben & Romis, 2007], essa deciso o resultado os do uso de modelos paradigmas computacionais de classificao geralmente empregando alternativos: Top-down: obteno do modelo classificao a partir de informaes fornecidas por especialistas; Bottom-up: obteno classificao relacionamentos pela do modelo de de de seguintes
C o m p r a d e P r o d u to R $ 0 ,0 0

1 . 2 v a r e jo

4 1% 2 . 1 a ta c a d o R $ 0,00 TR UE 2 s e m u r g n c ia R $ 0 ,0 0 R $ 0 ,0 0 2 9% R $ 0,00

2 . 2 v a r e jo

Figura 4 rvore de Deciso

Tipos de Classificao A estrutura composta por uma folha, indicando uma classe; um n de deciso que especfica um teste a ser realizado no valor de um atributo, com um galho, para cada resposta possvel do teste, que levar para um sub-rvore ou uma folha. Assim em uma rvore de deciso a classificao de um caso se inicia pela raiz da rvore, e esta rvore percorrida at que se chegue a uma folha. Em cada

identificao entre

variveis

Universidade Estadual do Cear (UECE) Pr-Reitoria de Ps-Graduao e Pesquisa ( PROP GPG ) Instituto Federal de Cincia de Tecnologia do Cear (IFCE-CE) Diretoria de Pesquisa e Ps-Graduao ( D I PPG)

n de deciso ser feito um teste que ir direcionar o caso para uma sub-rvore. Este processo ir guiar-se para uma folha. Vejamos a seguir algumas tcnicas utilizadas na construo de classificadores.

seus

diferentes

graus

de

similaridade.

2.
de

Baseados unidades

em

Redes por

Neurais: Uma rede neural consiste conectadas ligaes. Existem trs tipos de unidades: as unidades por onde os dados so introduzidos; as unidades que fornecem os resultados, que so as unidade de sada; e todas as outras unidades, que ficam "escondidas" Cada com ligao um peso do e ambiente. associada

1.

Baseados por Instncia: Para realizar

a classificao de um caso, este algoritmo busca por casos similares cuja classe conhecida. As questes centrais nos sistemas baseados por instncia so:

a.

Quais casos de treinamento deveriam

ser lembrados? Como salvar todos o casos no seria algo coletvel, pois acabaria tornando o sistema lento. O ideal seria manter apenas os casos mais importantes. Descrever estratgias para decidir quando um novo caso deve ser retido.

algumas unidades possuem um valor que aparece embaixo da unidade, as chamado de bias. entrada Para so processar um caso, primeiramente

b.

Como a similaridade entre casos pode

unidades

ser medida? Se todos os atributos fossem contnuos, seria possvel calcular a distncia entre dois casos pela num eixo cartesiano Para buscando sua similaridade.

designadas por nmeros entre 0 e 1, representando o valor dos atributos. A entrada de cada unidade I determinada pela soma dos produtos entre o peso das sadas a das ela unidades pelo das conectadas

atributos no contnuos a literatura descreve um mtodo de escalonamento de atributos que ajuda a interpretao da distncia ser menos problemtica, tornando a medida de distncia mais robusta. c. Como deveria um novo caso ser com casos relembrados? relacionado

ligaes, mais o bias da unidade I, e a sada determinada pela formula 1/(e-I+1), cujo valor ir variar entre 0 e 1. Por exemplo, se uma unidade A tinha o valor 0, enquanto uma unidade B o valor 1, a entrada de uma unidade C

Existem duas alternativas, usar o caso relembrado mais similar, ou usar alguns casos similares com predies pesadas por

Universidade Estadual do Cear (UECE) Pr-Reitoria de Ps-Graduao e Pesquisa ( PROP GPG ) Instituto Federal de Cincia de Tecnologia do Cear (IFCE-CE) Diretoria de Pesquisa e Ps-Graduao ( D I PPG)

seria 0x5.7 + 1x5.7 + (-2.2) = 3.5 e a sada seria 0.97.

Durante

treinamento, dos

desempenho

elementos

sofrem alteraes para manter as

3.

Baseados em Algoritmos Genticos:

predies corretas e/ou penalizar erros. Toda a populao passa por um estgio onde os elementos mais fracos morrem e novos elementos so criados. Durante este processo ocorrem mutaes aleatrias, que se caracterizam por alteraes no taxon dos elementos, e unies, nas quais dois elementos se combinam, formando um novo elemento cujo taxon provido parcialmente por cada um dos pais. CONCLUSO Neste analisar trabalho, na procuramos existente

Outro formalismo de classificao derivado de um revolucionrio modelo de aprendizado. Um classificador gentico consiste de uma populao de elementos classificadores que competem para fazer prdies. Elementos que no apresentam um bom desempenho so descartados enquanto que os que fazem boas predies se proliferam produzindo variantes deles mesmos. Uma forma simples de classificador gentico para atributos discretos descrita como que cada elemento consistisse de um taxon especificando, para cada atributo, um valor particular que precisa ser igualado por um caso, ou um "dont care"; uma classe j descrita; e um complemento para classificar um caso, cada elemento inspecionado para determinar se o caso se iguala a ele, tendo os valores requeridos por todos os atributos. Ento, um dos elementos que se igualou ao caso selecionado aleatoriamente, mas com a probabilidade proporcional com a fora do elemento, e o elemento determinado prediz a classe a qual o caso pertence.

literatura

entre artigos, livros e publicaes em sites na internet, conceitos sobre rvores grafos de probabilsticos deciso e sem

detalhamento de suas aplicaes. Os mtodos apresentados podem ser usados em exemplos prticos em diversas reas. Referncias

Figura 5 Rede Neural

[1] BASGALUPP, M.P. LEGAL-

Universidade Estadual do Cear (UECE) Pr-Reitoria de Ps-Graduao e Pesquisa ( PROP GPG ) Instituto Federal de Cincia de Tecnologia do Cear (IFCE-CE) Diretoria de Pesquisa e Ps-Graduao ( D I PPG)

Tree: Um

algoritmo gentico multi-objetivo

AI Game programming wisdom 2. Charles River Media, 2004. [9] PALAZZO JR., R. Notas de Aula do Curso de EE088 Transmisso Dados,

lexicogrfico para induo de rvores de deciso. Tese de Doutorado, ICMC-USP, So Carlos, 2010. [2] FREUND, Y. & MASON, L. The alternating decision tree learning algorithm. In Proc. 16th International Conf. on Machine Learning. Morgan Kaufmann, San Francisco, CA, 1999. [3] FONSECA, J. M. Induo de rvores de Deciso: algoritmo HistClass no Proposta de um de paramtrico. Tese

FEEC/Unicamp, 1998. [10] ROCHA & CORTEZ. Anlise Inteligente de Dados - Algoritmos e Implementao em Java. FCA. 2008. [11] SATO, T. Probabilistic Graph Model, 2009. [12] TEIXEIRA, W. S. & LADEIRA M, Minerao de dados em redes bayesianas. Simpsio Brasileiro de Computao

Doutorado. Departamento de Informtica. Universidade Nova de Lisboa. Lisboa, 1994 [4] J. Cheng e D. Bell. Learning bayesian networks from data: An efficient approach based on information theory. In Proceeding of the sixth ACM International Conference on Information and Knowledge Management.1997.http://citeseerx.ist.psu.ed u/viewdoc/download? doi=10.1.1.67.5958&rep=rep1&type=pdf [5] NORVIG, P; RUSSELL, S. Inteligncia Artificial. 2. ed. So Paulo. Campus, 2003. [6] RESENDE, S. O. Org. Sistemas Inteligentes: fundamentos e aplicaes. So Paulo. Manole. [7] OCHOA, J.E.L, Algoritmos EM para Aprendizagem de Redes Bayesianas a partir de Dados Incompletos. Dissertao de Mestrado, DCT-UFMS, 2004. [8] Ryan Houlette, Dan Fu. Construction a Decision Tree Based on Past Experience. In:

Florianopolis/SC, 2002. [13]UFFE B. Kjaerulff & ANDERS L. Madsen. Bayesian Networks and Influence Diagrams - A Guide to Construction and Analysis. Springer. 2008. [14] Zuben, F.J. Von & Romis R. F. Attux. Notas de Aula do curso IA004 Teoria e de Deciso Estatstica Classificadores,

DCA/FEEC/Unicamp, 2007.