Topico4 1s10

IA004 - Profs. Fernando J. Von Zuben & Romis R. F.
Attux DCA/FEEC/Unicamp
Teoria de Deciso Estatstica e Classificadores

ndice
1 2 DECISO E TESTE DE HIPTESES: CONSIDERAES INICIAIS ...................................................................................................................... 2 ABORDAGEM BAYESIANA ........................................................................................................................................................................ 4 2.1 2.2 3 O CASO PARTICULAR DE DUAS CLASSES ............................................................................................................................................................ 7 PROBABILIDADE A POSTERIORI, REGRA DE BAYES E RAZO DE VEROSSIMILHANA ................................................................................................... 10
MXIMA PROBABILIDADE A POSTERIORI, MNIMA PROBABILIDADE DE ERRO E MXIMA VEROSSIMILHANA ....................................... 16 3.1 3.2 3.3 CRITRIO DE MXIMA PROBABILIDADE A POSTERIORI (MAP) ............................................................................................................................. 16 CRITRIO DE MNIMA PROBABILIDADE DE ERRO ............................................................................................................................................... 18 CRITRIO DE MXIMA VEROSSIMILHANA (MV) .............................................................................................................................................. 20
4 5
CLASSIFICADORES .................................................................................................................................................................................. 22 EXEMPLOS ............................................................................................................................................................................................. 29 5.1 5.2 5.3 CASO GAUSSIANO E UNIDIMENSIONAL ........................................................................................................................................................... 30 CASO E GAUSSIANO MULTIDIMENSIONAL ....................................................................................................................................................... 34 CASO NO-GAUSSIANO............................................................................................................................................................................... 37
REFERNCIAS ......................................................................................................................................................................................... 40
Tpico 4 Teoria de Deciso e Classificadores
IA004 - Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp
1 Deciso e Teste de Hipteses: Consideraes Iniciais

Muitos problemas em que so empregados mtodos de aprendizado de mquina podem ser descritos da seguinte forma: supondo a existncia de dados e classes de dados, como associar cada dado classe a que pertence? Esse problema, que se vincula claramente idia de classificao de padres, tambm pode ser visto como um problema de deciso entre vrias hipteses. Do ponto de vista da teoria de deciso estatstica, essas hipteses podem ser simplesmente do tipo o dado x pertence classe Ci. Essa idia to simples e direta abrange uma vasta gama de casos prticos, dentre os quais poderamos, sem muito esforo, apontar os seguintes: o Dada uma imagem mdica, ela indica ou no a existncia de uma determinada doena?
o A partir de um pulso de radar recebido, posso concluir ou no que h um avio nas proximidades de um aeroporto? o Tomando a verso digitalizada de uma assinatura, podemos ou no considerar que ela pertence ao titular da conta corrente? o Uma foto tirada corresponde ou no imagem de um usurio autorizado? o Um sinal digital recebido traz, num certo instante de tempo, informao correspondente a um bit 0 ou a um bit 1? Passaremos a seguir por algumas formulaes que permitem o tratamento do problema de deciso estatstica sob diferentes prismas. Mostraremos, por exemplo, como obter a mnima probabilidade de erro ou adotar a hiptese mais verossmil. Vale destacar que recorreremos constantemente, ao longo do tpico, aos elementos de teoria de probabilidade vistos no tpico anterior.
2 Abordagem Bayesiana
A abordagem bayesiana, de certa forma, a mais relevante de todas as metodologias que veremos neste tpico, uma vez que todas, de alguma forma, sero a ela vinculadas. Isso j indica duas caractersticas notveis do arcabouo de Bayes: solidez e generalidade. Suponhamos a existncia de N hipteses ou categorias ou classes Ci subjacentes a nosso problema. Suponhamos ainda que haja um conjunto de M possveis aes j a serem tomadas [Duda et al., 2001]. Em muitos casos, M = N, j que as aes correspondero simplesmente a opes por uma das classes (e.g. 2 decida pela classe C2) diante de um dado recebido (em geral, alis, trabalharemos assim ao longo do curso). Entretanto, isso no precisa ser necessariamente verdade.
Suponhamos agora que, sabendo da existncia dessas classes, recebamos um dado x para analisar. Tendo em vista o que discutimos no tpico anterior, poderamos construir o seguinte raciocnio: dado o vetor recebido x, qual a classe / hiptese / categoria que tem a maior chance de t-lo gerado? Em outras palavras, uma vez que x tenha sido recebido, qual classe se torna uma escolha interessante em termos da probabilidade P(Ci / x), com i = 1, ..., N? Essa idia pode ainda ser estendida da seguinte forma: dada uma ao adotada j, sendo vlida a classe Ci, qual ser o custo associado deciso? Isso define uma ponderao do tipo (j / Ci), ponderao esta que pode ser ento combinada com a j mencionada probabilidade P(Ci / x), originando uma medida qual podemos dar o nome de custo mdio ou risco condicional [Duda et al., 2001]:
R ( j / x) = ( j / Ci )P(Ci / x)
N i =1
Pode-se destarte definir o seguinte problema: encontre, dentre as M possveis aes, aquela que minimiza o custo mdio. Essa ao ser a escolhida, o que conclui a tarefa de deciso. Caso as aes sejam do tipo j escolha a classe Cj, temos, para cada dado recebido x, uma metodologia sistemtica para classificao. Note que dispomos da flexibilidade de escolher as ponderaes para penalizar mais ou menos determinados erros ou valorizar mais ou menos determinados acertos. Por exemplo, suponha que tenhamos duas hipteses e que as aes sejam simplesmente escolhas dessas hipteses. Podemos fazer (1 / C1) =
(2 / C2) = 0, indicando que os acertos no so penalizados, e fazer
(1 / C2) = (2 / C1) = 1, indicando que os dois possveis erros so

penalizados igualmente. Note que, por exemplo, (2 / C1) significa, nesse caso especfico, o custo associado escolha da classe C2 quando C1 a classe correta. 2.1 O Caso Particular de Duas Classes A parte mais rdua de nossa empreitada j foi superada: obtivemos nada menos que a base de uma metodologia bayesiana de deciso (i.e. de escolha de uma ao tima) para qualquer nmero de classes! Apesar de termos lidado com um valor genrico de N, vale a pena analisar um caso simples, mas representativo: o que emerge quando N = 2, ou seja, o caso em que h apenas duas classes. Suporemos que haver apenas duas aes (M = 2), cada uma associada opo por uma das duas classes.
Nesse caso, podemos escrever as duas possveis expresses para o risco condicional da seguinte maneira: R(1/x) = (1/C1)P(C1/x) + (1/C2)P(C2/x) R(2/x) = (2/C1)P(C1/x) + (2/C2)P(C2/x)
(1)
(2)
A questo crucial, do ponto de vista bayesiano, saber: recebido o dado x, qual escolha leva ao menor risco, 1 (que significa opo pela classe C1) ou
2 (que significa opo pela classe C2)? Se pudermos calcular R(1/x) e

R(2/x), o processo de deciso bastante direto, sendo suficiente verificar se R(1/x) < R(2/x) ou se R(2/x) < R(1/x). Alis, se houver igualdade, as
duas aes so equivalentes, podendo, eventualmente, haver algum critrio externo de desempate. Vamos analisar o primeiro caso R(1/x) < R(2/x) que implica opo por
1. Usando as equaes dadas acima, chegamos a:

(1/C1)P(C1/x) + (1/C2)P(C2/x) < (2/C1)P(C1/x) + (2/C2)P(C2/x) (3) Manipulando a expresso, podemos afirmar que a ao 1 ser a preferida se: [(2/C1) - (1/C1)] P(C1/x) > [(1/C2) - (2/C2)]P(C2/x)
(4)
No preciso ter grandes preocupaes com sinais negativos na desigualdade acima, pois, em geral, os custos associados a erros so maiores que os associados a acertos.
2.2 Probabilidade a Posteriori, Regra de Bayes e Razo de Verossimilhana Notemos um fato interessante: a metodologia de Bayes totalmente baseada em probabilidades a posteriori, ou seja, na probabilidade de uma hiptese (ou classe) ser vlida condicionalmente ao recebimento do dado x. Para aplicar a regra, preciso, naturalmente, conhecer essas probabilidades, o que nos leva a indagar o quo factvel isso. Para que compreendamos melhor esse ponto, pensemos no outro lado da moeda, ou seja, numa probabilidade do tipo p(x/Ci), ou seja, numa medida que nos informe a probabilidade associada a x dado que ele pertence classe Ci, ou seja, dado que vigora a hiptese Ci. Essa medida, que visitaremos inmeras vezes ao longo do curso, recebe o nome de verossimilhana. Trabalhar com a verossimilhana pode no ser necessariamente simples, mas , de certa forma, mais direto. Imaginemos, por exemplo, um dos casos
10
prticos mencionados no incio do tpico: parece plausvel assumir que a estrutura de probabilidade de imagens associadas a pacientes doentes ter um determinado carter e a estrutura probabilstica de imagens associadas a pacientes saudveis ter um carter distinto. Podemos ainda pensar que uma amostra de sinal associada a um bit 1 tem uma estrutura probabilstica distinta da de uma amostra associada a um bit 0. Naturalmente, desejaramos conhecer, de alguma forma, essa estrutura, e tal desejo pode ser vivel se chegarmos a um modelamento probabilstico coerente com cada classe. Poderamos trabalhar no sentido de obter um modelo para imagens mdicas de indivduos saudveis e lidar tambm com a busca por propriedades estatsticas peculiares a imagens associadas a indivduos doentes, por exemplo. Se os dados assumem valores contnuos, todo o tratamento estatstico deve gravitar em torno da idia de densidade de probabilidade, enquanto, se os
11
dados assumirem valores discretos, ser preciso lidar com a idia de massa de probabilidade. Apesar dessa diferena, o esprito do tratamento o mesmo, de modo que julgamos que o leitor estar apto a lidar com ambos os casos. Revise, alis, os conceitos pertinentes, com a ajuda do tpico anterior, antes de seguir adiante. Em nossa explicao, vamos supor, a menos que se mencione o contrrio, que os dados so definidos por valores contnuos. Usando a regra de Bayes, podemos reescrever P(Ci/x) da seguinte maneira:
P (C i / x ) =
p ( x / C i ) P (C i ) p( x)
(5)
12
A hiptese de que no possvel que um dado pertena a mais de uma classe e a definio de probabilidade condicional nos permitem escrever p(x) - que recebe o nome de evidncia - como:
p( x) =
p( x / C ) P (C )
i =1 i i
(6)
Analisando (5) e (6), vemos que, para obter probabilidades a posteriori, e, conseqentemente, o custo mdio (ou risco condicional), precisamos conhecer duas grandezas alm das ponderaes: as densidades de probabilidade p(x/Ci), que, como vimos, so medidas de verossimilhana, e as probabilidades a priori P(Ci). Buscando uma viso mais conceitual, precisamos saber como o carter estatstico dos dados gerados por cada classe e tambm quo freqente a ocorrncia de cada classe. Com isso, podemos voltar
13
tranqilamente ao j conhecido critrio de Bayes e tomar as decises requeridas. Se revisitarmos (4) munidos de (5) e (6), chegaremos a um resultado interessante para o estudo de deciso bayesiana quando h duas classes. Como, tanto para o clculo de P(C1/x) quanto para o clculo de P(C2/x), p(x), dado em (6), levar mesma expresso, podemos reescrever (4), usando (5), como: [(2/C1) - (1/C1)] P(x/C1)P(C1) > [(1/C2) - (2/C2)]P(x/C2)P(C2) (7) Manipulando (7), percebemos que a regra de deciso bayesiana ser, para o caso de escolha da classe C1:
14
p( x / C1 ) (12 22 )P(C 2 ) > p( x / C 2 ) (21 11 )P(C1 )
(8)
Observe que, na expresso, usamos a notao menos carregada ji para indicar (j/Ci). Detenhamo-nos um pouco nas informaes trazidas por (8). Primeiramente, perceba que, se o sinal > for trocado por < , teremos simplesmente a regra de deciso em favor da classe C2. Perceba ainda que o primeiro membro da desigualdade composto de uma razo de densidades de probabilidade condicionais. Essa razo recebe o nome de razo de verossimilhana [Van Trees, 2001], e constitui um ente estatstico da maior relevncia para a teoria de deciso. Esse ente quantifica, basicamente, o grau comparativo de verossimilhana associado escolha entre classes. Em outras palavras, com o valor de x nas mos, qual a proporo entre os valores de verossimilhana sob as hipteses C1 e C2? O segundo membro, que ser um
15
valor fixo para a anlise de todos os dados x que forem tratados, corresponde, por sua vez, a uma espcie de limiar de deciso. muito importante que tudo isso fique plenamente claro.
3 Mxima Probabilidade a Posteriori, Mnima Probabilidade de Erro e Mxima Verossimilhana

Terminada essa fase de exposio inicial, passemos anlise de alguns critrios de deciso mais especficos.
3.1 Critrio de Mxima Probabilidade a Posteriori (MAP) Para ilustrar a que corresponde o critrio de mxima probabilidade a posteriori (MAP), voltemos ao caso de duas classes (N = M =2) e equao (4), que reproduziremos por uma questo de comodidade:
16
[(2/C1) - (1/C1)] P(C1/x) > [(1/C2) - (2/C2)]P(C2/x)
(4)
Se supusermos que (2/C1) - (1/C1) = (1/C2) - (2/C2) [Palazzo, 1998] veremos que o critrio se resume comparao entre P(C1/x) e P(C2/x): se P(C1/x) > P(C2/x), ento optamos pela classe C1, e, se P(C1/x) < P(C2/x), optamos pela classe C2. A dinmica muito simples: ao ser recebido um dado x, verifica-se qual hiptese mais provvel dado que x foi recebido e opta-se por essa hiptese. O nome de critrio de mxima probabilidade a posteriori vem exatamente do uso de probabilidades do tipo P(Ci/x). Note que tambm possvel formular o critrio MAP em termos de uma razo de verossimilhana: basta usar a condio (2/C1) - (1/C1) = (1/C2) -
(2/C2) em (8). Isso leva ao seguinte teste:
17
p( x / C1 ) p( x / C 2 )
>
P (C 2 ) P (C 1 )
(9)
Observe que, agora, o limiar de deciso depende apenas das probabilidades a priori das classes. Gostaramos de enfatizar que a filosofia do critrio MAP vale para qualquer nmero de classes, sendo o critrio de deciso equivalente busca pela classe que maximiza as probabilidades a posteriori P(Ci/x).
3.2 Critrio de Mnima Probabilidade de Erro Tentemos agora outra abordagem: trataremos as ponderaes (j/Ci) como sendo iguais a zero se i = j (acertos no geram custo) e como sendo iguais a
18
um se i j (erros geram custo unitrio). Nesse caso, podemos escrever o custo mdio associado a uma ao j assim [Duda et al., 2001]:
R ( j / x ) = P(Ci / x)
i j
(10)
Uma vez que cada dado x pertence a uma nica classe, vemos que a expresso acima equivale a:
R(j/x) = 1 P(Cj/x)
(11)
Isso significa que o custo mdio associado a cada possvel ao corresponde probabilidade de erro associada mesma. Em outras palavras, ao buscarmos a ao que minimiza o custo mdio, estaremos, se a escolha das ponderaes for
19
feita no esquema binrio visto acima, buscando a ao que torna mnima a probabilidade de erro de deciso. Isso revela a relao entre o critrio de Bayes e o critrio de mnima probabilidade de erro e tambm entre este e o critrio MAP, j que a minimizao mostrada em (11) equivale a uma maximizao da probabilidade a posteriori. 3.3 Critrio de Mxima Verossimilhana (MV) Finalmente, precisamos falar sobre outro critrio de deciso que corresponde a um caso particular da abordagem de Bayes. Comecemos do didtico caso binrio que temos seguidamente abordado (embora, como dito vrias vezes, as filosofias das metodologias aqui vistas no estejam absolutamente restritas a esse caso). Voltemos expresso (9), reproduzida a seguir por convenincia:
20
p( x / C1 ) p( x / C 2 )
>
P (C 2 )
P (C1 ) (9)
Se, porventura, fizermos com que P(C2) seja igual a P(C1) (classes equiprovveis), ento a comparao acima corresponder apenas trazida pela desigualdade p(x/C1) > p(x/C2). Em outras palavras, tendo um dado x em mos, buscaremos verificar qual das classes maximiza a medida de verossimilhana genrica p(x/Ci). A tomada de deciso exclusivamente por meio da probabilidade condicional que define a medida de verossimilhana d origem a um dos mais clssicos critrios de deciso, o de mxima verossimilhana (MV). Em ingls, esse critrio recebe o nome de maximum likelihood (ML) criterion. Vimos que o critrio MV surge como um caso particular do critrio MAP quando as probabilidades a priori so iguais, mas, na prtica, o critrio tem
21
vida prpria. Isso ocorre, por exemplo, quando essas probabilidades, mesmo que no sejam necessariamente iguais, so desconhecidas. Quando h esse desconhecimento, pode-se usar o critrio MV como uma verso subtima, mas eventualmente mais tratvel, da metodologia de Bayes.
4 Classificadores
Ao longo de nosso curso, falamos de classificadores muitas vezes, e, de fato, as idias de deciso e classificao esto intimamente relacionadas, como este tpico, alis, vem indicando. Um ponto interessante que a abordagem bayesiana vista acima pode ser interpretada em termos da estrutura de uma mquina capaz de classificar padres, ou seja, de um classificador. Classificadores no so temas novos em nosso curso, mas as abordagens neurais vistas at agora (com exceo das redes construtivas) lidaram com o uso de estruturas definidas a priori que eram ajustadas por meio dos dados,
22
usando, principalmente, a mtrica de erro quadrtico mdio. A abordagem de Bayes vista acima vincula a construo de um classificador timo ao conhecimento da estrutura estatstica dos dados, o que deveras rico, mas, em alguns casos, pode ser invivel. Portanto, apesar de as formulaes aqui apresentadas serem timas em alguns sentidos estatsticos, elas no invalidam outras abordagens de aprendizado de mquina, como redes neurais e mquinas de vetores-suporte. H, at mesmo, uma certa complementaridade entre metodologias. Se nos ativermos ao arcabouo genrico de Bayes, podemos conceber um classificador conforme o esquema da Fig. 1 [Duda et al., 2001]. Na abordagem de Bayes, as funes F1(x), F2(x), ..., FN(x) podem ser os valores de custo mdio para cada possvel ao caso se deseje lidar com um processo final de deciso baseado na idia de mnimo ou, ainda, o negativo desses valores caso o mdulo final de deciso seja baseado num
23
operador do tipo mximo. Conseqentemente, Fi(x) pode ser igual a R(i/x) ou a R(i/x). Naturalmente, a estrutura se mantm para os critrios MAP e MV, bastando adotar a funes que equivalham probabilidade a posteriori ou verossimilhana e um mdulo de deciso condizente com a necessidade de maximizao.
24
Figura 1: Esquema de um Classificador Bayesiano Um ponto interessante que a atuao conjunta das funes Fi(x) e do mdulo de deciso faz com que o espao dos dados seja dividido em regies associadas a diferentes classes [Palazzo, 1998]. Em outras palavras, possvel
25
pensar em N regies, cada uma das quais congrega dados que so tomados como pertencentes a uma das possveis classes. Naturalmente, o desempenho do classificador depende do quanto essas regies so fiis prpria estrutura dos dados, ou seja, do quanto elas so bem-sucedidas em rotular adequadamente cada vetor x. Muitas vezes impossvel, mesmo com um classificador timo, obter 100% de desempenho de classificao: isso ocorre, por exemplo, quando um dado tem o potencial de pertencer a vrias classes. Num caso desse tipo, o classificador certamente atribuir esse dado sempre a uma determinada classe, mas existir sempre a chance de que ele cometa um equvoco nesse processo. Em comunicaes, isso acontece tipicamente na presena de rudo ou outros tipos de distoro no processo de envio de dados do transmissor ao receptor, fazendo com que comunicao absolutamente perfeita seja, em ltima anlise, uma impossibilidade.
26
A existncia de diversas regies de deciso d origem a fronteiras de deciso cujas caractersticas so cruciais para o desempenho da mquina de classificao. Teremos mais a dizer sobre isso em captulos subseqentes, mas importante que o conceito fique plenamente claro. Na Fig. 2, apresentamos um exemplo em que esto definidas regies e fronteiras de deciso para um contexto em que os dados so vetores bidimensionais e h trs classes. As fronteiras do exemplo so lineares apenas para facilitar a visualizao, mas poderiam perfeitamente ser curvas no-lineares. A discusso terica anterior ainda nos permitiu vislumbrar um fato interessante: o projeto de um classificador de Bayes nos permite a realizao de uma anlise de custo mdio ou, eventualmente, de probabilidade de erro. Isso significa que a riqueza estatstica presente nas densidades de probabilidade requeridas tambm serve para trazer subsdios para uma anlise ou para uma previso de desempenho. Essa anlise pode ser, no entanto,
27
complexa do ponto de vista computacional, pois necessrio calcular integrais de probabilidade em diferentes regies, seja em busca das diversas possibilidades de erro, seja em busca do complemento da probabilidade de acerto.
Figura 2: Exemplo com Regies e Fronteiras de Deciso

28
Em termos simples, a probabilidade de fazer uma deciso correta corresponde soma de probabilidades do tipo o dado pertence regio destinada pela mquina classe Ci e realmente pertence classe Ci. Com isso, chega-se a uma soma (em todas as classes) de integrais [Duda et al., 2001]:
PCORRETA = P(x R i / Ci )P(C1 ) = p(x / Ci )P(Ci )

i =1 i =1 R i
(10)
5 Exemplos
Nesta seo, vamos aplicar a metodologia vista acima para obter a metodologia de deciso tima em alguns cenrios.
29
5.1 Caso Gaussiano e Unidimensional Suponhamos, primeiramente, um caso em que os dados so valores reais pertencentes a duas classes, C1 e C2. Imaginemos ainda que os dados pertencentes classe C1 obedecem a uma densidade gaussiana com mdia igual a -1 e varincia unitria, e que os dados da classe C2 obedecem a uma densidade gaussiana de mdia igual a +1 e varincia unitria. Assumamos ainda que P(C1) = 0.8 e P(C2) = 0.2. Do enunciado acima, percebemos que p(x/C1) ~ N(-1,1), sendo N(,2) uma pdf gaussiana de mdia e varincia 2, e que p(x/C2) ~ N(+1,1). Se considerarmos as ponderaes que levam metodologia MAP ou metodologia de mnima probabilidade de erro, teremos de fazer uma comparao, para cada dado x, entre 0.8p(x/C1) e 0.2p(x/C2). Na Fig. 3, apresentamos ambas as densidades.
30
Figura 3: Densidades Ponderadas para Deciso MAP A partir da figura, temos que a metodologia de deciso MAP / Mnima Probabilidade de Erro faz com que optemos pela classe C1 se x for menor que 0.693 e que optemos pela classe C2 se x for maior que esse limiar.
31
Se trabalharmos com a metodologia de mxima verossimilhana, no levaremos em conta as probabilidades a priori, o que faz com que a fronteira de deciso dependa apenas da comparao entre p(x/C1) e p(x/C2). A Fig. 4 apresenta ambas as pdfs.
Figura 4: Densidades para Deciso MV
32
Da figura, percebe-se claramente que valores de x positivos levam opo pela classe C2 e que valores de x negativos levam opo pela classe C1. O valor x = 0 est localizado na fronteira, e, portanto, neutro do ponto de vista do critrio. Perceba que o mtodo MV, por no levar em conta as probabilidades a priori, obtm uma fronteira diferente da obtida para o caso MAP. Do ponto de vista da probabilidade de erro, o classificador MV , neste caso, nitidamente subtimo, j que no aproveita o fato de que uma das classes muito mais freqente que a outra. O exemplo dado acima pode corresponder, por exemplo, deteco de um pulso binrio (+1/-1) imerso em rudo aditivo, um caso clssico em transmisso de dados.
33
5.2 Caso e Gaussiano Multidimensional Mantenhamo-nos no caso em que h apenas duas classes, C1 e C2, mas agora assumamos que os dados so multidimensionais, ou seja, que cada dado corresponde a um vetor x de elementos reais. Consideremos ainda que os dados gerados na classe C1 obedecem a uma densidade de probabilidade gaussiana com mdia 1 e matriz de covarincia igual a 2I, sendo I a matriz identidade, e que os dados gerados na classe C2 obedecem a uma densidade gaussiana com mdia 2 e matriz de covarincia igual, mais uma vez, a 2I. Nesse caso particular, ambas as classes originam vetores de dados com componentes descorrelacionados (a matriz de covarincia uma verso da identidade), o que, no caso gaussiano, significa que esse componentes tambm sero independentes. Ademais, o valor de 2 igual para C1 e C2.
34
Analisemos, mais uma vez, os valores de p(x/C1)P(C1) e de p(x/C2)P(C2). Um expediente bastante til aqui tomar o ln(.) de ambos os produtos, j que a densidade gaussiana determinada por uma exponencial [Duda et al., 2001]. Teremos, ento, que ln[p(x/C1)P(C1)] = -[||x-1||2 / 22] + ln[P(C1)] e ln[p(x/C2)P(C2)] = -[||x-2||2 / 22] + ln[P(C2)]. Lembrando que ||x-1||2 = (x-1)T(x-1), podemos escrever ln[p(x/C1)P(C1)] = [1/22][xTx - 21Tx + 1T1] + ln[P(C1)]. Como o termo xTx ser o mesmo na anlise de todas as classes, no precisamos lev-lo em conta. Assim, vemos que basta avaliar [1/22][-21Tx] + [1/22][1T1] + ln[P(C1)]. Essa expresso corresponde linear com respeito ao vetor de dados x, o que nos leva a uma concluso muito importante: no caso gaussiano estudado, as funes discriminantes que compem o classificador so lineares, ou seja, o classificador ser uma mquina linear. Teremos a chance de falar de
35
classificadores desse tipo mais adiante, e tambm discutiremos a relao entre gaussianidade e linearidade em outro tpico. Note que a fronteira de deciso , no caso de duas classes, corresponde ao hiperplano que decorre da igualdade entre [1/22][-21Tx] + [1/22][1T1] + ln[P(C1)] e [1/22][-22Tx] + [1/22][2T2] + ln[P(C2)]. possvel mostrar que, caso todas as classes possuam a mesma matriz de covarincia (mesmo que no seja uma matriz diagonal como no caso visto aqui, ou seja, mesmo que haja correlao entre os componentes dos vetores), as funes discriminantes e as fronteiras de deciso sero lineares [Duda et al., 2001]. Por outro lado, a linearidade pode ser perdida caso as matrizes de covarincia das classes sejam distintas. Alis, mesmo no caso unidimensional, quando temos varincias diferentes, surgem regies de deciso mais complexas. Observe, por exemplo, um caso de duas classes que geram dados com mesma mdia e diferentes varincias [Duda et al., 2001].
36
5.3 Caso No-Gaussiano Analisemos agora um caso diferente. Imaginemos que a classe C1 gera dados com densidade N(0,1), e que a outra classe, C2, gera dados segundo uma densidade uniforme entre 1 e 1. Tomaremos, inicialmente, P(C1) = 0.7 e P(C2)
= 0.3. Aplicando a metodologia MAP, obtemos as duas densidades
ponderadas mostradas na Fig. 5.
37
Figura 5: Densidades para Deciso MAP Perceba que a deciso pela classe C1 a regra sempre: jamais optaremos pela classe C2! Isso ocorre devido s probabilidades a priori, como mostra a Fig. 6, que traz as densidades para deciso MV.
38
Figura 6: Densidades para Deciso MV No caso MV, optamos pela uniforme se x (-1,1) e pela gaussiana alhures (fora dessa regio, alis, simplesmente impossvel que um dado tenha sido gerado pela uniforme).
39
Procure verificar, para os casos acima, quais seriam as integrais de probabilidade de acerto (e de erro). Analise a equao (10) para isso.
6 Referncias
DUDA, R. O., HART, P. E., STORK, D. G. Pattern Classification, Wiley, 2001. PALAZZO JR., R. Notas de Aula do Curso EE088 Transmisso de Dados, FEEC/Unicamp, 1998. VAN TREES, H. L., Detection, Estimation and Modulation Theory Part I, Wiley, 2001.
40

Topico4 1s10

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Topico4 1s10

Transféré par

Droits d'auteur :

Formats disponibles

IA004 - Profs. Fernando J. Von Zuben & Romis R. F.

Teoria de Deciso Estatstica e Classificadores

Tpico 4 Teoria de Deciso e Classificadores

IA004 - Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

1 Deciso e Teste de Hipteses: Consideraes Iniciais

Tpico 4 Teoria de Deciso e Classificadores

IA004 - Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

Tpico 4 Teoria de Deciso e Classificadores

IA004 - Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

Tpico 4 Teoria de Deciso e Classificadores

IA004 - Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

Tpico 4 Teoria de Deciso e Classificadores

IA004 - Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

(2 / C2) = 0, indicando que os acertos no so penalizados, e fazer

Tpico 4 Teoria de Deciso e Classificadores

IA004 - Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

(1 / C2) = (2 / C1) = 1, indicando que os dois possveis erros so

Tpico 4 Teoria de Deciso e Classificadores

IA004 - Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

2 (que significa opo pela classe C2)? Se pudermos calcular R(1/x) e

Tpico 4 Teoria de Deciso e Classificadores

IA004 - Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

1. Usando as equaes dadas acima, chegamos a:

IA004 - Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

IA004 - Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

IA004 - Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

Tpico 4 Teoria de Deciso e Classificadores

IA004 - Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

IA004 - Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

Tpico 4 Teoria de Deciso e Classificadores

IA004 - Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

p( x / C1 ) (12 22 )P(C 2 ) > p( x / C 2 ) (21 11 )P(C1 )

IA004 - Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

3 Mxima Probabilidade a Posteriori, Mnima Probabilidade de Erro e Mxima Verossimilhana

Tpico 4 Teoria de Deciso e Classificadores

IA004 - Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

[(2/C1) - (1/C1)] P(C1/x) > [(1/C2) - (2/C2)]P(C2/x)

(2/C2) em (8). Isso leva ao seguinte teste:

Tpico 4 Teoria de Deciso e Classificadores

IA004 - Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

Tpico 4 Teoria de Deciso e Classificadores

IA004 - Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

Tpico 4 Teoria de Deciso e Classificadores

IA004 - Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

Tpico 4 Teoria de Deciso e Classificadores

IA004 - Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

IA004 - Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

IA004 - Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

IA004 - Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

Tpico 4 Teoria de Deciso e Classificadores

IA004 - Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

Tpico 4 Teoria de Deciso e Classificadores

IA004 - Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

Tpico 4 Teoria de Deciso e Classificadores

IA004 - Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

IA004 - Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

Figura 2: Exemplo com Regies e Fronteiras de Deciso

IA004 - Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

PCORRETA = P(x R i / Ci )P(C1 ) = p(x / Ci )P(Ci )

Tpico 4 Teoria de Deciso e Classificadores

IA004 - Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp

Tpico 4 Teoria de Deciso e Classificadores

IA004 - Profs. Fernando J. Von Zuben & Romis R. F. Attux DCA/FEEC/Unicamp