Vous êtes sur la page 1sur 193

N E S T O R C AT I C H A

PROBABILIDADES
Prlogo

Estas notas so complementares ao curso introdutrio Probabilida-


des 04300xxx.
Os prrequisitos matemticos no so muitos. Clculo Diferen-
cial e Integral sero a lingua franca. No nvel do curso, Integrao
significa integral de Riemann. No precisaremos ir alm da idia
de integrar em IRn . A simplicidade matemtica no implica que os
conceitos sero simples. A interpretao pode ser bastante sutil e
esse o objetivo do curso, fazer o aluno pensar e talvez modificar
suas idias sobre o que significa probabilidade. Rigor matemtico
no substitui rigor intelectual.
O principal objetivo do curso que o aluno entre em contato com
a idia de probabilidade como expresso da informao disponvel
sobre uma possibilidade. Introduo Teoria de Informao poderia
ser um ttulo deste livro, mas no do ponto de vista de engenha-
ria. De um ponto de vista bem mais geral que encontrar aplicaes
em uma variedade muito grande de reas da cincia. Estas incluem
questes fundamentais em Fsica, mas tambm claro em Estatstica
e portanto em tratamento de dados empricos. Outras reas como
Cincia de Computao e Cincia Cognitiva tem tido uma grande
influncia desta forma de pensar sobre informao.
A primeira parte discute a definio de probabilidades. Todos
os estudantes j foram expostos a probabilidades, tanto na lingua-
gem coloquial quanto no curso secundrio. Comearemos de forma
diferente de outros cursos. Uma forma de proceder consiste em pri-
meiro expor os princpios matemticos e a partir deles calcular as
consequncia em aplicaes interessantes. Faremos de outra forma.
No sabemos qual a estrutura matemtica que deve ser usada em
geral, mas talvez possamos investigar se h casos simples em que
podemos concordar com pessoas razoveis como proceder. Isso dar
uma lista de desejos de requisitos que a teoria deve satisfazer. Todas
as estruturas que no estejam de acordo com a lista de desejos sero
eliminadas. O ltimo candidato em p ser a estrutura desejada. O
aluno ser convidado a procurar falhas no raciocnio, procurar exce-
es. Deste tipo de exerccio decorrer a confiana na estrutura final.
Em cincia no devemos ser a favor de uma teoria ou sua interpre-
tao, a no ser pelos motivos que decorrem do respeito gerado por
ter resistido a todos os embates em que se tentou derrub-la.
H outras formas de introduzir probabilidades e aqui me refiro
s idias frequentistas. O leitor no deve esperar uma exposio
4 nestor caticha

neutra, onde todos tem mrito e direito a ser ouvidos. O sculo XX


ficou para trs e somente poucos frequentistas restaro no futuro.
O objetivo destas notas apresentar aos estudantes de Fsica uma
viso que tem se mostrado frutfera e tem conquistado cada vez mais
adeptos. Aqueles que esto interessados em aplicaes e anlise de
dados tero acesso aos mtodos atuais. O uso de tcnicas numricas
e do computador no podem ser deixadas de lado e mesmo que no
seja o objetivo principal, um pouco desse universo ser explorado.
O nvel do curso introdutrio e a parte formal de Probabilidades
como uma parte da Matemtica, um ramo da anlise funcional e
teoria de medida no ser explorada.
A idia de apresentar uma forma de pensar que tem aplicaes
em uma vasta gama de assuntos, pode levar o leitor a pensar que est
na presena de algum que com um martelo, pensa que todos os pro-
blemas so pregos. Ou que estamos apresentado dogmas, dos quais
no abriremos mo. No fim talvez no saiba como me defender de
tais acusaes, exceto alegando que o nico ponto sobre o qual serei
inflexvel ser que s podemos acreditar naquilo que a informao e
evidncia permitem, e s enquanto no surgir informao contradi-
tria. 1 No faz sentido acreditar em algo que no seja respaldado 1
H outras formas de pensar, por exemplo
acreditar em algo porque isso me deixa mais
por informao.
feliz. Mas eu no saberia dar um curso so-
bre isso. "I have a lot of beliefs, and I live
by none of them - thats just the way I am. . .
they make me feel good about who I am.
Louis CK
Sumrio

1 Teoremas de Regraduao de Cox 7

2 Outras definies de probabilidade 31

3 Uso elementar de Probabilidades 37

4 Frequncia e Probabilidade 55

5 A distribuio Normal 81

6 Aplicaes da regra de Bayes 105

7 Teorema do Limite Central 133

8 Seleo de Modelos 149

9 Monte Carlo 157

10 A equao de Chapman Kolmogorov 177


1
Teoremas de Regraduao de Cox

Alea jacta est


Jlio Csar

1.1 Introduo: Determinismo Newtoniano ou aleatrio?

Jlio Csar ao cruzar com seu exrcito o Rio Rubicom quebrou uma
regra na Repblica Romana. No havia volta. Ou conseguia o poder
ou perdia tudo. Qual seria o desenlace da sua ao? Nem ele sabia e
segundo Suetnio teria dito: Alea jacta est. A sorte est lanada. Sa-
ber estimar as consequncias de uma ao aconselhvel para poder
decidir que curso tomar. Csar talvez tenha procedido da seguinte
forma. Primeiro fez uma lista das possibilidades sua frente. Uma
deciso tomada e uma das possibilidades seguidas. Estas poderiam
incluir: (Ao I) Continuar na Glia. (Ao II) Fazer uma aliana com
Pompeu , (Ao III) Fugir de Pompeu, (Ao IV) Se aposentar, (Ao
V) Voltar a Roma com seu exrcito e lutar contra Pompeu. Historia-
dores certamente poderiam incluir outras. Como decidir? Supomos
que uma escolha foi feita. Quais as consequncias? Para cada curso
de ao ele deve ter feito uma lista de possibilidades. Suponha que
considere tomada a Ao V. Ento as consequncias poderiam ser
(Consequncia 1 da Ao V) Vitria total, com a formao do Im-
prio e ele como Imperador. (Consequncia 2 da Ao V) Derrota
total levando sua morte. (Consequncia 3 da Ao V) Guerra Ci-
vl interminvel ...etc. Mas no devia acreditar que cada uma das
possiblidades teria a mesma chance de ocorrer. A cada consequn-
cia de cada Ao, Csar poderia ter associado um valor numrico
indicando sua crena na chance de ocorrer. Veremos que isto ser
codificado em probabilidades de ocorrncia. Mas tambm poderia
ter associado um valor numrico de quo feliz ele seria se efetiva-
mente essa consequncia ocorresse. Estes nmeros descrevem o que
se chama de utilidade, de cada possibilidade, para o agente Jlio Ce-
sar. Parece bvio que as utilidades dependem do agente, mas talvez
no seja bvio que as probabilidades tambm dependam do agente,
ou melhor do que este sabe. Resumindo, Jlio Csar decidiu o seu
curso de ao aps identificar as possibilidades de ao, das con-
sequncias de cada ao, das chances de cada consequncia ocorrer,
e da utilidade ou felicidade que cada consequncia teria. Neste curso
8 nestor caticha

no falaremos sobre deciso a partir das utilidades. Atualmente, em


geral, este tpico no cabe em cursos de Fsica. Faremos um estudo
sistemtico sobre a chances de algo ocorrer sem importar quo feliz
voc fique com cada possibilidade. O ponto central ser definir com
cuidado o que queremos dizer com chances, como atribuir nmeros
e como mud-los quando recebemos informao.
Teria Jlio Csar dvidas sobre sua sorte ou saberia mais que os
outros atores do drama? Se soubesse mais talvez estaria jogando
um jogo de cartas marcadas enquanto os outros jogariam a cegas. A
frase tambm implica num certo determinismo. No h nada a fazer.
O curso natural das coisas conduzir os atores. Como observadores
vero simplesmente o desenrolar da histria.
H alguma inconsistncia em pensar que a as consequncias so
inevitveis por um lado, e por outro ficar torcendo para ter sorte?
Seria como torcer ao ver a gravao de um jogo de futebol que j
foi jogado, mas no sabemos o resultado. Talvez seja um exerccio
Figura 1.1: Integrao numrica das equa-
interessante ver grandes jogos do passado sem saber qual jogo ,
es de movimento de um modelo Newtoni-
torcendo para seu time ganhar com direito a ficar to feliz como ano de uma "moeda"feita de massas (m) e
quando o jogo assistido ao vivo. molas (k). A figura mostra um espao res-
trito de condies iniciais. H a altura da
Todas estas situaes so complexas. Comecemos por algo mais moeda ao ser lanada e o ngulo com
simples. Uma das maiores revolues intelectuais da histria da hu- a horizontal, a moeda solta do repouso.
Nesta figura a altura "grande"(em relao
manidade foi a introduo da Mecnica por Newton. Sabemos que
a mg/k). A estrutura formada por qua-
caso fosse necessrio temos o formalismo da Mecnica para poder tro massas nos vrtices do que seria em re-
calcular a trajetria de uma moeda. O determinismo Newtoniano pouso um retngulo, ligadas por seis molas
nas arestas e diagonais . O sistema est
permite fazer predies sobre o futuro a partir do estado atual. Por restrito a duas dimenses e a cada batida
outro lado, os casos mais associados sorte so o jogo de dados ou mesa h dissipao de energia. um mo-
delo de uma moeda ou um cubo simplifi-
um jogo de cara ou coroa com uma moeda. No por acaso que
cado. As simulaes foram feitas por Gui-
a frase de Csar que teria sido dita em grego menciona o, o lherme Galanti e Osame Kinouchi, que gen-
cubo ou dado. Estes jogos deram origem a o estudo matemtico das tilmente autorizaram o uso destas figuras.

probabilidades.
Como podemos associar a uma moeda simultaneamente as pro-
priedades de ser um sistema determinista, governado pelas leis de
Newton e a condio de exemplo mais usado ao falar de sistemas
aleatrios? necessrio ter cuidado com as palavras. O que significa
aleatrio? Teremos todo este curso para atribuir-lhe significado. Em
geral, ao ser usado coloquialmente, significa que no totalmente
determinado a priori por eventos passados. Figura 1.2: Igual anterior, mas a moeda
solta de uma altura menor, para diferentes
As possibilidades do estado da moeda so determinados ao espe-
ngulos.
cificar 12 nmeros. 3 dizem respeito sua posio, por exemplo do
centro de massa. Sua orientao determinada por 3 ngulos.Veja,
num livro de Mecnica a definio de ngulos de Euler. Ou seno,
simplesmente considere 2 eixos no plano da moeda e um terceiro
perpendicular ao plano e as rotaes em torno deles.Esse nmero
duplicado ao levar em conta as suas derivadas temporais (velo-
cidades). A dinmica em 12 dimenses dada pelas equaes de
Newton 1 . bvio que as equaes no so suficientes para deter- 1
Nem a deduo destas equaes e muito
menos a sua soluo, sero necessrias
minar como cair a moeda. H muitas maneiras de jogar a moeda,
aqui, mas cabem num curso de Mecnica.
mas s um conjunto de equaes. As mesmas equaes devem ser
complementadas com diferentes conjuntos de condies iniciais que
probabilidades 9

parametrizam cada trajetria possvel. As figuras 1.1 e 1.2 mostram


porque no h incompatibilidade nessas duas caracterizaes da mo-
eda. Por simplicidade fixamos 10 parmetros e olhamos o que ocorre
quando dois parmetros so mudados numa certa regio. As figuras
foram construidas de forma totalmente determinstica. Cada ponto
colorido de acordo com a face mostrada pela moeda. Azul cara,
branco coroa. Vemos que a aleatoriedade no est na evoluo di-
nmica descrita por Newton, mas na ignrancia que poderiamos ter
sobre a condies iniciais. Se ao jogarmos a moeda no tivermos co-
nhecimento muito preciso das condies iniciais, no teremos como
prever se o ponto final ser azul ou branco. Este um indcio que o
conhecimento pode influenciar as probabilidades (que ainda no sa-
bemos o que so) de que caia cara ou cora. Dois agentes apostando
neste jogo tero chances diferentes de ganhar se tiverem informaes
diferentes sobre o modo como a moeda ser jogada. Note que para
alturas muito pequenas, o poder de predio fica mais forte, pois h
regies grandes com a mesma cor. Faa a experincia. Segure uma
moeda com os dedos na posio horizontal. Solte a moeda, sem gir-
la, de uma altura de 1 metro, 10 cm, 1 cm , 1mm. Seu poder de prever
o que vai ocorrer aumenta. O determinismo igualmente descrito
pelas equaes de Newton em todas as condies. A incerteza na
previso tem a ver com a forma como se solta a moeda.
Ainda isto coloquial e no sabemos o que probabilidade, infor-
mao ou aleatrio. O objetivo do que segue vestir isto com uma
estrutura matemtica. A histria do desenvolvimento das ideias
complexo e no o interesse destas notas. Porm elas estaro salpi-
cadas de referncias a grandes figuras do passado. A histria con-
tada, no certamente como ocorreu, porque isso no sabemos. A
seguir discutiremos as idias que vem de Jakob Bernoulli, Laplace,
Maxwell, Kolmogorov, Ramsey, Keynes, Plya, Jeffreys, Jaynes entre
outros. Comearemos a histria no meio contando como R. Cox ten-
tou criar uma extenso da lgica Booleana, com origens na Grcia
antiga, para situaes de informao incompleta. Ele poderia ter su-
posto de incio que a estrutura matemtica era a de probabilidades,
mas se recusou a isso. Tentou encontrar essa estrutura e ao descobrir
que era ou a teoria de probabilidade ou uma regraduao mono-
tnica trivial, primeiro se convenceu da impossibilidade de escapar
dessa estrutura e segundo forneceu uma slida interpretao para o
que queremos dizer com informao e como molda nossas crenas e
para o que queremos dizer com probabilidades.
H vrios exemplos de tentativas de axiomatizar extenses da l-
gica a situaes de informao incompleta. Savage e Lindley so
exemplos importantes, mas seu objetivo descrever o processo de
tomada de deciso e isso leva a considerar utilidades. O caminho
que escolhemos leva mesma estrutura de probabilidades deixando
claro que decises um captulo a parte. O objetivo de um fsico
descrever a natureza fazendo previses e no tomando decises.
10 nestor caticha

1.2 Informao completa ou incompleta

H muitas definies matemticas possveis que poderiam ser usa-


das na tentativa de formalizar o conceito coloquial de informao.
Uma forma de avanar, que bastante comum em cincia, comea
por definir matematicamente algo e depois tentar interpretar as fr-
mulas matemticas para mostrar que esta interpretao esta de acordo
com algumas das caractersticas que podemos atribuir ao conceito
coloquial de informao que temos.
Em lugar de comear por uma estrutura matemtica pr-escolhida
para servir de ferramenta de anlise, comeamos por uma interpre-
tao e depois encontramos a estrutura matemtica que se adapte
interpretao. A interpretao passa por estabelecer em alguns ca-
sos particulares suficientemente simples, tais que haja algum tipo
de consenso, o qu deveria resultar da teoria. possvel que este
procedimento parea novo ao leitor e ser surpreendente quantos re-
sultados sero extraidos deste mtodo e do rigor matemtico com
que a teoria se vestir. Como este procedimento permite saber mais
claramente do que estamos falando e do que no estamos, achamos
que esta atualmente a melhor maneira de introduzir a teoria de
informao.
Pode parecer estranho para o estudante de Fsica que o elemento
principal a seguir seja a idia de assero, isto , uma frase que em
princpio uma proposio que se apresenta como verdadeira. Mas
a matemtica um tipo de linguagem que tem a vantagem de permir
a quem a usa ser muito cuidadoso com o que diz. Denotaremos as-
seres por letras A, B, C...a, b, c... Uma frase pode ser julgada correta
ou no de vrias maneiras. Podemos pensar se correta do ponto de
vista da sua estrutura gramatical ou sinttica. No isto que que-
remos fazer e consideraremos as asseres a seguir suficientemente
bem formadas 2 . Queremos analisar seu contedo informacional, 2
Embora o formalismo a ser introduzido
tambm possa ser usado nesta direo,
se realmente a podemos creer verdadeira. Mas quando se diz a
mas no agora.
massa de Saturno est entre m1 e m2 ou ... entre m3 e m4 estamos
usando asseres diferentes e a tarefa determinar quanto acredita-
mos que uma ou a outra sejam verdade e aqui o estudante reconhece
a linguagem cientfica.
Consideremos a assero Existem zumbies. Isto verdade? Se o
contexto for o de filmes gravados em Pittsburgh na dcada de oitenta,
a resposta ser uma. Se for no mundo real, outra. Nenhuma asser-
o sozinha pode ser analisada, no que diz respeito a ser verdadeira
ou no, de forma independente do resto do universo conceitual. Ela
ser julgada verdadeira ou no quando analisada dentro de um con-
texto. A informao trazida por uma assero C, ser usada para
atribuir um grau de verdade assero A, ou seja dentro do contexto
C. Poderiamos chamar esse grau de, por exemplo, probabilidade de
que A seja verdade se C for dada. Mas fazendo isto estariamos de-
finindo de antemo que a ferramenta matemtica apropriada para
descrever informao a teoria de probabilidades. Isto parece bem
razovel mas no escapa s crticas acima e permite que outra ferra-
probabilidades 11

menta matemtica seja usada por simplesmente expressar o gosto de


outras pessoas ou a facilidade de uso em determinados problemas
prticos com a mesma justificativa: parece razovel, eu gosto, funciona,
prtico. No descartamos o uso de outras ferramentas matemticas,
mas queremos deixar claro que estas podero ser vistas como apro-
ximaes mais ou menos adequadas de uma estrutura que unifica e
tem um posio diferente. O objetivo deste captulo mostrar que a
escolha da teoria de probabilidades como a ferramenta matemtica
adequada para tratar informao muito mais do que simplesmente
conveniente. A teoria de probabilidades segue porque a extenso
da lgica a situaes de informao incompleta. Mas at aqui no
sabemos o que lgica, informao nem incompleta.
A anlise da lgica remonta a Aristteles e passa por Boole no s-
culo XIX, que contribuiu para que a lgica pudesse ser representada
em linguagem matemtica 3 . Uma lgica envolve (i) um conjunto de 3
Veja para uma comparao: Aristotles
Prior Analytics and Booles Laws of Thought,
proposies supostas verdadeiras, (ii) um mtodo de deduo para
John Corcoran, History and Philosophy of
estabelecer a validade de argumentos e (iii) um mtodo para estabe- Logics 2003.
lecer invalidades.
Um argumento lgico composto por duas partes. Um conjunto
de asseres, chamadas as premissas e uma nica assero chamada
de concluso. Um argumento vlido se a concluso pode ser obtida
aplicando as regras (ii) e (iii).
Se a informao em C no permite a certeza sobre a verdade de
A ento diremos que a crena que temos sobre A esta baseada em
informao incompleta. Em casos particulares poder ocorrer que
dado C como verdade, possa ser concluido com certeza que a asser-
o A verdadeira ou ainda em outros casos que falsa. Quando
no h alternativa para a concluso, quando ela segue por fora da
informao disponvel, dizemos que a concluso racional ou lgica.
Dizemos que estamos frente a casos de raciocnio dedutivo. Nestes
casos a informao disponvel completa pois nada falta para ter cer-
teza.
Exemplos de informao completa so dados pelos silogismos
Aristotlicos: suponha que recebemos a informao contida em C =
A B00 , isto , A implica B. Traduzindo, isto significa se souber
que A certamente verdade, segue que a proposio B tambm o
. Dado isso, o que podemos dizer sobre B? Nada com certeza,
mas se tambm recebemos a informao adicional A, isto , que A
Verdade, ento segue B, ou seja B Verdade.
Outro caso de informao completa, novamente no contexto C,
ocorre quando dado como verdade a negao B ou seja B Falso.
Segue A, isto , que A Falso como concluso inescapvel. Note
que se A no fosse falso, B no poderia s-lo.
Nas condies que C = A B00 e A Falso, o qu pode ser
concluido? Do ponto de vista lgico clssico nada podemos concluir
sobre B. Da mesma forma se for dada a informao B Verdade,
nada podemos concluir sobre A. Estamos frente a casos de infor-
mao incompleta e a lgica clssica no serve para chegar a uma
concluso. No possvel deduzir nada. A induo, o que quer
12 nestor caticha

que isto seja, e que ser discutido mais frente, ser necessria para
avanar. 4 4
Segundo Harold Jeffreys em seu li-
vroTheory of Probability, Bertrand Russell
A forma dedutiva da lgica permite somente tres tipos de respos-
disse que induction is either disguised de-
tas, sim, no e no segue5 . A induo nos fora ou permite dividir duction or a mere method of making plausi-
esta ltima em vrias possibilidades e os casos extremos nesse es- ble guesses. Jeffreys diz que muito me-
lhor trocar a ordem dos dois termos e que
pectro so aqueles onde havendo certeza absoluta, haver portanto a muito do que normalmente passa por de-
fora da deduo. Podemos falar ento sobre quais das alternativas duo induo disfarada, e que at al-
guns dos postulados de Principia Mathe-
intermedirias mais razovel acreditar com base no que sabemos.
matica foram adotados por motivaes in-
Nota-se ento a necessidade de estender a lgica para poder tratar de dutivas (e adiciona, so falsos). Com o
forma racional casos de informao incompleta. Richard T. Cox, ao tempo o prprio Russell mudou de posio,
dobrado pela evidncia (?) e diz no fim da
se defrontar com este problema por volta da dcada de 1940, decidiu, sua autobiografia: I was troubled by scepti-
como dito acima, estabelecer um conjunto de desejos ou desiderata6 cism and unwillingly forced to the conclusion
that most of what passes for knowledge is
que a teoria deveria satisfazer, e estes sero ento os axiomas da ex-
open to reasonable doubt. Sobre induo
tenso da lgica. Aqui podemos discordar, propor outros desejos ou disse ainda: The general principles of sci-
axiomas, mas uma vez aceitos sero provados os teoremas de repa- ence, such as the belief of the reign of law,
and the belief that every event must have a
rametrizao de Cox que mostram que a teoria de probabilidade a cause, are as completeley dependent on the
ferramenta para o tratamento de forma racional de situaes de in- inductive principle as are the beliefs of daily
life.(On Induction)
formao incompleta. O surpreendente disto que surge a teoria das 5
Nem o leitor nem o autor destas notas deve
probabilidades como a forma para lidar de forma racional7 com a in- neste momento ceder tentao de discu-
formao e que corremos riscos de ser inconsistentes caso a regras de tir lgicas de um ponto de vista mais geral.
Precisamos um subconjunto de Lgica pro-
manipulao de probabilidades no sejam seguidas. Segue que no
posicional, no muito mais que lgica Aristo-
h probabilidades que no sejam condicionais, embora s vezes tlica, como exposta por George Boole. Tal-
simplesmente a linguagem esquea de deixar explcitas as relaes vez caiba aqui a desculpa "I have not wor-
ked out the mathematical logic of this in de-
de condicionalidade 8 . A amplido da aplicabilidade da teoria que tail, because this would, I think, be rather
emerge impressionante e por exemplo, quando o tipo de assero like working out to seven places of decimals
a result only valid to two. My logic cannot
for limitado queles entendidos em teoria de conjuntos as regras de
be regarded as giving more than the sort of
manipulao sero no mais nem menos que aquelas ditadas pelos way it might work". Frank P. Ramsey (1926)
axiomas de Kolmogorov. Tambm veremos que emerge uma relao "Truth and Probability", in Ramsey, 1931,
The Foundations of Mathematics and other
natural entre probabilidade e freqncia e ficar claro de que forma Logical Essays, Ch. VII, p.156-198, editado
estes conceitos esto ligados e mais importante, de que forma so por R.B. Braithwaite, 1999 electronic edition.
6
distintos. Desiderata: as coisas desejadas, em La-
tim. Termo usado em filosofia para denotar
um conjunto de propriedades essenciais de
alguma estrutura. Alguns ficam tentados a
1.2.1 Desiderata la Cox chamar axiomas.
7
Ao leitor que demande uma definio de
interessante notar que os axiomas de Cox descritos por Jaynes no racional, podemos dizer que pelo menos
no queremos ser manifestamente irracio-
so exatamente iguais aos que Cox apresenta no seu livro The algebra nais. No acredito que haja uma definio
of probable inference. A exposio de Jaynes muito mais simples. de consenso sobre o que ser racional. H
consenso porm em apontar alguns casos
Cox, por sua vez, esclarece sua dvida com J. M.Keynes e seu livro A
de irracionalidade.
treatise on Probability, que deve muito a Laplace e Bernoulli, a Frank 8
A maior fonte de erros ser devido a falhas
P. Ramsey e George Plya. A exposio de Jaynes teve uma grande na especificao cuidadosa das asseres
condicionantes. Aparentemente a notao
influncia, mas ainda recebeu crticas e complementos 9 . Eu seguirei a|b com a a a assero a ser analisada e
a apresentao de A. Caticha, que mais completa e clara, mas farei b a assero condicionante devida a John
Maynard Keynes, no seu Tratado.
algumas pequenas mudanas10 .
A maneira de construir a teoria est baseada na seguinte forma de 9
Tribus, A. C
10
pensar bastante simples. Queremos construir uma teoria geral para Notem que h lugar ainda para avanos
nestes primeiros passos. Tentem encon-
a extenso da lgica nos casos de informao incompleta. Se ela for trar defeitos, generalizaes, melhores ar-
suficientemente geral, dever ser vlida em casos particulares. Se o gumentos.
caso for suficientemente simples, ento podemos saber qual o resul-
tado esperado que no viole expectativas razoveis. Poderia ocorrer
probabilidades 13

que ao analisar um nmero de casos particulares sejam reveladas as


inconsistncias entre eles, nesse caso no poderemos chegar a uma
teoria geral. Mas pode ser que os casos particulares sirvam para res-
tringir e determinar a teoria geral. 11 Isto o que mostraremos a 11
Este comentrio parece trivial, mas o uso
que ser dado a seguir totalmente no tri-
seguir.
vial. Neste contexto de probabilidades foi
Em primeiro lugar queremos falar sobre uma assero A no caso colocado primeiro por J.Skilling, mas no de
de informao incompleta. Nos referimos ento crena ou plausi- forma explicita. O destaque a este procedi-
mento apareceu por primeira vez no livro de
bilidade de A ser verdade dado B e a denotamos pelo smbolo A| B A. Caticha que o chamou de induo elimi-
que lemos a plausibilidade de A dado B ou ainda de ... de A nativa. Usaremos novamente este estilo de
fazer teoria ao introduzir o conceito de en-
condicionada a B.
tropia.
Por que no probabilidade de A dado B? Porque j existe uma
teoria matemtica de probabilidade e no sabemos se ser a estru-
tura matemtica que emergir desta anlise. Poderiamos usar outras
palavras, mas crena ou plausibilidade so conhecidas o suficiente
para serem teis neste contexto e no tem por agora o problema de
ser definidas formalmente . A Desiderata que segue tem cinco de-
sejos denotados DP1 ...DP5 e um bom exerccio tentar mostrar que
no fazem sentido. Se voc conseguir e convencer outros ter feito
uma grande contribuio, se no ter mais respeito pelas concluses
que seguem.

1.2.2 DP1 Representao de crenas e transitividade


Queremos analisar o primeiro caso simples que lida com o conceito
de mais plausvel. Se A dado B mais plausvel do que A dado C
escrevemos A| B  A|C. Suponha ainda que A|C  A| D. Queremos,
para seguir o uso cotidiano da linguagem, impor que A dado B seja
mais plausvel que A dado D.
Temos assim nosso primeiro desejo, a plausiblidade dever satis-
fazer a transitividade:

DP1 : Se A| B  A|C e A|C  A| D ento deve ser o caso que


A| B  A| D

Alm disso, dadas duas crenas podemos imaginar que h outra


assero intermediria.
Isto fcil de satisfazer se impusermos:

A plausibilidade A| B dever ser representada por um nmero


real.

Podemos satisfazer este tipo de ordenamento representado crenas


com nmeros racionais. A escolha de nmeros reais permite usar
integrais, o que no pouco, pois fazer somas difcil. Note que
sempre usamos integrais em fisica, mesmo que o espao tenha uma
estrutura subjacente (desconhecida atualmente mas que poderia ser
na escala de e.g 1031 m). No sabemos se tem, mas nos modelos
para o mundo usados em Mecnica, os pontos do espao e tempo
vivem numa variedade real.
Dados
A| B > A|C
14 nestor caticha

e
A|C > A| D,
segue imediatamente, uma vez que so nmeros reais, que

A| B > A| D,

de acordo com o desejo DP1 . Dizer que alguma coisa um nmero


real nos d imediatamente a transitividade, mas no diz nada sobre
que nmero deve ser atribuido, nem sobre como mud-lo se a in-
formao condicionante passa de B para C. Tambm no diz que a
representao das crenas seja nica. Uma mudana dos nmeros es-
tritamente monotonica crescente no mudar a ordem. Isto levar a
que h familias de atribuies de nmeros que representam a ordem
da mesma forma.

1.2.3 DP2 Asseres compostas:


Atravs de certas operaes e de diferentes asseres podemos criar
asseres compostas. Exemplos de operadores so a negao, o pro-
duto e a soma lgicos.

A negao de A denotada por A.

O produto ou conjuno de duas asseres uma terceira asser-


o, h diferentes notaes equivalentes possveis: AB, A B ou
ainda A e B.

A soma ou disjuno de duas asseres uma terceira assero,


que constuma ser denotada por A + B ou A B, ou ainda A ou B.

A tabela 1.1 mostra a tabela verdade para as operaes de soma e


produto lgico, onde V = Verdade e F = Falso. Note que as ltimas
duas colunas, colocadas aqui para futura referncia, mostram que
A + B e A B so iguais.

A A B A+B AB A+B AB
V F V V V F F
V F F V F F F
F V V V F F F
F V F F F V V
Tabela 1.1
Tabela verdade para a negao e algumas asseres compostas.

Isso significa que A + B = A B portanto o conjunto de operaes


negao e conjuno permite construir a disjuno de asseres.
Ao falar de silogsmos introduzimos a operao que significa
implicao. Se verdade que A B, significa que se A verdade
probabilidades 15

segue B. Isto no um novo operador pois equivalente dizer que


C verdade para C = A B.
Suponha que haja um mtodo, usando a teoria geral que procura-
mos e ainda no temos, de analisar a plausibilidade de uma assero
composta por vrias asseres atravs de conjunes ou disjunes
ou negaes. Esperamos que a plausibilidade possa ser expressa em
termos da plausibilidade de asseres mais simples. Talvez haja mais
de uma forma de realizar essa anlise. Queremos ento que:

DP2 : Se a plausibilidade de uma assero puder ser representada


de mais de uma maneira, pela plausibilidade de outras asseres,
todas as formas devero dar o mesmo resultado.

H vrias formas de usar a a palavra consistncia. Aqui a usamos


da seguinte forma. Impor que duas formas de anlise devam dar
o mesmo resultado no garante a consistncia da teoria geral, no
entanto uma teoria onde isso no ocorra ser inconsistente. Usamos
consistncia no sentido de no manifestamente inconsistente, que
o que DP2 acima declara.

1.2.4 DP3 Informao completa


Um tratamento geral de situaes de informao incompleta deve
abarcar os casos particulares de informao completa. Ento olhe-
mos para casos simples em que h informao completa.
O mais simples a| a que a plausibilidade de algo que sabemos
ser verdade, para qualquer a.
Se a|bc e b| ac representam a plausibilidade de algo que sabemos
ser falso com certeza, chamamos a e b de mutuamente exclusivos na
condio c. Poderia ser que hajam falsidades absolutas mais falsas
que outras falsidades absolutas; ou verdades absolutas mais verda-
deiras que outras verdades absolutas, mas achamos razovel impor

DP3 : Existem dois nmeros vv e v f tal que para todo a, a| a = vv


e para a e b mutuamente exclusivos a|b = v f .

No sabemos que valores dar para vv ou v f , mas supomos o mesmo


valor em todos os casos que tenhamos certeza de verdade ou falsi-
dade. Este desejo inclui tambm a negao de uma assero, pois
a assero e sua negao so mutuamente exclusivos, e estamos di-
zendo que a| a = v f para qualquer a.

1.2.5 DP4 Soma e DP5 Produto


Como sugerido na tabela 1, todo operador na lgebra Booleana pode
ser representado pelas operaes conjuno a e b (denotada ab ou
a b) e negao de a (denotada por a ) 12 , isto , o produto e a ne- 12
Este conjunto no mnimo, mas til e
claro.
gao lgicas. A soma lgica pode ser obtida usando a b = a b .
Precisamos ento analisar a plausibilidade de asseres compostas
usando esses operadores em termos das plausibilidade de asseres
mais simples. J que este conjunto de operadores completo, espera-
mos que s tenhamos que analisar estes dois operadores, conjuno
16 nestor caticha

e negao. Mas mais fcil, olhar para a conjuno e a disjuno, e


junto com DP3 obteremos a forma geral de tratar a negao.
Agora olhamos para a disjuno ou soma lgica. Novamente c se
refere informao subjacente e estamos interessados na plausibili-
dade y = a b|c. H 4 plausibilidades que sero interessantes para
esta anlise:

x1 = a|c, x2 = b|c, x3 = b| ac, x4 = a|bc. (1.1)

importante notar que todas estas plausibilidades so condiciona-


das a c, a informao que por hiptese suposta verdadeira. Alm
disso podem ser condicionadas a outras asseres relevantes e as ni-
cas disponveis so a e b por separado. No tem sentido considerar
ab como parte do condicionante. Deve haver uma dependncia entre
a b|c e algum subconjunto de { xi } = { x1 , x2 , x3 , x4 }, ento

DP4 : Regra da Soma: Deve existir uma funo F que relaciona


a b|c e algum subconjunto de { xi } e no deve tomar um valor
constante, independente dos valores de { xi }.

claro que trocando soma por produto parece razovel desejar:

DP5 : Regra do Produto. Deve existir uma funo G que relaci-


ona ab|c e algum subconjunto de { xi } e no deve tomar um valor
constante, independente dos valores de { xi }.

Como F e G representam a plausibilidade de asseres (compostas),


tambm devem tomar valores reais. Alm disso no impomos nada
alm de que dependam em algumas, se no todas, as variveis { xi }.
Parece natural exigir que no tenham valores constantes, pois seno
a todas as asseres compostas lhes seria atribuido o mesmo nmero.
Para facilitar as dedues tambm imporemos diferenciabilidade at
segunda ordem com repeito a quaisquer dois argumentos. Isto no
necessrio, mas as provas ficam mais longas e no fim o resultado
vem na forma de funes diferenciveis.
Porque um subconjunto? Qual subconjunto? Todos? Como deci-
4!
dir? H 11 subconjuntos de dois ou mais membros: Seis ( 2!2! ) pares
4!
( xi , x j ), quatro ( 3!1! ) triplas ( xi , x j , xk ) e o conjunto inteiro ( x1 , x2 , x3 , x4 ).
Analisaremos casos particulares em que fcil ver que alguns sub-
conjuntos levam a resultados absurdos. Do ponto de vista axiomtico
poderiamos adicionar stes casos particulares lista de desejos.

1.3 Consequncias da Lista de Desejos

Parece difcil que desta lista DP1 ...DP5 surja uma estrutura matem-
tica, quanto mais nica. Ou como veremos, essencialmente nica a
menos de regraduaes montnicas que no alteram a ordem das
crenas. Talvez o que ser surpreendente para o leitor, que seja a
teoria de probabilidades. A estrutura matemtica aparecer anali-
sando as restries nas funes F e G impostas pelos desejos.
probabilidades 17

1.3.1 A regra da soma


Comeamos com a disjuno a b|c e a funo F. Primeiro consi-
deramos a e b mutuamente exclusivos, mas depois veremos que isto
permitir analisar o caso geral. Sob esta restrio a|bc = b| ac = v f
para qualquer c por DP3 . Logo

a b|c = F ( a|c, b|c, a|bc, b| ac) = F ( a|c, b|c, v f , v f ),

mas esta uma funo de apenas duas variveis, e da constante


desconhecida v f :
a b|c = f ( a|c, b|c).
Para avanar olhamos para asseres compostas mais complexas, que
podem ser analisadas de mais de uma maneira, que pelo desejo DP2 ,
devem dar o mesmo resultado. Para trs asseres a, b e c mutua-
mente excludentes nas condies d, duas maneiras equivalentes de
escrever a disjuno das trs so ( a b) c|d = a (b c)|d o que
permite usar a funo f duas vezes

a (b c)|d = f ( a|d, f (b|d, c|d))


( a b) c|d = f ( f ( a|d, b|d), c|d)

ou em notao bvia, f satisfaz

f ( x, f (y, z)) = f ( f ( x, y), z) (1.2)

chamada equao da associatividade, primeiramente estudada por


Abel no contexto de teoria de grupos. Pode se provar 13 que para 13
Para condies em f ver Aequationes
mathematicae 1989, Volume 37, Issue 2-3,
toda soluo de 1.2, existe um bijeo , dos reais nos reais, que
pp 306-312 The associativity equation revi-
tomaremos como crescente, e portanto ser estritamente monotonica sited R. Craigen, Z. Ples, ou o livro Aczl,
crescente, tal que J. (1966), Lectures on functional equations
and their applications, Mathematics in Sci-
f ( x, y) = 1 (( x ) + (y)). (1.3) ence and Engineering 19, New York: Acade-
mic Press,
Para o leitor bastar mostrar neste ponto, que a expresso 1.3 uma
soluo da equao 1.2.
Agora um ponto central: podemos regraduar, usando , as atribui-
es de plausibilidade e no mais falar dos nmeros do tipo a|d mas
de nmeros ( a|d). Por ser uma bijeo, resulta que a ordem de pre-
ferncias no se altera, se antes as crenas sobre as asseres tinham
uma certa ordem, depois da regraduao, o ordenamento da repre-
sentao numrica das crenas o mesmo. importante ver que a
funo estritamente monotonica: se x > y segue que ( x ) > (y),
sem poder haver igualdade. Isto significa que asseres com crenas
diferentes so mapeadas em valores diferentes. Caso ocorresse
a possibilidade de igualdade, antes da regraduao teriamos uma
separao de preferncias e depois da regraduao poderiamos ter
confuso entre asseres mapeadas no mesmo valor de . 14 Conti- 14
Veja A. Patriota onde as condies so-
bre f so relaxadas e as consequncias de
nuamos sem saber que nmeros so esses, mas avanamos a ponto
aceitar solues no estritamente monotoni-
de poder dizer que para quaisquer eventos mutuamente exclusivos cas so consideradas.
a crena da disjuno, uma assero composta pode ser expressa em
termos das crenas nas asseres mais simples:

( a b | d ) = ( a | d ) + ( b | d ). (1.4)
18 nestor caticha

No caso particular que d = a, isto significa

( a b| a) = ( a| a) + (b| a) (1.5)
(b| a) = ( a| a) + (b| a) (1.6)

pois a crena ( a b| a) equivalente crena (b| a). Segue que

( a| a) = (v f ) = f = 0. (1.7)

Embora modesto, eis o primeiro resultado nmerico:

O valor regraduado da certeza da falsidade zero.

Mas e se no forem mutuamente exclusivos? O interessante que


o resultado anterior serve para o caso geral, mas precisamos usar o
truque de escrever

a = ( a b ) ( a b ) e b = ( b a ) ( b a ). (1.8)

O leitor deve mostrar que as relaes acima so verdadeiras, no estilo


da tabela 1. Podemos escrever a b como uma disjuno de asseres
mutuamente exclusivas:
h i
ab = ( a b) ( a b) [(b a) (b a)]
= ( a b) ( a b) (b a)

assim a equao 1.4, que descreve a soma de asseres mutuamente


exclusivas, pode ser usada, levando a

( a b|d) = ( a b|d) + ( a b|d) + (b a|d)


= ( a b|d) + ( a b|d) + (b a|d) + [( a b|d) ( a b|d)]

onde, na ltima linha adicionamos e subtraimos o mesmo nmero.


Chamamos pela ordem os termos do lado direito da equao acima
de 1, 2,...5. Usando novamente a equao 1.4 para asseres mutua-
mente exclusivas, juntando 1 com 2 , e 3 com 4:
   
( a b|d) = ( a b) ( a b)|d + (b a) ( a b)|db ( a b|d)
= ( a | d ) + ( b | d ) ( a b | d ), (1.9)

que segue das relaes da equao 1.8. Temos um dos resultados


principais para lidar com asseres compostas por somas de asser-
es

( a b|d) = ( a|d) + (b|d) ( ab|d)

Mas ainda no acabamos pois no sabemos o que fazer com


( ab|d), que olharemos a seguir.
probabilidades 19

1.3.2 Regra do produto: quais as variveis relevantes?


Queremos expressar
y = ( ab|c) (1.10)

em termos da funo ainda por determinar G e de algum dos


subconjuntos de { xi }. Lembramos a notao
x1 = a|c, x2 = b|c, x3 = b| ac, x4 = a|bc. Tribus sugeriu a anlise das
11 possibilidades para verificar que s h duas que sobrevivem a
casos extremos. Seguimos A. Caticha, pois corrige vrios erros
anteriores. Os dois conjuntos sobreviventes so ( x1 , x3 ) e ( x2 , x4 ).
Note que se o primeiro deles fosse um dos sobreviventes, o segundo
tambm deveria ser pela simetria trazida pela comutatividade do
produto lgico. Cox j parte da concluso de que estes dois
subconjuntos so os adequados. O exerccio que segue mostra que
ele tinha razo, mas retira a arbitrariedade aparente, de fazer a
escolha sem analisar outros candidatos.
Vejamos como chegar a esta concluso (novamente seguimos AC)
Os 11 casos so reduzidos a 7 por simetria:

1. y = G (( a| I ), (b| I )) (1 possibilidade)

2. y = G (( a| I ), ( a|bI )) (2 possibilidades a b)

3. y = G (( a| I ), (b| aI )) (2 possibilidades a b)

4. y = G (( a|bI ), (b| aI )) (1 possibilidade )

5. y = G (( a| I ), (b| I ), ( a|bI )) (2 possibilidades a b)

6. y = G (( a| I ), ( a|bI ), (b| aI )) (2 possibilidades a b)

7. y = G (( a| I ), (b| I ), ( a|bI ), (b| aI )) (1 possibilidade)

Caso 1 Mostraremos que


y = a b| I = G (( a| I ), (b|c)) = G ( x1 , x2 ) no funciona pois nao
satisfaz o esperado em um caso simples. Porque no serve o
subconjunto mais bvio ( x1 , x2 )? Primeiro vejamos que no segue o
bom senso. Seja a= Helena usa um tenis esquerdo vermelho
enquanto que b= Helena usa um tenis direito preto . A
plausibilidade dessas duas asseres ser julgada dada a seguinte
informao c= Helena gosta de tenis pretos e de tenis vermelhos, e
talvez seja possvel concluir que as duas asseres so bastante
plausveis. Mas se tivessemos y = G ( x1 , x2 ) poderiamos ser levados
a pensar que Helena usa um tenis esquerdo vermelho e um tenis
direito preto bastante plausvel. Posso acreditar bastante nas duas
asseres, mas no que seja muito plausvel que use um tenis de
cada cor ao mesmo tempo. Devemos rejeitar esta forma para G.
Para convencer os incrdulos no exposto acima, um argumento
mais formal: Suponha que a|d = a0 |d0 e b|d = b0 |d0 , mas que embora
a e b sejam mutuamente exclusivos, a0 e b0 no o sejam. Neste caso
teriamos que

( a0 b0 |d0 ) = G (( a0 |d0 ), (b0 |d0 )) = G (( a|d), (b|d)) = ( ab|d) = F = 0.


20 nestor caticha

E isto ocorreria para qualquer par de asseres no mutuamente


exclusivas ( a0 , b0 ), pois sempre poderiamos supor um caso auxiliar
( a, b) adequado e portanto teria um valor constante, independende
das asseres sob considerao. Insistindo, suponha que Bruno joga
uma moeda contra o teto, bate no ventilador e cai. A Helena pega
outra moeda e faz o mesmo. Temos a mesma crena que saia cara
ou coroa nas duas situaes. Chamamos c B a assero que saiu cara
no primeiro experimento e c H no segundo. Achamos razovel
escrever
(c B | I ) = (c H | I ) e (c B | I ) = (c H | I )

E tambm achamos impossvel que c B c B | I seja verdade, no pode


ser verdade que Bruno obteve cara e coroa nessa nica jogada. Mas
seriamos levados a pensar que

(c B c H | I ) = G ((c B | I ), (c H | I ))
= G ((c B | I ), (c B | I )) = (c B c B | I ) = 0 (1.11)

que significaria que se Bruno obteve cara, Helena no poderia ter


obtido coroa.
Caso 2
Para qualquer assero b| I, sob quaisquer condies teriamos

(b| I ) = ( Ib| I ) = G (( I | I ), ( I |bI )) = G (V , V ) = constante.

Um mtodo que atribui o mesmo valor numrico a todas as


asseres no pode ser aceitvel.
Caso 3 Para o caso y = G (( a| I ), (b| aI )) e a alternativa
G ((b| I ), ( a|bI )) ningum tem encontrado casos que se oponham
ao bom senso. Este ser o nico candidato a sobreviver e ser a
pedra de sustentao a toda a teoria que segue. No analisaremos
as consequncias disto agora. Ainda falta eliminar os outros
candidatos e posteriormente encontrar a forma especfica de G.
Caso 4 Se y = G (( a|bI ), (b| aI )) somos levados a algo
inaceitvel considerando que para qualquer assero b teriamos

(b| I ) = (bb| I ) = G ((b|bI ), (b|bI )) = G (v , v ) = constante

independente de b. Novamente a crena sobre a plausibilidade de


uma assero seria independente da assero.
Caso 5 y = G (( a| I ), (b| I ), ( a|bI )). Este caso mais
complicado de analisar. Mostraremos, no entanto que se reduz a
algum dos casos anteriores. Ainda consideraremos a conjuno de
mais de duas asseres , abc| I, que pode ser escrito de duas formas
diferentes ( ab)c| I = a(bc)| I, portanto, considerando a primeira
forma obtemos

(( ab)c| I ) = G (( ab| I ), (c| I ), ( ab|cI ))


= G ( G (( a| I ), (b| I ), ( a|bI )), (c| I ), G (( a|cI ), (b|cI ), ( a|bcI ))
= G ( G ( x, y, z), u, G (v, w, s)). (1.12)
probabilidades 21

Para a segunda, com as mesmas definies das variveis x, y...,


obtemos

( a(bc)| I ) = G (( a| I ), (bc| I ), ( a|bcI ))


= G (( a| I ), G ((b| I ), (c| I ), (b|cI ), ( a|bcI ))
= G ( x, G (y, u, w), s) (1.13)

Notamos as duas maneiras de escrever a mesma coisa. Repetimos


que por DP2 que declarava que no queremos ser manifestamente
inconsistentes, devemos ter

G ( G ( x, y, z), u, G (v, w, s)) = G ( x, G (y, u, w), s).

Ainda notamos que embora stas variveis possam ter quaisquer


valores, no ocorre o mesmo conjunto dos dois lados: Lado
esquerdo { x, y, z, u, v, w, s}, lado direito { x, y, u, w, s}. Portanto o
lado esquerdo nao deve depender de z = ( a|bI )) nem de
v = ( a|cI ) explicitamente. Para que essa expresso no dependa
de z nem v , podemos impor que G no dependa do terceiro
argumento o que levaria a eliminar o que foi riscado na equao
abaixo:

G ( G ( x, y, z), u, 
G (
v, s)) = G ( x, G (y, u, 
w, w), s)


levando a que G tem s dois argumentos e uma expresso sem z


nem v:
G ( G ( x, y), u) = G ( x, G (y, u))
e portanto somem todas as variveis exceto x, y e u. Lembrando
suas definies

G ( G (( a| I ), (b| I )), (c| I )) = G (( a| I ), G ((b| I ), (c| I )))

que equivale ao Caso 1 e portanto j foi eliminado.


Mas tambm podemos dizer que no depende do primeiro
argumento, que tambm elimina z e v:

G (
G (
x, z), u, G (v,
y,  w, s)) = G ( x, G (y,
 u, w), s)


que leva expresso

G (u, G (w, s)) = G ( G (u, w), s)

que voltando s variveis originais toma a forma

G ((c| I ), G ((b|cI ), ( a|bcI ))) = G ( G ((c| I ), (b|cI )), ( a|bcI ))

e mostra ser equivalente ao que teriamos obtido se partissemos do


Caso 3 e portanto aceitvel.
Fica como exerccio mostrar que

1. o Caso 6 pode ser reduzido ao Caso 2, ao Caso 3 ou ao


Caso 4

2. o Caso 7 pode ser reduzido aos Caso 5 ou Caso 6.


22 nestor caticha

Concluimos portanto que

( ab|c) = G (( a|c), (b| ac))


= G ((b|c), ( a|bc))

Cox coloca isto como um axioma, mas no precisamos fazer isto,


basta dizer que existe uma funo G mas que no sabemos a priori
quais seus argumentos. A eliminao dos casos que contradizem o
bom senso em casos suficientemente simples, mostra de forma
satisfatria (o leitor pode pular e reclamar, mas ter que encontrar
argumentos) que as equaes 1.3.2 refletem a nica opo. Outra
queixa e que introduzimos casos simples onde os casos diferentes
do 3 se mostraram contrrios ao bom senso. Isto significa que o DP5
mais complexo do que parecia inicialmente.
Note que agora ser possvel concluir que Helena usa um tenis
esquerdo vermelho e um tenis direito preto pode ser pouco
plausvel por que precisamos saber a plausibilidade de Helena usa
um tenis esquerdo vermelho dado que Helena usa um tenis direito
preto e isto pode ser pouco plausvel.
Mas ainda no acabamos. Precisamos determinar a funo
especifica G, com a vantagem que pelo menos sabemos seus
argumentos.

1.3.3 Regra do produto: qual a funo G?


Novamente olhamos para um caso simples, onde podemos escrever
o resultado de duas maneiras. Considere a, b, c e d com b|d e c|d
mutuamente exclusivos, e a assero a(b c) uma conjuno que
pode ser escrita como uma disjuno:

a(b c) = ( ab) ( ac). (1.14)

Podemos usar o resultado para a soma para estudar o produto


( a(b c)|d):

( a(b c)|d) = G (( a|d), (b c)| ad))


= G (( a|d), (b| ad) + (c| ad)) (1.15)
(( ab) ( ac))|d) = ( ab|d) + ( ac|d)
= G (( a|d), (b| ad)) + G (( a|d), (c| ad))
(1.16)

onde a equao 1.15 usa primeiro que a(b c) um produto e em


segundo lugar a regra da soma para asseres mutuamente
exclusivas b|d e c|d. A equao 1.16 mostra o resultado de
considerar a soma ( ab) ( ac). Mas devido equao 1.14 e DP2 ,
estas duas formas devem dar o mesmo resultado:

G ( x, y + z) = G ( x, y) + G ( x, z). (1.17)

Para obter a soluo geral desta equao notemos que o primeiro


argumento o mesmo nos trs termos, portanto um parmetro
probabilidades 23

que podemos manter fixo em qualquer valor arbitrrio. No


necessrio supor diferenciabilidade, mas requerindo que G seja
duas vezes diferencavel, e definindo w = y + z obtemos a equao
diferencial
2 G ( x, w)
=0 (1.18)
w2
que tem soluo geral G ( x, w) = A( x )w + B( x ) em termos de duas
funes desconhecidas, mas fceis de determinar.
Substituindo esta forma em 1.17 obtemos

A( x )(y + z) + B( x ) = A( x )y + B( x ) + A( x )z + B( x ), (1.19)

portanto B( x ) = 0, ou seja G ( x, w) = A( x )w = G ( x, 1)w 15 . Agora 15


Suponha a equao h( x + y) = h( x ) +
h(y), para qualquer x, y. Em particular, para
olhamos para a|d e usamos a|d = ad|d para a e d quaisquer.
n 6= 0 e m inteiros, vale que h(nx ) =
h((n 1) x + x ) = h((n 1) x ) + h( x ) =
( a|d) = ( ad|d) = G (( a|d), (d| ad)) h((n 2) x + x ) + h( x ) = h((n 2) x ) +
= G (( a|d), v ) = A(( a|d))v 2h( x ) = = nh( x ). Considere x =
x 0 /n. Segue que h( x 0 ) = nh( x 0 /n).
(1.20) Tome x 0 = m, portanto h( x 0 ) = h(m) =
mh(1) = nh(m/n). Logo h(m/n) =
onde (d| ad) = v pois, obviamente d informao completa para (m/n)h(1). Basta supor continuidade que
podemos passar dos racionais para os reais
d. Ou seja x = A( x )v , logo e obter h( x ) = xh(1).

xw
G ( x, w) = (1.21)
v
isto significa que, para e = b c , b e c mutuamente exclusivos

( a|d)(e| ad)
( ae|d) = . (1.22)
v
Mas resta um problema: e se retirarmos a restrio de b e c
mutuamente exclusivos? simples de considerar pois novamente
usamos a equao 1.8

e = ( e d ) ( e d ), (1.23)

agora para qualquer assero d, de tal forma que b = e d e


c = e d 16 . Portanto no ha restries para o resultado que 16
Agradeo a ...e a ... por me lembrar deste
truque.
obtivemos.
Se no usarmos esse atalho deveriamos usar a equao 1.9 para
obter:

G ( x, y + z G (y, w)) = G ( x, y) + G ( x, z) G ( x, G ( x, w))

e sabemos que a soluo dada pela equao 1.21. Sem usar esse
atalho mais difcil mostrar que esta a nica forma se G for
diferencivel duas vezes em cada argumento. O leitor interessado
dever consultar czel. Temos assim uma possibilidade de uma
prova muito mais simples.
Da equao 1.22, dividindo por v obtemos

( ae|d) ( a|d) (e| ad)


= (1.24)
v v v
o que permite regraduar mais uma vez os nmeros associados as
crenas sem mudar sua ordem. Crenas regraduadas, de forma
24 nestor caticha

bijetora representam o mesmo ordenamento e portanto podem ser


ainda chamados de crenas. Definimos os novos nmeros
( a|b)
p( a|b) = (1.25)
v
que sero daqui a pouco chamados de probabilidade de a dado b. E
a regra do produto em termos destes novos nmeros regraduados

p( ab|c) = p(b|c) p( a|bc) = p( a|c) p(b| ac)

Temos uma regra para o produto e para soma lgicas de


asseres. Como fica a negao? Apesar de no ter introduzido
nada especfico sobre ela veremos que com os desejos impostos
podemos deduzir a plausibilidade regraduada ou probabilidade da
negao de uma assero a partir da probabilidade de sua
afirmao.
A regra do produto e a consistncia permitem escrever

p( a|c) p(b| ac)


p( a|bc) = (1.26)
p(b|c)
que chamado de Teorema de Bayes, mas que foi escrito pela
prmeira vez por Laplace. A contribuio de Bayes foi apontar a
relao chamada de inverso

p( a|bc) p(b| ac) (1.27)

onde a probabilidade de uma assero a condicionada a outra b


proporcional probabilidade de b condicionada a a. No podemos
exagerar a importncia desta afirmao que ficara clara luz da
variedade de aplicaes tanto tericas quanto experimentais que
veremos adiante.

1.3.4 Negao
A lista de desejos inclui a meno de algo sobre a negao. A crena
em asseres condicionadas sua negao constituem casos de
informao completa: ( a| a) = p( a| a) = 0. Tambm sabemos que
a a deve ser verdade, pois no resta alternativa. Portanto

( a| ad) = p( a| ad) = 0
( a a|d)
p( a a|d) = =1 (1.28)
v

1 = p( a a|d)
= p( a|d) + p( a|d) p( aa|d)
= p( a|d) + p( a|d) p( a|d) p( a| ad)
= p ( a | d ) + p ( a | d ), (1.29)

p( a|d) = 1 p( a|d)
probabilidades 25

ou a soma das crenas regraduadas de uma assero e da sua


negao 1. Essencialmente chegamos ao fim do comeo.

1.3.5 Estrutura matemtica sobrevivente


Em termos destes nmeros, reescrevemos os resultados at aqui
obtidos:

p( a| a) = pv = 1 Certeza da veracidade
p( a| a) = pf = 0 Certeza da falsidade
p( a b|c) = p( a|c) + p(b|c) p( ab|c) regra da soma
p( ab|c) = p( a|c) p(b| ac) regra do produto
p( ab|c) = p(b|c) p( a|bc) regra do produto
p( a|d) = 1 p( a|d) regra da negao
Tabela 1.2
Probabilidades

No falaremos mais em nmeros a|b, nem na sua regraduao


( a|b) mas somente na ltima transformao p( a|b) que
chamaremos a probabilidade de a dado b, ou a probabilidade de a
condicionada informao que b verdadeira. O motivo disto
que ao longo de sculos estas regras from destiladas pelo bom senso
de vrios matemticos e cientistas. Por volta de 1930, Kolmogorov
formalizou, sem incluir a regra do produto nem condicionantes,
usando linguagem de teoria de medida ou integrao, mas j eram
conhecidas desde Laplace. O que no estava claro porque essas e
no outras. Est completa a identificao das crenas ou
plausibilidade regraduadas em nmeros que satisfazem as regras
da probabilidade. Concluimos que a estrutura matemtica
adequada, e que usaremos nestas notas, para descrever situaes de
informao incompleta a teoria de probabilidades. O leitor, caso
deseje usar outras regras para manipular informao dever
responder quais dos desejos considerados acima no razovel e
portanto ao ser evitado, justificar essas outras regras.
O que foi obtido vai ser comparado com os axiomas de
Kolmogorov na prxima seco. Vemos uma diferena importante.
Na formulao da teoria de probabilidade como um captulo da
teoria da medida, as probabilidades so medidas e no h meno a
condicionais. Rao adicionou mais tarde a complementao
introduzindo, como uma idia tardia, razovel mas ad hoc, a
probabilidade condicional definida a partir da regra do produto e
portanto colocando com a mo o teorema de Bayes, que Cox obteve
como uma consequncia direta da consistncia em particular e dos
outros membros da desiderata.
Este o contedo dos teoremas de Cox: uma atribuio de
nmeros para descrever as crenas em asseres, dada a
informao, que satisfaa os casos particulares, pode ser mudada de
26 nestor caticha

forma a no alterar o ordenamento das crenas e preferncias e a


satisfazer as regras da probabilidade. Tem cheiro e cor de
probabilidade e tem todas as propriedades das probabilidades. No
falaremos mais sobre plausibilidade. No sabiamos o que era, e a
abandonamos como a um andaime, aps ter construido o edifcio
da teoria de probabilidades. Obviamente este exerccio no forneceu
os valores das probabilidades. Que bom, seno fechariam os
institutos dedicados ao estudo e s aplicaes das probabilidades.
Mais srios, podemos dizer que a nossa grande preocupao agora
ser dirigida busca de tcnicas que baseadas na informao
disponvel permitam atribuies ou talvez o problema associado
mas diferente, de atualizao dos nmeros associados a
probabilidades dos eventos ou asseres de interesse quando
recebemos nova informao. Esta a preocupao central da
inferncia e da teoria de aprendizado e nos levar introduo da
idia de entropia. A entropia no sentido de teoria de informao
est intimamente ligada idia de entropia termodinmica e mais
ainda de Mecnica Estatstica como veremos mais tarde.
Poderemos afirmar que a Mecnica Estatstica foi a primeira teoria
de informao, embora no seja costumeiro coloc-la nessa luz.

1.4 Exerccios

Mostre, construindo a tabela verdade as seguines propriedades da


Algebra Booleana a partir da tabela verdade para a soma, produto e
negao

Idempotncia do produto AA = A

Idempotncia da soma A + A = A

Comutatividade do produto AB = BA

Comutatividade da soma A + B = B + A

Associatividade do produto A( BC ) = ( AB)C

Associatividade da soma ( A + B) + C = A + ( B + C )

Distributividade A( B + C ) = AB + AC

Dualidade C = AB C = A + B e
C = A + B C = AB

Mostre que ( A + B) A = A e portanto A + BC = ( A + B)( A + C )

1.5 Exerccios Propostos

Mostre que a conjuno e a disjuno no formam um conjunto


de operadores completo para a lgebra booleana. Por exemplo
mostre que no h combinao de estes operadores que
permitam obter a negao. Mas nos propusemos uma funo F e
uma G e obtivemos uma forma de lidar com a negao. Como
probabilidades 27

isso possvel? A resposta ser achada ao ver que que o desejo


DP3 sobre informao completa introduz a noo de negao
mas s parcialmente ao dizer que a e sua negao so
mutuamente exclusivos e que a| a = v f como o mesmo v f para
todo a. Outra forma de proceder poderia ser introduzir um
desejo do tipo: Deve existir uma funo H, desconhecida tal que
a|c = H ( a|c). Isto codifica o desejo de encontrar uma teoria em
que conhecimento sobre a implica conhecimento sobre a. Claro
que nesta altura sabemos que H ( x ) = 1 x. Tente deduzir a as
consequncias ao trocar disjuno F por negao H no
Desiderata para lidar com informao incompleta.

Mostre a relao da equao 1.8. Desenhe o diagrama de Venn.

A equao 1.9 relaciona a crena da disjuno s crenas nas


asseres primitivas, mas inclui a subtrao da crena na
conjuno. Desenhe o diagrama de Venn adequado a esta
situao. Discuta a origem do term subtraido.

Voltemos ao Caso 5 e suponhamos que G seja diferencavel


com respeito a qualquer argumento. As derivadas parciais com
respeito a z ou v devem dar zero. Use a regra da cadeia para
mostrar que


0 = G ( G ( x, y, z), u, G (v, w, s))
z

= G (r, u, G (v, w, s))r=G( x,y,z) G ( x, y, z) (1.30)
r z
Se um produto zero, pelo menos um dos fatores zero, de
onde concluimos que ou G no depende do primeiro argumento
ou no depende do terceiro. Se no depende do primeiro mostre
que voltamos ao Caso 3 . Se no depende do terceiro mostre
que voltamos ao Caso 1.

2 Para a funo G da regra do produto mostrar que o Caso 6


pode ser reduzido ao Caso 3 ou ao Caso 4 e que o Caso 7
aos Caso 5 ou Caso 6.

Mostre que a forma produto (eq. 1.21) soluo da equao


funcional. Mostre que esta a nica forma se G for diferencivel
duas vezes em cada argumento.

Escreva a regra do produto P( AB| I ), da soma P( A + B| I ) e da


negao de A| I, de A no contexto I em termos das Chances,
percentagem e Logprob definidos abaixo. Mostre que cada uma
dessas uma transformao monotnica das probabilidades e
portanto uma regraduao possvel da representao numrica
das crenas.

1. Chances: Defina as chances (odds em ingls) como


P( A| I )
O ( A | I ) = P ( A ).
28 nestor caticha

2. Percentagem o que chamariamos a probabilidade se em lugar


de estar confinada ao intervalo [0, 1] estivesse no intervalo[0, 100].

3. Logprob L P ( A| I ) = log P( A| I ).
P( A| I )
4. Logit ou log-odds: Logit( P( A| I )) = log( P( A)
).

5. Exprob ExpP ( A| I ) = exp P( A| I ) (Essa acabei de inventar).


P( A| I )
6. Sineprob SenP ( A| I ) = sin 2 (Posso continuar.)

Em algum caso as regras escritas em termos das regraduaes so


mais simples do que a regraduao que leva s probabilidades? 17 17
No verdade que neste caso "Whats in
a name? that which we call a rose By any
Exerccio Problema de Linda 1. Amos Tversky and Daniel
other name would smell as sweet"
Kahneman colocaram a questo a seguir, chamada de Problema de
Linda, sobre probabilidades. Considere as asseres a seguir:

I : Linda tem 31 anos, solteira, assertiva, e muito inteligente. Ela


se formou em filosofia. Quando estudante, estava profundamente
preocupada com questes de discriminao e justia social, e
tambm participou de manifestaes anti-nucleares.

A : Linda bancria .

B : Linda bancria e participa do movimento feminista .

Responda rapidamente qual das duas asseres mais provvel?

Exerccio Problema de Linda 2. No continue lendo at ter


respondido pergunta anterior.
Responda aps pensar.O problema atribuir nmeros a P( A| I ) e
P( B| I ). Qual maior? Responda usando a regra do produto e use o
fato que qualquer probabilidade tem uma cota superior 1. Este
problema tambm chamado de Falcia da conjuno. 18 Introduza 18
These long-term studies have provided
our finest insight into natural reasoning
a assero
and its curious departure from logical truth.
Stephen Jay Gould, sobre Tversky and Kah-
C : Linda bancria e no participa do movimento feminista . neman

Qual seria o ordenamento das trs probabilidades P( A| I ), P( B| I ) e


P(C | I )? Procure algum feminista e faa a pergunta, faa o mesmo
com algum machista. Divirta-se com a percepo que as pessoas
so irracionais. O que voc acha que as pessoas acham que
respondem quando tem que ser rpidas? Note que muitas vezes ao
fazer uma pergunta, quem responde est respondendo a uma
pergunta parecida mas no exatamente aquela demandada.

Exerccio Problema de Linda 3. Mostre usando a regra do


produto que P( A| I ) P( B| I ). Tente inferir o que as pessoas fazem
quando acham que est certo que P( A| I ) P( B| I ). Encontre
asseres A0 | I 0 e B0 | I 0 parecidas com A| I e B| I tal que seja razovel
supor mais provvel supor o ordenamento contrrio.
probabilidades 29

Exerccio

I : O preo do petrleo cai a 10 dolares o barril

A : A Russia invade a Ucrnia

B : A Russia invade a Ucrnia e os Estados Unidos corta relaes


diplomticas com a Russia

Dado I qual mais provvel, A ou B? Note que as pessoas que


cometem o erro de Falcia da Conjuno agem aparentemente como
se estivessem comparando P( A| I ) com P(C | AI ), onde B = AC. Se
voc fosse presidente, manteria como assesor em poltica
internacional algum que ache A| I menos provvel que B| I?

Exerccio

I : Sou estudante da USP;

A : No estudei probabilidades

B : No estudei probabilidades e cometo a Falcia da conjuno

Dado I qual mais provvel, A ou B?


2
Outras definies de probabilidade

2.1 Kolmogorov e as probabilidades

Kolmogorov introduziu na dcada dos trinta 1 os seus famosos 1


Foundations of the Theory of Probability
http://www.mathematik.com/Kolmogorov/index.html
axiomas para a teoria das probabilidades. No seu livro ele declara
que no vai entrar no debate filosfico sobre o significado de
probabilidades e depois d uma pequena justificativa dos axiomas
com base na interpretao freqentista de von Mises. J
descreveremos alguns dos motivos que nos levam a achar a posio
freqentista, incompleta e at, como mostraremos abaixo,
insuficiente e errada. Pelo contrrio, os axiomas de Kolmogorov,
que codificam o bom senso da rea j existente no trabalho de
Laplace, podem ser vistos como no antagonicos aos resultados
obtidos no captulo 1. Interessante ler Kolmogorov. Ele no tem
outro objetivo que

"... colocar no seu lugar natural, entre as noes gerais de matemtica


moderna, os conceitos bsicos da teoria de probabilidade - conceitos
que at recentemente eram considerados bastante peculiares.
Esta tarefa no teria tido esperana de sucesso antes da introduo
das teorias de medida e integrao de Lebesgue..."
A. N. Kolmogorov

Ele est organizando uma rea aps ficar claro como faz-lo graas
ao trabalho de Lebesgue e tambm Frchet e admite que este ponto
de vista era comum entre certos matemticos mas merecia uma
exposio concisa e livre de algumas complicaes desnecessrias.
Kolmogorov comea for considerar E uma coleo de elementos
A, B, C.... que so eventos elementares 2 e em nossa discusso 2
Em fsica E conhecido como espao de
fases
anterior chamamos de asseres. F o conjunto de subconjuntos de
E. Um tal sistema de conjuntos chamado um campo se a soma,
produto, interseo de dois elementos quaisquer pertencem ao
sistema. Os axiomas de Kolmogorov para a teoria de Proabilidades
so

AK1) F um campo de conjuntos fechado ante um nmero de


unies (disjunes) e intersees (conjunes) enumerveis e se
A F e A = E A, ento A F

ou seja F um -campo,
32 nestor caticha

AK2) F contm o conjunto E.

AK3) A cada conjunto A E atribuido um nmero real no


negativo, chamado de probabilidade do evento A denotado por
P ( A ).

AK4) P( E) = 1

AK5) Se A B = , ento P( A B) = P( A) + P( B)

Vejamos se estes axiomas esto de acordo com os resultados da


seo anterior. Em primeiro lugar uma definio que no ser
necessria neste curso, a de -campo. uma coleo de
subconjuntos fechado ante um nmero contvel de operaes de
conjunto, tais como disjuno, conjuno, negao. Esta noo s
necessria ao falar de conjuntos com infinitos elementos. Vimos que
a coleo de asseres tambm permite tais operaes. Portanto
estamos lidando com o mesmo tipo de coleo de eventos que
Kolmogorov. 3 Um exemplo de um -campo o conjunto de 3
Talvez a queixa que as provas do cap-
tulo 1 so para nmero finito de conjunes
conjuntos abertos nos reais. Neste curso usaremos asseres do
e disjunes. Isto porm no deve ser mo-
tipo: "A varivel X tem valor no aberto ( x, x + dx )" e extenses a tivo de preocupao agora pois no um
IR N . A ideia de -campo essencial na teoria de integrao de empecilho irremovvel.

Lebesgue e aparecer em tratamentos matematicamente mais


sofisticados de probabilidade. Neste curso no iremos alm de
integrais de Riemann e somas infinitas.
A probabilidade da certeza 1 por AK4; a probabilidade est
entre zero e um e a probabilidade da disjuno de asseres que
no tem elementos em comum a soma das probabilidades.
Notamos, na introduo aos axiomas no livro de Kolmogorov,
porm a falta de uma regra para o produto. Kolmogorov no a
introduziu incialmente e s em trabalhos posteriores foi incluida
por sugesto de Rao. No livro (pgina 6) ele introduz, como um
adendo aos axiomas, as probabilidades condicionais atravs de

P( AB)
p( A| B) = (2.1)
P( B)

de onde segue para a prova do teorema de Bayes, usando a


comutao de A e B, portanto P( AB) = P( BA) e a simetria ante
troca A B.
Se uma vez estabelecidos os axiomas e dados valores numricos
para as probabilidades partirmos para as aplicaes matemticas,
no haver nenhuma diferena de resultados pois ser a mesma
estrutura matemtica. Enfatizamos que as diferenas que temos so
sobre a motivao dos axiomas e com a interpretao da idia de
probabilidades. Isso tem importncia em inferncia e portanto em
aplicaes. Em muitos livros o estudante encontrar uma diferena
entre probabilidades e probabilidades condicionais. Deve ficar claro
que no ponto de vista destas notas, no h probabilidade que no
seja condicional.
probabilidades 33

2.1.1 Ainda outras definies de Probabilidade


Outra proposta de definio de probabilidades a frequentista, que
tem mais chances de ser a que o leitor j viu. A definio parece
muito simples: o limite da razo entre o nmero de vezes que um
evento verdade e o nmero de tentativas, quando este ltimo vai
para infinito.
Esta definio veio no esteio de uma colocada por Jacob Bernoulli
e Laplace. Para eles s vezes conveniente definir a teoria de
chances pela reduo de eventos do mesmo tipo a certo nmero de
casos, igualmente possveis e a

"...probabilidade, que ento simplesmente a frao cujo numerador


o nmero de casos favorveis e cujo denominador o nmero de
todos os casos possveis."4 4
The theory of chances consists in reducing
all the events of the same kind to a certain
O que significa "do mesmo tipo"? O fsico ver aqui a uso da ideia number of cases equally possible, that is to
say, to such as we may be equally undeci-
de simetria. Se diferentes estados so tais que somos indiferentes ou ded about in regard to their existence, and
incapazes de distingui-los ento os colocamos na mesma categoria. in determining the number of cases favora-
ble to the event whose probabilty is sought.
Idias de simetria so extremamente frutferas. Mas quando no h
The ratio of this number to that of all the ca-
simetria ou simplesmente no temos informao sobre ela preciso ses possible is the measure of this proba-
estender a definio. Na poca de Laplace as coisas no estavam bility which is thus simply a fraction whose
numerator is the number of favorable cases
muito claras, embora este tipo de regra seja til e como veremos and whose denominator is the number of all
adiante no uma regra nova a ser adicionada Desiderata mas a te cases possible
A Philosophical Essay on Probabilities,
ser deduzida do que j obtivemos. Alm disso Laplace e Bernoulli
Pierre Simon, Marquis de Laplace. 6a ed.
deixaram claro em outros lugares que a probabilidade era uma F.W.Truscott e F.L. Emory trads.
manifestao numrica de crenas a partir de informao, portanto
foram predecessores do exposto aqui. Considere, como Laplace h
mais de duzentos anos, MS a massa de Saturno. Ele fez asseres do
tipo: "A probabilidade que MS < M0 ou MS > M0 + m menor
que 104 ", que ele colocou em linguagem de apostas. Em linguagem
atual algo como P( M0 < MS < M0 + m| I ) > 1 104 . A
informao de fundo condicionante I representa a teoria de Newton
e os dados experimentais 5 . Ele no est dizendo que a massa de 5
A incerteza m que Laplace tem da or-
dem de 1% de M0 . O erro da estimativa
Saturno uma grandeza que apresenta variaes e se for medida
de Laplace em relao ao valor estimado
exatamente apresentar diferentes valores. Esquea meteoritos, que moderno de aproximadamente 0.6%. Ou
poderiam mudar sua massa. Por exemplo, ao jogar um dado, se seja, ele teria ganho a aposta. O valor nu-
mrico P( M0 < MS < M0 + m| I ) re-
medirmos qual o nmero de pontos na face que est para cima, presenta a crena que Ms esteja dentro do
intervalo ( M0 , M0 + m)
34 nestor caticha

este ter variaes para diferentes jogadas. Alguns autores acham


que s este tipo de varivel merece ser descrito por probabilidades.
Mas no a massa de Saturno qual se atribui a propriedade de ter
um valor real6 . O que Laplace quer dizer sobre o valor que 6
Real no sentido de ter existncia indepen-
dente do observador. Procure o significado
atribuimos, com base nos dados e teoria, crena que a massa est
de ontologico e de epistemico.
em um ou em outro intervalo. Quem acredita na definio de
probabilidades como frequncia, no pode falar da massa de Saturno
em termos de probabilidade, pois no h um conjunto de Saturnos
com diferentes massas. Falam em lugar disto, da probabilidade de
que o conjunto de medidas seja observado para o caso em que a
massa seja M0 . Em alguns casos isto dar o mesmo resultado, mas
em outros no. Se voc for acuado a definir a maior diferena entre
algum que define probabilidades atravs de frequncias e quem as
usa para expressar graus de crena, poder responder de forma
simplificada que este ltimo no hesita em falar da distribuio de
probabilidades de um parmetro, como a massa de Saturno,
enquanto o primeiro no admite tal linguagem 7 . 7
Em linguagem mais tcnica, ao espao
de parmetros tambm atribuido um
campo.
2.2 Algumas definies

Nesta altura podemos identificar os elementos formais principais


para falar de probabilidades na linguagem de Kolmogorov.
Primeiro necessrio deixar claro sobre o que se est falando:

E a coleo de elementos A, B, C.... eventos elementares ou de


asseres. Em alguns meios chamado de espao amostral.

F o campo: o sistema de conjuntos de asseres. Espao de


eventos

P( A) a atribuio de um nmero positivo a cada elemento de F ;

Desta forma costumeiro chamar a trinca (Espao amostral,


Espao de eventos, Probabilidade de cada evento).

( E, F , P )

de Espao de probabilidades.
A apresentao do captulo 1 no discorda disto, a no ser pelo
ponto essencial que as probabilidades sero sempre condicionais e
esquecer isso ser a maior fonte de erros nas aplicaes. Quando
algum se refere a uma probabilidade tipicamente tem em mente
detalhes que se recusa a deixar explcitos pois esse exerccio pode
parecer cansativo. Outras vezes, e isso mais perigoso, age como se
tivesse em mente certos detalhes de informao, mas ao no
perceber pode achar que no h alternativas. Alm disso quando a
teoria tem parmetros, como ser discutido em mais detalhes no
prximo captulo, queremos poder falar das probabilidades de que
os parmetros tenham valores em uma dada regio. Isto no est
em desacordo com a posio de quem adota os axiomas de
probabilidades 35

Kolmogorov. Basta aumentar o espao amostral e o -campo e


atribuir probabilidades aos elementos do novo campo. Isto porm
no est de acordo com uma viso frequentista pois a massa de
Saturno, ou qualquer outro parmetro de uma teoria tem uma
natureza ontolgica que no lhes permite ser descrito em termos de
frequncia.
3
Uso elementar de Probabilidades

Este capitulo muito mais simples que os anteriores, pois agora


uma questo de comear a desenvolver a estrutura matemtica para
poder lidar com aplicaes simples.

3.1 Distribuies de probabilidade e densidade de probabili-


dade

A escolha das variveis e identificao de suas caractersticas para


descrever um problema o passo mais importante em todo o
processo que iremos descrever. Em geral estamos interessados em
identificar antes de tudo os graus de liberdade relevantes do
problema e o espao em que essas variveis vivem.
Agora introduziremos alguns exemplos de sistemas que
permitiro justificar o interesse do estudante no desenvolvimento
futuro da teoria:
Moeda: Vamos apostar num jogo que envolve jogar uma moeda
a vrios metros de altura e deixar cair no cho Uma moeda feita
de nquel e ferro, tem propriedades magnticas. No desenho na
parte central, de um lado, aparece em relevo o 1 real e o ano que foi
cunhada. Do outro, a imagem do rostro da Repblica. Na parte
externa um disco de bronze. A massa aproximadamente 7g. A
espessura 1.95 mm... Posso continuar dando informao irrelevante.
Neste caso fcil reconhecer que irrelevante. O que voce quer
saber que posso descrever o estado final por uma varivel que
toma um de dois valores: s = +1 ou s = 1. Uma assero sobre a
que podemos pensar "A moeda caiu com a cara para cima".
claro que neste caso foi muito fcil identificar a irrelevncia da
maior parte do que foi dito, mas isso nem sempre bvio e
devemos ter cuidado.
Radioatividade: Um contador Geiger detecta partculas
ionizantes. A assero sobre aqual no temos informao completa
: "O intervalo de tempo entre deteces T", que pode tomar valores
t, com 0 < t < . Ou no mesmo problema: "Qual o nmero n de
partculas detectadas num intervalo t."
Partcula: As coordenadas de uma partcula R = ( X, Y, Z )
tomam valores r = ( x, y, z) dentro de uma caixa cbica de lado L.
Assim e.g. 0 < x < L. Podemos atribuir probabilidade a asseres
38 nestor caticha

do tipo "A partcula tem coordenadas R dentro uma caixa de


volume dV centrada em r". Por preguia diremos a mesma frase de
forma simplificada "A partcula tem coordenadas R = r". Ou "A
velocidade tem valores numa vizinhana de v", onde a vizinhana
tem tamanho dado v x (v x , v x + v x , com expresses similares
para a vy e vz . Mais sobre isto daqui a pouco.
Isto ser interessante para descrever um gs de molculas numa
caixa:
Duas partculas. Na caixa descrita acima temos duas partculas
idnticas mas distinguveis. As coordenadas de cada uma so
respectivamente R1 e R2 . O espao de fases o produto cartesiano
dos dois espaos. Como exemplos de asseres em que podemos
estar interessados: "(A partcula 1 tem coordenadas R1 = r1 ) e (A
partcula 2 tem coordenadas R2 = r2 ). Note que ao falar de
P( R1 = r1 e R2 = r2 | I ) estamos falando do produto lgico das
asseres individuais. Em geral e por preguia a escreveremos
P(r1 , r2 | I ) ou simplesmente P(r1 , r2 )
N partculas. Igual que acima mas agora N partculas. Falaremos
da probabilidade P(r1 , r2 , ..., r N | I ). Isto e variaes sobre tema sero
os tpicos principais do curso de Mecnica Estatstica. O significado
de I de extrema importncia, pois as probabilidades dependero
de que tipo de partcula estamos falando, das suas interaes e das
condies experimentais do sistema. A influncia das partculas
vizinhas sobre a partcula 1 pode ser descrita por probabilidades
P(r1 |r2 , ..., r N , I ).
Medida da carga do eltron: Um conjunto D = (d1 , d2 , ..., dK ) de
medidas feito no laboratrio. A teoria nos fornece um modelo
para a experincia que relaciona o parmetro de interesse, neste
caso a carga do eltron e, com a quantidade que medimos: d = F (e).
Mas sabemos que o dado di no livre de erro de medida, ou seja
no temos informao completa sobre d. Podemos ento tentar
codificar o que sabemos sobre d atravs de uma distribuio P(d| D ).
Finalmente podemos falar sobre o conhecimento incompleto que
temos sobre a carga e atravs de P(e| D, I ). Este tipo de anlise
bsico para a extrao de informao a partir de medidas
experimentais.
Cognio Um modelo de cognio de um animal pode ser feito
considerando as variveis relevantes. Os estados de neurnios de
um sistema sensorial so descritos conjuntamente por uma varivel
X que toma valores x em algum espao bastante complicado que
no vem ao caso agora. Os estados de outras partes do crebro so
descritos por uma varivel Z que toma valores z. O meio ambiente
onde se encontra o animal modelado por um conjunto de
variveis Y que tomam valores y, que certamente um subconjunto
das variveis que poderiam ser usadas para descrever o mundo l
fora. O problema de cognio pode ser atacado considerando
probabilidades P(y| x, z, I ). Neste caso I representa o conhecimento
de Neurocincia que tenhamos incluindo anatomia, dinmica dos
neurnios e dinmica das sinpses. O mundo est em algum
probabilidades 39

estado, mas o modelo s pode atribuir probabilidades s diferentes


possibilidades, pois o animal tem informao incompleta. Pense
sobre a modelagem de iluses visuais, onde algo parece mas no
verdade. Substitua a palavra animal por mquina nesta modelagem e
teremos a possibilidade de descrever modelos artificiais de cognio
que so bsicos na rea de aprendizagem de mquinas (machine
learning).
Agentes Econmicos e Sociais: Daremos alguns exemplos no
decorrer das aulas, mas interessante notar que o uso de estatstica
em cincias sociais precede o seu uso em fsica.
Esportes Um jogador de basquete arremessa com uma
probabilidade P(C | I ) de converter uma cesta. H dias em que tem
uma mo quente?

Como vemos, tanto o terico quanto o experimental podero usar


as ferramentas da teoria de probabilidades para tratar situaes de
informao incompleta.
Continue, olhe em volta e identifique sistemas que possam ser
interessantes e descreva as varaveis de interesse. Exemplos: Um
dado cbico, jogo de Bingo, condies de vida em um planeta,
epidemia de Zika, bolsa de valores, uma amostra de ferro, e muito
mais.
A partir de agora introduziremos alguns resultados matemticos
que sero teis no desenrolar do curso.

3.2 Tipos de Vriveis

3.2.1 Variveis discretas


Uma varivel S toma valores no conjunto E = (s1 , s2 , ....s N ). Por
exemplo para um dado de cbico Edado = (1, 2, 3, 4, 5, 6). Mas pode
ser muito mais rico que isto. As asseres que faremos sero do tipo
Ai ="S vale si ". Ou talvez B13 ="S toma valores no conjunto
(s1 , s3 )."
Por preguia, ou melhor para simplificar a notao,
confundiremos as notaes de tal forma que sob condies I a
probabilidade P( Ai | I ) pode ser escrita simplesmente por P(si | I ).
Ainda cometeremos a notao P(si ) sem especificar que h um
condicionante I, talvez tacitamente suposto presente, mas s vezes
esquecido de forma a levar a confuso e at a erros grosseiros. I
ser chamado de informao de fundo e envolve tudo o que
sabemos sobre o problema. Chamaremos o conjunto de valores
P(si | I ) de distribuio de probabilidades da varivel S.
As asseres Ai so mutuamente exclusivas se o valor de S no
pode ter simultaneamente dois valores quaisquer. Neste caso
Ai A j = , para i 6= j e portanto P( Ai A j | I ) = 0. Tambm so
exaustivos de forma que no h possibilidade de que S tenha
valores fora desse conjunto. Assim temos que

A1 A2 .... A N = E
40 nestor caticha

e temos certeza que E verdadeiro. Segue que

1 = P( A1 A2 .... A N | I )
N
1 = P ( A i | I ). (3.1)
i =1

Esta ltima expresso indica que a soma sobre todas os valores


possveis de S um e ser satisfeita por toda distribuio de
probabilidades. chamada condio de normalizao.

3.2.2 Vriveis reais: densidades de probabilidades


Em particular estamos interessados em grandezas fsicas descritas
por variveis que tomam valores em intervalos dos reais, que
chamaremos L.
No que segue lidaremos com asseres do tipo a varivel X
toma valores entre x e x + dx. No sabemos ainda como, mas
suponha que atribuimos um nmero a esta probabilidade. Como
seria se lidassemos com a probabilidade de "X toma valor x"?
Escolha um nmero entre 0 e 1. Se todos os nmeros forem
igualmente provveis, a probabilidade de cada um deles seria zero,
pois a soma deve dar um. Vemos que rapidamente chegamos a
bobagens. Em geral e porque ainda no temos a matemtica para
lidar como esse tipo de problema, iremos falar somente de
probabilidade de intervalos. Isso nos permite introduzir a
densidade P( x | I ) tal que a probabilidade de que a varivel X toma
valores entre x e x + dx dada por P( x | I )dx. P( x | I ) no uma
probabilidade mas chamada de densidade de probabilidade 1 . 1
Usamos a letra P por motivos histricos e
eventualmente a chamaremos de probabili-
Teremos ento que
dade, por preguia. Tambm esqueceremos
de apontar os condicionantes e escrevere-
P( x | I ) 0 mos muitas vezes simplesmente P( x ).
R
L P( x | I )dx = 1

Aqui reconhecemos a generalizao da condio de normalizao


da equao 3.1, pois o intervalo L engloba todas as possibilidades
de valores de X. Mas para qualquer intervalo D : { x | x [ x1 , x2 ]}, a
probabilidade de X estar em D ou x1 x x2
Z
P( x D | I ) = P( x | I )dx
D

3.2.3 Distribuio cumulativa de probabilidade


Se uma varivel X toma valores x no eixo real, e descrita por uma
densidade P( x | I ), a distribuio cumulativa definida por
Z x
( x | I ) = P( x 0 | I )dx 0 . (3.2)

seque que ( x | I ) a probabilidade de X tomar valores menores


que x e a densidade de probabilidade
d
P( x | I ) = ( x ) (3.3)
dx
probabilidades 41

3.3 Caracterizao de distribuies e densidades de Probabili-


dade

A informao disponvel ao falar de X ser equivalente densidade


de probabilidade para todo x. Mas isto talvez seja muito. comum
que seja necessrio caracterizar, pelo menos parcialmente, o valor
de X com um nmero, isto um estimador ou estimativa de X. H
vrias possibilidades e cada uma tem utilidade

(1) x M = maxarg P( x | I )
R
(2) h x i = IE[ x ] = L xP( x | I )dx
R R
(3) xm tal que x xm P( x | I )dx = x xm P( x | I )dx

estes nmeros recebem os nomes de (1) moda, (2) valor esperado ou


esperana ou mdia e (3) mediana.
A moda o valor mais provvel. No quer dizer que se fizermos
uma medida de X o obteremos, mas o valor que ter mais
probabilidade de ser encontrado. Podem haver vrios valores que
satisfazem o critrio. A mdia leva em considerao todos os valores
possveis, cada um com voto proporcional sua probabilidade. A
mediana o valor tal que a probabilidade de ser menor ou maior
igual. Cada uma til ou no em diferentes cirscunstncias. Veja os
exerccios. Cada uma resume a informao de forma a contar uma
histria. Devemos ter cuidado pois o contador da histria pode ter
um motivo para contar a histria de forma resumida da maneira
que mais ou menos favorvel a uma idia que quer ver defendida.
Podemos pensar em outras formas generalizando as idias acima.
O valor esperado ou esperana de uma funo f ( x ), denotado
por IEx ( f ) ou IE( f ), ou ainda alternativamente por h f ( x )i,
definido por Z
IEx ( f ) = h f ( x )i = f ( x ) P( x )dx (3.4)
L
Usaremos tanto a notao IEx ( f ) ou IE( f ), preferida em textos de
Matemtica quanto h f ( x )i mais usada em textos de Fsica. A
notao que usamos de alguma forma deixa esquecida a idia que a
probabilidade depende da informao disponvel. Quando for
necessrio deixar explcita a informao condicionante usaremos
IEx ( f |C ) ou h f ( x )i|C .2 2
Usaremos esta notao s vezes, pois
usaremos o direito de ser inconsistentes na
Pode ser muito til caracaterizar a distribuio pelas flutuaes
notao, esperando que isso no confunda
em torno da mdia: quanto se afasta x da su mdia, x = x h x i. o leitor, mas o torne imune s vrias nota-
Novamente podemos olhar para a mdia, s que agora das es na literatura. Isso

flutuaes e vemos que hx i = 0 , isto no significa que a idia de


flutuao no seja til, s porque por construo a sua mdia nula.
A mdia do seu quadrado muito til e recebe o nome de varincia:

Var( X ) := IE(( x IE( x ))2 ) = h( x h x i)2 i. (3.5)

Obviamente Var( X ) 0. fcil mostrar que Var( X ) = h x2 i h x i2 .


Algumas vezes nos referiremos varincia por X2 , por preguia que
veremos justificada algumas vezes, mas outras no.
42 nestor caticha

O valor esperado ser muito usado no que segue, podemos


generalizar a ideia e introduzir os momentos de uma distribuio:

mn := h x n i = IE[ x n ] = L x n P( x )dx
R

para valores inteiros de n (claro que caso a integral exista). Em


notao mais carregada

mn|C :=< x n >|C = IE[ x n |C ] = L x n P( x |C )dx


R

para identificar claramente que estes so os momentos de X sob a


informao C.
Os momentos centrais so definidos da mesma forma, mas para a
varivel deslocada para que sua mdia seja nula:

Mn|C := h( x h x i)n i|C = h x i)n P( x |C )dx


R
L (x

e note que Var( X ) = M2 .

3.4 Marginais e Independncia

As idias de Marginalizao e independncia so de grande


importncia em toda a teoria e as aplicaes que seguem.
Marginalizao
Considere as asseres a, b, b, c e os produtos ab|c e ab|c. Um
resultado extremamente til

p( a|c) = p( ab|c) + p( ab|c)


A prova simples e a intuio tambm. Por exemplo a =uma
pessoa tem altura entre h e h + h , b =uma pessoa tem peso
maior que w. Assim temos que a probabilidade de a, ter altura no
intervalo a soma das probabilidades de ter altura nesse intervalo e
ter peso menor que w somada probabilidade de ter altura nesse
intervalo e ter peso maior ou igual a w.
A prova usa a regra do produto duas vezes, e a da negao uma:

p( ab|c) + p( ab|c) = p( a|c) p(b| ac) + p( a|c) p(b| ac)


 
= p( a|c) p(b| ac) + p(b| ac)
= p( a|c) (3.6)

Claro que se tivermos b que toma valores sobre um conjunto de


asseres {bi }i=1,...N mutuamente exclusivas e exaustivo teremos
N
p( a|c) = p(abi |c)
i =1

e dizemos ao marginalizar p( ab|c) sobre a varivel b obtemos a


distribuio p( a|c).
Voltando s alturas e pesos olhe uma tabela das probabilidades
conjuntas onde cada entrada descreve o conhecimento para uma
certa faixa de peso e de altura. Somamos as entradas para cada
linha e as escrevemos na margem direita. Estas so simplesmente as
probabilidades 43

probabilidades para a faixa de altura sem levar em conta o peso.


Essa a origem do termo marginal, pois era anotado margem da
tabela conjunta quando o papel era o meio usado para aumentar a
memria do usurio. Somando as entradas ao longo das colunas
temos a probabilidade do peso independente de altura.

w1 w2 ... wN i=1...N P(h j , wi )


h1 P ( h 1 , w1 ) P(h1 , w2 ) ... P(h1 , w N ) P ( h1 )
h2 P ( h 2 , w1 ) P(h2 , w2 ) ... P(h2 , w N ) P ( h2 )
.. .. .. .. .. ..
. . . . . .
hM P(h M , w1 ) P(h M , w2 ) ... P(h M , w N ) P(h M )
j=1...M P(h j , wi ) P ( w1 ) P ( w2 ) ... P(w N )
Tabela 1.3
As marginais so escritas na margem!

O outro conceito de extrema importncia o de


Independncia
A regra do produto em geral

p( ab|c) = p( a|c) p(b| ac)

se reduz ao produto das marginais

p( ab|c) = p( a|c) p(b|c) (3.7)

quando p(b| ac) no depende de a. Se informao da veracidade de


a no altera crenas sobre b, dizemos que nas condies de que c
seja verdadeiro, b independente de a. bvio que a
independncia reflexiva, pois tambm podemos escrever

p( ab|c) = p(b|c) p( a|bc)

o que significa, dada a equao 3.7 que p( a|bc) = p( a|c). Assim


temos que distribuies conjuntas de variveis independentes se
reduzem a produtos. As interaes fsicas entre partculas sero
descritas por distribuies que no se fatorizam nas marginais, i.e
nas probabilidades das variveis de cada partcula.

3.4.1 Independncia aos pares , mtua e condicional


Suponha que tenhamos um conjunto de asseres sob considerao
S = { A1 , A2 , ...AK }. Dizemos que os Ai so independentes aos pares
na condio C, se para todo i, j com 1 i K e 1 j K tivermos

P ( A i | A j C ) = P ( A i | C ).
44 nestor caticha

Dizemos que os membros de S so mutuamente independentes


na condio C se

P( A1 , A2 , A3 ...AK |C ) = P( A1 |C ) P( A2 |C )....P( AK |C ).

Mas claro que em geral, a distribuio conjunta pode ser


manipulada usando a regra do produto. Para K = 3, supondo
independncia aos pares

P ( A1 , A2 , A3 | C ) = P ( A1 | C ) P ( A2 A3 | A1 C ) = P ( A1 | C ) P ( A2 | A1 C ) P ( A3 | A1 A2 C )
= P ( A1 | C ) P ( A2 | C ) P ( A3 | A1 A2 C ) (3.8)

e para a chegar ao produto i=1,2,3 P( Ai |C ), deveriamos ainda


impor que P( A3 | A1 A2 C ) = P( A3 |C ) que mais restritiva que
indepndencia aos pares. Mas isto sutil e merece um exemplo
especfico para ficar mais claro.
Vamos imaginar uma moeda sendo jogada. A1 :"cara na primeira
jogada", A2 :"cara na segunda jogada", A3 :"as duas jogadas tiveram
o mesmo resultado", que equivalente a escrever
A3 = A1 A2 + A1 A2 . Dada a independncia das duas jogadas temos

P ( A1 | A2 C ) = P ( A1 | C ), P ( A2 | A1 C ) = P ( A2 | C )
P ( A2 | A3 C ) = P ( A2 | C ), P ( A3 | A2 C ) = P ( A3 | C )
P ( A3 | A1 C ) = P ( A3 | C ), P ( A1 | A3 C ) = P ( A1 | C )
(3.9)

mas
P ( A1 | A2 A3 C ) = 1 6 = P ( A1 | C )
Completamos a definio de mutuamente independente se
P( Ai | Bi C ) = P( Ai |C ) onde Bi em um subconjunto qualquer de S
que no inclua Ai .
Como toda probabilidade condicional, a independncia
tambm depende do contexto. Podemos ter P( X |YZ1 ) = P( X | Z1 )
mas P( X |YZ2 ) 6= P( X | Z2 ). Por exemplo no caso das moedas Z1 e
Z2 poderiam diferir nas condies iniciais do lanamento e.g.
altura, energia, velocidade angular, etc. Vamos supor que X, Y e Z
tomem valores reais. Se X e Y forem independentes na condio Z,
ou seja P( XY | Z ) = P( X | Z ) P(Y | Z ), ento a como funes dos
valores destas variveis teremos
P( XY | Z ) = P( X = x, Y = y| Z = z) = P( x, y|z) deve satisfazer

P( x, y|z) = f ( x, z) g(y, z).

Por outro lado se P( x, y|z) = f ( x, z) g(y, z) possvel mostrar que X


e Y so independentes na condio Z.
Para concluir o estudante deve notar que a idia de
independncia no deve ser confundida com a de mutuamente
exclusivo. Independencia leva a que a regra do produto
P( ab|c) = P( a|c) P(b| ac) = P( a|c) P(b|c). Mutuamente exclusivo
implica em P( a + b|c) = P( a|c) + P(b|c) P( ab|c) =
P( a|c) + P(b|c) P( a|c) P(b| ac) = P( a|c) + P(b|c).
probabilidades 45

3.5 Exemplos de Famlias de Distribuies de probabilidade

No contexto deste curso, uma varivel aleatria simplesmente


alguma varivel para a qual no temos informao completa e
portanto, o que soubermos ser usado para construir uma
distribuio de probabilidades. comum que a distribuio seja
escolhida dentro de uma famlia. Uma funo de pelo menos duas
variveis f ( x; ), no negativas e integrveis, pode ser considerada
uma famlia paramtrica de funes de x com como parmetro.
Tanto x quanto podem ser multidimensionais. Apresentaremos a
seguir exemplos de familias onde x pode ser discreto ou contnuo,
unidimensional ou multidimensional. Algumas famlias das
distribuies aparecem de forma recorrente em muitas aplicaes e
vale a pena ter certa familiaridade. Podemos ter diferentes motivos
que levem ao uso de uma famlia. Por exemplo, desde o mais
simples como informao sobre o domnio de valores de uma
varivel, a motivos tericos sobre a dependncia entre as variveis
relevantes. Os motivos tericos podem ser toda a rea da Mecnica
Estatstica e as dependncias terem relao com forcas entre
partculas.
O que segue no pode ser considerado uma exposio completa
das propriedades das distribuies. Algumas, como a binomial e a
gaussiana, sero tratadas com muito mais detalhe em captulos
posteriores. A notao usual em estatstica ao dizer que a varivel X
tem distribuio do tipo Blablabla com parmetros

X Bla()

usando algumas letras do nome da distribuio que pode ser o


nome de alguma pessoa, indicando tambm os valores ou nomes
dos parmetros.
A utilidade varia de motivaes tericas que foram um dado
tipo de modelo a simplemente a possibilidade de fazer algum
avano analtico. De qualquer forma sempre til ter um poste
onde possamos procurar a chave perdida.

3.5.1 Bernoulli
Esta distribuio uma das mais simples. Se uma varivel est
distribuida de acordo com a distribuio (ou equivalentemente
uma varivel) de Bernoulli escrevemos S Ber( p). Neste caso, S
tem dois valores possveis. Por exemplo o espao de valores
possveis de S E = {1, +1} ou {cara, coroa}, ou {0, 1}. A
distribuio de Bernoulli em termos de um parmetro p, 0 p 1
(
p se S = +1
P(S| p) =
1 p se S = 1.

Tambm pode ser escrita, usando o parmetro m = 2p 1 como


(
1+ m
2 se S = +1
P(S|m) = 1 m
2 se S = 1.
46 nestor caticha

O significado de p simples, um parmetro que caracteriza


membro da famlia sob considerao. Numericamente igual
probabilidade de S ter valor 1. Obviamente a de ter valor 1
1 p. O valor esperado de S

hSi = sP(S = s) = m = 2p 1,
s=1,1

que d a interpretao de m e o motivo por que interessante us-lo


como parmetro da distribuio. O segundo momento simples
pois S2 = 1 portanto
h S2 i = 1
a para a varincia S temos

S2 = hS2 i hSi2 = 1 m2 = 4p(1 p)


1+ S
Sob o risco de ser maante introduzimos a varivel R = 2 e
agora temos (
p se R = 1
P( R| p) =
1 p se R = 0.
portanto o valor esperado h Ri = p e a varincia
R2 = h R2 i h Ri2 = p(1 p). Estas variveis sozinhas podem
parecer muito simples, mas ao juntar vrias partculas cujos estados
so descritos por variveis deste tipo vamos poder modelar
fenmenos bem complexos. Por exemplo S pode representar
classicamente o spin de um on numa rede cristalina ou R pode
indicar a presena ou ausncia de uma partcula num modelo do
que se chama um gs de rede.
A varincia, o valor esperado do quadrado da flutuao, vai a
zero quando p = 0 ou p = 1 que so os casos em que a informao
completa: S = 1 sempre no primeiro caso e S = 1 sempre no
segundo. A varincia traz informao sobre a largura da
distribuio e isso no se restringe a esta distribuio.

3.5.2 Uniforme
Uma varivel X U (0, L) toma valores no intervalo do eixo real
L : 0 < x < L e sua probabilidade uma constante dentro do
intervalo e zero fora:
(
1
L se X L
P( X | L) =
0 se no.
Os valores esperados e varincia so
L
Z
hXi = xP( x )dx =
L 2
L2
Z
hX2 i = x2 P( x )dx =
L 3
L
X =
2 3
Obviamente podemos fazer translaes Y = aX + B e teremos
Y U ( B, aL + B) com probabilidade 1/aL dentro e 0 fora do
intervalo.
probabilidades 47

3.5.3 Binomial
Uma varivel de Bernoulli toma valores s = +1 ou s = 1 e
amostrada N vezes. Ou seja temos um conjunto de dados escritos
como uma lista (s1 , s2 , ....s N ). A varivel binomial m o nmero de
vezes que aparece o +1 nessa lista. Assim m Bin( p; N ).
Obviamente a distribuio de Bernoulli Ber( p)=Bin( p; 1).
Mostraremos no prximo captulo que
 
N m
P(m| pN ) = p (1 p ) N m
m
N!
= p m (1 p ) N m (3.10)
m!( N m)!

Voc encontrar frequentemente que isto descrito como a


probabilidade de n sucessos em N tentativas, quando p a
probabilidade de sucesso em cada tentativa. Voltaremos a falar
desta distribuio vrias vezes. Em particular fica faltando aqui
definir indepndencia entre cada uma das tentativas.

3.5.4 Binomial Negativa


Esta uma variao sutil sobre o tema de Bernoulli com respeito
distribuio anterior. Se obter s1 = 1 foi chamado de sucesso, ento
natural chamar si = 1 de fracasso, Agora fixamos o nmero de
fracassos k e pedimos a probabilidade do numero de sucessos n at
obter k fracassos.

n+k1 n
 
P(n| pk) = p (1 p ) k
n
Nas primeiras n + k 1 tentativas a ordem pode ser qualquer e o
nmero destas seqencias (n+nk1). A ltima tentativa, a n + k
deve ser um fracasso. A mdia IE(n) = pk/(1 p) e a varincia
pk/(1 p)2
Para verificar que a normalizao correta precisamos alguns
truques. Primeiro usamos a soma da progresso geometrica

1
= ps = 1 + p + p2 + pk1 + pk + ....
1 p s =0

e a derivada de ordem k

d k 1 1 ( k 1) !
k
( )=
dp 1 1 p (1 p ) k

que elimina os primeiros k 1 termos da soma da PG. Deixamos os


detalhes para o leitor.

3.5.5 Poisson
Para descrever a estatstica de contagens de um detetor til
introduzir a distribuio de Poisson. Veremos adiante que esta
distribuio est relacionada com a binomial. A probabilidade de n,
48 nestor caticha

nmero de contagens em um certo intervalo de tempo, dado o


parmetro que caracteriza o processo,

n
P(n|) = e
n!
O valor mdio

n
hni = n
n!
e
n =0

n
= e n n!
n =0

d n
= e
d n!
n =0
de
= e
d
= , (3.11)

e o segundo momento

n
h n2 i = n2 n! e
n =0
  
d d
= e e
d d
= + 2 . (3.12)

Portanto a varincia
2
Poisson = (3.13)

3.5.6 Beta
Uma varivel X toma valores x no intervalo 0 x 1 e tem dois
parmetros

( a + b ) a 1
P( x | a; b) = x (1 x ) b 1 (3.14)
( a)(b)
Note que se a e b forem nmeros inteiros, podemos escrever

( a + b 1) !
P( x | a; b) = x a 1 (1 x ) b 1
(( a 1)!(b 1)!
( N + 1) ! n
P( x |n = a 1; N = b + m 1) = x (1 x ) N n (3.15)
n!( N n)!
onde a parametrizao da ltima linha mostra uma certa
semelhana com a binomial. Uma pequena diferena que em
lugar de N temos N + 1 no numerador. A diferena fundamental
que na binomial falamos da probabilidade de n e aqui de x. As
duas distribuies esto relacionadas pelo resultado de Bayes:
P(n| x ) P( x |n). Voltaremos a falar nesta relao ao falar de
distribuies conjugadas.
Para a normalizao usamos um resultado devido a Euler
Z 1
n!( N n)!
EnN n = pn (1 p) N n dp = (3.16)
0 ( N + 1) !
probabilidades 49

Suponha que n < N n. Integramos por partes com


dv = (1 p)k dp e u = pr que leva a v = k+1 1 (1 p)k+1 e
du = rpr1 , assim
Z 1
Ekr = pr (1 p)k dp
0
r 1 Z
= pr1 (1 p)k+1 dp
k+1 0
r
= E r 1 .
k + 1 k +1

Comeando com r = n, Aps n passos temos uma integral


R1
0 (1 p) N dp = 1/( N + 1). Iterando

n n1 n ( n 1) 1
EnN n = (3.17)
Nn+1 Nn+2 Nn+n N+1

Multiplicando e dividindo por ( N n)! obtemos o resultado 3.16.


Se n > N n, mude variveis de integrao p 1 p e proceda da
mesma forma. Podemos calcular momentos da Beta da mesma
forma, pois IE( pr |Beta(n, N )) EnN+rn

3.5.7 Gamma

O nome desta distribuio devido a que a funo Gama definida


pela integral
Z
(u) = et tu1 dt, (3.18)
0

que voltaremos a ver vrias vezes, em particular no captulo 5. Uma


varivel X toma valores x no intervalo 0 x < e tem dois
parmetros a, conhecido com o parmetro de escala e b o parmetro
de forma:
1 x x
P( x | a; b) = ( ) b 1 e a (3.19)
a(b) a

O valor esperado h x i = IE( x ) = ab e a varincia


IE( x2 ) IE( x )2 = a2 b.

3.5.8 Gaussiana ou Normal

Dedicaremos o captulo 5 ao estudo desta distribuio. Uma


varivel X toma valores x no intervalo < x < e tem dois
parmetros a mdia e 2 a varincia:

1 ( x )2

P( x |; ) = e 22 (3.20)
2

uma vrivel que tem esta ditribuio dita normal ou gaussiana e


tipicamente na literatura estatstica se escreve

X N (, )
50 nestor caticha

3.5.9 Distribuio Exponencial


X toma valores reais no negativos, x 0. Um nico parmetro,
a > 0 d a escala e a varincia. A distribuio
1 x
P( x | a) = e a (3.21)
a
O valor mdio e a varincia so respectivamente

IE( x ) = a, IE( x2 ) IE( x )2 = a2

3.5.10 Laplace
Semelhante exponencial, mas com x podendo ser qualquer valor
real, portanto tambm conhecida como dupla exponencial,

1 | x |
P( x |a) = e a (3.22)
2a
onde um parmetro de localizao e a de escala. Note o fator 2
para garantir a normalizao.

3.5.11 Cauchy
a distribuio de Cauchy tem vrios nomes associados, Lorentz,
Cauchy-Lorentz, Breit-Wigner.

1 1
P ( x | x0 , a ) = (3.23)
a 1 + ( x x0 )2
a2
O valor mdio no definido da forma convencional, mas usando
uma definio da integrao em intervalos infinitos devida a
Cauchy, o valor principal de Cauchy
Z Z L
IE( x x0 ) = IE( x ) x0 = P ( x x0 ) P( x | x0 , a)dx = lim ( x x0 ) P( x | x0 , a)dx = 0
L L

por simetria, logo


IE( x ) = x0 ,
que coincide com a moda e a mediana. O interessante que
IE(( x x0 )2 )) = e portanto a varincia infinita.
Assintoticamente as contribuies para a integral vo como x2 /x2
constante. Mas ainda podemos definir a largura a meia altura, que
2a, a a separao entre os pontos x0 + a e x0 a, onde a
probabilidade 1/2a.

3.6 Mudana de Variveis

Ao analisar um sistema em fsica, o problema mais importante e


imediato o de identificar as variveis relevantes para representar
seus estados. Estudantes inexperientes podem achar que essa parte
fcil. O motivo que foi dito que o espao tem esta e aquela
caracterstica, que o tempo esse parmetro t que todos sabem o
que (menos eu). O que talvez no fique claro que milhares de
probabilidades 51

anos de tentativas levaram a atribuir certos modelos matemticos a


sistemas fsicos e ficam escondidas as vrias tentativas que
acabaram em becos sem saida, ou que se verificou posteriormente,
podiam ser significativamente simplificados.
Suponha que voce tenha informao I sobre uma varivel X que
toma valores x reais e codifique esse conhecimento numa densidade
de probabilidade P( x | I ). Por algum motivo, fica claro que seria til
introduzir Y que esta relacionada com X por uma funo f
conhecida
y = f ( x ).

A pergunta que se coloca o que podemos dizer sobre a densidade


de Y sob as mesmas condies de informao I?
A resposta fcil se pensarmos sobre o significado de densidade
de probabilidade. Vamos comear com f ( x ) uma funo
monotnica, que permite uma inverso x = f 1 (y). Consideremos
yi = f ( xi ) para i = 1, 2 e f crescente. A assero

"O valor de X toma valores x, tal que x1 < x < x2 "

deve ser equivalente assero

"O valor de Y toma valores y, tal que y1 < y < y2 "

Equivalente no sentido de que a mesma probabilidade deve ser


atribuida a cada uma delas se o contexto for o mesmo

Prob(y1 < y < y2 | I ) = Prob( x1 < x < x2 | I )

A relao entre as densidades de probabilidades deve ser


Z y2 Z x2
P(y| I )dy = P( x | I )dx
y1 x1

Se os intervalos de integrao forem suficientemente pequenos


podemos escrever
P(y| I )y = P( x | I )x

e no limite
dx
P(y| I ) = P( x | I )
dy
isto no mais do que simplesmente tomar a derivada com respeito
ao limite superior (no ponto y2 = y) e usar a regra da cadeia. As
regras de mudana de variveis no so mais que as regras de
mudana de varivel na teoria de integrao ou de medida. difcil
exagerar a importncia deste resultado.
O leitor poder agora estender os resultados para o caso em que
f for decrescente. Agora dx/dy = d f 1 (y)/dy dever ser
substituida por dx/dy. Tambm deve poder encontrar as regras
quando f no for monotnica, ou ainda quando x e y forem
generalizadas para mais dimenses.
Se a funo f ( x ) no for monotnica precisamos ter cuidado.
Olhemos para um exemplo simples. Seja U = X 2 , portanto um
valor u de U est associado a um valor x de X por u = x2 . A
52 nestor caticha

assero que U menor que um dado valor u, U < u idntica



assero que u < X < u, portanto, em termos da cumulativa

(u| I ) = Prob(U < u| I ) = Prob( u < X < u| I )

= Prob( X < u| I ) Prob( X < u| I )
= Prob( X < x | I ) Prob( X < x | I )
= ( x | I ) ( x | I ) (3.24)

derivando com respeito a u temos a densidade de probabilidade

d
P(u| I ) = Prob(U < u| I )
du
d d dx
= ( Prob( X < x | I ) Prob( X < x | I )) onde x = u
dx dx du
 1
= P( X = u| I ) + P( X = u) .
2 u
(3.25)

A transformao neste caso no invertvel e precisamos levar em



conta os dois ramos da inversa, tanto + u quanto u.
A integrao especialmente em espaos de alta dimensionalidade
uma das tarefas mais comuns nas aplicaes e consumir a maior
parte dos esforos computacionais. No captulo sobre integrao
Monte Carlo veremos como mudanas de variveis sero elevadas a
uma forma de arte.

3.7 Covarincia e correlaes

Introduziremos de forma rpida mas voltaremos a usar muitas


vezes a idia de correlaes que central nas aplicaes. Duas
variveis X e Y tem distribuio conjunta P( x, y| I ) sob informao
I. O valor esperado do produto
Z
IE( xy) = h xyi = xyP( xy| I )dxdy.

e o valor esperado do produto das variveis truncado, isto ,


substraido o valor mdio de cada varivel, a covarincia

Covxy = IE (( x IE( x ))(y IE(y)) = h( x h x i)(y hyi)i


= h xyi h x ihyi (3.26)

que o valor esperado do produto das flutuaes em torno da


mdia. Dadas as propriedades de X, o maior valor quea covarincia
pode ter quando X e Y so iguais, pois integral s tem
contribuies positivas. Nesse caso Covxx = Var( x ). Isso sugere
introduzir a correlao r, que aparentemente foi introduzida por
Pearson
Covxy
r = p (3.27)
Var( x )Var(y)

e que satisfaz 1 r 1.
probabilidades 53

No caso de n variveis Xi , i = 1...n, a matriz de correlaes Cij


tem elementos Cij = Covxi x j . Quando i um ndice temporal o
estudo das correlaes temporais de grande utilidade em Fsica
para caracterisar a dinmica de um sistema.

Exerccio Pense no significado de cada um dos estimadores de X


e da varincia VarX e proponha outros estimadores. Mostre casos
em que a moda, a mdia e a mediana no so iguais.
Exerccio Um heri luta com inimigos iguais e sempre com as
mesma armas. Cada luta independente de todas as outras e o
heroi tem probabilidade q = 1 p de ganhar cada luta, Obervamos
que ele se aposenta aps lutar N vezes, quando derrotado pela
n-sima vez. Ou seja temos n = N k derrotas e k vitrias. O
problema estimar p supondo

(1) Ele pode lutar um nmero indefinido de lutas, mas s pode


perder n vezes at sua aposentadoria. Portanto N uma varivel
aleatria.

(2) Ele s pode lutar um nmero N de lutas e o nmero de


derrotas n aleatrio.
4
Frequncia e Probabilidade

Professors of probability have been often and justly derided for


arguing as if nature were an urn containing black and white balls in
fixed proportions. Quetelet once declared in so many wordslurne
que nous interrogeons, cest la nature. John Maynard Keynes,
Treatise on Probability

Considere as duas frases abaixo

1) Acredito que o estudante que chega a este ponto j estudou algo


sobre probabilidade.
2) Amide o estudante que chega a este ponto j estudou algo sobre
probabilidade.

Parece que ambas dizem essencialmente a mesma coisa. Uma


expressa uma crena sobre a histria dos estudantes, a outra revela
que se verifica algo para os alunos que aqui chegaram. Mas no
dizem exatamente a mesma coisa. Poderia ser que o conhecimento
da primeira deriva de ter estudado o currculo do secundrio e
mesmo sem nunca ter visto um estudante, nem uma aproximao,
poderiamos ter informao sobre o que estudou. A segunda revela
que frequente encontrar estudantes que j fizeram algo.
A linguagem comum pode ser muito rigorosa e sutil. No entanto
outras interpretaes poderiam ser dadas s frases. Como
essencialmente as frases acima no so verdadeiras tentaremos,
dentro do formalismo descrito nos captulos anteriores, deixar mais
claro de que forma a intuio de que so equivalentes justificada e
de que forma no o .
At agora nos preocupamos com as regras de manipular
probabilidades, mas no lhe atribuimos valores numricos. Vamos
comear por estudar de que forma a informao sobre simetria
permite essa atribuio.

4.1 Simetria

Um experimento descrito pela informao contida em I1 =


Suponha que temos uma moeda com duas faces, que descrevemos
pela varivel = {1}. O valor = 1 est associado cara e
= 1 coroa. Jogo a moeda para cima, bate no ventilador do teto,
e cai num lugar onde no podemos no momento ver o resultado.
56 nestor caticha

Suponha que voc, o jogador J1 , jogue contra o jogador J2 . Esta


pessoa, por exemplo a Linda, no fala muito bem portugus e
chama os resultados de Karra e Korroa. Consideremos o seguinte
jogo, se = 1 voc ganha e ela perde. Do contrrio, ela ganha. Ela
aposta um feijo. Quanto voc estaria disposta a apostar?1 A 1
Jaynes no gosta de basear os fundamen-
tos da teoria em algo to vulgar como apos-
resposta tem relao, para pessoas racionais, que no dependem do
tas por dinheiro. No entanto esperamos que
feijo para sobreviver, com as probabilidades P( = 1| I J1 ) e qualquer noo a priori sobre apostas tenha
P( = 1| I J1 ) que voc atribui com base na informao I que inclui evoluido por seleo natural onde as apos-
tas amide no so por dinheiro mas sim
todo o que se sabe sobre a moeda e a forma como foi jogada 2 . pela prpria vida.
natural supor que voces concordem que 2
Este problema talvez muito mais com-
plicado pois no sabemos o que seja uma
P( = 1| I J2 ) = P( = 1| I J1 ) pessoa racional, mas simplesmente consi-
deremos algum que quer jogar e quer ga-
P( = 1| I J2 ) = P( = 1| I J1 ). (4.1) nhar, mesmo que isso acabe com objetivos
de longo prazo. Definir racionalidade deve
Mas agora descobrimos uma falha enorme de comunicao, o passar por estipular uma escala de tempo
em que o agente deve maximizar algo que
que Linda chama de Karra, voc chama de coroa. Voces pensam um pode ser chamado de utilidade ou felici-
pouco e atribuem probabilidades dade, mas s vezes na ausncia de boas
definies, so comumente substituidas por
dinheiro. Em cincia e em geral nas ativida-
P( = 1| I 0 J2 ) = P( = 1| I 0 J1 )
des humanas, perguntas difcies costumam
P( = 1| I 0 J2 ) = P( = 1| I 0 J1 ). (4.2) ser substituidas por outras mais simples,
primeira vista parecidas, mas que no ne-
cessariamente o so. Veja o livro de D. Kah-
onde I 0 descreve o novo estado de informao. Se os jogadores neman, Thinking fast and slow.
acharem que a nova informao no leva a mudar suas expectativas
com respeito atribuio de probabilidades, ou seja so
indiferentes, diro que os conjuntos de equaes 4.1 e 4.2 continuam
vlidos, mas agora podem ser escritos

P( = 1| I 00 J2 ) = P( = 1| I 00 J1 )
P( = 1| I 00 J2 ) = P( = 1| I 00 J1 )
P( = 1| I 00 J2 ) = P( = 1| I 00 J1 )
P( = 1| I 00 J2 ) = P( = 1| I 00 J1 ). (4.3)

onde I 00 declara que I e I 0 so equivalentes.


Dado que P( = 1| I 00 J1 ) + P( = 1| I 00 J1 ) = 1 e que ambos
termos so iguais a P( = 1| I 00 J2 ), devemos concluir que
P( = 1| I 00 J1 ) = 1/2 e P( = 1| I 00 J1 ) = 1/2.
Porque tantas voltas para chegar ao bvio? Por vrios motivos.
Em primeiro lugar notamos que este no o nico exemplo onde
usaremos simetria ou indiferena. A histria da Fsica mostra
muitas generalizaes do uso de simetria para atribuir
probabilidades ou definir a dinmica, o que no totalmente
diferente, pois dinmica vem das interaes e as interaes esto
relacionadas, como veremos adiante, com probabilidades
condicionais e dependncia. A idia de analisar este caso simples
deve-se a que as coisas vo ficar mais difceis e interessante se
apoiar em casos simples.
Se tivessemos um dado de n faces, com tomando valores de 1 a
n, teriamos chegado a P( = i | I ) = 1/n, a distribuio uniforme.
Note que esta atribuio tem a ver com a simetria da nossa
informao sobre o experimento do dado e no postulada a priori.
probabilidades 57

No tem a ver com a simetria do dado. Representar o dado atravs


de um modelo matemtico para o cubo perfeito, de densidade
uniforme, no passa de uma aproximao. No que ser difcil,
mas impossvel de aproximar na prtica. Portanto 1/n devido
simetria de informao e no a simetria fsica do cubo.
Este mtodo de atribuio de probabilidades parece ter sido
usado pela primeira vez por J. Bernoulli e posteriormente por
Laplace. Recebe nomes como princpio da razo insuficiente ou da
indiferena.

4.2 Moedas, Dados, Baralhos, Urnas

Ao longo dos estudos o estudante encontrar sistemas que so


simples e portanto estudados muitas vezes. Em dinmica estudar a
partcula livre e o oscilador harmnico, posteriormente o tomo de
hidrognio e o spin de Ising. Em termodinmica usar caixas
rgidas de paredes termicamente isolantes. Nada ser to simples na
vida real. Uma partcula nunca est isolada. Nem mesmo o tomo
de hidrognio um proton e um letron e nada mais. E mesmo
assim desta forma que aprendemos. Aqui a urna, estudada por
Bernoulli e Laplace o sistema simples. Um baralho de cartas ou
uma moeda tambm so sistemas simples e recorrentes, embora
nunca sejam de interesse final nas aplicaes que nos motivam a
estes estudos. No obstante Quetelet, a urna ideal no tem nada a
ver com a natureza. Isto um exerccio e se no soubermos como
agir em condies simples no teremos nenhuma chance contra os
problemas reais. um erro grosseiro olhar para um recorte do
mundo, achar que uma urna e depois criticar a teoria de
probabilidades por resultados que contradigam o bom senso.
Uma urna ideal uma bolsa opaca com bolas iguais ao tato.
Algum com uma luva de box far a extrao de uma bola por vez.
H vrios jogos que podem ser jogados. O conjunto de bolas pode
ter nmero conhecido ou no. As bolas podem ter cores diferentes e
poderemos saber ou no quantas bolas de cada cor esto dentro.
Podemos retirar bolas e rep-las ou no, podemos tirar uma bola
sem ver que tipo e proceder a retirar outras. Voce pode retirar a
bola de uma urna que eu preparei, ou voce pode ver um mago
retirar a bola de uma urna que voce viu enquanto ele a preparava.
H uma fauna enorme de jogos que podem ser feitos e
essencialmente em todos, o objetivo fazer previses sobre o que
pode ocorrer a seguir, ou o que pode ter ocorrido antes. 3 3
Predictions are risky, specially about the
future. Vrios autores, alguns srios ou-
tros no. J a vi atribuida a Bertrand Russell
4.3 Urnas e Niels Bohr mas tambm a Dan Quayle e
Yogi Berra. No sei se estas atribuies so
verdadeiras. O significado de uma frase
O caso mais simples talvez seja I1 ="uma urna com N bolas condicionada a quem a enunciou.
numeradas de i = 1...N". Qual a probabilidade de extrair a bola j?
Por simetria de informao natural associar a mesma
probabilidade a cada uma delas. Como so exclusivas e
mutuamente exaustivas alm de iguais, temos que P(bola
58 nestor caticha

= j| I ) = P( j| I ) = 1/N. Isso bvio. Parece at uma imposio da


qual no podemos escapar. Mais ainda, uma lei da fsica. Mas
certamente no .
Suponha que voce jogue contra um mafioso e a bola ser extraida
por um mgico profissional cuja filha foi raptada pelo mafioso.
claro que voc deve suspeitar que as probabilidades das diferentes
bolas no devem ser iguais para o mgico nem para o mafioso. Mas
e para voc? A simetria de sua informao no permite distinguir
entre as bolas e no pode ir alm de atribuir a mesma
probabilidade. Agora voc escuta que o mgico sugeriu ao mafioso
apostar na bola 17. A informao no mais simtrica. Tudo isso
ocorreu antes de extrair uma bola sequer. A frequncia ainda no
pode ser definida.
Voltemos ao caso simtrico. I2 = "Das N bolas M so vermelhas
(V ) e K = N M so azuis ( A)". Por simplicidade para 1 i M
as bolas so vermelhas e para M + 1 i N so azuis. Esquea o
mgico, agora acreditamos que a pessoa que realiza extrao no
influenciada pela cor da bola. Portanto a probabilidade de extrao
de cada bola igual a 1/N. Qual a probabilidade que a bola
extraida seja vermelha? O evento "a bola V" verdadeiro se a bola
extraida tem o nmero i com 1 i M. Os eventos "a bola i"so
mutuamente exclusivos, portanto
V = (i = 1) (i = 2) (i = M ) que a bola seja V a unio ou
soma de que tenha ndice 1 i M. A regra da soma nos d

M
1
P(V | I2 ) = P(i| I2 ) = M N
i =1
M
= (4.4)
N
Este um resultado obtido a partir da regra da soma e da simetria
de informao sobre as bolas antes de extrair uma nica bola. Na
seo 2.1.1 vimos que em algum ponto da histria isto foi usado
como definio de probabilidade por Bernoulli e Laplace 4 . A 4
Repetimos: "...probabilidade, que ento
simplesmente a frao cujo numerador o
probabilidade de extrao de uma bola V simplesmente a razo
nmero de casos favorveis e cujo denomi-
entre os casos "favorveis"ou vermelhos e o total de casos. O nador o nmero de todos os casos poss-
estudante pode achar que j sabia isto e portanto uma perda de veis."No contexto:
"The theory of chances consists in re-
tempo. Deve entender que o objetivo aqui era o de identificar as ducing all the events of the same kind to
hipteses por trs deste resultado trivial e intuitivo. Deve ficar claro a certain number of cases equally possi-
ble, that is to say, to such as we may be
que isto no nenhuma frequncia porque ainda no foi retirada
equally undecided about in regard to their
uma nica bola da urna. Aprender a identificar as hipteses existence, and in determining the number of
subjacentes um dos objetivos do curso. Quando fcil, quando cases favorable to the event whose proba-
bilty is sought. The ratio of this number to
inituitivo, quando lembramos de ter escutado falar deste problema that of all the cases possible is the measure
no curso primrio, parece desnecessrio percorrer um caminho of this probability which is thus simply a frac-
tion whose numerator is the number of favo-
longo. Quando o estudante tiver que resolver problemas nunca
rable cases and whose denominator is the
antes vistos, ou mais interessante ainda, formular novos problemas, number of all the cases possible."
o exerccio de identificar as hipteses subjacentes ser amiude a A Philosophical Essay on Probabilities,
Pierre Simon, Marquis de Laplace. 6a ed.
nica ferramenta disponvel. Vemos que a regra M/N muito F.W.Truscott e F.L. Emory trads.
retritiva pois se aplica ao caso I2 e no permite levar em conta a
existncia de mafiosos nem outra variantes que podem ocorrer na
probabilidades 59

natureza. Portanto no deveria ser tomada como a definio de


probabilidades mas simplesmente um resultado obtido a partir das
regras de manipulao dos nmeros que representam nossas
crenas, obtidas no captulo 1, para uma experincia realizada sob
um conjunto de restries determinado.

4.3.1 Urnas: extraes repetidas com reposio.


Extraimos uma bola, que chamamos a primeira, anotamos sua cor e
chamamos x1 que pode ser V ou A. Colocamos a bola novamente,
isto chamado de Reposio. Chacoalhamos a urna. Fazemos isso
R vezes e obtemos assim a srie DR = { x1 , x2 , ....x R }, que chamamos
os Dados ( dado=datum e dados= data em ingls.) Chamaremos R
de tamanho da sequncia.
Pense e discuta o que significa chacoalhar a urna. Para cada
extrao estamos nas condies do caso anterior: M, K e N tem o
mesmo significado que antes. O resultado de uma extrao
independe de quais foram as bolas extraidas antes:
M
P( xn = V | x1 , x2 , ..., xn1 I2 ) = P( xn = V | I2 ) = (4.5)
N
Para uma dada sequncia usamos a regra do produto

P( x1 , x2 , ..., xn | I2 ) = P( xn | x1 , x2 , ..., xn1 I2 ) P( x1 , x2 , ..., xn1 | I2 )


= P( xn | I2 ) P( xn1 | x1 , x2 , ..., xn2 I2 ) P( x1 , x2 , ..., xn2 | I2 )
= ...
= P( xn | I2 ) P( xn1 | I2 )...P( x1 | I2 )
n
= P(xi | I2 ) (4.6)
i =1

Se a sequncia for e.g. VVAAAVV teremos

P(VVAAAVV | I2 ) = ppqqqpp = p4 q3 (4.7)

onde usamos a notao p = M/N e q = K/N, com p + q = 1.


Devido independncia entre os resultados de cada extrao, a
ordem temporal das ocorrncias de vermelho e azul irrelevante,
portanto a nica coisa que importa o nmero de vezes que na
sequncia apareceu o vermelho ou que apareceu o azul.

4.4 A distribuio binomial

Agora fazemos outra pergunta: independentemente da ordem, qual


a probabilidade de ter m vermelhas e k = R m azuis (numa
extrao com reposio de R repeties da extrao de uma bola,
quando M e K so os nmeros conhecidos de bolas vermelhas e
azuis, respectivamente)? comum dizer de forma equivalente que
queremos a distribuio de m sucessos em R tentativas, quando a
probabilidade de sucesso p = M/N.
Novamente usaremos as regras da probabilidade. Primeiro as
sequncias diferentes de R extraes so eventos mutuamente
60 nestor caticha

exclusivos. Ou aconteceu uma, ou aconteceu outra, alguma


aconteceu e no podem ser duas simultaneamente verdadeiras.
Dado R, a probabilidade de obter m bolas vermelhas (e portanto
obrigatoriamente k azuis) obtida da regra da soma, como a soma
das probabilidades sobre todas as sequncias com m, k. Mas cada
sequncia tem a mesma probabilidade pm qk , buscamos portanto o
nmero de sequncias com m e k.
O resultado deve ser familiar. Chame o nmero de sequncias de
tamanho R com m, k de CRm . Considere que j resolvemos o
problema para sequncias de tamanho R 1, para qualquer
1
0 m R 1. Portanto CRm m
1 e CR1 so consideradas conhecidas.
Suponha que extraimos R 1 bolas. H somente duas formas de
obter m e k aps a retirada da ltima bola. Isto s pode ocorrer se
aps R 1 extraes

(i) tivermos obtido m 1 vermelhas aps R 1 extraes e na


R-sima, for extraida uma bola vermelha, o que pode ter ocorrido
1
de CRm 1 formas ,

(ii) tivermos obtido m vermelhas aps R 1 extraes e na


R-sima, for extraida uma bola azul que pode ter ocorrido de
CRm1 formas diferentes.

Portanto, temos, para R > 1 a relao de recorrncia para o nmero


de sequncias
1
CRm = CRm m
1 + C R 1 , (4.8)
que a famosa relao de recorrncia devida a Pascal. Isto uma
mquina de gerar os coeficientes binomiais, que precisa ser
alimentada com valores iniciais. Para R = 1 bvio que
C10 = C11 = 1, pois se olharmos sequncias de tamanho 1, s h duas
possibilidades, a primeira bola foi azul (C10 = 1), ou
alternativamente foi vermelha (C11 = 1).
Usando a notao do fatorial, que definida pela recurso
n! = n(n 1)!, para n = 1, 2, ... inteiros positivos, com condies
iniciais 0! = 1 e portanto n! = 1.2.3....n, os coeficientes so dados
por
R!
CRm = , (4.9)
m!( R m)!
pois satisfazem as relaes de recorrncia e s condies iniciais.
Basta provar unicidade da soluo, que fcil. Note que
simplesmente, usando o resultado 4.9, e
R! ( R 1) ! ( R 1) !
= + (4.10)
m!( R m)! (m 1)!( R 1 m + 1)! m!( R 1 m)!
temos que a relao 4.8 satisfeita. Estes coeficientes so chamados
os coeficientes binomiais. O motivo disto que
R
( a + b) R = CRm am b Rm , (4.11)
m =0

que amplamente conhecida desde Newton. Mas instrutivo


provar este resultado, supondo-o vlido para R 1, calculando
probabilidades 61

( a + b) R1 ( a + b) e usando a relao de recorrncia. A notao


R
CRm = (m ) tambm muito popular e dito que representa o
nmero de maneiras de escolher m elementos de um total de R ou o
nmero de combinaes de R, m a m.
Temos o resultado desejado,
 
R m Rm
P(m| p, R, I2 ) = p q (4.12)
m

que a distribuio binomial. Tambm poderiamos ter escrito


P(m| M, R, I2 ). Obviamente a distribuio est normalizada, pois
R R  
R
P(m| p, R, I2 ) = m pm q Rm = ( p + q ) R = 1 (4.13)
m =0 m =0

Figura 4.1: Modelo de difuso I: Caminhos


aleatrios binomiais, N = 100 corridas de
Tmax = 400 passos cada uma. Acima:
A cada instante de uma dinmica discreta,
um caminhante d um passo direita com
p = 1/2 ou esquerda com q = 1/2, in-
dependentemente de qualquer outra coisa.
As parbolas mostram os valores , 2 e
2 respectivamente,
p como funo do tempo,
onde = T p(1 p). Abaixo: p = 0.55.

4.4.1 Momentos da Binomial


interessante calcular os valores esperados da distribuio
binomial. A expresso da expanso binomial 4.11 escrita com p e q
arbitrrio til para calcular os valores esperados hmi , hm2 i.
Usamos a expanso binomial para valores p e q quaisquer,
derivamos com respeito a p e multiplicamos por p para obter,
m
usando o truque que p p p = mpm :
62 nestor caticha

Figura 4.2: Difuso II: Histogramas obtidos


dos caminhos simuladas da figura para va-
lores N = 10, 20....160 com (Acima) p =
1/2, (Abaixo) p = .55.
probabilidades 63

Figura 4.3: Difuso III: A distribuio bino-


mial para valores N = 10, 20....160 com
(Acima) p = 1/2, (Abaixo) p = .55.
64 nestor caticha

R  
R
hmi = mP(m| p, R, I2 ) = m mpm (1 p)Rm
m =0 m =0
!
R  
R
= m mpm qRm
m =0 q =1 p
!
R  
R m Rm
= m ( p p p )q
m =0 q =1 p
!
R  
R m Rm
p m
= p p q
=0 m
q =1 p
 

= p ( p + q) R
p q =1 p

= = pR( p + 1 p) R1 = pR (4.14)

O truque vale somente se colocarmos q = 1 p no final5 . Para 5


importante notar que a derivada parcial
calcular hm2 i vemos que dentro da soma aparece m2 pm que ( f ( p, q)/p)q definida reduzindo a fun-
o de duas variveis a uma funo de uma
podemos escrever como s varivel, que feito ao declarar que q
  mantido constante. Se pensarmos na su-
perfcie z = f ( p, q), notamos que em um
p p p m = m2 p m dado ponto ( p1 , q1 ) podemos tomar a de-
p p
rivada em qualquer direo, em particular
que permite escrever mantendo q = q1 fixo, ou mantendo p =
p1 fixo que d ( f ( p, q)/q) p ou ainda ao
   longo de qualquer direo, e.g p = 1 q,

h m2 i = p p ( p + q) R mas os resultados no so os mesmos.
p p q =1 p

que leva ah m2 i
= R2 p2
+ Rp(1 p)
A varincia comumente denotada var(m) ou 2 ou ainda m
2 e

definida por
2
m = h m2 i h m i2
e portanto para a distribuio binomial de m sucessos em R
tentativas a raiz varincia ou o desvio padro
q
m = Rp(1 p). (4.15)

Olhe as figuras 7.8 e 4.3. Na primeira so mostradas trajetrias


individuais e na segunda as distribuies binomiais para p = 0.5 e
para p = 0.55, para valores de R cada vez maiores. Para p 6= 0.5 h
deriva. O deslocamento, aps R passos dos quais m so para a
direita e R m so para a esquerda

X = m ( R m) = 2m R

e o valor mdio do deslocamento

IE( X ) = 2hmi R = (2p 1) R (4.16)

que positivo para p > 1/2.


A comparao entre estas figuras das trajetrias e da distribuio
permitir comear a entender o processo de simulao conhecido
como Monte Carlo, onde um processo individual, gerado muitas
probabilidades 65

vezes permite estimar valores esperados de funes de uma


variveis estocsticas cuja distribuio pode ser muito difcil de
tratar analiticamente. A raiz quadrada que aparece na equao 4.15
extremamente importante. No ocorre por acaso e de forma
especfica para a binomial. Somamos um nmero grande de passos
gerados por Bernoulli. Toda vez que ocorrer uma soma de variveis
estocsticas, se a varincia individual de cada termo for finita e sob
condies de independncia dos passos (suficiente mas no
necessria) a varincia crescer com N e a largura da distribuio

com N. Voltaremos a isto no captulo sobre o Teorema do Limite
Central.

4.5 Frequncia no probabilidade

Porque parece razovel confundir frequncia e probabilidade? O


que segue importante. A probabilidade de bola vermelha ou de
sucesso p. O valor esperado do nmero de sucessos hmi = Rp,
portanto

hmi
p= (4.17)
R
ou seja

m
p=h i = hfi (4.18)
R
onde f = m/R a frequncia de sucessos. Em palavras, o valor
esperado da frequncia a probabilidade de sucesso. A frequncia
no a probabilidade. A frequncia um nmero que depende do
experimento realizado. Isto caracteriza a frequncia como um
nmero aleatrio. A varincia da frequncia

2f = h f 2 i h f i2
m m
= h( )2 i h i2
R R
1 2
=
R2 m
R 1
= 2
p (1 p ) = p (1 p )
R R
1
f = m (4.19)
R
Isto significa que embora a frequncia seja um nmero que depende
do experimento particular e s o seu valor esperado seja a
probabilidade de sucesso, medida que o nmero de tentativas R

aumenta, seu desvio padro vai a zero com 1/ R. Portanto
qualquer experimento que mea a frequncia encontrar valores
perto da probabilidade para R grande o que pode levar alguns de
vocs possibilidade de confundir frequncia com probabilidade.
Isto porm no perdovel.
O que significa perto e grande no pargrafo acima ser discutido
com mais cuidado no captulo 7, onde faremos estas idias mais
precisas olhando para a desigualdade de Chebyshev e definindo
66 nestor caticha

convergncia em probabilidade. Seremos, ento, capazes de dizer o


que significa que f converge para p quando R aumenta. Tambm
olharemos o problema relacionado de inferncia de p dada a
frequncia no captulo 6

4.5.1 A distribuio Multinomial


Suponha que o processo seja descrito por I Multi ="na urna h N
bolas de no mximo C cores, Mc da cor c, c=1...C Mc = N. As bolas
extraidas so repostas na urna".
Temos, analogamente ao caso de duas cores, que a probabilidade
de extrair uma bola de uma cor c pc = Mc /N. Obviamente
c=1...C pc = 1, porque afinal uma bola extraida de alguma cor.
Para uma sequncia de N extraes com reposio usamos o fato
que as sequncias so mutuamente exclusivas e a regra da soma
para obter
m ,m2 ...mC m1 m2 m
P(m1 , ...mC | I Multi ) = CN1 p1 p2 ....pC C

Normalizao leva a

P(m1 , ...mC | I Multi ) = 1


mc = N

Supomos novamente que j resolvemos o caso de de R 1


extraes e consideramos a extrao de mais uma bola. O nmero
total de casos deve satsifazer
m ,m2 ...mC m1 1,m2 ,...mC m1 ,m2 1,...mC m1 ,m2 ,...mC 1
C N1 = CN 1 + CN 1 + ... + CN 1
(4.20)
onde o termo do lado direito em que aparece mc 1 o nmero de
sequncias em que faltava uma bola da cor c para chegar ao caso
denotado no lado esquerdo: {m1 , m2 ...mC } em R extraes. As C
condies iniciais C10,...0,1,0...0 = 1 so suficientes para girar a
manivela da relao de recorrncia 4.20. O resultado que

m ,m2 ...mC N!
C N1 = (4.21)
m1 !m2 !....mC !

pois substituindo na relao de recorrncia

? ( N 1) !
m1 !m2 !..(mc 1)!..mC !
m ,m2 ...mC
C N1 =
c
c m c ( N 1) !
=
m1 !m2 !...mC !
N ( N 1) !
=
m1 !m2 !...mC !
N!
= (4.22)
m1 !m2 !...mC !

vemos que 4.20 de fato satisfeita pelas expresses 4.21. Verifique


que as condies iniciais so satisfeitas. Falta provar unicidade. Mas
isso simples e deixado para os leitores interessados.
probabilidades 67

4.5.2 Urnas sem reposio: a distribuio hpergeometrica.


A diferena fundamental com relao aos casos anteriores que
vale I4 = "a extrao de cada bola feita sem reposio das
anteriores, (inicialmente N bolas, M vermelhas)"e portanto em
condies diferentes das anteriores. A primeira extrao igual ao
caso anterior
M
P( x1 = V | N, M, I4 ) =
N
Agora a diferena, no segundo passo o estado da urna e portanto
as probabilidades dependem do resultado da primeira extrao

P( x2 , x1 | N, M, I4 ) = P( x2 | x1 , M, N, I4 ) P( x1 | N, M, I4 )

Se as duas forem vermelhas, teremos

P( x2 = V, x1 = V | N, M, I4 ) = P( x2 = V | x1 = V, M, N, I4 ) P( x1 = V | N, M, I4 )
= P( x2 | N 1, M 1, I4 ) P( x1 = V | N, M, I4 )
M1 M
= , (4.23)
N1 N
pois na segunda extrao h somente N 1 bolas, das quais M 1
so vermelhas. A probabilidade que as primeira r bolas extraidas
sejam vermelhas
( M r 1)...( M 1) M
P( xr = V, ....x2 = V, x1 = V | N, M, I4 ) =
( N r 1)...( N 1) N
M!( N r )!
= (4.24)
( M r )!N!
que faz sentido mesmo que r > M se for convencionado que o
fatorial de nmeros negativos infinito. Continuamos, mas agora
calculamos as probabilidades que as bolas seguintes sejam azuis. O
estado da urna de N r bolas, das quais M r so vermelhas, e a
probabilidade de extrair uma bola azul :
N r ( M r) NM
P( xr+1 = A| N r, M r, I4 ) = = .
Nr Nr
Repetindo
( N M)!( N r b)!
P( xr+b = A, ...., xr+1 = A| N r, M r, I4 ) = .
( N M b)!( N r )!
Assim chegamos a que uma sequncia de r vermelhas seguidas por
b azuis tem probabilidade, pela regra do produto

P( xr+b = A, ....xr+1 = A, xr = V, ....x1 = V | N, M, I4 ) = P( xr = V, ....x1 = V | N, M, I4 )


P( xr+b = A, ....xr+1 = A| xr = V, ....x1 = V, N, M, I4 )

que pode ser escrito como


M!( N r )! ( N M)!( N r b)!
=
( M r )!N! ( N M b)!( N r )!
M! ( N M)!( N r b)!
= .
( M r )!N! ( N M b)!
Note que os fatoriais so de
68 nestor caticha

N e ( N r b) os nmeros inicial e final de bolas na urna

M e N M, os nmeros iniciais de bolas vermelhas e de azuis.

M r e ( N M b) os nmeros finais de bolas vermelhas e de


azuis.
Ou seja no aparece nada que diga a ordem em que foram
extraidas, primeiro as vermelhas depois as azuis. Isto deve ser
verdade para qualquer ordem de extrao,desde que os resultado
finais de extrao r e b sejam os mesmos. Vejamos se assim.
Suponha que numa sequncia S1 de r + b a extrao da k-sima bola
vermelha ocorreu na posio l e da k0 -sima bola azul na l + 1, e na
sequncia S2 a k-esima bola vermelha foi extraida aps l + 1
extraes e a k0 -sima bola azul aps l. Aparte dessa troca, as
sequncias so iguais. Os fatores que contribuem probabilidade
so para a sequncia S1
M k 1 N M k0 1

Nl Nl1
e para a sequncia S2
N M k0 1 M k 1

Nl Nl1
que so iguais. Seque que a probabilidade de extrair r bolas
vermelhas e b azuis, independentemente da ordem dada pelo
produto do nmero de sequncias possveis, (r+b b) e da
probabilidade de uma sequncia:
(r + b ) ! M! ( N M)!( N r b)!
P({r, b}| N, M, I4 ) =
r!b! ( M r )!N! ( N M b)!
e simplificando, a probabilidade ao "extrair sem reposio r + b
bolas de uma urna com N bolas das quais M so vermelhas e
N M azuis,exatamente r sejam vermelhas"
 N r b
r + b ( M r )

P({r, b}| N, M, I4 ) = N
(4.25)
r (M )
interessante que isto pode ser escrito como
NM
(M
r )( b )
P({r, b}| N, M, I4 ) = N
(4.26)
(r + b)

onde o numerador obtido pelo produto de todas as diferentes


combinaes de escolhas possveis de r bolas do total de M
vermelhas vezes o nmero de combinaes de b do total de N M
azuis, dividido pelo total de possibilidades das combinaes de
r + b do total de N bolas. Podemos ainda escrever a mesma
expresso de uma forma que fica simtrica e permite generalizao
para mais cores. Mudando a notao chamamos de M1 (em lugar
de M) o nmero de bolas vermelhas, M2 o de azuis; de r1 o nmero
de bolas da primeira cor, de r2 o da segunda cor:

(M 1 M2
r1 )( r2 )
P({r1 , r2 }| M1 , M2 , I4 ) := P({r, b}| N, M, I4 ) = . (4.27)
( Mr11 + M2
+r2 )
probabilidades 69

razovel supor, e facilmente demonstrvel para o caso de C cores:

M
c=1...C ( rcc )
P({r1 , r2 ...rC }| M1 , M2 , ...MC , I4 ) = (4.28)
(c=1...C M c
rc )
c=1...C

Figura 4.4: Caminhos hipergeomtricos.


Acima: Urna com N = 400 bolas das quais
M1 = 200 so vermelhas e M2 = 200
azuis. Abaixo: Urna com N = 400, M1 =
220 vermelhas e M2 = 180 azuis. A cada
bola vermelha extraida o caminhante anda
para a direita, a cada bola azul, para a es-
querda.

Os caminhos hipergeomtricos para urnas esto mostrados nas


figuras 4.4, 4.5 e 4.6. Devido a que a urna no volta ao mesmo
estado aps a extrao as figuras so diferentes dos caminhos
binomiais. H uma difuso inicial, mas as trajetrias convergem
para o mesmo lugar. No importa a histria de extrao, a urna
vazia ser a mesma em todos os casos.
70 nestor caticha

Figura 4.5: Caminhos hipergeomtricos.


Trajetrias para a urna com N = 400,
M1 = 250 vermelhas e M2 = 150 azuis.

Figura 4.6: Histogramas dos caminhos


hipergeomtricos: simulaao. Urna
com M = 400, M1 = 250 verme-
lhas e M2 = 150 azuis. A situao
a mesma da figura anterior. Abaixo:
Os histogramas foram gerados aps ex-
trair(1,20,50,80,120,160,200,240,280,320,350,370,390,399)
bolas e olhar os resultados para 5000 urnas.
probabilidades 71

4.5.3 Bolas escondidas


Voltemos ao caso sem reposio. N bolas, M vermelhas, N M
azuis. Extraimos uma bola mas (agora a diferena) no somos
informados da sua cor. A bola escondida fora da urna. Qual a
probabilidade P( x2 = V | N, M, I4 ) que a segunda bola seja
vermelha? O interesse nestes casos est no mtodo, no no jogo em
si. As regras da probabilidade so suficientes para responder isto.
Tivemos duas extraes portanto o nosso interesse deve comear
por analisar a distribuio conjunta P( x2 , x1 | N, M, I4 ). A nica coisa
que sabemos sobre x1 que foi vermelho ou azul, possibilidades
excusivas e exaustivas. Portanto

P( x2 | N, M, I4 ) = P( x2 , x1 | N, M, I4 )
x1 =V,A

= P( x2 | x1 , N, M, I4 ) P( x1 | N, M, I4 )
x1 =V,A
(4.29)

que fica escrita em termos de probabilidades que conhecemos. Isto


um exemplo ao contrrio do uso de marginalizao. Portanto

P( x2 = V | N, M, I4 ) = P( x2 = V | x1 = V, N, M, I4 ) P( x1 = V | N, M, I4 )
+ P( x2 = V | x1 = A, N, M, I4 ) P( x1 = A| N, M, I4 )
M1 M M NM
= +
N1 N N1 N
M
= . (4.30)
N
Ou seja, como a primeira extrao no nos deu nenhuma
informao, a probabilidade de extrao no segundo passo
continuou sendo M/N.
Podemos pensar sobre o que acontece se as duas primeiras bolas
forem escondidas. O mesmo. Se no h informao no h
alterao de probabilidades. Mas suponha que extraimos e
escondemos uma bola. Extraimos uma segunda e vermelha. O
que isto nos diz sobre a bola escondida? Queremos saber sobre
P( x1 | x2 , N, M, I4 ). Voltamos a pensar sobre a distribuio conjunta e
usamos novamente a regra do produto

P( x2 , x1 | N, M, I4 )
P( x1 | x2 , N, M, I4 ) = .
P( x2 | N, M, I4 )
Especificamente, suponha que a segunda bola vermelha, qual a
probabilidade que a primeira seja vermelha:

P( x2 = V, x1 = V | N, M, I4 )
P( x1 = V | x2 = V, N, M, I4 ) =
P( x2 = V | N, M, I4 )
M 1 M
N 1 N M1
= M
= ,
N
N1

confirmando o que talvez podia ser desconfiado a o recuperar a


probabilidade de extrao de uma segunda bola conhecendo o
resultado da primeira. Note ento que o que primeiro e o que
72 nestor caticha

segundo no interessa. O que interessa que informao est


disponvel. Se no h informao nenhuma equivalente a uma
primeira extrao de bola, se h informao equivalente a uma
segunda extrao sabendo a primeira.

4.6 Inverso: Urna com contedo desconhecido

Um problema em cincia pode ser descrito como "conhecido o


sistema, que previses podemos fazer sobre o resultado de
experincias?"Outro tipo de problema o inverso, "sabendo o
resultado das experincias, o que podemos dizer sobre um sistema
desconhecido?"
Considere que o contedo da urna desconhecido e retiramos
bolas com reposio. Como resposio significa que em cada
extrao o estado da urna o mesmo, mesmo que o nosso estado de
informao tenha mudado. Em um dado ponto temos um conjunto
de dados, DR = {V, V, V, A, A..}. O que podemos dizer sobre a
frao de cores? Este tipo de problema constitui o tpico central do
problema de anlise de dados experimentais e inclui a idia
fundamental de modelo. Voltaremos com mais detalhes, uma e
outra vez, ao longo destas notas. Precisamos definir a informao
subjacente I5 . Consideramos que h somente C cores, cada cor com
nmero Mc de bolas, N = c Mc o nmero total de bolas. Portanto
a probabilidade de extrao de uma bola de cor c seria pc = Mc /N.
Acabamos de ver que saberiamos calcular a probabilidade de
qualquer sequncia dados os pc . Agora usamos a regra do produto,
o truque que no parar de dar resultados. Por facilidade olhemos
o caso de duas cores, teremos p = M/N como parmetro
desconhecido. Obtivemos a distribuio binomial 4.12, para m bolas
vermelhas em R extraes, quando a frao de bolas vermelhas p:
 
R m Rm
P(m| p, R, I2 ) = p q . (4.31)
m

A regra do produto nos d para a distribuio conjunta de m e p

P( p, m| R, I2 ) = P( p| R, I2 ) P(m| p, R, I2 ) = P(m| R, I2 ) P( p|m, R, I2 ),


(4.32)
de onde temos o resultado conhecido como a regra de Bayes

P( p| R, I2 ) P(m| p, R, I2 )
P( p|m, R, I2 ) = . (4.33)
P(m| R, I2 )

Aqui aparece algo novo. Vale a pena respirar e tomar o tempo


necessrio para assimilar algo que ser fundamental no que segue.
Temos a probabilidade do parmetro da binomial, que por sua vez
uma probabilidade. Alm disso temos duas probabilidades de p,

A distribuio a priori P( p| R, I2 )

A distribuio posterior P( p|m, R, I2 ). Posterior incluso da m


nos condicionantes.
probabilidades 73

Ainda temos P(m| p, R, I2 ) que codifica a informao que temos


sobre quo provvel um valor de m caso p tenha um valor dado.
Esta probabilidade recebe o nome de verossimilhana. O mundo se
divide em pessoas que ficam nervosas ao falar da probabilidade de
p e aqueles que acham natural falar da probabilidade deste
parmetro. Claro que p uma probabilidade, mas se lembrarmos
que a razo entre bolas vermelhas e o total, no h motivo para
nervosismo. Ainda ficam mais nervosos ao falar da probabilidade
de a priori - antes de levar em considerao os dados. As questes
levantadas aqui sero atacadas no captulo 6.

4.7 A regra de sucesso de Laplace

O que vem a seguir interessante por pelo menos dois motivos.


Primeiro porque mostra a aplicao dos mtodos desenvolvidos a
um problema de urna interessante, onde as hipteses ficam claras,
pois seno no possvel fazer as contas. O segundo histrico. A
previso feita usada agora em problemas que no tem nada a ver
com as hipteses e se chega a algo que viola as expectativas do bom
senso. Para alguns autores isto indicao que as regras da
probabilidade usadas por Laplace no fazem sentido. Isso tem
acontecido e a discusso sobre porque isto ocorre e como evitar este
tipo de procedimento instrutivo para o aluno. Fao hipteses,
calculo um resultado, aplico em outro problema onde a informao
diferente e portanto espero resultados diferentes, e como os dois
no batem critico a teoria. Parece mais poltica que cincia.
Consideremos uma urna de composio desconhecida, exceto
por ter bolas de somente duas possibilidades de cores e procedemos
a extraes com reposio. A reposio significa que cada extrao
independente e em condies idnticas s anteriores. Outra forma
de colocar o problema considerando um processo de Bernoulli,
dois estados s = 1 ou s = 1, ou sucesso e fracasso. No sabemos o
valor parmetro p. Os dois casos so idnticos se na urna o nmero
de bolas for infinito.
As asseres relevantes para o problema so as seguintes:

N= "foram feitas N tentativas consecutivas de Bernoulli"

n= "dado N, foram obtidos n sucessos"

M= "foram feitas M tentativas consecutivas de Bernoulli"

m= "dado M, foram obtidos m sucessos"

I= descrio do processo

O fato de usar o mesmo smbolo para um nmero e uma assero


deve ser perdoado por simplificar a notao.
O objetivo do exerccio determinar com base em um primeiro
experimento descrito por N e n, qual a probabilidade P(m|nMN )
de obter m aps M.
74 nestor caticha

Comeamos por identificar o que no sabemos, m e p, a


probabilidade de sucesso, que o parmetro da binomial. Como
dissemos na seco anterior alguns autores tentam evitar falar de
probabilidade de uma probabilidade, enfatizarmos que p um
parmetro de uma distrbuio, logo no deve haver resistncia
sua estimativa e representao atravs de distribuies que
codifiquem o que sabemos. Portanto estamos interessados na
distibuio de probabilidades conjunta de m e p dado o que
sabemos:P(m, p|nMN I ). Mas no estamos interessados em p, e
portanto marginalizamos

Z 1
P(m|nMN I ) = P(m, p|nMN I )dp.
0

A regra do produto leva a

Z 1
P(m|nMN I ) = P(m| pnMN I ) P( p|nMN I )dp. (4.34)
0

Jogar M vezes o jogo sem saber o resultado no d informao


sobre p, portanto P( p|nMN I ) = P( p|nN I ). Como sabemos que a
probabilidade de obteno de n sucessos em N tentativas uma
binomial P(n| pN I ) e podemos usar Bayes para inverter:

P( p| N I ) P(n| pN I )
P( p|nN I ) = (4.35)
P(n| N I )

O denominador P(n| N I ) pode ser obtido por normalizao,


portanto no nos preocupa. Novamente, irrelevante saber N e no
saber n, portanto temos P( p| N I ) = P( p| I ) para o a priori. Fazemos a
suposio que no temos, antes de ver os dados, nenhuma
preferncia por qualquer valor de p, portanto P( p| I ) = 1, a
distribuio uniforme.

P( p|nN I ) P(n| pN I ) pn (1 p) N n
p n (1 p ) N n
= R1
0 p0n (1 p0 ) N n dp0
( N + 1) ! n
= p (1 p ) N n , (4.36)
n!( N n)!

que reconhecemos como a distribuio Beta(n, N ) de p aps n


sucessos em N tentativas. Para a normalizao usamos o resultado
devido a Euler, ver equao 3.16

Z 1
r!k!
Ekr = pr (1 p)k dp = (4.37)
0 (r + k + 1) !

Voltamos ao clculo de 4.34,notando que


P(m| pnMN I ) = P(m| pMI ), pois saber p torna desncessria a
probabilidades 75

informao de n, N,
Z 1
P(m|nMN I ) = P(m| pMI ) P( p|nN I )dp
0 
M ( N + 1) !
Z
= pm (1 p) Mm pn (1 p) N n dp
m n!( N n)!
 
M ( N + 1) ! m + n
= E
m n!( N n)! N + Mnm
M! ( N + 1) ! ( m + n ) ! ( N + M n m ) !
=
m!( M m)! n!( N n)! ( N + M + 1) !
N+Mnm
  
n+m 1
= N + M +1
n Nn ( )
N +1

Esta expresso horrvel pode ser simplificada em casos particulares.


Por exemplo, Lapalce considerou o caso em que aps N eventos
com n sucessos, queremos a probabilidade de m = 1 sucesso em
M = 1 tentativas.
Nn
  
n+1 1
P(m = 1|n, M = 1, N, I ) =
n N n ( +2 )
N
N +1
( n + 1) ! ( N + 1) !
=
n! ( N + 2) !
n+1
= (4.38)
N+2
No caso particular, mas que concentrou a ateno de estudiosos por
sculos, onde temos n = N sucessos em N tentativas, a
probabilidade de que a prxima seja um sucesso

Nn
  
n+1 1
P(m = 1|n = N, M = 1, N, I ) =
n N n ( N +2 )
N +1
N+1
= .
N+2
Este resultado recebe o nome de regra da sucesso. Aqui Laplace
cometeu o seu maior erro, no no uso das regras da probabilidade
nem de contas. Simplemente fez uma piada que foi mal entendida
por muitos estudiosos que o seguiram. A estimativa bblica da
idade do universo era da ordem de 5000 anos 1.82613 106 dias.
Em todos esses dias nasceu o sol. Qual seria a probabilidade de que
o sol saisse amanh? Pela regra da sucesso 4.38, seria
1 5. 107 = 0.9999995. A chance de sair seria 182614 vezes
maior que a de no sair. Na frase seguinte piada, retomando um
aspecto mais srio, disse que 6 6
"Mais ce nombre est incomparablement
plus fort pour celui qui connaissant par
Mas este nmero incomparavelmente maior para ele que, lensemble des phnomnes, le principle r-
reconhecendo na totalidade dos fenmenos o principal regulador dos gulateur des jours et des saisons, voit que
dias e estaes, visto que nada no momento presente pode deter a rien dans le moment actuel, ne peut en ar-
rter le cours". Essai philosophique sur les
sua marcha"
probabilits Laplace
Laplace.

Isto significa que deve ficar claro ao usurio, que se tiver mais
informao, no caso do sol todo o conhecimento de Dinmica e
Astronmia, deve por todos os meios us-la. O clculo acima ento
76 nestor caticha

no se deveria aplicar a no ser a situaes onde se deve aplicar:


quelas em que as hipteses so justificveis. Os crticos regra da
sucesso por dizer que d resultados ridculos para a saida do sol
amanh, devem responder se acham natural dizer que tudo o que
sabemos sobre o sol, e o que significa que ele sair, pode ser
descrito como uma urna com dois tipos de bolas, pretos e brancos.
Mas se voc usar frequncia como definio de probabilidade pode
estar tentado a dizer que o sol sempre sair, pois sempre saiu. Mas
isto igualmente ridculo, pois temos informao, na forma de
teorias de evoluo estelar que isso mudar.
Outra crtica sobre o uso da distribuio a priori uniforme.
Retomaremos o efeito da distribuio a priori no captulo 6. As
mudanas para distribuies razoveis mudam pouco. A queixa em
partcular que poderiamos fazer uma mudana no linear de
variveis e o que uniforme agora deixaria de ser. Mas ao falar de
urnas, parece natural falar do parmetro p e se no h preferncias
apriori para acreditar num estado da urna, a uniforme parecebem
justificada. Obviamente aquele que tiver informao diferente ter
que fazer outras escolhas. Outras distribuies a priori podem e
devem ser usadas, em outras condies de informao.

4.8 Poisson: um limite da binomial

Suponha que em um experimento temos N partculas que podem


decair em um dado intervalo de tempo t e uma probabilidade p
de detectar o resultado do decaimento da particula. O tempo morto
do detector nulo. O nmero m de sucessos, ou deteces em t
dado pela binomial
 
N m
P(m| p, N, I2 ) = p (1 p ) N m (4.39)
m

Queremos tomar o limite de N muito grande, p muito pequeno. H


vrias formas de faz-lo, um resultado extremamente til quando

N , p 0, N p = constante

pois, considerando que

N!
pm = pm N ( N 1)( N 2) ( N m + 1)
( N m)!
1 2 m1
= pN (1 ) pN (1 ) pN (1 ) pN
N N N
m (4.40)

e
N m
(1 p ) N m = (1 ) (1 ) N
N N
e .

Temos ento a distribuio de Poisson (que talvez deveria tambm


ter o nome de de Moivre)
probabilidades 77

N!
P(m| p, N, I2 ) = p m (1 p ) N m
m!( N m)!
  
1 N! 
= pm (1 p ) N m
m! ( N m)!
m
P(m|) = e . (4.41)
m!
Lembramos que o valor mdio

hmi = , (4.42)

e o segundo momento

h m2 i = + 2 , (4.43)

que leva varincia


2
Poisson = . (4.44)
Para calcular momentos superiores podemos usar


P(m|) = P(m|) + mP(m|) (4.45)

pois teremos, multiplicando por mk e somando sobre m:

k
h m k +1 i = h m k i + m P(m|)
m

= hmk i + hmk i (4.46)

Volteremos a falar desta distribuio ao analisar dados
experimentais.

4.9 Sequncias Imaginadas, mos quentes e falcia do jogador.

fcil imaginar o experimento de lanar uma moeda. Jogo a moeda


bem para o alto, bate no teto e cai no cho. Observo e anoto o
resultado. Agora surge a pergunta: fcil imaginar um segundo
lanamento? Parece fcil. Se o primeiro lanamento foi, porque no
seria o segundo? E cem lanamentos? Este problema foi proposto
aos estudantes do primeiro curso de Probabilidades no IFUSP em
2016. OS dados brutos so apresentados na figura
Notamos imediatamente que os dados gerados por pessoas no
seguem o modelo pedido. Uma pequena deriva direita nos dados
compatvel com p = .52 poderia ser vista nos dados, na figura 4.7,
mas ainda no temos instrumentos para estimar isto. Os
histogramas dos dados e da binomial so bem diferentes, figura 4.8.
O histograma dos dados muito mais estreito que o da binomial. A
figura 4.9 mostra um caracterstica interessante do processo.
Escolhemos um ponto qualquer na sequencia e perguntamos se os
prximos k 1 tem o mesmo smbolo. Isto , perguntamos se um
dado stio numa trajetoria seguido por smbolos semelhantes de
forma a que h uma sequncia de k repeties. Fazemos isso para
78 nestor caticha

Figura 4.7: As trajetrias imaginadas por


cada estudante. K = 40 estudantes respon-
deram . As curvas slidas so os desvios
padro (, 2, 3) que uma binomial com
p = 0.5 teria aps N = 100 passos.

Figura 4.8: Histogramas do nmero de ca-


ras nos dados imaginados e o histograma
do binomial simulado. K = 40 trajetorias de
N = 100 jogadas.
probabilidades 79

Figura 4.9: Frequncias de sequncias de k


smbolos.

todos os stios, e fazemos isso para k de 1 at 11. O logaritmo da


razo f I entre todas as vezes que ocorre e o total de smbolos KN
aparece nas ordenadas da figura 4.9. Para a binomial, simples de
calcular, a razo vai como f B = pk1 , pois as jogadas so
independentes (crculos). Mas a linha de baixo (quadrados), para os
dados, mostra que h uma represso sistemtica por parte de uma
pessoa em compensar uma sequncia e inverter o smbolo
imaginado. A representao dos dados em termos do logartmo da
frequncia interessante para leis de formas exponenciais.
Supomos um modelo f = A2(k1) e vemos da figura que B = 1
para a binomial e I = 1.25 para o processo imaginado. Explicar o
valor no trivial pode ser interessante para quem estiver interessado
nos aspectos psicolgicos do problema. Um modelo muito simples
o de memria de um passo. Isto ser retomado ao olhar para
processos Markovianos. Neste caso podemos considerar como
modelo apropriado um com P( xt+1 | xt ) dado por

1
P ( x t +1 = 1 | x t = 1 ) = 1 P( xt+1 = 11| xt = 1) = 0.42
2
1
P ( x t +1 = 1 | x t = 1 ) = 1 P ( x t +1 = 1| xt = 1) = 0.42
2
Se voc no lembrasse do passado isso no poderia ocorrer. Ver
vrios smbolos iguais sugere que o prximo deve ser diferente.
Imaginem o contrrio, um observador olha para um processo
binomial e se surpreende que houve vrios smbolos iguais. O que
faz? Aposta que o prximo tambm deve ser iguais pois "se tudo
fosse normal"deveria haver uma compensao. Acredita que o
processo est quente e se dispe a apostar mais alto, porque a
mquina que gera as jogadas "est quente". Perceber que
80 nestor caticha

cometemos stas falcias de anlise pode ser til para pessoas


dispostas a perder dinheiro em apostas.
5
A distribuio Normal

A familia de distribuies Normal ou gaussiana sem dvida a


mais importante na teoria e nas aplicaes de probabilidade. Ela
aparece to frequentemente e comparativamente tem propriedades
analticas que permitem tantos resultados que muitas vezes parece
natural que seja a nica. Isso leva a erros tambm e portanto
necessrio conhecer suas propriedades para us-la ou no de forma
adequada. possvel tambm encontrar referncias curva do sino
(bell curve). Por favor refira-se gaussiana como a curva do sino
quando quiser deixar claro que voc considera matemtica e
astrologia no mesmo patamar epistemolgico.
H dois motivos tericos muito fortes que levam a considerar a
modelagem da maior parte dos fenmenos aleatrios como
gaussianos

Teorema do Limite Central

Entropia.

H vrios outros motivos que aparecero nos desenvolvimentos


futuros. Insistimos que haver outras condies onde no deve ser
usada. Veremos no captulo 7 uma exposio sobre o teorema do
limite central. O problema lida com somas de variveis aleatrias.
Por exemplo, Y = in=1 Xi sob condies bastante gerais, mas que
aqui podemos reduzir a: IX : as variveis Xi tem segundo momento
finito e so independentes (condio no necessria). Segue que a
distribuio P(Y |nIX ) de Y se aproxima da distribuio normal,
numa regio perto do mximo (regio central) e que segundo
critrios que podem ser definidos com cuidado, a aproximao
melhora quando n cresce.
O segundo motivo tem a ver com entropia que o tema central
de qualquer curso de teoria de informao, mecnica estatstica e
termodinmica e ser o tema do captulo ??. Para uma varivel que
toma valores no eixo real, com base na informao de que o seu
primeiro momento e a varincia 2 , qual a distribuio que
deveriamos atribuir-lhe? H infinitas distribuies compatveis com
essa informao. Poderiamos escolher qualquer uma delas. Por
exemplo poderiamos escoher uma uniforme centrada em com a

mesma varincia, portanto largura L = 2 3. Ou seja fora do
82 nestor caticha

intervalo de tamanho L centrado em , X seria zero. Porque? O que


levaria algum a apostar que fora desse intervalo a probabilidade
nula? Pequena talvez, mas nula? O qu que eles sabem que eu
no sei? perguntaria o desconfiado. Iremos mostrar que a gaussiana
aquela distribuio que satisfaz os vnculos informacionais e faz o
menor nmero de hipteses adicionais, que enfatizamos, no
deveriamos fazer.
Por agora apresentaremos alguns resultados que permitiro
manipular situaes onde aparecem distribuies normais. Este
captulo portanto deve ser considerado como auxiliar no a teoria
mas s ferramentas necessrias para o seu desenvolvimento.

5.1 Integrais Gaussiana

A distribuio gaussiana ou normal com parmetros e

1 ( x )2

P( x |) = e 22 . (5.1)
2
Dizemos que uma varivel gaussiana ou normal se a densidade de
probabilidade a gaussiana acima. Tambm escrevemos

P( x |) = N (, 2 ), (5.2)

ou ainda pode ser encontrada a notao x N (, 2 ).


facil mostrar que a normalizao adequada:
Z ( x )2
1
1= e 22 dx (5.3)
2
Veja a prova no Apndice A no final deste captulo.

5.2 Limite da distribuio binomial

A histria no cabe aqui, mas a distribuio Normal, assim como a


de Poisson foram devidas a Abraham de Moivre.
Comeamos com a distribuio binomial, que vimos no seo ??.
A uma varivel de Bernoulli com dois estados, atribuimos
probabilidade p de ser um sucesso. Vimos que a probabilidade de
ter m sucessos em R tentativas dada por
 
R m Rm
P(m| p, R, I2 ) = p q (5.4)
m
com momentos

hmi = pR, (5.5)


2 2 2
hm i = R p + Rp(1 p) (5.6)
var(m) = hm2 i hmi2 = Rp(1 p). (5.7)

E conveniente introduzir os parmetros e

= hmi (5.8)
q
= Rp(1 p). (5.9)
probabilidades 83

Figura 5.1: A distribuio gaussiana. As re-


gies marcadas mostram os valores que se
afastam menos que 1 e 2 do valor m-
dio. Do lado direito o eixo das ordenadas
logartmico. As regies centrais tem rea
0.68 (1) e 0.95 (2). A regio 3 tem
rea 0.99.
84 nestor caticha

Estamos interessados em analizar o comportamento da


probabilidade binomial para valores grandes do nmero de
tentativas R. A idia perceber que ao analisar escalas onde
R >> 1 relevante, podemos tratar m/R como uma varivel que
toma valores no contnuo. Isto devido a que diferenas entre
(m + 1)/R e m/R nessa escala, da ordem de 1/R possam ser
julgadas irrelevantes para alguns fins. De Moivre deu os primeros
passos e Stirling (ver apndice no final deste captulo) mostrou que
para valores grandes, os fatoriais podem ser bem aproximados por

log n! = n log n n, (5.10)

portanto o coeficiente binomial pode ser aproximado por


 
R
log = ( R log R R) (m log m m) (( R m) log( R m) R + m)
m
m m
= m log ( R m) log(1 ). (5.11)
R R
que leva a
m m
log P(m| p, R, I2 ) = m log ( R m) log(1 ) + m log p + ( R m) log(1 p).
R R
(5.12)
Queremos aproximar esta expresso por uma expanso de Taylor
em torno da moda, ou seja do seu mximo:

d m m
log P(m| p, R, I2 ) = log 1 + log(1 ) + 1 + log p log(1 p)
dm R R
m/R p
= log + log (5.13)
1 m/R 1 p

que zero para o valor bvio = hmi = Rp. A segunda derivada


em

d2 R
log P(m| p, R, I2 )|m= =
dm2 ( R )
1
= 2 (5.14)

e at segunda ordem

1
log P(m| p, R, I2 ) log P(| p, R, I2 ) (m )2 + ... (5.15)
22
Vamos introduzir uma nova varivel X que toma valores x nos reais
x m, com densidade de probabilidade

P( x |)dx = P(m| p, R, I2 )

portanto a densidade de probabilidade ser

1 ( x )2

P( x |) = e 22 . (5.16)
2
( x )2

Note que da expresso anterior teriamos s que P( x |) e 22 ,
mas sabemos qual deve ser a normalizao correta. claro que ter
probabilidades 85

parado a expanso na segunda ordem no prova nada. Devemos


analisar as derivadas superiores. Continuamos derivando a partir
da equao 5.14:

d2 1 1
log P(m| p, R, I2 ) =
dm2 m Rm
d3 1 1
log P(m| p, R, I2 ) =
dm3 m2 ( R m )2
d4 1 1
log P(m| p, R, I2 ) = 2 3
+2
dm4 m ( R m )3
dk 1
log P(m| p, R, I2 )| = O( ) (5.17)
dmk m k 1

o que significa que cada derivada, calculada em m = ganha um


fator Rp no denominador. E sugere que para valores de R grandes a
binomial bem aproximada por uma gaussiana com a mesma
mdia e variancia. Isto no substitui uma prova, mas serve como
sugesto para o caminho de uma prova rigorosa. Isto um caso
particular do teorema do limite central. Duas caractersticas deste
tipo de resultado devem ser notadas, pois so tpicamente
associadas a este tipo de aplicao do teorema. Primeiro, a
aproximao pela srie de Taylor melhor na parte central, perto da
moda. Em segundo o valor de m a soma da varivel que toma
valores 1 para o sucesso e 0 para o fracasso. No captulo 7 so
apresentadas condies para este teorema de forma mais
abrangente.

5.3 Momento Centrais da Gaussiana

O valor mximo da gaussiana ocorre para x = . Portanto se a


regio onde h probabilidade razovel de encontrar o valor de X
mudar, isto deve se refletir em mudana de . O parmetro reflete
portanto conhecimento sobre a localizao de X. A medida que
consideramos valores de x mais longe de a probabilidade cai. Mas
o que quer dizer mais longe? O quanto | x | relevante depende
| x |
do valor de . A distribuio depende de y = na forma
exp(y2 /2). Portanto um parmetro de escala.
Os parmetros da Gaussiana tem uma interpretao simples em
termo dos momentos. Para calcular o valor esperado usamos a
86 nestor caticha

linearidade da integral e o fato que a distribuio est normalizada


Z
IE( x ) = xP( x |)dx

Z
= P( x |)dx

Z
IE( x ) = ( x ) P( x |)dx

mudando varivel x x0 +
Z
IE( x ) = x 0 P( x 0 |0)dx 0

Z 02
1 x
IE( x ) = x0 e 22 dx 0 .
2
IE( x ) = 0 IE( x ) = , (5.18)

pois o integrando o produto de uma funo impar por uma par 1 . 1


Uma funo com a propriedade (i)
Para o segundo momento, mostraremos que f S (x) = f S ( x ) chamada par ou
simtrica, e uma funo com a propriedade
2 2 2 (ii) f A ( x ) = f A ( x ) chamada impar
IE( x ) = +
ou antissimtrica. Uma mudana da
2
IE(( x ) ) = IE( x2 ) 2 = 2 . (5.19) varivel de integrao x x 0 = x
permite mostrar que integrais em intervalos
Note a semelhana com as relaes equivalentes para a binomial, ( a, a) do produto f A ( x ) f S ( x ) so nulas e
em particular
mas lembre que agora o smbolo IE significa uma integral e no a Z
soma. Obviamente os momentos dependem da posio e da escala. f A ( x ) f S ( x )dx = 0

Mas se olharmos para os momentos de y todas as distribuies tem Claro que supomos que as funes satisfa-
os mesmos momentos. Os valores esperados zem propriedades que permitem as manipu-
laes das integrais.
IE( x ) = 0
2
IE(( x ) ) = IE( x2 ) 2 = 2
IE(( x )n ) = Mn ( ) (5.20)

de x so chamados de momentos centrais:


Mn ( ) = IE(( x IE( x ))n ). Os momentos centrais impares M2n+1
so nulos. Em geral
2
1 x dx
Z
Mn ( ) = x n e 22
2
Z 2
1 y
= n yn e 2 dy
2
= n Mn ( = 1 ) (5.21)

mostrando que os momentos centrais dependem do desvio padro


de uma forma simples, n vezes o momento central de y que
denotaremos simplesmente Mn ( = 1) = Mn . Estes so fceis de
Rb Rb
calcular, integrando por partes 2 : 2
Lembrando: a udv = uv|ba a vdu.
 Usaremos u = e y2 /2 e dv = yn dy, por-
Z n +2
y n +1 1 y2

2 y y n +1
ey /2 e 2 dy
2
Mn = tanto v = n+1 e du = yey /2 .
n + 1 2 n + 1
1
= Mn + 2 . (5.22)
n+1
Segue a relao de recorrncia M2n = (2n 1) M2n2 . Comeando
de M2 = 1 e iterando M2n = (2n 1)!! onde
(2n 1)!! = 1 3 5 (2n 1) = (2n)!/(2n n!). Logo
M2n () = 2n (2n 1)!! (5.23)
probabilidades 87

Exerccio: Funo geratriz. Sem fazer o clculo explcito, uma


mudana de variveis permite mostrar que se x N (0, ) ento os
valores esperados IE( x2n ) 2n . A constante de proporcionalidade
M2n . Calcule IE(e x ) = f ( ), para isso complete os quadrados na
exponencial (ver o resultado 5.63 no apndice no fim deste
captulo.) Expanda em srie de potncias de x para mostrar que
IE(e x ) = n
n=0 An ( ) IE ( x ). Expanda f ( ) em potncias de .
Comparando termo a termo as duas sries reobtenha a expresso
5.23. O valor esperado IE(e x ) chamado de funo geratriz dos
momentos pois contm em si informao que permite gerar
qualquer momento da distribuio. A nomenclatura no uniforme
e aqui chamaremos a funo relacionada IE(eikx ) de funo
caracterstica que tambm pode ser chamada de geratriz dos
momentos.

5.4 Um pouco de anlise de erros

O que trataremos nesta seo de interesse por si s, mas pode ser


visto como o comeo das idias que levam ao teorema do limite
central que ser tema do prximo captulo.
Os alunos de Fsica so expostos no comeo dos seus estudos
questes importantes sobre o significado dos nmeros obtidos em
um experimento. Dentro do contexto destas notas, uma pergunta
sobre esse significado pode ser colocada como

O que posso dizer sobre o valor numrico de X quando o resultado


de uma medida deu x1 ?

Note que se estivermos falando de um sistema cognitivo


precisariamos modelar o que sabemos sobre o mundo externo (X)
se os sistemas sensoriais se encontram num dado estado (x1 ).
Embora possa no parecer, so problemas da mesma natureza.
Se no soubermos nada sobre o aparelho de medida e como
fizemos a experincia, no podemos dizer nada. Talvez a
experincia tenha sido usar uma rgua milimetrada para medir a
distncia at o sol, ou entre dois tomos viznhos num slido.
Precisamos mais informao.
Suponha que tenhamos motivos para achar que os erros de
medida e tem probabilidade gaussiana. Podemos escrever isso como

x = x1 + e x
( e x )2

onde P(ex | x x Ie ) = 1 e 2x . O valor esperado de e x ,
2
2x
isto costuma ser chamado de erro sistemtico. Vamos supor que h
motivos para achar que seja zero, o que poderia ser alcanado
calibrando corretamente os aparelhos de medida. A raiz quadrada
da varincia x descreve a disperso dos erros dos valores medidos
em torno da mdia. Segue que
( x x1 )2
1
2x2
P( x | x1 Ie ) = P(ex | x x Ie ) = e (5.24)
2x
88 nestor caticha

Suponha que outra varivel y seja medida com erros tambm


gaussianos, caracterizados analogamente por y e ey , mas de fato
estamos interessados em z que por motivos tericos achamos
razovel descrever pelo modelo 3 3
No estamos, neste momento questio-
nando se o modelo correto ou no. Isso
M : z = x + y. (5.25) outro problema, veja o captulo 8

Dado o que sabemos sobre medidas de x e y e sobre a


caracterizao dos seus erros de medida, o qu podemos dizer
sobre z? Podemos escrever

z = z1 + e x + ey . (5.26)

Vamos mostrar a seguir (i) que z uma varivel com distribuio


gaussiana, que no bvio neste momento, (ii) que o valor mdio
de z z1 = x1 + y1 , que deve parecer bvio e (iii) que a varincia de
z tambm dada pela soma das varincias de x e y, que tambm
no deve parecer bvio para o leitor.
A informao codificada numa distribuio de probabilidades
P(z| x1 , y1 M I ) que queremos construir a partir das regras da teoria
de probabilidade. Comeamos pela marginalizao:
Z Z
P ( z | x1 , y1 M I ) = dx dyP( x, y, z| x1 , y1 M I ). (5.27)

Os limites das integrais so e , mas ficaro subentendidos.


A regra do produto aplicada ao integrando
Z Z
P ( z | x1 , y1 M I ) = dx dyP( x, y| x1 , y1 M I ) P(z| x, y, x1 , y1 M I )
Z Z
= dx dyP( x | x1 , y1 M I ) P(y| x, x1 , y1 M I ) P(z| x, y, x1 , y1 M I )

Caso acreditemos na indepndencia entre as medidas de x e y,


teremos P(y| x, x1 , y1 M I ) = P(y|y1 Ie ). Tambm usamos que neste
ponto o modelo M no tem influncia. Usando a equao 5.24 e o
equivalente para y, teremos
Z Z
P ( z | x1 , y1 M I ) = dx dyP( x | x1 , Ie ) P(y|y1 Ie ) P(z| x, y, M I )
( x x1 )2 ( y y1 )2
Z Z
1 1
2x2 2y2
= dx dy e e P(z| x, y, M I ).
2x 2y

Dois comentrios importantes sobre a expresso acima. Primeiro, a


probabilidade de z que aparece do lado esquerdo condicionada
nos dados x1 e y1 . No aparecem os valores reais de x nem y. No
temos acesso realidade a no ser pelos dados. Para cada escolha
de x e y temos uma probabilidade de z, mas integramos sobre todas
as escolhas porque em maior ou menor grau, todas tem algum
mrito, dentro do contexto da informao condicionante. Segundo,
ainda no acabamos, temos que encontrar uma forma para
P(z| x, y, M I ). Ainda no temos ferramentas matemticas para
tornar isto imediato, e precisaremos um pouco de trabalho.
Um modelo como M denota conhecimento completo: dado x e y
conhecemos z totalmente. Paradoxalmente, nesta altura do que se
probabilidades 89

espera que o leitor saiba, o estado de conhecimento total torna as


coisas mais difceis. Ento suponhamos que z no determinado
exatamente por x e y, mas por uma densidade de probabilidade,
que tomaremos gaussiana de varincia s2 e mdia nula
P(z| x, y, Ms I ) = N (0, s2 ). Vamos usar a notao s (z x y) para
esta funo. Agora, como veremos a seguir, podemos fazer as
integrais necessrias, mas o resultado final depender de s. Qual o
valor de s? Tomaremos o limite de s 0, pois a disperso de
valores de z dados x e y zero no caso de um modelo determinista
como M 4 . 4
Este truque conhecido desde o sculo
XIX e associado a nomes como Frejet, Neu-
Juntando tudo
man, Landau. Mais recentemente, a Dirac
( x x1 )2 ( y y1 )2
Z Z
1 1 1 ( z x y )2
2x2 2y2
P ( z | x1 , y1 M I ) = dx dy e e e 2s2
2x 2y 2s
!
1 ( x x1 )2 ( y y1 )2 ( z x y )2
Z Z
= dx dy exp .
(2 )3/2 sx y 2x2 2y2 2s2
Esta integral pode ser um pouco assustadora, mas como mostramos
no apndice a seguir, estas integrais so fceis. Elas aparecem de
forma to frequente, que convm acostumar-se a faz-las de forma
automtica. Comeamos olhando para a integrao em y. Temos a
exponencial de um polinmio de segundo grau, e isso fcil
usando o resultado 5.63 5 5
O resultado demostrado em 5.63
Z x2
2 2 h + xh dx
e 2 = e 22 .


( x x1 )2 ( y y1 )2 2
1
Z

Z
dy ( z x y )2
2 2
P ( z | x1 , y1 M I ) = dxe 2x e 2y e 2s2 .
2x y 2s
(5.28)
O expoente do integrando da integral em y
(y y1 )2 ((z x ) y)2 y2 ( z x )2 y21
+ = yh + +
2y2 2s2 2u2 2s2 2y2
y1 (z x ) 1 1 1
onde h = + e = 2+ 2 (5.29)
y2 s2 u2 y s
A integral em y (termo entre parntesis em 5.28), usando 5.63
y2
1
(z x2)
2
dy y22 yh
Z
2y2
= e e 2s e 2u
2s
y2
1
(z x2)
2
u dy y22 yh
Z
2y2
= e e 2s e 2u
s 2u
y2
1 2
5.63 2y2 (z x2) u h2 u2
= e e 2s e 2 (5.30)
s
substituindo h e u
y2 y2
1 (1 s2 ) y1 ( z x ) 1 (z x )2 ( 1 )
2y2 s2 +y2 s2 +y2 s2 s2 (s2 +y2 y
= e e e q
s2 + y2
y2 2
s 0 1 2y1 (z x ) 1 (z2x)
2y2 2y2
e e e y

1
= exp( 2 (z x y1 )2 )
2y
90 nestor caticha

Pode parecer difcil, mas o que simplesmente acabamos de mostrar

!
( y y1 )2 1
Z
s 0
dy exp 2
s (z x y) exp( 2 (z x y1 )2 )
2y 2y
(5.31)

que mostra algo simples, no limite do modelo determinista quando


s 0, eliminamos a varivel y e a substituimos por z x que o
que o modelo indica 6 . 6
O leitor interessado deve procurar ler so-
bre a funo ou melhor, distribuio
Quase chegamos ao final do exerccio. Voltamos expresso 5.28,
de Dirac em particular e teoria de distribui-
que agora toma a forma7 . es em geral. O objeto (z x y) =
lims0 s (z x y) tem propriedades in-
( x x1 )2 ( z x y1 )2 teressantes. preciso aumentar o conceito
1
Z

2x2 2y2
P ( z | x1 , y1 M I ) = dxe e . de funo para chamar a de funo. Para
2x y funes f ( x ) (de forma bastante geral), en-
tre as propriedades que tem, est
Novamente temos uma integral gaussiana, que podemos fazer Z
f (z) = f ( x )( x z)dx
recorrendo a 5.63. O expoente pode ser escrito I

! com z I . Esta propriedade que deduzi-


( x x1 )2 ((z y1 ) x )2 x2 x12 ( z y1 )2 mos para o caso particular permite chegar
+ = h0 x + + diretamente na equao 5.31.
2x2 2y2 2u02 2x 2 2y2 7
Expresses do tipo
x ( z y1 ) 1 1 1 Z
onde h0 = 12 + e 0
= 2+ 2 (5.32) h( x ) = f ( x y) g(y)dy
x y2 u 2 x y

so chamadas convolues. Veremos mais


onde vemos que as expresses em 5.32 so anlogas s 5.29. disto no captulo sobre o teorema do limite
Completando quadrados novamente realizamos a integral em x central 7. O resultado que obtemos na equa-
o abaixo 5.33, que a convoluo de
usando 5.63 duas gaussianas uma gaussiana, cujo pa-
!Z rmetro de localizao a soma e a vari-
2u0 x12 ( z y1 )2 dx 2
x02 +hx ncia tambm soma dos das gaussianas
P ( z | x1 , y1 M I ) = exp 2 e u
originais.
2x y 2x 2y2 2u0
!
2u0 x2 ( z y1 )2 h 02 u 02
= exp 12 e 2
2x y 2x 2y2

finalmente, substituindo h0 e u0 temos uma grande simplificao


( z x1 y1 )2
1 2z2
P ( z | x1 , y1 M I ) = e (5.33)
2z
onde introduzimos

z2 = x2 + y2 . (5.34)

Aps as medidas x1 e y1 que tinham erros com varincias x2 e y2


respectivamente, atribuiremos aos diferentes valores de z uma
probabilidade gaussiana de vari ncia z2 que a soma das duas. O
valor mais provvel, a moda de z

z = zmoda = x1 + y1 , (5.35)

o valor que teriamos atribuido a z, a partir do modelo M se as


medidas no tivessem erros. Repetindo as contas para o caso em
que o modelo w = x y, obteremos que w novamente gaussiano
com a mesma varincia de z e com moda wmoda = x1 y1 .
probabilidades 91

Figura 5.2: A distribuio gaussiana. As re-


gies marcadas mostram os valores que se
afastam menos que 1 e 2 do valor m-
dio. Do lado direito o eixo das ordenadas
logartmico. As regies centrais tem rea
0.68 (1) e 0.95 (2). A regio 3 tem
rea 0.99.
92 nestor caticha

Provavelmente o leitor reconhea 5.34 de cursos de Fsica


Experimental.
Ainda falta saber como poderiamos ter escolhido o valor dos s,
que ficar para quando usarmos a regra de Bayes para estimar
parmetros de distribuies a partir de informao na forma de
dados.

5.4.1 Propagao de erro


H formas muito mais simples de fazer isto. Novamente z = x + y e
escrevemos x = x1 + x, y = y1 + y e z = z1 + z para fazer um
ponto de contato com a notao usada na anlise de erros em
laboratrio. Supomos os erros gaussianos como antes. Se no h
erro sistemtico vale que IE(x ) = IE(y) = IE(z) = 0. Temos que
IE(x2 ) = x2 , IE(y2 ) = y2 e IE(z2 ) = z2 , e como

z2 = IE(z2 ) = IE((x + y)2 ) (5.36)


2 2
= IE(x ) + IE(y ) + IE(xy)
= x2 + y2 (5.37)

onde usamos IE(xy) = IE(x ) IE(y) = 0, devido independncia


entre x e y. Reobtivemos a relao entre as varincias da equao
5.34. Mas nada desta anlise garante que z seja uma varivel
gaussiana.

5.4.2 A distribuio produto e a distribuio quociente ou razo de


duas variveis gaussianas
O estudo em geral das distribuioes de produtos ou quocientes faz
parte do que se chama de lgebra de variveis aleatrias.
Obviamente, a distribuio do produto no o produto de
distribuies. Como vimos na soma, a distribuio de z, dado por
z = x + y no tem nada a ver com o soma das distribuies e nem
faz referncia s variveis x nem y. Em geral para o produto ou
quociente as contas ficam bem mais complicadas e faremos algumas
simplificaes. Em alguns casos de quocientes de variveis
gaussianas possvel fazer as contas, como veremos depois.
Suponha que x e y sejam como definidos acima, mas agora os
modelos possveis so

Mprod : s = xy (5.38)
x
Mrazo : r= (5.39)
y
Agora esperamos que s e r sejam descritos por s1 = x1 y1 e
r1 = x1 /y1 mais algum erro:

s = ( x1 + ex )(y1 + ey )
x1 + e x
r =
y1 + ey
Supondo que as amplitudes dos erros sejam pequenos, ou seja
x1 >> x e y1 >> y , ento 8 8
No vamos fazer a conta exata pois entram
funes que no so familiares aos leitores,
eg. de Bessel
probabilidades 93

s = ( x1 + ex )(y1 + ey ) = s1 + x1 ey + y1 ex + ex ey
s 1 + x 1 e y + y 1 e x = s 1 + 1 + 2 .

Jogar fora termos quadrticos permite manter as contas simples,


e justificado porque o rudo pequeno. A nova forma para s
inclui 1 = x1 ey e 2 = y1 ex . Se uma varivel tem distribuio
gaussiana e multiplicada por uma constante, ainda ter
distribuio gaussiana mas o seus parmetros de localizao e
escala sero multiplicados pelo mesmo fator. Assim 21 = x12 y2 e
21 = y21 x2 . Teremos que s aproximadamente gaussiano

P(s| x1 , x2 Mprod ) = N (s1 , s )

onde, pela equao 5.34, temos s2 = 21 + 22 . Logo

s2 = x12 y2 + y21 x2 (5.40)

e fica mais bonito ao dividir por s21 , dando uma medida do desvio
padro relativo ao valor do do produto:

s2 y2 y2
= + (5.41)
s21 x12 y21

Voltamos ao quociente:
ex
x1 1 + x1 ex ey
r = ey r1 (1 + )(1 )
y1 1 + x1 y1
y1
ex ey
r1 (1 + )
x1 y1
ex ey
r1 + x1 2
y1 y1
= r1 + 10 + 20 (5.42)

onde 10 = e 20 = x1 yy2 , 9 portanto r2 = 20 + 20 de onde segue


ex e 9
y1 Porque no h erro de sinal?
1 1 2
que
x2 2
2 y
r2 = + x 1 4 (5.43)
y21 y1
que ao dividir por r12 fica igual relao anloga para o produto

r2 y2 y2
= + . (5.44)
r12 x12 y21

talvez surpreendente que as varincias para a razo e o produto,


dadas por 5.40 e 5.44, tenham a mesma forma. Afinal nenhuma das
duas exata, mas a aproximao que o produto e a razo de duas
variveis gaussianas por sua vez tambm gaussiana joga fora as
diferenas. O estudante j deve ter visto as expresses para o erro
relativo s s e r r em aulas de laboratrio.
1 1

5.4.3 De volta ao quociente e caudas gordas


Vamos fazer as contas para encontrar a distribuio quociente
P(r | x1 , y1 , x , y , Mrazo ) no caso simples onde x1 = y1 = 0 e que
94 nestor caticha

denotaremos P(r ). Usaremos o atalho via a funo , pois


P(r | xy) = (r x/y) 10 : 10
O aluno semiatento perguntar porque
Z Z Z Z aparece xy como condicionante se estamos
falando de quociente. Lembre se que como
P (r ) = P(r, x, y)dxdy = P(r | x, y) P( x ) P(y)dxdy
condicionante xy a assero "o valor de
Z Z 2 ( y2 X est no intervalo x, x + dx E o valor de
1 x x2 2 Y est no intervalo y, y + dy", portanto um
= (r )e 2x e 2y dxdy produto lgico das asseres que trazem a
2x y y
informao sobre x e y.
y2
Z Z 2
!
1 x 2x 2 2
2y
= (r )e x dx e dy (5.45)
2x y y

Mudamos variveis de integrao na integral interna u = x/|y|


onde y mantida constante, portanto |y|du = dx e
x2 y2 u2
2
=
2x 2x2

y2 u2 y2
Z Z
!
1
2x2 2y2
P (r ) = (r u ) e |y|du e dy
2x y

y2 r 2 y2
Z
! Z
1 1 y2
2x2 2y2 2
= e e |y|dy = 2A e |y|dy,
2x y 2x y
Z y2 Z y2
1 2 1 2
= e
2A |y|dy = 2A e ydy
x y 0 x y 0

r2 r2 y2 +x2 r2 +x2 /y2


onde chamamos A2 = x2
+ 1
y2
= x2 y2
= x2
. A integral em
y2
y simples, pois fazendo a mudana de variveis 2A2
= v obtemos

A2
Z
P (r ) = ev dv
x y
A2
=
x y
1 x 1
= . (5.46)
y r2 + x2
y2

Obtivemos uma distribuio que no gaussiana. Como vimos


antes esta a distribuio de Cauchy
a 1
P (r | a ) = . (5.47)
r 2 + a2
e interessante notar que para valores de r grandes ela decai
lentamente, que chamado de cauda gorda. Isso faz com que as
integrais fiquem mais complicadas. Por exemplo seu valor esperado
IE(r ) tem que ser calculado redefinindo o que significa a integrao
de a 11 11
Este o valor Principal de Cauchy.
Z R
IE(r ) = lim rP(r | a)dr = 0. (5.48)
R R

Isso ter consequncias importantes quando olharmos para


aplicaes. Mais importante ainda que a varincia infinita, mas o
parmetro a mede a largura da distribuio no seguinte sentido.
Para r = a, P(r = a| a) = 21 P(r = 0| a) ento a o valor de r a meia
altura e a largura da distribuio a meia altura 2a.
probabilidades 95

5.5 Herschel e Maxwell: um pouco de fsica

Mas ainda resta saber porque razovel considerar erros


gaussianos. Voltaremos a isto vrias vezes. Agora veremos uma
deduo a partir de algumas hipteses razoveis. O astrnomo John
Herschel (filho de William) e o Maxwell deram argumentos que
levam a gaussianas de forma muito elegante 12 . Herschel estava 12
Ver Probability, E. T. Jaynes.
preocupado com caracterizar os erros de medida da posio de uma
estrela e fez duas hipteses. A primeira que (i) os erros das
coordenadas ex e ey , respectivamente os erros de medida da
longitude (leste-oeste) e declinao (norte-sul) so supostos
independentes e igualmente distribuidos. Portanto a distribuio
conjunta deve ser fatorizvel:

P ( e x , e y | I ) = P ( e x | I ) P ( e y | I ) = f ( e x ) f ( e y ),

para alguma funo f ainda desconhecida. Se em lugar de


coordenadas cartesianas ele usasse coordenadas polares:

ex = er cos e
ey = er sin e
er2 = e2x + e2y
P(ex , ey )dex dey = P(er , e )er der de
(5.49)

A segunda hiptese que (ii) P(er , e | I ) = g(er ) no depende do


ngulo, onde g uma nova funo igualmente desconhecida.
Temos, portanto , que para qualquer ex e ey temos uma equao
funcional relacionando as duas funes desconhecidas
q
f (ex ) f (ey ) = g( e2x + e2y )

e em particular, ao longo de um dos eixos cartesianos

f ( e x ) f (0) = g ( e x ),

que dermina g se f for conhecido. Eliminamos uma das funes


desconhecidas e voltamos ao caso geral
q q
f (ex ) f (ey ) = g( e2x + e2y ) = f ( e2x + e2y ) f (0)
q
f ( e x ) f ( ey ) f ( e2x + e2y )
=
f (0)2 f (0)
que uma equao funcional com uma incgnita s. Definindo
exp h(ex ) = f (ex )/ f (0), temos
q
h(ex ) + h(ey ) = h( e2x + e2y ).

Obviamente h(0) = 0. Tambm vemos que h(ex ) = h(ex ).


Supondo que h duas vezes diferencivel, derivamos primeiro com
respeito a ex q ex
h0 (ex ) = h0 ( e2x + e2y ) q
e2x + e2y
96 nestor caticha

e a seguir com respeito a ey


q
h 0 ( e2 + e2 )
d x y
0= q
dey e2x + e2y

portanto h0 ( x ) x e h( x ) x2 . A soluo geral, que depende de um


parmero a,
2
f (ex ) e aex .
como isto tem que ser uma distribuio normalizvel, s podemos
considerar a < 0, que escrevemos por motivos bvios a = 1/22 .
Impondo normalizao, chegamos distribuio normal
ex N (0, 2 ).
Maxwell fez um raciocnio similar sobre as velocidades de um
tomo ou molcula num gs. Dentro do modelo que considerou as
partculas que compoem o gs no so interagentes. Esse modelo
recebe o nome de gs ideal. ideal para o terico que pode calcular
tudo o que quiser, mas no deve ser para o experimental pois a
maioria dos gases costuma ter propriedades muito mais complexas,
a no ser que esteja em limites de baixas densidades. Ser ideal
significa que razovel supor que se as partculas no interagem, e
so portanto independentes, devem ser igualmente distribuidas e
podemos olhar para a distribuio de velocidades de uma partcula.
Ainda mais, o mesmo se aplica ao olhar para uma partcula para as
distribuies das componentes cartesianas. Segue que a distribuio
de velocidade V = (v x , vy , vz ) fatoriza nas trs dimenses:
P (V | I ) = P ( v x , v y , v z | I ) = P ( v x | I ) P ( v y | I ) P ( v z | I ).
A hiptese que isto dado por uma funo que s depende da
magnitude v = |V | leva generalizao da equao funcional de
Herschel e novamente gaussiana. Assim
v2
1 i
P (V | I ) =
2
e 22 ,
i = x,y,z

onde,qe aqui a parte mais interessante que no provaremos,


= km BT
onde T e m so a temperatura e a massa das partculas
medidas em unidades apropriadas e k B a constante de Boltzmann
que permite converter unidades de energia em graus de
temperatura absoluta. 13 A densidade gaussiana e para obter a 13
Suponha que voce coloque em contato
trmico dois recipientes com o mesmo gs,
probabilidade devemos incluir o elemento de volume
ni moles e temperaturas Ti , i = 1, 2 res-
d3 V = dv x dvy dvz . Passando para coordenadas esfricas pectivamente. Suponha que uma verifica-
o emprica que nesse regime de tempe-
P(V | I )d3 V = P(v, , )v2 dvd(, ), raturas, entre T1 e T2 o calor especfico
constante. Mostre que a temperatura final
e dado que, por hiptese, P(v, , ) funo de v2 = v2x + v2y + v2z de equilbrio T f = T1 + (1 ) T2 , onde
somente, no depende das variveis angulares. Integrando sobre as = n1 /(n1 + n2 ). Mostre que a energia
cintica mdia por partcula tambm satis-
variveis angulares, temos que faz ecf = e1c + (1 )e2c . Isto sugere que
4 v2 a energia cintica mdia por partcula pro-

IP(v| I )dv = 3 v2 dv e 22 porcional temperatura. Por isso a varincia
(22 ) 2 da gaussiana proporcional temperatura.
3
2 mv2

m
= 4 e 2kb T v2 dv
2k B T
probabilidades 97

14Este trabalho, no que se chama teoria cintica dos gases 15 , levou 14


d(, ) = sin dd, com limites
Mecnica Estatstica de Boltzmann e Gibbs e de muitos outros. Foi (0, ) e (0, 2 ). A rea da esfera de
raio 1 em 3d :
mostrado por Jaynes na dcada de 1950 como um exemplo de teoria Z Z 2 Z
de informao. d = d sin d = 4
0 0

15
Isto no passa de uma deduo rpida de
uma gaussiana e da forma funcional da den-
5.6 A Distribuio normal cumulativa sidade de velocidades. Porque aparece a
massa da partcula ou a temperatura ser o
Uma varivel X N (0, 1) tem distribuio cumulativa tema de captulos posteriores que no sero
vistos num curso introdutrio.
Z x
1 2 dt
( x ) = e 2 t . (5.50)
2

claro que () = 0 e () = 1. A figura 5.3 o grfico de ( x )


no intervalo 4 < x < 4. Uma curva que vai de um valor
assinttico constante a outro como sta chamada de sigmoide. H
vrias outras sigmoides e um exemplo a tangente hiperblica.
Exerccio: Qual a distribuio de densidade de probabilidades de
uma varivel cuja cumulativa tanh( x )?

Figura 5.3: A distribuio cumulativa ( x )

H vrias funes relacionadas que foram introduzidas de forma


independente e que so usadas na literatura:
A funo erro:
Z x
2 dt
erf( x ) = et . (5.51)
x
A funo erro complementar erfc( x ) = 1 erf( x )
Exerccio: Mostre que

1 1 x
( x ) = + erf( ) (5.52)
2 2 2

5.7 Apndice A: Normalizao Gaussiana

Comeamos em 1 dimenso. Chamamos


Z ( x )2

Ic = c e 22 dx (5.53)

98 nestor caticha

e queremos encontrar c tal que Ic = 1. Primeiro mudamos a varivel


x por um deslocamento : xnovo = xvelho . Nem a medida de
integrao nem os limites mudam, portanto
Z 2
x2
Ic = c 2 e dx. (5.54)

No sabemos calcular analiticamente


Z y x2

e 22 (5.55)

em termos de funes simples conhecidas, o que fora introduo


de uma nova funo. A expresso acima est relacionada ao que
conhecida como funo erro 16 . Gauss fez um truque que parece 16
Para referncia futura,Ra funo erro de-
y
finida por erf(y) = 2 exp(t2 )dt.
um retrocesso. Tentou calcular Ic2 :
Mudando variveis, pode ser escrita
como: Rx
Z Z erf( x ) = 1 1 2
exp( 2 t ) dt
2 y2 2 2
x2 2
Ic2 = c2 2 e dx e
2 dy (5.56)

Escrevemos a varivel de integrao na segunda integral como y,


pois agora podemos escrever
Z Z ( x 2 + y2 )

Ic2 = c2 22 e dxdy. (5.57)

O truque vem de perceber que podemos interpretar a integral acima


( x 2 + y2 )

como a integral da funo de duas variveis e 22 sobre todo o
plano, ( x, y). Podemos dividir o plano em pequenos elementos
numa grade quadrada xy e tomar os limites necessrios, ou
podemos divid-lo em setores circulares onde x2 + y2 toma valor
constante r2 . Isto , usamos coordenadas polares. O estudante deve
olhar o texto de clculo necessrio. As relaes que permitem
mudar as variveis de integrao so

x = r cos
y = r sin
q
r = x 2 + y2
y
= arctan
x
dxdy rdrd. (5.58)

Os limites de integrao para as novas variveis so 0 r < e


0 < 2 Assim
Z 2 Z 2
r2
Ic2 = c2 2 e rdrd
0 0
Z r2

= 2c2 e 22 rdr
0

pois a integral em 2. Agora o preo de fazer duas integrais no


parece to caro, pois a integral angular foi trivial. A vantagem de
tudo isto o aparecimento do fator r no elemento de rea. Podemos
probabilidades 99

r2
mudar novamente variveis: u = 22
, e para o diferencial temos
du = rdr
2
, que leva a
Z
Ic2 = 22 c2 eu du
0
u
= 22 c2 e

0
2 2
= 2 c (5.59)

portanto, para que Ic = 1 devemos ter


1
c= (5.60)
2

5.7.1 Completando quadrados


frequente encontrar integrais do tipo
Z 2
x 2 +hx dx
A(h) = 2 e .
2

muito fcil de calcular pois podemos usar o resultado para a


normalizao da gaussiana
Z y2
2 dy
1 = 2 e (5.61)
2
Mudamos a varivel de integrao y = x a para obter
Z 2
( xa2) dx
1 = e 2
2
Z ( x2 2ax + a2 )
dx
= e 22
2
2 Z 2
a x +x a dx
= e 22 e 22 2 . (5.62)
2
a
Agora podemos escolher a para fazer h = 2
, de onde segue que
Z 2
h2 2 x 2 + xh dx
e 2 = 2 e . (5.63)
2
O resultado tambm pode ser obtido de uma forma similar, mas
que sugere o nome "completar quadrados."Podemos reescrever o
expoente do integrando de A(h)

x2 1  
+ hx = x2 2(h2 ) x
22 22
1  
= 2 x2 2(h2 ) x + h2 4 h2 4
2
1  2 h2 2
= 2 x (h2 ) + , (5.64)
2 2
ou seja, somamos e subtraimos h2 4 para completar um quadrado
perfeito. Muda variaveis, fazendo uma translao e usamos a
integral da normalizao.
Um comentrio talvez fora de lugar, mas que torna 5.63 muito
2 2
interessante, notar que a varincia, no termo exp h 2 aparece no
100 nestor caticha

numerador em lugar do denominador. Acreditando que os smbolos


das integrais mantenham o significado mesmo para integrao de
variveis complexas e que a expresso mantm-se vlida mesmo
que h seja complexo, em particular se substituirmos h ik obtemos
Z 2
k2 2 x 2 +ixk dx
e 2 = e
2 . (5.65)
2

fcil mostrar, mudando variveis, que


x2
Z
k2 2 ixk dk
e 22 = e 2 . (5.66)
2
Este um exemplo, talvez o mais simples, de uma par de funes
que esto relacionadas por uma operao que se chama
transformada de Fourier. A importncia desta rea no pode ser
exagerada, tanto pelas suas aplicaes em cincia quanto pela
beleza e riqueza em matemtica. Nestas notas voltaremos a falar de
transformada de Fourier ao tratar das distribuies de somas de
variveis estocsticas e o teorema do limite central pois a
exponencial pode ser escrita em srie de potncias como

(ixk)n
eixk = n!
n =0

e portanto a transformada de Fourier de uma densidade de


probabilidade :
Z
(k ) := heixk i = P( x | I )eixk dx

Z
(ixk)n
=

P( x | I ) n!
dx
n =0

IE( x n )(ik )n
= n!
n =0
(5.67)

A funo (k) chamada funo caracterstica da varivel aleatria


X e sua expanso em srie de potncias de k tem coeficientes
IE( x n )in
n! . Portanto se a funo caracterstica de uma varivel for
conhecida, uma simples expanso de Taylor nos dar os valores
esperados. Este tipo de tcnica muito til e est associado ideia
de funo geratriz, usadas inicialmente por Euler em teoria de
nmeros e posteriormente por Laplace 17 . Esta parte do apndice 17
"A generating function is a device so-
mewhat similar to a bag. Instead of car-
est um pouco acima do que se precisa neste curso, mas no do que
rying many little objects detachedly, which
se precisa na vida real dos fsicos. O aluno no deve desanimar, mas could be embarrassing, we put them all in
ao contrrio ficar animado com o fato que h um mundo de coisas a bag, and then we have only one object
to carry, the bag. Quite similarly, instead
interessantes para aprender que fornecero ferramentas para of handling each term of the sequence a0 ,
quando for estudar os verdadeiros problemas de pesquisa. a1 , a2 , individually, we put them all in
a power series an x n , and then we have
only one mathematical object to handle, the
5.7.2 Mais de uma dimenso: Normais multivariadas power series."George Plya, Induction and
Analogy in Mathematics.
Em mais de uma dimenso o problema passa por algum
conhecimento de propriedades de matrizes. Comeamos por
probabilidades 101

considerar N variveis normais independentes, de mdia nula e


varincia 1. Formamos um arranjo u = ( x1 , x N ). Alguns estaro
tentados a usar o nome vetor para este arranjo, mas devemos
resistir. Devemos guardar esse nome para situaes em que h um
significado especial para as variveis, como por exemplo
coordenadas em um espao Cartesiano. Podemos simplesmente
listar caractersticas de um sistema genrico e isso no faz do
arranjo um vetor 18 . A distribuio de probabilidades obtida pela 18
A representao de uma mesa pode ser
feita por um arranjo { altura , nmero de la-
regra do produto lgico
dos, nmero de pernas, nmero do varniz no
catlogo da Acme,...}. Isto no um vetor.
P ( x1 x N , I ) d N x = P ( x1 | x2 x N , I ) P ( x2 x N | I ) d N x
= P ( x1 | I ) P ( x2 | I ) P ( x N | I ) d N x
N
1 1
P ( xi | I ) d N x =
2
= N
e 2 i xi d N x
i =1 (2 ) 2

1 12 u T u
= N
e dN x
(2 ) 2

Agora consideramos uma matriz N N no singular, A e sua


transposta A T 19 e um arranjo constante y0 e fazemos a 19
Os elementos esto relacionados por
transformao de variveis ( A)ij = ( A T ) ji .
Uma consequncia
det A = det A T .

u = A(y y0 ), u T = (y T y0T ) A T .

O Jacobiano da transformao 20 20
Usamos det AB = det A det B.

u 1
| | = | det A| = p ,
y | det C |

onde C 1 = A T A. A mudana de variveis u y leva a

u N
P(y)d N y = P(u)| |d y
y
 
1 1 1 T 1
= N
p exp ( y y0 ) C ( y y0 ) .
(2 ) 2 det |C | 2
(5.68)

A matriz C tem um papel semelhante varincia 2 no caso de uma


dimenso. Mas aqui inclui valores esperados de variveis distintas

Cij = IE((yi y0i )(y j y0j )) (5.69)

que por descrever como covariam duas componentes chamada de


matriz de covriancia. Para mostrar isso definimos
 
1 1 1
Z
T 1
Z( J ) = N
p exp (y y0 ) C (y y0 ) + (y y0 ).J .
(2 ) 2 det |C | 2
(5.70)

que til pois ao derivar com respeito a Ji cai um fator yi y0i , que
ajuda a calcular os valores esperados:

2 ln Z
| J =0 = IE((yi y0i )(y j y0j ))
Ji J
102 nestor caticha

Por simplicidade, podemos tomar y0 = 0. Completando


quadrados, ao somar e subtrair 21 J T C J no expoente, obtemos:
 
1 1 1 1 1
Z
T 1
Z( J ) = N
p exp ( y ) C ( y ) + ( y ) .J + JTC J JTC J
(2 ) 2 det |C | 2 2 2
 !
1 T 1 1 1
Z
1 T 1 1
= exp( J C J ) N
p exp (y A J ) C (y A J )
2 (2 ) 2 det |C | 2
1
= exp( J T C J ) (5.71)
2

onde usamos a integral da normalizao. fcil tomar as derivadas


e mostrar 5.69. A funo Z ( J ) novamente uma exemplo de uma
funo geratriz e J chamado em Fsica de fonte. O estudante que
j tenha estudado transformada de Laplace a reconhecer no
desenvolvimento acima.
comum que em aplicaes tenhamos informaes sobre as
variveis yi e sobre as covarincias Cij . Encontrar a transformao
A1 interessante, pois leva de variveis correlacionadas (y) a
variveis independentes (x) que so combinaes lineares das
variveis que tipicamente so as variveis originais na descrio de
um problema. Estas transformaes so de extrema importncia em
qualquer rea da Fsica assim como em muitas outras reas da
cincia.
Exerccio Para dois vetores u, v num espao vetorial onde o
produto interno u.v definido, podemos provar a desigualdade de
Cauchy-Schwarz, que remonta a meados do sculo 19. Seja a norma
definida por |u| = (u.u)1/2 , ento

|u.v|2 |u|2 |v|2 (5.72)

Estude a prova deste teorema e use para provar que para cada
elemento da matriz de covarincia vale

|Cij |2 IE((yi y0i )2 ) IE((y j y0j )2 ) = Var(yi y0i )Var(y j y0j ).


(5.73)
e como a varinia invariante por translaes

|Cij |2 Var(yi )Var(y j ), (5.74)

ou
Cij
1 q 1. (5.75)
Cii Cjj

Pense sobre o que significa esta desigualdade em geral e o que


significa caso seja satisfeita como igualdade.

5.8 Apndice B: Distribuio 2

xi2
Defina 2 = in=1 i2
, que por sua vez uma varivel aleatria. Qual
a sua distribuio? Devemos olhar para a densidade de
probabilidades 103

probabilidade de que 2 caia num determinado intervalo d2 que


dada por
!
n x2 x2
1
Z Z
P(2 ) = ... 2 i2  n exp( i 2 )dx1 ...dxn .
i =1 i 2 ... 2i
1 2 n

Mude variveis y = x/. Mostre que o resultado


2
P ( 2 ) = K n n 1 e 2 . No necessrio, mas sim um desafio,
( n 2)
encontrar o valor de Kn = (2 2 (n/2 1)!)1 . {Voc pode dar
uma interpretao para esta distribuio? Considere n dados e uma
hiptese sobre esses dados que d uma estimativa -junto com uma
estimativa das varincias . A partir dos erros xi podemos formar
ento 2 .....Pense um pouco sobre o que ocorreria se h erros
sistematicos. Qual o valor de 2 mais provvel e qual a largura da
distribuio }

5.9 Apndice C: Stirling

A funo Gama definida para nossos propsitos imediatos sobre


os nmeros reais positivos:
Z
( x ) = et t x1 dt, (5.76)
0

que podemos estender por continuao analtica para o plano


complexo (x 6= inteiro menor que 1). Integrando por partes
( x + 1) = x( x ). fcil ver que (1) = 1 e portanto para n inteiro,
(n + 1) = n!. Para uso futuro, fazendo a mudana de varivel

t = u2 /2 vemos que (1/2) = .
Podemos escrever
Z Z
( x + 1) = et t x dt = e f (t;x) dt (5.77)
0 0

onde f (t; x ) = x log t t. Para x fixo, o valor mximo de f ocorre


em tmax = x. A derivada segunda com respeito a t, nesse ponto
f 00 (t; x ) = 1/x e as derivadas superiores, de ordem k caem com
x1k . Para valores de t >> x o integrando morre rapidamente e
para valores grandes de x, f bem aproximado pela srie de Taylor

1
f (t; x ) = x log x x ( x t )2 . (5.78)
2x
Supondo que no uma aproximao muito ruim desprezar as
derivadas superiores,
Z
1 2
( x + 1) e x log x x e 2x ( xt) dt
x
Z
1 2
e x log x x e 2x ( xt) dt


= 2xe x log x x (5.79)

onde estendemos o limite de integrao at porque devido ao


decaimento gaussiano no h contribuies importantes nessa
104 nestor caticha

regio. Assim temos

1 1
log n! = log (n + 1) = (n + ) log n n + log 2, (5.80)
2 2
mostrando de forma intuitiva a equao 5.4. Tambm
intuitivamente razovel que a aproximao deva ser melhor para
valores maiores de x, dado que as derivadas superiores desprezadas
so menores: f 000 (tmax )/ f 00 (tmax ) = 2/tmax = 2/x. Estas
consideraes podem ser provadas, assim como as correes da
equao 5.80, mas o leitor dever procurar outros textos (e.g. 21 ) 21

1 Figura 5.4: A figura mostra trs pares de


grficos, para x = 3, 7 e 15 respectiva-
mente. Cada par formado pelas funes
0.8
et t x /( x x e x ) e exp(( x t)2 /(2x ))

0.6

0.4

0.2

0
0 5 10 15 20 25

1 Figura 5.5: O mesmo que a figura anterior


para x=300. Note aqui, assim como na fi-
gura anterior, que ao usar a gaussiana que
simtrica em relao ao mximo, o erro
0.8
na integral cometido esquerda do mximo
tem sinal oposto ao cometido direita.

0.6

0.4

0.2

0
200 250 300 350 400

Uma expanso sistemtica, que no precisamos considerar aqui


leva a
 
1 1 1 1 1
log n! = (n + ) log n n + log 2 + log 1 + + + O( 3 )
2 2 12n 288n2 n
(5.81)
6
Aplicaes da regra de Bayes

Houve uma mudana muito grande nas ltimas dcadas quanto


difuso e popularidade de mtodos de inferncia Bayesianos.
Enquanto ningum nunca discutiu a validade do teorema de Bayes
como uma relao entre diferentes probabilidades condicionais,
houve e ainda h quem no o aceite como base de inferncia. Aqui
o ponto central sobre a interpretao de probabilidade como uma
frequncia versus como representao de crenas em asseres. A
discusso ser feita em vrios captulos e no fim o estudante dever
escolher suas definies preferidas, fazer suas alianas ou talvez
melhor, fornecer as suas prprias definies. Sobre o uso de um
teorema para fazer inferncia acredito que sempre devemos ter
preocupao com a aplicao de teoremas no mundo real e
tocaremos novamente neste tema ao falar de entropia. Do ponto de
vista informacional, o formalismo de entropia construido para
fazer inferncia, um mecanismo mais geral e engloba inferncia
Bayesiana nos casos em que a informao, na forma de dados
obtidos por medidas so usados. Por agora inferncia deve ser
entendida como um processo de mudar crenas, codificadas em
distribuies de probabilidades. Ento tentarei de forma sistemtica
me referir ao teorema de Bayes quando falar de uma relao entre
probabilidades condicionais. Quando estiver interessado em fazer
inferncia usarei a regra de Bayes. A expresso matemtica, a
frmula, do teorema e da regra so os mesmos. Mas bom no
confund-los. A regra de Bayes usar o teorema de Bayes para fazer
inferncia
interessante olhar para vrios casos em que a regra de Bayes
nos fornece resultados de inferncia em acordo com o bom senso,
para poder se acostumar com esta forma de pensar. Primeiro
olharemos se faz sentido para um lgico, ao sair de casa levar um
guarda-chuva simplesmente porque h nuvens.

6.1 A regra de Bayes e Informao Incompleta

6.1.1 Exemplo 1: Chuva e Sol


Vejamos agora alguns exemplos da utilizao destes resultados em
casos simples onde h informao incompleta.
106 nestor caticha

Voltemos agora aos silogismos iniciais. Suponha que

A=Est chovendo

B=H nuvens

C = A B00

Note que a implicao lgica no segue da causalidade fsica. Chove


porque h nuvens do ponto de vista de causalidade, mas do ponto
de vista lgico saber que chove obriga concluso que deve haver
nuvens. Suponha que seja dada a informao B, ou seja dado que
h nuvens. Dentro da lgica aristotlica nada podemos dizer.
Devemos com base nisso desprezar por ilgicos quem nos aconselha
a levar um guarda-chuva porque h nuvens? Vejamos o que nos diz
a teoria das probabilidades. Neste caso a regra de Bayes comea a
mostrar a sua fora. A probabilidade P( A|CI ) representa a crena
que esteja chovendo, sob a informao C, mas no levando em conta
se h ou no nuvens. Tambm leva em conta I, tudo o que sabido
sobre o clima nesta estao do ano, podendo ser muita informao
ou nenhuma. No importa efetivamente que nmero P( A|CI ) seja,
estar entre zero e um. Esta probabilidade dita a priori em relao
a B. Uma vez que se recebe e incorpora a informao que
efetivamente h nuvens, ou seja B, ento passaremos a P( A| BCI ),
outro nmero, que chamada a probabilidade a posteriori ou
simplesmente posterior. Aplicando Bayes

P( A|CI ) P( B| ACI )
P( A| BCI ) = , (6.1)
P( B|CI )

que relaciona a probabilidade a priori e a posterior. Cortando e


deixando para depois uma discusso longa sobre inferncia,
podemos dizer que razovel que usemos a posterior para decidir
se levaremos ou no o guarda-chuvas. A probabilidade P( B| ACI )
recebe o nome de verossimilhana (likelihoood e poderia ser
calculada se tivessemos um modelo sobre a influncia de A em B,
mas isso o que temos, este um caso de informao completa!
Temos certeza da veracidade de B se AC for dado. Assim

P( B| ACI ) = 1. (6.2)

O qu pode ser dito sobre o denominador P( B|CI )? O mnimo que


pode ser dito que
P( B|CI ) 1. (6.3)
Substituindo estes resultados obtemos

P( A| BCI ) P( A|CI ), (6.4)

a probabilidade que atribuiremos a que A seja verdade maior ou


igual se levarmos em conta o fato que h nuvens, que aquela que
atribuimos sem saber se h nuvens ou no. Finalmente nos diz que
a pessoa que percebe que h nuvens e leva o quarda-chuvas est
agindo de forma lgica, no dentro da lgica aristotlica, mas
probabilidades 107

segunda a extenso da lgica para casos de informao incompleta,


representada pela teoria das probabilidades. Vemos que o bom
senso dirio desta situao pode ser deduzido dos desejos impostos
por Cox.
Suponha outro caso de informao imcompleta. Agora A dado
como falso: no chove. Continuaremos a insistir que no podemos
dizer nada sobre B do ponto de vista da lgica? A regra de Bayes,
nos diz
P( B|CI ) P( A| BCI )
P( B| ACI ) = , (6.5)
P( A|CI )
e tambm sabemos que P( A| BCI ) P( A|CI ) da anlise anterior.
Ainda mais, temos que P( A| BCI ) = 1 P( A| BCI ) e
P( A|CI ) = 1 P( A|CI ), portanto

1 P( A| BCI ) 1 P( A|CI )
P( A| BCI ) P( A|CI )
P( A| BCI )
1 (6.6)
P( A|CI )
e
P( B| ACI ) P( B|CI ) (6.7)

levando concluso que se no est chovendo, devemos atribuir


uma probabilidade menor a que haja nuvens. Quem est mais
disposto a carregar um chape de sol porque recebeu informao
que no est chovendo, age de forma lgica.

6.1.2 Exemplo 2: Teste Mdico


Consideremos um exemplo clssico de testes mdicos. Um teste
mdico serve para ajudar a determinar se um paciente est doente,
mas ele no perfeito e h evidncia, baseado na histria que h
falsos positivos e falsos negativos. O que significa um resultado
positivo? Para proceder, o mais importante esclarecer quais so as
asseres relevantes.
Consideremos as asseres que temos como dadas ou que
queremos investigar

A=resultado do teste positivo.

D=paciente est doente.

A validade destas asseres devera ser estudada na situao


informacional descrita pelos dados sobre

especificidade: P( A| D ) = .90, a probabilidade de dar positivo no


teste na condio de estar doente

sensibilidade: P( A| D ) = 1 P( A| D ) = 1. .2 = .8, a
probabilidade de teste no dar positivo no caso em que o
paciente no est doente,
108 nestor caticha

Vemos que o teste bastante especfico (90%) e bastante sensvel


((80 = 100 20)%).
Suponha que seu resultado no teste deu positivo, A verdade.
Isto significa que est doente? H possibilidade de erros portanto
no temos informao completa. Qual a pergunta que devemos
fazer? Pode no ser o mais bvio a se fazer quando se recebe uma
notcia ruim, mas em geral devemos aplicar a regra de Bayes. Assim
poderemos calcular P( D | AI ) que o que realmente interessa, a
probabilidade de ter a doena quando o teste deu positivo,
P( D | I ) P( A| DI )
P( D | AI ) = , (6.8)
P( A| I )
e tambm
P( D | I ) P( A| DI )
P( D | AI ) = , (6.9)
P( A| I )
os denominadores so inconvenientes e os eliminamos olhando
para a razo
P( D | AI ) P( D | I ) P( A| DI )
= . (6.10)
P( D | AI ) P( D | I ) P( A| DI )
Aps considerar a equao acima percebemos que no temos dados
suficientes para entrar em pnico. A razo entre as probabilidades
que nos interessa P( D | AI )/P( D | AI ) depende de dados que
temos, sobre a especificidade e sensibilidade do teste e de dados
que no temos sobre a distribuio da doena na populao. A
teoria que no pode nesta altura nos dar a resposta que buscamos,
faz a segunda melhor coisa, indicando que informao adicional
devemos procurar. Aps esta anlise voltamos ao mdico e
perguntamos se ele tem informao sobre a distribuio a priori da
doena na populao caracterizada por I. Suponha que recebamos
P( D | I )
informao que P( D| I ) = 0.01/.99, s 1% da populao tem a
doena. Segue que
P( D | AI ) P( D | I ) P( A| DI ) .01 .90
= = = 0.045. (6.11)
P( D | AI ) P( D | I ) P( A| DI ) .99 .20

ou seja a probabilidade de no ter a doena aproximadamente .95.


No devemos considerar que isto seja uma boa notcia, afinal a
probabilidade que era de 0.01 de ter a doena passou para 0.045% :
aumentou quase cinco vezes. Mas no devemos ainda entrar em
pnico nem jogar fora a informao que ganhamos com o teste. O
que fazer? A anlise desta pergunta nos leva questo de deciso,
que no faz parte do objetivo destas notas. Certamente devemos
passar a colher mais informao.

6.1.3 Jaynes e o bom senso


O prximo caso simples lida com informao neutra. Suponha que

A|C A|C 0 ,

ou seja a plausibilidade de A diminui quando a informao


disponvel passa de C para C 0 . Suponha que para B isso no
probabilidades 109

acontea. Pensemos no caso que B indiferente ante a mudana de


C para C 0 . Isto
B|C = B|C 0 .

Parece razovel que se a assero conjunta AB for considerada, esta


seria mais plausvel nas condies C que C 0 ; isto seria desejvel
que a teoria satisfizesse

A|C A|C 0 e B| DC = B| DC 0 , para qualquer D, implicam que


AB|C AB|C 0

Jaynes defende que este desejo est de acordo com o bom senso.
Talvez seja difcil definir o que bom senso, mas sera mais difcil
negar que isto seja razovel. Jaynes coloca isto como um dos
axiomas para chegar teoria de probabilidades, por isso acima a
referncia plausibilidade, mas podiamos ter simplesmente dito
probabilidade.
O leitor talvez possa se convencer atravs de um simples
exemplo. Seja A=H vida em Marte, C= H gua em Marte,
C 0 = C, a negao de C. Suponhamos bvio que A|C A|C 0 .
Suponha que B=Hoje segunda feira. Certamente B|C = B|C 0 ,
pois que influncia pode ter saber sobre a gua em Marte, sobre o
que eu possa acreditar sobre o dia da semana. Tambm razovel
que a plausibilidade de que "haja vida em Marte e hoje seja segunda
feira"dado que "h gua em Marte"seja maior ou igual
plausibilidade que "haja vida em Marte e hoje seja segunda" dado
que "no h agua em em Marte. "
Mas agora temos a regra de produto para as probabilidades ou
plausibilidades regraduadas, e portanto podemos provar isto

P( AB|C ) = P( A|C ) P( B| AC ) = P( A|C ) P( B| AC 0 )

P( AB|C ) P( A|C 0 ) P( B| AC 0 ) = P( AB|C 0 ).

6.1.4 Exemplo da regra de Bayes, ajuste de funes e estimativa de


parmetros
Uma das primeiras lies que os estudantes de fsica tem ao
entrarem num laboratrio sobre ajuste de curvas e estimativa de
parmetros usando conjuntos de medidas empricas.
Um objeto cai e medimos as posies ou velocidades como
funo do tempo. Esto de acordo com o que se espera de um
objeto que cai na presena de um campo gravitacional? Qual o
valor de g, a acelerao da gravidade? S para deixar isto claro, no
faltaro exemplos complicados mais adiante nestas notas,
olharemos para o caso em que obtemos um conjunto de dados

D = {v1 , v2 , ...v N } (6.12)

para as velocidades medidas em

T = {t1 , t2 , ....t N }. (6.13)


110 nestor caticha

O modelo que temos em mente

M : v = v0 + gt (6.14)

Vamos supor que esse modelo est alm da necessidade de


discusses. Se no estivesse poderiamos querer avaliar, refutar ou
aceitar, pelo menos at ter mais dados. Se houvesse outro modelo
da mecnica poderiamos querer julgar o mrito entre os dois
candidatos. Isto ajudaria a selecionar um modelo. Faremos isso
mais tarde. Parece que a pergunta que queremos responder diz
respeito a asseres do tipo

H ( g) :"O valor da acelerao da gravidade g".

mas isto no est bem definido. O que queremos analizar

H ( g) :"O valor da acelerao da gravidade esta entre o valor g e


g + g".

Para cada valor de g que for inserido nessas frase teremos uma
assero diferente. O que queremos comparar o mrito de cada
assero, qual a probabilidade de cada uma delas, para todos os
valores que possam ser inseridos.
O exerccio um exemplo do dia a dia dos fsicos.
A regra de Bayes nos permite escrever

P( H | I ) P( D | H I )
P( H | DI ) = . (6.15)
P( D | I )

O que ser discutido a seguir fundamental para este curso. Ser


discutido em contextos mais complicados e portanto vale a pena o
esforo de entender cada passo. to importante que cada termo
recebe um nome.
Em primeiro lugar temos que definir as asseres relevantes ao
problema. A parte que parece menos importante, mas que na
realidade fundamental I, que define vrias coisas que de to
importantes so consideradas desnecessrias pois, para que falar o
bvio?
I denota toda a informao sobre a experincia:

Qual a teoria que queremos confrontar com os dados? Neste


contexto temos o modelo M da equao 6.14.

Quais so as caractersticas do aparelho de medida?

Em que instantes de tempo ti fizemos as medidas.

Quais as incertezas que estas medidas tm?

Em que planeta estamos?

...

e muito mais que ficar tcitamente escondido, mas ainda relevante.


D o conjunto de dados. Representa a assero sobre quais
foram os dados medidos.
probabilidades 111

H a hiptese que queremos seja testada a respeito do


parmetro g.
importante notar que fcil esquecer que isto o que
queremos avaliar.
Agora o significado das probabilidades que aparecem na equao
6.15.
Distribuio a priori
Comeamos pelo conhecimento que temos sobre o contexto
experimental mas sem levar em considerao os dados. A
distribuio de probabilidades a priori P( H | I ) codifica tudo o que
sabemos sobre a gravitao antes de entrar no laboratrio. Se no
soubermos o planeta onde a experincia realizada, fica difcil
esperar um valor e no outro. Todas as geraes de estudantes que
fizeram esta experincia, dos quais temos noticia, o fizeram na terra.
O resultado deu algo que se parece com 9.8 ms2 . Se o resultado
final fosse 9.8 kms2 o aluno ficaria tentado a mudar seu resultado,
mudaria de forma ad hoc seu valor no relatrio, o que seria
desonesto, ou faria novamente as contas. Se ainda persistir o
problema, jogaria fora os dados. Isto desonesto? No se estiver de
acordo com a sua probabilidade a priori. Qual a probabilidade
que a acelerao da gravidade seja 9.8 kms2 em So Paulo? qual
a probabilidade que voc atribuiria antes de entrar no laboratrio?
Quanto voce estaria disposto a apostar contra a veracidade dessa
assero? A priori, o estudante sabe que o valor estar por volta de
10 m/s, e pode ser constante entre 7 e 15. Muito mais que isso ou
muito menos, deve ser erro, e melhor jogar fora o que o estudante
chama de ponto fora da curva. Isso perfeitamente lgico e deve
ser feito a no ser que em I haja a possibilidade de que algo possa
mudar o valor esperado. Por exemplo a experincia esta sendo feita
em cima de uma cratra aberta por um meteorito composto do
elemento X. Ento podemos permitir a suposio que novos valores
sejam encontrados. Seriamos cegos se considerassemos a
probabilidade a priori de encontrar valores muito diferentes, nula e
se assim for feito, certamente no os encontraremos.
Verossimilhana1 1
Likelihood em ingls. Em linguagem cor-
rente tem vrios significados dependendo
A probabilidade P( D | H I ) descreve quo verossmel seria
do contexto em que usada, coloquial-
encontrar esse conjunto de dados se alm de I, o valor particular de mente, em Direito, dentro de um texto lite-
g representado por H fosse o correto. Esta a famosa contribuio rrio, etc.

do reverendo Thomas Bayes2 : a inverso. Queriamos saber a 2


referencia de bayes
probabilidade de g ter um certo valor nas condies que os dados
foram observados, mas estamos olhando para a probabilidade dos
dados no caso que a teoria (contida em I) e um valor particular do
parmetro g sejam verdade. Este termo recebe o nome
verossimilhana porque se for pequeno podemos dizer que h
poucas chances de que o valor do parmetro dessa hiptese em
particular tenha dado origem aos dados. Quando os nomes so
dados em uma poca e usados em outra pode ficar um pouco
estranho. obvio que esse termo uma probabilidade e talvez o
termo probabilidade inversa fosse mais til para descrever seu
112 nestor caticha

significado. Na estatstica da escola frequentista, a verossimilhana


no uma probabilidade porque os parmetros de uma teoria tem
uma existncia ontologica e no se admite possam ser discutidos
em termos de probabilidade.
Evidncia
O denominador P( D | I ) ser interessante em outros contextos, em
particular na comparao e seleo de modelos. Em geral
chamado de evidncia. Mostraremos que a evidncia trazida pelos
dados em favor do modelo considerado. Pode ser obtido usando o
fato que g no pode ter dois valores diferentes. As asseres para
valores de de g diferentes so mutuamente exclusivas. Portando a
soma sobre todas as possibilidades um. Neste caso em que g toma
valores reais, interessante considerar que as asseres tem o
significado que o valor da acelerao da gravidade est entre g e
g + dg e somas so substituidas por integrais.
Distribuio posterior
O resultado de toda a anlise ser a obteno de P( H | DI ) que se
chama a distribuio de (densidade de) probabilidade posterior, ou
simplesmente a posterior. Em problemas de verdade as integraes
so sobre espaos de dimenso muito grande. Os problemas
prticos e tericos associados a esta integrao sero discutidos mais
adiante, especificamente no captulo de integrao Monte Carlo.
Novamente, a crtica mais comum que a realidade objetiva
nica e portanto no possvel que haja uma probabilidade para o
valor de g. Mas no isso o que esta probabilidade significa. g
pode ter um valor nico objetivo 3 . O que a posterior, ou a a priori 3
Sabemos que g uniforme, constante
s uma aproximao vlida para quedas
significam que no temos informao completa e que s podemos
em distncias pequenas em comparao ao
atribuir probabilidades s diferentes asseres sobre o valor de g. raio da terra dentro da teoria de Newton.
Mais dados, ou seja mais informao, permitiro novas estimativas. Mas tambm sabemos que essa teoria no
final, tendo sido substituida pela de Eins-
O que estas probabilidades codificam no o valor de g, mas a tein, e certamente no sabemos por qual
crena que esse seja o valor correto. teoria vai ser substituida em anos futuros.
No sobra muito do conceito de um g que
descreve uma realidade objetiva. Mas sobra
6.1.5 Obtendo a posterior ainda a utilidade de usar o modelo de New-
ton e nesse sentido queremos determinar g.
H vrios exemplos que mostram a importncia de determinar a
distribuio a priori com muito cuidado. Podemos dizer que a
probabilidade que g < 0 deve ser zero. Os objetos mais densos que
o ar no caem para cima. Tambm podemos limitar os valores
superiores. Poderiamos dizer que P( H | I ) = c se gmin < g < gmax e
Rg
zero fora desse intervalo. A constante c tal que g max P( H | I )dg = 1
min
ou c1 = gmax gmin .
A verossimilhana P( D | H I ) leva em conta que as medidas so
sujeitas a erros. Poderiamos dizer, por exemplo, que o modelo
terico e o modelo sobre o aparelho de medidas, juntos nos levam a
esperar, que para os valor de tempo ti , onde feita a medida,

vi = v0 + gti + i . (6.16)

O resultado esperado puramente pelo modelo terico (eq. 6.14)


corrompido por algo que chamamos rudo. Isto esconde uma
probabilidades 113

grande quantidade de ignorncia sobre o processo de medida. Se


pudessemos aumentar o contrle sobre o aparelho de medida (e.g.
temperatura, vento, correntes eltricas, valores das resistncias,
...etc.) a amplitude de i poderia ser menor. Mas sempre h uma
incerteza sobre o valor medido. Temos que fazer algumas hipotses
sobre i . Estas, supostas verdadeiras, sero incluidas na assero I.
Como no temos informao completa, devemos descrever o
conjunto de s por uma distribuio de probabilidade
P(1 .... N | Iexp ). razovel supor que as diferentes medidas so
independentes, e usando a regra do produto lgico

P(1 2 .... N | Iexp ) = P(1 | Iexp ) P(2 .... N |1 Iexp )


= P(1 | Iexp ) P(2 3 .... N | Iexp )
= P(1 | Iexp ) P(2 | Iexp ) P(3 .... N |2 Iexp )
...
N
= P(i | Iexp ), (6.17)
i

onde usamos na primeira e terceira linha a regra do produto e na


segunda a independncia dos valores de 2 , 3 .... N e o de 1 .
Temos que a distribuio conjunta o produto das distribuies
inddividuais.
Qual a distribuio P( | Iexp ) a ser usada. Ainda devemos
supor algo mais, por exemplo mdia nula e varincia finita 2 . No
captulo sobre entropia justificaremos porque isto nos leva a uma
distribuio gaussiana

2
iN=1 i
e 22
P(1 , 2 .... N | Iexp ) =
(22 ) N/2

Mas pelo modelo da equao 6.16, i = vi v0 gti . Isto pode ser


interpretado como a probabilidade de obter vi dada a informao
(suposta verdeira) que a medida foi feita em ti e a acelerao da
gravidade g. Portanto a distribuio dos dados condicionada
hiptese. Portanto

(vi v0 gti )2
iN=1
e 22
P(1 , 2 .... N | Iexp ) = .
(22 ) N/2

Juntando tudo obtemos a posterior

(vi v0 gti )2
iN=1
P( H | I ) e 22
P( H | DI ) = . (6.18)
PD | I ) (22 ) N/2

O problema de inferncia est pronto. Mas qual a resposta a ser


dada? H vrias quantidades que podem ser extraidas da posterior.
Por simplicidade podemos nos contentar com o valor de g que
mais provvel g MAP , isto recebe o nome de mximo a posteriori ou a
moda da distribuio posterior. Se a distribuio a priori constante
na regio que a gaussiana relevante, podemos esquecer o prefator.
114 nestor caticha

Teremos a estimativa conhecida como mxima verossimilhana. A


resposta simplesmente o valor que torna o argumento da
exponencial mximo,
N
(vi v0 gti )2
g MV = arg min (6.19)
g
i =1
22

que o velho mtodo de mnimos quadrados. Mas escolher um


valor sobre os outros esconde que no temos certeza absoluta. A
largura da posterior nos d uma medida da incerteza. Por
simplicidade olhamos para a priori uniforme. Neste caso ou mesmo
para distribuies a priori exp( ag2 + bg) a distribuio de g
gaussiana. e temos
t2
g2 ( a + i )+
22
P( g| DI ) e i ,

ou seja, a varincia da distribuio de g j vem com uma estimativa


do erro da medida estimativa de g.

Figura 6.1: Distribuio a priori


P( g| Dn I ) (ap, azul), verossimilhana
P(vn+1 | g, tn+1 ) (v, verde) e distribuio
posterior P( g| Dn+1 I ) (po, vermelho)
como funes de g. Iniciando com uma
distribuio a priori uniforme a posterior
obtida multiplicando pela verossimilhana e
renormalizando. A posterior se transforma
na a priori para a chegada de um novo
dado. Isso significa que a curva azul de uma
figura a curva vermelha da figura anterior.
A medida que os dados se acumulam a
posterior se afina, dimimuindo a incerteza
sobre g. As abscissas mostram a regio
de interesse de valores de g. Cada figura
mostra as distribuies aps a incluso de
um novo dado. A primeira a distribuio a
priori uniforme. Com o aumento do tempo
a largura da verossimilhana tambm
diminui. Note que como funo de g a
verossimilhana no est normalizada pois
uma distribuio de vn e no de g.

Ainda podemos levar em conta que valores vizinhos de g MAP


tem probabilidade no desprezvel e apresentar o valor esperado
Z
g = gP( H | DI )dg, (6.20)

que o resultado da mdia das crenas de cada hiptese (valor de


g) ponderado pelo peso da distribuio posterior, que representa
quanto acreditamos em cada intevalo ( g, g + dg).
O painel 6.1 mostra o resultado de uma simulao do problema
de estimativa de g no laboratrio. uma simulao Monte Carlo,
probabilidades 115

tcnica que ser discutida mais adiante, do que esperamos ver no


laboratrio, caso as hipteses descritas acima sejam razoveis. A
forma de inferncia sequencial ou on-line. Comeamos de uma
distribuio a priori uniforme de g entre 5 e 15 e fazemos uma
medida no instante de tempo t1 . O conjunto de dados D1 = {v1 }.
Obtemos a posterior e o resultado mostrado na figura na linha
superior esquerda de ??. Colhemos um novo dado v2 em t2 . Neste
caso simples de dados independentes, tanto faz voltar ao comeo e
usar a a priori original e incluir a verossimilhana dos dois dados,
ou usar a posterior obtida depois de um dado como a nova a priori e
incluir este ltimo dado. As figuras subsequentes mostram em
verde a a priori depois de n dados e a posterior depois de n + 1
dados.

6.1.6 Um pouco mais de mnimos quadrados

Ainda no problema de estudo da acelerao da gravidade podemos


avanar um pouco mais. Vamos esquecer, pelo momento a
distribuio a priori, de forma que a posterior essencialmente a
verosimilhana. Lembre que a posterior distribuio
probabilidade de g e a verossimilhana dos dados, por isso uso a
palavra essencialmente na frase anterior. O denominador
(evidncia) da regra de Bayes importante. Assim

(vi v0 gti )2
iN=1
P( g| DI ) e 22 (6.21)

e a constante de proporcionalidade, que chamamos abaixo de C,


obtida por normalizao. A relao acima vista como uma
gaussiana da varivel g leva a
!
1 N t2 N t i ( v i v0 )
P( g| DI ) = C exp g2 i=21 i g i=1 2
2
( g g MAP )
1
22
= e G (6.22)
2G

onde a mdia e varincia da posterior so dadas por:

iN=1 ti (vi v0 )
g MAP = (6.23)
iN=1 t2i
2
G2 =
iN=1 t2i
(6.24)

Neste caso simples a mdia da posterior g , a estimativa de mxima


verossimilhana g MV e o mximo da posterior g MAP coincidem
Exerccio Mostre que igualando a derivada com respeito a g,
como indicado na expresso 6.19, resulta em g MV = g MAP = g .
Chame v2 = (vi v0 )2 /N, vt
= (vi v0 )ti /N e t2 = t2 /N,
i
116 nestor caticha

ento

vt
g MAP = (6.25)
t2
2
G2 =
N t2
(6.26)

Podemos calcular o valor dos resduos quadrados


N  2 2 2

2 = v 2g vt + g t
22
2
 
=
N
v2 (vt) (6.27)
22 t2

Exerccio bvio que 2 no pode ser negativo, pois o valor


mnimo do resduos quadrados. Mostre isto sem usar essa
informao. Procure saber sobre a desigualdade de
Cauchy-Schwarz.
O que ganhamos em apresentar assim o mtodo dos mnimos
quadrados que os estudantes devem ter visto h muito tempo?
Suponha por exemplo, que voce colha mais informao sobre o
aparelho de medida e chegue concluso que a distribuio dos
no gaussiana. Ainda assim usaria o mtodo dos mnimos
quadrados? Podemos ver quais as suposies necessrias e tentar
verificar se cada uma delas razovel ou no. Isto no pouco, a
apresentao cuidadosa pode evitar suposies que no
gostariamos de fazer ao analisar os dados de uma experincia. To
importante quanto usar a informao disponvel no usar a que
no o . O prximo captulo levar esta idia adiante.
Exerccio Se a medida for repetida N vezes, sempre no mesmo
tempo t1 , podemos ver que a varincia cai com 1/N, que um
resultado tpico que encontraremos muitas vezes. Agora discuta se
razovel que os desvios de cada medida sejam iguais. Suponha
que no sejam e encontre o valor de g MAP sob essas condies.
Exerccio O modelo que acabamos de estudar linear e
univariado. Podemos generalizar para casos no lineares ou
multivariados ou ainda no lineares e multivariados. Tente
generalizar o mtodo acima.

6.1.7 Moeda recarregada


Retomamos o problema do final do captulo anterior. Podemos falar
de uma urna de composio incerta ou analogamente de jogadas
similares de uma moeda. Usaremos a linguagem do lanamento de
uma moeda 4 . Uma moeda que pertenceu a um executivo de uma 4
Sigo a apresentao em Sivia, aps uma
idia de S. Gull . De fato o primeiro a pensar
grande empresa estatal lanada e se a face que acaba ficando para
neste problema parece ter sido Laplace, que
cima cara, s = 1. Se for coroa s = 1. Aps N jogadas a visitamos ao falar da regra da sucesso.
informao guardada em D N = (s1 , s2 , ..., sn ), que pode ser
comprimido na informao (n, m), com n caras e m = N n coroas.
Talvez haja motivo para achar que h algo estranho com a moeda e
que as duas faces no sejam igualmente provveis. Investiguemos.
probabilidades 117

O problema com que nos defrontamos encontrar o valor de um


parmetro p para o qual no temos informao completa e portanto
procuramos uma distribuio P( p| Dn ) que codifique a informao
disponvel. Este problema conjugado ao de, dado o valor de p e o
nmero de jogadas N devemos atribuir probabilidades ao valor de
n. Suponha que codificamos nossa crena sobre os diferentes
valores de p com uma distribuio a priori P0 ( p). Uma vez colhido o
primeiro valor s1 passamos a

P0 ( p) P(s1 | p)
P( p| D1 ) = (6.28)
P( D1 )

A verossimilhana P(s1 | p) simples, especialmente se voc


expressar P(s1 | p) em palavras. Se s1 = 1 ento queremos saber a
probabilidade que saia cara quando a probabilidade de sair cara p.
Que p.... E se s1 = 1, queremos a probabilidade que saia coroa
quando a probabilidade de sair cara p. Portanto 1 p. Logo
s1 +1 s1 1
P ( s1 | p ) = p 2 (1 p ) 2

talvez mais fcil introduzir a varivel i que conta as caras, 1 se


for cara e zero se no:
s +1
i = i
2

P(s1 | p) = p1 (1 p)11 (6.29)


Cada vez que a moeda jogada usamos a equao 6.28, mas usando
como distribuio a priori a posterior obtida no passo anterior. Aps
N passos
P ( p | D N ) P ( p | D N 1 ) P ( s N | p ). (6.30)
Como podemos escrever P( p| D N 1 ) em termos de P( p| D N 2 ) e
podemos iterar, obtemos

P( p| D1 ) P0 ( p) P(s1 | p)
P( p| D2 ) P0 ( p) P(s1 | p) P(s2 | p)
P( p| D3 ) P0 ( p) P(s1 | p) P(s2 | p) P(s3 | p)
..
.
N
P( p| D N ) P0 ( p) P(si | p) (6.31)
i =1

Usando a equao 6.29, e notando que iN=1 i = n, o nmero de


caras obtemos
1
P( p| D N ) = P ( p ) p n (1 p ) N n . (6.32)
N 0
onde escrevemos explicitamente N que garante a normalizao. O
estudante pode neste momento achar que encontramos a funo
binomial que descrevia a probabilidade n caras e m = N n coroas
quando a probabilidade de cara p. Mas estaria enganado! A
binomial d P(n| p, N ) ou seja a probabilidade de n. A equao 6.32
118 nestor caticha

a probabilidade inversa. Neste momento no queremos entrar no


tpico espinhoso de causalidade, que ser deixado para mais tarde,
mas Laplace teria dito que enquanto P(n| p, N ) descreve o efeito (n
caras) devido causa (p), a probabilidade P( p| D N ) descreve a
causa, dado o efeito. A varivel sobre a qual no temos informao
completa o parmetro contnuo p que toma valores no intervalo
[0, 1]. Dito isso calculamos a normalizao explicitamente:

P0 ( p) pn (1 p) N n
P( p| D N ) = R 1 . (6.33)
0 P0 ( p0 ) p0n (1 p0 ) N n dp0

Para o caso em que a distribuio a priori uniforme no intervalo

p n (1 p ) N n
P( p| D N ) = R1
0 p0n (1 p0 ) N n dp0
( N + 2)
= p n (1 p ) N n
( n + 1) ( N n + 1)
( N + 1) ! n
= p (1 p ) N n (6.34)
n!( N n)!

portanto p Beta(n + 1, m + 1), pois reconhecemos a distribuio


Beta com parmetros a = n + 1 e b = m + 1.
A seguir simulamos alguns casos deste problema para investigar
o efeito da escolha da distribuio a priori P0 ( p). O casos so

1. P0 ( p) unforme refletindo total incerteza sobre o valor de p

2. P0 ( p) reflete a confiana na honestidade da moeda: uma


distribuio muito fina centrada em 1/2.

3. P0 ( p) reflete a nossa certeza que o jogo no honesto e portanto


p est perto de 0, quando no sairo caras, ou perto de 1 quando
no sairo coroas.

Para o caso do prior uniforme, fcil ver que o mximo da


posterior, obtido a partir da derivada com respeito a p da equao
6.32

d
P( p| D N )| pmax = 0
dp
1
npnmax (1 pmax ) N n = ( N n) pnmax (1 pmax ) N n1
n
pmax = . (6.35)
N
Isto est relacionado o que encontramos para a binomial, que o
valor esperado hni = pN. Usando o resultado 3.16 de Euler
Z 1
r!k!
Ekr = pr (1 p)k dp = (6.36)
0 (r + k + 1) !

obtemos que
Z 1
( n + 1) ! ( N n ) !
EnN+1n = pn+1 (1 p) N n dp = (6.37)
0 ( N + 2) !
probabilidades 119

Figura 6.2: Distribuio posterior


P ( p | D N I ). Iniciando com uma distri-
buio a priori uniforme a posterior
obtida multiplicando pela verossimilhana e
renormalizando. A posterior se transforma
na a priori para a chegada de um novo
dado. A medida que os dados se acumulam
a posterior se afina, dimimuindo a incerteza
sobre p. O valor usado na simulao
foi p = 0.75. A posterior se afina e
fica concentrada na vizinhana de p . A
legenda indica quanas jogadas da moeda
foram levadas em conta. As curvas verdes
(retas) so roporcionais verossimilhana,
p se o resultado foi cara e 1 p se foi
coroa.

Figura 6.3: Igual que a figura anterior mas


com uma distribuio a priori muito concen-
trada no centro. A convergncia muito
mais lenta porque a crena inicial a re-
gio correta do parmetro muito pequena.
Aps 150 jogadas o valor MAP estimado
aproxiamdamente 0.55.
120 nestor caticha

Figura 6.4: Igual que figura anterior mas


com uma distribuio a priori muito descon-
fiada. A convergncia mais rpida que no
caso anterior. Nos trs casos a sequncia
de jogadas a mesma.

portanto o valor esperado de p dado por

EnN+1n
IE( p) =
EnN n
( n + 1) ! ( N n ) ! ( N + 1) !
=
( N + 2) ! n!( N n)!
n+1
= . (6.38)
N+2

Os valores pmax e IE( p) so bem prximos entre si para valores


grandes de N e n. Obviamente a mdia emprica de i pmax :

N
1 n
N i = N
= pmax . (6.39)
i =1

O interessante deste resultado no que tenhamos obtido o bvio, a


mdia de sucessos o valor mais provvel do parmetro p. O
interessante o mtodo, pois na subseo 6.1.10 faremos um caso
em que isso no verdade. O clculo da mdia no d nenhuma
informao sobre o parmetro procurado. Mas antes uma nota de
interesse histrico.

6.1.8 Bayes, a mesa de Bilhar e a distribuio a priori.


No trabalho de T. Bayes postumamente publicado por R. Price o
problema atacado essencialmente o da moeda, mas em outra
linguagem. A informao a seguir ser chamada como usualmente
I. Considere uma mesa de bilhar quadrada de lado L, uniforme por
probabilidades 121

construo. Uma bola rola em cima da superficie com atrito at


parar. jogada sem nenhum conhecimento das regras da dinmica
e pode parar em qualquer lugar. Chame = x/L onde x a
coordenada do ponto de parada. Trace uma linha reta paralela ao
eixo y pelo ponto de parada. Jogue a bola novamente e defina, para
i = 1, 2...n os eventos si = 1 se o ponto de parada xi /L > e
si = 1 se no. Note que a probabilidade P(si = 1| I ) =
(equivalente ao parmetro p anteriormente) e o problema de Bayes
determinar . Como no temos informao completa devemos, dar
a probabilidade que pertena a cada itervalo ( a , b ] condicionado
ao dados contidos na sequncia {si }. Por construo a distribuio a
priori de uniforme. H grandes discusses sobre o uso da
uniforme como afirmao de ignorncia ou por indicar
conhecimento explicito que por construo deve ser assim. Algum
pode ser ignorante enquanto outro no. Suponha que voc veja a
pessoa que joga a primeira bola e no saiba quem . Outra pode
saber que quem joga a bola uma grande jogadora de bilhar, cuja
filha foi raptada por um mafioso. Seu prior seria uniforme porque
voce acreditou toda a histria sobre a conduo do experimento,
mas outros priors podem no s-lo.

6.1.9 Estimativas de parmetros para distribuies gaussianas


As medidas xi , i = 1, .2....N de uma grandeza X tem erros com
distribuio gaussiana. Queremos estimar os valores dos
parmetros de localizao e/ou escala . Temos a seguinte
informao:

Conjunto de dados D N = { x1 , x2 , x3 ...., x N }.

Conhecemos a distribuio condicional P( x |I ) dado qu


X N (, ). Todas as medidas so igualmente distribuidas.

As medidas que levam aos dados so independentes.

Temos as distribuies a priori P(| I ) e P( | I ). Consideramos e


a priori independentes.

Vamos considerar duas situaes quando (i) conhecido e (ii)


desconhecido.
(i) Obviamente usamos a regra de Bayes e escrevemos

P(| Dn I ) P(|I ) P( Dn |I )
P(|I ) P( xi |I )
i
P(|I ) exp( log P( xi |I )) (6.40)
i

Note que da estrutura da equao 6.40 vemos que a


verossimilhana de gaussiana, e isso continuar valendo se a
distribuio a priori for constante ou gaussiana. Mas se no for
podemos extrair informao til. til trabalhar com o logaritmo
122 nestor caticha

dessa expresso. O valor 0 de que maximiza a probabilidade


determinado por
!
d log P(| I ) d
d
0= + ( log P( xi |I )) (6.41)
d i = 0

Usaremos P(|I ) = P(| I ) constante na regio de interesse.


Portanto podemos esquecer por enquanto a distribuio a priori,
supondo-a constante no intervalo de interesse. Dado que a
distribuio dos erros gaussiana, o mais provvel ser
determinado por

d
d
0 = ( ( xi )2 )|0
i
0 = ( x i 0 )
i
1
0 =
n xi , (6.42)
i

ou seja o valor de mais provvel a posteriori a media dos dados


ou a mdia emprica:
0 = x.

Mas bviamente esta deduo usou a informao que, alm de


independentes, os erros de medida eram gaussianos. Qual a
incerteza que temos sobre o valor de ? Obviamente quando temos
a posterior temos tudo o que podemos ter, mas queremos reduzir
ao mximo o que deve ser comunicado. Talvez isso seja um residuo
histrico dos tempos antes dos computadores. Um sumrio da
experincia dizer a estimativa do parmetro e sua incerteza. Dado
que a distribuio de gaussiana, a incerteza pode ser dada como
o desvio padro. Em princpio no devemos jogar informao fora.
Mas dada a convico de estar falando de uma varivel com um
valor real, queremos atribuir-lhe um valor. Para referncia futura, o
mtodo para calcular a incerteza olhar para a expanso de Taylor
at segunda ordem do logaritmo da posterior, que o inverso da
varincia da posterior ou uma medida da sua curvatura na regio
central:
!
1 d2 1 d2
2 = 2 ( log P( xi |I ))|=0 = 2 2 ( xi ) 2
N d i d i
N
= , (6.43)
2

portanto costume escrever o sumrio da experincia como


= 0 . (6.44)
N

Notamos que a incerteza diminui com a raiz de N, justificando o


custo da coleta de mais dados. A posterior se estreita, como vimos
nas figuras 6.2-6.4.
probabilidades 123

Se as medidas tiverem, como no caso da estimativa de g,


varincias diferentes, ento devemos olhar para as derivadas de

d ( x )2
0 = ( i 2 ) 0
d i i
1
0 =
n xi ,
i
1 1
2
N
= 2 (6.45)
i

No caso (ii) estamos interessados em P(| Dn I ), que obtida


marginalizando a distribuio conjunta:

Z
P ( | Dn I ) = P(| Dn I )d e por Bayes:
Z
P(| I ) P( Dn |I )d. (6.46)
0

Novamente supomos independncia a priori de e , e podemos


supor constncia na regio de interesse ou que a probabilidade a
priori , = 0 ou 1. A motivao para esta ltima forma vem
das idias de Jeffreys e em resumo significa que esperamos que as
probabilidades de estar entre x e 10x independente de x.
Fazendo a mudana de variveis t = 1/,

1
Z a

P ( | Dn I ) d e 22
N +
Z
at2
dtt2 t N + e 2
0
1 N + 2+1 t 02
Z
( ) 2 dt0 t0 N +2 e 2
a
1 N + 1
( ) 2
a
1 N + 1
( ) 2 . (6.47)
i ( x i )2

e usando a notao x = i xi /n e x2 = i xi2 /n podemos escrever

(xi )2 ) = n( x)2 + n(x2 x2 ) (6.48)


i

1
P ( | Dn I )   N + 1 (6.49)
( x )2 + ( x2 x2 )
2

Agora um comentrio que atende dvida do leitor que se


pergunta, e se em lugar de , fosse considerada a varincia u = 2
como a desconhecida, o resultado seria o mesmo? Usamos um a
priori de u anlogo ao caso anterior du/u . Deve ser notado que
uniforme em no uniforme em 2 ,
124 nestor caticha

1
Z
a
P ( | Dn I ) du N +
e 2u
u
2

1 1
Z Z
1
du0 N e 2u0
a 0 u0 2 +
1 N + 1
( )2
a
1 N
( ) 2 + 1 . (6.50)
i ( x i )2

Como pode ser visto, as expresses 6.47 e 6.50 so diferentes, a no


ser que = 1, que a prescrio de Jeffreys. Poderiamos ter
escolhido marginalizar sobre a varivel uk = k e o prior 1/uk
levaria ao mesmo resultado.
A distribuio de no gaussiana, mas podemos calcular um
valor e sua incerteza para sumarizar a informao da posterior,
como se fosse:
d d
log P(| Dn I ) = ( N + 1) log ( xi )2
d d i
i ( xi )
= ( N + 1)
j ( x j )2
1
. . . | = 0 = 0 0 = x =
N xi (6.51)
i

e tomando a segunda derivada, notando que j ( x j 0 ) = 0

1 d2
= log P(| Dn I )|=0
2 d2
N ( N + 1) N ( N + 1)
= =
i ( x i 0 ) 2 i ( xi x )2
S
= (6.52)
N
onde (usaremos a moda 0 = x a mdia emprica)

1
N+1
S2 = ( xi x )2
i

a estimativa do desconhecido a partir dos dados e se = 0


conhecido como varincia amostral. Para N grandes no faz muita
diferena tomar = 0 ou 1. A pdf depende da soma i ( xi )2 ,
que pode ser escrita de uma maneira mais reveladora

( x i )2 = (xi2 2xi + 2 + x2 x2 )
i i
= N ( x2 2x + 2 ) + ( xi2 x2 )
i
= N ( x )2 + ( xi x )2 (6.53)
i

1
P ( | Dn I ) N + 1
. (6.54)
[ N ( x )2 + i ( xi x )2 ] 2
probabilidades 125

Note que para N + = 3 reobtida a distribuio de Cauchy, de


caudas gordas. Tem um mximo em = x e uma largura a meia
2
altura l S/ N pois l 2 = 4(2 N +1 1)S2 ( N + 1)/N onde
para = x l/2 a probabilidade cai metade.
A introduo desta famlia de distribuies foi feita por W. S.
Gosset, que assinava seus artigos como Student, e conhecida como
a distribuio T de Student. Definimos a varivel t
x
t =

x
= (6.55)
S/ N
e = N + 1. Temos

1
P ( | Dn I ) N + 1
[( x )2 + ( N + 1) S2 ] 2

1

[ N t2 + 1] 2
(6.56)

que a distribuio T com graus de liberdade.

6.1.10 Caudas gordas


A concluses da seco anterior podem no se manter vlidas para
outras distribuies. Vamos mostrar um exemplo onde isso no
ocorre.

Figura 6.5: Um conjunto de amostras de


uma distribuio de Cauchy. Esquerda-
Superior: Srie temporal, Dir-Sup: Histor-
grama dos valores de 10 < x < 10 e
Esq-Inf: de 60 < x < 60. Dir-Inf: A me-
dia amostral de x em vermelho, a mdia de
x, para 10 < x < 10 em verde.
126 nestor caticha

O exemplo descrito na figura 6.5 para uma distribuio de


Cauchy. Devido s caudas gordas possvel ter grandes erros se
fizermos o que foi sugerido pela anlise anterior; a 6.5 demostra que
a localizao da varivel x pode ser estimada se fizermos a mdia
com um corte de e.g. | x | < 10. A mdia amostral de x, dada por
x = in=1 xi /n realmente pssima pois a cada evento extremo a
mdia d pulos que fazem perder toda a informao conquistada
at esse ponto. Os histogramas so bem comportados, mas ao
aumentar a regio analisada, novos eventos so encontrados, note
que na srie temporal um valor chega a 105 . O corte nos valores
extremos ao fazer a mdia equivalente a declarar um a priori nulo
fora desse intervalo.
Na figura 6.6 mostramos a evoluo da posterior medida que
mais dados so incorporados. A linha vertical preta na abscissa
r = 1 mostra o valor correto (usado na simulao). A linha azul
mostra a mdia aps n amostras. A linha verde est na moda da
posterior. Aps 60 amostras parece que a mdia convergiu para o
valor correto, mas para n = 90 a mdia est bem longe e isso se
mantm por longo tempo, mesmo em n = 150. Aps 15 amostras, a
posterior tem um um s pico e ele se estabiliza rapidamente perto
de r = 1. O resultado assinttico para a posterior ser independente
da simulao, mas a parte inicial onde neste exemplo aparecem at
trs picos varia de caso a caso, assim com o comportamento da
mdia amostral.

Figura 6.6: A posterior P(r | Dk I ) para o


mesmo conjunto de amostras da distribui-
o de Cauchy da figura anterior. Apenas
mostramos a posterior para k no conjunto
[1, 2, 3, 4, 6, 8, 10, 12, 15, 20, 30, 40, 60, 90, 120, 150]

A posterior P(r | Dk I ) bem comportada e no h pulos bruscos.


Isso devido que mesmo que a verossimilhana da ltima amostra
probabilidades 127

seja grande numa regio muito fora da posterior at o ltimo dado


ou a nova a priori, vai ser multiplicada por valores pequenos de
todos os dados anteriores e no tem uma influncia igual a todos os
dados anteriores.
Vamos supor que a probabilidade de um valor de x seja dado por
a 1
P( xi | arI ) =
1 + x r )2
(
a2

conforme a linguagem usada antes sta a verossimilhana do valor


de x na i sima medida, dados o parmetro de escala a, suposto
conhecido e o parmetro de localizao r suposto desconhecido.
Pela regra de Bayes, aps coletar o conjunto de dados
Dk = { xi }i=1...k , teremos

P(r | Dk , a, I ) P(r | a, I ) P( Dk |r, a, I ) (6.57)

Supondo, por facilidade, primeiro que os dados so independentes


e igualmente distribuidos e que a apriori pode ser tomada como
constante, ento
1
P(r | Dk , a, I ) ( x i r )2
. (6.58)
i 1+ a2

A figura 6.6 mostra que a pesar da mdia ter pulos descontrolados a


posterior de r se afina de forma bem comportada. O valor mais
provvel a-posteriori dado pela soluo de

1
r post = maxarg log . (6.59)
( x i r )2
i 1 + a2

Portanto dado pela soluo da equao

( xi r )
( x i r )2
= 0, (6.60)
i 1+ a2

que pode ser simplemente obtido numericamente mas no temos


uma expresso to fcil quanto no caso gaussiano. Podemos notar
que a posterior dada pela equao 6.58 bem comportada e sua
moda muito mais estvel do que a mdia amostral. O resultado a
ser lembrado que sempre podemos usar a mdia, mas nem
sempre uma boa idia faz-lo.

6.1.11 Exemplo simples de tomada de deciso e o problema das 3


portas
Este um problema bastante conhecido e aparentemente contra
intuitivo para muitos que o encontram pela primeira vez. Pode ser
facilmente resolvido usando teoria de probabilidade e ajuda a
ilustrar um problema de teste de hipteses, que permite fazer uma
deciso sobre que curso de ao deve-se tomar.
O nome do jogo est associado a um programa de TV e a seu
anfitrio: Monty Hall. Considere o seguinte jogo assimtrico, entre
128 nestor caticha

um jogador J e a banca B. B monta o jogo da seguinte forma que


de conhecimento pblico. H tres portas fechadas e atrs de uma
delas h um prmio e nada atrs das outras duas. B pede ao jogador
J que aponte uma das portas. Ento B, que sabe onde est prmio,
diz: nao vou tocar a porta que voce escolheu e vou abrir uma das
outras duas, que eu sei que estar vazia. Efetivamente, abre uma
das outras duas e mostra que est vazia. No existe a possibilidade
de que abra a porta do prmio. B agora d uma nova chance a J e
pergunta se quer mudar de opinio sobre a porta que escolheu. J
tem sua frente duas possibilidades (i) muda ou (ii) mantm a
escolha inicial. O que deve ser decidido se tanto faz mudar ou no
ou seja se h uma melhor estratgia e caso haja, qual .
A resposta que sim h uma estratgia melhor e ela que J deve
MUDAR de porta. Muitas pessoas neste ponto reclamam e
discordam. Pare para pensar se isto bvio ou no.
A soluo do problema pode ser encontrada de vrias maneiras,
mas aqui estamos interessados em aprender sobre teste de
hipteses. A obteno da resposta decorre de aplicar a seguinte
estrategia: Escreva quais so as asseres possveis e depois escreva
as probabilidades e use quando e se possvel, a regra de Bayes.
Considere as seguintes asseres, para cada i = 1, 2, ou 3:

Nome Assero
Hi : O prmio est atrs da porta i
Di ; a banca B abre a porta i
Ii J aponta inicialmente a porta i

Suponha que I1 verdade e deve ser entendido como dado do


problema, pois determina simplesmente as condies em que se
dar o jogo. Qualquer outra porta que tivesse escolhido seria
chamada aqui de porta 1.
Qual a probabilidade a priori de que o prmio esteja na porta i?
Raciocinado de acordo com um principio de razo insuficiente, J
deve atribuir P( Hi ) = 1/3, j que no h informao para
diferenciar uma porta da outra. E aps ter feito a escolha inicial da
porta? Ainda deve ser P( Hi | I1 ) = 1/3, pois o simples fato de
apontar a porta no deveria mudar a probabilidade de esconder o
prmio.
A pergunta que J est se fazendo poder ser respondida s aps
receber a informao de B, por exemplo que a porta 3 aberta, ou
seja D3 verdade. Isto informao relevante: o prmio no est
atrs de 3. Esta informao forma o conjunto de dados que J usar
para decidir.
O teste de hiptese deve decidir entre H1 e H2 , sob a luz da
informao recebida, o que significa que deve comparar P( H1 | D3 I1 )
probabilidades 129

e P( H2 | D3 I1 ). Definamos r por

P( H1 | D3 I1 )
r :=
P( H2 | D3 I1 )

Se r > 1, dada a informao disponvel H1 mais provvel e a porta


1 dever se escolhida. Se r < 1, a porta 2, e se r = 1, tanto faz.
Para calcular essas probabilidades usaremos a regra de Bayes. A
probabilidade conjunta de Hi e D j dado Ik pode ser escrita de duas
formas diferentes:

P( Hi D j | Ik ) = P( Hi | Ik ) P( D j | Hi Ik )
= P( D j | Ik ) P( Hi | D j Ik ), (6.61)

isto , para analisar a probabilidade conjunta de Hi e D j serem


verdade dado Ik , primeiro podemos considerar Hi e depois, sendo
Hi verdade, considerar a probabilidade de D j ser verdade, dado Hi ,
sempre dado Ik , assim obtemos a primeira equao. Podemos
inverter a ordem, comeando por analisar D j , obtendo a segunda
equao. Os dois resultados devem ser iguais, pois se no fossem
certamente seriamos levados a uma inconsistncia, assim segue a
regra de Bayes:

P( Hi | Ik ) P( D j | Hi Ik )
P( Hi | D j Ik ) = .
P( D j | Ik )

Novamente esta regra a base para qualquer problema onde nova


informao D j nos leve a rever o que pensamos das diferentes
hipteses Hi . Isto , descreve a forma como devemos mudar a
atualizao de probabilidades em face nova informao D j .
O teste de hiptese requer calcular

P( H1 | D3 I1 ) P( H1 | I1 ) P( D3 | H1 I1 )
r= = .
P( H2 | D3 I1 ) P( H2 | I1 ) P( D3 | H2 I1 )

Agora devemos calcular cada um dos quatro fatores que aparecem


no lado direito da equao acima. Repetimos que apriori
P( H1 | I1 ) = P( H2 | I1 ) = P( H3 | I1 ) = 1/3 por simetria.
As verossimilhanas por outro lado no sao iguais e este o
ponto surpreendente. Consideremos primeiro P( D3 | H1 I1 ). Estas
condies descrevem a situao em que B sabe que o prmio est na
porta 1 e que foi indicada por J. Ento B poder escolher entre as
portas 2 e 3. Qual o motivo para que B abra uma ou outra com
diferente probabilidade? No h. Ento P( D2 | H1 I1 ) = P( D3 | H1 I1 ),
mas como B deve escolher entre uma e outra e nao h mais
possibilidades temos que P( D2 | H1 I1 ) = P( D3 | H1 I1 ) = 1/2. Ou seja,
sob as condies H1 I1 a banca conclui que D2 e D3 so exaustivas,
mutuamente exclusivas e simtricas.
O quarto fator no teste de hipteses P( D3 | H2 I1 ). Estamos na
condio que J escolheu 1 (I1 ), e o prmio esta na 2 (H2 ). Que
escolha tem B? Somente uma: ele abrir a porta 3, logo
P( D3 | H2 I1 ) = 1 e P( D2 | H2 I1 ) = 0, pois se no fosse poderia ocorrer
130 nestor caticha

a revelao do prmio, assim:


1
P( H1 | D3 I1 ) P( H1 | I1 ) P( D3 | H1 I1 ) 3 12 1
= = 1
= ,
P( H2 | D3 I1 ) P( H2 | I1 ) P( D3 | H2 I1 ) 3 1 2

logo concluimos que a probabilidade de estar atrs da porta 2 o


dobro que estar atrs da porta 1 e portanto a estrategia que dever
mudar da porta 1 para a 2.
Considere a generalizao do problema acima para N portas, k
prmios e a abertura de a portas. Considere um prmio, um milho
de portas e a abertura de 999.998 portas. So ficam duas portas
fechadas, uma indicada por J inicialmente e outra escolhida por B
cuidadosamente. Chamemos D/856.322 a assero Abriu 584.416
portas e pulou a 584.417 que J tinha escolhido, depois abriu at a 856.321 e
pulou a porta 856.322 e continuou abrindo at chegar ltima. S temos
duas hipteses a confrontar: H J que diz que o prmio est atrs da
porta escolhida pelo jogador, 584.417 e HB que diz que o prmio
est atrs da porta 856.322, pulada pela banca. Fica mais intuitivo ?
O teste de hipteses d

P( H J | D/856.322 I J ) P( H J | I J ) P( D/856.322 | H J I J )
r= = =
P( HB | D/856.322 I J ) P( HB | I J ) P( D/856.322 | HB I J )

1 1
N 1 1 1
= N
1
= = 6 ' 106 .
N 1 N1 10 1

claro agora que o fato de J escolher aleatoriamente, sem


informao nenhuma que quebre a simetria inicial entre as portas,
leva a a que o prmio tenha uma probabilidade muito baixa de estar
na que escolheu. A banca sabe onde est o prmio.
Cuidadosamente evita uma porta em particular,abrindo todas as
outras. O conjunto de portas no apontado inicialmente por J tem
uma probabilidade P( H J ) = 1 N1 de conter o prmio. A
informao que B fornece ao abrir as portas evita dizer qualquer
informao sobre o domnio apontado por J, sem revelar
exatamente a localizao do prmio. A cada porta aberta, a
probabilidade que J tenha acertado no muda, nem a probabilidade
P( H J ) mas esta se distribui igualmente por um nmero cada vez
menor de portas. Quando s sobra uma porta fechada alm da
escolhida inicialmente, toda essa probabilidade se concentra.

6.2 Exerccios Propostos

Laplace estudou o seguinte problema:

Considere trs urnas idnticas. Com base unicamente na


informao a seguir

1. Cada urma tem duas bolas. Uma tem duas bolas brancas (U0 ),
outra tem uma branca e uma preta (U1 ) e a terceira duas pretas
(U2 ).
probabilidades 131

2. Independentemente de qualquer outra coisa, uma urna


escolhida sem que haja preferncia por alguma delas.

3. Da urna escolhida uma bola extraida. A bola branca e


colocada novamente na urna

4. Da mesma urna, uma bola escolhida. Novamente a bola


branca.

calcule a probabilidade que a urna escolhida seja U1 e a


probabilidade que seja U2 . Valendo zero pontos, a probabilidade de
ser U3 .
Tente estruturar a sua soluo de forma a que seja til para
atacar outros problemas. Defina as asseres importantes no
problema, por exemplo W1 = "a primeira bola extraida branca".
Defina qual a assero cuja probabilidade pedida, incluindo (!!!)
as condies. Use argumentos de simetria onde for necessrio e no
esquea de identificar onde estes argumentos foram usados. Use as
regras do produto e soma, use marginalizao e independncia.
1.b)Caso geral: Temos M + 1 urnas indexadas por K que toma
valores inteiros k de zero a M. Na k-sima urna k bolas so pretas e
as outras M k so brancas. Uma urna escolhida sem que haja
preferncia por alguma em especial. Uma bola retirada, sua cor
anotada, sendo recolocada na urna. Isto repetido N vezes com a
mesma urna. O nmero de bolas pretas extraidas no total J. Qual
a probabilidade da ksima urna ter sido escolhida dados M, N e
J : P(k | M, N, J )? Dica: Suponha k conhecido e calcule a
probabilidade de J. Faa a inverso.
7
Teorema do Limite Central

As grandezas de interesse em Mecnica Estatstica sero


tipicamente originadas por somas de grande nmero de outras
variveis, por exemplo a energia de um gs tera contribuies das
energias cinticas de cada molcula mais as interaes entre elas.
Suponha que Y = X1 + X2 . O que Y significa? Do ponto de vista de
aritmtica no insultaremos o leitor. Significa o bvio. Do ponto de
vista de asseres, temos um conjunto de asseres simples do tipo
a varivel Xi toma valores entre xi e xi + dxi para i = 1, 2 e
suponha que de alguma forma atribuimos nmeros a suas
probabilidades. Queremos analisar, sob essa informao a assero
a varivel Y toma valores entre y e y + dy. Notemos que a
asseres compostas A1 =x1 = .17 e x2 = .25 e A2 =x1 = .42 e
x2 = 0. levam mesma concluso sobre o valor de Y. Mas elas so
disjuntas no sentido que A1 A2 como produto lgico no pode ser
verdade. As duas no podem ser simultaneamente verdadeiras. A
probabilidade da soma lgica A1 + A2 ento a soma das
probabilidades. Mas h outros casos de conjunes que do o
mesmo resultado para Y e devem ser levadas em conta: devemos
somar sobre todas elas. Olharemos para somas deste tipo,
Y = X1 + X2 + X3 + ...X N , quando o nmero de termos na soma
muito grande. Lembrem que o nmero de tomos em alguns
poucos gramas da ordem de 1023 .

7.1 Convolues e Cumulantes

Considere variveis idnticas Xi que tomam valores reais { x1 , x2 , ...}


tal que P( xi ) o mesmo para todo i. Consideraremos o caso em que
para qualquer i 6= j, os Xi so independentes entre si e so
igualmente distribuidos 1 . Estamos interessados na varivel Y que 1
Independentes e igualmente distribuidos:
usualmente abreviado por i.i.d.
toma valores em y = i=1..n xi . Em particular, qual a distribuio
de P(y| N = n)? Comecemos com N = 2, a probabilidade que Y
tenha um valor entre y e y + dy obtida a partir de todas as formas
que y x1 + x2 y + dy, com pesos iguais probabilidade de
ocorrncia de x1 e x2 . Ver a figura 7.1. Para ser especficos
chamaremos P( xi ) a distribuio de valores de xi , embora estejamos
considerando que independe de i. A assero que o valor de Y esta
entre y e y + dy a soma lgica de todas as asseres do tipo X1
134 nestor caticha

tem valor x1 e X2 tem valor x2 , restritas ao caso em que


y x1 + x2 y + dy e portanto tem probabilidade

Figura 7.1: No plano X1 X2 temos a regio


onde o valor de Y est entre y e y + dy.
Todos os pares x1 e x2 nela contribuem para
a probabilidade de Y

Z
P(y| N = 2)dy = dx1 dx2 P( x1 ) P( x2 ), (7.1)
y x1 + x2 y+dy
pois cada par de valores temos uma assero disjunta. O vnculo
y x1 + x2 y + dy pode ser removido introduzindo a funo A
que 1 se a condio A for satisfeita e zero se no 2 . 2
A chamada a funo caracterstica do
Z intervalo ou conjunto A, no confunda com a
funo caracterstica da distribuio de pro-
P(y| N = 2)dy = y x1 + x2 y+dy dx1 dx2 P( x1 ) P( x2 ), (7.2)
babilidades definida abaixo.

onde agora a integrao sobre todo o domnio de ( x1 , x2 ).


Introduzimos uma representao para em termos da integral de
uma seqncia de funes n ( A):
1
n (y x1 + x2 y + yn ) = , se y x1 + x2 y + yn
yn
= 0, se no (7.3)

e obtemos, tomando o limite para n , tal que yn va para zero,


Z
P ( y | N = 2) = dx1 dx2 P( x1 ) P( x2 )(y x1 + x2 ), (7.4)

Z
P ( y | N = 2) = dxP( x ) P(y x ), (7.5)

isto , a convoluo de P( x1 ) e P( x2 ) denotada por ( P P)(y).

Outra forma: marginalizao


Podemos ver como o resultado acima decorre das regras da
probabilidade de outra forma: marginalizando. Comeamos com a
distribuio conjunta das variveis Y, X1 e X2 e integramos sobre
todos os valores de X1 e X2 :
Z
P(y) = dx1 dx2 P(y, x1 , x2 ). (7.6)
probabilidades 135

Da regra do produto
Z
P(y) = dx1 dx2 P(y| x1 , x2 ) P( x1 , x2 ). (7.7)

Mas Y esta totalmente determinado se X1 e X2 forem conhecidos,


portanto P(y| x1 , x2 ) = (y x1 x2 ). Se novamente considerarmos
X1 e X2 independentes: P( x1 , x2 ) = P( x1 ) P( x2 ), obtemos novamente
a equao 7.5. A vantagem disto que podemos facilmente obter
expresses para funes gerais. Se y = f ( x1 , x2 ), ento
Z
P(y) = dx1 dx2 (y f ( x1 , x2 )) P( x1 , x2 ) (7.8)

Exerccio
Discuta a diferena entre P(Y ) a distribuio da soma e P( X1 X2 ),
para o produto lgico, que denotaremos por P( x1 , x2 ) a chamamos
de distribuio conjunta de X1 e X2 . Considere tambm a varivel Z
que toma valores iguais ao produto dos valores de X1 e X2 : obtenha
uma expresso para P(z) quando z = x1 x2 .

Distribuio da soma de variveis e a funo caracterstica


Suponha que P( x ) satisfaz as seguintes condies:
R
P( x )dx = 1, P( x ) 0 para todo x
R
h x i = xP( x )dx < ,
R
h x2 i = x2 P( x )dx < ,

podemos introduzir a transformada de Fourier (TF) 3 e a inversa 3


Para que exista suficiente ainda
Z que P seja seccionalmente contnua
em cada intervalo [ M, N ] e definir
(k) = eikx P( x )dx (7.9) RN
= lim N,M M eikx P( x )dx
Z
dk
P( x ) = eikx (k ) (7.10)
2
A TF de uma distribuio de probabilidades chamada de funo
caracterstica. Ela tambm chamada de funo geradora dos
momentos, pois uma expanso formal em srie de potncias da
exponencial na equao 7.9 e a troca da ordem de integrao e
somatria nos mostra que os coeficientes esto relacionados aos
momentos:
Z
(ikx )s
(k) =
s =0 s!
P( x )


(ik)s s
= s!
hx i (7.11)
s =0

(ik)s
= s!
Ms ,
s =0

em termos dos momentos Ms = h x s i. Tomemos a TF dos termos da


equao 7.5, e usando :
dx ikx
Z
(k) = e (7.12)
2
136 nestor caticha

obtemos
Z
( k | N = 2) = dydxeiky P( x ) P(y x ),
dxdydk1 dk2
Z
= (k1 |1)(k2 |1)eiky+ik1 x+ik2 (y x) .
(2 )2
Integrando sobre x e usando a representao da delta:

dydk1 dk2
Z
= (k1 |1)(k2 |1)eiky+ik2 y (k1 k2 ),
2
= ( k |1) ( k |1) = 2 ( k | N = 1) (7.13)

Para a soma de N = n variveis xi


Z n 1
P(y| N = n) = dxi P( x1 ) P( x2 )...P(y x i ), (7.14)
i =1...n i =1

ou, introduzindo uma integral mais


Z n
P(y| N = n) = dxP( x1 ) P( x2 )...P( xn )(y xi ), (7.15)
i =1...n i =1

obtemos
( k | N = n ) = n ( k | N = 1) (7.16)
e a inverso da transformada nos d a distribuio de P(y| N = n).
No espao de Fourier a convoluo simples produto, ou seja
vamos para o espao de Fourier, multiplicamos e depois voltamos
ao espao original fazendo a transformao inversa.
Podemos tomar o logartmo de cada lado da equao 7.16 e dado
que produtos, ao tomar logaritmos, viram somas, temos
n
Y ( k | N = n ) = log (k| N = n) = log (k| N = 1)
i
= n log (k| N = 1) = n X (k| N = 1). (7.17)

onde a segunda linha vale no caso que as variveis xi sejam


igualmente distribuidas. Isto nos leva a discutir os cumulantes
{Cs (n)} de uma distribuio4 , definidos atravs da expanso em 4
As funes so chamadas as funes
geradoras dos cumulantes. A idia de cu-
srie de potncias de ik da sua funo caracterstica:
mulantes teve vrias origens independen-
tes. Os nomes associados so T. N. Theile,
(ik)s
(k| N = n) = log (k| N = n) = Cs (n) s!
. (7.18) H. Ursell, R. Fisher, J. Wishart.
s =0


(ik)s (ik)s
Ms ( n ) s!
= es=0 Cs (n) s! . (7.19)
s =0
A equao 7.17 nos indica o motivo do nome dos cumulantes: a
aditividade (ou acmulo) ante convolues

Cs (Y = Xi ) = Cs (Xi ),
i i
Cs (n) = nCs (1), (7.20)

onde a equao 7.20 segue porque as { xi } so identicamente


distribuidas e usamos uma notao menos carregada. Concluimos
probabilidades 137

que quando variveis aleatrias independentes se somam, os


cumulantes da distribuio da soma so a soma dos cumulantes das
distribuies.
Podemos obter a relao entre os momentos e os cumulantes.
Pela definio atravs da srie de potncias, vemos que em termos
da funo caracterstica

1 ds log
Cs = | (7.21)
(i )s dks k=0

Podemos calcular alguns dos primeiros,


Z
log (k| N = 1) = log eikx P( x )dx

(ikx )s
Z
= log s!
P( x )dx
s =0

(ik)s s
= log(1 + s!
h x i)
s =1

(ik)s1 1 (ik)s1 +s2 s1 s2
= s 1 ! h x s1 i 2 s1 !s2 !
h x ih x i
s =1
1 s 1 ,s2 =1

1 (ik)s1 +s2 +s3
+
3s s1 !s2 !s3 !
h x s1 ih x s2 ih x s3 i + ... (7.22)
1 ,s2 ,s3 =1

onde usamos log(1 + u) = l


l =1 ( u ) /l. Juntando os termos com
a mesma potncia de k obtemos os cumulantes em funo dos
momentos h x s i:

C0 = 0,
C1 = h x i,
C2 = h x 2 i h x i2 ,
C3 = h x3 i 3h x2 ih x i + 2h x i3 ,
C4 = h x4 i 4h x3 ih x i 3h x2 i2 + 12h x2 ih x i2
6h x i4 , (7.23)

O cumulante para s = 0 nulo, devido normalizao da


distribuio. Para s = 1 a mdia e para s = 2 a varincia, ficando
mais complicados para valores maiores de s .
Fica mais interessante se olharmos alm da soma Y, para Z = Yn
e para W = Yn . Colocamos um ndice para indicar a que varivel se
refere o cumulante e obtemos a propriedade que chamada de
homogeneidade:

nC1x = C1Y (n) = nC1Z (n) = nC1W (n), (7.24)

Portanto C1W (n) = C1x independe de n, o que bvio. Mas para


valores de s maiores

nCsx = CsY (n) = ns/2 CsZ (n) = ns CsW (n), (7.25)


138 nestor caticha

Portanto

CsY (n) = nCsx


1
CsZ (n) = x
s 1 Cs
n2
1
CsW (n) = Cx , (7.26)
n s 1 s

que mostram o decaimento dos cumulantes como funo de n. O


expoente de n tem duas contribuies; o 1, que vem do acmulo, e o
s/2 ou s que vem do fator de escala de Z ou W respectivamente.
mais interessante olhar para quantidades adimensionais para poder
entender o sgnificado relativo desses decaimentos. Podemos olhar
para (C2x )1/2 como a escala tpica das flutuaes de x em torno da
mdia. A razo usx = Csx /(C2x )s/2 adimensional e

CsY (n) s
uYs (n) = s = n1 2 usx , (7.27)
(C2Y (n)) 2

Este decaimento mostra que para s fixo, s 3 a contribuio


relativa dos cumulantes superiores fica cada vez menor com o
aumento de n. J que independe da escala, isso vale para Z e W
tambm (verifique):

CsZ (n) s
usZ (n) = s = n1 2 usx ,
(C2Z (n)) 2
CsW (n) s
uW
s (n) = s = n1 2 usx , (7.28)
(C2W (n)) 2

Exerccio

Calcule os cumulantes para a distribuio normal N (, ), ou seja


( x )2

P( x ) = 1 e 22 . Calcule a funo caracterstica. bvio que
2
C1 = e C2 = 2 .
Mostre que Cs = 0 para s 3. Segue que as
quantidades adimensionais us so nulas para s 3.
O que significa, frente a este resultado para a gaussiana, o
s
decaimento de uYs (n) = n1 2 usx ? De forma pedestre isto mostra que
a distribuies de Y, Z e W esto ficando mais perto de uma
gaussiana para n grande. E de forma no pedestre? Este o tema
da prxima seco.

7.2 O Teorema do Limite Central I

Comeamos pela funo caracterstica de Z


(ik)s
Z (k|n) = exp( CsZ (n) )
s =1
s!
probabilidades 139

e a funo geradora dos cumulantes



(ik)s
Z (k|n) = CsZ (n) s!
s =1

(ik)s 1 s Z
= s!
n 2 Cs (n)
s =1

(ik)s 1 s X
= s!
n 2 Cs
s =1
k
= n X ( ). (7.29)
n

Note que a funo nula para argumentos nulos (segue da


normalizao da distribuio de probabilidades), portanto ao tomar
o limite de n grande no est claro o que acontece com a expreso
acima e portanto devemos investigar mais. Chamando x = h X i e
C2X = x2 = h X 2 i h X i2

(ik)s 1 s Z s
Z (k|n) = ikC1Z (n) k2 C2Z (n) + s!
n 2 (C2 (n)) 2 u2X
s =3

k2 (ik)s 1 s X
= ik n x x2 + n 2 Cs (7.30)
2 s =3
s!

onde usamos os resultados 7.26.


k2 (ik)s 1 s X
| Z (k|n) + ik n x + x2 | = | n 2 Cs |
2 s =3
s!
k2 1 (ik )s 3s X
| Z (k|n) + ik n x + x2 | = | n 2 Cs |
2 n s=3 s!
(7.31)

Os estudantes devem lembrar o critrio de convergncia de


Dirichlet 5 . Note que se para cada k fixo a funo caracterstica for 5
Considere uma sequncia de nmeros re-
ais { as }, no caso que nos interessa aqui
limitada, as condies de convergncia so satisfeitas. Ento para 3 s
as = n 2 e uma sequncia de nmeros
cada valor de k fixo, o termo do lado direito cai com n1/2 portanto s
{bs }, aqui tomaremos bs = (s!ik) CsX , que
satisfazem (i) as+1 /as 1,(ii) lims as =
k2 0, (iii) para cada inteiro N vale | sN=1 bs |
lim | Z (k|n) + ik n x + x2 | = 0 (7.32)
n 2 M, onde M alguma constante. Ento
s as bs converge.
Isto forma a base para um teorema sobre a convergncia da
funo geradora dos cumulantes de z na funo geradora de uma
disribuio normal. Tambm permite, agora pulando algumas
etapas considerar razovel desprezar os cumulantes de ordem
superior segunda e obter pela
Z
dk
P( Z | N = n) = exp(ikz + ikC1Z (n) k2 C2Z (n)/2)
2
Z 2 2 dk
= exp(ikz + ik n x k x /2) (7.33)
2

para obter

(z n)2
1
2x2
P( Z | N = n) = p e (7.34)
2x2
140 nestor caticha

Da mesma forma, e com o mesmo grau de rigor ou falta dele:


(yn x )2
1
2nx2
P (Y | N = n ) = p e
2nx2
( w x )2

1 2
2 nx
P (W | N = n ) = q e (7.35)
2
2 nx

Vemos que as distribuies so gaussianas e escrevemos as tres para


mostrar que as diferentes formas de ajustar a escala da soma leva a
que diferentes quantidades tenham um valor limite fixo ou que
mude com alguma potncia de n.
Isto um esboo de uma prova. Vejamos agora um exemplo
onde o clculo exato.

Exerccio
Mostre que os resultados acima ( eqs. 7.34 e 7.35) so exatos no caso
particular que a distribuio P( x ) gaussiana:
( x )2
1
2x2
P( x ) = p e
2x2
Soluo: O exerccio anterior mostra que os cumulantes com s 3
so nulos. Logo, no necessrio desprez-los.
Temos o resultado importante que somas de variveis gaussianas
tem distribuio gaussiana. No captulo sobre a gaussiana
encontramos explicitamente que a soma de duas variveis normais
tambm normal. Este um exemplo de uma distribuio dita
estvel sob adies. Somas de variaveis gaussianas so gaussianas.

7.2.1 Um teorema
Podemos fazer o argumento acima um pouco mais cuidadoso e
obter algo mais parecido a um resultado rigoroso. O qu temos e o
que falta?
Os cumulantes de ordem s 3 de uma distribuio normal so
nulos.

Em algum sentido os cumulantes de ordem s 3 para as somas


tendem a diminuir com o aumento de n (eqs 7.28 e 7.27).
O que temos que as funes caractersticas de Y, Z e W
convergem, para cada k na funo caracterstica de uma gaussiana.
Resta usar um teorema devido a Levy que diz que se h
convergncia pontual de uma sequncia de funes caractersticas
para uma funo caracterstica,

(k|n) (k)

ento a sequncia de distribuies cumulativas converge para a


distribuio cumulativa

Prob(Y [ a, b]|n) Prob(Y [ a, b])


probabilidades 141

isso chamado convergncia em distribuio: Yn Y. No caso em


particular que estamos interessados a varivel Yn = in Xi tende Y
que tem distribuio normal.

Exerccio
b
Mostre que a distribuio de Cauchy P( x ) = 1 x2 + b2
estvel. Note
que portanto a soma de variveis de Cauchy no gaussiana.
Discuta primeiro a varincia de x para ver onde os argumentos
acima falham.

7.3 A mdia e a concentrao em torno da mdia

A distribuio de W dada pela eq. 7.34 mostra que a mdia de W


igual mdia de x. Isto no deve causar nenhuma surpresa, devido
linearidade da integral. Se os diferentes xi forem considerados
como diferentes medidas de X, ento W pode ser entendido como a
mdia emprica de X. Isto o contedo da lei fraca dos grandes
nmeros. Quanto se afasta a mdia emprica da mdia? Ou de outra
forma, diferentes experincias levam a diferentes mdias empricas,
qual a probabilidade de que hajam flutuaes grandes? Usemos a
desiguladade de Chebyshev que pode ser obtida desta forma:
Considere e > 0 e pela equao 7.26, temos que C2W (n) = x2 /n,
satisfaz
Z
C2W (n) = dw(w2 hwi2 ) P(W = w| N = n)

Z
= dw(w hwi)2 P(W = w| N = n)

Z
dw(w hwi)2 P(W = w| N = n)
|whwi|e
Z
dwe2 P(W = w| N = n)
|whwi|e
2
e Prob(|w hwi| e). (7.36)
R
onde usamos Prob(|w hwi| e) = |whwi|e dwP(W = w| N = n)
e chegamos desigualdade de Chebyshev, que d uma cota do
decaimento com e da probabilidade de ter flutuaes maiores que e:

C2W (n)
Prob(|w hwi| e) (7.37)
e2
Mas C2W (n) depende de maneira simples de n. Extraindo esta
dependncia temos que a probabilidade de que uma amostra de n
valores { xi } que tenha uma mdia emprica hwi e que este valor se
afaste do valor mdio por mais que e, isto , , Prob(|w hwi| e)
est limitada por:
C2x
Prob(|w hwi| e) (7.38)
ne2
As flutuaes de w de tamanho maior que e fixo, ficam mais
improvveis quando n cresce.
O prximo exerccio mostra de que forma a frequncia de um
evento esta relacionada com a probabilidade.
142 nestor caticha

Exerccio: frequncia e probabilidade


Considere a seguinte informao I= Uma moeda jogada para
cima, bate no teto, no ventilador do teto, e cai no cho plano. H
vrios motivos para atribuir p = 1/2 probabilidade que caia a cara
para cima, isto p = P(s = 1| I ) = 1/2 e q = P(s = 1| I ) = 1/2 .
Poderiamos considerar outra experincia I 0 6 onde p, q tem outro 6
por exemplo I 0 = Deixe a moeda, inicial-
mente de cara para cima e num plano ho-
valores (entre zero e um). Consideremos as jogadas independentes,
rizontal, cair at a mesa, a partir de uma al-
para duas jogadas i e j quaisquer P(si |s j I 0 ) = P(si | I 0 ). Chame m o tura h, sem girar. Considere h = 1 mm,
nmero de caras para cima, quando a moeda jogada n vezes. A h = 1 cm e h = 1 m.
frequncia de caras definida por f = m/n

(A) Mostre que a distribuio de m, a distribuio binomial:

n!
P(m| N = nI 0 ) = pm qnm (7.39)
m!(n m)!

(B) Calcule hmi , hm2 i. [Dica: Use a expanso binomial de (i)


( p + q)n , (ii) p p
m
p = mpm e (iii) a normalizao p + q = 1;
resposta: hmi = np , hm2 i = n2 p2 + np(1 p)]

(C) Refaa a deduo da desigualdade de Chebyshev para


distribuies de variveis que tomam valores discretos e mostre
que para e fixo, a probabilidade que a frequncia f se afaste do
valor esperado h f i = p por mais que e, cai com 1/n.

(D) Discuta e pense: Ento de que forma a frequncia est ligada


probabilidade? A frequncia converge, quando n cresce, para a
probabilidade p. Toda convergncia precisa ser definida em
termos de uma distncia, que vai para zero quando se toma
algum limite. fundamental entender que a distncia aqui no
e, mas a probabilidade que f se afaste de p por mais de e.
Assim, a frequncia f converge em probabilidade
probabilidade p.

A concluso do exerccio acima fundamental. Como


poderiamos definir probabilidades em termos de frequncia, se para
mostrar que a frequncia est associada probabilidade usamos o
conceito de convergncia em probabilidade? Discuta se errado ou
no definir um conceito usando esse conceito na definio.
Mas o exerccio acima mostra porque pode parecer sedutor usar
a frequncia em lugar da probabilidade. Se tivermos informao I 0
sobre uma experincia e dados sobre uma sequncia de
experimentos nas condies I 0 podemos atribuir valor
probabilidade de forma mais segura. A frequncia informao
que pode ser usado para atribuir um nmero probabilidade, mas
no o nico tipo de informao para fazer isso.

7.4 O Teorema do Limite Central II

No h uma prova s, mais muitas, que refletem os objetivos em


estudar este problema. Podemos olhar para diferentes condies
probabilidades 143

sobre P( x ) e com isso mudar os resultados sobre a regio central


que gaussiana e sobre quo grandes so os erros nas caudas das
distribuies. Dependendo das condies, a regio central vai
depender de forma diferente do valor de n.
Y N
Esperamos pela eq. que a varivel Z h Z i = tenha
N
distribuio normal de mdia nula e varincia 1, pelo menos na
regio central.
Podemos transladar a origem de x e tornar = 0.

Teorema LC
(Kinchin) Suponhamos que existam A, a, b , c e d constantes
positivas tal que
dP( x )/dx contnua
R
|dP( x )/dx | dx < A

a < h x2 i = 2 < b

h| x3 |i < b

h x4 i < b

h| x5 |i < b

|(k )| > d para |k| < c

Para cada intervalo (k1 , k2 ), com k1 k2 > 0, existe um nmero


(k1 , k2 ) < 1, tal que para k1 < k < k2 temos

|(k)| < .

Ento
Na regio central, definida por | x | < 2 log2 n

1 y2 Sn + yTn 1 + | x |3

P (Y | N = n ) = e 2n2 + + O ( )
2n2 (n2 )5/2 n2
onde Sn e Tn so independentes de y e no crescem mais rpido
que n.

Para y arbitrrio
1 y2 1

P (Y | N = n ) = e 2n2 + O( )
2n2 n

A prova razovelmente simples e pode ser encontrada no


Apndice de [Kinchin]. O leitor poder ver que a essncia da prova
est no controle dos termos superiores da expanso de Taylor da
equao ?? que foram desprezados anteriormente para chegar at a
equao 7.33. Pense na diferena entre desprezar e controlar. Muitas
vezes, em Fsica desprezamos sem controlar, pois tentar controlar pode
ser to dficil que evitaria a possibilidade de avano. Uma vez que
se encontra algo interessante, sempre podemos voltar atrs e tentar
controlar termos antes desprezados usando a nova maneira de
enxergar um problema, que o avano menos cuidadoso permitiu.
144 nestor caticha

7.5 O Teorema do Limite Central III

Apresentamos alguns exemplos para distribuies P( x ) simples.

7.5.1 A distribuio uniforme


P( x ) = 1/L para L/2 < x < L/2 e 0 para outros valores de x. A
funo caracterstica
Z L/2
1 2 kL
( k |1) = eikx dx = sin( ) (7.40)
L L/2 kL 2

Z Z
dk 2 kL dk
P (Y = y | N = n ) = [(k|1)]n eiky = [ sin( )]n eiky
2 kL 2 2
(7.41)

Figura 7.2: A funo caracterstica


(k | N = n) para a soma de n varaveis
uniformemente distribuidas.

Figura p
7.3: A funo caracterstica
log(|( |u|| N = n)|) como funo
de u = k2 sign(k ), para a soma de n
varaveis uniformemente distribuidas. Nesta
representao gaussianas aparecem como
retas abs(u). Esquerda: na regio
central parecem gaussianas. Direita: fora da
regio central diferem de gaussianas. Nesta

figura dividimos por n e todas as curvas
colapsam. As retas so para a gaussiana
mais proxima 2 /2n = 1/24. Note a
diferena da escala de u nas abscissas.

A figura 7.2 mostra que a funo caracterstica fica mais parecida


com uma gaussiana e na figura 7.3 vemos que efetivamente o
probabilidades 145

log(|( |u|| N = n)|) com u = k2 fica cada vez mais perto de


p

2 |u| (gaussiana).
Exerccio Mostre que 2 /2 = n/24.(verificar??)

7.5.2 A distribuio exponencial


A distribuio P( x ) = ( x ) ae xa chamada de exponencial. Mostre
que = 2 = a1 . A funo caracterstica
Z
a
( k |1) = ae xa eikx dx = (7.42)
0 a + ik

Z
a dk
P (Y = y | N = n ) = ( )n eiky (7.43)
a + ik 2
Integrando por partes (u = eiky , dv = ( a+a ik )l dk, para l = n, n 1, ...1
) obtemos:
yn1 eay
P (Y = y | N = n ) = ( y ) a n . (7.44)
( n 1) !
Faa a conta. Obviamente no uma gaussiana, mas uma
distribuio gamma. No entanto, a regio central sim, se parece
com uma gaussiana.

Figura 7.4: A densidade de probabilidade


P(y| N = n, a = 1) para a soma de n va-
raveis exponencialmente distribuidas, n =
1, 2, 3. Para as duas ltimas mostramos as
gaussianas com = 2 = n 1

A figura 7.4 mostra que a distribuio para n baixo no se parece


em nada com uma gaussiana , mas medida que n aumenta fica
mais parecida com uma gaussiana, figura 7.5. Note que as
distribuies, nessa figura so claramente assimtricas. Pense no
que significa que a distribuio resultante seja gaussiana se as
variveis somadas so sempre positivas e portanto Y > 0 sempre.
Esse o significado de central, nas caudas no dizemos nada.

7.5.3 A distribuio binomial revisitada


A distribuio de Bernoulli dada por
P( x ) = p( x 1) + q( x + 1). O nmero de aplicaes que usaram
146 nestor caticha

Figura 7.5: A densidade de probabilidade


P(y| N = n, a = 1) para a soma de n va-
raveis exponencialmente distribuidas, n =
15, 17, 20. Junto esto mostradas as gaus-
sianas com = 2 = n 1.

Figura 7.6: A diferena entre a densidade


de probabilidade P(y| N = n, a = 1) para a
soma de n varaveis exponencialmente dis-
tribuidas, n = 15, 17, 20 e as gaussianas
com = 2 = n 1. Os mesmos pa-
rmetros da figura anterior. Note que a re-
gio central bem aproximada. H uma
regio de transio, ao afastar-se para as
caudas, e finalmente as caudas vo rapi-
damente para zero, assim como a sua dife-
rena

esta distribuio enorme. S para ter uma ilustrao em mente,


podemos pensar em jogadas de uma moeda, ou um passo dado por
um bbado numa caminhada unidimensional. Se h N repeties
(i = 1...N) e P( xi ) a mesma para todo i e P( xi | x j ) = P( xi ) para
qualquer i 6= j, e queremos P(Y | N ) para Y = i=1..n xi . Este
exatamente nosso exemplo acima sobre a distribuio binomial
onde estudamos a relao entre frequncia e probabilidade.
Aqui h um pequeno problema. A distribuio de probabilidades
binomial deve ser comparada com a densidade de probabilidade
gaussiana. Note que se N par a probabilidade de que ocorra um
valor de Y impar zero, ou seja Y = 2.. Ao apresentar os grficos
da figura 7.7 a binomial foi dividida por Y. De outra forma: a
probabilidade da binomial que Y tenha um dado valor num
intervalo (y, y + 2) aproximado pela integral da gaussiana entre y
e y + 2.

7.5.4 Caminho Aleatrio


Novamente olhamos para a distribuio binomial. Olhe para a
figura 7.8. Definimos o caminho aleatrio atravs de
Difuso: K(= 10000 na figura 7.8) seqncias de N passos de um
processo binomial, definidos por

y n = y n 1 + x n (7.45)

onde P( x = 1) = p e P( x = 1) = q = 1 p . O ndice n pode ser


probabilidades 147

Figura 7.7: A binomial ( dividida por Y =


2, barras) e a densidade gaussiana cor-
respondente (linha contnua), para N =
2, 5, 10 e 30

Figura 7.8:
148 nestor caticha

interpretado como tempo numa dinmica discreta, a cada intervalo


de tempo t uma partcula se desloca uma quantidade x. O
deslocamento total tem probabilidade dada pela binomial.
Mostramos agora que a para valores altos de n a binomial se parece
com uma gaussiana.
O resultado necessrio a aproximao de Stirling para o
fatorial,
 
1 1 1 1 1
log N! = ( N + ) log N N + log 2 + log 1 + + + O( )
2 2 12N 288N 2 N3
(7.46)
que uma expanso assinttica, isto melhora quando N aumenta
7 . No precisamos todos esses termos, basta log N N log N N 7
Jeffreys, note quo boa a approximao
onde desprezamos O(log N ) 1! = 0.9221 sem o termo 1/12N e 1! =
1.002 com esse termo. Para 2! = 1.9190 e
2.0006 respectivamente.
log P(m| N = nI 0 ) = log n! log m! log(n m)! + m log p + (n m) log q
= n log n n m log m + m (n m) log(n m)
+n m + m log p + (n m) log q (7.47)

Podemos tratar m como uma varivel real e encontrar onde a


probabilidadeP(m| N = nI 0 ) atinge o valor mximo. Tomamos a
primeira e segunda derivadas

log P(m| N = nI 0 )
= log m + log(n m) + log p log q
m
2 log P(m| N = nI 0 ) 1 1
=
m2 m nm
Temos que em m = np a probabilidade mxima e nesse ponto a
1
segunda derivada vale = npq . A expanso de Taylor at segunda
0
ordem do log P(m| N = nI ) nos leva a uma gaussiana para
P(m| N = nI 0 ) de forma bvia (qualquer expanso at segunda
ordem quadrtica). O que deve ser verificado se essa expanso
faz sentido. Esperamos, pela equao 7.27, que os termos superiores
decaiam com n. Verifiquemos isso explicitamente para o termo
cbico (proporcional ao terceiro cumulante) e superiores:

3 log P(m| N = nI 0 ) 1 1
= 2
m3 m ( n m )2

e notamos que as derivadas de ordem superior aumentaro o


decaimento dos cumulantes.
Vemos que a distribuio binomial bem aproximada por

1 1
P(m| N = nI ) = exp ( m m )2 (7.48)
22 22

onde repetindo m = np e 2 = npq. Repetimos que um dos pontos


1
importantes a dependencia n 2 .
8
Seleo de Modelos

"An ingenious Friend has communicated to me a Solution of the


inverse Problem, in which he has shewn what the Expectation is,
when an Event has happened p times, and failed q times, that the
original Ratio of the Causes for the Happening or Failing of an Event
should deviate in any given Degree from that of p to q. And it
appears from this Solution, that where the Number of Trials is very
great, the Deviation must be inconsiderable : Which shews that we
may hope to determine the Proportions, and, by degrees, the whole
Nature, of unknown Causes, by a sufficient Observation of the
Effects."
Observation of Man, His Frame, His Duty, and His Expectations
David Hartley
M.DCC.XLIX 1 1
Citado por S. Stiegler, "Who discovered
Bayess Theorem ?"The American Statisti-
cian, Vol 37, No. 4 (1983) 290-6.
Um dos nossos objetivos finais o de distinguir os mritos de
Isto mostra que, alm de um gosto exa-
modelos sobre a natureza. No queremos atribuir certeza a um gerado pelas maisculas, o psiclogo Har-
modelo e dizer que isto a verdade sobre o universo. Os modelos ley tinha escutado de um amigo uma pri-
meira verso do que viria a ser conhecido
no devem ser julgados corretos. Eles so teis e podem deixar de atravs do trabalho de Bayes 15 anos de-
s-los quando novas evidncias permitirem a construo de novos pois, quando R. Price publicou os escritos
de Bayes postumamente. Stiegler espe-
modelos. Claro que o estudante sabe que a lei de Coulomb revela a
cula que o amigo ingenioso no tenha sido
verdade sobre como duas cargas interagem. Mas essa certeza ser Bayes, mas talvez Nicolas Saunderson. Isto
mudada quando aprender relatividade e teoria quntica de campos. de grande importncia para os historiado-
res. Na minha opinio no entanto o culpado
A introduo da lei de gravitao universal de Newton e da sua pelo teorema deve ser Laplace. Esta refe-
dinmica talvez tenha sido o evento de maior influncia intelectual rncia foi mencionada por S. Wechsler.

na sociedade ocidental. Pode ser que alguns achem que h outros


candidatos, como Darwin. Para os gregos antigos as coisas caiam
porque almejavam estar no seu lugar natural, ou seja o centro do
universo que coincidia com o centro da Terra. Essa explicao deu
lugar a outras e em algum ponto algum, cujo nome talvez no
deva ser mencionado, explicou a queda e o movimento em geral
atravs de foras exercidas por anjinhos. Mas a partir de Galileu e
certamente com Newton o enfoque mudou ao discutir como as
coisas caem com a introduo do modelo de ao distncia e
foras vetoriais de intensidades que decaem com o quadrado da
distncia. Mas com o trabalho de Einstein esse modelo ficou, se no
obsoleto, pelo menos reduzido a uma boa aproximao da nova
verdade, pois agora sabemos que a gravidade est relacionada
curvatura do espao-tempo. Mas algum quer apostar que essa
150 nestor caticha

verdade ser a verdade no fim das suas carreiras cientficas, quanto


mais daqui a mil anos? Talvez nessa poca no sejam as nossas
respostas que no faam sentido, mas possivelmente as perguntas j
tenham deixado de ser relevantes. No precisamos esperar tanto.
Nosso respeito pela construo cientfica de Newton, Einstein e
Coulomb no diminuir mesmo percebendo que suas contribuies
so temporariamente teis e que futuras geraes tero outros
modelos para temporariamente fazer as suas predies, que
englobaro para certo regime de energia as dos modelos anteriores.
Dito isso passamos ao problema de como escolher dentre os
diferentes modelos aquele que deve ser preferido sobre os outros.
H muita coisa escrita sobre isto e muitos filsofos dedicaram suas
vidas a este problema que est no centro do avano cientfico e da
epistemologia. A extenso da lgica a casos de informao
incompleta nos permite atacar este problema como mais uma
aplicao da regra de Bayes. 2 2
Dito de outra forma: "It is our responsibi-
lity as scientists, knowing the great progress
which comes from a satisfactory philosophy
8.1 Modelos of ignorance, the great progress which is the
fruit of freedom of thought, to proclaim the
value of this freedom; to teach how doubt is
A construo de modelos em Fsica passa pela construo de not to be feared but welcomed and discus-
teorias. Para a construo de teorias no h regras. Veja um belo sed; and to demand this freedom as our duty
to all coming generations."
exemplo da descrio de um processo de criao de Eletrodinmica R.P.Feynman
Quntica na Palestra de Prmio Nobel de Feynman. A palestra The Value of Science (1955)
poderia ser chamada de The making of QED. Uma teoria leva, ou
deve levar, finalmente a que

y = f ( x, ),

ou seja uma relao funcional entre duas variveis x e y mediada


por uma funo f onde aparece ainda um conjunto de parmetros,
denotados coletivamente por . Chamaremos x variveis de contrle
e a y de livres. Considere as seguintes perguntas, que podem ser de
interesse em diferentes circunstncias:

(1) Previso de y

Para f , e x conhecidos, y pode ser previsto. Ou seja podemos


descrever o que sabemos de y atravs de P(y| , f ).

(2) Qual teria sido/deveria ser o valor da varivel de controle x?

Conhecidos f , e y, queremos saber qual o valor de x, ou em geral


P( x |y, , f ). Pense numa situao em que queremos escolher x para
ter um y desejado. Impondo o valor de y determinamos quais aes
(escolha de x) levam a um comportamento desejado do sistema.

(3) Estimativa de parmetros

f dado. Para vrios valores de x escolhidos, os de y so medidos.


O que podemos dizer sobre o parmetro (p. ex. a acelerao da
gravidade g no problema analisado em 6.15)? Estamos interessados
em P( |{ xi , yi }, f ).
probabilidades 151

Este tipo de problema interessante pois tambm est ligado


descrio matemtica de modelos de aprendizagem, por exemplo,
em redes neurais.

(4) Seleo de Modelos: f desconhecido

Temos, por exemplo duas formas funcionais diferentes f 1 ( x, 1 ) e


f 2 ( x, 2 ) e devemos a partir de tudo o que sabemos e um conjunto
de pares ( xi , yi ) escolher entre f 1 e f 2 e quem sabe determinar o
correspondente. Este o tema deste captulo.

8.2 Escolha Bayesiana entre modelos

Com repeito relao entre duas variveis x e y contemplamos


duas possibilidades. A relao funcional descrita pela funo
f 1 ( x, 1 ) ou pela funo f 2 ( x, 2 ). Os parmetros por sua vez
podem ser multidimensionais: 1 = (11 , 12 , ...1d1 ) e
2 = (21 , 22 , ...2d2 ) Alm disso as medidas so corrompidas pela
adio de rudo. Assim, as possibilidades de escolha so entre

I) Modelo M1 : y = f 1 ( x, 1 ) + descreve os dados.

II) Modelo M2 : y = f 2 ( x, 2 ) + descreve os dados.

com um conjunto de dados Dn = {( x1 , y1 ), ( x2 , y2 ), ..., ( xn , yn )}.


A informao que temos I = f 1 , f 2 , d1 , d2 , P( ), P( ).
A maneira de proceder um tipo de teste de hipteses chamado
de teste de hipteses Bayesiano que consiste em comparar as
probabilidades de cada modelo e a posterior escolha do mais
provvel. Queremos pois calcular P(Mi | Dn I ) e calcular o que se
costuma chamar de chances (odds)

P(M1 | Dn I )
O12 = . (8.1)
P(M2 | Dn I )

No tendo informao completa recorremos regra de Bayes

P(Mi | I ) P( Dn |Mi I )
P(Mi | Dn I ) = . (8.2)
P ( Dn | I )

Como sempre, temos a distribuio de probabilidades a priori da


qual no poderemos escapar; a verossimilhana de observar os
dados caso Mi seja o modelo; e a probabilidade dos dados, que
afortunadamente se cancela na expresso 8.1:

Dn P(M1 | I ) P( Dn |M1 I )
O12 = (8.3)
P(M2 | I ) P( Dn |M2 I )
0 dos modelos
Se definirmos de forma bvia as chances a priori O12
podemos escrever

Dn 0 P( Dn |M1 I ) 0
O12 = O12 = O12 B12 (8.4)
P( Dn |M2 I )
P( Dn |M1 I )
onde a razo B12 = P( Dn |M2 I )
amide chamada de fator de Bayes.
152 nestor caticha

Para a verossimilhana dos dados condicionado ao modelo,


lembramos j ter visto algo parecido na estimativa de parmetros:

P(i |Mi I ) P( Dn |i Mi I )
P ( i | Dn M i I ) = . (8.5)
P( Dn |Mi I )

O que verossimilhana em 8.2 denominador em 8.5 que recebe o


nome de evidncia e estamos a um passo de ver por qu. Se as
Dn
probabilidades a priori dos modelos forem iguais O12 a razo
entre os denominadores de 8.5, que so toda a evidncia necessria
para decidir entre os modelos. Portanto so chamados de evidncia
que os dados fornecem, no dos parmetros mas dos modelos.
Assim se pode escrever
Dn 0
log O12 = log O12 + log B12
0
= log O12 + E( Dn |M1 I ) E( Dn |M2 I ) (8.6)

onde E( Dn |Mi I ) a evidncia logaritmica do modelo Mi , que


fornece uma forma aditiva de considerar a informao na escolha
de um modelo. Se as chances a priori forem muito maiores
favorecendo um modelo do que outro, para inverter as preferncias,
a evidncia dos dados tem que ser muito grande 3 . 3
De ce qui precede, nous devons generale-
ment conclure que plus un fait est extraordi-
Agora veremos com as regras da soma e produto permitem
naire, plus il a besoin detre appuye de fortes
calcular as evidncias. O lado esquerdo de 8.5 deve ser preuves. Laplace
normalizado, portanto a integral sobre todas as possibilidades dos
parmetros i , deve dar 1 e segue que
Z
P( Dn |Mi I ) = P(i |Mi I ) P( Dn |i Mi I )di . (8.7)

Pela regra do produto, reescrevemos a distribuio conjunta


Z
P( Dn |Mi I ) = P( Dn , i |Mi I )di , (8.8)

e vemos que este resultado no nada mais que a regra da


marginalizao. A expresso 8.7 o que vamos usar para decidir
entre dois modelos.
A integrao sobre o espao dos possveis valores de pode ser
complicado, especialmente se a dimenso di do espao grande
(possivelmente >3 e certamente se> 5) e merece um tratamento
aparte que ser retomado no captulo 9 sobre mtodos Monte Carlo.
Este tipo de tcnica s pode ser implementada usando
computadores. Hoje em dia isto corriqueiro, mas explica a
necessidade de fugir destes mtodos no sculo XIX e a tendncia,
por motivos histricos no sculo XX.

8.3 A navalha de Ocam

A ideia que simplicidade na explicao algo desejvel vem desde


os gregos, mas recebe o nome de navalha de Ocam 4 . Deve este 4
Procedimento epnimo de William of
Ockham ou de Occam. Estas seriam as or-
desejo ser algo novo a ser adicionado a nossa desiderta? Veremos
tografias certas em ingls e latim respecti-
que no, que de certa forma modelos mais complexos so vamente, mas decidimos agir de acordo a
seus preceitos e escrever Ocam. O motivo
de esta idia ser associada a seu nome
por ter escrito Numquam ponenda est plu-
ralitas sine necessitate
probabilidades 153

Figura 8.1: A figura mostra em uma dimen-


so como gaussianas so aproximadas por
uniformes, tanto para a distribuio a priori
quanto para a verossimilhana.

automaticamente prejudicados pela sua complexidade ao ser


julgados pelos mtodos da teoria de probabilidades como foi
mostrado por Jaynes.
Se os dados tm informao a mais do que a distribuio a priori,
esta deve ser moderadamente suave na vizinhana de

ML = argmax P(i |Mi I ),


onde o subndice ML significa mxima verossimilhana (maximum


likelihood). Como a a priori est normalizada, o volume a priori
plaussvel deve ser tal que
1
P(iML |Mi I ) .
|i |dapriori
i

A largura da verossimilhana determina a regio de integrao que


contribui para a evidncia. Aproximadamene seu volume,
lembrando que estamos em um espao de di dimenses, da ordem
di
de |i | ML . Segue que razovel aproximar a evidncia
Z
P( Dn |Mi I ) = P(i |Mi I ) P( Dn |i Mi I )di
Z
P(iML |Mi I ) P( Dn |i Mi I )di
d
P(iML |Mi I ) P( Dn |iML Mi I )|i | ML
i

! di
|i | ML
P( Dn |iML Mi I )
|i | apriori
P( Dn |iML Mi I )ei di (8.9)
| | ML
onde i = log | |i e deve ser positivo se os dados so
i apriori
informativos. Vemos que a evidncia paga um preo exponencial no
nmero de parmetros do modelo. O significado de no positivo
que a regio plausvel a priori menor que a regio de parmetros
permitida pela verossimilhana. Os dados e o modelo aumentam a
154 nestor caticha

incerteza sobre os parmetros. H vrias possveis explicaes mas


todas elas devem ascender uma luz de alerta.
Na comparao de dois modelos, se tudo o resto for similar, a
navalha de Ocam, brandida por Bayes decide em favor do mais
simples.

8.4 Armazm de Critrios de Informao

Suponha que voce no esteja interessado nas mincias de teoria de


informao mas simplesmente queira saber se um ou outro modelo
apoiado pelos seus dados 5 . H critrios de informao prontos 5
Parece paradoxal, pois esta situao signi-
ficaria que voc quer saber o que os dados
que podem ser muito teis. Podem tambm levar a concluses que
dizem, mas no quer ter o trabalho de extrair
no encontram apoio nos dados. O problema em geral que essa informao deles
receitas prontas para usar so muito boas quando um certas
hipteses so satisfeitas. Se o mtodo for usado em outras
condies certamente no h garantias e pode ou no justificar as
escolhas de modelos. Um dos nomes mais conhecidos nesta rea o
de Akaike e seu critrio de informao. No original era "An
Information Criterion"mas agora "Akaike IC"ou AIC. No justo
atribuir-lhe as falhas no uso deste critrio, seus trabalhos indicam as
condies adequadas de uso. Usar o teorema de Pitagoras numa
geometria errada no condena Pitagoras. H outros critrios como
TIC (Takeuchis IC), BIC (Bayesian IC ou Schwarz Bayesian IC), DIC
(deviance IC) que resultam de outras hipteses simplificadoras.
Talvez o leitor ache que neste ponto devamos ter um critrio de
seleo de critrios. O critrio 8.3 para comparao o que teoria de
informao diz que deve ser feito. Pode ser que seja difcil, mas isso
no altera o fato que o que deveria ser usado. Os outros critrios
devem ser usados com gros de sal, pedindo desculpas por tomar
atalhos.
Tomando o logaritmo da equao 8.9, mudando o sinal e
multiplicando por 2, podemos definir

IC = 2 log P( Dn |Mi I )
2 log P( Dn |iML Mi I ) + 2i di (8.10)

onde sabemos que h vrias aproximaes que nos levam de IC


expresso da direita. Isto ainda pode ser simplificado, substituindo
i por 1, chegamos ao AIC

AIC = 2 log P( Dn |iML Mi I ) + 2di (8.11)

6 A aproximao de feita no AIC suspeita e Schwarz considerou 6


Outros autores o escrevem o AIC como
que talvez a largura da verossimilhana pudesse cair com o nmero AIC 0 = 2 log P(iML | Dn Mi I ) + 2di

n de dados como 1/ n com base na lei dos grandes nmeros: que difere por uma constante se a distribui-
o a priori de for uniforme. Mas fica
|i | ML = |i | apriori / n, difcil entender como isso permitiria compa-
rar modelos diferentes, com parmetros di-
ferentes se as constantes dependem do mo-
que leva ao BIC do modelo Mi
delo.

BIC = 2 log P( Dn |iML Mi I ) + di log n. (8.12)


probabilidades 155

O folclore , ento que quanto menor o AIC ou BIC de um modelo


maior seu mrito.
E devemos lembrar, olhando de volta equao 8.3 que tudo isso
foi feito sob a hiptese de que a priori os modelos so igualmente
provveis. Alm disso importante notar que foi usada a
aproximao de que todos os parmetros so igualmente
importantes e que a escolha da escala para cada parmetro faz com
que a regio em que a verossimilhana relevante, tenha o mesmo
tamanho |i | ML . O mesmo comentrio vale para a distribuio a
priori
Devemos ter cuidado ao usar estas receitas em casos que as
aproximaes que levaram equao 8.9 no forem justificveis. A
prxima vez que algum fale como voc sobre telepatia e diga que
os dados provam isso ou aquilo e voc fique um frio na espinha,
lembrar que o simples uso de uma receita pode levar a bobagens.

8.5 Quantos picos no espectro?

Um dos problemas clssicos em Fsica Experimental decidir se os


dados so compatveis com um pico, o que poderia indicar uma
passagem para Estocolmo ou se simplesmente o pico uma fico.
Estamos acostumados a ver coelhos nas nuvens e picos que no
existem nos espectros. melhor tomar cuidado 7 . 7
Uma referncia muito til Bayesian spec-
Vamos comear com um problema mais simples e depois trum analyis por G. L. Bretthorst. Springer
(1988)
passaremos a outro conceitualmente igual mas um pouco mais
difcil tcnicamente.

8.5.1 Picos num fundo de Ruido Gaussiano


Vimos j vrios exemplos em que a distribuio normal aparece.
Mais uma vez consideramos um caso em que temos que decidir
entre dois modelos

I) Modelo M1 : y = B1 ( x, 1 ) + descreve os dados.

II) Modelo M2 : y = B1 ( x, 1 ) + f ( x, ) + descreve os dados.

8.5.2 Exemplo: uma nova partcula ou rudo?


Uma experincia foi feita e temos um conjunto de dados { xi , yi }.
Por motivos teoricos, isto , usando a teoria T1 , suponha que um
grupo de cientistas acredita que y = B1 ( x, 1 ), que chamado de
fundo ou background. Mas pode ser que conforme a teoria T2 haja
um pico que garantir gloria e fama a seus descobridores. O pico
por motivos tericos teria uma forma

A
f ( x, ) = f ( x, A, x0 , ) =
1 + ( xx0 )2

Esta forma recebe os nomes de vrios pesquisadores. Como


distribuio de probabilidade est associada a Cauchy e como perfil
156 nestor caticha

de linha a Lorentz e Breit e Wigner. Temos os seguintes candidatos


como modelos:

I) Modelo M1 : y = B1 ( x, 1 ) + descreve os dados.

II) Modelo M2 : y = B1 ( x, 1 ) + f ( x, ) + descreve os dados.

Um segundo grupo sugere que na realidade T1 deveria ser T3 e T2


deveria ser T4 e portanto acha que devemos considerar

III) Modelo M3 : y = B2 ( x, 2 ) + descreve os dados.

IV) Modelo M4 : y = B2 ( x, 2 ) + f ( x, ) + descreve os dados.

Note que todos os candidatos tem o mesmo tipo de rudo


corrompendo os dados, pois tem a mesma informao sobre o
aparelho experimental. Poderiamos ter grupos diferentes usando
equipamento diferente mas por agora isso no necessrio.
Os backgrounds escolhidos pelos dois grupos so
1
B1 ( x |1 ) = (1 x 3 )b x a0 +a1 log x
1 = ( a0 , a1 , b )
1
B2 ( x |2 ) = (1 x 3 )b ( x c0 + x a0 +a1 log x )
2 = ( a0 , a1 , b, c0 ) (8.13)

Para facilitar a notao chamamos Ci ( x ) = Bi ( x, i ) + f ( x, ). Os


grupos pelo menos concordam com o processo de rudo que
contamina os dados
Poisson() (8.14)
mas que o parmetro da distribuio de Poisson varia com a x :

( x ) = (8.15)

8.5.3 Verossimilhana dos Modelos


Para escrever uma forma para a Verossimilhana dos modelos
Z
P( Dn |Mi I ) = dP(|Mi I ) P( Dn |i Mi I ) (sem pico)
Z
P( Dn |Mi I ) = ddP(|Mi I ) P(|Mi I ) P( Dn |i Mi I ) (com pico)

precisamos introduzir os priors e as verossimilhanas sobre os


parmetros. Para as distribuies a priori razovel usar
distribuies uniformes em pequenas regies compatveis
parmetros b sejam positivos. Os parmetros no so todos
simtricos com alguns vnculos fsicos que possamos saber, como
por exemplo unitariedade garante que os na sua importncia, o que
sugere que AIC e BIC no devem ser razoveis.
A verossimilhana dos parmetros
n
P ( Dn | i M i I ) = e( x a )
a =1
9
Monte Carlo

A descrio das propriedades dos sistemas at aqui estudados foi


reduzida ao clculo de integrais em alta dimenso, valores
esperados de funes Z
hfi = f Pd.

Obviamente a medida d pode ser discreta, como o caso quando


tratamos variveis discretas. essencial encontrar meios numricos
de realzar estes clculos, dado que o conjunto de modelos
exatamente integrveis bem menor que o de modelos
interessantes. A classe de mtodos de Monte Carlo sem dvida a
mais importante de todas as ferramentas numricas nossa
disposio. A arte de fazer Monte Carlos no ser abordada aqui,
simplesmente uma iniciao s idias sem entrar em detalhes que se
tornam necessrios para seu uso profissional.

9.1 Integrao Numrica em espaos de alta dimenso

Considere o mtodo de integrao numrica mais simples, chamado


mtodo do trapzio (ver de Vries). Aproximamos a integral
Z b
I= f ( x ) dx
a
por
N 1
1 1 1
IT = ( f ( x1 ) + f ( xi ) + f ( x N )), (9.1)
N 2 i =2
2

podemos mostrar que o erro cometido proporcional a h2 , onde


h = (b a)/N, escrevemos ento que

I = IT + ( h 2 ) .

Esta estimativa do erro tambm vale para integrais


multidimensionais. Mtodos mais sofisticados, baseados neste (e.g.
estilo Romberg-Richardson), levam a melhorias no expoente de h,
mas como veremos a seguir, no suficientes.
O custo computacional no clculo de uma integral proporcional
ao nmero de vezes que a rotina que calcula o integrando
chamada dentro do programa. Na frmula do trapzio acima este
nmero de chamadas N. Suponhamos um problema tpico de
158 nestor caticha

Mecnica Estatstica, por exemplo um gs dentro de uma caixa.


Temos da ordem de k = 1023 molculas mas digamos que para
poder lidar com o problema temos somente k = 20. Uma
aproximao drstica, mas veremos no suficiente. Neste caso
necessrio lidar com integrais do tipo
Z
Z= g({rix , riy , riz })dr13 dr23 ...drk3

uma integral em d = 3k = 60 dimenses. Suponhamos que o


volume da caixa seja V = L3 , e dividimos cada uma dos d eixos em
intervalos de tamanho h . Isto significa uma grade com
 d
L
N=
h
pontos. Suponhamos que escolhemos um h extremamente grande,
tal que L/h = 10, ou seja cada eixo ser dividido em somente 10
intervalos. Assim temos
N = 1060
pontos na grade.O qu significa um nmero to grande como 1060 ?
Suponhamos que a mquina que dispomos muito veloz, ou que a
funo que queremos integrar muito simples, tal que cada
chamada subrotina demore somente 1010 segundos. O tempo que
demorar para calcular IT 1050 s. Para ver que isso muito basta
lembrar que a idade do universo da ordem de 4 1017 s, portanto
nosso algoritmo levar da ordem de 1031 idades do universo. No
precisamos muito mais para que nos convenamos a procurar outro
mtodo de integrao. Variantes do mtodo de trapzio no ajudam
muito. Infelizmente o que temos disponvel, o Monte Carlo no
muito preciso, mas muito melhor que isso.

9.2 Monte Carlo

9.2.1 Teorema Central do Limite: revisitado


Considere uma varivel X com valores x em um intervalo dado e
distribuio P( x ). Assumimos que os valores mdios h x i e
h x2 iexistem e so finitos.1 A varincia x definida por 1
R Definimos os momentos hxn i =
x n P( x )dx
x2 = h x2 i h x i2
que tambm finita.
Considere ainda uma sequncia de N amostragens
independentes de X: { xi }i=1,...N , e outra varivel Y com valores y
dados por
1 N
N i
y= xi
=1
Assintoticamente, isto para N grande,a distribuio de y se
aproxima de uma distribuio gaussiana, podemos escrever que
aproximadamente
yhyi)2
1 (
2y2
P(y) = e
2y
probabilidades 159

A aproximao boa na regio central da gaussiana e melhora


quando N cresce. O valor mdio de y e sua variancia so
x
hyi = h x i e y =
N
Notem que se o objetivo for encontrar o valor esperado de x, que
h x i, e no for possvel realizar a integral, podemos estimar h x i a
partir de y (isso pode ser generalizado para o clculo de
R
h f i = f P( x )dx.) Qual vantagem sobre simplesmente fazer uma
medida (amostragem) de x? que neste ltimo caso o erro seria da
ordem de x , enquanto que a estimativa baseada em y ter erro

estimado em y = x / N, portanto o erro da estimativa
independente da dimenso de x. Para grandes dimenses isso
uma grande vantagem. O problema que para reduzir o erro por
um fator 2 necessrio trabalhar 4 vezes mais duro. E isso para o
caso em que as amostras so independentes. O erro pode ser
diminuido no s aumentando N mas tambm se mudarmos x .
Esse o objetivo da tcnica de amostragem por importncia.
Exerccio : Considere uma varivel aleatria X que toma valores
< x < , com probabilidade P( x ). dado que x2 = h x2 i h x i2
finito. Dado y = N1 iN=1 xi mostre, a partir de
!
N N
1
Z Z
P(y) = dxi dx N y
N xi P ( xi )
i =1 i =1

que P(y) aproximada por uma gaussiana para N grande.


Determine a variancia de y.
Exerccio:Distribuio de Cauchy Considere o problema acima,
exceto que x2 = h x2 i h x i2 infinito pois P( x ) = (b2b+ x2 ) .
Encontre a distribuio P(y) de y, Note que no gaussiana para
nenhum valor de N. As integrais necessrias so relativamente
fceis de calcular pelo mtodo dos resduos.

9.2.2 Monte Carlo


A idia bsica aproximar uma integral I por I MC
Z b N
1
I=
a
f ( x ) dx ' I MC =
N f ( xi ) (9.2)
i =1

onde os { xi } so escolhidos aleatoriamente de forma independente


da distribuio uniforme em [ a, b]. Se a integral de f 2 existir e for
finita, e se as amostras f ( xi ) forem estatisticamente independentes -
e isto um grande se - ento o erro da estimativa MC acima ser
dado por
f
IMC =
N
e podemos estimar f a partir dos dados da amostragem
 2
1 1
2f
N 2
f ( xi )
N f ( xi ) .
160 nestor caticha

Embora eq. (9.2) possa ser usada para o clculo da integral, em


geral necessrio reduzir a variancia da funo f . Isso possvel
atravs de uma mudana de variveis, que nem sempre pode ser
implementada analiticamente e ser descrita a seguir2 . 2
Uma forma trivial de conseguir a reduo
de f considerar variaes da identidade
O mtodo que iremos descrever no til, em geral, para realizar R1 R1
estimativas de Monte Carlo, mas servir para motivar e sugerir 0 f ( x ) dx = 0 g ( x ) dx, onde g ( x ) =
1
2 ( f ( x ) + f (1 x )). Note que o clculo de
novos caminhos. Imagine uma integral da forma g duas vezes mais caro que o de f , por-
Z 2f
tanto devemos ter > 1 para ter ganho
I= f ( x )w( x )dx, 2g2
efetivo
em geral essa separao do integrando em duas funes muito
natural. Tipicamente x um vetor em um espao de muitas
dimenses mas f ( x ) s depende de algumas poucas componentes
de x, enquanto que w( x ) depende de todas. Suponha que w( x )
esteja normalizado. i.e:
Z
w( x )dx = 1

Ilustraremos a separao em uma dimenso, tomemos o intervalo


de integrao (0, 1) e faamos a seguinte mudana de variveis
Z x
y( x ) = w(z)dz (9.3)
0
y(0) = 0, y(1) = 1
ento dy = w( x )dx e a integral toma a forma
Z
I= f ( x (y))dy

e a aproximao Monte Carlo


Z b N
1
I=
a
f ( x )w( x )dx ' I MC =
N f ( x (yi )) (9.4)
i =1
onde os valores de yi sero amostrados de uma distribuio
uniforme no intervalo (0, 1). Depois basta calcular a funo que
relaciona y e x (eq. [9.3]). A funo inversa permite calcular o valor
de x onde dever ser calculada a funo f ( x ). Este mtodo assume
que saibamos fazer a integral da equao 9.3, mas no em geral
possvel faz-lo de forma analtica.
probabilidades 161

9.2.3 Exemplos analticos.


Ao realizar um clculo MC teremos, tipicamente, acesso a um
gerador de nmeros aleatrios distribuidos uniformemente em
(0, 1). O objetivo , aqui de forma analtica e posteriormente, de
forma numrica, mostrar como gerar nmeros aleatrios
distribuidos de acordo com uma distribuio dada a partir da
distribuio disponvel. Apresentaremos dois casos muito teis que
podem ser feitos de forma analtica.
Se duas variveis (em e.g. R N ) tem uma relao funcional
y = ( x ), ento suas densidades de probabilidade esto
relacionadas assim
PY (y)dy = PX ( x )dx


x
PY (y)dy = PX ( x ) dy (9.5)
y

y o jacobiano da transformao e dy = i dyi . No caso de
onde x

interesse numrico temos aproximadamente

PY (y)dy = dy, 0 yi < 1, i = 1...N

e zero fora.

9.2.4 Distribuio Exponencial


Suponha que queremos gerar amostras de uma distribuio
exponencial. i.e PX ( x ) = exp( x ). Integrando a eq. (9.5) obtemos
Z y( x )
dx
y( x ) = PX ( x ) dy
0 dy
Z x Z x
y( x ) = PX ( x )dx = ez dz
0 0
y( x ) = 1 exp( x )
ou x = ln(y) ter a distribuio exponencial desejada, pois se y
uniforme em (0, 1) ento 1 y tambm o . Portanto suficiente
para gerar nmeros distribuidos exponencialmente usar uma
funo que gera nmeros aleatrios de distribuio uniforme
RAND(SEED) e somente uma linha de (pseudo-) cdigo
x=-log( RAND(SEED))
Compare na figura a distribuio uniforme (esquerda) e a a
exponencial (direita) (abaixo : srie temporal, acima : histogramas)

9.2.5 Distribuio Normal


Para gerar nmeros distribuidos de acordo com a distribuio
normal tentador gerar

um nmero grande de amostras de PY (y) e
definir x = 1 yi 2N , que ter distribuio gaussiana
N
(approximadamente). O problema o custo computacional, pois
requer N chamadas da funo RAN para gerar uma s amostra de
162 nestor caticha

x. Portanto nunca gere nmeros aleatrios gaussianos dessa


maneira. Mais fcil, do ponto de vista computacional partir da
equao (9.5) . O mtodo de Box-Muller, mostrado a seguir muito
mais eficiente, pois gera dois nmeros gaussianos para duas
chamadas da funo geradora de uniformes. Dados y1 e y2 obtemos
x1 e x2 a partir da transformao:
p
x1 = 2 ln y1 cos 2y2
p
x2 = 2 ln y2 sin 2y2
mostraremos que a sua distribuio conjunta ser
1
PX ( x1 , x2 ) = 2 exp(( x12 + x22 )/2). Integrando a eq.(9.5) temos:
Z Z Z Z
y , ,
,
PY (y ( x1 , x2 )) dy1 dy2 =
PX ( x, )dx1, dx2,
x
segue o resultado pois o jacobiano :
1 x12 +x22

y y
J = = 1 = e 2
x 2 2
Usando este mtodo obtemos a figura que segue, abaixo temos a
srie temporal e acima o histograma dos desvios normais:
Estes resultados de muita utilidade na simulao de distribuies
gaussianas multivariadas, a ser discutidas posteriormente.

9.2.6 Mtodos Estticos: rejeio


Raramente possvel realizar as integrais que permitem descobrir a
transformao exata de variveis e devemos ento encontrar uma
probabilidades 163

forma gerar diretamente os x com a distribuio w( x ). Os mtodos


que apresentaremos podem ser divididos em duas classes, estticos
e dinmicos. Na primeira os nmeros so gerados
independentemente um dos outros3 , enquanto que na segunda 3
To independentemente quanto o gerador
de nmeros pseudo-alealtrios o permitir.
classe, construiremos um processo dinmico que usara informao
anterior para gerar o prximo nmero.
Suponhamos que a regio onde w( x ) 6= 0 est contida em ( a, b) e
que ela limitada, tal que w( x ) < c. No mtodo de rejeio esttico
geramos dois NAU e e definimos

= a + (b a), = c

o valor de ser aceito como o novo valor de x se w() e


rejeitado se no.
A sequncia de nmeros aceitos x so as abicissas dos circulos na
figura acima.

9.2.7 Crculo
Exemplo: calcule
A figura mostra os resultados de algumas simulaes para
estimar . Foram gerados NMC pares de numeros aleatrios ( x, y).
Se z = x2 + y2 1 ento o ponto aceito, de outra forma
rejeitado.Os resultados foram obtidos para NMC = 10 2m passos de
Monte Carlo, com m = 2, 4..., 20. O resultado (figura (a) abaixo esq.
acima) mostra os pares aceitos. Continuando no sentido horrio,
temos os resultados respectivamente :
164 nestor caticha

(b) do erro absoluto contra log( NMC )

(d) resultado de MC =(numero aceito/numero total) contra


log( NMC )

(c) resultado de MC =(numero aceito/numero total) contra NMC ,


os grficos mostram os resultados de 20 corridas independentes.
A disperso dos pontos nos d uma idia dos erros estatsticos.
As barras horizontais mostram o valor 3.14159
probabilidades 165

9.2.8 Mtodos Dinmicos


A idia por trs dos processos de Monte Carlo dinmicos a de um
processo estocstico em tempo discreto. Um processo
determinstico, em oposio, tal que dado um certo conjunto de
informaes, possvel -em principio- determinar a evoluo futura.
Um processo estocstico serve para modelar o caso em que a
informao incompleta e s vrias possibilidades de evoluo so
atribuidas probabilidades. O objetivo construir um processo
estocstico com distribuio de equilbrio associada igual ao w( x )
dado. Note que o processo estocstico uma caminhada aleatria.
Consideremos um grande nmero de caminhadas independentes.
O processo deve ser tal que a frao das caminhadas na vizinhana
de x seja proporcional a w( x ), pelo menos se aproxime dela
assintoticamente no tempo, e chamaremos de P( x |t) distribuio
no instante t.
O conceito principal para entender o processo de MC dinmico
a probabilidade de transio, ( x | xn , xn1 , ...x0 , ....), que em
princpio pode depender de toda a histria da evoluo. Um
processo chamado Markoviano (de 1 passo) se s depende da
estado atual4 4
outra notao comum ( xn xn+1 )

( xn+1 | xn , xn1 , ...x0 ) = ( xn+1 | xn ),

ou de forma vaga, para onde o processo vai (o futuro), depende


somente de onde est agora (o presente) e no do passado.
Chamaremos a sequncia { x0 , x1 , ..., xn , ...} de cadeia de Markov5 . . 5
A cadeia de Markov caracterizada pelas
probabilidades de transio e pela distribui-
Para os nossos objetivos estas cadeias so ferramenta suficiente.
o inicial de probabilidades de x
Um ingrediente necessrio que o processo dever satisfazer
convergncia para o equilbrio. A distribuio de equilbrio ou
invariante ou estacionria deve satisfazer a condio de
estacionaridade Z
w( x ) = w(z)( x |z)dz, (9.6)

mas se no for estacionria teremos a relao entre a probabilidade


no instante t e no seguinte t + 1 dada por
Z
P ( x | t + 1) = P(z|t)( x |z)dz,

Dado que as probabilidades de transio so normalizadas


1 = (z| x )dz segue que
R

Z Z
P( x |t) = P( x |t + 1) P( x |t) = P(z|t)( x |z)dz P( x |t) (z| x )dz,

Z
P( x |t) = P( x |t + 1) P( x |t) = [ P(z|t)( x |z) P( x |t)(z| x )] dz
(9.7)
A interpretao imediata, a variao da probabilidade, de um
instante para o outro, tem duas contribuies, de entrada e sada. O
primeiro termo [ P(z|t)( x |z)] dz representa o nmero de
caminhadas em um volume dz em torno de z no instante t, que
166 nestor caticha

fizeram a sua transio para x no instante t + 1. O segundo termo


representa a saida, isto os que estavam em x e escapam para z. A
integral leva em conta todas as contribuies do espao. bvio a
partir das eqs. [9.6, 9.7]
Z
w( x ) = [w(z)( x |z) w( x )(z| x )] dz = 0.

H vrias escolhas possveis de para satisfazer esta relao. A


escolha mais simples sugere impor uma condio

w(z)( x |z) = w( x )(z| x ) (9.8)

que se a matriz de probabilidade de transies satisfizer ento w( x )


ser estacionaria. Esta condio, chamada de balanceamento
detalhado, no necessria, mas s suficiente. Alm de haver
motivaes fsicas para imp-la como condio deve ser ressaltado
que talvez a forma mais fcil de realizar o objetivo para construir
a matriz de transio. Com qualquer escolha que satisfaa a
condio eq. [9.8] w( x ) um ponto fixo da dinmica. Mas a
pergunta que resta sobre a estabilidade. razoavel esperar a
estabilidade dado que se em t , P( x |t) > w( x ), o nmero de
caminhantes que sairo da regio de x para z ser maior que o que
sairiam se a probabilidade fosse w( x ). Analogamente, se em t ,
P( x |t) < w( x ) ento o nmero ser menor.
H vrias maneiras de satisfazer a equao [9.8]. Embora todas
levem a algoritmos corretos, no sentido que
Z b N
1
I=
a
f ( x )w( x )dx ' I MC =
N f ( xi ) (9.9)
i =1

uma aproximao que melhora para maiores valores de N,


algumas sero eficientes enquanto outras no. Diferentes escolhas
levam a diferentes sequncias, e a pergunta relevante : quanta
informao nova trazida por uma nova amostragem? A funo de
autocorrelao normalizada, que fundamental para poder julgar a
eficincia do MC, definida por

h f n f n + k i h f i2
C (k)
h f n f n i h f i2
onde Z
hfi = f ( x )w( x )dx
Z Z
h f n f n+k i = f ( xn ) f ( xn+k )w( xn )k ( xn+k | xn )dxn+k dxn
e
Z Z
k ( xn+k | xn ) = ... ( xn+k | xn+k1 )( xn+k1 | xn+k2 )...( xn+1 | xn )dxn+k1 dxn+k2 ...dxn1

a probabilidade de transio em k passos. bvio que no , em


geral, possvel calcular a autocorrelao, mas podemos estim-la a
partir das amostras colhidas:

h f n f n+k i MC h f i2MC
C MC (k)
h f n f n i MC h f i2MC
probabilidades 167

onde definimos a mdia (emprica) sobre a amostra de dados

N k
1
h f n f n+k i MC =
Nk f ( xi ) f ( xi +k )
i =1

Tipicamente -mas no sempre - C (k ) tem um decaimento


exponencial:
C (k) = ek/

tempo de correlao exponencial e mede a eficincia do


processo em gerar nmeros aleatrios independentes distribuidos
de acordo com w( x ). Agora podemos escrever

N
Z b r
1 2
I=
a
f ( x )w( x )dx ' I MC =
N f ( xi ) f
N
i =1

onde assumimos que depois de um tempo (em unidades de 1 passo


MC) aproximadamente 2 as novas amostras sero estatisticamente
independentes e o numero efetivo de amostras ser reduzido por
esse fator.
Outro tempo importante R , o tempo de relaxao para o
equilbrio. Este mede quanto tempo demora para que o processo
estocstico perca memria das condies iniciais e os x sejam
efetivamente reprsentativos de w( x ). Do ponto de vista de eficincia
razoavel no considerar e.g. os primeiros 10R passos gerados
pelo processo. Se C (k) efetivamente decair exponencialmente esses
dois tempos so iguais, mas h casos em que no, e.g. perto de
transies de fase crticas.

9.2.9 Algoritmo de Metropolis


O processo de gerao dos nmeros xn ser separado em duas
partes. Em primeiro lugar definimos a probabilidade de tentativa de
mudana T ( x T | xn ), que determina a probabilidade de estando no
tempo n em xn , seja escolhido o ponto x T como candidato ao
prximo passo da sequncia. Uma vez gerado x T passamos
segunda parte, que onde se decide se feita a transio
xn xn+1 = x T , ou seja x T aceito ou se no. Neste caso de
rejeio fazemos a transio trivial xn xn+1 = xn , de forma que
xn incluido novamente na sequncia, Isto feito introduzindo a
matriz de aceitao A( xn+1 | x T ). Ou seja

( x |z) = A( x |z) T ( x |z)

e a condio de balanceamento detalhado, para todo par de pontos


x 6= z toma a forma

A( x |z) T ( x |z)w(z) = A(z| x ) T (z| x )w( x )

que satisfeita por uma familia de escolhas possveis, em particular


se definirmos
w( x ) T (z| x )
 
A( x |z) = F
w(z) T ( x |z)
168 nestor caticha

e F tal que
F ( a)
= a, para todo a (9.10)
F (1/a)
Para escolher T (.|.) til definir uma distncia entre configuraes.
Se estivermos falando de graus de liberdade no espao euclideano,
a soma das distncias entre uma parcula nas configuraes x e z
uma boa escolha. Para um sistema de Ising podemos medir a
distncia pelo nmero de spins diferentes entre duas configuraes.
Definimos uma regio B( x |z), uma bola, e a funo indicadora B ,
que toma valores 1 dentro da bola e zero fora. A escolha mais
comum, para a probabilidade de tentativa de mudana tomar

1
T (z| x ) = constante dentro B( x |z) =
|B( x |z)|

e zero fora da de B . Isso leva a uma taxa de tentativas simtricas


(T (z| x ) = T ( x |z),)e portanto basta tomar

A( x |z) w( x )
=
A(z| x ) w(z)
A escolha associada ao nome de Metropolis ( )

F ( a) = min(1, a).

Para verificar que satisfaz 9.10, note que h dois casos:


min(1,a) 1
a 1 segue que min(1,a1 )
= a 1
=a

min(1,a)
a < 1 segue que min(1,a1 )
=a

o que leva ao seguinte


Algoritmo de Metropolis:

1. escolha o valor inicial x0

2. dado xn determinaremos xn+1 : escolha um valor de tentativa x T


(uniformemente dentro de uma bola de raio d em torno de xn )
w( x )
3. verifique se w( x T ) maior ou menor que w( xn ). Defina r = w( xT )
n
(para no ficar recalculando w( x ), que pode ser muito caro.)

Se r 1 (i.e. w( x T ) w( xn )) ento aceita : xn+1 = x T


Se r < 1 (i.e. w( x T ) < w( xn )) ento escolhe um nmero
aleatrio uniforme 0 < 1 e

aceita : xn+1 = x T se r (i.e. w( x T ) w( xn ))


rejeita : xn+1 = xn se r < (i.e. w( x T ) w( xn ) )

4. Guarda informao sobre xn .

5. Se critrio de parada no for satisfeito, volta a 2


probabilidades 169

Imagine o caso em que a funo w( x ) pode ser parametrizada da


forma
e E( x)
w( x ) =
Z
esse um dos casos mais interessantes (distribuio d
Boltzmann-Gibbs) e a funo E( x ) interpretada como a energia de
um sistema no estado x ou a funo custo de um processo. Z uma
constante em relao a x mas depende do parmetro que em fsica
intepretado como o inverso da temperatura. Este tipo de funo
ocorre quando a probabilidade que devemos atribuir a uma dada
configurao baseada na informao que temos sobre o valor
medio < E( x ) >e o resultado de encontrar a distribuio com a
mxima entropia consistente com a informao dada.
O algoritmo de Metropolis pode ser redescrito da seguinte forma:

1. escolha o valor inicial x0

2. dado xn determinaremos xn+1 : escolha um valor de tentativa x T


(uniformemente dentro de uma bola de raio d em torno de xn )

3. verifique se E( x T ) maior ou menor que E( xn ).

Se E( x T ) E( xn ) ento aceita : xn+1 = x T


Se E( x T ) E( xn ) ento escolhe um nmero aleatrio
uniforme 0 < 1 e

aceita : xn+1 = x T se exp( ( E( x T ) E( xn ))


rejeita : xn+1 = xn se exp( ( E( x T ) E( xn )) < .

4. Guarda informao sobre xn .

5. Se um critrio de parada no for satisfeito, volta a 2.

A processo realiza a caminhada aleatria de forma que uma


diminuio na energia sempre aceito, mas se h uma tentativa de
escolha de um lugar de energia mais alta, a tentativa no
automaticamente rejeitada. Se o aumento de energia for muito
grande grande a probabilidade que seja rejeitada, mas se no for,
grande a de ser aceita. A escala de grande ou pequeno
determinada pela razo dos fatores de Boltzmann de cada
configurao.

9.2.10 Atrator da dinmica


Daremos argumentos em defesa da posio que a distribuio w( x )
um ponto fixo atrativo da equao 9.7 para o algoritmo de
Metropolis.
Defina os conjuntos

Bx (z) = {z| T (z| x ) > 0}C+ ( x ) = { x | P( x ) > w( x )}, (9.11)


C0 ( x ) = { x | P( x ) = w( x )}, (9.12)
C ( x ) = { x | P( x ) < w( x )}. (9.13)
170 nestor caticha

Defina P( x ) = P( x |t) w( x ), a diferena entre a distribuiao em


um dado instante t e a de equilbrio. claro que dado que as
distribuies esto normalizadas, teremos
Z
0 = P( x )dx
Z Z
= P( x )dx + P( x )dx
C+ ( x ) C ( x )

onde o primeiro termo contm as contribuies postivas e o


segundo as negativas. A equao da dinmica
Z
P( x |t) = [ P(z|t)( x |z) P( x |t)(z| x )] dz
Bx ( z )
Z
= [(w(z) + P(z))( x |z) (w( x ) + P( x ))(z| x )] dz
Bx ( z )
Z
= [P(z)( x |z) P( x )(z| x )] dz. (9.14)
Bx ( z )

Agora integramos sobre o conjunto de configuraes C+ ( x )


Z Z
P+ = P( x |t)dx = [P(z)( x |z) P( x )(z| x )] dzdx,
C+ ( x ) Bx (z),C+ ( x )

e separamos as configuraes z em C (z)


Z
P+ = [P(z)( x |z) P( x )(z| x )] dzdx
C+ ( x ),C+ (z)
Z
+ [P(z)( x |z) P( x )(z| x )] dzdx.
C+ ( x ),C (z)

A integral sobre C+ ( x ), C+ (z) nula devido a que simtrica e


antisimtrica ante trocas z x. Portanto
Z
P+ = [P(z)( x |z) P( x )(z| x )] dzdx.
C+ ( x ),C (z)
0, (9.15)

pois o termo com sinal positivo tem P(z) que sempre negativo
em C (z), e o termo com sinal negativo tem P( x ) que sempre
positivo em C+ ( x ).
Analogamente , integrando a equao 9.14 sobre o conjunto de
configuraes C ( x ), vemos que
Z
P = P( x |t)dx (9.16)
C ( x )
Z
= [P(z)( x |z) P( x )(z| x )] dzdx.
C ( x ),C+ (z)
0. (9.17)

Estes resultados sugerem que a diferena entre P( x |t) e w( x )


diminui ao iterar a dinmica. A dinmica tal que nas regies em
que P( x |t) maior do que deveria ser, diminui. Onde menor
aumenta.
probabilidades 171

9.2.11 Modelo de Ising


Novamente visitaremos o laboratrio de Ising. H vrios livros que
tratam deste problema de forma mais completa. Aqui
apresentaremos somente alguns detalhes que permitiro que o
leitor comece seu simulador de Monte Carlo em um problema que
tem propriedades crticas interessantes.

Figura 9.1: Ising 2d em rede


1
L L, L = 20. Energia: L2
IE(H),
magnetizao E
I (|m|), Calor Especfico:
1
IE(H2 ) IE(H)2 ,

Suscepti-
( LT )2
1 2 ) IE ( m )2 ,

bilidade T IE ( m com
m = L12 i si . A temperatura T = 0.5

Que um algorimo funcione bem para o modelo de Ising em duas


dimenses no garantia que servir para outros modelos. Do
ponto de vista de um programa legvel, convm escrev-lo em
mdulos. No buscamos velocidade mas sim facilidade de leitura.
Os mdulos necessrios so descritos a seguir:

Pseudo cdigo
6 A configurao do sistema guardada numa matriz sigma de 6
Pode pegar o programa em
http://rajeshrinet.github.io/blog/2014/ising-
dimenses L L. Isto sigma(Ix,Iy)= 1.
model/
A funo Controle(param) controla que funo executada e
com que paramtros: param=(L,Nterm,NMC,deltaNMC, interT)
A rede tem tamanho L2 , Nterm, NMC*deltaNMC so
respectivamente o nmero de configuraes geradas para permitir
termalizao e o nmero de configuraes que sero geradas na fase
172 nestor caticha

Figura 9.2: A matriz sigma em diferentes


tempos. Unidade de tempo 1 passo MC,
que dado pela tentativa de mudana de
L2 spins. Nesta figura L = 100 e T = 0.50.
No limite termodinmico, L , tempe-
2
ratura crtica dada por T =
log(1+ 2)

2.269185...
probabilidades 173

Figura 9.3: O mesmo que na figura anterior


temperatura T = 2.26 Tc
174 nestor caticha

Figura 9.4: O mesmo que na figura anterior


temperatura T = 3.5
probabilidades 175

de medidas. As medidas so feitas a cada deltaNMC configuraes.


Portanto o nmero de configuraes que so medidas NMC.
interT determina o conjunto de temperaturas em que o sistema
ser simulado.
A funo Novaconf(sigma, param) recebe uma configurao e
devolve outra. Este o corao do algoritmo. Abaixo mostramos
como exemplo uma implementao do algoritmo de Metropolis.
A funo Acumula(sigma,f1,f2,...fl) extrai informao de
config e a acumula nos diversos fs. O objetivo da simulao
estimar quantidades de interesse termodinmico atravs dos
diferentes fs, por exemplo a energia, a magnetizao, o calor
especfico, a susceptibilidade magntica e correlaes, espaciais e
temporais.
A funo GravaResultados faz pequenas operaes, como dividir
pelo nmero de configuraes, gravar os resultados. A funo
Grafico produz os grficos para acabar de forma satisfatria. Fazer
os grficos opcional, podem ser feitos em outro ambiente.

def Controle(param):

para todo 1 i,j L : sigma(i,j) = 1 com probabilidade


meio
chama Novaconf(sigma, param) Nterm vezes para termalizar;
faz NMC vezes # corao do programa

* chama Novaconf(sigma, param) deltaNMC vezes


* chama Acumula(sigma,f1,f2,...fl)
chama GravaResultados.

A rotina que realiza a mudana de configurao

def Novaconf(sigma, param):

para todo 1 i,j L :

* escolhe duas coordenadas k,l com probabilidade uniforme,


e soma seus quatro vizinho hkl=vizinhos sigma
(v(k),v(l)) . A definio de o que um vizinho na borda
da rede impe a escolha de condies de contorno, por
exemplo v(k) toma valores (k1)mod L, para condies
peridicas de contorno.
* A mudana de energia ao tentar inverter o spin sigma(k,l)
deltaE =-2hkl*sigma(k,l)
* Se deltaE 0 ,
a nova configurao tera sigma(k,l)=-sigma(k,l)
* else escolhe aleat aleatrio uniforme entre 0 e 1.
se exp(-deltaE/T) aleat ento
sigma(k,l)=-sigma(k,l)

O programa de forma esquemtica

param = L,Nterm,NMC,deltaNMC, interT; inicializa parmetros.


176 nestor caticha

para t no conjunto de temperaturas interT

Controle(param)

Grafico
10
A equao de Chapman Kolmogorov

Notas preliminares.
Voltemos ao processo em tempo discreto onde IN : "a cada tic ti
do relgio, com ti = T = {1....N }, uma varivel si que toma
valores 1 gerada por um processo a ser descrito por hK ". Q
probabilidade desta

10.1 Processo de Markov a tempo contnuo


1 1
O que segue inspirado entre outros
em C.W. Gardiner, Handbook of Stochastic
Seja um processo estocstico, X (t) que representa um conjunto
Methods
de variveis aleatrias, indexadas por t IR, o tempo, que tomam
valores x S. Para uma sequncia t0 < t1 .... < tn a probabilidade
do evento
X0,n = { X (tn ) = x (tn ), X (tn1 ) = x (tn1 ), ...X (t0 ) = x (t0 )}
IP( X0,n ). Pela regra do produto podemos separar esse conjunto em
duas partes, o ltimo valor e o resto:

IP( X0,n ) = IP( xn | X0,n1 ) IP( X0,n1 ) (10.1)

Por convenincia ocacionalmente usaremos uma notao compacta


IP( Xi = xi ) = IP( xi ), onde xi = x (ti ). Portanto

IP( X0,n ) = IP( xn | xn1 , ...x0 ) IP( xn1 , ...x0 ). (10.2)

chamado de processo Markoviano o caso em que a nica


informao relevante o ltimo valor de x conhecido, obtemos

IP( X0,n ) = IP( xn | xn1 ) IP( X0,n1 )

que pode ser estendido a

IP( X0,n ) = IP( xi | xi1 ) IP( x0 )


i =1,n

Queremos descrever a evoluo de um sistema fsico modelado


por um processo X e consideramos dois instantes de tempo inicial
t1 e t3 final. A dinmica entre dois instantes quaisquer pode ser
muito complicada, mas temos experincia que talvez seja possvel
avanar na descrio se intervalos menores forem considerados.
Podemos considerar um valor qualquer fixo t2 , intermedirio
178 nestor caticha

(t3 > t2 > t1 ) e considerar que o valor intermedirio X3 pode ser


qualquer um em S. Para um valor especfico intermedirio x3 a
probabilidade IP( x3 , x2 , x1 ) a probabilidadede de uma trajetria
x1 x2 x3 . Marginalizando sobre X2
Z
IP( x3 , x1 ) = dx2 IP( x3 , x2 , x1 )
S

usando a equao 10.2 obtemos, para processos de Markov


Z
IP( x3 , x1 ) = dx2 IP( x3 | x2 ) IP( x2 | x1 ) IP( x1 ) (10.3)
S

Dividindo por IP( x1 ), obtemos a equao de Chapman-Kolmogorov:


Z
IP( x3 | x1 ) = dx2 IP( x3 | x2 ) IP( x2 | x1 ) (10.4)
S

Em palavras: a probabilidade de, estando em t1 em x1 ir a x3 em t3


dada pela soma sobre todos os valores intermedirios x2 da
probabilidade de ir de x1 a x2 e de x2 at x3 . Esta ltima dada
pelo produto da probabilidade de ir de x1 em t1 a x2 em t2 pela
probabilidade de ir de x2 a x3 em t3 .
Note que mencionamos explicitamente a regra do produto e da
soma das probabilidades. Voltaremos depois a tratar como exemplo
a Mecnica Quntica no relativstica, onde tambm aparecem
regras de produto e soma e o equivalente equao de
Chapman-Kolmogorov na formulao integrais de trajetrias de
Feynmann. A equao integral de CK pode ser transformada em
uma equao diferencial parcial, como mostrado a seguir. Esta tem
em MQ um anlogo, a equao de Schrdinger.

10.1.1 Equao de Chapman-Kolmogorov diferencial

Consideramos agora o caso em que x S so os reais. A


generalizao para mais dimenses fica como exerccio. Usaremos
uma classe de funes auxiliares que funcionam como andimes e
depois sero retirados. Uma funo f ( x ) duas vezes diferencivel,
que vai para zero para x .
Estamos interessados em descrever probabilidades do tipo
IP( x (t + t)|z(t)) e seus momentos quando t 0, x e z so reais .
Procedemos por analogia mecnica. O que um potencial?
Quando necessrio introduzir um? Quando h foras agindo
sobre uma partcula? Se esperamos por algum motivo que a
trajetria seja uma linha reta (e.g por simetria) mas a experincia
mostra que no assim, ento introduzimos. uma fora. Isto ser
interessante se h muitos casos em que a mesma tcnica se mostra
til. No h sentido em introduzir um truque novo a cada novo
caso. Se assim fosse no haveria nenhuma vantagem. Vamos supor
que existem funes A(z, t), B(z, t) e W ( x |zt) que dependem da
posio e talvez do tempo, que aparecem em vrias situaes e que
sua utilidade no se restringe a um caso particular. Vamos supor
probabilidades 179

que estas funes so suficientes para determinar a evoluo da


probabilidade. Elas so definidas para e > 0,

1
W ( x |z, t) = IP( x (t + t)|z(t)) (10.5)
t

1
Z
A(z, t) = lim lim ( x z) IP( x (t + t)|z(t))dx (10.6)
e0 t0 t | x z|<e

1
Z
B(z, t) = lim lim ( x z)2 IP( x (t + t)|z(t))dx (10.7)
e0 t0 t | x z|<e

A interpretao destes termos a seguinte. O termos W ( x |zt)


descrevem pulos instantneos de z a x. No esperamos encontrar
em fsica clssica objetos que pulem de forma instantnea de uma
posio a outra, mas pode ser que em alguns casos este tipo de
objeto matemtico seja til dentro de alguma aproximao. Se
houver variveis discretas, ento queremos manter este tipo de
objeto para descrever taxas de transio entre um estado e outro.
A funo A(z, t) est relacionada ao valor esperado da
velocidade de uma partcula. Em casos que A for no nulo teremos
a possibilidade de descrever a deriva de uma partcula. Um
exemplo o movimento de molculas de DNA ou de protenas em
um gel sob a ao de um campo eltrico 2 . 2
Exemplos ??
Temos a impresso que necessrio saber a probabilidade para
poder calcul-las, mas ser mais comum supor alguma forma para
as trs e usar os resultados a seguir para calcular a probabilidade.
Procuramos uma equao diferencial, natural considerar
condies iniciais y(t0 ). O valor esperado de uma funo teste f ( x )
dado por
Z
ft|y = IE[ f ( x )|t, yt0 ] = f ( x ) IP( x (t)|y(t0 ))dx, (10.8)

para estudar sua evoluo tomamos a derivada temporal:


1
Z
t ft|y = lim f ( x ) IP( x (t + t)|y(t0 )) IP( x (t)|y(t0 )) dx.

t0 t
(10.9)
Usando a equao de CK, introduzimos um ponto intermedirio
(z, t)
Z 
1
Z Z
t ft|y = lim dx dz f ( x ) IP( x (t + t)|z(t)) IP(z(t)|y(t0 ))dx f (z) IP(z(t)|y(t0 ))dz .
t0 t
(10.10)
No ltimo termo mudamos a notao da varivel de integrao de x
para z.
Vamos separar os casos em que | x z| e e | x z| < e, que ser
levado a zero posteriormente. A separao significa
R R R
dxdzQ = | xz|<e dxdzQ + | xz|e dxdzQ. Usaremos a expanso
de Taylor de f ( x ), para | x z| < e
1
f ( x ) = f (z) + f 0 (z)( x z) + ( x z)2 f 00 (z) + O(e3 ).
2
180 nestor caticha

Z
1 1
t ft|y = lim lim dxdz( f (z) + f 0 (z)( x z) + ( x z)2 f 00 (z) + O(e3 ))
e0 t0 t | x z|<e 2
IP( x (t + t)|z(t)) IP(z(t)|y(t0 )) +
Z
dxdz f ( x ) IP( x (t + t)|z(t)) IP(z(t)|y(t0 ))dx
| x z|e
Z 
0
f (z) IP(z(t)|y(t ))dz . (10.11)

Podemos reescrever o termo da primeira linha que contm f (z) na


penltima linha
Z
1 1
t ft|y = lim lim dxdz( f 0 (z)( x z) + ( x z)2 f 00 (z) + O(e3 ))
e0 t0 t | x z|<e 2
IP( x (t + t)|z(t)) IP(z(t)|y(t0 )) +
Z
dxdz f ( x ) IP( x (t + t)|z(t)) IP(z(t)|y(t0 )) +
| x z|e
Z
dxdz f (z) IP( x (t + t)|z(t)) IP(z(t)|y(t0 ))
| x z|<e
Z 
f (z) IP(z(t)|y(t0 ))dz . (10.12)

Para fazer a integral em x na primeira linha usamos as definies


de A e B

1
Z
t ft|y = dz( f 0 (z) A + B f 00 (z) + O(e3 )) IP(z(t)|y(t0 )) +
2
Z
1
lim lim dxdz f ( x ) IP( x (t + t)|z(t)) IP(z(t)|y(t0 ))+
e0 t0 t | x z|e
Z
dxdz f (z) IP( x (t + t)|z(t)) IP(z(t)|y(t0 ))
| x z|<e
Z 
0
f (z) IP(z(t)|y(t ))dz . (10.13)

Note que nas integrais acima feitas nas regies maior e menor que e
o integrando no o mesmo, numa aparece f ( x ) e na outra f (z).
Vamos separar o ltimo termo tambm em regies maior e menor
que e, de forma que as integrais sobre a regio | x z| < e se
cancelam, sobrando uma diferena entre integrais na regio
| x z| e. Numa delas fazemos a mudana de nome de variveis
x z e usamos a definio para os W, equao 10.5

1
Z
t ft|y = dz( f 0 (z) A + B f 00 (z)) IP(z(t)|y(t0 )) +
2
Z Z Z 
dz f (z) dxW (z| xt) IP( x |y(t0 )) dxW ( x |zt) IP(z|y(t0 ))

(10.14)

Integramos por partes, uma e duas vezes, respectivamente os


termos com A e B. Lembramos que os termos de superfcie no
contribuem devido s restries em f . Podemos rearranjar de forma
a que fique a integral de f (z) vezes um termo entre colchetes (que
probabilidades 181

no contm f (z)) igual a zero, para qualquer funo f arbitrria

IP(z(t)|y(t0 ) ( A(z, t) IP(z(t)|y(t0 )) 1 2 ( B(z, t) IP(z(t)|y(t0 ))


Z 
0= dz f (z) + +
t z 2 z2
Z 
dx (W (z| xt) IP( x |y(t0 )) W ( x |zt) IP(z|y(t0 )))

Portanto o integrando deve ser nulo. Obtemos assim a EDP de


Chapman-Kolmogorov:

IP(z|y(t0 )) ( A(z, t) IP(z|y(t0 )) 1 2 ( B(z, t) IP(z|y(t0 ))


= + +
t Z z 2 z2
dx W (z| xt) IP( x |y(t0 )) W ( x |zt) IP(z|y(t0 )) .


(10.15)

10.1.2 A equao de Fokker-Planck


Olharemos primeiro o caso de W ( x |zt) = 0 para quaisquer
argumentos, o caso em que no h pulos e as trajetrias so
contnuas. Obtemos a equao de Fokker-Planck

IP(z|y(t0 )) ( A(z, t) IP(z|y(t0 )) 1 2 ( B(z, t) IP(z|y(t0 ))


= + (10.16)
t z 2 z2
Estudaremos dois casos particulares mas importantes, os
processos de Wiener e de Ornstein e Uhlembeck.

Processo de Wiener
Este provavelmente o processo mais importante, se julgado pela
utilidade que encontra nas aplicaes nas mais diversas reas e pela
sua utilidade na construo de outros processos.
Tomamos A = 0 e B = 2D = constante, na equao de
Fokker-Planck, obtemos a equao

IP(z|y(t0 )) 2 IP(z|y(t0 ))
= D (10.17)
t z2

Esta equao foi originalmente estudada por Fourier3 . chamada 3


Veja Fourier, Vol 45 Great Books of the
Western World, para uma exposio de um
equao do calor ou da difuso. Para completar a informao
dos trabalhos mais influentes na histria da
necessria para obter P(z(t)|y(t0 )) precismos dar condies iniciais. Fsica Matemtica
Escolhemos o caso mais importante, P(z(t0 )|y(t0 )) = (z y), que
leva funo de Green. A importncia decorre de que para
qualquer outra condio inicial, a soluo pode ser obtida usando a
funo de Green.
O mtodo de soluo o de Fourier. A funo caracterstica e IP
so um par de Fourier:
Z
(k, t) = dzIP(z|y(t0 ))eikz (10.18)

dk
Z
IP(z|y(t0 ))) = (k, t)eikz . (10.19)
2
182 nestor caticha

As derivadas espaciais viram potncias no espao k

2 IP(z|y(t0 )) dk 2
Z
= k (k, t)eikz (10.20)
z2 2
e a equao satisfeita por ordinria


= Dk2 (10.21)
t
sujeita a Z
(k, t0 ) = dz(z y)eikz = eiky ,

assim
2 (tt0 )
(k, t) = e Dk (k, t0 ) (10.22)
portanto
2 (tt0 )
(k, t) = e Dk eiky (10.23)
que uma gaussiana. Fazendo a transformada inversa
( z y )2
1 4D(tt0 )
IP(z(t)|y(t0 )) = p e (10.24)
4D (t t0 )

que para todos os valores de t > t0 uma gaussiana4 com varincia 4


Faa o grfico de IP(z(t)|y(t0 )) para dife-
rentes valores de t t0 .
que cresce linearmente com o tempo:
Z
0
IE( Z (t)|Y (t )) = dz zIP(z|y(t0 )) = y(t0 ) (10.25)
Z
IE(( Z (t) Y (t0 ))2 |Y (t0 )) = dz z2 IP(z|y(t0 )) y(t0 )2(10.26)

= 2D (t t0 ) (10.27)

Calculamos a funo de Green G (z y, t t0 ) = IP(z(t)|y(t0 )). A


soluo geral (qdo < x < ) da equao de difuso
t F ( x, t) = D2 F ( x, t) com F ( x, 0) = f ( x ), dada por
R
F ( x, t) = G ( x y, t) f (y)dy

Trajetrias
Suponha que usamos o processo de Wiener para descrever a
trajetria de uma partcula. Este o famos movimento Browniano,
estudado por Einstein e Smoluchowski.
Se a posio assim descrita, o que se pode dizer da velocidade?
Uma estimativa poderia ser feita olhando para
vt = (z(t + t) z(t))/t e tomando o limite de t 0. Mas
como z uma varivel aleatria natural calcular a probabilidade
de que vt tome valores em algum intervalo, por exemplo que seja
maior em mdulo que uma constante a qualquer, IP(|vt | > a) que
dada
Z
IP(|vt | > a) = IP( x (t + t)| x (t)) (10.28)
| x (t+t) x (t)|> at
Z
x2
2Dt dx
= 2 e (10.29)
at 2Dt
r
t t0
= erfc( a ) 1 (10.30)
2D
probabilidades 183

independentemente de a, que pode ser tomada to grande quanto


se queira, mostrando que as trajetrias neste modelo no so
diferenciveis.

Independncia dos incrementos


Para uma sequncia ordenada de instantes t0 < t1 < t2 .... < tn ,
definindo xk = xk xk1 e tk = tk tk1 , teremos

IP( xn xn1 ....x1 | x0 ) = IP( xn | xn1 ) IP( xn1 | xn2 )...IP( x1 | x(10.31)
0)
n
= IP(xk |xk1 ) (10.32)
k =1
n (x )2
1 k
4D(t
= 4Dt e k) (10.33)
k =1 k

que podemos interpretar

n
IP(xn xn1 ....x1 ) = IP(xk ) (10.34)
k =1

mostrando a independncia dos incrementos. Tambm mostramos


que os incrementos tem mdia nula, que ser usado a seguir para
calcular a funo de auto-correlao.

Autocorrelao temporal no Processo de Wiener


Suponha que t0 < t1 < t2 , entao

IE( X2 X1 | X (t0 )) = IE( X2 X1 | X (t0 )) IE( X1 X1 | X (t0 )) + IE( X1 X1 | X (t0 ))


= IE(( X2 X1 ) X1 | X (t0 )) + IE( X1 X1 | X (t0 ))
= IE(( X2 X1 )( X1 X 0 )) + IE( X12 | X (t0 ))
= 0 + 2D (t1 t0 ) + X (t0 )2 (10.35)

onde usamos no primeiro termo da ltima linha a independncia e


no segundo a varincia , dada pela equao 10.27. A autocorrelaao
definida

< ( X2 X1 | X ( t 0 ) > = IE( X2 X1 | X (t0 )) IE( X2 |Y (t0 ) IE( X1 | X(10.36)


(t0 )
= IE(( X2 X 0 )( X1 X 0 )) (10.37)

< ( X2 X1 | X (t0 ) > = 2D (t1 t0 ) (10.38)

O leitor pode se perguntar porque usamos


IE(( X2 X1 )( X1 X 0 )) = 0 mas a autocorrelao
IE(( X2 X 0 )( X1 X 0 )) 6= 0. No primeiro caso os incrementos so
independentes de mdia nula. No segundo o intervalo maior inclui
dentro dele o intervalo menor, portanto no so independentes e
seu produto tem esperana no nula.
184 nestor caticha

Processo de Ornstein e Uhlembeck


O processo de difuso simples estudado na seco anterior no a
nica tentativa de modelagem do problema de movimento
Browniano. O processo de OU tem sido muito importante na teoria
de processos estocsticso O processo de OU definido pela escolha
5 5
Uhlembeck, G. E. e Ornstein, L. S. On the
theory of Brownian motion , Physical Review
Vol 36, No 3
W = 0, A = x B = D

IP( x |y(t0 )) xIP( x |y(t0 )) 1 2 IP(z|y(t0 ))


= + D (10.39)
t x 2 z2
Novamente usamos a funo caracterstica (k, t) (equao 10.18).
A equo de FP no espao de Fourier

= k Dk2 (10.40)
t k
uma equao diferencial parcial, que consideraremos sujeita a
Z
(k, t0 ) = dx( x y)eikx = eiky ,

O avano ao passar para o espao de Fourier que a equao parcial


de primeira ordem que pode ser resolvida usando o mtodo das
caractersticas6 . Note que usamos a palavra caracterstica de uma 6
V. Arnold, EDO, ed Mir
forma diferente que no tem relao com a funo caracterstica .
Queremos resolver o problema de Cauchy para a equao 10.40,
obter (k, t) dada a condio inicial (k, 0).
Chame r = (r1 ....r N ). Uma equao linear
N
u
an (r0 , u(r0 )) r0 =0 (10.41)
n =1 n

para N = 2 as equaes diferenciais das caractersticas


dr1 dr
= 2 (10.42)
a1 a2
portanto
dr2 a
= 2 (10.43)
dr1 a1
Suponha que integremos essa equaao
r2 = f c (r1 ) (10.44)
onde mostramos explicitamente a dependncia em uma constante
C. Note que a combinao r2 / f (r1 ) uma constante. Tentemos
como soluo da EDP 10.41 uma funo restrita a ser diferencivel e
depender de r1 e r2 somente atravs da combinao z = r2 / f c (r1 ),
u = F (r2 / f c (r1 ))

? dF z z
0 = { a1 + a2 } (10.45)
dz r1 r2
dF r d f c /dr 1
= { a1 2 2 1 + a2 } (10.46)
dz fc fc
dF a2 r2
= { 1} (10.47)
dz f c f c
probabilidades 185

que vemos ser zero usando as equaes 10.43 e 10.44


Uma equao diferencial quase-linear

N
u
an (r0 , u(r0 )) r0 = b(r 0 , u(r 0 )) (10.48)
n =1 n

As caractersticas obedecem (forma simtrica)

dr1 dr du
= 2 = ... = (10.49)
a1 a2 b

BLBLBLBLBLBLBLBLBLBLABLABLA
Note que se a equao quase-linear for escrita

N +1
u
a n (r )
rn
=0 (10.50)
n =1

onde r = (r 0 , u), isto ri = ri0 para i = 1...N e r N +1 = u e


a N +1 (r ) = b(r 0 , u) vemos que podemos escrever as equaes das
caractersticas como

dr1 dr du
= 2 = ... = (10.51)
a1 a2 b

Para a FK do OU no espao de Fourier, as equaes das


caractersticas
dt dk d
= = (10.52)
1 k Dk2
que resultam nas EDO

Dk2
1 d = (10.53)
k
Dk2
ln = +c (10.54)
4
Dk2
= Ce 4 (10.55)

claro que C deve ser uma constante mas tambm deve incluir a
dependncia no tempo t. S pode ser as duas coisas ao mesmo
tempo se for uma funo de uma combinao constante de t e k.
Para isso olhamos para a outra caracterstica

dk
dt = (10.56)
k
k = C 0 et (10.57)
0 t
C = ke (10.58)

A soluo geral

Dk2
(k, t) = C (ket )e 4 (10.59)

onde C (ket ) uma funo ainda desconhecida g que depende de


de k e t somente atravs da combinao ket . Para avanar
precisamos uma condio inicial: IP( x (0)| x0 (0)) = ( x x0 ).
186 nestor caticha

Portanto a transformada de Fourier ser (k, 0) = exp(ikx0 ).


Dk2
(k, t) = C (ket )e 4

Dk2
(k, 0) = eikx0 = g(k, 0)e 4

Dk2
g(k, 0) = eikx0 e 4

t x Dk2 e2t
g(k, t) = eike 0 e 4

t x Dk2 e2t Dk2


(k, t) = eike 0 e 4 e 4

Dk2 (1 e2t ) t
(k, t) = e 4 eikx0 e (10.60)
A expresso acima bem simples, pois uma gaussiana
k2 OU
2
(k, t) = exp( )eikOU (10.61)
2
D
com 2
OU (t) = (1 e2t ) (10.62)
2
e OU (t) = x0 et (10.63)
e a transformada inversa IP( x, t| x0 , t0 = 0)) uma gaussiana com
mdia OU e varincia OU .
( x OU )2
1
0 22
IP( x, t| x0 , t = 0)) = q e OU (10.64)
2
2OU

Autocorrelao temporal no Processo de Ornstein e Uhlembeck


Para t2 > t1 > 0

IE( X2 X1 | X (0) = x0 ) = IE( X2 X1 | X (0) = x0 ) IE( X1 X1 | X (0) = x0 ) + IE( X1 X1 | X (0) = x0 )


= IE(( X2 X1 ) X1 | X (t0 )) + IE( X1 X1 | X (t0 ))
= IE(( X2 X1 )( X1 X 0 )) + IE( X12 | X (t0 ))
= 0 + 2D (t1 t0 ) + X (t0 )2 (10.65)

10.2 Funo de Green para a Equao de Fokker-Planck em 1


dimenso, o efeito de condies de fronteira

O processo descrito pela equao diferencial estocstica


q
dx = A( x, t)dt + B( x, t)dW (t) (10.66)
satisfaz uma equao de Fokker Planck:
1
t p( x, t) = x ( A( x, t) p( x, t)) + 2x ( B( x, t) p( x, t)) (10.67)
2
Nesta seo olharemos somente para o caso em que as funes de
deriva e difuso so independentes do tempo: A( x ) e B( x ).
Defina a corrente
1
J = A( x ) p( x, t) x ( B( x ) p( x, t))
2
A equao de FP equivalente equao de continuidade:
t p( x, t) + x J = 0 (10.68)
probabilidades 187

10.2.1 Condies de Fronteira


Queremos resolver este problema no intervalo a x b sujeita a
diferentes situaes descritas pelas condies de fronteira abaixo:

Barreira Absorvente

onde
p( a, t) = p(b, t) = 0

Barreira refletora

onde

J ( a, t) = J (b, t) = 0

Se houver mais de uma dimenso espacial, estas condies sero


substituidas por n.J = 0 nas bordas refletoras.

10.2.2 Estado estacinario


Suponha que J = 0 , portanto no h corrente. Segue que, no estado
estacionrioa distribuio de probabilidade ps ( x ) satisfaz

1
0 = A( x ) ps ( x )) x ( B( x ) ps ( x )) (10.69)
2
e tambm que t ps ( x ) = 0.
Esta equao fcil de analisar, chame ( x ) = B( x ) ps ( x ), vemos
que satisfaz
A( x ) 1
0= x ,
B( x ) 2
portanto
1 A
x = 2 (10.70)
B
e
RxA( x 0 ) 0
2 a B( x 0 ) dx
( x ) = ( a)e (10.71)

Rx A( x 0 )
B( a) 2 a B( x 0 ) dx
0
ps ( x ) = ps ( a) e (10.72)
B( x )

10.2.3 Equao adjunta de Fokker Planck


Usando a soluo do estado estacionrio ps podemos introduzir a
funo q( x, t)
p( x, t) = ps ( x )q( x, t). (10.73)

Substituindo na equao 10.67 de FP, temos

1
ps ( x )t q( x, t) = x ( A( x ) ps ( x )q( x, t)) + 2x ( B( x ) ps ( x )q( x, t)) (10.74)
2
= ( A( x ) ps ( x ))0 q( x, t) ( A( x ) ps ( x ))q0 ( x, t)
1
( B( x ) ps ( x ))00 q( x, t) + 2( B( x ) ps ( x ))0 q0 ( x, t) + B( x ) ps ( x ))q00 ( x, t) ,

+
2
188 nestor caticha

onde as linhas denotam derivadas parciais com respeito a x.


Usando que a corrente no estado estacionrio nula
0 = Js = A( x ) ps ( x ) 21 ( B( x ) ps ( x ))0
= ( A( x ) ps ( x ))0 q( x, t) ( A( x ) ps ( x ))q0 ( x, t)
ps ( x )t q( x, t)
1
( B( x ) ps ( x ))00 q( x, t) + 4A( x ) ps ( x )q0 ( x, t) + B( x ) ps ( x ))q00 ( x, t)

+
2
Usando a equao 10.69 vemos que o primeiro termo da primeira
linha e o primeiro da segunda linha se cancelam e podemos
escrever
1
t q( x, t) = A( x )q0 ( x, t) + B( x )q00 ( x, t) (10.75)
2
que a equao adjunta de Fokker Planck.

10.2.4 Olhando para atrs no tempo


Respondento a uma pergunta em classe. Faa um tratamento
equivalente ao que levou da equao de Chapman-Kolmogorov
integral EDP, mas agora considere derivadas temporais na varivel
no passado. Ao olhar para o valor esperado de uma funo teste
f ( x ) dado por
Z
ft|y = IE[ f ( x )|t, yt0 ] = f ( x ) IP( x (t)|y(t0 ))dx, (10.76)

olharemos as propriedades da derivada temporal com respeito a t0 .


O resultado a equao de Chapman-Kolmogorov backwards
(Aceito sugestes de nome em portugues). Na ausncia de pulos
(W = 0) se torna uma equao de Fokker Planck para atrs no
tempo que anloga equao adjunta
IP(z|y(t0 )) ( IP(z|y(t0 )) 1 2 IP(z|y(t0 ))
= A(y, t) + B(y, t) +
t0 y 2 y2
Z
dxW ( x |yt0 )( IP( x |y(t0 )) IP(z|y(t0 )))}.

10.2.5 Soluo da FP
Vamos tentar uma soluo da equao de Fokker-Planck
representada formalmente por uma soma
p( x, t) = C (t) P (x) (10.77)

e ver que condies devem satisfazer as funes C (t) e P ( x ).


Substituindo a soluo 10.92 na equao de FP (10.67) vemos
1 d2
 
dC (t) d
dt P ( x ) =
C ( t )
dx
( AP ) +
2 dx2
( BP ) (10.78)

Se P ( x ) satisfizer a equao ordinria


d 1 d2
P =
( AP ) + ( BP ) (10.79)
dx 2 dx2
basta ento que as funes C (t) satisfaam
dC (t)
= C (t) (10.80)
dt
e portanto C (t) = C (0)et .
probabilidades 189

10.2.6 Ortogonalidade
Agora que sabemos que a dependncia temporal exponencial
podemos estudar mais a fundo as propriedades da parte espacial,
em particular suas propriedades de ortogonalidade. Tentemos
solues das equaes 10.67 e 10.75 onde a dependncia temporal
simplesmente exponencial

p( x, t) = P ( x )et (10.81)
t
q( x, t) = Q ( x )e (10.82)

e P te Q sero escolhidos de forma a satisfazer as condies de


contorno. Substituindo nas equaes 10.67 e 10.75, obtemos

1
P = ( AP )0 + ( BP )00 (10.83)
2
1
Q = AQ0 + BQ00 (10.84)
2
Considere as equaes com valores de diferentes 1 e 2 .
Multiplicando a primeira por Q2 , a segunda por P1 , subtraindo os
resultados e integrando no interval a x b, obtemos:

Z b Z b 
1 0 00
( 1 2 ) P1 Q2 dx = ( AP1 ) ( BP1 ) Q2 dx +
a a 2
Z b  
0 1 00
+ AQ2 + BQ2 P1 dx (10.85)
a 2

Z b Z b
( 1 2 ) P1 Q2 dx = ( AP1 )0 Q2 + AP1 Q02 +
a a

1 00 1 00
+ BP Q ( BP1 ) Q2 dx
2 1 2 2

Z b 
1 1
= ( AP1 Q2 ) + BP1 Q002 ( BP1 )00 Q2
0
dx.
a 2 2
Somando e subtraindo ( BP1 )0 Q02 dentro do integrando
Z b Z b
1 
( 1 2 ) P1 Q2 dx = ( AP1 Q2 )|ba + BP1 Q002 + ( BP1 )0 Q02 ( BP1 )0 Q02 ( BP1 )00 Q2 dx
a 2 a

Z b 0
1
= ( AP1 Q2 )|ba + ( BP1 ) Q02 ( BP1 )0 Q2 ))0 dx

2 a

 b
1 
= ( AP1 Q2 ) + ( BP1 ) Q02 ( BP1 )0 Q2 ) =0
2 a

1 b
= (( AP1 + ( BP1 )) Q02 ( BP1 )0 Q2 ) =0
2 a
 b
1
= Q2 J + ( BP1 )) Q02 (10.86)
2 a
190 nestor caticha

Lembrando que para a barreira refletora J ( a, t) = J (b, t) = 0, sobra o


segundo termo. Usando P = Qps temos que se J = 0 nas bordas
para a corrente de P e ps

1
0 = AP + ( BP)0
2
1
= AQps + ( BQps )0
2
1 1
= AQps + ( Bps )0 Q + ( Bps ) Q0
2 2
1 1
= ( Aps + ( Bps ) ) Q + ( Bps ) Q0
0
2 2
1
= Js Q + ( Bps ) Q0
2
1
0 = BQ0
2
(10.87)

e o segundo termo tambm zero. Ainda podemos escolher a


normalizao dos Q e escrever a relao de ortogonalidade:
Z b
P1 Q2 dx = 1 2 (10.88)
a

10.2.7 Condies Iniciais


Consideramos o caso importante

p( x, t = 0) = ( x x 0 ), (10.89)

pois a soluo permite construir a soluo geral.


A soluo da equao de Fokker-Planck (eq 10.92)

p( x, t) = C (t) P (x) (10.90)


Olhamos para esta expresso em t = 0, multiplicamos por Q1 ( x ) e


integramos sobre o intervalo:

p( x, 0) = C (0) P (x)

Z b Z b

a
Q 1 ( x ) ( x x 0 ) = C (0) a
Q1 ( x ) P ( x )

Q 1 ( x 0 ) = C (0)1

C (0) = Q ( x 0 ) (10.91)
Chegamos assim soluo formal para o problema com condies
iniciais p( x, t = t0 | x 0 t0 ) = ( x x 0 ), que a funo de Green
0
p( x, t| x 0 t0 ) = Q (x0 ) P (x)e(tt ) (10.92)

Para cada problema em particular, devemos encontrar os


autovalores e as autofunes P ( x ) e Q ( x 0 ) de forma a satisfazer as
condies de contorno.
probabilidades 191

Note a simetria da funo de Green. As autofunes P esto


associadas ao ponto no futuro, as Q ao ponto no passado.
Suponha que no temos informao precisa sobre o valor de X
no instante inicial t0 , mas s uma distribuio de probabilidade
( x 0 t0 ). As regras da probabilidade nos permitem escrever
Z
p( x, t) = dx 0 p( x, t| x 0 t0 ) ( x 0 t0 ) (10.93)

poderiamos ter chegado a este resultado simplesmente usando as


propriedades da funo de Green, onde a fonte no mais ( x x 0 )
mas ( x 0 t0 ). interessante que os conceitos de distribuio a priori e
condies iniciais vistos desta forma so a mesma coisa.
NOTAO Pensando um pouco melhor sobre a notao que hei
de mudar um dia sugiro reescrever a equao 10.93 acima da
seguinte forma
Z
p( x |t f = t, ti = t0 ) = dx 0 p( x |t f = t, ti = t0 , x 0 ) ( x 0 |t0 ) (10.94)

assim no se d a impresso que h algo associado probabilidade


de t, mas sim que os tempos t e t0 so condicionantes. bvio que
poderia haver incerteza na medida do tempo que ento teria
associada uma distribuio de probabilidade. Mas no o caso:
supomos t e t0 conhecidos. Assim ti o instante onde tenho
informao inicial parcial. Para cada valor de x 0 temos a
probabilidade de observar x em t f , esta funo de Green da
equao de Fokker-Planck. As leis da probabilidade nos dizem que
para obter a distibuio de x em t devemos marginalizar a
distribuio conjunta p( x, x 0 |tt0 ) = p( x |t f = t, ti = t0 , x 0 ) ( x 0 |t0 ).
Mas acabo esta seo com o seguinte comentrio ou provocao
para que pensem. A evoluo temporal descrita por p( x, t| x 0 t0 )
poderia simplesmente ser escrita como p( x | x 0 ) sem referncia a um
relgio externo e onde penso nos x como smbolos, no
necessariamente pontos no intervalo. Suponha que sejam dados
x a , xb , xc ..., e suponha que tenhamos o conjunto de { P( xi | x j )}.
Podemos ordenar de alguma forma os smbolos e atravs disso
gerar um relgio dizendo que a ordem define uma sequncia
temporal? Podemos criar o tempo num sistema de inferncia? Ser
esta uma idia para comear a pensar na gerao da conscincia
do tempo no crebro de um animal que tem acesso a memrias x.

10.3 Difuso em um Potencial

Voltemos equao de Chapman Kolmogorov 10.15 ou de Fokker


Planck, que agora escrevemos em mais de uma dimenso e sem
saltos. A soma sobre indices repetidos subentendida:
IP(r |r 0 ; t, t0 )
= i ( Ai (r, t) IP(r |r 0 )) + i j Dij (r, t) IP(r |r 0 )

t
(10.95)

Ai representa uma deriva, que pode depender da direo e Dij o


tensor de difuso. Esta equao deve ser completada com a
192 nestor caticha

estipulao do valor inicial de IP em t0 em alguma regio. Mais


sobre isso ser dito posteriormente. Podemos novamente definir
uma corrente

= Ai (r, t) IP(r |r 0 )) + j Dij (r, t) IP(r |r 0 )



Ji (r, t)
(10.96)

de tal forma que de FP pode ser rescrita


IP(r |r 0 ; t, t0 )
+ i Ji (r, t) = 0 (10.97)
t
IP(r |r 0 ;t,t0 )
ou t + .J (r, t) = 0. O valor de equilbrio, um ponto fixo da
dinmica, pode ser obtido impondo

Ji (r, t) = 0 (10.98)

Vamos olhar para o caso em que nem A nem D no dependem do


tempo. As dimenses de A e a sua definio, equao 10.6, mostram
que pode ser intrepretado como uma velocidade. A velocidade do
movimento composta por uma componente deterministica, devida
a A e difuso, devida ao segundo termo. Na ausncia de difuso,
a velocidade constante no tempo. no segue a segunda lei de
Newton, mas pode ser interpretada como um problema com atrito,
onde a inrcia pode ser desprezada. Portanto

A (r ) = V (r )

onde V (r ) um potencial e um coeficiente de dissipao. O


motivo desta interpretao que a equao de FP de primeira
ordem no tempo: no h termo inercial. Se vale a equao 10.98,
ento
j Dij (r ) IP(r |r 0 ) = i V (r ) IP(r |r 0 ),

(10.99)
se Dij tambm independente de r, ento a soluo desta equao
diferencial simples:

Dij j IP(r |r 0 ) = i V (r ) IP(r |r 0 ), (10.100)

k IP(r |r 0 ) 1
= Dki i V (r ) (10.101)
IP(r |r 0 )
Multiplicamos por uma matriz unitria a ser escolhida M de
componentes M jk

k IP(r |r 0 ) 1 1
M jk = M jk Dki Mim Mml l V (r ) (10.102)
IP(r |r 0 )
1 1
bvio que conveniente escolher M tal d jm = M jk Dki Mim seja
diagonal. Mudamos o sistema de coordenadas tal que o gradiente
nas novas coordenadas ( x, y, ...) seja j = M jk k . Em coordenadas
cartesianas o vetor r = ( x, y, ...) representado por r = ( x, y, ...) ,
assim
j IP(r |r 0 )
= d 1
j j V (r ) (10.103)
IP(r |r 0 )
probabilidades 193

onde no ltimo termo o ndice repetido j no segue a conveno da


soma. A equao agora facilmente resolvida separando variveis.
Sob a hiptese que podemos escrever, em trs dimenses

IP(r |r 0 ) = f ( x ) g(y)h(z)

temos trs equaes do tipo

d log f ( x ) 1 V (r )
= d
x
d x x
e portanto a soluo

f ( x ) exp(d 1
x V (r )) (10.104)

Usando TrD 1 = i di1 juntando para todas as coordenadas temos

1
IP(r |r 0 ) = exp(TrD 1 V (r )) (10.105)
Z
onde reconhecemos a distribuio de Boltzmann com = TrD 1 .
Vemos que qualquer anisotropia no tensor de difuso se perde na
distribuio de equilbrio. O trao do tensor de difuso influi na
temperatura efetiva. Vemos que tambm no h referncia
distribuio inicial. Isto claro que no pode acontecer de forma
genrica. Se houver barreiras infinitas, que no podem ser passadas,
a distribuio final guardar memria das condies iniciais. Se
adistribuio estiver inicialmente confinada numa regio do espao
vai ficar para sempre. Continuar discutindo isto nos levaria entrar
na rea de Teoria Ergdica, mas no o faremos.