Vous êtes sur la page 1sur 125

Notas de aula: Probabilidade I

Augusto Teixeira
27 de maio de 2015

Licena

Esse trabalho licenciado nos termos da licena Creative Commons AtribuioNoComercial-CompartilhaIgual 3.0 No Adaptada (CC BY-NC-SA 3.0). Assim,
qualquer um pode usar, distribuir e modificar o contedo em obras derivadas
livremente desde que para fim no-comercial e com a devida citao da fonte.
Qualquer violao dos termos da licena citada ser considerado uso ilegal.

Sumrio

Prefcio
1

ii

Fundamentos
1.1 Espaos mensurveis . . . . . . . . . . . . .
1.2 Espaos de probabilidade . . . . . . . . . .
1.3 Sistemas - . . . . . . . . . . . . . . . . . .
1.3.1 Igualdade de probabilidades . . . .
1.4 Elementos aleatrios . . . . . . . . . . . . .
1.4.1 Distribuio de elementos aleatrios

1
2
3
5
7
8
9

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

Construo de espaos de probabilidade


2.1 Caso enumervel . . . . . . . . . . . . . . . .
Tpico: Mtodo Probabilstico . . . . . . . . . . . .
2.2 Caso absolutamente contnuo . . . . . . . . .
2.3 Funes acumuladas de distribuio . . . . .
2.4 Espaos produto finito . . . . . . . . . . . . .
2.5 Independncia . . . . . . . . . . . . . . . . . .
2.5.1 Colees de eventos . . . . . . . . . .
2.5.2 Independncia de -lgebras . . . . .
Tpico: Lei dos pequenos nmeros . . . . . . . . .
2.6 Espaos produto infinito . . . . . . . . . . . .
2.6.1 Recordar viver... . . . . . . . . . . . .
2.6.2 Teorema da Extenso de Kolmogorov
Tpico: Percolao . . . . . . . . . . . . . . . . . .
2.7 Distribuies conjuntas . . . . . . . . . . . . .
2.8 Probabilidades condicionais . . . . . . . . . .
2.8.1 Regra de Bayes . . . . . . . . . . . . .
2.9 Ncleos de transio . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

11
. . 11
. 13
. 14
. 14
. 16
.
17
.
17
. 18
. . 21
. 26
. 26
.
27
. . 31
. 34
. 34
.
37
. 38

iii

SUMRIO

iv

SUMRIO
2.10 Espaos cannicos . . . . .
2.10.1 Espaos poloneses
Tpico: Cadeias de Markov . .
Tpico: Urna de Plya . . . . .
3

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

43
45
49
53

Somas de variveis independentes


3.1 Esperana . . . . . . . . . . . . . . . . .
3.1.1 Desigualdade de Markov . . . .
3.1.2 Esperana e independncia . . .
3.2 Varincia . . . . . . . . . . . . . . . . . .
3.3 Lei fraca dos grandes nmeros . . . . .
Tpico: Contando tringulos . . . . . . . . .
3.4 Lei forte dos grandes nmeros . . . . .
3.5 Lei {0, 1} de Kolmogorov . . . . . . . .
3.6 Momentos exponenciais . . . . . . . . .
3.7 Princpio de Grandes Desvios . . . . . .
3.8 O Teorema Central do Limite . . . . . .
3.8.1 A distribuio normal . . . . . .
3.8.2 Convergncia fraca . . . . . . . .
3.8.3 Convergncia fraca em R . . . .
3.8.4 O TCL para uma sequncia i.i.d.
Tpico: O Teorema de Portmanteau . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

57
57
60
61
61
64
66
68
70
73
75
81
81
85
87
88
91

Esperana condicional
4.1 Esperana condicional . . . . . . . . . . . . . .
4.2 Propriedades bsicas da esperana condicional
4.3 Probabilidade Condicional Regular . . . . . . .
4.4 Princpio da substituio . . . . . . . . . . . . .

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

93
. 93
. 96
. 102
. 105

.
.

.
.

Solues de exerccios

111

Referncias Bibliogrficas

113

Index

116

ndice Remissivo

116

SUMRIO

vi

Captulo 1

Fundamentos

A probabilidade moderna se baseia fortemente na Teoria da Medida e supomos


durante esse curso que o leitor esteja bem familiarizado com conceitos tais como:
Medida de Lebesgue, extenses de medida e teoremas de convergncia. Iremos
agora justificar brevemente a escolha da Teoria da Medida para o estudo de
probabilidade.
No incio da Teoria da Probabilidade, a maioria dos fenmenos estudados
apresentava apenas um nmero finito de resultados possveis, como por exemplo ao se jogar um dado de seis lados ou sortear uma carta em um baralho. Em
tais casos desnecessrio o uso de ferramentas sofisticadas pra modelar tais
situaes. Por exemplo, podemos simplesmente dizer que a probabilidade de
se obter cada um dos lados do dado igual a 1/6.
Mas digamos por exemplo que queremos um modelo para estudar o volume de chuva em uma cidade durante um ano. Obviamente, esse volume
poderia ser qualquer nmero real positivo e no podemos simplesmente atribuir valores positivos de probabilidade a cada nmero real (lembramos que
somas no enumerveis de termos positivos so sempre infinitas). Mas como
podemos continuar nossa modelagem se nem ao menos podemos dizer qual
a probabilidade de chover um determinado volume esse ano, por exemplo
(/19)mm?
A soluo para tal dilema, se baseia no fato de que na verdade nunca estamos
interessados no exato resultado do nosso experimento. Gostaramos sim de
responder perguntas do tipo: qual a probabilidade de que chova entre zero e
37mm? Estamos portanto interessados em atribuir probabilidades no a valoers
exatos do experimento, mas a certos conjuntos de possveis valores. Chamamos
tais conjuntos de eventos.
Voltando ao caso do dado de seis lados, poderamos nos interessar por
exemplo pela probabilidade dos seguintes eventos: o lado sorteado foi mpar
1

CAPTULO 1. FUNDAMENTOS
(P({1, 3, 5}) = 1/2) ou o lado serteado foi dois (P({2}) = 1/6). E percebemos
rapidamente que para eventos disjuntos a probabilidade de sua unio a soma
de suas probabilidades (no caso acima, P({1, 2, 3, 5}) = 1/2 + 1/6 = 2/3). Esse
carter aditivo da probabilidade certamente nos remete aos conceitos bsicos de
Teoria da Medida. Vamos agora formalizar a discusso acima com mais calma,
sob a tica dessa teoria.

1.1

Espaos mensurveis

Denotaremos sempre por o nosso espao amostral ( princpio qualquer conjunto). Um ponto nesse espao corresponde por exemplo a um possvel resultado do nosso experimento aleatrio.
Exemplo 1.1.1. Possveis exemplos de espao amostral
a) 1 = {1, 2, . . . , 6},
b) 2 = R+ ,
c) 3 = { f : [0, 1] R; f contnua}.
Os exemplos acima poderiam ser usados em modelar por exemplo: o resultado de um dado, o volume anual de chuva em uma cidade e o comportamento
ao longo do dia do preo de uma ao na bolsa de valores.
Consideraremos sempre s equipados com uma -lgebra denotada por F .
Mais precisamente
Definio 1.1.1. Dizemos que F P () uma -lgebra se
a) F ,
b) A F implica que Ac F e
c) se A1 , A2 , F , ento i Ai F .
Nesse caso, dizemos que (, F ) um espao mensurvel e os elementos
A F so chamados de eventos.
Se G P () (que chamamos de uma classe ou famlia), denotamos por
(G) a -lgebra gerada por G , que a menor -lgebra contendo G . Um exemplo
importante dado pela -lgebra de Borel , gerada pelos abertos de uma topologia
em .
Exemplo 1.1.2. Tpicos exemplos de -lgebra correspondentes aos espaos amostrais
do Exemplo 1.1.1
a) F1 = P (1 ),
b) F2 = B([0, 1]) e
c) F3 = B(C [0, 1]).
2

1.2. ESPAOS DE PROBABILIDADE


Exemplo 1.1.3. Alguns eventos de F1 , F2 e F3 acima
a) { x mpar}, {1} 1
b) [0, 1/2], {0}, (Q [0, 1]) 2 e
c) { f : [0, 1] R; f (1) > 0} 3 .
Exerccio 1.1.4. Mostre que { f : [0, 1] R; f (t) 0 para todo t [0, 1]} 3
um evento (ou seja, pertence a F3 ).
Notao 1.1.2. Se Q for uma condio qualquer sobre candidatos , escreveremos
[ satisfaz Q] para denotar { ; satisfaz Q}.
Por exemplo, { f : [0, 1] R; f (1) > 0} pode ser escrita simplesmente como
[ f (1) > 0].

1.2

Espaos de probabilidade

Agora estamos prontos para introduzir o conceito moderno do que uma


probabilidade.
Definio 1.2.1. Dado (, F ) espao mensurvel, dizemos que P : F [0, 1] uma
probabilidade se
a) P() = 1 e
b) sempre que A1 , A2 , F forem disjuntos (Ai A j = se i 6= j), temos
P

i Ai

= P ( A i ).

(1.1)

Obviamente, isso nada mais que uma medida que associa massa um ao
espao todo.
Exemplo 1.2.1. Probabilidades nos espaos do Exemplo 1.1.1
a) P1 ( A) = (#A)/6 em (1 , F1 ). Ou mais geralmente P10 ( A) = i A pi , onde
pi 0 e i pi = 1.
b) P2 pode ser a medida deRLebesgue em ([0, 1], B([0, 1])). Mais geralmente tambm
0
podemos
R ter P2 ( A) = A ( x ) dx, onde : [0, 1] R+ , chamada densidade,
tal que [0,1] ( x ) dx = 1.
c) P3 = 0 , que atribui o valor um se o evento contm a funo identicamente nula
( f 0) e zero caso contrrio.
Obviamente o terceiro exemplo bastante artificial (e intil). Mas futuramente, estaremos protos para introduzir medidas bem interessantes no espao
( 3 , F3 ).
3

CAPTULO 1. FUNDAMENTOS
Proposio 1.2.2. Valem as afirmativas
a) Se A B ento P( A) = P( B) P( B \ A) P( B),
b) A cota da unio:
P


Ai

P ( Ai )

(1.2)

c) e o que chamamos de princpio da incluso e excluso


n

i n


Ai =

(1)k1

k =1

1i1 <<ik n

P ( A i1 A i k ).

(1.3)

Demonstrao. a) Como A ( B \ A) = , ento


P( A ( B \ A)) = P( A ( B \ A) . . . )

= P ( A ) + P ( B \ A ) + 0 + = P ( A ) + P ( B \ A ).

(1.4)

b) P( A B) = P( A ( B \ A)) = P( A) + P( B \ A) P( A) + P( B). Deixamos o caso enumervel como exerccio abaixo.


c) Basta mostrar a validade da equao abaixo e depois integrar com respeito
a P.
n

(1)k1

1 A ( ) =

k =1

1 Ai ( ).

(1.5)

I {1,...,n} i I
| I |=k

Para tanto, observe que para todo ,

(1 A 1 A1 ) (1 A 1 An )( ) = 0.

(1.6)

Logo, expandindo o produto acima obtemos


n

1A +

(1)k 1 Ak ( ) = 0,

(1.7)

k =1 I {1,...,n}
| I |=k

que equivale a (1.5).


Exerccio 1.2.2. Mostre que P


Ai i P( Ai ) no caso enumervel.

Exerccio 1.2.3. Mostre que


P
P

Sn


i =1 A i

Sn

i =1


Ai

(1)k1

P( Ai1 Aik ) se m mpar e

P( Ai1 Aik ) se m par.

k =1
m

1i1 <<ik n

k =1

1i1 <<ik n

(1)k1

1.3. SISTEMAS -
Exerccio 1.2.4. Seja n 1 um nmero inteiro e considere = {0, 1}n , o hipercubo
de dimenso n (cada pode ser visto como uma funo : {1, . . . , n} {0, 1}).
Para cada i {1, . . . , n}, definimos o evento Ai = { ; (i ) = 1}. Dadas
duas probabilidades P e P0 em (, P ()), mostre que se P( B) = P0 ( B) para todos
conjuntos B dados por intersees de Ai s, ento P = P0 .
Proposio 1.2.3. Toda probabilidade P contnua, isto :
a) Se A1 A2 F , ento limn P( An ) = P(

A n ).

b) Tambm, se A1 A2 F , temos limn P( An ) = P(

A n ).

Demonstrao. a) Observe que

S
m =1


S

An =

n =1

An \

nS
1
i =1

Ai



(1.8)

que so disjuntos. Logo


P


n =1 A n =

n =1


S n 1  
P An \
i =1 A i

= lim P(

(1.9)

Sn

i =1 Ai ) = lim P ( An ).

b) A prova anloga de 1.
Lema 1.2.4 (Borel-Cantelli - primeira parte). Sejam A1 , A2 , F satisfazendo
i=1 P( Ai ) < . Ento

T
S
P[ Ai para infinitos i ] := P
(1.10)
n=1 ( i n Ai ) = 0.
Demonstrao. Estimamos
P

T
S
n =1

i n Ai



= lim P
n

i n Ai

lim P( Ai ) = 0.
n i n

(1.11)

O que termina a prova do lemma.


Imagine que jogamos todos os dias em uma loteria e que nossa probabilidade
de ganhar no dia i pi . Ento se i pi < , sabemos que certamente no
ganharemos infinitas vezes.

1.3

Sistemas -

Uma importante ferramenta para provar fatos tericos sobre probabilidades


o Teorema de Dynkin que apresentaremos nessa seo. Ele trata de classes de
eventos que no so necessariamente -lgebras, mas sistemas ou como
definidos abaixo.
5

CAPTULO 1. FUNDAMENTOS
Definio 1.3.1. Dizemos que uma classe A P () um -sistema se for fechado
por intersees finitas, isto : para todos A, B A temos A B A.
Definio 1.3.2. Dizemos que A P () um -sistema, se
a) A,
b) Sempre que A A temos Ac A e
c) para A1 , A2 , A disjuntos dois a dois, temos i Ai A.
Exerccio 1.3.1. D um exemplo de -sistema que no seja uma -lbebra.
Definimos para A P ( W ), o menor -sistema contendo A, ou seja
\

(A) =

B.

(1.12)

B -sistema
AB

fcil ver que (A) sempre um -sistema.


Teorema 1.3.3 (Dynkin). Se A um -sistema, ento (A) = (A).
Note pelo Exerccio 1.3.1 que a hiptese de que A um -sistema necessria
em geral.
Demonstrao. Obviamente, basta mostrar que (A) fechado por unies no
necessariamente disjuntas. Na verdade, vamos ver que suficiente provar que
(A) um -sistema.

(1.13)

De fato, caso isso seja provado teremos que (A) fechado por diferenas
(pois A \ B = A Bc ). Assim, podemos mostrar que (A) fechado por
unies enumerveis, pois se A1 , A2 , (A), definimos Bn = in=1 Ai =
(in=1 Aic )c (A) e escrevemos
S
n

An =

S
n


An \ Bn1 ,

(1.14)

que uma unio disjunta de termos em (A), logo est em (A). Isso mostra
que (A) uma -lgebra e que de fato suficiente demonstrar (1.13).
Vamos primeiramente mostrar
que (A) fechado por intersees com


A. Para tanto, definimos B = B (A); B A (A) para todo A A) e
veremos que
B = (A).
(1.15)
Obviamente, A B , pois A um -sistema. Ento basta mostrar que B um
-sistema.
a) obviamente pertence a B .
6

1.3. SISTEMAS -
b) Se B B e A A, ento Bc A = A \ ( B A) = ( Ac ( B A))c . Mas
como B B , ( B A) (A) e usando o fato que -sistemas so fechados
por complementos e unies disjuntas, Bc A (A). Como isso vale
para todo A A, temos Bc B por definio.
c) Se B1 , B2 , B so disjuntos e A A, ento


S
S
Bi A (A),
i Bi A =

(1.16)

pois a unio acima disjunta. Logo

Bi B .

Isso mostra que B um -sistema com A B (A), mostrando (1.15).


No prximo passo, definimos B = { A ( A); B A ( A), B ( A)}
e mostraremos que
B = (A),
(1.17)
que vai na direo de provar (1.13).
Primeiramente, observe que A B pois B = (A) (veja a definio de B ).
Mostraremos agora que
B um -sistema.
(1.18)
Para tanto, verificaremos
a) B , que claro.
c
b) Tomando A B e B (A), Ac B = B \ ( A B) = Bc ( A B)
(A), por um argumento anlogo ao apresentado para B . Logo Ac B .
c) Tambm o caso de unies disjuntas bastante anlogo ao feito para B .
Isso mostra que B um -sistema com A B (A), estabelecendo (1.18).
Finalmente mostraremos que

B um -sistema.

(1.19)

De fato, sejam A1 , A2 B e B ( A). Ento ( A1 A2 ) B = ( A1 B) A2


(A), donde A1 A2 pertence a B . Logo temos por (1.19) e (1.18) que (A)
um -sistema, ou seja (1.13), terminando a prova do teorema.

1.3.1

Igualdade de probabilidades

Proposio 1.3.4. Se P1 e P2 so probabilidades em (, F ), tais que P1 ( A) = P2 ( A)


para todo A A e A um -sistema, ento P1 ( B) = P2 ( B) para todo B (A).
Demonstrao. Seja B = { A F ; P1 ( A) = P2 ( A)}. fcil ver que B um
-sistema. Logo B contm (A) que igual a (A) por Dynkin.
Corolrio 1.3.5. Se P1 e P2 so probabilidades em (1 2 , F1 F2 ), tais que
P1 ( A1 A2 ) = P2 ( A1 A2 ), para todos A1 F1 , A2 F2 ,
ento P1 = P2 .
7

(1.20)

CAPTULO 1. FUNDAMENTOS
Demonstrao. Obviamente as caixas do tipo A1 A2 formam um -sistema
que gera F1 F2 (por definio).
Exemplo 1.3.2. Observe portanto que importante que A seja um -sistema na
Proposio 1.3.4. Imagine por exemplo que = {0, 1}2 e P1 = 14 x x e P2 =
1
2 ( (0,0) + (1,1) ). Nesse caso
P1 ( A) = P2 ( A) = 1/2 = P1 ( B) = P2 ( B),

(1.21)

com A = {(0, 0), (0, 1)} e B = {(0, 0), (1, 0)}. Contudo, P1 6= P2 , mesmo tendo
P () = ({ A, B}).

1.4

Elementos aleatrios

Muitas vezes no estamos interessados no resultado exato do nosso experimento


aleatrio, mas sim em uma determinada medio ou funo de . Por
exemplo, no caso do Exemplo 1.1.1 c), talvez no nos interesse toda a funo f ,
mas apenas o seu valor no fim do dia f (1). Essas medies so ditas elementos
aleatrios que definimos seguir.
Seja ( E, A) um espao mensurvel. Nesse caso, se X : E uma funo
(F , A)-mensurvel, dizemos que X um elemento aleatrio em (, F ) tomando
valores em E, ou um E-elemento aleatrio.
Exemplo 1.4.1. Consideramos os casos
a) X : R mensurvel dita varivel aleatria.
b) X : Rd mensurvel dito vetor aleatrio (d-dimensional).
c) X : C [0, 1] mensurvel dita funo aleatria.
Seguindo a motivao do Exemplo 1.1.1 c), poderia ser que, por exemplo,
estivssemos interessados apenas na varivel aleatria X : 3 R dada por
X ( f ) = f (1).
Exerccio 1.4.2. Mostre que X : 3 R dada por X ( f ) = f (1) uma varivel
aleatria.
Citando Kingman em seu livro Poisson Processes: a random elephant is a
function from into a suitable space of elephants.
Relembrando a nossa notao: P[ X A] = P({ ; X ( ) A}).
Proposio 1.4.1. Seja X : E onde ( E, A) um espao mensurvel com
A = (G). Ento para verificar que X um elemento aleatrio, basta provar que
X 1 ( G ) F para todo G G .
Demonstrao. Teoria da Medida.
Exemplo 1.4.3. Se e E so espaos topolgicos dotados das correspondentes lgebras de Borel, ento toda funo contnua um E-elemento aleatrio.
8

1.4. ELEMENTOS ALEATRIOS

1.4.1

Distribuio de elementos aleatrios

Definio 1.4.2. Se X : E um elemento aleatrio e dotado de uma


probabilidade P, ento denotamos por X P, a chamada distribuio de X , a medida
de probabilidade

( X P)( A) := P { ; X ( ) A} = P[ X A].
(1.22)
no espao mensurvel ( E, A).
Fica como exerccio verificar que X P de fato uma probabilidade em E.
Exerccio 1.4.4. Seja X : [0, 1] {0, 1} dada por X ( ) = 1 A ( ). Nesse caso,
mostre que X P = Ber( p) para algum p [0, 1]. Calcule o valor de p.
Duas notaes importantes nesse contexto so:
a) Dizemos que X d Y, quando X P = Y P0 . Note que X e Y nem
ao menos precisam pertencer ao mesmo espao de probabilidade para
dizermos que so igualmente distribudos, mas precisam ser elementos
aleatrios de mesmo tipo (ou seja, possuir o mesmo contradomnio).
b) Escrevemos X d , que l-se X distribuda como , onde uma probabilidade em E, caso X P = .
Exerccio 1.4.5. Sejam X e Y variveis aleatrias tais que X nula quase certamente.
Mostre que X + Y tem a mesma distribuio de Y.
O exerccio acima bastante simples, mas o usaremos para fazer uma importante observao sobre como so enunciados tipicamente os resultados de
probabilidade.
Raramente encontramos teoremas que explicitam qual o espao de probabilidades em questo. Como no exerccio acima, o contexto de um teorema
frequentemente dado apenas em termos de elementos aleatrios em e
de suas distribuies. Dessa forma, podemos utilizar o resultado em vrios
contextos diferentes, desde que possamos encontrar elementos aleatrios que
satisfaam as hipteses. Com o tempo, passamos at mesmo a considerar menos
relevante a escolha especfica do espao amostral, focando cada vez mais na
distribuio de seus elementos aleatrios.

CAPTULO 1. FUNDAMENTOS

10

Captulo 2

Construo de espaos de probabilidade

Nessa seo descreveremos diversas maneiras diferentes de construir um espao


de probabilidade, dando diversos exemplos de como elas podem ser usadas na
modelagem de diferentes processos reais.

2.1

Caso enumervel

Quando finito ou enumervel, tipicamente definimos sobre a -lgebra


das partes, ou seja F = P () = ({ } ). Alm disso podemos definir
probabilidades sobre (, F ) de maneira simples tomando ( p ) tais que
a) p 0 para todo e
b) p = 1.
De fato, nesse caso definimos P( A) = A p que claramente define uma
probabilidade.
Exerccio 2.1.1. Mostre que se finito ou enumervel, toda probabilidade sobre
(, P ()) dada como na descrio acima.
Exemplo 2.1.2.
a) Dado p [0, 1], definimos a medida Ber( p) (em homenagem a Bernoulli) em
{0, 1} com p1 = p, p0 = 1 p.
b) Dados n 1 e p [0, 1], definimos a medida Bin(n, p) (binomial) em =
{0, 1, . . . , n} com
 
n i
pi =
p (1 p)ni , para i .
(2.1)
i
11

CAPTULO 2. CONSTRUO DE ESPAOS DE PROBABILIDADE


c) Dado p (0, 1], em = {0, 1, . . . } definimos a medida Geo( p) (geomtrica)
em induzida pelos pesos
pi = (1 p)i p, para i 1.

(2.2)

Exerccio 2.1.3. Seja = {0, 1}n e p = 21n para todo (ou seja a probabilidade uniforme). Considere X : {0, 1, . . . , n} dada por X (1 , . . . , n ) =
in=1 i . Obtenha a distribuio X P. D um exemplo de medida em para a qual a
distribuio de X seja Bin(n, p).

12

TPICO: MTODO PROBABILSTICO

Tpico: Mtodo Probabilstico


Uma importante ferramenta em vrias reas da matemtica, tais como Teoria
dos Nmeros, Combinatria e Teoria da Computao o que chamamos de
Mtodo Probabilstico.
Em vrias situaes, ns precisamos de mostrar a existncia de objetos satisfazendo determinadas propriedades, mas no temos informao suficiente ou
capacidade para constru-los explicitamente. Nesse caso, podemos recorrer ao
Mtodo Probabilstico, que simplesmente nos sugere tomar um objeto aleatrio
de uma maneira esperta e mostrar que com probabilidade positiva as propriedades desejadas sero satisfeitas. Esse mtodo, apesar de muito ingnuo,
muito eficiente e em diversos casos prov os melhores exemplos conhecidos de
certos objetos (para embarao da comunidade cientfica).
Nessa seo daremos um exemplo em Teoria dos Nmeros provido primeiramente por Erds1 .
Teorema 2.1.1 (Erds). Para todo conjunto finito A N, existe um sub-conjunto
B A satisfazendo
a) #B

#A
3

e tal que

b) no existem x, y e z B com x + y = z.
A propriedade b) acima o que chamamos de um conjunto ser livre de somas.
Certamente no temos muita informao sobre A, ento vamos usar o mtodo probabilstico para a prova desse teorema.
Demonstrao. Fixamos p um nmero primo maior que trs vezes o maior elemento de A e considere o espao Z p dos inteiros mdulo p. Seja X um elemento
aleatrio de Z p com distribuio uniforma, isto U{0,...,p1} .
Exerccio 2.1.4. Mostre que para todo a A, a multiplicao por a uma bijeo em
Z p , ou seja
Zp a = Zp.
(2.3)
onde o produto Z p a entendido elemento a elemento. Conclua que
h
 p 2p i
1
P X a 3, 3
.
3

(2.4)

p 2p

Definimos o conjunto aleatrio B = ( X A) [ 3 , 3 ), que obviamente livre


de somas. Basta portanto mostrar que com probabilidade positiva #B #A
3 ,
que segue do seguinte argumento.
Z
Z
h
 p 2p i
#A


#B dP =
1
dP
=
P
X

,
Xa[ p/3,2p/3)

3, 3
3
a A
a A
R
mas para qualquer varivel aleatria, X dP x implica que P[ X x ] > 0.
1 Somos gratos a Robert Morris por sugerir esse teorema como exemplo do Mtodo Probabilstico.

13

CAPTULO 2. CONSTRUO DE ESPAOS DE PROBABILIDADE

2.2

Caso absolutamente contnuo

Uma outra maneira simples de definir um espao de probabilidade, partindo


de um espao de medida. Seja (,
R F , ) um espao de medida e :
R+ uma funo mensurvel com ( x )(dx ) = 1. Ento podemos definir a
probabilidade induzida
P( A) =

Z
A

( x )(dx ).

(2.5)

Nesse caso, chamamos de a densidade de P com respeito a . Uma outra


possvel notao para a equao acima dP = ( x ) d (lembrando a derivada
de Radon-Nikodim).
Observe que o caso discreto pode ser definido em termos de uma densidade,
onde ( ) = p e a medida da contagem em .
Exemplo 2.2.1. Vrios exemplos podem ser obtidos via (2.5) se tomamos R e a
medida de Lebesgue restrita a . Nesses casos, escrevemos P = ( x ) dx em . Alguns
exemplos importantes so:
a) Para a < b R, definimos a medida U [ a, b] usando ( x ) =

1
b a 1[ a,b] ( x ).

b) Para > 0, definimos a medida Exp() (chamada exponencial de parmetro )


por meio da densidade ( x ) = exp{x } em [0, ).
Podemos tambm usar a distribuio de um elemento aleatrio para construir outras probabilidades, como mostra o seguinte exemplo.
Exemplo 2.2.2. Considere por exemplo X : [0, 2 ] C dada por X (t) = exp{it}.
A distribuio X P de X segundo U[0,2 ] o que chamamos de distribuio uniforme
em S1 , tambm denotada por US1 .
Exerccio 2.2.3. Mostre que US1 no absolutamente contnua com respeito medida
de Lebesgue em C R2 .
Exerccio 2.2.4. Mostre que US1 invariante por rotaes rgidas de C, isto , se
T : C C uma isometria linear, ento T US1 = US1 .
Exerccio 2.2.5. Construa uma probabilidade em S2 invariante por rotaes.

2.3

Funes acumuladas de distribuio

Um caso muito importante de espao amostral = R, principalmente por nos


ajudar a entender distribuies de variveis aleatrias. Para tanto, precisaremos
de uma boa ferramenta para descrever probabilidades em R.

Definio 2.3.1. Dada P em R, definimos FP : R [0, 1] por FP ( x ) = P (, x ] .
Essa funo chamada a funo de distribuio acumulada de P.
14

2.3. FUNES ACUMULADAS DE DISTRIBUIO


Notao 2.3.2. Se X : R uma varivel aleatria num espao (, F , P),
denotamos por FX a funo de distribuio acumulada correspondente distribuio
X P.
Lembramos que uma probabilidade em R uma funo P : B(R) [0, 1]
e o domnio dessa funo bastante complicado. Por exemplo se quisermos
representar uma distribuio de uma varivel aleatria no computador atravz
dessa funo P, teramos problemas. Contudo, a funo FP (ou FX ) muito mais
simples de ser compreendida ou representada, por seu domnio ser R.
Exemplo 2.3.1. No difcil verificar que
(
Fx =
0

se x < x0 ,
se x x0

(2.6)

se x 0,
se x [0, 1] e
se x 1.

(2.7)

0
1

e que
FU[0,1]

0
= x

Exerccio 2.3.2. Calcule FExp() .


Proposio 2.3.3. FP (e obviamente FX ) satisfazem:
a)

lim F ( x ) = 0, lim F ( x ) = 1,

b) F montona no-decrescente e
c) F contnua direita e possui limite esquerda (cdlg, do francs).
Demonstrao.
a) Se xn monotonamente, ento An = (, xn ] so
encaixados e de interseo vazia. Logo, pela Proposio 1.2.3, temos
P( An ) 0. O outro caso anlogo.
b) Se x x 0 ento (, x ] (, x 0 ], donde F ( x ) F ( x 0 ).
c) Continuidade direita (cd) - Se xn x monotonamente, ento An =
(, xn ] (, x ] (eles so encaixados). Logo F ( xn ) F ( x ).
Limite esquerda (lg) - Segue do fato de F ser montona e limitada.
Teorema 2.3.4. Se F satisfaz as trs propriedades listadas na Proposio 2.3.3, ento
existe uma nica P em (R, B(R)) tal que F = FP .
Poderamos usar o Teorema da Extenso de Caratheodory para provar tal
resultado, de maneira similar ao que foi feito no caso da Medida de Lebesgue.
Mas escolhemos abaixo um mtodo mais simples, que parte da existncia de
U[0,1] .
15

CAPTULO 2. CONSTRUO DE ESPAOS DE PROBABILIDADE

u
S(u)

u
S(u)
Figura 2.1: Ilustrao da definio de S(u).

Demonstrao. A unicidade de tal P segue da Proposio 1.3.4 (consequcia do


0
Teorema de
pois
 Dynkin),
 se P e P so tais que FP = FP0 , ento temos que
0
P (, x ] = P (, x ] . Mas a classe de intervalos semi-infinitos da forma
(, x ] forma um -sistema que gera a -lgebra dos borelianos, logo P = P0 .
Para construir uma P tal que FP = F, definiremos S : (0, 1) R, a inversa
generalizada de F, por
S(u) = sup{ x R; F ( x ) < u}.

(2.8)

Seja P = S U[0,1] , isto P( A) = U[0,1] (S1 ( A)) e mostraremos que FP = F.


Para tanto, basta ver que

{u [0, 1]; S(u) x } = {u [0, 1]; u F ( x )}, para todo x R.

(2.9)

Pois isso implicaria que FP ( x ) = U[0,1] [S x ] = U[0,1] [u F ( x )] = F ( x ).


Vamos agora checar (2.9) observando que:
a) Se u F ( x ) ento todo x 0 tal que F ( x 0 ) < u menor que x. Logo S(u) x.
b) Por outro lado, se u > F ( x ) ento existe x 0 > x tal que F ( x 0 ) < u (pois F
cd), donde S(u) > x.
Isos prova (2.9), terminando a prova da proposio.
Exerccio 2.3.3. Mostre o resultado acima usando o Teorema de Extenso de Caratheodory.

2.4

Espaos produto finito

Dados espaos 1 , . . . , n com suas respectivas -lgebras F1 , . . . , Fn , podemos


definir o espao mensurvel produto (, F ) da seguinte forma


n
= i=1 i e F = A1 An ; Ai Fi , para i n .
(2.10)
16

2.5. INDEPENDNCIA
Proposio 2.4.1. Se (1 , F1 , P1 ), . . . , (n , Fn , Pn ) so espaos de probabilidade,
ento existe uma nica probabilidade P no espao mensurvel (, F ) tal que
n

P ( A1 , A n ) =

Pi ( Ai ), para todos Ai Fi , i n.

(2.11)

i =1

Essa probabilidade chamada probabilidade produto.


Demonstrao. Teoria da Medida.
Note que a unicidade do produto pode ser concluda por exemplo usando o
Corolrio 1.3.5.
Exerccio 2.4.1. Mostre que o produto de n cpias de ({0, 1}, P ({0, 1}), Ber(1/2))
a distribuio uniforme em {0, 1}n .

2.5

Independncia

Nossa intuio nos diz que quando jogamos duas moedas, o resultado de cada
uma delas no deve depender um do outro. Dessa forma, a probabilidade de
obtermos um determinado resultado (como por exemplo duas caras) deve ser
um quarto, ou seja meio vezes meio.
Em geral, definimos dois eventos como independentes da seguinte forma.
Definio 2.5.1. Dizemos que dois eventos A, B F , so independentes se
P ( A B ) = P ( A ) P ( B ).

(2.12)

Exemplo 2.5.1. Se = {1, . . . , 6} dotada da -lgebra das partes e e P( A) =


#A/6, ento os eventos A = [ impar] e B = [ 5] satisfazem
P( A B) = P({5}) = 1/6 = (1/2)(1/3) = P( A) P( B).

(2.13)

Logo tais eventos so independentes.


Exerccio 2.5.2. Seja = {0, 1}n com P( A) = #A/2n e Xi (1 , . . . , n ) = i para
i = 1, . . . , n. Mostre que
P[ Xi = a, X j = b] = P[ Xi = A] P[ X j = B],

(2.14)

onde [ A, B] denota a interseo [ A] [ B].

2.5.1

Colees de eventos

Definio 2.5.2. Sejam A1 , A2 , . . . , Ak eventos. Dizemos que eles formam uma coleo
independente se para todo I {1, . . . , k} no vazio

T
P i I A i = P ( A i ).
(2.15)
i I

17

CAPTULO 2. CONSTRUO DE ESPAOS DE PROBABILIDADE


Vale observar que independncia dois a dois no implica independncia.
Mais precisamente
Exemplo 2.5.3. Seja = {1, 2, 3, 4} com P( A) = #A/4 e sejam os seguintes
eventos: A1 = {1, 2}, A2 = {2, 3} e A3 = {1, 3}. Nesse caso,
a) P( Ai ) = 1/2 para i = 1, 2, 3,
b) P( Ai A j ) = 1/4 para todo i 6= j mas
c) P( A1 A2 A3 ) = 0 6= 1/8 = P( A1 ) P( A2 ) P( A3 ).
Definio 2.5.3. Dizemos que uma coleo infinita de eventos A1 , A2 , . . . independente se toda sub-coleo finita de tais eventos forem independentes.
Lema 2.5.4. Se A1 , A2 , . . . forem independentes, ento
T 
P
A i = P ( A i ).
i

(2.16)

Demonstrao. De fato,
P

T
i


 T

n
n
Ai = lim P
Ai = lim P( Ai ) =
n

i =1

i =1

P ( A i ).
i

Exerccio 2.5.4. Mostre que se A F , ento { B F ; B independente de A} um


-sistema.
Exerccio 2.5.5. Mostre que se B independente de A para todo B B , com B um
-sistema, ento B independente de A para todo B (B).

2.5.2

Independncia de -lgebras

Definio 2.5.5. Dadas -algebras F1 , . . . , Fk F . Dizemos que elas so independentes se todos A1 F1 , . . . , Ak Fk o so. Nessa definio podemos tomar uma
coleo infinita.
Exerccio 2.5.6. Em um espao produto (1 2 , F1 F2 , P1 P2 ), podemos definir

F 1 = { A 2 ; A F1 },
F 2 = {2 B; B F2 }.

(2.17)

Mostre que essas -lgebras so independentes.


Podemos extender esse conceito a elementos aleatrios, ou seja:
Definio 2.5.6. Dizemos que X1 , . . . , Xk so elementos aleatrios independentes se
as respectivas -lgebras ( X1 ), . . . , ( Xk ) o forem.
18

2.5. INDEPENDNCIA
Quando X1 , . . . , Xk so elementos aleatrios independentes e com a mesma
distribuio, escrevemos que Xi so i.i.d. (independentes e identicamente distribudos).
Exerccio 2.5.7. Com a notao do exerccio anterior, mostre que as funes Xi :
1 2 i dadas por
X1 ( x, y) = x e X2 ( x, y) = y,

(2.18)

so elementos aleatrios e so independentes.


Exerccio 2.5.8. Mostre que as coordenadas cannicas do exerccio anterior no caso
Xi : R2 R no so independentes segundo a medida US1 . Mas o so segundo U[0,1]2
(que a medida de Lebesgue em R2 restrita a [0, 1]2 ).
Exerccio 2.5.9. Seja = {0, 1}n com P( A) = #A/2n e Xi (1 , . . . , n ) = i para
i = 1, . . . , n. Mostre que os Xi so independentes.
Exerccio 2.5.10. Sejam ( Xi )i1 elementos aleatrios independentes tomando valores
em espaos ( Ei )i1 , respectivamente. Mostre que para funes mensurveis ( f i )i1
temos que ( f i ( Xi ))i1 so independentes.
Exerccio 2.5.11. Mostre que se X, Y so elementos aleatrios e se X constante quase
certamente ento X e Y so independentes.
Exerccio 2.5.12. Sejam X e Y variveis aleatrias independentes com distribuio
Exp(1), calcule a distribuio de
a) min{ X, Y } e
b) X + Y.
Exerccio 2.5.13. Seja um espao produto de medidas (1 2 , F1 F2 , 1 2 )
e defina a probabilidade P atravz de
dP = ( x, y) d(1 2 ).

(2.19)

Mostre nesse caso que as coordenadas cannicas X1 e X2 so independentes se e somente


se existem 1 e 2 em 1 e 2 respectivamente, tais que ( x, y) = 1 ( x )2 (y) quase
certamente com respeito a 1 2 .
Exerccio 2.5.14. Sejam X, Y variveis aleatrias tais que
(
P[ X x, Y y] =

if x < 0,

0


(1 e x ) 12

tan1 y

if x 0.

(2.20)

a) Mostre que a distribuio conjunta (X,Y ) absolutamente contnua com relao


medida de Lebesgue em R2 .
b) Mostre que X e Y so independentes.
19

CAPTULO 2. CONSTRUO DE ESPAOS DE PROBABILIDADE


Exerccio 2.5.15. Mostre que se X, Y so variveis aleatrias independentes com distribuies X d f X ( x ) dx e Y d f Y (y) dy, ento X + Y tem distribuio absolutamente
contnua com respeito a Lebesgue e
f X +Y ( z ) =

f Y (z x ) f X ( x ) dx.

(2.21)

Lema 2.5.7 (Borel-Cantelli - segunda parte). Se A1 , A2 , F so independentes


e pi = P( Ai ) satisfazem i pi = , ento
P[ Ai infinitas vezes] = 1.

(2.22)

Demonstrao. Queremos mostrar que


P
mas
P

 T S

n i =n

Ai

 T S

c 

n i =n

=P

Ai

c 

S T

n i=n

= 0,


Aic

(2.23)

 T

i=n


Aic .

(2.24)

Logo basta mostrar que a probabilidade direita zero para todo n. Mas
P

 T

i =n


Aic =

i =n

i =n

P( Aic ) = (1 pi )

exp{ pi } = exp

i =n

Terminando a prova do lemma.

20

pi

i =n

(2.25)

= 0.

TPICO: LEI DOS PEQUENOS NMEROS

Tpico: Lei dos pequenos nmeros


Nessa seo estudaremos como se comportam limites de algumas variveis
aleatrias bastante importantes, mas primeiramente, uma breve intuio.
Apesar de que descreveremos a nossa motivao a partir desse exemplo do
estudo de um material radioativo, podemos encontrar aplicaes com justificativas bastante semelhantes para outros problemas, como: chegada de carros em
um sinal de trnsito, nmero de mutaes em um gene, nmero de mortes por
ano em uma faixa etria...
Digamos que estamos observando um material radioativo que esporadicamente emite ftons que podemos detectar atravz de um aparelho. A razo
dessas emisses pode ser aproximada pelo seguinte modelo. Na amostra temos
um nmero n grande de tomos instveis (n 1023 ) e em um determinado
tempo de observao, cada um deles tem probabilidade muito baixa de decair emitindo um fton (digamos p 1023 ). Nesse caso, supondo que todos
decidam emitir de maneira independente, temos para p [0, 1],
n = {0, 1}n ,

Fn = P () e Pp = in=1 Ber ( p).

(2.26)

Dessa forma, o nmero total de emisses observadas para = (1 , . . . , n )

Xn ( ) =

i .

(2.27)

i =1

E gostaramos de entender como se comporta essa distribuio, que nada mais


que Bin(n, p).
Uma primeira tentativa seria modelar esse processo dizendo que o nmero
de tomos n to grande, que somente estamos interessados no comportamento
assimttico quando n vai para infinito. Mas para manter o nmero de emisses
sob controle, tambm gostaramos que p = pn , que converge a zero. Poderamos
por exemplo escolher

(2.28)
pn = .
n
Mas a discusso que se segue muito mais geral que essa escolha especfica.
Como estaremos interessados em um regime assimttico da distribuio de
X p (lembre que apesar do espao amostral de Xn variar com n, sua distribuio
sempre uma probabilidade em N). Mas para falar de regimes assimtticos,
precisamos de definir uma noo de distncia entre duas distribuies em N.
Definio 2.5.8. Dadas duas distribuies 1 e 2 em (, A), definimos

k1 2 kVT = sup |1 ( A) 2 ( A)|,

(2.29)

AA

chamada de distncia em variao total entre 1 e 2 .


No nosso caso, enumervel. Vamos ver que nesse caso possvel
reescrever a definio acima de modo a ver mais facilmente que se trata de uma
distncia no espao de probabilidades em .
21

CAPTULO 2. CONSTRUO DE ESPAOS DE PROBABILIDADE


Lema 2.5.9. Se = { x1 , x2 , . . . }, ento podemos escrever

k1 2 kVT =

1
|1 ( xi ) 2 ( xi )|.
2
i

(2.30)

Demonstrao. Para mostrar que o lado esquerdo maior ou igual ao direito,


escolhemos A = { x ; 2 ( x ) 1 ( x )}. Assim

1 ( x ) 2 ( x ) = |1 ( A) 2 ( A)|

x A

= |1 ( Ac ) 2 ( Ac )| =

c 2 ( x ) 1 ( x ),

(2.31)

x A

donde

k1 2 kVT |1 ( A) 2 ( A)| =

1
|1 ( xi ) 2 ( xi )|.
2
i

(2.32)

Na outra direo, observe que para todo B ,

|1 (xi ) 2 (xi )| 1 (x) 2 (x) + c 1 (x) 2 (x)


xB

xB

= 1 ( B) 2 ( B) + (1 2 ( B)) (1 1 ( B))
= 2(1 ( B) 2 ( B)).

(2.33)

O que termina a prova do lema.


Fica agora claro que k1 2 kVT determina uma distncia.
Exerccio 2.5.16. Mostre um lema anlogo ao anterior para (, A) qualquer, desde
que 1 e 2 sejam absolutamente contnuas com relao uma medida fixa nesse espao
mensurvel. Nesse caso utilizaremos as derivadas de RadonNikodym.
Como estaremos interessados em variveis independentes, precisamos de
um resultado que relacione a distncia em variao total com produtos de
medida. Isso parte do seguinte
Lema 2.5.10. Sejam 1 , 2 distribuies em e 1 , 2 distribuies em y ambos
enumerveis. Ento

k1 1 2 2 kVT k1 2 kVT + k1 2 kVT .

(2.34)

Demonstrao. Basta expandir

k1 1 2 2 kVT =

x ,yy

x ,yy

|1 ( x )1 (y) 2 ( x )2 (y)|

|1 ( x )1 (y) 1 ( x )2 (y)| + |1 ( x )2 (y) 2 ( x )2 (y)| (2.35)

2k1 2 kVT + 2k1 2 kVT .


Onde acima ns usamos que 1 e 2 so probabilidades. Isso termina a prova
do lema.
22

TPICO: LEI DOS PEQUENOS NMEROS


Finalmente, gostaramos de entender como a distncia de variao total se
comporta com respeito soma de variveis independentes. Isso estar ligado
convoluo de distribuies:
Definio 2.5.11. Dadas, e distribuies em Z, definimos a distribuio

( ? )( x ) :=

( x y ) ( y ).

(2.36)

y Z

Essa definio se relaciona com a soma de variveis independentes graas


ao seguinte
d

Exerccio 2.5.17. Se X e Y so variveis aleatrias inteiras e independentes,


d

ento X + Y ? . Dica: particione o espao amostral nos eventos [ X = j], para


j Z, como na prova do Lema 2.5.15 abaixo.
Corolrio 2.5.12. Se e so distribuies em Z, ento ? = ? .
Como prometido, obtemos a seguinte relao entre a convoluo e a distncia
de variao total.
Lema 2.5.13. Sejam 1 , 2 , 1 , 2 distribuies em Z. Ento,

k1 ? 1 2 ? 2 kVT k1 1 2 2 kVT

(2.37)

Demonstrao. Como de costume, basta estimar





(
x

y
)

(
y
)

(
x

y
)

(
y
)


2
1
1
2
x Z y Z

y Z



1 ( x y)1 (y) 2 ( x y)2 (y)



1 (z)2 (y) 2 (z)2 (y)

x,yZ

x,zZ

(2.38)

= 2k1 1 2 2 kVT ,
provando o lema.
Para enunciar o resultado principal dessa seo, vamos apresentar uma
distribuio em N bastane importante, que em particular se comporta muito
bem com respeito a somas de variveis independentes, como veremos.
Definio 2.5.14. Uma varivel aleatria X dita ter distribuio de Poisson com
parmetro , se
k e
, para k 0 inteiro.
(2.39)
P[ X = k] =
k!
d

Denotamos isso por X Poisson().


A distribuio de Poisson se comporta bem com respeito a somas independentes, como mostra o seguinte
23

CAPTULO 2. CONSTRUO DE ESPAOS DE PROBABILIDADE


d

Lema 2.5.15. Sejam X Poisson(1 ) e Y Poisson(2 ) independentes, ento


d

X + Y Poisson(1 + 2 ).
Demonstrao. Basta calcular
k

P[ X + Y = k] =

P[X = j, Y = k j] =

j =0

=e

(1 +2 )

1
k!

j =0

k j

1 e 1 2 e 2
j!(k j)!
j =0
k

k!
e ( 1 + 2 ) ( 1 + 2 ) k
j k j
1 2 =
,
j!(k j)!
k!

(2.40)

mostrando o resultado.
Nossa prxima tarefa estimar a distncia entre uma varivel aleatria com
distribuio Ber( p) e uma Poisson( p), como segue.
Lema 2.5.16. Para p [0, 1], seja 1 = Ber( p) e 2 = Poisson( p), ento,

k1 2 kVT p2 .

(2.41)

Demonstrao. Sabemos que


1
|1 ( x ) 2 ( x )|
2
x

1
=
|1 (0) 2 (0)| + |1 (1) 2 (1)| + 2 ( x )
2
x 2

1  p
=
e (1 p) + p(1 e p ) + (1 e p pe p )
2
2
= p (1 e p ) p2 ,
2

k1 2 kVT =

(2.42)

terminando a prova.
O teorema principal de convergncia dessa seo concerne a soma de variveis Bernoulli.
Teorema 2.5.17 (Lei dos Pequenos Nmeros). Dado, n 1 e p [0, 1], suponha
que n , Fn e Pp sejam dados como em (2.26). Ento,

kBin(n, p) Poisson( pn)kVT np2 .

(2.43)

Demonstrao. Basta observar que

k Xn Pp Poisson( pn)kVT
Lema 2.5.13

Lema 2.5.10

Lema 2.5.15

kBer( p)?n Poisson( p)?n kVT

kBer( p)n Poisson( p)n kVT


nkBer( p) Poisson( p)kVT

provando o teorema.
24

(2.44)

Lema 2.5.16

np2 ,

TPICO: LEI DOS PEQUENOS NMEROS


Corolrio 2.5.18. No mesmo contexto do teorema acima, se p = /n, ento temos

kBin(n, p) Poisson( pn)kVT 2 /n,

(2.45)

que converge a zero com n.


Exerccio 2.5.18. Fixado > 0, seja N uma varivel aleatria com distribuio
Poisson(), isto
k e
para k = 0, 1, . . .
(2.46)
P[ N = k] =
k!
Considere no mesmo espao de probabilidade uma sequncia de variveis aleatrias
X1 , X2 , . . . que sejam i.i.d. , com distribuio Ber(1/2) e independentes de N.
a) Calcule a distribuio de Z = iN=1 Xi .
b) Mostre que Z e N Z so independentes.

25

CAPTULO 2. CONSTRUO DE ESPAOS DE PROBABILIDADE

2.6

Espaos produto infinito

Nessa seo estudaremos que so dados por produtos enumerveis de outros


espaos de probabilidade. Mas antes iremos recordar o Teorema da Extenso de
Caratheodory.

2.6.1

Recordar viver...

Vamos lembrar o enunciado do Teorema da Extenso de Caratheodory . Antes,


vamos relembrar uma definio definio importante. Uma famlia G P ()
dita uma lgebra de conjuntos se valem
a) G ,
b) se A G , ento Ac G e
c) para todo n 1, se A1 , . . . , An G , ento in=1 Ai G .
Teorema 2.6.1 (Teorema da Extenso de Caratheodory). Seja G P () uma
lgebra de conjuntos em e suponha que : G R+ satisfaa a seguinte propriedade
sempre que A1 , A2 , G forem disjuntos e tais que i Ai G ,
temos (i Ai ) = i ( Ai ).

(2.47)

Nesse caso, existe uma medida : (G) R+ tal que ( A) = ( A) para todo
A G.
Mostraremos agora uma pequena simplificao do teorema acima, que
muito utilizada em probabilidade.
Lema 2.6.2 (Extenso por continuidade no vazio). Seja G P () uma lgebra
de conjuntos em e suponha que P : G R+ satisfaa as seguintes propriedades
a) P() = 1,
b) P finitamente aditiva e
c) sempre que B1 B2 G forem tais que i Bi = (denotamos isso por
Bi ), temos que limi ( Bi ) = 0.
Ento existe uma nica medida P : (G) R+ tal que P( A) = P( A) para A G .
Observe que P() = 1 somente necessrio para provar a unicidade de
P, ento poderamos tentar mostrar uma verso mais geral desse lema. Mas
no contexto de medidas infinitas, no de se esperar que Bi implique
limi ( Bi ) = 0, como foi assumido acima (veja tambm a Proposio 1.2.3).
Portanto resolvemos escrever o enunciado com probabilidades.
Exerccio 2.6.1. D um exemplo de medida que no satisfaz a segunda hiptese do
Lema 2.6.2.
26

2.6. ESPAOS PRODUTO INFINITO


Demonstrao. Primeiro observe que a unicidade segue da Proposio 1.3.4, j
que G um -sistema. Iremos agora mostrar que a propriedade (2.47) vlida
para P, logo tome A1 , A2 , G disjuntos e tais que A = i Ai G . Definimos
o resto da unio por
Bn = A \

n
S
i =1

Ai .

(2.48)

Claramente
a) Bn e
b) Bn G , pois G uma lgebra.
Logo podemos escrever A como a unio disjunta A =
P finitamente aditiva,

Sn

i =1

Ai Bn e j que

P( A) =

P( Ai ) + P( Bn ),

(2.49)

i =1

mas como limn P( Bn ) = 0, temos P(i Ai ) = i P( Ai ), mostrando a propriedade (2.47) e concluindo o teorema.

2.6.2

Teorema da Extenso de Kolmogorov

O objetivo desta seo provar um resultado que nos permitir construir probabilidades em espaos produtos infinitos. Antes precisaremos de introduzir
algumas notaes.
Dada uma coleo de espaos E1 , E2 , . . . , definimos o espao produto
=

i 1 Ei



= (1 , 2 , . . . ); i Ei para todo i 1 .

(2.50)

e os mapas Xi : Ei , definidos para i = 1, 2, . . . por


Xi ( 1 , 2 , . . . ) = i ,

(2.51)

que chamamos de coordenadas cannicas associadas ao produto .


Se cada Ei dotado de uma -lgebra Ai , ento definimos

F = ( Xi ; i 1 ) ,

(2.52)

que claramente uma a -lgebra em . Chamamos F de -lbegra cannica.


Exerccio 2.6.2. Mostre que em (RN , F ) temos que os conjuntos
a) A = {lim infn Xn existe},
b) B = {limn Xn = 4} e
c) C = {limn n1 Xn existe}
27

CAPTULO 2. CONSTRUO DE ESPAOS DE PROBABILIDADE


so todos mensurveis (eventos) com respeito a F . Alm disso Y = 1 A lim infn Xn
uma varivel aleatria em (, F ).
Exerccio 2.6.3. Verifique que,

a) F = A1 Ak Ek+1 Ek+2 . . . ; k 1, Ai Ai , i k , os
chamados eventos retangulares e

b) F = A Ek+1 Ek+2 . . . ; k 1, A Ai Ak , conhecidos como
eventos cilndricos.
Definio 2.6.3. Seja = Ei um espao produto (infinito ou finito) dotado de uma
probabilidade P. Se Xi uma coordenada cannica, ento chamamos a probabilidade
Xi P de distribuio marginal de P na coordenada i.
Teorema 2.6.4 (Extenso de Kolmogorov). Seja para cada n 1 uma medida de
probabilidade Pn em Rn tal que seja satisfeita a seguinte condio de compatibilidade
Pn+1 ( A R) = Pn ( A), para todo A B(Rn ).

(2.53)

Ento existe uma nica probabilidade P no espao produto infinito (, F ) tal que
P( A R . . . ) = Pn ( A) para todo n e todo boreliano A de Rn .
Demonstrao. Considere a classe de conjuntos

Sl =

n S
k
i =1

o
[ a1 , b1 ) [ al , bl ) Rl ; onde ai R {}, bi R {} .

Que obviamente uma lgebra em Rl e seja tambm




S = A R . . . ; onde l 1 e A Sl .

(2.54)

Claramente, S tambm uma lgebra.


Se B = A R S com A Sl como acima, definimos
P( B) = Pl ( A).

(2.55)

Note que por (2.53) essa definio independe da escolha da escolha de l que
usamos na definio de B.
Gostaramos agora de utilizar o Lemma 2.6.2. Para tanto, tome uma sequncia encaixada B1 B2 S e, supondo que P( Bn ) > 0 para todo
n 1, temos de mostrar que sua interseo no pode ser vazia.
Como Bn S , podemos escrever
Bn = An R . . . , onde An Sln e n 1.

(2.56)

Podemos obviamente supor que


ln so estritamente crescentes.
28

(2.57)

2.6. ESPAOS PRODUTO INFINITO


A fim de obter um ponto na interseo de Bn , gostaramos de aproxim-lo
usando conjuntos compactos encaixados. Para tanto definimos os conjuntos
Cn = Cn R . . . , com Cn Sln

(2.58)

de forma que Cn seja pr-compacto, C n An e


P( Bn \ Cn )

2l n +1

(2.59)

o que pode ser feito graas continuidade de Pln , que uma probabilidade.
Temos ainda um problema, pois os conjuntos Cn no so encaixados, e isso
nos impedeTde utilizar resultados sobre intersees de compactos. Introduzimos
pois Dn = in=1 Ci , que obviamente pertence lgebra S , e estimamos
P( Bn \ Dn ) = P

Sn


i =1 ( Bn \ Ci )

P( Bn \ Ci ) 2 ,

(2.60)

i =1

donde P( Dn ) = P( Bn ) P( Bn \ Dn ) /2. De forma que os Dn so encaixados


e no vazios.
Nosso prximo obstculo vem do fato de que os conjuntos Dn esto definidos
em RN , e gostaramos de ter conjuntos em espaos de dimenso finita. Isso
pode ser feito observando que podemos escrever Dn = Dn R R . . . , onde
Dn Sln e

1
T  nT
Dn = Cn
Ci Rln li ,
(2.61)
|{z}
i =1
pr-compacto

Dn

Rl n

de forma que os

so pr-compactos e no vazios.
Para cada n 1 considere um n Dn Rln . Usando um argumento de
diagonal de Cantor, podemos obter um e uma sub-sequncia de n j que
convirja para coordenada a coordenada
(observe que n j Rln j ).
T
Para concluir a prova, veremos que m Bm . Mais ainda, veremos que
para todo m 1, temos = (1 , 2 , . . . ) C m = C m R Bm .
nj

nj

(com
Mas como os pontos (1 , . . . , lm ) so o limite de (1 , . . . , lm ) Cm
n j m), ento bvio que C m , terminando a prova do teorema.

Observe que usamos muito poucos atributos de R na prova. Poderamos na


verdade substituir R por um espao mtrico que satisfaa certas propriedades,
como por exemplo a existncia de uma lgebra cujos conjuntos possam ser
aproximados por pr-compactos. Contudo, decidimos no apresentar essa
verso mais geral aqui porque muito em breve obteremos uma verso bem mais
geral do Teorema de Kolmogorov usando apenas o resultado para R.
Exerccio 2.6.4. Mostre que a hiptese (2.53) pode ser substituida por
Pn+1 ( I1 . . . , In R) = Pn ( I1 In ),
para todo n 1 e Ii = (, bi ], onde bi R, i n.
29

(2.62)

CAPTULO 2. CONSTRUO DE ESPAOS DE PROBABILIDADE


Um importante exemplo do uso deste teorema o seguinte.
Exemplo
2.6.5. Se Pi so probabilidades em (R, B(R)), podemos definir Pn =
Nn
(relembrando,
Pn a nica distribuio em Rn tal que Pn ( A1 An ) =
P
i
i =1
n
i=1 Pi ( Ai )). No difcil verificar que essa lei satisfaz as equaes de consistncia
(2.53). Desta forma, podemos construir uma nica P em RN para os quais as coordenadas cannicas XN
i so independentes e possuem distribuies marginais Pi . Denotamos
nesse caso P = i1 Pi .
Mais adiante no texto daremos outros exemplos bastante interessantes do
uso do Teorema 2.6.4.
Exerccio 2.6.6. Mostre que se p > 0 e P =

i 1 Ber( p )

em RN , ento

lim sup Xn = 1 quase certamente.

(2.63)

Exerccio 2.6.7. Mostre que se P =

i 1 U[0,1]

em RN , ento

lim sup Xn = 1 quase certamente.

(2.64)

Exerccio 2.6.8. Mostre que se P =

i 1 Exp(i )

em RN , ento

lim sup Xn < quase certamente.


n

30

(2.65)

TPICO: PERCOLAO

Tpico: Percolao
Imagine que gostaramos de modelar o movimento de um lquido em um meio
poroso, como uma rocha ou uma esponja. A primeira tarefa nesse estudo seria
modelar esse meio poroso de maneira matematicamente rigorosa, que o que
faremos a seguir.
Fixamos uma dimenso d 1 e consideramos o seguinte grafo G = (Zd , E),
onde a rede quadrada Zd o conjunto de vrtices de G e o conjunto de elos
dado por

E = { x, y} Zd ; | x y| = 1},
onde | | representa a distncia euclideana em Rd .
No nosso modelo, esse grafo pode ser entendido como um cristal peridico
onde cada vrtice representa uma cavidade do material poroso e os elos so
potenciais conexes entre poros vizinhos.
At agora nosso grafo G apenas uma rede peridica, mas as coisas comeam a ficar interessantes partir de agora. Imaginamos que nosso material
poroso est sujeito a variaes durante sua formao. Isso se reflete no fato que
alguns elos de E podem estar abertos ou no aleatoriamente.
Para o nosso modelos, fixamos um p [0, 1] e definimos uma coleo
de variveis aleatrias Xe , para e E, que sejam i.i.d. e com distribuio
Ber( p). Essas variveis aleatrias induzem um novo subgrafo (Zd , E ) de G que
corresponde a abrir apenas os elos e com Xe = 1. Mais precisamente


E = e E; Xe = 1 .
(2.66)
Podemos ver na Figura 2.2 algumas simulaes desse grafo aleatrio.

Figura 2.2: Trs simulaes do grafo aleatrio (Zd , E ), para valores de p = 0, 4


(esquerda), p = 0, 5 (centro) e p = 0, 6 (direita). Tente imaginar como seria caminhar
nesse grafo como se ele fosse um labirinto.

Agora que temos um modelo de meio poroso bem definido, precisamos


pensar em quais perguntas nos interessam sobre G = (Zd , E ). Sendo esse um
modelo poara passagem de fluido, as primeiras perguntas que faremos concerne
a conectividade de G .
Exerccio 2.6.9. Mostre que quase certamente G desconexo. Mais precisamente,
mostre que existem quase certamente infinitos vrcices isolados em G .
31

CAPTULO 2. CONSTRUO DE ESPAOS DE PROBABILIDADE


Como no podemos esperar que G seja conexo, podemos nos perguntar algo
mais fraco, como por exemplo se a componente conexa da origem 0 Zd em G
infinita.
Voltando Figura 2.2 vemos que, dependendo do valor de p [0, 1], pode
ser bem difcil ou bem fcil encontrar um caminho longo partir da origem.
Isso uo que estudaremos em mais detalhes no que segue.
Mais precisamente estamos interessados em:


A = ; a componente conexa de 0 Zd em G infinita .

(2.67)

Para estudar A, vamos fazer uma aproximao de A por eventos mais


simples

An = ; a componente conexa de 0 sai da caixa [n, n]d },

(2.68)

para n 1.
Exerccio 2.6.10. Mostre que A = n An e consequentemente que A de fato mensurvel e P( A) = limn P( An ).
Definimos portanto a funo : [0, 1] [0, 1] por
( p) = Pp ( A),

(2.69)

onde Pp denota a probabilidade correspondente ao valor escolhido de p [0, 1].


Exerccio 2.6.11. Mostre que ( p) (1 p)2d .
Nosso objetivo entender algumas das propriedades de . A nossa intuio
diz que quanto maior o valor de p, mais elos sero abertos em G e portanto maior
ser o valor de , ou em outras palavras, deve ser montona no decrescente.
Exerccio 2.6.12. Construiremos nosso modelo de uma maneira alternativa num espao
de probabilidade P. Sejam Ye , para e E, variveis aleatrias i.i.d. com distribuio
U [0, 1] e definimos para cada p [0, 1]
p

Xe = 1[Ye p] .

(2.70)

Mostre que para todo p [0, 1] a distribuio conjunta de ( Xe )eE sob a lei Pp
p
a mesma que a de ( Xe )eE sob P. Use isso para concluir que montona no
decrescente.
Iremos agora mostrar a existncia de um regime para o qual a componente
conexa da origem no infinita.
Teorema 2.6.5. Para p < 1/(2d), temos que ( p) = 0.
Antes da prova, alguns exerccios.
32

TPICO: PERCOLAO
Exerccio 2.6.13. Definimos um caminho como sendo uma sequncia x1 , . . . , xk
(k N), tal que { xi , xi+1 } E para todo i = 1, . . . , k 1. Tal caminho dito aberto
se X{ xi ,xi+1 } = 1 para todo i k 1. E dizemos que ele auto-evitante se xi 6= x j
para todo 1 i < j < k. Mostre que
n
o
An = ; existe um caminho aberto ( xi )ik=1 com x1 = 0 e xk 6 [n, n]d


An = ; existe um caminho auto-evitante como acima .
Demonstrao. Dado p < 1/(2d) e n N, lembramos que
( p) Pp ( An ) = Pp

existe k N e um caminho auto-evitante ( xi )ik=1


aberto e com x1 = 0 e xk 6 [n, n]d

Pp [( xi )ik=1 aberto] =

Pp [( xi )ik=1 aberto] =

kn ( xi )k auto-evit.
i =1

kn

( xi )ik=1

caminho

pk

k n ( xi )k auto-evit.
i =1

(2d)k pk .

kn

Como p < 1/(2d), a soma acima finita e converge a zero quando n diverge,
provando o teorema.
Notas - O teorema acima ajuda a compreender o comportamento que observamos no lado esquerdo da Figura 2.2. Mais precisamente, ele nos diz que
para valores de p baixos (na verdade 0, 4 no baixo o suficiente para podermos
aplicar esse teorema) difcil encontrar um caminho aberto do centro borda
da caixa.
Na verdade, possvel mostrar que para d = 2,
( p) = 0 para todo p 1/2 e
( p) > 0 para todo p > 1/2,

(2.71)

como foi mostrado por Harris e Kesten, veja por exemplo [Gri99] e [BR06]. De
fato, algo bastante interessante est acontecendo nesse modelo para p = 1/2,
como nos mostrou o trabalho de grandes matemticos, como: Oded Schramm,
Wendelin Werner, Stanislav Smirnov, entre outros.

33

CAPTULO 2. CONSTRUO DE ESPAOS DE PROBABILIDADE

2.7

Distribuies conjuntas

Um caso bastante importante de distribuio de um elemento aleatrio o


caso de vetores. Digamos por exemplo que temos dois elementos aleatrios
X : E e Y : E0 . J sabemos a definio de PX e PY que nada mais so
que as distribuies de X e Y respectivamente.
Mas podemos considerar o vetor ( X, Y ) que ser um elemento aleatrio
tomando valores em E E0 e possui tambm sua prpria distribuio dada
por ( X, Y ) P (tambm denotada por P(X,Y ) ). A essa probabilidade em E E0
damos o nome de distribuo conjunta deste par. .
Vejamos as relaes que existem entre PX , PY e P(X,Y ) . Primeiramente, fcil
ver que a distribuo conjunta nos fornece as demais, pois para todo A E
mensurvel
P(X,Y ) ( A E0 ) = P[( X, Y ) A E0 ] = P[ X A] = PX ( A)

(2.72)

e analogamente para PY . De acordo com a Definio 2.6.3, as distribuies PX e


PY nada mais so do que as marginais da distribuio conjunta.
Apesar de podermos extrair as marginais PX e PY de P(X,Y ) , o contrrio no
sempre possvel como mostra o seguinte exemplo.
Exemplo 2.7.1. Sejam X, Y i.i.d. com distribuio Ber(1/2). Ento ( X, Y ) no tem a
mesma distribuio de ( X, X ), apesar de que esses vetores possuem as mesmas marginais.
Exerccio 2.7.2. Mostre que se X e Y so independentes, ento P(X,Y ) = PX PY .
Exerccio 2.7.3. Sejam X, Y i.i.d. com distribuio U[0,1] e calcule P(X,X +Y ) .
Note que a discusso acima se extende naturalmente para colees maiores
de elementos aleatrios. Mais precisamente, considere um conjunto I qualquer
(finito, enumervel ou no enumervel) de ndices e seja ( Xi )i I uma coleo de
elementos aleatrios tomando valores em ( Ei )i I . Ento a distribuio conjunta
destes elementos aleatrios P(Xi )i I .
Exerccio 2.7.4. Mostre que no caso acima, se P(Xi )i J = P(X 0 )i J para todo J I
i
finito, ento P(Xi )i I = P(X 0 )i I .
i

2.8

Probabilidades condicionais

Uma outra maneira de se construir espaos de probabilidade atravz de


condicionamento, como mostra a seguinte definio.
Definio 2.8.1. Se (, F , P) espao de probabilidade e B F tal que P( B) > 0,
ento definimos a probabilidade P(| B) : F [0, 1] por
P( A| B) =

P( A B)
,
P( B)

chamada probabilidade condicional dado o evento B.


34

(2.73)

2.8. PROBABILIDADES CONDICIONAIS


Obviamente P(| B) uma probabilidade em (, F ) e podemos entend-la
de duas formas: como uma normalizao ou como uma tentativa de sucesso.
Explicaremos abaixo cada uma dessas interpretaes.
Quando restringimos o espao amostral ao conjunto B (e associamos a
A F o valor P( A B)), temos uma sub-probabilidade, isto possivelmente
P( B) < 1. Logo podemos entender o denominador de (2.73) como uma
normalizao para obtermos novamente uma probabilidade.
Mas a interpretao mais natural de (2.73) dada pela seguinte proposio.
Para enunci-la, considere (, F , P) um espao de probabilidade e defina o
produto
=

i =1 ,

F=

P=

i =1

P.

(2.74)

i =1

Na verdade somente definimos esse produto para = R, mas como mencionamos abaixo do Teorema da Extenso de Kolmogorov, isso pode ser fcilmente
generalizado e o faremos posteriormente.
Proposio 2.8.2. Na situao acima, seja B F com P( B) > 0 e defina T : N
por T ( ) = inf{n 1; Xn ( ) B}, onde os Xn so as coordenadas cannicas. Ento
T < quase certamente e
XT ( ) ( ) um elemento aleatrio em com distribuio P(| B).

(2.75)

A intuio desta proposio que se repetimos o experimento (, F , P)


independentemente at obter uma amostra em B, essa ter a distribuio condicional.
Demonstrao. Sejam os eventos An = [ Xn B], n 1 que so claramente
independentes segundo P. Logo, como n P( An ) = n P( B) = , temos pelo
Lema de Borel-Cantelli (segunda parte) que P( An infinitas vezes) = 1, logo
T < quase certamente.
Para ver que XT ( ) ( ) um elemento aletrio, basta escrever

[ XT A] =

S
t =1

[ Xt A, T = t],

(2.76)

e observar que tanto [ Xt A] quanto [ T = t] = [ X1 6 B, . . . , Xt1 6 B, Xt B]


so mensurveis.
Finalmente podemos usar a decomposio (disjunta) acima para calcular

P[ XT A] =

P[Xt A, T = t]

t =1

P[Xt A, Xt B, Xs 6 B for s < t]

t =1

P( A B)

P ( A B ) P ( B c ) t 1 = 1 P ( B c )

t =1

terminando a prova da proposio.


35

= P ( A | B ),

(2.77)

CAPTULO 2. CONSTRUO DE ESPAOS DE PROBABILIDADE


Exerccio 2.8.1. Seja > 0 e X d Exp() (lembrando a definio da distribuio
exponencial: d( X P) = exp{x } dx). Mostre que as variveis com distribuio
exponencial no possuem memria, ou seja:
P[ X > t + s| X > t] = P[ X > s], para todo s, t > 0.

(2.78)

Ou em outras palavras, sabendo que X maior que t, a distribuio condicional de


X t ainda Exp().
Definimos a distribuio geomtrica de parmetro p (0, 1] por

Geo( p) =

i (1 p)i p.

(2.79)

i =1

Exerccio 2.8.2. Inspirado no exerccio anterior, mostre que a distribuio geomtrica


Geo( p) tambm satisfaz (2.78) para todos t, s N. Mostre que essas so as nicas
distribuies com suporte em N satisfazendo tal propriedade
Exerccio 2.8.3. Sejam Yi , para i 1 i.i.d. com distribuio Ber( p) e defina
T = inf{i; Yi = 1}.

(2.80)

Mostre que T Geo( p).


Exerccio 2.8.4. Barry James: Cap. 2-5, Ex: 5, 10, 21, 22 (a) e (b).
Exerccio 2.8.5 (Porta dos desesperados). Nas tardes da dcada de 80, as crianas
tinham poucas opes de entretenimento alm de assistir Srgio Malandro, que todos
os dias apresentava o seguinte jogo. O participante era apresentado a trs portas
( = {1, 2, 3}) e apenas uma delas (chamada de X) continha um prmio X d U e o
jogo seguia trs fases:
a) O participante escolhia uma porta arbitrariamente (digamos y ),
b) o Srgio Malandro abria uma porta X 0 que no fosse a escolhida nem a premiada
(X 0 d U\{y,X } )
c) ao participante era dada a oportunidade de trocar sua porta X pela porta restante
em \ { X, X 0 }.
Mostre que o participante sempre aumenta suas chances ao trocar sua escolha. Tente
interpretar esse aparente paradoxo tomando o nmero de portas para infinito.
Exerccio 2.8.6. Emlio e Cristina tiveram dois filhos cujos sexos X, X 0 so i.i.d. e
distribuidos como U{,} . Calcule
a) P[ X, X 0 = | pelo menos um ] e

b) P[ X, X 0 = | pelo menos um e nasceu em uma segunda-feira].


36

2.8. PROBABILIDADES CONDICIONAIS


Interprete esses resultados trocando segunda-feira por primeiro de abril.

Exerccio 2.8.7. Supondo que P( A B) > 0, mostre que P(| A| B) = P(| B| A).
Exerccio 2.8.8. Sejam X, Y variveis aleatrias em um espao (, F , P), independentes e com distribuio U[0,1] .
a) Calcule ( X + Y ) P.

b) Considere P0 () = P | X + Y 1 e calcule X P0 .

2.8.1

Regra de Bayes

Frequentemente definimos um espao de probabilidade atravz de probabilidades condicionais. Consideramos por exemplo um exame mdico para detectar
uma doena, nesse caso temos
= {(doente, +), (doente, ), (saudvel, +), (saudvel, )},

(2.81)

com obviamente a -lgebra das partes.


Contudo, ao contrrio do que fizemos anteriormente, no daremos probabilidades p [0, 1] para cada . Poderamos por exemplo fornecer
P(doente) = 0.005,

P(+|saudvel) = 0.01,

P(|doente) = 0.05.

(2.82)

Obviamente podemos obter as probabilidades dos complementos dos eventos


acima. As probabilidades acima podem ser facilmente estimadas num laboratrio e as duas ltimas so chamadas respectivamente de probabilidades de
falso positivo e falso negativo. Outra vantagem da representao em (2.82) que
as probabilidades descritas so mais compartimentadas no seguinte sentido.
Note que P(doente) somente depende da populao em questo, enquanto as
outras duas dependem apenas do exame e no da populao. Isso no pode ser
dito das probabilidades de pontos individuais em .
Agora fica fcil construir nosso espao de probabilidade escrevendo, para
r {+, } e e {saudvel, doente},
P (r e ) = P (r | e ) P ( e ).

(2.83)

E as probabilidades do lado direito da equao acima esto todas determinadas


em (2.82) (possivelmente tomando complementos).
Contudo, o que estamos interessado muitas vezes em como interpretar
resultados de um exame. Por exemplo, quanto vele P(doente|+)? Isso nos
fornecido em geral pela regra de Bayes enunciada na seguinte
Proposio 2.8.3. Se A1 , A2 , . . . formam uma partio (finita ou no) de e B F
tem probabilidade positiva, ento
P ( Ai | B ) =
2 Gratos

P ( Ai ) P ( B | Ai )
.
j P( A j ) P( B| A j )

ao Ricardo Misturini por sugerir esse problema

37

(2.84)

CAPTULO 2. CONSTRUO DE ESPAOS DE PROBABILIDADE


Demonstrao. Basta notar que
P ( Ai | B ) =

P ( Ai ) P ( B | Ai )
P ( Ai ) P ( B | Ai )
P ( Ai ) P ( B | Ai )
=
=
.
P( B)
j P( B A j )
j P( A j ) P( B| A j )

(2.85)

Exerccio 2.8.9. Utilize a frmula acima para calcular P(doente|+) com os dados em
(2.82). Comente o resultado.
Exerccio 2.8.10. Barry James: Cap. 1, Ex: 18 e 19.

2.9

Ncleos de transio

J focamos bastante energia em variveis aleatrias independentes. Por exemplo,


estudamos em detalhes o que acontece com a soma de tais variveis. Agora
passaremos a estudar elementos aleatrios dependentes e o primeiro passo para
isso obter um mtodo geral de constru-los.
Definiremos agora um ncleo de transio. Intuitivamente, ele nos d
uma maneira de usar um elemento aleatrio em um espao para induzir uma
probabilidade em outro espao. Um exemplo em que poderamos utilizar essa
construo seria o seguinte.
Digamos que estamos preocupados com a possibilidade de um deslizamento
de terra em uma determinada regio. A ocorrncia desse deslizamento algo
aleatrio, mas que certamente depende da quantidade de chuva no perodo,
que tambm podemos modelar como sendo aleatria.
Aps estudarmos alguns trabalhos anteriores, descobrimos uma funo
F : R+ [0, 1] que nos d a probabilidade de um deslizamento ocorrer, como
funo da quantidade de chuva em milmetros.
Lendo o histrico pluvial da regio, podemos estimar a distribuio Q em R+
correspondente quantidade de chuva naquele perodo. A lei F Q (tambm
chamada de Q F ) uma lei em [0, 1] que nos d a distribuio da probabilidade
de deslizamento, mas como seguimos em frente para obter a probabilidade de
deslizamento (um nmero entre zero e um)? Saberemos como fazer isso ao
terminar essa seo.
Sejam ( E1 , A1 ) e ( E2 , A2 ) espaos mensurveis.
Definio 2.9.1. Um ncleo de transio entre E1 e E2 uma funo
K : E1 A2 [0, 1],
tal que
a) para todo y E1 , K (y, ) uma probabilidade em ( E2 , A2 ) e
b) para todo A A2 , a funo K (, A) : E1 [0, 1] A1 -mensurvel.
38

(2.86)

2.9. NCLEOS DE TRANSIO


Exemplo 2.9.1. Daremos agora o exemplo da probabilidade de deslizamento como
funo de F (que ser possivelmente uma varivel aleatria). Nesse caso, seja E1 = [0, 1]
e E2 = {0, 1} com as -lgebras naturais e defina

K ( p, A) = (1 p)0 + p1 ( A).
(2.87)
Vamos verificar que K definido acima um ncleo. De fato,
i) K ( p, ) a distribuio Bernoulli com parmetro p, que obviamente
uma probabilidade,
ii) alm disso, K (, ) = 1, K (, ) = 1 e K (, {0}) = 1 p = 1 K (, {1}),
que obviamente so mensurveis. Isso prova que esse K especfico um
ncleo
Exemplo 2.9.2 (Discreto). Seja E1 = {yi }i1 e E2 = {z j } j1 . Se p : E1 E2
[0, 1] tal que para todo y E1 temos j p(y, z j ) = 1, ento
K (y, A) :=

p(y, z j ) um ncleo de transio entre E1 e E2 .

(2.88)

j A

Nesse caso p(y, z) representa a probabilidade que a segunda coordenada seja z, se a


primeira y.
Exerccio 2.9.3. Mostre que se E1 e E2 so enumerveis ento todo ncleo entre E1 e
E2 pode ser escrito na forma do exemplo acima.
Exemplo 2.9.4 (Absolutamente contnuo). Digamos que E1 e E2 sejam dotados de
medidas 1 e 2 -finitas. Seja
R : E1 E2 R+ mensurvel e tal que para 1 -quase
todo y E1 , tenhamos que E (y, z)2 (dz) = 1. Ento
2

K (y, A) :=

Z
A

(y, z)2 (dz) um ncleo de transio entre E1 e E2 .

(2.89)

Note que K (, A) est bem definido para 2 -quase todo ponto por Fubini.
Exerccio 2.9.5. Prove que os dois exemplos acima de fato definem um ncleo.
Tipicamente, definimos os ncleos de transio introduzindo K (y, ) como
sendo uma medida que depende de y. Nesse caso, uma das condies para que
K seja um ncleo est automaticamente satisfeita, restando apenas mostrar que
K (, A) mensurvel para quaisquer A A2 . Mas obviamente o conjunto A2
pode ser muito complexo, ento gostaramos de apenas verificar que K (, A)
mensurvel para os conjuntos A em uma classe rica o suficiente.
Proposio 2.9.2. Seja K : E1 A2 [0, 1], tal que K (y, ) uma medida para todo
y E1 . Se K (, A) mensurvel para dodo A G , onde G um -sistema que gera
A2 , ento K um ncleo de transio.
39

CAPTULO 2. CONSTRUO DE ESPAOS DE PROBABILIDADE


Demonstrao. Como de costume, vamos definir

B = { B A2 ; K (, B) A1 -mensurvel}.

(2.90)

Obviamente, como K (y, ) uma probabilidade, vale que


a) B , pois a funo constante igual a um mensurvel.
b) Se B B , ento Bc B , pois 1 f mensurvel se f o .
c) E se B1 , B2 , B so disjuntos, ento
mensurveis tambm mensurvel.

Bi B , pois a soma de funes

A discusso acima mostra que B um -sistema que contm o -sistema G .


Da, vemos pelo Teorema 1.3.3 que A2 = (G) B , provando a proposio.
Exerccio 2.9.6. Seja K : R B(R) [0, 1] dada por K (y, ) = U[y1,y+1] . Mostre
que K define um ncleo de transio.
Apesar de interessante, a definio acima ainda no nos permitiu definir
espaos de probabilidade novos. Isso ser possibilitado pelo prximo resultado,
que pode ser visto como uma generalizao do Teorema de Fubini.
Teorema 2.9.5 (Fubini para Ncleos de Transio). Dado um ncleo de transio K de ( E1 , A1 ) para ( E2 , A2 ) e uma probabilidade P1 em E1 , existe uma nica
probabilidade P em ( E1 E2 , A1 A2 ) tal que
Z
E1 E2

f dP =

Z
E1

E2

f (y, z)K (y, dz) P1 (dy),

para toda f : E1 E2 R+ . Em particular, P( A1 A2 ) =


Nesse caso escrevemos P = P1 ? K.

R
A1

(2.93)
K (y, A2 ) P1 (dy).

Antes de iniciar a prova do teorema, vamos ver que as integrais do lado


direito de (2.93) esto bem definidas. Para isso, definimos para y E1 a funo
fatiadora y : E2 E1 E2 dada por y (z) = (y, z). Obviamente essa funo
mensurvel, pois
(
,
se y 6 A1 e
1
( A1 A2 ) =
(2.94)
A2 , se y A1 .
R
Dessa forma, para definirmos f (y, z)K (y, dz), introduzimos f y : A2 R+
dada por f (z) = f (y, z), que mensurvel pois f y = Rf y .
Assim, gostaramos de integrar a funo y 7
f y (z)K (y, dz), que est
obviamente bem definida. Porm resta a pergunta, ser que essa expresso
define uma funo mensurvel de y?
Lema 2.9.6. Se K um ncleo de transio, ento para toda f : E1 E2 R+ que
seja A1 A2 mensurvel, temos que g f : A1 R+ dada por
g f (y) =

f y (z)K (y, dz)

A1 -mensurvel.
40

(2.95)

2.9. NCLEOS DE TRANSIO


Demonstrao. Se f = 1 A1 A2 para Ai Ai , i = 1, 2, ento temos que g f (y) =
K (y, A2 )1 A1 , que obviamente mensurvel pois K um ncleo.
Definimos D = { B A1 A2 ; g1B A1 -mensurvel}. fcil ver que D
um -sistema que contm o -sistema dos retngulos, logo D = A1 A2 .
Acabamos de ver que g f mensurvel para toda f indicadora, donde o
mesmo vale para f simples por linearidade e para toda f positiva pelo Teorema da Convergncia Montona (lembre que limite de funes mensurveis
mensurvel).
Estamos prontos agora para fornecer a
Demonstrao do Teorema 2.9.5. J sabemos que a integral do lado direito de
(2.93) est bem definida (assumindo possivelmente o valor infinito). A unicidade vale obviamente pois a probabilidade de conjuntos do tipo A1 A2
definem P de maneira inequvoca.
S nos resta mostrar que
Z

P( B) =

Z
E1

E2

1B K (y, dz) P1 (dy),

(2.96)

nos define uma probabilidade em ( E1 E2 , A1 A2 ).


De fato,
R R
a) obviamente P() = E E 1K (y, dz) P1 (dy) = 1 e
2

b) se B1 , B2 , A1 A2 so disjuntos, ento definimos f i = 1Bi e f = i f i


e observamos o seguinte. A funo fatiadora f y igual a i f yi , donde
P( B) =

Z
E1

E2

E1 i

f y (z)K (y, dz) P1 (dy)

Z
E2

f yi (z)K (y, dz) P1 (dy) =

P ( B ).

(2.97)

O que demonstra o teorema.


Exerccio 2.9.7. Considere duas probabilidades Pi em ( Ei , Ai ) para i = 1, 2 e K :
E1 A2 [0, 1] dado por K (y, A) = P2 ( A). Mostre que K ncleo e que P1 ? K =
P1 P2 . Relacione esse resultado ao Teorema de Fubini clssico para produtos de
medidas.
Exerccio 2.9.8. Considere o ncleo do Exemplo 2.9.1 e calcule:
a) U[0,1] ? K [ X2 = 1],
b) P1 ? K [ X2 = 1], onde dP1 = 2x dx e

c) encontre a distribuio de X1 U[0,1] ? K [ | X2 = 1] . Interprete o resultado.
41

CAPTULO 2. CONSTRUO DE ESPAOS DE PROBABILIDADE


Exerccio 2.9.9. Seja P = P1 ? K como acima e Q() = P[| X2 = 1]. Calcule
Z
[0,1]{0,1}

X1 dQ

(2.98)

Exerccio 2.9.10. Para 0 a < b 1, definimos a probabilidade U[ a,b] em ([0, 1], B([0, 1]))
atravz da seguinte frmula U[ a,b] ( B) = L( B [ a, b])/(b a). Consideramos tambm a funo K : [0, 1] B([0, 1]) [0, 1] dada por K ( x, ) = U[0,x] (), se x > 0 e
K (0, ) = 0 ().
a) Mostre que K um ncleo de transio.
b) Calcule U[0,1] ? K [ X1 < 1/2] e U[0,1] ? K [ X2 < 1/2], onde X1 e X2 so as
projees cannicas em [0, 1]2 .
c) Mostre que U[0,1] ? K absolutamente contnua com respeito medida de Lebesgue
em [0, 1]2 e calcule sua densidade.
Exerccio 2.9.11. Considere K : E1 A2 [0, 1] dada por K ( p, ) = Exp( p).
Mostre que K ncleo de transio e calcule U[0,1] [ X2 > 1] ? K.
Exerccio 2.9.12. Se K um ncleo de transio entre E1 e E2 e {y} A1 satisfaz
P1 ({y}) > 0, mostre que
P1 ? K [ X2 | X1 = y] = K (y, ).

(2.99)

Ou em outras palavras, K nos d a distribuio condicional de X2 dado X1 = y.


Posteriormente extenderemos o resultado acima para o caso P1 ({y}) = 0,
mas isso demandar algum esforo.
Vamos introduzir uma ltima notao com respeito a ncleos de transio.
Muitas vezes, no estamos interessados na distribuio conjunta de P1 ? K em
E1 E2 , mas apenas na distribuio marginal da segunda coordenada. No nosso
problema da chuva por exemplo, talvez poderamos estar interessados apenas
na probabilidade final de ocorrer um deslizamento. Nesse caso, conveniente
escrever
P1 K := X2 ( P1 ? K ) = ( P1 ? K ) X2 .
(2.100)
Exerccio
2.9.13. Seja K : R+ B(R+ ) [0, 1] dada pela equao K ( x, A) =
R
x
exp
{
xt} dt.
A
a) Prove que K um ncleo de transio.
b) Seja P dada por P = K ? Exp(1). Obtenha P[ X2 > x2 ] para todo x2 0
(lembrando que X2 denota a segunda coordenada no espao produto onde est
definida P). Compare a probabilidade acima com K (1, [ x2 , )).
Rz
c) Mostre que P[ X1 + X2 z] = 0 exp{ x (z x + 1)} dx + exp{z}.

42

2.10. ESPAOS CANNICOS

2.10

Espaos cannicos

Em vrias reas da matemtica, existe um importante conceito de equivalncia


entre duas estruturas, como por exemplo: homeomorfismos, isometrias e isomorfismos. Nessa seo estudaremos o caso anlogo para espaos mensurveis,
que nos trar uma grande surpresa.
Definio 2.10.1. Uma funo : E E0 entre dois espaos mensurveis dita
bi-mensurvel quando uma bijeo mensurvel, com inversa mensurvel.
Vamos agora tentar classificar os espaos a menos de bi-mensurabilidade.
Descobriremos que na verdade os borelianos da reta incluem praticamente tudo
que podemos estar interessados. Comeamos com a seguinte definio.
Definio 2.10.2. Dizemos que o espao mensurvel ( E, A) cannico se existe uma
funo : E B bi-mensurvel para algum B B(R).
Antes de mostrar que essa classe de espaos cannicos inclui muitssimos
exemplos, vamos motivar a definio acima exemplificando como esse conceito
pode ser utilizado.
Teorema 2.10.3 (Extenso de Kolmogorov Extendida). Se E1 , E2 , . . . espaos mensurveis cannicos, ento o Teorema 2.6.4 (da extenso de Kolmogorov) tambm vlido
no espao produto = E1 E2 . . . se a condio de consistncia (2.53) for vlida
com Ij substitudos por eventos da -lgebra de Ej .
Demonstrao. Sejam i : Ei Bi B(R) bijees bi-mensurveise defina
n : E1 En Rn por n (1 , . . . , n ) = 1 (1 ), . . . , n (n ) . Assim
podemos introduzir as medidas de probabilidade
Pn = n Pn , em Rn .

(2.101)

fcil verificar que as Pn so consistentes como em (2.53). Logo, existe P em


(RN , F ) extendendo Pn .
Vamos agora definir uma medida em i Ei . Para tanto, primeiramente
fixamos para cada i 1 um elemento arbitrrio wi de Ei e definimos i : R Ei
por
(
1 ( x ), se x Bi e
i ( x ) =
wi
caso contrrio.
Como Bi B(R), concluimos que i mensurvel.
Finalmente, consideramos o mapa : RN dado por
( x1 , x2 , . . . ) = (1 ( x1 ), 2 ( x2 ), . . . ).

(2.102)

Resta mostrar que a medida P = P extende as probabilidades Pn . Observe


que em concordncia com nossa notao, ns nunca denotamos inversas de
43

CAPTULO 2. CONSTRUO DE ESPAOS DE PROBABILIDADE


funes por f 1 , deixando essa notao para pr-imagens.


P A1 An En+1 . . . = P 1 ( A1 An En+1 . . . )

= P 11 ( A1 ) n1 ( An ) R . . .

= Pn (11 ( A1 ) n1 ( An ))
= Pn 11 11 ( A1 )) n1 n1 ( An )



= Pn ( A1 An ),
concluindo a prova do teorema.
Uma ferramenta importante para construirmos espaos cannicos a seguinte.
Lema 2.10.4. Seja ( E, A) um espao cannico e A A, ento A tambm cannico
quando dotado da -lgebra { A C; C A} induzida por A em A.
Demonstrao. Seja : E B B(R) uma funo bi-mensurvel que mostra
que E cannico. Consideramos 0 : A R dada pela restrio de a A e
precisamos mostrar as seguintes afirmativas:
a) 0 injetiva
b) 0 mensurvel
c) 0 ( A) mensurvel e
d) a inversa 0 : 0 ( A) A mensurvel.
Vejamos,
a) ser injetiva implica que 0 tambm o .
b) dado D B(R), 01 ( D ) = A 1 ( D ) { A C; C A}.
c) denotando por : B E a inversa de , temos que 0 ( A) = 1 ( A)
B( B) pois mensurvel e
d) finalmente, se D B( A), ento 01 ( D ) = 1 ( D ) B( B), novamente
pela mensurabilidade de .
Concluindo portanto a bi-mensurabilidade de 0 quando o seu contra-domnio
restrito a sua imagem.
A seguir daremos um exemplo de espao cannico que ser importante na
seo seguinte.
Lema 2.10.5. O espao produto E = N N . . . , dotado da -lgebra produto
cannico.
44

2.10. ESPAOS CANNICOS


Demonstrao. Primeiramente definimos em E a Mtrica de Hamming:
d H ( x, y) =

2i + 1 1 x i 6 = y i .

(2.103)

i 1

Fica como exerccio mostrar que a -lgebra dos borelianos induzida por essa
mtrica coincide com a -lgebra produto em E. Definimos agora o mapa
: E R dado por
n

( n 1 , n 2 , . . . ) = 2 n 1 + 2 1 n 1 n 2 + + 2 n i =1 n i + . . .

(2.104)

Tambm deixamos a cargo do leitor mostrar que define um homeomorfismo


entre ( E, d H ) e um boreliano de R.

2.10.1

Espaos poloneses

Nessa seo mostraremos que todos espaos chamados poloneses so cannicos.


Definio 2.10.6. Um espao mtrico ( E, d) dito polons se separvel e completo.
Exemplo 2.10.1.
a) Todo espao enumervel pode ser feito em um espao mtrico polons de forma
que a -lgebra de Borel seja P ().
b) Rn e C ([0, 1]) so notoriamente poloneses.
Exerccio 2.10.2. Se ( Ei , di ) so espaos mtricos poloneses para i = 1, 2, . . . , mostre
que E = i Ei com a mtrica
d( x, y) =

d (x , y )

2i+1 1 +i di (i xi ,i yi )

(2.105)

tambm polons. Mostre tambm que a topologia induzida por essa mtrica equivalente topologia produto em E.
Outros exemplos de espaos poloneses so dados pelo seguinte lema, que
tambm ser til para provar o resultado principal desta seo.
Lema 2.10.7. Seja ( E, d) um espao polons e G, F E um aberto e um fechado de E
respectivamente. Ento, existe uma mtrica d0 em F G tal que
a) d e d0 so equivalentes em F G (induzem a mesma noo de convergncia),
b) d( x, y) d0 ( x, y) para todo x, y F G e
c) ( F G, d0 ) polons.
45

CAPTULO 2. CONSTRUO DE ESPAOS DE PROBABILIDADE


Demonstrao. A primeira observao que faremos que F G separvel com
respeito a d. Isso segue do fato de separabilidade ser equivalente existncia de
uma base enumervel.
Vamos definir para x, y em G,


1
1


(2.106)
d0 ( x, y) = d( x, y) +

,
c
c
d( x, G ) d(y, G )
onde d( x, A) = inf{d( x, x 0 ); x 0 A}.
No difcil ver que com a definio acima (e deixamos como exerccio) que
a) as mtricas d e d0 so equivalentes em G,
b) F G separvel quando dotado da mtrica d0 ,
c) ( F G, d0 ) completo.
Isso termina a prova do lema.
Exemplo 2.10.3. Um importante exemplo dado por espaos produto. Sejam ( Ei , di )
espaos poloneses para i 1 e introduza em E = i Ei a mtrica d definida em (2.105).
Ento, se A1 E1 , . . . , Ak Ek forem abertos, o retngulo R = A1 Ak
Ek+1 . . . aberto. Dessa forma vemos que tanto R como Rc podem ser dotados de
mtricas com as quais se tornam espaos poloneses. Alm disso tais mtricas podem ser
escolhidas satisfazendo as hipteses do Lema 2.10.7
O prximo lema o ingrediente chave para provarmos o resultado principal
dessa seo. Ele nos d uma maneira de fatiar um espao polons em uma
partio de espaos poloneses pequenos.
Lema 2.10.8. Seja ( E, d) um espao polons e r > 0. Ento existe uma partio
A1 , A2 , . . . de A e mtricas d1 , d2 , . . . nesses respectivos subconjuntos de forma que
para todo i 1,
a) ( Ai , di ) so espaos poloneses disjuntos,
b) di e d so equivalentes em Ai e di d e finalmente
c) o dimetro de Ai (com respeito a d) menor ou igual a r.
Observe que alguns (possivelmente infinitos) Ai podem ser vazios.
Demonstrao. Obtemos atravz da separabilidade de E, uma coleo de bolas
( Bi )i1 com dimetros limitados por r e cobrindo E. Ento definimos
A1 = B1 ,

An = Bn \

nS
1
i =0

Bi

para n 1.

(2.107)

Agora podemos dotar cada um dos Ai com a mtrica di obtida atravz do


Lema 2.10.7 (observe para tanto que os Ai so dados por intersees de um
aberto com um fechado). As propriedades enunciadas no lema so trivialmente
satisfeitas.
46

2.10. ESPAOS CANNICOS


Terminamos essa seo com esse importante resultado, que confirma nossa
afirmao de que quase todos os espaos mensurveis que podemos nos interessar so cannicos.
Teorema 2.10.9. Todo sub-conjunto boreliano de espao polons ( E, d) cannico.
Demonstrao. Primeiramente, pelo Lema 2.10.4, basta mostrar que todo espao
E polons cannico. Pelo Lema 2.10.5 e novamente o Lema 2.10.4,
basta construir uma funo bi-mensurvel : E B B(NN )

(2.108)

e depois comp-la com uma funo bi-mensurvel 0 : B C B(R).


Para comear, construiremos uma partio encaixada de E. Mais precisamente, defina os conjuntos Mn que sero utilizados como ndices
Mn = N n

para n 1 e

M = n Mn .

(2.109)

Vamos definir borelianos Am de E e mtricas dm em Am para cada m M.


Faremos isso da seguinte forma:
a) se m = i M1 , ento definimos A1 , A2 , A3 , . . . e d1 , d2 , d3 , . . . como no
Lema 2.10.8 com r = 1,
b) se ( Am , dm ) j foi definido para algum m Mn , ento utilizamos tambm
o Lema 2.10.8 com r = 1/n para particionar o conjunto Am (com a mtrica
dm ) em A(m,1) , A(m,2) , . . . com suas respectivas mtricas d(m,1) , d(m,2) , . . .
Obviamente suporemos que so vlidas as propriedades de tais mtricas garantidas pelo Lema 2.10.8.
Podemos desde j definir : E NN e para tanto, considere x E.
Indutivamente
a) como { Am }m M1 formam uma partio de E, definimos 1 ( x ) como o
nico ndice tal que x A1 ( x) ,
b) se j encontramos 1 ( x ), . . . , n ( x ) tal que x A(1 ( x),...n ( x)) , ento o fato
que particionamos o ltimo conjunto na definio de Am , m Mn+1 nos
garante que podemos definir unicamente n+1 ( x ) de forma a continuar a
induo.
Da maneira acima j obtivemos ( x ) = (1 ( x ), 2 ( x ), . . . ). Para terminar, devemos mostrar que bi-mensurvel quando seu contra-domnio restrito sua
imagem.
Isso comea com a prova de que injetiva. Se ( x ) = (y), ento existe
uma sequncia mn Mn tal que x, y Amn para todo n. Mas isso no possvel
dado que o dimetro de Amn+1 menor ou igual a 1/n na mtrica dmn d. Isso
mostra que x = y.
Vejamos agora que mensurvel. Seja w NN tal que ( x ) = w e
tome G NN com G = {(w1 , . . . , wl )} NN (esses conjuntos geram a lgebra cannica em NN ). Claramente, 1 ( G ) = A(1 ( x),...,l ( x)) , de forma que
mostramos que mensurvel.
47

CAPTULO 2. CONSTRUO DE ESPAOS DE PROBABILIDADE


Para mostrar que sua inversa : ( E) E mensurvel, veremos que ela
de fato contnua com respeito Mtrica de Hamming definida em (2.103). Dado
n 1, tomamos < 2n . Se w, w0 ( E) so tais que d H (w, w0 ) < em NN ,
ento wi = wi0 para todo i n, de forma que 1 (w) e 1 (w0 ) pertencem a
A(w1 ,...,wn ) . A continuidade de 1 segue do fato que o dimetro de A(w1 ,...,wn )
no mximo 1/n (com respeito a d(w1 ,...,wn ) e portanto com respeito a d).
Mas ateno, apesar de que parece que provamos o teorema, ainda falta
mostrar que ( E) mensurvel. Para tanto, afirmamos que
 [

( E) = NN \
{ w1 } { w k } N . . . ,
(2.110)
k,w1 ,...,wk

onde a unio acima tomada sobre todos k 1 e w1 , . . . , wk tais que Aw1 ,...,wk
vazio. A igualdade acima ser mostrada no que segue.
Dado w ( E) existe x E tal que ( x ) = w. Como x Aw1 ,...,wn para todo
n 1, esses conjuntos no so vazios. Logo w no pertence unio em (2.110),
mostrando o lado () da incluso. Finalmente, suponha que w = (w1 , w2 , . . . )
tal que para todo k 1, Aw1 ,...,wk 6= . Tomamos portanto para todo k 1 um
ponto xk Aw1 ,...,wk .
Afirmamos que
para todo n, ( xk )kn Cauchy em ( Aw1 ,...,wn , dw1 ,...,wn ).

(2.111)

De fato, para todo k n, xk Aw1 ,...,wk (cujo dw1 ,...,wn -dimetro menor que
1/k), logo xk uma sequncia de Cauchy em Aw1 ,...,wn com sua respectiva
distncia. Tomamos x = limn xk com respeito distncia d e para terminar a
prova do teorema, basta motrar que ( x ) = w, ou em outras palavras,
x

Aw1 ,...,wn , para todo n 1.

(2.112)

Mas claramente
a) x A = E e
b) se x Aw1 ,...,wn , ento como xk Cauchy em Aw1 ,...,wn+1 , temos que xk
converge a um certo x 0 Aw1 ,...,wn+1 na mtrica dw1 ,...,wn+1 . Como essa
mtrica equivalente a tanto dw1 ,...,wn quanto d em Aw1 ,...,wn , temos que
x = x 0 Aw1 ,...,wn+1 .
Isso conclui por induo a prova de (2.112) e consequentemente do teorema.

48

TPICO: CADEIAS DE MARKOV

Tpico: Cadeias de Markov


Um exemplo de como usar ncleos de transio a construo de Cadeias de
Markov. Esse tipo de processo bastante til em diversas aplicaes, desde a
biologia at a computao.
Considere um espao mensurvel cannico fixo ( E, A) e seja K um ncleo de
E nele mesmo. Seria bastante intuitivo agora iterar K (j que ele est no mesmo
espao) e obter uma medida em = i=1 E com a -lgebra cannica.
Para comear esse procedimento, seja 0 uma medida inicial em ( E, A).
Podemos ento definir 1 = 0 ? K o que o primeiro passo da nossa construo,
porm observe que no podemos escrever 2 = 1 ? K, pois 1 ? K uma
medida em ( E2 , A2 ). Vamos com calma ento.
Observe que
1 ( A0 A1 ) =

Z
A0

A1

K ( x0 , dx1 )0 (dx0 ),

(2.113)

ou em outras palavras o valor de x0 determina a distribuio de x1 . Gostaramos


agora que x1 determinasse a distribuio de x2 via K, como por exemplo assim
2 ( A0 A1 A2 ) =

Z
A0

Z
A1

A2

K ( x1 , dx2 )K ( x0 , dx1 )0 (dx0 ).

(2.114)

Mas essa notao fica bastante carregada medida que iteramos.


Para tornar essa notao mais simples, definimos a projeo n : En E
por n ( x0 , . . . , xn1 ) = xn1 . Tambm precisamos de Kn : En A [0, 1] dado
por


Kn (~x, A) = K n (~x ), A
= K ( x n 1 ), A ) .
(2.115)
O fato de Kn ser um ncleo de transio segue imediatamente dessa propriedade
para K.
Note que, nessa notao, estamos dizendo que para irmos de En para En+1
iremos olhar apenas para a ltima coordenada, na qual aplicaremos o ncleo
K. Isso o ponto mais importante que caracteriza uma Cadeia de Markov: a
distribuio do estado futuro da cadeia depende apenas do estado atual e no
do passado. Em alguns contextos essa propriedade chamada de ausncia de
memria.
Podemos finalmente definir
n+1 = n ? Kn , para todo n 1.

(2.116)

Mas resta a questo sobre a existncia de uma que ser respondida com
ajuda do prximo resultado.
Lema 2.10.10. As probabilidades n definidas em (2.116) so compatveis, mais precisamente n+1 ( A E) = n ( A) para todo A An .
49

CAPTULO 2. CONSTRUO DE ESPAOS DE PROBABILIDADE


Demonstrao. Basta observar que
n +1 ( A E ) = n ? K ( A E ) =

Z
A

Kn (~x, E) n (d~x ) = n ( A).


| {z }

(2.117)

Provando o lema.
Logo, o Teorema da Extenso de Kolmogorov (lembre que ( E, A) foi suposto
cannico) nos fornece uma nica P em (, F ) tal que

( X0 , . . . , Xn ) P = n , para todo n 0.

(2.118)

Lembramos que Xi denotam as projees cannicas em = i=1 E.


Chamamos o processo X1 , X2 , . . . sob a lei P da Cadeia de Markov com
distribuio inicial 0 e ncleo de transio K.
Exemplo 2.10.4. Suponha que E seja enumervel. Nesse caso recordamos
do Exem
plo 2.9.2 que o ncleo pode ser representado por uma matriz p( x, y) x,yE que nos
retorna a probabilidade de saltar de x a y. Alm disso, a distribuio
inicial 0

determinada por P({ x }) = p0 ( x ), para alguma sequncia p0 ( x ) xE .
Exerccio 2.10.5. Mostre que no exemplo acima temos
P ( X0 = x 0 , . . . , X n = x n ) = p 0 ( x 0 ) p ( x 0 , x 1 ) . . . p ( x n 1 , x n ) .

(2.119)

Exerccio 2.10.6. Defina K : R2 B(R2 ) [0, 1] dada por


K ( x, A) = US1 ( A x ).

(2.120)

Nesse contexto,
a) mostre que K um ncleo de transio e,
b) considerando a cadeia com distribuio inicial 0 = 0 em R2 e ncleo K, mostre
que X2 tem distribuio absolutamente contnua com respeito a Lebesgue e calcule
sua densidade.
Exerccio 2.10.7. Mostre que para qualquer ncleo de transio K entre E e E, existe
um ncleo de transio K entre E e = i=1 , tal que para toda medida inicial 0 ,
temos que 0 ? K a distribuio de uma Cadeia de Markov comeando de 0 e com
transio dada por K. Esse ncleo til se quisermos mudar a distribuio inicial 0 e
uma notao bastante comum para esse ncleo Px () = K ( x, ).
Vamos terminar essa seo dando uma interpretao bastante interessante
para os ncleos de transio em analogia lgebra linear. Fixe um ncleo de
transio K entre E e E, uma medida inicial e uma funo limitada f : E R.
Relembre a notao em (2.100) e defina K f : E R dada por
K f ( x ) :=

f (y)K ( x, dy),
50

(2.121)

TPICO: CADEIAS DE MARKOV


que obviamente limitada e j vimos ser mensurvel no Teorema de Fubini.
Ento temos dois operadores definidos para ncleos, a multiplicao
esquerda por uma medida em E (K que tambm uma medida em E) e a
multiplicao direita por uma funo limitada e mensurvel (K f que tambm
uma funo limitada e mensurvel). Podemos pensar em f como um vetor
coluna e como um vetor linha, nesse caso K faria o papel de uma matriz. Essa
analogia real se E for um espao enumervel.
Exerccio 2.10.8. No contexto de cadeias de Markov,
a) mostre a relao de associatividade (K f ) = (K ) f ,
b) defina para todo n o ncleo K (n) iterado (de E em E), de forma que K (n) f ainda
seja associativa.
c) Mostre que a medida K (n) a distribuio de Xn se comeamos de ,
d) que a funo K (n) f () o valor esperado de f no tempo n se comeamos no zero
do ponto e finalmente que
e) o nmero real K (n) f a esperana de f no tempo n se comeamos de .
Vamos agora dar um exemplo simples de Cadeia de Markov que poderemos
analisar em detalhes.
Seja E = Z e considere K : Z P (Z) [0, 1] dado por
K ( x, ) =

x1 + x+1
,
2

(2.122)

que obviamente define um ncleo pois toda funo em Z mensurvel na


-lgebra das partes.
Podemos portanto construir P em ZN que nos fornece a lei de uma Cadeia
de Markov em Z com distribuio inicial 0 e ncleo de transio K. Chamamos
esse processo de passeio aleatrio simples simtrico.
Poderamos estar interessados em vrias perguntas sobre esse processo,
como por exemplo quo longe esperamos que o passeio aleatrio pode ir depois
de um determinado tempo? Para responder essa e vrias outras questes,
iremos mostrar outra construo do passeio simples simtrico atravz de uma
soma de variveis aleatrias.
variveis Y1 , Y2 , . . . i.i.d. com
Introduzimos um espao de probabilidade P,
distribuio (1 + 1 )/2 e definimos S0 = 0 e Sn = Y1 + + Yn .
Lema 2.10.11. A distribuio da sequncia infinita ( X0 , X1 , . . . ) sob a lei P do passeio

aleatrio simples e simtrico igual distribuio de (S0 , S1 , . . . ) sob P.


Demonstrao. Observamos primeiramente que basta mostrar a igualdade de
distribuies para cilindros do tipo { x1 } { xn } ZN , pois tais eventos
51

CAPTULO 2. CONSTRUO DE ESPAOS DE PROBABILIDADE


compem um -sistema que gera a -lgebra produto em ZN . Calculamos
portanto
P [ X1 = x 1 , . . . , X n = x n ]
pela definio de Cadeia de Markov (via extenso de Kolmogorov),

= n [ X1 = x 1 , . . . , X n = x n ]
= n 1 ? K n [ X1 = x 1 , . . . , X n = x n ]
por Fubini para ncleos (Teorema 2.9.5),

= n 1 [ X1 = x 1 , . . . , X n 1 = x n 1 ] K n ( x 1 , . . . , x n 1 ) , { x n }

= n 1 [ X1 = x 1 , . . . , X n 1 = x n 1 ] K x n 1 , { x n }
1
= n1 [ X1 = x1 , . . . , Xn1 = xn1 ]1{| xn1 xn |=1}
2

= = 2n 1{| xi1 xi |=1} .


i =1

Faremos agora esse clculo para a distribuio de Si s:


P [S1 = x1 , . . . , Sn = xn ]

= n [Y1 = x1 x0 , Y2 = x2 x1 . . . , Yn = xn xn1 ]
n

i =1

i =1

= P [Yi = xi xi1 ] = 2n 1{| xi1 xi |=1} .


Isso mostra o enunciado do lemma.
Podemos agora por exemplo estimar
P[| Xn | n] = P [|Sn | n] 2 exp{(1 +1 )/2 ()n},

(2.123)

que responde nossa pergunta sobre a probabilidade de um passeio aleatrio se


distanciar muito da origem.

52

TPICO: URNA DE PLYA

Tpico: Urna de Plya


Um excelente exemplo de como Cadeias de Markov podem gerar interessantes
modelos de situaes reais so as chamadas Urnas de Plya. Esse processo
modela sistemas de fsica, biologia, computao e economia que apresentam o
que chamamos de reforo.
Tome por exemplo duas empresas que competem pelo mercado de avies.
Inicialmente, no temos nenhuma razo para escolher uma em detrimento
da outra, portanto compramos nosso primeiro avio de cada empresa com
probabilidade meio. Porm, depois que j compramos diversos avies de uma
determinada empresa, ela j recebeu bastante dinheiro que pode ser reinvestido
para gerar melhor tecnologia e aumentar as chances que ela seja escolhida
novamente no futuro. Isso o que chamamos de reforo.
Vamos agora apresentar rigorosamente um modelo para situaes desse tipo.
O nosso modelo comea com uma urna contendo duas bolas, uma vermelha e
uma azul. No cada passo do processo, escolheremos uma bola da urna ao acaso,
olharemos sua cor e retornaremos essa bola para dentro urna junto com mais
uma bola da mesma cor. Isso pode ser formalizado seguir.
Vamos construir uma medida em {0, 1}N , dotado da -lgebra produto.
Fixada uma sequncia finita w1 , . . . , wn em {0, 1}, definimos


Nx (w1 , . . . , wn ) = # j {1, . . . , n}; w j = x + 1,
(2.124)
que nada mais que o nmero de bolas do tipo x que se encontram na urna no
tempo n. Quando tivermos uma sequncia infinita de wi s, escreveremos Nxn
para denotar Nx (w1 , . . . , wn ).
Para cada n 1, definimos Kn : {0, 1}n P ({0, 1}) por
Kn (w1 , . . . , wn ) = Ber

N1 
n .

(2.125)

Ou seja, dadas cores w1 , . . . , wn , escolheremos uma bola de cor 1 proporcionalmente ao nmero N1 de bolas de cor 1 que j foram sorteadas.
Exerccio 2.10.9. Mostre que todos Kn acima definem ncleos de transio. Alm disso
a seguinte sequncia de medidas compatvel no sentido de Kolmogorov:
P1 = Ber(1/2),
P2 = P1 ? K1 ,
P3 = P2 ? K2 , . . .
Conclua que existe a medida P em {0, 1}N que define o modelo de Plya.
Podemos agora fazer perguntas como por exemplo: ser que escolheremos
bolas de ambas as cores para sempre, ou a partir de um certo momento escolheremos bolas de apenas uma cor com certa probabilidade. Mais precisamente,
qual a probabilidade de [ Xi = 1, infinitas vezes]?
53

CAPTULO 2. CONSTRUO DE ESPAOS DE PROBABILIDADE


Para responder perguntas desse tipo, iremos mostrar algo muito curioso,
que pode ser entendido como uma outra maneira de representar o modelo
descrito acima. Mas antes, vamos colecionar alguns fatos sobre o modelo da
Urna de Plya.
Primeiramente vamos olhar para os seguintes eventos. Fixamos n 1 e uma
sequncia w1 , . . . , wn {0, 1} e seja A o evento {w1 } {wn } {0, 1} . . .
Note que os eventos desse tipo (junto com o evento ) formam um -sistema
que gera a -lgebra cannica de {0, 1}N , portanto essa coleo bastante
completa para identificar a distribuio da Urna de Plya.
Podemos calcular a probabilidade do evento A acima
n
Nw1 1 Nw2 1
Nwn n
1
...
=
Ni

2 3
n+1
( n + 1 ) ! i =1 wi
  1
N1n !(n N1n )!
1
n
=
.
=
( n + 1) !
(n + 1) N1n

P( A) =

(2.126)

O que muito interessante sobre a equao acima que ela nos remete a
problemas combinatrios ao notarmos o fator binomial acima.
Vamos portanto construir um processo completamente diferente que apresenta as mesmas probabilidades que o anterior. Seja perm(S) o conjunto de
todas as permutaes no conjunto finito S. fcil ver que
  1
h
i
n
1
= Uperm({0,...,n}) (0) = j + 1, (i ) j se e s se i j .
( n + 1) j
Um mtodo muito interessante de se produzir uma permutao uniforme
dado pelos seguintes exerccios.
Exerccio 2.10.10. Seja n 1 um inteiro, P uma probabilidade em ( E, A), uma
permutao fixa em perm({1, n}). Ento

( X1 , . . . , X n ) d ( X ( 1 ) , . . . , X ( n ) ) ,

(2.127)

onde Xi como sempre representam as coordenadas cannicas em ( En , An , Pn ).


Ou em outras palavras, aplicar uma permutao fixa a uma sequncia
i.i.d. no altera sua distribuio. Sequncias de elementos aleatrios (no necessariamente i.i.d. s) que satisfazem (2.127) so ditas intercambiveis.
Um outro exerccio interessante nesse tpico o seguinte
Exerccio 2.10.11. Seja n 1 e F : [0, 1]n perm({1, . . . , n}) dada por
(
(1, 2, . . . , n),
se existe Xi = X j , i 6= j
F ( x1 , . . . , x n ) =
o nico tal que X(1) < < X(n) , caso contrrio.
Mostre que F (U[0,1n ] ) = Uperm({1,...,n}) .
54

TPICO: URNA DE PLYA


Ou seja, ordenar uma sequncia de uniformes independentes nos fornece
uma permutao uniforme. Como prometido, isso nos d uma maneira de
construir uma permutao uniforme de {1, . . . , n} partir de uma sequncia
i.i.d. (que algo que j estamos comeando a entender melhor).
Podemos agora escrever nossa probabilidade de observar uma sequncia
no modelo da Urna de Plya em termos de uma sequncia i.i.d. de variveis
aleatrias.
 1
h
i
1
n
= F in=0 U[0,1] (0) = N1n + 1, (i ) N1n se e s se i N1n
n
(n + 1) N1
i
h
= in=0 U[0,1] Xi < X0 , para i N0 e Xi > X0 , para i > N1 .
Agora estamos prontos para provar o resultado principal que nos ajudar a
calcular probabilidades no modelo da Urna de Plya.
Dado u [0, 1], seja Pu = n1 Ber(u), ou seja a probabilidade que nos
d uma sequncia infinita de moedas independentes com probabilidade u de
sucesso. Definimos agora K : [0, 1] (n1 P ({0, 1})) [0, 1] dada por
K (u, A) = Pu ( A).

(2.128)

Lema 2.10.12. A funo K definida acima um ncleo entre [0, 1] e {0, 1}N .
Demonstrao. Usando a Proposio 2.9.2, basta ver que
para todo k 1 e w1 , . . . , wk {0, 1}, temos que
Pu ( X1 = w1 , . . . , Xk = wk ) uma funo mensurvel de u [0, 1].

(2.129)

Mas fcil ver que


Pu ( X1 = w1 , . . . , Xk = wk ) = u N1 (w1 ,...,wk ) (1 u) N0 (w1 ,...,wk ) ,

(2.130)

que obviamente mensurvel, provando assim o lema.


O resultado muito curioso a qual nos referimos o seguinte.
Lema 2.10.13. A lei P definida no Exerccio 2.10.9 igual a U[0,1] K.
Em outras palavras, digamos que realizamos os seguintes experimentos.
Primeiramente Joo realiza o processo da Urna de Plya e anota a sequncia das
cores obtidas. Depois Maria sorteia uma varivel aleatria X de distribuio
uniforme em [0, 1] e depois joga infinitas vezes uma moeda com probabilidade X
de obter vermelho e (1 X ) de obter azul, anotando tambm quais cores foram
obtidas. Finalmente, no seramos capazes de distinguir essas duas sequncias
(mesmo que pudssemos repetir vrias vezes esse experimento) pois elas tem a
mesma distribuio em {0, 1}N .
55

CAPTULO 2. CONSTRUO DE ESPAOS DE PROBABILIDADE


Demonstrao. J sabemos que basta mostrar a igualdade para eventos do tipo
A = {w1 } {wn } {0, 1}N . Sabemos pelo Teorema de Fubini para
Ncleos que
U[0,1] K ( A) =

Z 1
0

(2.130)

K (u, A) du =

Z 1
0

u N1 (w1 ,...,wk ) (1 u) N0 (w1 ,...,wk ) du.

Por outro lado, sabemos que


h
i
P = in=0 U[0,1] Xi < X0 , para i N0 e Xi > X0 , para i > N0

(2.131)

(2.132)

Se definirmos K : [0, 1] B([0, 1]n ), dado por K (u, B) = in=1 U[0,1] , sabemos
que isso define um ncleo pelo Exerccio 2.9.7. Mais ainda, esse mesmo exerccio
nos diz que U[0,1] ? K = in=0 U[0,1] , de forma que
h
i
P( A) = U[0,1] ? K Xi < X0 , para i N0 e Xi > X0 , para i > N0
Z 1
h
i
=
in=1 U[0,1] Xi < u, para i N0 e Xi > u, para i > N0 du
0

Z 1
0

u N0 (1 u)n N0 du,

que coincide com U[0,1] K ( A), provando o lema.


Exerccio 2.10.12. Mostre que a probabilidade, segundo o modelo da Urna de Plya,
de que observemos infinitas bolas de ambas as cores um.

56

Captulo 3

Somas de variveis independentes

Nesse captulo introduziremos vrias tcnicas e resultados que sero teis


em geral, mas que aparecem naturalmente no estudo de somas de variveis
aleatrias independentes, que por sua vez um assunto de extrema importncia
em teoria e aplicaes de probabilidade.

3.1

Esperana

| X | d < , dizemos que X

X ( ) P(d ),

(3.1)

Definio 3.1.1. Se X uma varivel aleatria com


integrvel e definimos
Z
E( X ) =

a chamada esperana de X. Nesse caso tambm dizemos que X L1 .


Quando X 0, tambm podemos supor que E( X ) est bem definida, mesmo
que possivelmente tomando valor infinito.
No demonstraremos algumas propriedades conhecidas da integrao de
Lebesgue, tais como
a) E( X + Y ) = E( X ) + E(Y ) (se estiverem bem definidas),
b) Valem os Teoremas de Convergncia (Montona e Limitada).
Exerccio 3.1.1. Mostre que se X L1 e P[ X > x ] = 0, ento E( X ) x.
Lema 3.1.2. A esperana de uma varivel aleatria X L1 depende somente de sua
distribuio. Mais precisamente
E( X ) =

x PX (dx ).

57

(3.2)

CAPTULO 3. SOMAS DE VARIVEIS INDEPENDENTES


Demonstrao. Vamos mostrar que


E f (X) =

f ( x )( X P)(dx ),

(3.3)

para toda f : R R mensurvel tal que f ( X ) L1 .


Para f = 1 A , temos

E f ( X ) = P[ X A] = ( X P)( A),

(3.4)

por definio de X P.
Agora podemos extender o teorema para funes f simples por linearidade,
depois para funes positivas usando o Teorema da Convergncia Montona e
finalmente escrevemos x = x1[0,) ( x )1(,0) .
Vamos mostrar uma frmula bastante simples de integrao de variveis
tomando valores em um conjunto enumervel. Se X { x1 , x2 , . . . } P-quase
certamente, ento
E( X ) =

=
i

XP(d ) =

1[X=xi ] XP(d ) +
i

Z
[ X = xi ]

xi P(d ) + 0 =

Z
{ x1 ,x2 ,... }c

XP(d )
(3.5)

x i P [ X = x i ].
i

Para nos acostumar notao de probabilidade, vamos agora mostrar o


mesmo resultado da seguinte forma


E( X ) = E X1[ X = xi ] + E( X1{ x1 ,x2 ,... }c )
i
(3.6)
= E[ X; X = xi ] + 0 = xi P[ X = xi ].
i

Que certamente muito til quando nos habituamos a ela.


Observe que acima usamos a notao E[ X; Q] = E( X1[Q] ). Tambm utilizaremos E[ X; Q1 , Q2 , . . . ] = E( X1[Q1 ,Q2 ,... ] )
d

Exemplo 3.1.2. Se X Ber( p), ento E( X ) = 0 P[ X = 0] + 1P[ X = 1] =


0 + p = p.
d

Exemplo 3.1.3. Seja X Bin(n, p), ento, para calcular E( X ), basta calcular E(Y )
d

onde X Y. Como vimos anteriormente, se Z1 , Z2 , . . . , Zn so variveis i.i.d. (red

lembrando: independentes e identicamente distribudos) com Z1 Ber( p), ento


d

Y = i Zi Bin(n, p). Logo


E ( X ) = E (Y ) =

E(Zi ) = np.
i

58

(3.7)

3.1. ESPERANA

Se d( X P) = ( x ) dx (com 0 e
Z

E( X ) =

( x ) dx = 1), ento

x ( X P)(dx ) =

x( x ) dx.

(3.8)

Exemplo 3.1.4. Se X U[0,1] , ento sua densidade com respeito a Lebesgue dada
R1
por d( X P) = 1[0,1] dx, donde E( X ) = 0 x dx = 1/2.
Proposio 3.1.3. Se X 0 P-q.c., ento
E( X ) =

Z
0

P[ X > x ] dx ) =

Z
0

1 F ( x ) dx.

(3.9)

Demonstrao.
E( X ) = E

Fubini

Z
0

Z
0


Z
1 dx = E

E(1[ x<X ] ) dx =

1[ x< X ] dx
Z
0


(3.10)

P[ x < X ] dx.

Exemplo 3.1.5. Se X Exp(), ento


P[ X x ] =
donde
E( X ) =

Z
x

Z
0

et dt = ex ,
ex dx =

1
.

(3.11)

(3.12)

Exerccio 3.1.6. Se X L1 e P[ X x ] = P[ X x ] para todo x 0, ento


E( X ) = 0.
Exerccio 3.1.7. Marcelo coleciona figurinhas de futebol. O lbum completo conter
N figurinhas. No i-simo dia, ele compra uma nova carta Xi {1, . . . , N }. A coleo
( Xi )i0 distribuida de maneira i.i.d. e uniforme nas figurinhas.
a) Para j = 1, . . . , N, seja Tj o tempo passado at a aquisio da j-sima nova
figurinha, i.e.
T1 = 1

Tj = inf{i, Xi 6 { XTj0 ; j0 < j}}.

(3.13)

Mostre que Tj finito quase certamente, para todo j N.


b) Calcule a distribuio conjunta de ( T1 , T2 T1 , . . . , TN TN 1 ).
c) Calcule a esperana de TN (o dia em que Marcelo completa seu lbum).
Exerccio 3.1.8. Sejam X1 , X2 , . . . variveis aleatrias i.i.d. e defina o primeiro tempo
de rcorde como
R = inf{i 2; Xi X1 }.
(3.14)
Supondo que X1 absolutamente contnua com respeito medida de Lebesgue, encontre
E ( R ).
59

CAPTULO 3. SOMAS DE VARIVEIS INDEPENDENTES

3.1.1

Desigualdade de Markov

Teorema 3.1.4. Se X 0 P-q.c., ento para todo x > 0,


P[ X x ]

E( X )
.
x

(3.15)

Demonstrao. Sabemos que X x1[ X x] , logo


E( X ) xE(1[ X x] ) = xP[ X x ],

(3.16)

que termina a prova.


O prximo exemplo serve muito bem para mostrar porque estamos interessados em desigualdades como a do Teorema 3.1.4 acima.
Em vrios exemplos importantes, podemos ter dificuldade de calcular probabilidades explicitamente. Nesses casos, poderamos gastar nossas energias
tentando calcul-las a qualquer custo, ou podemos nos contentar em obter cotas
superiores e inferiores para as probabilidades nas quais estamos interessados.
Em vrios casos, a segunda estratgia tem uma grande vantagem sobre a primeira, por possibilitar que estudemos problemas mais complexos (e consequentemente mais importantes/interessantes) e muitas vezes sem nos afastarmos da
realidade (em vrios exemplos as cotas superiores e inferiores so prximas o
suficiente para que no nos preocupemos).
Exemplo 3.1.9. Sejam n patos e m caadores. Cada caador escolhe um pato aleatorea
e uniformemente e atira (abatendo-o com probabilidade p). Seja X = #{patos vivos},
que pode ter uma distribuio complicada de calcular, mas
E( X ) = E

1[pato i vive]

i =1

= nP[pato 1 vive] = P

P[pato i vive]

i =1

 T
m

[caador j no mata pato 1]

(3.17)

j =1


p
= nP[caador j no mata pato 1]m = n 1
.
n
Observe que
a) acima obtivemos uma igualdade e
b) [pato i vive], i = 1, . . . , n no so independentes.
Finalmente estimamos (digamos para n par)
E( X )
P[patos para o jantar n/2] = P[ X n/2]
n/2
n
p m
pm
= 2 1
2 exp{
}.
n
n
n
60

(3.18)

3.2. VARINCIA

3.1.2

Esperana e independncia

Proposio 3.1.5. Sejam X e Y variveis aleatrias independentes e em L2 , ento


E( XY ) = E( X ) E(Y ).

(3.19)

Demonstrao. Obviamente o resultado acima vlido para funes indicadoras,


pois 1 A 1B = 1 A B . Por linearidade, o resultado tambm vale para funes
simples e usando o Teorema da Convergncia Montona podemos extend-lo
para funes positivas. Finalmente, decompomos X = X+ X e Y = Y+ Y
e lembramos que ambas esto em L2 para concluir a prova.
Exerccio 3.1.10. Mostre que E( XY ), E( X/Y ), E( X + Y )... dependem apenas da
distribuio de ( X, Y ) R2 .
Exerccio 3.1.11. Mostre que se X, Y L1 , ento tambm vale E( XY ) = E( X ) E(Y ).

3.2

Varincia

Na seo anterior, limitamos P[ X > a] usando E( X ) (se X 0). Esse mtodo


chamado de mtodo do primeiro momento, de acordo com a seguinte
Definio 3.2.1. Dada uma varivel aleatria X, definimos o seu k-simo momento
como E( X k ), para k = 1, 2, . . .
Ento, por exemplo, se X Lk e X 0, podemos estimar
P[ X x ] = P[ X k xk ]

E( X k )
, para quaisquer k 1.
xk

(3.20)

Observe que quando o k-simo momento de X finito, a razo acima decai mais
rpido quando x diverge.
Exerccio 3.2.1. Mostre uma frmula anloga da Proposio 3.1.3.
Exerccio 3.2.2. Mostre que se a distribuio de X tem densidade e E(| f ( X )|) < ,
ento
Z
E( f ( X )) =
f ( x )( x ) dx.
(3.21)
Um caso bastante importante ocorre quando k = 2, por vrias razes que
descreveremos abaixo.
Digamos que estamos interessados em aproximar uma varivel aleatria
por uma constante de forma a minimizar o erro da aproximao. Uma possvel
formulao desse problema encontrar a de forma a minimizar


E ( X a)2 = E( X 2 ) 2aE( X ) + a2 .
(3.22)
Essa equao obviamente possui um nico mnimo em a = E( X ). Ao erro da
aproximao acima damos o nome de varincia
61

CAPTULO 3. SOMAS DE VARIVEIS INDEPENDENTES


Definio 3.2.2. Dada uma varivel aleatria X L2 , definimos sua varincia como

2 
Var( X ) = E X E( X )
= E ( X 2 ) E ( X )2 .
(3.23)
Observe pelas definies alternativas dadas acima que
a) Var( X ) 0 e
b) E( X 2 ) E( X )2 .
Exerccio 3.2.3. Mostre que se X L2 , ento Var( X ) = 0 se e somente se X = a
quase certamente.
Obviamente
Var( aX ) = E( a2 X 2 ) E( aX )2 = a2 Var( X ).

(3.24)

Podemos alternativamente entender a varincia da seguinte meneira. Sejam


X e Y variveis aleatrias independentes em L2 de mesma distribuio. Ento,

E ( X Y )2 = E( X 2 ) 2E( XY ) + E( X 2 ) = E( X 2 ) E( X )2 = Var( X ). (3.25)
Exerccio 3.2.4. Mostre que se X L2 , ento Var( X + b) = Var( X ).
Exerccio 3.2.5. Calcule Var ( X ) quando X tem distribuies Ber( p), U [0, 1] ou
Exp().
A seguinte proposio mostra que a varincia uma maneira de estimar o
quanto uma varivel aleatria se desvia de sua mdia.
Proposio 3.2.3. Se X L2 e a > 0, ento
P[| X E( X )| > a]

Var( X )
.
a2

(3.26)

Demonstrao. A desigualdade segue trivialmente da cota de Markov, ao observarmos que


a) | X E( X )| 0,
b) | X E( X )| > a se e somente se | X E( X )|2 > a2 e


c) E | X E( X )|2 = E ( X E( X ))2 = Var( X ),
mostrando a proposio.
Para variveis aleatrias de mdia zero, a varincia nada mais que E( X 2 ),
ou em outras palavras k X k22 , o quadrado de sua norma em L2 . Isso nos motiva a
olhar mais de perto para o produto interno em L2 , que se traduz a E( XY ). Mas
para no nos restringirmos a variveis de mdia zero, introduzimos a seguinte
62

3.2. VARINCIA
Definio 3.2.4. Se X, Y so variveis em L2 , definimos
Cov( X, Y ) = E



X E( X ) Y E(Y ) = E( XY ) E( X ) E(Y ).

(3.27)

Uma observao importante que


se X e Y em L2 so independentes, ento Cov( X, Y ) = 0.

(3.28)

Exerccio 3.2.6. Sejam X1 e X2 as coordenadas cannicas em R2 . J vimos que


elas no so independentes sob a distribuio US1 . Mostre que mesmo assim temos
Cov( X1 , X2 ) = 0.
Uma outra propriedade bastante importante da varincia que ela se comporta bem com somas, no seguinte sentido
Proposio 3.2.5. Se X1 , . . . , Xn so variveis em L2 , ento
n

Var(Xi ) + Cov(Xi , Xj ).

Var( X1 + + Xn ) =

(3.29)

i6= j

i =1

Em particular, se as variveis Xi forem independentes duas a duas, ento


n

Var( X1 + + Xn ) =

Var(Xi ).

(3.30)

i =1

Demonstrao. Basta fazer o tedioso desenvolvimento


Var




2 
X
=
E
X

E
X
i
i
i
i

=E



Xi E ( Xi )

2 

(3.31)



E Xi E ( Xi ) E X j E ( X j ) ,

i,j=1

o que termina a prova ao separarmos i = j de i 6= j.


d

Exerccio 3.2.7. Calcule Var( X ) quando X Bin(n, p).


d

Exerccio 3.2.8. Calcule E( X ) quando X Geo( p).


Um dito popular muito comum no Brasil que no devemos deixar todos os
ovos no mesmo cesto, o que nos remete possibilidade de perdermos todos
eles caso o cesto caia. Uma outra maneira de pensar nas vantagens de se dividir
nossos riscos entre vrias fontes independentes de incerteza, vem da equao
(3.30), melhor explicada no exerccio abaixo.
63

CAPTULO 3. SOMAS DE VARIVEIS INDEPENDENTES


Exerccio 3.2.9. Imagine que X1 , . . . , Xn so variveis i.i.d. , tomando valores em [0, 1]
e que temos um certo valor s R+ que temos que guardar em n caixas (dividindo como
quisermos em s1 , . . . , sn ). Ao fim da semana, obteremos S = i si Xi .
Calcule E(S) e Var(S),
a) se s1 = s e si = 0 para todo i 2 e
b) se si = s/n para todo i.
Compare os resultados.
Exerccio 3.2.10. Calcule lim p0 Fp ( x ) onde Fp a funo de distribuio acumulada
d

de pX p com X p Geo( p). Voc reconhece esse limite?

3.3

Lei fraca dos grandes nmeros

Nessa seo iremos mostrar um dos resultados mais importantes da Teoria da


Probabilidade. O que nossa intuio tem a nos dizer sobre a probabilidade de
obtermos um resultado em um dado 1/6? Uma possvel explicao seria por
simetria, mas e o que podemos dizer no caso de um dado viciado?
Se dizemos a algum que a probabilidade de obter 6 em um certo dado
1/10, naturalmente a pessoa pode se perguntar como descobrimos isso. Um bom
jeito de obter tal medida seria jogar o dado vrias vezes independentemente e
calcular em qual proporo dos ensaios ele retornou um seis.
O objetivo desta seo confirmar a validade desse experimento de maneira
quantitativa.
Teorema 3.3.1. Se X1 , X2 , . . . so i.i.d.s em L2 e definimos
n

Sn =

Xi ,

(3.32)

i =1

ento para todo > 0



h S
i
n

lim P
E( X1 ) > = 0.
n
n
Ou seja,

Sn
n

(3.33)

E( X1 ) em medida (que tambm chamamos de em probabilidade).

Demonstrao. Sabemos que



h S
i
Var( Snn )
n

P
E ( X1 ) >
,
n
2

(3.34)

pois E(Sn /n) = 1/nE( X1 + + Xn ) = E( X1 ).


Mas como Var(Sn /n) = 1/n2 Var( X1 + + Xn ) = (n/n2 ) Var( X1 ), temos
o resultado.
64

3.3. LEI FRACA DOS GRANDES NMEROS


Observe que ns apenas utilizamos que as variveis Xi eram independentes
duas a duas.
Alm disso, obtivemos o seguinte resultado quantitativo que vale mesmo
para valores finitos de n:
Esclio 3.3.2. Se X1 , X2 , . . . so i.i.d.s em L2 e definimos Sn = in=1 Xi como acima,
ento, para todo > 0 e n 1, temos

h S
i
Var( X1 )
n

P
E ( X1 ) >
.
(3.35)
n
2 n
Corolrio 3.3.3. Se A1 , A2 , . . . so eventos independentes dois a dois com P( Ai ) =
p [0, 1] para todo i, ento

h #{i n; A }
i


i
lim P
p > = 0,
(3.36)
n
n
ou em outras palavras a proporo de ensaios onde o evento Ai ocorre converge em
probabilidade para p.
Demonstrao. Basta tomar Xi = 1 Ai no Teorema 3.3.1.
Exerccio 3.3.1. Sejam ( Xi )i1 variveis i.i.d. com distribuio Ber( p), p [0, 1].
Mostre que
1 N
lim
(3.37)
Xi Xi+1 = p2 , em probabilidade.
N N
i =1
Exerccio 3.3.2. Sejam X1 , . . . , Xn e Y1 , . . . , Yn variveis independentes com distribuio Ber( p). Defina agora Zi,j = Xi Yj , para i, j {1, . . . , n} e
a) calcule a esperana de Sn =

1
n2

in=1 nj=1 Zi,j e

b) estime P[|Sn E(Sn )| > a] usando o mtodo do segundo momento. Como esse
resultado se compara com o caso em que os Zi,j so i.i.d.?
Exerccio 3.3.3. Considere uma rua infinita com casas i Z. Para todo i Z, existia
uma rua entre as casas i e i + 1, mas aps uma grande tempestade essas ruas foram
danificadas. Mais precisamente, para cada i Z, temos variveis aleatrias Xi que so
i.i.d. com distribuio Ber( p), onde Xi = 1 indica que o trecho da rua entre as casas
i e i + 1 foi danificado e no pode ser utilizado. Defina, para i Z, Ri como sendo o
nmero de casas que continuaram acessveis casa i aps a tempestade. Por exemplo,
se X2 e X0 = 1 e X1 = 0, temos que a casa 0 somente pode acessar a casa 1, logo
R0 = 1. Nesse contexto,
a) Calcule a distribuio e a esperana de R0 ,
b) Use o mtodo do segundo momento para estimar a probabilidade
h 1

P
n

R i E ( R0 ) > a

i =1

65

(3.38)

CAPTULO 3. SOMAS DE VARIVEIS INDEPENDENTES

Tpico: Contando tringulos


Vimos como a Lei Fraca dos Grandes Nmeros seguiu de uma estimativa de
segundo momento (mais precisamente usando a varincia).
Nessa seo iremos mostrar como esse mtodo mais geral, se aplicando
mesmo em situaes onde as variveis no so necessariamente independentes
duas a duas.


Seja Vn = {1, . . . , n} com n 3 e En = { x, y} Vn ; x 6= y . Chamamos o
par (Vn , En ) de grafo completo em n vrtices.
Definimos em um certo espao de probabilidade Pn , as variveis aleatrias ( Xe )eEn de maneira i.i.d. com distribuio Ber( p), onde p [0, 1]. Essas
variveis induzem um subgrafo aleatrio (Vn , En0 ), onde


En0 = e En ; Xe = 1 .
(3.39)
Dizemos que os elos e, tais que Xe = 1 so abertos.
Definimos nesse espao a varivel aleatria


Tn = # tringulos em (Vn , En0 ) .

(3.40)

Essa varivel claramente pode ser escrita como

Tn =

x,y,zVn distintos

1 A{x,y,z} ,

(3.41)



onde A{ x,y,z} = {x,y,z} formam um tringulo em (Vn , En0 ) .
Gostaramos de entender algo sobre a distribuio de Tn e comeamos calculando

En ( Tn ) =

Pn ( A{ x,y,z} )

{ x,y,z} distintos

(3.42)

 
n 3
n(n 1)(n 2) 3
p =
p .
3
6

Logo, P[ Tn > a] n(n 1)(n 2) p3 /6a. Mais ainda,


En ( Tn2 ) =

{ x,y,z} distintos

{ x 0 ,y0 ,z0 }

Pn ( A{ x,y,z} A{ x0 ,y0 ,z0 } )

distintos

  
   
   
 
n
6 6
n
5
3 6
n
3
4 5
n 3 (3.43)
=
p +
p +
p +
p
5
3
1
4
2
3
6
3
3
|
{z
} |
{z
} |
{z
} | {z }
todos distintos

2 em comum

1-comum

iguais

Donde
Varn ( Tn ) =

1 6 6
1
n p n6 p6 + cn5 p5 + ... c(n5 p5 + n3 p3 ),
36
36

para todos p [0, 1] e n 1 se escolhemos bem a constante c > 0.


66

(3.44)

TPICO: CONTANDO TRINGULOS


Isso nos permite por exemplo estimar o que acontece em alguns regimes,
como por exemplo, se p = 1/2, ento
En ( Tn ) =

n(n 1)(n 2)
,
48

(3.45)

que cresce como n3 , e Varn ( Tn ) cn5 , logo



i
h
Varn ( Tn )
c


Pn Tn En ( Tn ) > n3
2 .
2
6
n
n

67

(3.46)

CAPTULO 3. SOMAS DE VARIVEIS INDEPENDENTES

3.4

Lei forte dos grandes nmeros

Teorema 3.4.1 (Lei Forte dos Grandes Nmeros). Sejam X1 , X2 , . . . i.i.d. em L1 ,


com m = E( X1 ). Ento,
lim

1
n

Xn = m,

P-quase certamente.

(3.47)

i =1

Antes de comear a prova, buscando inspirao no Teorema das Trs Sries,


mostraremos que basta considerar verses truncadas das variveis Xi . Isso
feito no prximo
Lema 3.4.2. Sejam Yi = Xi 1[| Xi |i] . Ento, para demonstrar o Teorema 3.4.1, basta
provar que
1 n
lim Yi = m, P-quase certamente.
(3.48)
n n
i =1
Prova do Lema 3.4.2. Consideramos os eventos Ai = [ Xi 6= Yi ]. Obviamente,

P ( Ai ) =
i

P[|Xi | i]

P[| Xi | t] dt = E | Xi |) < .

(3.49)

Logo, pelo Lema de Borel-Cantelli, temos que P-quase certamente Ai acontece


apenas finitas vezes. Digamos que Ai no acontece para i > N ( ). Dessa forma,
para qualquer n 1,
1


n

(Xi Yi ) n |Xi Yi |

i =1

i =1

1
n

| Xi | ,

(3.50)

i N ( )

que converge para zero P-quase certamente, mostrando o resultado.


O prximo passo para a prova da Lei Forte dos Grandes Nmeros cuidar
da esperana das novas variveis Yi .
Lema 3.4.3. Sejam Zi = Yi E(Yi ), para i 1 como acima. Ento, para demosntrar
o Teorema 3.4.1, basta mostrar que
lim

1
n

Zi = 0,

P-quase certamente.

(3.51)

i =1

Demonstrao. Supondo a convergncia em (3.51), sabemos que


lim

1
n

Yi E(Yi ) = 0,

P-quase certamente.

(3.52)

i =1

Mas E(Yi ) = E( Xi 1[| Xi |i] ) que converge a E( Xi ) = m, pelo Teorema da Convergncia Dominada, donde conclumos que
lim

1
n

E(Yi ) = m.

i =1

68

(3.53)

3.4. LEI FORTE DOS GRANDES NMEROS


Dessa forma, obtemos que n1 in=1 Yi converge quase certamente a m, donde
conclumos a prova do Teorema 3.4.1 por meio do Lema 3.4.2.
Gostaramos de utilizar os teoremas das sries para mostrar a convergncia
de n1 n Zn , mas obviamente, o fator n1 que precede a soma nos impede de
faz-lo. O prximo resultado um simples exerccio de anlise real, que nos
permite reduzir a prova de (3.51) para uma simples convergncia de uma srie
sem pr-fatores.
Lema 3.4.4 (Lema de Kronecker). Suponha que xn R e bn > 0 sejam tais que
bn e i=1 xbi convirja a s R. Ento
i

lim

1
bn

xi = 0.

Demonstrao. Definindo s0 = 0 e sn =
partes,
n

xi = bi bii

i =1

i =1

(3.54)

i =1
x1
b1

++

xn
bn ,

temos, por integrao por

n 1

i =1

i =1

i =1

bi s i bi s i 1 = b n s n + ( bi bi + 1 ) s i .

(3.55)

Escolhemos agora, para qualquer > 0, um n0 1 tal que |sn s| < para
todo n n0 . Dessa forma,
1
bn

xi = s n

1
bn

= sn

1
bn

i =1

n 1

( bi + 1 bi ) s i

i =1
n0 1

n 1

( bi + 1 bi ) s i b n ( bi + 1 bi ) s i
i = n0

i =1

{z

n0

1
1
= s n n0
|{z} bn
bn
| {z }
s
|
0

}
n 1

n 1

(bi+1 bi )s bn (bi+1 bi )(si s),

i = n0

i = n0

{z

( bn bn 0 ) s
=
s
bn

{z

( bn bn 0 )

bn

onde os limites indicados acima representam o que acontece quando n . A


prova segue do fato de ter sido escolhido arbitrariamente.
Estamos agora em posio de finalizar a
Prova do Teorema 3.4.1. De acordo com o Lema de Kronecker e o Lema 3.4.3,
suficiente mostrar que
n

i =1

Zi
, converge quase certamente.
i
69

(3.56)

CAPTULO 3. SOMAS DE VARIVEIS INDEPENDENTES


Por outro lado, como os Zi s tem mdia zero, o Teorema de Uma Srie diz que
suficiente mostrar que
n

Z 

Var

i =1

i2 Var(Zi ) < .

(3.57)

i =1

Isso segue da seguinte estimativa


n

n
n

1
1
1
Var
(
Z
)
=
Var
(
Y
)

i
i
i2
i2
i2 E Xi2 1[|Xi |i]
i =1
i =1
i =1
n

i2 E

i =1
n

k =1
n

k =1

Xi2 1[k1<| Xi |k]

E X12 1[k1<| Xi |k]

i2

(3.58)

i =k


1
E X12 1[k1<| Xi |k]
k
k =1

k =1


X1 1[k1<| Xi |k] 2E( X1 ) < .

Isso nos permite concluir a prova de (3.51) via o Lema de Kronecker. Consequentemente, obtemos o Teorema 3.4.1 via o Lema 3.4.3.
Exerccio 3.4.1. Sejam Yk variveis aleatrias independentes e com a seguinte distribuio:
(
1
1 se i = 1 or i = 1,
P[Yk = i ] = 22 k2
(3.59)
se i = 3.
k2
Mostre que
P

h1
n

i
Yk converge a zero = 1.

(3.60)

k =1

Exerccio 3.4.2 (Depende de Tpico: Urna de Plya). Mostre que segundo a lei P
construida no Exerccio 2.10.9, vale que
P

n Xi converge] = 1.

1

(3.61)

i 1

Alm disso calcule a distribuio do limite acima.

3.5

Lei {0, 1} de Kolmogorov

Ao estudarmos o Lema de Borel-Cantelli, vimos que se os eventos ( Ai )i1 so


independentes ento a probabilidade de [ Ai infinitas vezes] somente pode assumir os valores zero ou um (dependendo da somabilidade de P( Ai )). Nessa seo
70

3.5. LEI {0, 1} DE KOLMOGOROV


iremos estudar outros tipos de evento que assumem apenas esses dois valores.
Esperamos que esse fenmeno se torne intuitivo ao final dessa discusso.
No que se segue, consideraremos um espao mensurvel = i=1 E, com a
-lgebra cannica F , isto a -lgebra gerada pelas coordenadas cannicas
( Xi )i=1 .
Definio 3.5.1. Dizemos que um evento A F caudal se

A Xi ; i n , para todo n 1.

(3.62)

Tambm introduzimos a classe F de tais eventos, que claramente uma -lgebra,


pois pode ser escrita como

T
F =
Xi ; i n .
(3.63)
n 1

Chamamos F de -lgebra caudal.


Vejamos que, dados Ai ( Xi ), i 1, temos que [ Ai infinitas vezes]
caudal. Para tanto, basta observar que para todo n 1, temos que

 

[ Ai infinitas vezes] = #{i 1; Ai } = = #{i n; Ai } = ,
que obviamente pertence a ( Xi ; i n) para todo n 1.
Exerccio 3.5.1. Mostre que em = R , so caudais os seguintes eventos
a) [ Xi converge],


b) n1 in=1 Xi converge e
c) [#{i 1; Xi > 0} < ].
Podemos agora enunciar o pricipal teorema dessa seo
Teorema 3.5.2 (Lei {0, 1} de Kolmogorov). Se = E , onde E um espao
cannico, for provido de uma lei produto P = i=1 Pi , ento todo evento caudal tem
probabilidade 0 ou 1 sob P.
Quando uma -lgebra F satisfaz P( A) {0, 1} para todo A F , dizemos
que F trivial. Uma outra maneira de enunciar a concluso do teorema acima
dizer que a -lgebra caudal F trivial.
Demonstrao. A idia da prova, apesar de soar um pouco estranha, mostrar
que se A F , ento A independente de si mesmo. Em outras palavras,
P( A) = P( A A) = P( A)2 , donde P( A) {0, 1}. Mas vamos com calma.
Fixe k 1, A F e B ( X1 , . . . , Xk ). Nesse caso, como o evento A
pertence a ( Xk+1 , Xk+2 , . . . ), temos que A e B so independentes. Fixe agora
A F e considere a classe

B A = { B F ; B independente de A}.
71

(3.64)

CAPTULO 3. SOMAS DE VARIVEIS INDEPENDENTES


J sabemos que ( X1 , . . . , Xk ) B A para todo k 1.
Obviamente independente de A, assim como Bc B A sempre que
B B A . Alm disso, suponha que B1 , B2 , . . . in B A so disjuntos, ento,

 disj.
indep.
S
S
T
T
S
P ( Bi ) A = P ( Bi A) = P( Bi A) = P( A) P( Bi ).
i

Logo B A um -sistema.
S
Lembrando que B A contm o -sistema k ( X1 , . . . , Xk ), isto dos eventos
cilndricos, temos que todos eventos so indepentes de A, inclusive o prprio A.
Isso termina a prova do teorema.
Exerccio 3.5.2. Dizemos que uma probabilidade P no espao produto = n1 E
(com a -lgebra cannica) fortemente misturadora se, para todo k 1, temos


lim sup P( A B) P( A) P( B) = 0,
(3.65)
n

onde o supremo acima tomado sobre A ( X1 , . . . , Xk ) e B ( Xn , Xn+1 , . . . ).


Mostre que nesse caso, a -lgebra dos eventos caudais trivial.
Percolao). Considere o grafo G = (Z2 , E),
Exerccio 3.5.3 (Depende de Tpico:

onde E = { x, y}; | x y|2 = 1 . Dotamos agora o espao {0, 1} E com a -lgebra A
gerada pelas projees cannicas Ye ( ) = (e), onde {0, 1} E e e E. Definimos
o conjunto A {0, 1} E por
A=

i
existe uma sequncia de distintos x0 , x1 , Z2 ,
.
tais que ei = { xi , xi+1 } E e Yei = 1 para cada i 0

(3.66)

a) Mostre que A mensurvel com respeito a A.


b) Mostre que A um evento caudal, ou seja
A


Ye ; e 6 K .

(3.67)

K E; finito

c) Conclua que P( A) {0, 1}.


Exerccio 3.5.4. Seja = EZ um espao produto infinito, dotado da -lgebra A
gerada pelas projees cannicas ( Xi )iZ . Consideramos agora em (, A) a medida
produto P = PZ , onde P uma probabilidade fixada no espao polonns ( E, B( E)).
a) Mostre que para qualquer evento A A e qualquer > 0, existe um k Z+ e
um evento Ak ( Xi , |i | k) tais que P[( A \ Ak ) ( Ak \ A)] < .
b) Considere o shift : dado por ( )(i ) = (i 1) e mostre que se
A = ( A), ento P( A) {0, 1}.
72

3.6. MOMENTOS EXPONENCIAIS

3.6

Momentos exponenciais

Nessa seo desenvolveremos uma outra tcnica para estimar a probabilidade


de uma varivel aleatria se desviar de sua esperana.
J vimos o mtodo do primeiro, segundo e quarto momento para controlar
uma soma de variveis independentes. Um exemplo disso foi visto na estimativa
P

i
Var( X )
(
X

E
(
X
))

a
i 2 i .
i
i
a
i =1

(3.68)

Em geral, quanto maior o momento, melhor a estimativa do decaimento


para a probabilidade de que uma varivel se desvie de sua esperana. Nessa
seo iremos para momentos exponenciais, que em um certo sentido produzem
estimativas timas para o comportamento assinttico da probabilidade de
desvio.
Note que se quisermos uma pequena probabilidade de erro (como por
exemplo 0.01), o mtodo do segundo momento muito bom, como veremos
posteriormente. Mas se quisermos uma probabilidade de erro minscula (em
situaes concretas, algo como 1012 por exemplo), certamente teremos que
aumentar bastante o valor de n, mas quanto? As cotas de segundo momento
so muito ruins para esse tipo de estimativa, nos levando a escolher um n maior
que o necessrio. Abaixo, desenvolveremos um mtodo mais eficiente para
responder a essa pergunta, obviamente sob certas hipteses na distribuio das
variveis aleatrias.
Definio 3.6.1. Dada uma varivel aleatria X, definimos sua transformada de Laplace como
X (s) = E(esX ) (0, ],
(3.69)
para todos s R. Essa transformada tambm chamada funo geradora de momentos de X.
Exerccio 3.6.1. Calcule a funo geradora de momentos das distribuies Ber( p),
Exp() e U[0,1] .
Proposio 3.6.2. Se E(e| X | ) < , ento
a) X L p para todo 1 p < ,
b) X (s) < para todo s (, ),
c) X (s) C em (, ) e
(n)

d) X (s) = E( X n esX ).
A ltima concluso da proposio acima justifica a nomenclatura funo
(n)

geradora de momentos pois X (0) = E( X n ).


73

CAPTULO 3. SOMAS DE VARIVEIS INDEPENDENTES


Demonstrao. Obviamente, para todo p 1 existe c > 0 tal que e| x| c| x | p ,
donde X L p . Alm disso, para todo s (, ), temos X (s) = E(esX )
E(e| X | ) < , donde 2. segue imediatamente.
Fixando s R, vamos agora calcular


E e(s+h)X esX
X ( s + h ) X ( s )
ehX 1 
.
(3.70)
=
= E esX
h
h
h
Lembrando que | y1 (ey 1)| e|y| , para todo y R, temos que para todos os
+|s|

h < ( |s|)/2, o integrando acima dominado por | X |e(|s|+h)| X | | X |e 2 | X |


que pertence a L1 . Logo podemos usar o Teorema da Convergncia Dominada
para trocar o limite h 0 com a esperana, obtendo
0
X
(s) = E( XesX ).

(3.71)

Note que para todo > 0 e k 1, | x |k c(k)e| x| , isso nos permite repetir o
argumento acima indutivamente para obter c) e d).
Lembramos que ao usar o mtodo do segundo momento, nos foi bastante
til o fato que a varincia se comporta bem com relao a somas independentes.
Mais precisamente, Var( X1 + + Xk ) = Var( X1 ) + + Var( Xk ).
Uma outra propriedade importante da funo geradora de momentos que
ela tambm se comporta bem com respeito somas independentes.
Proposio 3.6.3. Se X1 , . . . , Xn so variveis independentes com Xi (s) < para
todo i k e |s| < , ento
X1 ++Xk (s) = X1 (s) Xk (s), para todos |s| < .

(3.72)

Demonstrao. Basta observar que


E(exp{s( X1 + + Xk )}) = E(esX1 esXk ))

= E esX1 ) E(esXk = X1 (s) Xk (s),

(3.73)

usando Fubini.
Consideraremos agora uma sequncia X1 , X2 , . . . de variveis i.i.d. com
X1 (s) < para |s| < . Ento podemos tentar estimar, para a > 0 e |s| < ,
P

hX + + X
i
h
i
n
1
E( X1 ) a = P X1 + + Xn ( a + E( X1 ))n
nh
i
= P es(X1 ++Xn ) es(a+E(X1 ))n
n
X1 ++Xn (s)es(a+E(X1 ))n = X
(s)es(a+E(X1 ))n .
1

O primeiro fator na estimativa acima pode crescer exponencialmente com n,


enquanto o segundo decresce. Gostaramos que o comportamento do segundo
predominasse, o que podemos concluir do seguinte argumento.
74

3.7. PRINCPIO DE GRANDES DESVIOS


0 (0) = E ( X ). Logo,
Sabemos que X1 (s) diferencivel em zero e que X
1
1
a
existe s > 0 tal que X1 (s) < 1 + ( E( X1 ) + 2 )s, donde

hX + + X
i
n
1
n
E ( X1 ) a X
(s)es(a+E(X1 ))n
1
n
a n
1 + ( E( X1 ) + )s es(E(X1 )+a)n
2
o
n 
a
= esan/2 .
exp s E( X1 + E( X1 ) a)n
2

Isso nos garante um decaimento exponencial da probabilidade da mdia dos Xi


se desviar da esperana.
Exerccio 3.6.2. Aplique o mtodo acima para variveis Xi i.i.d. com distribuio
Ber(1/2) e encontre s( a) que otimize o decaimento da probabilidade P in=1 Xi >

(1/2 + a)n .
Poderamos nos perguntar se a cota acima suficientemente boa. Talvez
pudssemos esperar um decaimento ainda melhor que exponencial. Para responder a essa pergunta, vamos considerar o seguinte exemplo. Sejam ( Xi )i1
variveis i.i.d. com X1 d Ber(1/2). Nesse caso temos por exemplo
h X + + X
1i
1
n
P 1

P[ Xi = 1, i n] = 2n .
n
2
4

(3.74)

Dessa forma, sabemos que no podemos esperar um decaimento melhor que exponencial, mesmo para variveis bem simples (como Bernoulli) que satisfazem
X (s) < para todo s R.
Note que para variveis com distribuio Ber(1/2), obtivemos acima cotas
exponenciais em n (superior e inferior), mas elas possuem expoentes diferentes.
Resta agora tentar entender qual o expoente correto para o decaimento da
probabilidade P[ X1 + + Xn n( E( X1 ) + a)], o que ser feito na prxima
seo.

3.7

Princpio de Grandes Desvios

A primeira tarefa nossa ser otimizar a estimativa grosseira feita na seo


anterior. Essas estimativas so chamadas de estimativas de grandes desvios, pois se
referem a probabilidades que a mdia emprica de Xi se desvie de sua esperana
por um valor constante a. Futuramente no curso estudaremos as probabilidades
de que esse desvio seja de ordem an 0 que so chamados de desvios moderados
ou flutuaes, dependendo se a probabilidade de desvio converge a zero ou no.
Teorema 3.7.1 (Princpio de Grandes Desvios - cota superior). Consideramos
variveis aleatrias i.i.d. X1 , X2 , . . . tais que X1 (s) < , para todo s (, ).
Ento, para a > 0,

 
P X 1 + + X n m + a n e X1 ( m + a ) n ,
75

(3.75)

CAPTULO 3. SOMAS DE VARIVEIS INDEPENDENTES


onde m = E( X1 ) e



X1 ( x ) = sup xs log X1 (s)

(3.76)

s 0

chamada funo taxa.




importante observar que para estimar P X1 + + Xn (m a)n , basta
considerarmos Xi0 = Xi ao utilizar o teorema acima.
Demonstrao. J sabemos que, para todo s 0,

 
n
P X1 + + X n m + a n X
( s ) es(m+ a)n
1



= exp log X1 (s) n s(m + a)n


= exp (m + a)s log X1 (s) n

(3.77)

O que termina a prova do teorema se tomamos o nfimo em s 0.


Exerccio 3.7.1. Calcule X ( a) quando X distribuda como Ber( p), U[0,1] e Exp().
Exerccio 3.7.2. Na Nova Calednia, temos k habitantes. Seja f : {1, . . . , k} {0, 1}
uma funo que indica a inteno de voto de cada cidado. Mais precisamente, para
cada habitante i {1, . . . , k}, se f (i ) = 0, ento i vota no candidato 0, enquanto se
f (i ) = 1, o cidado i vota no candidato 1. Para estimar o nmero k1 = # f 1 ({1}) de
pessoas que votam em 1, ns escolhemos variveis aleatrias Yi i.i.d. com distribuio
uniforme em {1, . . . , k} e queremos estimar
h 1

Errn (e) = P
n

f (Yi )

i =1

i
k1
>e .
k

(3.78)

Sabendo que k par e k1 = k/2, ento


a) use o mtodo do segundo momento para obter um n tal que Errn (0.01) < 0.02 e
um n tal que Errn (0.01) < 1012 ,
b) use o mtodo do momento exponencial para obter resolver o tem acima.
Compare os quatro resultados obtidos acima.
Vamos agora tomar um exemplo concreto para anlise. Sejam X1 , X2 , . . .
variveis aleatrias i.i.d. com distribuio Ber(1/2), donde
X1 ( s ) =

1
(1 + e s )
2

X1 ( x ) = sup{ xs log(1 + es ) + log(2)}.

(3.79)

s 0

Um clculo simples nos mostra que, se x < 1, o mnimo acima atingido no


nico ponto smax = log( 1x x ). Portanto, podemos concluir do Teorema 3.7.1 que
P[ X1 + . . . + Xn > 1/2 + a] eX1 (smax )n
n

o
= exp n b log(b) + (1 b) log(1 b) + log(2)
76

(3.80)

3.7. PRINCPIO DE GRANDES DESVIOS


Note que P[ X1 + + Xn = n] = 2n = e log(2)n = eX1 (1)n . Isso nos d
um forte indcio de que talvez nossas cotas superiores no estejam to longe
de ser precisas. Para confirmar essa hiptese, precisamos obter cotas inferiores
parecidas.
X 0 ( b )
log(4)
X ( b )

log(2)
log(4/3)
0

Figura 3.1: Funes taxa X (b) de uma varivel X com distribuio Ber(1/2), e
X 0 (b) de uma varivel com distribuio Ber(3/4), para b (0, 1).

Antes de buscar cotas inferiores para as probabilidades de desvio, vamos


estabelecer algumas propriedades da funo X (b). Primeiramente, quando
podemos dizer que o supremo na definio de X atingido em algum smax ?
Certamente, esse nem sempre o caso, por exemplo se X = m quase certamente,
ento X (s) = esm e o supremo definindo X (b) no atingido se b 6= m.
Lema 3.7.2. Seja X uma varivel aleatria tal que X (s) < para todo s (, ).
Supondo a 0 tal que P[ X > m + a] > 0, ento existe smax 0 tal que

X (m + a) = (m + a)smax log X (smax ) .

(3.81)

Demonstrao. Por hiptese, existe x > m + a tal que p = P[ X x ] > 0, donde



X (s) pes(m+ a) . Dessa forma, (m + a)s log X (s) (m + a x )s log( p),
que converge a menos infinito quando s diverge. Isso, junto com a continuidade
de X implica a existncia do smax desejado.
Lema 3.7.3. Seja X uma varivel aleatria tal que X (s) < para todo s (, ).
Ento o conjunto onde a funo X (s) finita um intervalo, na qual X convexa e
portanto contnua.
Demonstrao. Primeiramente, supomos que a < b so tais que X ( a) e X (b)
so finitas. Logo, para todo c ( a, b), temos que a funo linear cs menor ou
77

CAPTULO 3. SOMAS DE VARIVEIS INDEPENDENTES


igual a as bs, da
X (c) = sup{cs log(X (s))} sup{( as bs) log(X (s))}
s 0

s 0

sup{ as log(X (s))} sup{bs log(X (s))} < .


s 0

(3.82)

s 0

Para mostrar que X convexa, observe que X ( x ) dada pelo supremo (para
s 0) das funes afins x 7 xs X (s). Como o supremo de funes convexas
tambm convexo, obtemos o enunciado do lemma.
Exerccio 3.7.3. Suponha que se X (s) finita para todo s (, ) e mostre que
a) na definio de X ( a), poderamos tomar o nfimo em todos s R (ao invz de
s 0) sem mudar o valor de X ( a),
b) a funo X (s) no negativa, semi-contnua inferior e convexa em seu domnio
c) X ( a) se anula somente em a = 0 e X crescente no seu domnio.
Buscaremos agora cotas inferiores para a probabilidade de obter um grande
desvio. Gostaramos que essas estimativas fossem o mais prximas possveis
das estimativas superiores obtidas acima. Certamente no podemos obter algo
como

 
P X1 + + Xn m + a n exp{X1 ( a)n},
(3.83)
pois seno isso nos daria uma igualdade o que impossvel, pois perdemos um
pouco de preciso ao utilizar a desigualdade de Markov na cota superior.
Contudo, gostaramos de entender se ao menos o expoente X1 ( a) na cota
superior tambm possui algum papel na cota inferior. Isso confirmado no
seguinte resultado.
Teorema 3.7.4 (Princpio de Grandes Desvios - cota inferior). Sejam X1 , X2 , . . .
variveis aleatrias i.i.d. com X1 (s) < , para todo s R. Ento, para todo a > 0,
lim inf
n


 
1
log P X1 + + Xn m + a n X1 (m + a),
n

(3.84)

onde novamente m = E( X1 ) e X1 ( x ) definida como no Teorema 3.7.1.


Note que o resultado do teorema acima mais fraco que o que vemos
na equao (3.83), mas mostra que X1 ( a) realmente o expoente correto no
decaimento da probabilidade de grandes desvios.
Um corolrio dos Teoremas 3.7.1 e 3.7.4 o seguinte
Corolrio 3.7.5. Se X1 , X2 , . . . variveis aleatrias i.i.d. com X1 (s) < , para todo
s R, ento
lim


 
1
log P X1 + + Xn m + a n = X1 (m + a).
n
78

(3.85)

3.7. PRINCPIO DE GRANDES DESVIOS


A idia da prova transformar a distribuio de Xi , usando uma exponencial
como derivada de Radon-Nikodim. Essa nova distribuio possuir esperana
maior que m + a, de forma que se tomamos a mdia de variveis i.i.d. X10 , . . . , Xn0
distribudas dessa forma, obteremos algo que se concentra acima de m + a.
Finalmente, o preo pago para que as variveis Xi se comportem como as
Xi0 ser aproximadamente exp{X1 (m + a)}, como desejado para nossa cota
inferior.
Demonstrao. Primeiramente, consideraremos o caso P[ X1 m + a] = 1, que
se assemelha ao caso que analizamos acima (Ber(1/2) 1). Nesse caso, temos

 
P X1 + + Xn m + a n = P[ Xi = m + a, para todo i n]

= P [ X1 = m + a ] n .
Donde o limite acima igual a log( P[ X1 = m + a]). Mas por outro lado,





X1 (m + a) = inf log E(es(X1 ) ) (m + a)s = inf log E(es(X1 ma) )
s 0
s 0


s ( X1 m a )
lim inf log E(e
) = log P[ X1 = m + a] ,
s

pelo Teorema da Convergncia Dominada, demonstrando o teorema nesse caso


especial.
Suponhamos agora que P[ X1 > m + a] > 0, o que implica que para b >
m + a suficientemente prximo de m + a, temos P[ X1 > b] > 0. Observe que
basta mostrar que para todo b > a satisfazendo P[ X1 > b] > 0 e para todo
> 0, temos
lim inf
n

 hX + + X
i
1
n
log P 1
(b , b + ) X1 (b),
n
n

(3.86)

pois a funo X1 ( x ) convexa, portanto contnua.


Vamos definir uma nova distribuio com derivada de Radon-Nikodim
d
1 x
e .
=
dPX1
Z

(3.87)

Observamos primeiramente que o valor de ainda no foi escolhido. Alm


disso aps escolhido , teremos que calcular a constante de normalizao Z de
forma que seja uma probabilidade.
Escolheremos 0 como no Lema 3.7.2, isto , tal que X1 (b) = b

log X1 ( ) . Isso nos d imediatamente que Z = E[eX1 ] = X1 ( ) por
definio.
Por diferenciabilidade de X1 , o mximo deve ser assumido em um ponto
de derivada zero para a funo X1 , ou seja
b=

0 ()
X
1

X1 ( )

Prop. 3.6.2

E( XeX )
E( XeX )
=
=
X
Z
E(e )
79

x(dx ).

(3.88)

CAPTULO 3. SOMAS DE VARIVEIS INDEPENDENTES


Isso implica que se uma varivel aleatria tem distribuio , sua esperana b.
possvel verificar que uma tal varivel aleatria X 0 satisfaz obrigatoriamente
X 0 (s) < para todo s 0, donde X 0 L p para todo p > 1.
Como prometido, consideramos variveis X10 , X20 , . . . i.i.d. com distribuio
. Pela lei fraca dos grandes nmeros, para qualquer > 0,
lim P
n

h X0 + + X0
i
n
1
(b , b + ) = 1.
n

(3.89)

Finalmente vamos relacionar essa probabilidade probabilidade definida


em termos de Xi , na qual estamos interessados.
P

n
hX + + X
i Z
O
n
1

1
( X1 P)(dxi )
(b , b + ) =
n
xi ; n i n xi b <
i =1

= Zn

1

e i =1 x i
xi ; i n xi b <
n

Zn exp{(b + )n} P

n
O

( X10 P)(dxi )

i =1

i
h X0 + + X0
n
1
(b , b + ) .
n

Tomando o logartmo, dividindo por n e tomando o liminf quando n vai a


infinito, recuperamos
lim
n

 hX + + X
i
1
n
log P 1
(b , b + ) log( Z ) (b + )
n
n
= log(X1 ()) (b + ) = X1 () .

(3.90)

Como isso vale para todo > 0, provamos (3.86) o que conclui a prova do
teorema.
Exerccio 3.7.4. Mostre o Teorema 3.7.4 no caso em que X1 (s) < , para todo
s (, ).

80

3.8. O TEOREMA CENTRAL DO LIMITE

3.8

O Teorema Central do Limite

At o presente momento, j sabemos por exemplo que mdias de variveis


aleatrias i.i.d. , suficientemente regulares convergem para sua esperana quase
certamente. Vamos fazer contudo um experimento para visualizar esse fenmeno.
Nesse experimento, jogamos 100 moedas e contamos quantas caras obtivemos. Pelo que discutimos anteriormente, esperamos que esse nmero se
encontre por volta de 50, que a esperana desta soma de variveis i.i.d. .
Vamos portanto repetir esse experimento mil vezes e observar quantas vezes
obtemos algo prximo de 50, veja Figura 3.2.
300
250
200
150
100
50
10

20

30

40

50

60

70

Figura 3.2: Vrios ensaios de uma varivel Bin(100, 0.5), pra ser mais preciso
1000 ensaios. Cada barra representa o nmero de ensaios que caram no intervalo
determinado pela base da barra. Note que apesar dos experimentos se concentrarem
em torno da mdia, alguns se afastam um pouco (obviamente pois o experimento
aleatrio). Nessa seo estudaremos esses desvios espontneos, que so chamados
de flutuaoes.

Nosso objetivo nessa seo ser obter qual o tamanho tpico das flutuaes
em torno da mdia dessa soma de variveis aleatrias. Ao contrrio do que
fizemos ao estudar Grandes Desvios, ns agora estamos buscando flutuaes
menores, que acontecem espontaneamente e no com baixa probabilidade.
Note tambm que apesar de observarmos uma aleatoriedade na Figura 3.2,
tambm notamos uma certa regularidade que muitas vezes chamada de forma
de sino no histograma apresentado.

3.8.1

A distribuio normal

Comearemos estudando qual poderia ser uma possvel forma limite para o
histograma da Figura 3.2.
Como uma primeira tentativa, suponha que i=1 Zi possui uma certa distribuio (veremos posteriormente que isso somente pode acontecer em casos
triviais). Mas se esse fosse o caso, poderamos dividir a soma nos termos pares
e mpares X = i par Zi e Y = i mpar Zi . Nesse caso teramos X e Y indepen81

CAPTULO 3. SOMAS DE VARIVEIS INDEPENDENTES


dentes e tambm distribudos como (pois so dados por uma soma que tem a
mesma distribuio daquela que define ).
O seguinte lema mostra que isso somente pode acontecer na situao trivial
em que = 0 .
Lema 3.8.1. Sejam X e Y variveis aleatrias em L2 , i.i.d. com distribuio . Nesse
caso, se X + Y tambm tem distribuio , ento = 0 .
Demonstrao. Sabemos que
E( X + Y ) = E( X ) + E(Y ) = 2E( X ) e
Var( X + Y ) = Var( X ) + Var(Y ) = 2 Var( X ).

(3.91)

Mas como X + Y tem a mesma distribuio de X, ento E( X ) = 2E( X ) e


Var( X ) = 2 Var( X ), donde ambas so zero. Usando o mtodo dos segundo
momento, para todo a > 0,
P[| X | a]

Var( X )
= 0,
a2

(3.92)

terminando a prova de que X = 0 quase certamente.


A intuio dessa prova que quando somamos duas variveis no determinsticas, a incerteza da soma (medida atravz da varincia) tende a aumentar.
Dessa forma no podemos obter a mesma distribuio aps a soma.
Mas existe uma maneira simples de tornar esse problema interessante novamente. Digamos que X e Y pertencem a L2 e so i.i.d. Ento
X +Y
 X 

= 2 Var = Var( X ).
(3.93)
Var
2
2
Ento podemos nos perguntar se
Questo 3.8.2. Existe alguma distribuio no trivial em L2 tal que, se X e Y so
independentes e distribudas de acordo com , temos
X+Y

d ?
2

(3.94)

Pelo menos sabemos agora que a varincia no se altera atravz dessa operao.
Ou em outras palavras, queremos saber se existe algum ponto fixo para o
operador que toma uma distribuio em R e retorna
X + X 
1
2 .
() =
(3.95)
2
Para tentar responder a essa questo, vamos estudar mais a fundo qual
a distribuio da soma de duas variveis aleatrias independentes. Para isso,
considere a distribuio ( X, Y ) P do par, que coincide com , nos dando
hX +Y
i


P
z = ( x, y); x+y z .
(3.96)
2
2
82

3.8. O TEOREMA CENTRAL DO LIMITE


Note tambm que a transformao linear ( x, y) 7

1
2


x + y, x y uma

rotao rgida em R2 , o que nos motiva a propor a pergunta mais simples.


Questo 3.8.3. Existe alguma distribuio no trivial em L2 tal que, se X e Y so
independentes e distribudas de acordo com , a distribuio do par ( X, Y ) invariante
por rotaes?
Ainda estamos numa busca no rigorosa de tal distribuio, ento vamos supor algumas outras propriedades, como por exemplo que seja absolutamente
contnua com respeito a Lebesgue, isto d = f ( x ) dx. Nesse caso, j vimos
que ( X, Y ) d f ( x ) f (y) dx dy e no fundo estamos procurando uma funo f tal
que
f ( x ) f (y) = h( x2 + y2 ), para todo x, y R e alguma h : R+ R+ .

(3.97)

Para trasformar o produto f ( x ) f (y) em uma soma, definimos g = log f e


k = log h e o que gostaramos que acontecesse g( x ) + g(y) = k( x2 + y2 ). Como
ainda no estamos preocupados com unicidade de e apenas com a existncia,
j podemos encontrar nossa resposta para nossa pergunta, escolhendo uma
funo quadrtica, tal como g( x ) = x2 .
 2

Mas temos ainda
R que cuidar para que f ( x ) = exp x seja uma
densidade, ou seja f dx = 1. Para isso, precisamos que seja negativo e,
fixado , o valor de j estar determinado por normalizao. Tudo isso motiva
finalmente a seguinte definio.
Definio 3.8.4. Dizemos que X tem distibuio normal cannica, se


1
X d
exp x2 /2 dx.
2

(3.98)

Alm disso, para m R e 0, dizemos que Y d N (m, 2 ) se Y tem a mesma


distribuio de X + m, onde X tem distribuio normal cannica N (0, 1). Note que
N (m, 0) = m . Muitas vezes chamamos essa distribuio de gaussiana, obviamente
em homenagem a Gauss.
Vamos rapidamente observar que a definio acima realmente descreve uma
distribuio de probabilidade, ou seja que a integral dessa densidade um. Para
tanto, vamos usar um truque conhecido, que consiste em retornar ao plano.
Obviamente,
Z

2 Z Z


exp x2 /2 dx =
exp ( x2 + y2 )/2 dx dy
(3.99)
Z 2 Z
2s = r2
=
exp{r2 /2}r dr d = 2.
0

Donde a constante em (3.98) est de fato correta.


Exerccio 3.8.1. Mostre que a distribuio N (m, 2 ), tem densidade


1
exp ( x m)2 /(22 ) .
2
83

(3.100)

CAPTULO 3. SOMAS DE VARIVEIS INDEPENDENTES


Exerccio 3.8.2. Mostre que Y d N (m, 2 ) tem esperana m e varincia 2 .
Para confirmar que de fato as distribuies normais se comportam bem com
respeito a somas independentes, apresentamos o seguinte resultado.
2 ) so independentes, ento
Proposio 3.8.5. Se X d N (m, 2 ) e Y d N (m,
2
2
+ ). Em particular, um ponto fixo do
X + Y tem distribuio N (m + m,
operador definido em (3.95).
Demonstrao. O caso em que ou se anulam trivial, portanto vamos considerar que ambas so positivas. No difcil ver que podemos tambm supor
= 0. Podemos ento calcular
que m = m
P[ X + Y a] = P[W + Z a],

(3.101)

onde W e Z so independentes com distribuio N (0, 1). Assim, a probabilidade


acima pode ser escrita como

N (0, 1) N (0, 1)



(w, z) R2 ; w + z a

(3.102)

Agora aplicaremos a rotao rgida A : R2 R2 dada por


A(w, z) =

1
2 + 2


w + z, w z .

(3.103)

Como sabemos que a densidade f de (W, Z ) invariante por A, ou seja


f A = f , ento podemos escrever (3.102) como
 

N (0, 1) N (0, 1) A (w, z) R2 ; w + z a
n
o
1
= N (0, 1) N (0, 1) (w, z);
wa
2 + 2
p


= N (0, 1) (, a 2 + 2 = N (0, 2 + 2 ) (, a ,
terminando a prova da proposio.
Podemos obter um corolrio interessante sobre a soma de normais i.i.d.
Corolrio 3.8.6. Sejam X1 , X2 , . . . variveis i.i.d. com distribuio N (m, 2 ), ento
X1 + + Xn d N (nm, n2 ).

(3.104)

in=1 Xi nE( X1 )

d N (0, 1).
n

(3.105)

Como consequncia

84

3.8. O TEOREMA CENTRAL DO LIMITE


Lembrando da Lei dos Grandes Nmeros, se dividimos a soma dos Xi
E( Xi ) por n, essa frao
vai a zero quase certamente. O que conclumos acima
que ao dividir por n obtemos um limite no trivial (nem zero, nem infinito) e
aleatrio (no determinstico).
Mais uma observao curiosa: nossa motivao para a definio da distribuio normal passou por invarincia por rotaes e podemos extender essa
invarincia para n normais independentes. Note que somar as coordenadas
cannicas equivalente
a tomar o produdo escalar com o vetor (1, 1, . . . , 1), que
tem norma euclideana n.
Uma outra maneira de entender o corolrio acima que a normal um
ponto fixo da operao seguinte
a) tome uma distribuio L2 ,
b) considere X1 , . . . , Xn i.i.d. com distribuio e
c) retorne a distribuio de
X1 + + Xn nE( X1 )

.
n

(3.106)

Na Questo 3.8.2, nos perguntamos quais seriam os outros possveis pontos


fixos de e isso ser considerado depois. Mas uma outra questo bastante
importante se o ponto fixo N (0, 1) atrator, ou seja se comeando com outras
distribuies poderamos nos aproximar de N (0, 1) medida que iteramos .
Isso estudado no Teorema Central do Limite (TCL) que provaremos posteriormente. Mas antes, precisamos desenvolver uma boa definio de convergncia
para distribuies, ou em outras palavras definir uma topologia. Esse ser o
nosso prximo tpico.

3.8.2

Convergncia fraca

Em muitos casos importante termos bem definida uma noo de convergncia


de medidas de probabilidade. Supondo por exemplo no espao mensurvel
( E, A), tenhamos uma sequncia de probabilidades n e gostaramos de saber
se ela converge a uma determinada .
Um candidato natural para dara sentido a essa convergncia poderia se a
distncia de variao total entre duas medidas
dVT (, ) = sup |( A) ( A)|.

(3.107)

AA

No difcil mostrar que a definio acima induz uma mtrica, mas ela possui
alguns problemas que descreveremos a seguir.
Exerccio 3.8.3. Mostre que dVT define uma mtrica.
Exerccio 3.8.4. Sejam e absolutamente contnuas com respeito a uma medida fixa
, tendo densidades e respectivamente. Encontre uma frmula para dVT (, ) em
termos das densidades. Essa frmula nos remete a qual distncia entre funes?
85

CAPTULO 3. SOMAS DE VARIVEIS INDEPENDENTES


Digamos que o espao amostral E j seja provido de uma mtrica d e A seja
a -lgebra dos borelianos em E. Qualquer que seja a noo de convergncia
que iremos considerar, gostaramos de dizer que xn converge a x sempre que
xn x em E. Esse porm no o caso para dVT , pois se xn 6= x para todo n e
{ x } A, teramos
dVT (xn , x ) |xn ({ x }) x ({ x })| = |0 1| = 1.

(3.108)

Aqueles que j viram o conceito de convergncia fraca acharo natural que a


convergncia
R
Rde n para seja definida em termos da convergncia das integrais
f dn para f d. Porm, como mencionamos no exemplo das medidas xn
acima, gostaramos tambm de a convergncia respeitasse a topologia original
do espao E, o que torna natural o seguinte conceito.
Definio 3.8.7. Dizemos que uma sequncia de medidas de probabilidade n converge
fracamente (ou converge em distribuio) para uma probabilidade se
lim

f dn =

f d, para toda f : E R contnua e limitada.

(3.109)

Essa convergncia muitas vezes denotada por n .


Essa definio fica ainda mais natural para aqueles que conhecem o Teorema da Representao de Riesz. Com isso em mente, podemos relacionar a
convergncia em distribuio com a convergncia fraca-? no espao de medidas
finitas.
Exerccio 3.8.5. Mostre que em (R, B(R)), temos que

1
n

in=1 i/n U[0,1] .

Exerccio 3.8.6. Considere a funo do espao de medidas em ([0, 1], B([0, 1])) nele
mesmo, dada por:

(3.110)
()( A) = 12 (3A) + (3A 2) .
Identifique o limite em distribuio de (n) (0 ). Mostre que
a) a funo de distribuio acumulada associada ao limite contnua,
b) o limite no absolutamente contnuo com respeito medida de Lebesgue.
Exerccio 3.8.7. Sejam X1 , X2 , . . . i.i.d. distribuidas como Exp(1) e defina
Mn = max Xi .
i =1,...,n

(3.111)

Mostre que Mn log(n) converge fracamente e identifique o limite. Observe que no


precisamos dividir Mn log(n) por nada para obter a convergncia.
Ns algumas vezes denotamos Xn X quando Xn e X so elementos
aleatrios de (, F , P) para descrever a convergncia fraca de suas respectivas
distribuies. Mais precisamente, Xn P X P.
86

3.8. O TEOREMA CENTRAL DO LIMITE

3.8.3

Convergncia fraca em R

No caso especial em que E = R, temos vrios outras maneiras de caracterizar


convergncia em distribuio. A primeira dada pela seguinte
R
R
Proposio 3.8.8. Se g dn converge para g d para toda g C3 limitada e com
as trs primeiras derivadas limitadas, ento n .
Demonstrao. Primeiramente, vamos ver que podemos nos concentrar em um
conjunto compacto da reta.

Para isso fixe um > 0 e tome M0 tal que [ M0 , M0 ] > 1 /3. Tomando
uma funo g satisfazendo as hipteses do teorema e tal que

concluimos que

1[ M0 , M0 ] g 1[ M0 1, M0 + 1],

(3.112)


n [ M0 1, M0 + 1] 1 /2,

(3.113)

para todo n suficientemente grande. Se tomamos M M0 suficientemente


grande, podemos obter a cota acima para todo n (com M no lugar de M0 + 1 e
no lugar de /2).
Fixamos agora uma f : R R contnua e limitada. Sabemos que possvel
aproximar f por uma funo g C3 de suporte compacto, com k gk 2k f k e
| g f | /M uniformemente no intervalo [ M, M]. Essa g certamente satisfaz
as hipteses do teorema.
Portanto,
Z
Z

Z



f dn f d 2k f k +

f dn

Z M
M



f d

Z M
Z M



2k f k + 2M +
g dn
g d
M
M
M
Z
Z



2k f k + 2 + g dn d .

Como o ltimo termo converge a zero e foi escolhido arbitrariamente, isso


conclui a prova da proposio.

87

CAPTULO 3. SOMAS DE VARIVEIS INDEPENDENTES

3.8.4

O TCL para uma sequncia i.i.d.

Teorema 3.8.9 (Teorema Central do Limite). Considere em (, F , P), uma sequncia X1 , X2 , . . . de variveis aleatrias i.i.d. em L3 . Nesse caso, se definimos m = E( X1 )
e 2 = Var( X1 ), temos
in=1 ( Xi m)

N (0, 1).
(3.114)
n
Demonstrao. Primeiramente, observe que podemos supor que m = 0, pois de
qualquer forma iremos subtrair a mdia da distribuio na qual nos interessamos. Uma outra observao importante que podemos supor = 1, pois no
caso geral de qualquer forma estamos somando Xi / no enunciado.
Como vimos na Proposio 3.8.8, basta mostrar a convergncia das integrais
de funes g C3 , que possuam todas as trs primeiras derivadas limitadas.
Considerando a funo
n ( x1 , . . . , x n ) : = g

x + + x 
n
1

,
n

(3.115)

nos basta provar a convergncia das sequncias de nmeros reais


lim
n

n ( X1 , . . . , Xn ) dP =

g(s)N (0, 1)(ds).

(3.116)

Vale lembrar que no Corolrio 3.8.6 j estabelecemos algo mais forte para
variveis normais. Mais precisamente, suponha que extendemos nosso espao
de probabilidade para (0 , F 0 , P0 ), onde exista uma sequncia Y1 , Y2 , . . . de
variveis aleatrias i.i.d. com distribuio N (0, 1) independente de X1 , X2 , . . .
Ento, para todo n 1,
Z

n (Y1 , . . . , Yn ) dP0 =

g(s)N (0, 1)(ds),

(3.117)

o que tornaria o limite em (3.116) trivial para tais variveis. A nossa estratgia
ser aproximar n ( X1 , . . . , Xn ) por (Y1 , . . . , Yn ), e faremos isso trocando uma
varivel de cada vez.
Para entender o que acontece quando trocamos uma das variveis Xi por Yi ,
temos que expandir g em srie de potncias, isto , escrever
g(s) = g(s0 ) + g0 (s0 )(s s0 ) + g00 (so )(s s0 )2 /2 + rs0 (s s0 ),

(3.118)

onde rs0 (h)/h3 limitada por M, uniformemente em h e s0 em consequncia


das nossas suposies sobre g.
Denotando zi = (y1 , . . . , yi1 , xi , . . . xn ), zio := (y1 , . . . , yn1 , 0, xn+1 , . . . , xn )
o
e si = y1 + + yn1 + xn+1 + . . . xn , temos
 so  x
 so  x2
 x 
i
+ r sio i ,
n (zi ) = n (zio ) + g0 i i + g00 i

n
n
n 2n
n
n
88

(3.119)

3.8. O TEOREMA CENTRAL DO LIMITE


Ns propositalmente expandimos n at ordem dois, pois Xi e Yi possuem os
mesmos momentos de ordem um (m = 0) e dois (2 = 1).
Integrando os dois lados da igualdade acima com respeito a Zi P (denotamos como antes, Zi = (Y1 , . . . , Yi1 , Xi , . . . , Xn ) e Zio , Sio analogamente),
teremos
Z
Z
1
v + ki ,
(3.120)
n ( Zi ) dP0 = n ( Zio ) dP0 +
2n i
onde as quantidades v e k, se escrevem como
vi =

 So 
g i dP0
n
00

ki =

X 
rSo /n i dP0 .
i
n

(3.121)

Note que vi no depende de Xi e que


Z  X 3  n3/2 

X 
M

i
0
i

|ki |
dP
r
o
3/2 E(| Xi3 |).
Si / n
3
3/2
n
n
n
Xi

(3.122)

As observaes acima so o ponto mais importante da prova de que essa


aproximao funciona e uma outra maneira de coloc-las a seguinte. Como
Xi e Yi possuem os dois primeiros momentos iguais, os dois primeiros termos
de Taylor coincidem aps a integrao (o primeiro se anula e o segundo vi
tanto para Xi quanto para Yi ). O resto de ordem muito pequena para influir
no limite.
De fato, se retiramos o termo Yi de Zi+1 , fazendo a mesma expanso que
para Xi , obtemos
Z

n ( Zi+1 ) dP0 =

n ( Zio ) dP0 +

1
v + k0i ,
2n i

(3.123)

com o termo de ordem superior k0i sendo definido exatamente como k i , mas com
Yi no lugar de Xi .
Estamos prontos agora para a computao final
Z
Z



n ( X1 , . . . , Xn ) dP g(s)N (0, 1)(ds)
Z
Z



= n ( Z0 ) dP0 n ( Zn ) dP0

n 1 Z

n ( Zi ) dP0

i =0

n 1

n ( Zi+1 ) dP0 = |k i k0i |
i =0


M
n 3/2 E(| X1 |3 ) + E(|Y1 |3 ) ,
n
que claramente converge a zero, provando o teorema.
Corolrio 3.8.10. A N (0, 1) a nica distribuio que possui esperana
zero,

varincia 1 e tal que se X, Y so i.i.d. com distribuio , ento ( X + Y )/ 2 tambm


possuem distribuio . Em outras palavras, N (0, 2 ), para 0, so os nicos
pontos fixos de em L3 .
89

CAPTULO 3. SOMAS DE VARIVEIS INDEPENDENTES


Demonstrao. Usando a invarincia enunciada acima, temos que
X1 + + X2 k

d .
2k

(3.124)

Mas pelo Teorema central do limite, a distribuio dessa combinao de Xi deve


convergir a N (0, 1), logo temos = N (0, 1).
Vamos terminar essa seo com uma aplicao do teorema acima.
Exerccio 3.8.8. Digamos que jogamos 100 moedas honestas e independentes, como
foi proposto no incio da seo, obtendo finalmente uma varivel aleatria Y d
Bin(100, 1/2). Usando o Teorema Central do Limite, estime P[Y 55] usando uma
aproximao por uma N (0, 1). Calcule numericamente o valor real desta probabilidade
e compare ambas as estimativas.

90

TPICO: O TEOREMA DE PORTMANTEAU

Tpico: O Teorema de Portmanteau


O prximo resultado bastante til para provar convergncia fraca, pois nos
fornece uma coleo de equivalncias muitas vezes mais fceis de verificar.
Teorema 3.8.11 (Teorema de Portmanteau). Sejam (n )n1 e medidas de probabilidade em ( E, A). So equivalentes:
a) n ,
R
R
a)
f dn f d, para toda f unifmormemente contnua e limitada,
b) lim supn n ( F ) ( F ), para todo F E fechado,
b) lim infn n ( G ) ( G ), para todo F E aberto,
c) limn n ( A) = ( A), para todo A A com (A) = 0.
Para memorizar o teorema acima, conveniente lembrar dos dois exemplos:
i) se xn x com xn 6= x, F = { x } e G = B( x, ) \ { x } temos, para n
grande,
n ( F ) = ( G ) = 0 < 1 = ( F ) = n ( G ),
(3.125)
ii) em (R, B(R)), seja 2n = n e 2n+1 = = 0 . Obviamente n no
converge fracamente a . Contudo, para todo A B(R),
lim inf n ( A) lim inf 2n ( A) = ( A) e
n

lim sup n ( A) lim sup 2n ( A) = ( A).


n

(3.126)

Prova do Teorema 3.8.11. Obviamente, ( a a0 ), pois a0 ) somente supe a convergncia das integrais para funes f que sejam uniformemente contnuas,
portanto um requisito mais fraco que a).
Observamos tambm que (b b0 ). De fato, basta tomarmos complementos
e observar a mudana nos sinais das desigualdades.
Ento, para a prova do teorema, basta mostrar que ( a0 b), (b + b0 c) e
( c a ).
Comeamos com ( a0 b) e para tanto, consideramos F E fechado. Seja
> 0 e defina a funo f : E R dada por
n
d( x, F ) o
f ( x ) = max 1
,0 .

(3.127)

Claramente, f uniformemente contnua e vale


R 1F f
R 1B( F, ). Dessa desigualdade, temos lim supn n ( F ) lim supn f dn = f d ( B( F, )).
Tomando agora o limite com 0, obtemos b) por continuidade da probabilidade .
91

CAPTULO 3. SOMAS DE VARIVEIS INDEPENDENTES


Para mostrar (b + b0 c), seja A A tal que (A) = 0. Nesse caso,
sabemos que
lim sup n ( A) lim sup n ( A ) ( A ) = ( A )
n

lim inf n ( A ) lim inf n ( A),


n

o que mostra o limite em c).


Finalmente, resta mostrar (c a) e, para tanto, consideramos uma funo
f : E R contnua e limitada. Digamos, com k f k = M.
Sabemos que os conjuntos { f 1 ({ a})} aR so disjuntos, logo os conjuntos

1
f ({ a}) podem ter medida positiva apenas para uma coleo enumervel
de valores a R. Obtemos assim uma coleo finita b0 < b1 < < bk , tal que
b0 < M e bk > M, bi+1 bi e
f 1 ({bi }) = 0 para todo i k.

(3.128)

f (x)

x
Figura 3.3: Uma funo contnua e limitada f , os pontos bi e um conjunto Ai .

Iremos aproximar f por uma funo da forma f = i bi 1 Ai , onde os con


juntos Ai = f 1 [bi , bi+1 ) so disjuntos. Obviamente f f f + , donde
lim inf

f dn lim inf

f dn lim sup

f dn lim inf

f dn + .

R
Mas como f dn = i bi n ( Ai ), a prova estar concluida se mostrarmos que
n ( Ai ) ( Ai ) para todo i k. Isso segue de d), pois Ai f 1 ({bi , bi+1 }),
que tem medida zero.
Exerccio 3.8.9. Lembrando que em (R, B(R)), temos n1 in=1 i/n U[0,1] , use
o tem d) do Teorema 3.8.11 para dar uma caracterizao dos conjuntos Riemannmensurveis. Mais precisamente, encontre os A R tais que n1 in=1 i/n ( A) converge
para a medida de Lebesgue de A.
92

Captulo 4

Esperana condicional

4.1

Esperana condicional

Como j foi dito anteriormente, a estrutura de -lgebra tem um papel muito


importante em probabilidade. Durante o curso de Teoria da Medida, muitas
vezes o conceito de -lgebra parece uma tecnicalidade que simplesmente
dificulta nosso acesso ao contedo realmente interessante do curso. Em alguns
momentos, chegamos a desejar que tudo fosse mensurvel e no tivssemos
que nos preocupar com tais formalidades.
Contudo, no estudo que iniciaremos agora, nos restringiremos a -lgebras
menores de maneira proposital. Ficar claro em particular, que o estudo de
mensurabilidade no uma mera tecnicalidade, mas sim uma ferramenta importante.
Esse interesse, vem da necessidade de representar situaes de informao
incompleta, onde podemos apenas observar uma parte da realidade. Isso
certamente de suma importncia em diversas aplicaes, desde a estatstica,
fsica e computao at a teoria de jogos. Vamos comear com um exemplo
simples.
Suponha que = R2 dotado da -lgebra de Borel e denotamos por X1 , X2
as coordenadas cannicas. Como podemos representar matematicamente a afirmao uma pessoa somente conhece o valor de X1 e no de X2 ? Digamos por
exemplo que essa pessoa dever tomar uma deciso (por exemplo escolher um
elemento de E) baseando-se apenas nessa informao incompleta. A maneira
que modelamos isso matemticamente dizendo que a deciso da pessoa deve
ser uma funo f : E mensurvel com respeito a ( X1 ).
Nossa primeira utilizao desse conceito ser feita agora ao introduzirmos a
noo de esperaa condicional, que generaliza o conceito de esperana. Relem93

CAPTULO 4. ESPERANA CONDICIONAL


brando o clculo (3.22), ns podemos pensar em E( X ) como uma boa maneira
de aproximar X por um nmero real. Isso por exemplo poderia ser til se no
temos nenhuma informao sobre o que ocorreu, mas ainda sim temos que
tentar adivinhar o valor de X. Mas vamos agora imaginar uma outra situao,
onde temos um pouco de informao sobre o que ocorreu.
Voltando ao exemplo em que = R2 , digamos que ns podemos observar
o valor de X1 , mas gostaramos de estimar o valor de X2 . De acordo com o
que discutimos acima, nossa estimativa agora no precisa mais ser apenas um
nmero real, podendo ser qualquer funo mensurvel com respeito a ( X1 ).
Vamos no que segue tornar esse discusso rigorosa, mas antes lembramos
um lema bsico de Teoria da Medida.
Lema 4.1.1. Se f , f 0 so funes mensurveis tais que
Z
A

f d =

Z
A

f 0 d, para todo A F 0 ,

(4.1)

ento f = f 0 -quase certamente.


Demonstrao. Aplicando a hiptese para A = [ f > f 0 ], vemos que
Z
A

f f 0 d = 0,

(4.2)

mas no conjunto A acima, o integrando positivo. Portanto, f = f 0 , -quase


certamente em A. Aplicando o mesmo raciocnio para [ f < f 0 ] obtemos que
f = f 0 quase certamente.
O lema acima nos diz que se soubermos integrar f em todos os eventos A,
ento podemos recuperar a funo f propriamente dita. O que aconteceria se
soubssemos integrar f apenas para eventos A em uma sub--lgebra? isso
que estudaremos partir de agora.
Definio 4.1.2. Seja uma varivel aleatria X L1 ( P) e uma sub--lgebra F 0
F . Dizemos que uma varivel aleatria Y a esperana condicional de X com respeito a
F 0 (ou a esperana condicional de X dada F 0 ) se
a) Y F 0 -mensurvel e
b) E( X1 A ) = E(Y1 A ) para todo A F 0 .
Nesse caso, escrevemos

Y = E( X |F 0 ).
(4.3)

Observe que faz sentido escrever E Y |F 0 ( ), pois E( X |F 0 ) uma varivel
aleatria.
Interpretamos informalmente a definio acima como Y a melhor aproximao F 0 -mensurvel de X. Ou Y a melhor aproximao que podermos
fazer de X se conhecemos apenas F 0 .
94

4.1. ESPERANA CONDICIONAL


Exemplo 4.1.1. Se F 0 = {, }, ento Y = E( X ) (uma varivel aleatria constante)
esperana condicional de X dado F 0 , pois
a) Y F 0 -mensurvel (por ser constante). Alm disso
b) E( X1 ) = 0 = E(Y1 ) e E( X1 ) = E( X ) = E(Y1 ).
Uma propriedade muito importante que segue da Definio 4.1.2 dada
pela seguinte
Proposio 4.1.3. Se Y satisfaz as a) e b) em Definio 4.1.2, ento Y L1 ( P).
Demonstrao. Tomamos A = [Y 0] e A0 = [Y < 0] que esto em F 0 e
estimamos
Z

|Y | dP =

Z
A

Y dP +

Z
A0

Y dP =

Z
A

X dP +

Z
A0

X dP

| X | dP < (4.4)

O que mostra a proposio.


Alm caso trivial dado acima pelo Exemplo 4.1.1, quando podemos esperar
que existam esperanas condicionais?
Teorema 4.1.4. Dada X L1 ( P) e F 0 F uma -lgebra, ento existe a esperana
condicional E( X |F 0 ). Alm disso ela nica P-quase certamente.
Demonstrao. Vamos primeiro mostrar a unicidade quase certa. Para isso,
supomos que existam Y e Y 0 satisfazendo as condies da Definio 4.1.2 (logo
em L1 ). Iremos proceder como no Lema 4.1.1 acima, definindo A = [Y > Y 0 ],
donde conclumos que

E (Y Y 0 )1 A = E(Y1 A ) E(Y 0 1 A ) = 0.
(4.5)
Mas como Y > Y 0 em A, vemos que Y Y 0 quase certamtente. A prova da
unicidade pode ser completa trocando os papis de Y e Y 0 acima.
Vamos agora para a prova da existncia. Como X L1 ( P), podemos
introduzir
( A) = E( X1 A ),
(4.6)
que define uma medida com sinal em (, F ), com variao total finita.
Caso o leitor no se sinta familiarizado com o conceito de medida com sinal,
poder decompor X em partes positiva e negativa e proceguir sem problemas.
Um passo importante da prova observar que tambm define uma medida
no espao (, F 0 ). Estamos portanto propositalmente restringindo nossa lgebra. Como P( A) = 0 implica que ( A) = 0, temos que  P e podemos
aplicar o Teorema de Radon-Nikodim para obter uma derivada Y : R tal
que
a) Y F 0 -mensurvel e
R
b) ( A) = A Y dP.
95

CAPTULO 4. ESPERANA CONDICIONAL


Agora s observar que as afirmaes acima correspondem s condies da
Definio 4.1.2.
Observe que a condio de F 0 -mensurabilidade essencial para a unicidade.
De fato, X obviamente satisfaz a segunda condio da Definio 4.1.2, mas no
necessariamente a primeira.
Exerccio 4.1.2. Mostre que se X F 0 , ento E( X |F 0 ) = X quase certamente.
Exerccio 4.1.3. Seja P a probabilidade uniforme em {( x1 , x2 ) [0, 1]2 ; x1 x2 }.
Calcule E( X2 | X1 ).

4.2

Propriedades bsicas da esperana condicional

Nessa seo justificaremos, em certa medida, a nomenclatura esperana condicional. Faremos isso mostrando que ela satisfaz vrias propriedades que j
conhecemos para a esperana tradicional.
Mas como podemos mostrar propriedades simples tais como a linearidade
da esperana condicional? Vamos comear com um exemplo
Proposio 4.2.1. Se X, X 0 L1 ( P), ento
E( X + X 0 |F 0 ) = E( X |F 0 ) + E( X 0 |F 0 ), P-quase certamente.

(4.7)

Note que a igualdade acima uma igualdade entre variveis aleatrias.


Demonstrao. Sabemos que Y = E( X |F 0 ) + E( X 0 |F 0 ) uma varivel aleatria
bem definida. Mais do que isso, sabemos que ela uma candidata muito boa
a E( X + X 0 |F 0 ). Logo, por unicidade da esperana condicional, basta verificar
que Y satisfaz as condies da Definio 4.1.2 com respeito a X + X 0 . De fato
a) Y F 0 -mensurvel, por ser uma soma de duas variveis F 0 -mensurveis e
b) por linearidade da esperana (no da esperana condicional), temos

E(Y1 A ) = E E( X |F 0 )1 A + E( X 0 |F 0 )1 A


= E E( X |F 0 )1 A + E E( X 0 |F 0 )1 A
(4.8)

0
0
= E( X1 A ) + E( X 1 A ) = E ( X + X )1 A .
Isso termina a prova do proposio.
Exerccio 4.2.1. Dados X L1 e R, mostre que E(X |F 0 ) = E( X |F 0 ).
Uma outra propriedade bem simples da esperana condicional a monotonicidade.
Lema 4.2.2. Se X X 0 em L1 ( P), ento
E( X |F 0 ) E( X 0 |F 0 ), P-quase certamente.
Em particular, se X 0, ento E( X |F 0 ) 0 quase certamente.
96

(4.9)

4.2. PROPRIEDADES BSICAS DA ESPERANA CONDICIONAL


Demonstrao. Seja A = [ E( X 0 |F 0 ) E( X |F 0 ) > 0], que pertence a F 0 . Ento


0 E ( E( X 0 |F 0 ) E( X |F 0 ))1 A = E ( X 0 X )1 A 0,
(4.10)
o que implica que P( A) = 0.
Proposio 4.2.3. Se X, ZX L1 ( P), com Z F 0 , temos
E( XZ |F 0 ) = ZE( X |F 0 ) P-quase certamente.

(4.11)

Em particular, E(X |F 0 ) = E( X |F 0 ), para todo R. Uma outra consequncia


interessante que ZE( X |F 0 ) estar automaticamente em L1 .
De maneira bastante informal, vamos dar uma intuio para o resultado
acima. Ao considerarmos a esperana condicional dada F 0 , ns j conhecemos as variveis aleatrias F 0 -mensurveis, portanto elas se comportam como
constantes.
Demonstrao. Mais uma vez, basta verificar que ZE( X |F 0 ) satisfaz as condies
que definem a esperana condicional. A primeira trivial, pois ZE( X |F 0 )
F 0 -mensurvel por ser um produto de funes F 0 -mensurveis.
Para provar a segunda condio, comeamos com o caso Z = 1B , implicando
que B F 0 , donde


E ZE( X |F 0 )1 A = E E( X |F 0 )1 A B = E( X1 A B ) = E( ZX1 A ).
Por linearidade, j sabemos que o resultado vale para funes Z simples e gostaramos de extender para quaisquer Z positivas via Teorema da Convergncia
Montona. Um problema aqui que mesmo que Z seja positiva, no sabemos
se E( X |F 0 ) tambm ser positiva.
Portanto, trataremos primeiramente do caso X 0. Para tais X, sabemos
pelo Lema 4.2.2 que E( X |F 0 ) 0 quase certamente. Da, podemos concluir que
ZE( X |F 0 ) = E( ZX |F 0 ) para toda Z 0, podemos aproxim-la por baixo por
Zn simples e, pelo Teorema da Convergncia Montona,
E ZE( X |F 0 )

 TCM

= lim E Zn E( X |F 0 )
n
 TCM

= lim E E( Zn X |F 0 ) = E E( ZX |F 0 ) .

(4.12)

O que mostra o resultado sempre que X 0.


Alm disso, pela Proposio 4.1.3, sabemos que ZE( X |F 0 ) L1 . Podemos
finalmente concluir a prova por linearidade decompondo X = X+ X .
O prximo resultado tenta corroborar nossa afirmao que a esperana
condicional uma boa maneira de aproximar uma varivel aleatria.
Lema 4.2.4. Se X L2 ( P) e F 0 F , ento E( X |F 0 ) a projeo ortogonal de X no
espao vetorial HF 0 . Onde HF 0 = {Y L2 ; Y F 0 -mensurvel}.
97

CAPTULO 4. ESPERANA CONDICIONAL


Demonstrao. Temos que verificar que X E( X |F 0 ) ortogonal a HF 0 . Ou seja,
mostrar que para todo Z HF 0 , temos

E XZ E( X |F 0 ) Z = 0.
(4.13)
Note que no claro que essa esperana faz sentido, pois no sabemos que
ZE( X |F 0 ) L1 . Masisso segue facilmente
 da Proposio
 4.2.3.
Mas E E( X |F 0 ) Z = ZE E( X |F 0 )1 = ZE X1 , provando o resultado.
Vimos acima uma metodologia que se repete frequentemente. Digamos
que queremos provar que uma determinada expresso nos d a esperana
condicional de algo. Podemos comear provando esse resultado para funes
indicadoras, depois para funes simples usando a linearidade provada acima.
Porm ainda falta um ingrediente bastante importante para construir ou
verificar que determinadas variveis so esperanas condicionais.
Teorema 4.2.5 (Convergncia Montona para Esperanas Condicionais). Se as
variveis Xn satisfazem Xn X e esto todas em L1 ( P), ento
lim E( Xn |F 0 ) = E( X |F 0 ).

(4.14)

Demonstrao do Teorema 4.2.5. Sabemos que E( Xn+1 |F 0 ) E( Xn |F 0 ), donde


conclumos que E( Xn |F 0 ) Y. Vamos demosntrar que Y = E( X |F 0 ).
a) Por ser um limite de funes F 0 mensurveis, Y F 0 -mensurvel.
b) Dado A F 0 , temos
TCM

E(Y1 A ) = E(lim E( Xn |F 0 )1 A ) = lim E E( Xn |F 0 )1 A


n

TCM

(4.15)

= lim E( Xn 1 A ) = E( X1 A ).
n

O que termina a prova do teorema.


No que segue, muitas vezes escreveremos E( X | Z ) para representar a esperana condicional E( X | ( Z )).
Exerccio 4.2.2. Sejam X1 e X2 as coordenadas cannicas em E1 E2 e definimos a
probabilidade dP = ( x, y) d1 d2 , onde : E1 E2 R+ uma densidade. D
sentido expresso abaixo e mostre que el E( X1 | X2 ):
R
x( x, X2 )1 (dx )
R
.
(4.16)
( x, X2 )1 (dx )
Exerccio 4.2.3. Seja E enumervel com uma -lgebra F 0 . Mostre que

F 0 = ( Ai , i 1), com Ai E disjuntos.


98

(4.17)

4.2. PROPRIEDADES BSICAS DA ESPERANA CONDICIONAL


Suponha que todos conjuntos Ai tem probabilidade positiva e mostre que
E( X |F 0 ) =

E i ( X )1 Ai ,

(4.18)

onde Ei a esperana com respeito probabilidade P(| Ai ). Em breve extenderemos


esse tipo de resultado a espaos quaisquer.
Uma outra propriedade que a esperana condicional herda da integral a
Proposio 4.2.6 (Desigualdade de Jensen). Se : R R convexa, X, ( X )
L1 ( P), ento


E( X |F 0 ) E ( X )|F 0 .
(4.19)
Demonstrao. Se for uma funo linear, o resultado segue da linearidade que
j provamos para a esperana condicional. Alm disso, se temos uma funo
: R R linear e tal que ( x ) ( x ) para todo x R, ento



E ( X )|F 0 E ( X )|F 0 = E( X |F 0 ) .
(4.20)
Tomamos finalmente o supremo em todas as lineares com dos dois
lados da desigualdade acima, obtendo



E ( X )|F 0 sup E( X |F 0 ) = E( X |F 0 ) ,
(4.21)

linear

terminando a prova da proposio.





Corolrio 4.2.7. Se X L1 ( P), ento E( X |F 0 ) E | X | F 0 .
Uma outra propriedade interessante da esperana condicional diz respeito a
sua relao com independncia.
Proposio 4.2.8. Se X L1 ( P) independente de F 0 , ento
E( X |F 0 ) = E( X ) P-quase certamente.

(4.22)

Demonstrao. Funes constantes so sempre mensurveis. Alm disso, se


A F 0 , ento

E( X1 A ) = E( X ) P( A) = E E( X )1 A ,
(4.23)
concluindo a prova.
Terminamos essa seo com o que chamamos da propriedade de torre da
esperana condicional.
Proposio 4.2.9. Se F 0 F 00 so ambas sub--lgebras de F , ento para X
L1 ( P), temos


E E( X |F 0 ) F 00 = E( X |F 0 ) = E E( X |F 00 ) F 0 ,
(4.24)
ou em outras palavras, independentementeda ordem, prevalece a condio na menor
-lgebra. Consequentemente, E E( X |F 0 ) = E( X ).
99

CAPTULO 4. ESPERANA CONDICIONAL


Demonstrao. Como E( X |F 0 ) F 00 -mensurvel, a Proposio 4.2.3, aplicada
com X = 1, mostra a primeira igualdade
 em (4.24).
Falta mostrar que E E( X |F 00 ) F 0 a esperana condicional de X dada
F 0 . Obviamente ela F 0 -mensurvel, e nos resta verificar a segunda condio.
Mas para todo A F 0 , lembrando que A tambm pertence a F 00 e usando a
definio de esperana condicional duas vezes,

 

E E E( X |F 00 ) F 0 1 A = E E( X |F 00 )1 A = E( X1 A ).
(4.25)
O que termina a prova da proposio.
Lema 4.2.10. Se X : E um elemento aleatrio e f : R ( X )-mensurvel,
ento existe uma g : E R mensurvel tal que f = g X.
Demonstrao. Como de costume, consideramos primeiramente o caso f = 1 A
Claramente A tem que pertencer a ( X ), ou seja A = X 1 ( B) para algum B A.
Neste caso colocamos g = 1B , donde obtemos f ( ) = 1 A X ( )
B g X = 1.
No caso em que f simples, temos f = i ai ( gi X ) = (i ai gi ) X. Se f
positiva, ento ela um limite crescente de funes do tipo gn X, alm disso
podemos tomar gn crescentes, pois
f n+1 = f n+1 f n = ( gn+1 X ) ( gn X ) = ( gn gn+1 ) X.

(4.26)

Finalmente usamos a linearidade da composio novamente para resolver o


caso geral f = f + f .
Se X : E elemento aleatrio, ento E(Y |( X )) obviamente ( X )mensurvel. Pelo lema anterior, E(Y | ( X )) = g X para alguma g : E R.
Nesse caso denotamos
E (Y | X = x ) = g ( x ) .
(4.27)
Exerccio 4.2.4. Mostre que g nica X P-quase certamente.
Gostaramos de dizer que E(Y | X = x ) satisfaz alguma propriedade que
justifique essa notao. Apesar de que apenas na prxima seo poderemos justificar completamente essa nomenclatura, nesse momento j podemos mostrar
a seguinte relao


E (Y ) = E E (Y | X ) = E E (Y | X = x ) X =

E(Y | X = x )( X P)(dx ).

Em outras palavras, para integrar Y, basta conhecermos a distribuio de X e a


esperana condicional de Y, dado que X = x.
Exerccio 4.2.5. Sejam X e Y as coordenadas cannicas em E1 E2 , com a probabilidade P = 1 2 e seja f : E1 E2 R em L1 ( P). Mostre que
E( f | X = x ) =

100

f ( x, y)2 (dy).

(4.28)

4.2. PROPRIEDADES BSICAS DA ESPERANA CONDICIONAL


Exerccio 4.2.6. Se K um ncleo de transio entre E1 e R e P1 uma probabilidade
em E1 , mostre que em P1 ? K temos
E ( X2 | X1 = x 1 ) =

x2 K ( x1 , dx2 ).

(4.29)

Um outro resultado bastante importante o seguinte


Teorema 4.2.11 (Teorema da Convergncia Dominada para Esperanas Condicionais). Se Xn X e existe Y L1 ( P) tal que | Xn | Y para todo n, ento
E( Xn |F ) E( X |F ) P-quase certamente.

(4.30)

Demonstrao. Seja Zn = supkn | Xk X | o erro mximo partir de n. Claramente, Zn 0 quase certamente e alm disso

| Zn | sup | Xk | + | X | 2Y,

(4.31)

k 1

donde E( Zn ) E(0) = 0, quase certamente pelo Teorema da Convergncia


Dominada.
Obviamente E( Zn |F ) uma sequncia positiva e no-crescente, logo decresce quase certamtente para algum Z. Da,


E( Xn |F ) E( X |F ) E( Zn |F ) Z 0.

(4.32)


Mas E( Z ) E E( Zn |F ) = E( Zn ). Como E( Zn ) vai a zero pelo Teorema da
Convergncia Dominada, temos que Z = 0 quase certamente como gostaramos.

Exerccio 4.2.7. Sejam Z1 , Z2 , . . . variveis aleatrias i.i.d. em L1 ( P) com E( Z1 ) = 0.


a) Defina X0 = 0 e
n

Xn =

Zi , para n 1.

(4.33)

i =1

Mostre que E( Xn+1 | Z1 , . . . , Zn ) = Xn .


b) Supondo agora que Z1 L2 ( P) e E( Z ) = 0, defina Y0 = 0 e
Yn =

Zi

i =1

Mostre que E(Yn+1 | Z1 , . . . , Zn ) = Yn .


101

2

nE( Z12 )

(4.34)

CAPTULO 4. ESPERANA CONDICIONAL

4.3

Probabilidade Condicional Regular

J sabemos definir por exemplo E(1 A | X = x ). Gostaramos porm de garantir


que essa expresso definisse uma probabilidade em A, e chamaramos essa
probabilidade de P( A| X = x ). Mas certamente gostaramos que P(| X = x )
fosse uma funo -aditiva. Essa especulao parece promissora, por exemplo
se A e B so disjuntos,
P( A B|F 0 ) = E(1 A B |F 0 ) = E(1 A |F 0 ) + E(1B |F 0 ) = P( A|F 0 ) + P( B|F 0 ).
timo, mas ainda temos o seguinte problema.
Lembramos que a equao acima est bem definida apenas quase certamente.
Poderamos portanto garantir que para uma classe enumervel de conjuntos
A F , essa aditividade fosse satisfeita. Porm, a -lgebra F frequentemente
no enumervel, portanto no conseguimos a -aditividade plena. Isso pode ser
contornado se o espao for cannico, como afirma o nosso prximo resultado.
Teorema 4.3.1. Seja X : E um elemento aleatrio tomando valores em um espao
cannico E e F 0 uma sub--lgebra qualquer. Ento existe um ncleo K entre e E,
tal que para todo B

K (, B) = E 1[ X B] |F 0 ( ) P-quase certamente.
(4.35)
A esse ncleo, damos o nome Probabilidade Condicional Regular (dada F 0 ), que
denotada por P( X |F 0 ).
Demonstrao. Primeiramente observamos que podemos assumir sem perda de
generalidade que E = R. De fato, suponha que j conhecemos o resultado pra
variveis aleatrias e somos dados X tomando valores em E cannico. Como
E cannico, existe uma bijeo : E R bi-mensurvel, com imagem
mensurvel logo X varivel aletria.
Dessa forma, existe o ncleo K 0 (, ) = P( X |F 0 )( ) e podemos
definir
K (, ) = 1 K 0 (, ),
(4.36)
que ser um ncleo entre e E pois 1 mensurvel. Para mostrar que
K = P( X |F 0 ), tome B A e observe que


K (, B) = K 0 , (1 )1 ( B) = K 0 , ( B)
(4.37)


= E 1[X ( B)] |F = E 1[X B] |F ,
terminando a prova de que suficiente considerar o caso E = R.
Vamos agora considerar X uma varivel aleatria e definimos para cada
q Q,
F (, q) = E(1[ X q] |F 0 )( ),
(4.38)
que mensurvel e bem definida quase certamente.
Observamos que
102

4.3. PROBABILIDADE CONDICIONAL REGULAR


a) F (, q) [0, 1], P-quase certamente para todo q Q, pois 1[ X q] [0, 1].
b) Se q q0 , ento F (, q) F (, q0 ), P-quase certamente, pois 1[ X q]
1[ X q 0 ] .
c) Se escolhemos qn = n (analogamente qn = n), ento F (, n) 1
(analogamente F (, n) 0), P-quase certamente, pois [ X n] e
pelo Teorema da Convergncia Montona para esperanas condicionais.
Tomando a interseo de todos q Q para o tem a), todos q, q0 Q no tem
b) e os dois casos do tem c), encontramos um evento quase certo 0 onde
valem os trs tens acima. Para os pontos de medida nula \ 0 , podemos
redefinir F (, p) como uma funo de distribuio acumulada fixa F0 . Dessa
forma valem os tens a), b) e c) para todos pontos de . Note tambm que
aps essa redefinio, ainda obtemos F (, q) mensurvel para todo q Q, pois
redefinimos F como sendo uma constante em um conjunto mensurvel.
Vamos agora extender as definies acima para F : R
F (, x ) = lim F (, q),
q x

(4.39)

que existe pois F montona e limitada. Assim obtivemos que F (, x ) satisfaz


as trs condices acima para todo ponto, o que caracteriza uma funo acumulada de distribuio. Existe portanto para todo uma medida na reta
tal que

(, x ] = F (, x ),
(4.40)
e definimos K (, A) = ( A).
Exerccio 4.3.1. Mostre que F contnua direita.
Pela Proposio
2.9.2, j sabemos que K um ncleo de transio, pois

K , (, q] mensurvel para todo q e esses conjuntos formam um -sistema
que gera B(R).
Finalmente, precisamos verificar que K a prometida esperana condicional.
Para tanto, fixado B B(R), gostaramos de ver que
K (, B) = E(1[ X B] |F 0 )( ), P-quase certamente.

(4.41)

Definindo como G B(R) a classe onde isso vale, j vimos que G contm
(, q] para q Q pois K (, B) = F (, q) quase certamtente. Mas G um sistema pelo Teorema da Convergncia Montona para esperanas condicionais.
J que G contm um -sistema que gera B(R), terminamos a prova do teorema.
Interpretamos P( X |F 0 ) da seguinte forma. Se algum tiver acesso
-lgebra F 0 (por exemplo se F 0 = (Y ) e uma pessoa for capaz de observar
o valor de Y ( )), ela pode no saber o valor de X ( ), mas j sabe a nova
distribuio condicional de X: P( X |F 0 )( ).
103

CAPTULO 4. ESPERANA CONDICIONAL


Exerccio 4.3.2. Se X varivel aleatria ento
E( X |F 0 ) =

xP( X dx |F 0 ), P-q.c.

(4.42)

Exerccio 4.3.3. Se = E1 E2 com E2 cannico dotado da probabilidade dP =


( x1 , x2 )1 2 (dx1 dx2 ), ento
R
( X1 , x2 )2 (dx2 )
P( X2 A| X1 ) = RA
,
(4.43)
( X1 , x2 )2 (dx2 )
P-quase certamtente.
Uma das grandes vantagens de ter um ncleo de transio a determinar
uma distribuio conjunta, como o caso quando obtemos uma probabilidade
condicional regular, que podemos usar a verso generalizada de Fubini. Antes,
ns somente podiamos usar Fubini para espaos produto.

104

4.4. PRINCPIO DA SUBSTITUIO

4.4

Princpio da substituio

Nessa seo construiremos nossa ltima verso de probabilidade condicional


regular que bem definida em espaos produtos e nos fornecer o que chamamos de Princpio da Substituio. Ele nos ajudar bastante ao fazermos clculos
usando condicionais, de maneira semelhante Lei da Probabilidade Total. Esse
o contedo do seguinte resultado.
Teorema 4.4.1. Sejam espaos mensurveis (, F ) e ( E, A), com E cannico. Se P
uma probabilidade no espao produto ( E, F A) e denotamos por P = P X1 a
primeira distribuio marginal de P, ento existe um ncleo de transio K : A
[0, 1] satisfazendo
P = P ? K,
(4.44)
Em particular,
P( A B) =

Z
A

K (, B) P (d ) para todo A F , B A.

(4.45)

Nesse caso denotamos K (, B) por P[ X2 B| X1 = ] (como de costume Xi denota a


i-sima coordenada cannica).
Demonstrao. Como de costume, basta resolver o caso ( E, A) = (R, B(R)). De
fato, se assumimos a validade do teorema para a reta, podemos usar a funo
bi-mensurvel : E B B(R) para concluir o caso geral.
Nos restringiremos agora ao espao ( R, F B(R), P). Para cada q Q,
q
definimos P : F [0, 1] por

q
P ( A) = P (, q] A .

(4.46)

Observando que P absolutamente contnua com respeito a P , podemos


definir
q
dP
F (, q) =
( ).
(4.47)
dP
Observamos as seguintes propriedades de F:
q

a) para cada q Q, F (, q) [0, 1], P -quase certamente, pois P ( A)


P ( A) para todo A F ,
q

b) para q < q0 Q, F (, q) F (, q0 ), P -quase certamente, pois P ( A)


q0

P ( A) para todo A F e
c) F (, n) 1 (analogamente F (, n) 0) quando n tende a infinito,
P -quase certamente. Para ver isso, note que a sequncia de variveis
aleatrias F (, n) quase certamente montona no decrescente, logo
converge P -quase certamente. Sendo limitada, converge em L1 e como
sua integral em P converge para um, F (, n) 1, quase certamente
(analogamente para F (, n)).
105

CAPTULO 4. ESPERANA CONDICIONAL


Existe pois um conjunto 0 F com P (0 ) = 1 no qual as trs hipteses
acima so satisfeitas. Definimos F (, q) como sendo igual a F (, q) em 0 e
igual a F0 (q) (uma funo de distribuio fixa) caso contrrio (que claramente
ser mensurvel). Finalmente podemos definir F (, x ) = infqQ;q x F (, q),
que satisfaz para todo as hipteses do Teorema 2.3.4. Logo, existe para cada
uma medida K (, ) em (R, B(R)) satisfazendo K (, (, q]) = F (, q)
P -quase certamente.
Precisamos mostrar que K um ncleo, e para isso basta observar que
F (, q) so mensurveis e a famlia {(, q]; q Q} forma um -sistema que
gera B(R).
Finalmente, vamos verificar (4.45), notando que se A F e B = (, q],
Z
A

K (, B) P (d ) =

F (, q) P (d ) = P ( A) = P( A B).

(4.48)

Como a classe B um -sistema gerando B(R) terminamos a prova.


Exerccio 4.4.1. Sejam X1 e X2 as projees cannicas em um espao produto E,
com E cannico. Ento, se X1 e X2 so independentes com respeito a P, vale P[ X2
B| X1 = ] = P[ X2 B] para ( X1 P)-quase todo ponto.
Exerccio 4.4.2. Considere em (R, B(R)) as projees cannicas X1 e X2 . Calcule, em
cada um dos exemplos abaixo, a probabilidade condicional regular P[ X1 | X2 = x2 ],
justificando sua resposta,
a) Quando P a medida uniforme em T = {( x, y) [0, 1]2 ; x y} (ou seja, a
medida de Lebesgue em R2 restrita a T e normalizada para ser uma probabilidade).
b) Quando P a medida US1 (uniforme em S1 ).
O teorema acima bastante poderoso e nos permite definir e calcular diversas coisas como faremos seguir.
Corolrio 4.4.2. Sejam X : E e Y : E0 elemento aleatrios com E cannico.
Ento existe um ncleo de transio K de E a E0 tal que
K ( X ( ), B) = E[1Y B | X ], para todo B A0 .

(4.49)

Tambm denotamos esse ncleo como K ( x, B) = P[Y B| X = x ].


Demonstrao. Defina o elemento aleatrio W : E E0 , dado por W ( ) =
( X ( ), Y ( )). Observe que a medida PW = W P representa a distribuio
conjunta de X e Y no espao produto E E0 . Em particular a marginal na
primeira coordenada X1 PW = X P, denotada por PX . Como PW satisfaz as
condies do Teorema 4.4.1, existe um ncleo K : E A0 [0, 1] tal que para
todo A A, B A0 ,
PW ( A B) =

Z
A

K ( x, B) PX (dx ).

106

(4.50)

4.4. PRINCPIO DA SUBSTITUIO


Fixado B A0 , K ( X ( ), B) obviamente ( X ) mensurvel (por ser uma composio de uma funo mensurvel em E com X), logo para provar 4.49, basta
ver que

 Z


E K ( X ( ), B )1 X A =
K ( x, B) PX (dx ) = PX ( A B) = E 1Y B 1X A ,
A

(4.51)

concluindo a prova do corolrio.

[X = x]

E
x

Figura 4.1: O grfico do elemento aleatrio X representado horizontalmente. Os


pontos marcados no eixo vertical representam o conjunto [ X = x ] que possui
medida um segundo P[ | X = x ] de acordo com o Corolrio 4.4.3

Corolrio 4.4.3. Sejam (, F , P) e ( E, A) espaos mensurveis cannicos. Considere


tambm X : E um elemento aleatrio, ento existe um ncleo de transio K de E
a tal que
K ( X ( ), F ) = E[1F | X ], para todo F F .
(4.52)
Tambm denotamos esse ncleo como K ( x, F ) = P[ F | X = x ], que nico no sentido
que se K 0 tambm satisfaz (4.52), ento K ( x, F ) = K 0 ( x, F ) para ( X P)-quase todo
x E.
Alm disso vale o que chamamos de Princpio da Substituio:
K ( x, [ X = x ]) = 1,

X P-quase certamente.

(4.53)

Que pode ser dito de maneira estranha: P[ X = x | X = x ] = 1, quase certamente.


Demonstrao. Defina o elemento aleatrio W : E , dado por W ( ) =
( X ( ), ), que percorre o grfico de X (representado horizontalmente). Observe
que a medida PW := W P possui marginais ( X1 PW ) = ( X P) e ( X2
107

CAPTULO 4. ESPERANA CONDICIONAL


PW ) = P. Como PW satisfaz as condies do Teorema 4.4.1, existe um ncleo
K : E F [0, 1] tal que para todo A A, F F ,
PW ( A F ) =

Z
A

K ( x, F ) PX (dx ).

(4.54)

Fixado F F , K ( X ( ), F ) obviamente ( X ) mensurvel, por ser uma composio de uma funo mensurvel em E com X. Logo, para provar (4.52),
basta mostrar a segunda propriedade de esperanas condicionais. Se B ( X ),
podemos escrever B = [ X A] para algum A A, donde



 Z
E K ( X, F )1B = E K ( X, F )1[ X A] =
K ( x, F ) PX (dx )
A

(4.55)

= PW ( A F ) = E[1X A 1F ] = E[1B 1F ],
concluindo a prova de (4.52).
Para mostrarmos o Princpio da Substituio, vamos usar o seguinte lema.
Lema 4.4.4. Se X : E um elemento aleatdio tomando valores em um espao
E cannico, ento seu grfico G = {(, X ( )); } mensurvel na -lgebra
produto F A.
Demonstrao. Primeiramente, consideramos o caso ( E, A) = (R, B(R)). Neste
caso, vemos que
\ [


G=
[ X j/2n , ( j + 1)/2n ] j/2n , ( j + 1l )/2n ,
(4.56)
n 1 j Z

que mensurvel.
Caso E seja outro espao cannico qualquer, existe : E B B(R)
bi-mensurvel e G = 1 ( G X ), onde G X o grfico de X e (, x ) =
(, ( x )). Logo G tambm mensurvel nesse caso.
Retornando prova de (4.53), j sabemos que G 0 = {( X ( ), ); }
mensurvel. Alm disso, por definio PW ( G 0 ) = P[( X ( ), ) G 0 ] = P() =
1, ou seja a medida PW tem suporte em G 0 .
Logo podemos escrever
1 = PW ( G 0 ) =

Z Z
Z

1G0 ( x, )K ( x, d )( X P)(dx )
(4.57)

K ( x, [ X = x ])( X P)(dx ).

Mas como o integrado acima pertence a [0, 1], essa integral s pode ser um se
K ( x, [ X = x ]) = 1, ( X P)-quase certamente, como desejado.
Exerccio 4.4.3. Mostre que se K ( x, F ) = P[ F | X = x ], ento
Z

f ( 0 )K ( X ( ), d 0 ) = E( f | X )( ), para toda f F .
108

(4.58)

4.4. PRINCPIO DA SUBSTITUIO


Vamos agora mostrar uma aplicao do Princpio da Substituio que inclusive justificar o nome dessa propriedade.
Lema 4.4.5. Se X, Y so variveis aleatrias independentes, ento a funo de distribuio acumulada F de X + Y dada por
F (z) = P[ X + Y z] =

FY (z x )( X P)(dx ),

(4.59)

onde FY (y) = P[Y y].


Esse lema pode ser visto como uma generalizao do Exerccio 2.5.15 para o
caso no absolutamente contnuo. Vale a pena tentar diferenciar (no rigorosamente) a equao acima em z.
Demonstrao. Vamos calcular
P [ X + Y z ] = E E ( 1 [ X +Y z ] | X )


= E E ( 1 [ X +Y z ] | X )


= E P[ X + Y z| X = ) X


= E P[ X + Y z, X = x | X = ) X


= E P[Y z x | X = ] X ,

(4.60)

onde P[Y + X z| X = ] representa a funo x 7 P[Y + X z| X = x ].


Agora vamos usar a hiptese que X e Y so independentes. Isso equivale a
dizer que a distribuio conjunta desse par igual a PX PY e pela unicidade
da probabilidade condicional regular temos que P[Y F | X = x ] = P[Y F ],
( X P)-quase certamente. Portanto,
 Z
P[ X + Y z] = E P[Y z ] X =

FY (z x )( X P)(dx ),

(4.61)

terminando a prova do lema.


Exerccio 4.4.4. Considere as medidas
a =

1 + 1
,
2

b = N (0, 1).

(4.62)

e K : R B(R) [0, 1] dada por


(
K ( x, A) =

a ( A x ),
b ( A x ),

se x < 0,
se x 0,

Mostre que
a) K define um ncleo de transio entre R em R.
109

(4.63)

CAPTULO 4. ESPERANA CONDICIONAL


b) Se X1 , X2 , . . . for uma cadeia de Markov em R com ncleo de transio K, ento
calcule
i) E( Xi ), para todo i 1 e
ii) Var( Xi ), para todo i 1.
iii) Mostre que

in=1 Xi

N (0, 1).
n

110

(4.64)

Captulo 5

Solues de exerccios

Soluo de 3.3.3 Primeiramente, vamos ver qual a distribuio de R0 . Vamos


escrever R0 = E0 + D0 , onde E0 o nmero de casas acessveis esquerda e
D0 direita. Note que E0 e D0 so independentes e identicamente distribudas,
com
P[ D0 = l ] = P[ Xl = 1, Xi = 0 para i = 0, . . . , l 1] = p(1 p)l .

(5.1)

Podemos agora calcular


P [ R0 = k ] =

l =0

l =0

P[ D0 = l, E0 = k l ] = p2 (1 p)k = p2 k(1 p)k .

(5.2)

Alm disso,
E( R0 ) = 2E( D0 ) =

l =0

l =0

lP[ D0 = l ] = 2p l (1 p)l =

2(1 p )
=: m.
p

(5.3)

O que resolve o primeiro tem.


O grande problema do segundo tem que as variveis Ri no so independentes, veja por exemplo que P[ R0 = 0, R1 = 2, R2 = 0] = 0. Nesse caso,
o mtodo do segundo momento deve ser feito com ateno. Chamando de
Sn = in=1 Ri , temos

h 1
i
Var(Sn )


P Sn E ( R0 ) > a
,
n
a2 n2
111

(5.4)

CAPTULO 5. SOLUES DE EXERCCIOS


mas a varincia da soma no se torna a soma das varincias. De fato
Var(Sn ) = E

( Ri E( Ri ))

2 

i =1
n

Ri E ( Ri )

R j E( R j )



i =1 j =1

n 1

Cov( Ri , R j ) = nVar( R0 ) + 2 (n k)Cov( R0 , Rk ).

i =1 j =1

k =1

(5.5)
Aqui j temos metade da estimativa resolvida, mas ainda falta obter uma estimativa explcita.
Ento precisamos estimar superiormente Cov( Ri , R j ) = Cov( R0 , R j1 ). Podemos calcular essa quantidade explicitamente, mas vamos evitar contas chatas
fazendo uma estimativa do tipo
Cov( R0 , Rk ) c exp{c0 k}, para todo k 1.

(5.6)

O que nos daria que


n 1

Var(Sn ) nVar( R0 ) + 2

(n k)c exp{c0 k} c00 n.

(5.7)

k =1

Donde a probabilidade que queramos estimar no mximo c/a2 n, como no


caso independente.
Para obter a prometida cota para a covarincia, observe que podemos truncar
D0 e Ek para obter independncia. Definindo
R0 = E0 + ( D0 bk/2c) e R k = Dk + ( Ek bk/2c),

(5.8)

temos que R 0 e R k so independentes (pois dependem de elos disjuntos). Da


Cov( R0 , Rk ) = E( R0 Rk ) m2
= E( R 0 Rk ) + E( R0 Rk 1[ R0 6= R 0 ] [ Rk 6= R k ]) m2

E( R 0 )2 m2 + E ( E0 + D0 )( Ek + Dk )1[ R0 6= R 0 ] [ Rk 6= R k ]

E ( E0 + k + Dk )2 1[ R0 6= R 0 ] [ Rk 6= R k ]


= E ( E0 + k + Dk )2 P [ R0 6= R 0 ] [ Rk 6= R k ]

2E( E02 ) + k2 + 2kE( E0 ) + E( E0 )2 2 P[ R0 6= R 0 ]

ck2 (1 p)bk/2c c exp{c0 k}.


(5.9)
Finalizando a cota para a covarincia.

112

Referncias Bibliogrficas

[BR06] B. Bollobs and O. Riordan, Percolation, Cambridge University Press,


2006.
[Gri99] Geoffrey Grimmett, Percolation, second ed., Grundlehren der Mathematischen Wissenschaften [Fundamental Principles of Mathematical Sciences], vol. 321, Springer-Verlag, Berlin, 1999. MR 1707339 (2001a:60114)

113

REFERNCIAS BIBLIOGRFICAS

114

Contribuies

Somos gratos a
Roberto Imbuzeiro de Oliveira
Milton Jara
Cludio Landim
Conrado Costa
Rangel Baldasso
por diversas discusses, sugestes e correes no contedo do texto.

115

ndice Remissivo

[ satisfaz Q], 3
anel de conjuntos, 26
bi-mensurvel, 42
Cadia de Markov, 48
cdlg, 15
condio de compatibilidade, 28
conjunto
livre de somas, 13
continuidade no vazio, 26
convergncia
fraca, 75
coordenadas cannicas, 27
densidade, 14
Desigualdade de Markov, 54
distribuio, 9
binomial, 11
conjunta, 34
de Bernoulli, 11
de Poisson, 23
exponencial, 14
geomtrica, 12, 36
marginal, 28
normal, 73
uniforme, 14
dP = d, 14

elemento aleatrio, 8
espao
mensurvel, 2
espao
amostral, 2
cannico, 42
polons, 43
esperana, 51
condicional, 84
aditividade, 85
desigualdade de Jensen, 88
monotonicidade, 86
T.C.D., 90
T.C.M., 87
torre, 89
evento, 1, 2
funo
geradora de momentos, 64
taxa, 67
funo de distribuio, 14
FX , 15
incluso e excluso, 4
independncia
de elementos, 18
de eventos, 17, 18
de -lgebras, 18
116

NDICE REMISSIVO
-sistema, 6
Lei
{0, 1} de Kolmogorov, 63
dos Pequenos Nmeros, 24
Forte dos Grandes Nmeros, 60
Fraca dos Grandes Nmeros, 57
Mtodo Probabilstico, 13
momento
primeiro, 55
segundo, 58
k1 2 k, 21
ncleo de transio, 39
-sistema, 6
Princpio
da Substituio, 95
de Grandes Desvios, 67
Princpio de Grandes Desvios, 69
probabilidade, 3
condicional, 35
regular, 91
-lgebra, 2
caudal, 63
de borel, 2
gerada por G , 2
trivial, 63
Teorema
Central do Limite, 79
da Extenso de Caratheodory, 26
da Extenso, 28, 43
de Dynkin, 6
de Fubini para Ncleos, 40
de Portmanteau, 76
trasformada
de Laplace, 64
variao total, 21
varincia, 55
varivel aleatria, 8
integrvel, 51
X d , 9
X d Y, 9
117

Vous aimerez peut-être aussi