Vous êtes sur la page 1sur 21

1 Convergências

Observação 1.1. Inicialmente relembramos algumas desigualdades em variáveis aleatórias.

(i) Desigualdade Básica de Chebyshev. Seja X uma variável aleatória não negativa
(valor esperado existe) e considere a > 0. Então

E(X)
P(X > a) 6 .
a
(ii) Desigualdade Clássica de Chebyshev. Seja X uma variável aleatória com variância
finita e t > 0. Então

Var(X)
P(|X − E(X)| > t) 6 .
t2
Definição 1.1. (Convergência em Probabilidade) A sequência de variáveis aleatórias
X1 , X2 , · · · converge em probabilidade para a variável aleatória X se para todo ² > 0 fixo
tem-se

lim P(|Xn − X| > ²) = 0.


n→∞
P X. Também chamada de convergência fraca.
Notação: Xn −→

Exemplo 1.1. Seja¡ {X¢ n , n > 1} uma sequência de variáveis aleatórias, onde Xn ∼
1 n P
Ber(pn ), onde pn = 2 , para n = 1, 2, · · · . Verifique se Xn −→ 0, quando n → ∞.
Temos que para todo ² > 0 fixo,

¡ 1 ¢n
E(Xn ) 1 2 1
P(|Xn − X| > ²) = P(|Xn | > ²) = P(Xn > ²) 6 = = → 0,
² ² 2n ²
P 0
quando n → ∞. Portanto, Xn −→

(1) Usamos a Desigualdade Básica de Chebyshev.

Definição 1.2. (Convergência em Distribuição) Seja {Xn , n > 1} uma sequência de


variáveis aleatórias e FX1 (·), FX2 (·), · · · suas respectivas funções de distribuição. Se existe
uma variável aleatória X com função de distribuição F (·) tal que, quando n → ∞,

FXn (x) → F (x),


em todos os pontos x tal que F (·) é contı́nua, então dizemos que FXn (·) converge em
distribuição (ou em lei) para F (·).
Notação: Xn −→ d X ou F d
Xn −→FX

Exemplo 1.2. Considere a sequência de funções de distribuição


½
0, se x < n;
FXn (x) =
1, se x > n.
Aqui FXn (x) é a função de distribuição da variável aleatória Xn degenerada em x = n.
Vemos que FXn (x) converge para a função F que é identicamente igual a 0, e então não
é uma função de distribuição.

1
Observação 1.2. Diz-se que uma variável aleatória X possui função de distribuição
degenerada em a ∈ R, se P(X = a) = 1.

Exemplo 1.3. Seja {Xn , n > 1} uma sequência de i.i.d. variáveis aleatórias com função
densidade de probabilidade comum dada por
 1
 θ , se 0 < x < θ,
f (x) =

0, c.c.
onde 0 < θ < ∞.
Seja X(n) = max(X1 , X2 , · · · , Xn ). Então a densidade de X(n) é dada por
 nxn−1
 θn , se 0 < x < θ
fX(n) (x) =

0, c.c.
e a função de distribuição de X(n) é dada por


 0, se x < 0,


 ¡ ¢
x n
FX(n) (x) = θ , se 0 6 x < θ





1, se x > θ.
Vemos que, quando n → ∞,

 0, se x < θ,
FX(n) (x) → F (x) =

1, se x > θ,
d F.
a qual é uma função de distribuição. Assim, FX(n) −→

O próximo exemplo vem para mostrar que a convergência da função de distribuição


não implica na convergência das correspondentes função massa de probabilidade ou função
densidade de probabilidade.

Exemplo 1.4. Seja {Xn , n > 1} uma sequência de variáveis aleatórias com função massa
de probabilidade dada por
½
1, se x = 2 + n1 ,
fXn (x) = P(Xn = x) =
0, c.c.
Note que nenhuma das fXn atribuı́ qualquer probabilidade para o ponto x = 2. Segue
que

fXn (x) → fX (x) quando n → ∞,


onde fX (x) = 0 para todo x. Contudo, a sequência de funções de distribuição {FXn , n >
1} das variáveis aleatórias {Xn , n > 1} converge para a função
½
0, se x < 2,
FX (x) =
1, se x > 2,
em todo ponto de continuidade da FX . Como FX é a função de distribuição da variável
d F.
aleatória degenerada em x = 2, temos que FX(n) −→

2
Teorema 1.1. (Teorema de Helly - Bray) Sejam {Xn , n > 1} e X variáveis aleatórias
d
com finção de distribuição {FXn , n > 1} e FX , respectivamente. Se Xn −→ X e g é uma
função contı́nua e limitada, então
Z ∞ Z ∞
g(x)dFXn (x) −n−→
−−∞
→ g(x)dFX (x).
−∞ −∞
Ou seja,
Z ∞ Z ∞
g(x)fXn (x)dx −
n−→
−−∞
→ g(x)fX (x)dx,
−∞ −∞

Teorema 1.2. (Teorema da Continuidade de Paul Levy) Sejam {FXn , n > 1} e FX


funções de distribuições com funções caracterı́sticas {ϕXn , n > 1} e ϕX , respectivamente.
Então,
Se ϕXn converge para um limite ϕ e se ϕ é contı́nua no ponto zero, então

(i) Se FXn → FX ,para todo ponto de continuidade de FX , então ϕXn → ϕX , quando


n → ∞.

(ii) Se ϕXn converge, quando n → ∞ e t ∈ R, para uma função g(t) que é contı́nua
em t = 0, então g é uma função caracterı́stica. Se FX for a função de distribuição
correspondente à g, então FXn −→ FX , quando n → ∞, em todos os pontos de
continuidade de FX .

Observação 1.3. O Teorema da Continuidade de Paul Levy estabelece uma equivalência


entre convergência em distribuição e a convergência das respectivas funções caracterı́sticas.
Portanto, a verificação de convergência em distribuição pode ser feita pela verificação do
comportamento limite da função caracterı́stica.

Corolário 1.1. Seja {Xn , n > 1} uma sequência de variáveis aleatórias. Se ϕXn (t) →
ϕ(t), pata todo t ∈ R, e se ϕ é contı́nua no ponto zero, então ϕ é função caracterı́stica de
d
alguma variável aleatória, digamos ϕ = ϕX , e Xn −→ X.

Observação 1.4. A necessidade da função g ser contı́nua no ponto t = 0, é essencial. De


nt2
fato, seja Xn ∼ N (0, n) e assim, ϕXn (t) = e− . Então,
2

½
1, se t = 0,
ϕXn (t) → g(t) com g(t) =
0, se t 6= 0,
e, portanto, g não é contı́nua em 0. A conclusão da parte (ii) do Teorema da Continuidade
de Paul Levy não vale pois, para todo x ∈ R temos
x 1
FXn (x) = P(Xn 6 x) = P(Z 6 √ ) → , quando n → ∞,
n 2
onde Z ∼ N (0, 1). O problema reside em que FX (x) = 21 , para todo x ∈ R não é função
de distribuição.

Exemplo 1.5. Seja {Xn , n > 1} uma sequência de variáveis aleatórias com distribuição
Erlang de ordem n e com parâmetro 1 Temos que Erln (1) é uma Γ(n, 1). Então,

λn xn−1 e−λx
fX (x) = , para x, λ > 0.
Γ(n)

3
Vamos verificar que Yn = (x√
n −n)
n
converge em distribuição para a N (0, 1).
Primeiramente, vamos encontrar a função caracterı́stica da variável aleatória Xn , isto
é,
Z ∞ µ ¶n
xn−1 1
ϕXn (t) = E(eitXn ) = eitx−x dx = , para t real.
0 (n − 1)! 1 − it
Assim, a função caracterı́stica da variável aleatória Yn é dada por
µ ¶
itYn it −n −it√n
ϕYn (t) = E(e )= 1− √ e .
n
Aplicando a função logarı́tmica a ambos os lados da igualdade acima temos

µ ¶
√ it
log(E(eitYn )) = −it n − n log 1 − √
n
µ 2

√ −it t it3
= −it n − n √ + + √ + ···
n 2n 3n n
t2
= − + Rn (t),
2
com³ o resto´Rn (t) indo a zero, quando n → ∞. Note que a expansão em série do termo

log 1 − √itn é válida, pois, para n suficientemente grande, |it/ n| < 1 para todo t ∈ R.
Aplicando a função exponencial e o limite, quando n → ∞, nesta ordem, a ambos os
lados da igualdade acima, temos que
t2
lim ϕYn (t) = e− 2 , para todo t ∈ R,
n→∞

a qual é uma função contı́nua em t = 0 e, como é a função caracterı́stica da distribuição


d
N (0, 1), segue pelo Teorema da Continuidade de Paul Levy que Yn −→ N (0, 1). Em
d
outras palavras, Yn −→ Z, onde Z ∼ N (0, 1).

Definição 1.3. (Convergência em Média) Seja {Xn , n > 1} uma sequência de variáveis
aleatórias tal que E(Xnr ) < ∞ para algum r > 0. Dizemos que Xn converge em média r
ou Lr para X, se E(|Xn |r ) < ∞ e

lim E(|Xn − X|r ) = 0.


n→∞
r X.
Notação: Xn −→

Observação 1.5. Para r = 2, temos a convergência em média quadrática, que é um dos


casos mais utilizados.

Exemplo 1.6. Seja {Xn , n > 1} uma sequência de variáveis aleatórias definidas por
1 1
P(Xn = 0) = 1 − , P(Xn = 1) = n > 1.
n n
Então
1
E(|Xn |2 ) = E(Xn2 ) = → 0, quando n → ∞,
n
2
e vemos que Xn −→ X, onde X é a variável aleatória degenerada em 0.

4
O seguinte exemplo mostra que convergência em distribuição não implica em con-
vergência em média r.
Exemplo 1.7. Seja {FXn , n > 1} uma sequência de funções de distribuição definidas por

 0, se x < 0,
1
FXn (x) = 1 − n , se 0 6 x < n,

1, se x > n.
d F , onde F é uma função de distribuição dada por
Vemos que FXn −→ X X
½
0, se x < 0,
FX (x) =
1, se x > 0.
Note que FXn é a função de distribuição da variável aleatória Xn a qual possui função
massa de probabilidade dada por
1 1
P(Xn = 0) = 1 − , P(Xn = n) = ,
n n
e FX é a função de distribuição da variável aleatória X degenerada em 0 Assim, temos
que
µ ¶
1
E(Xnk ) =n k
= nk−1 ,
n
onde k é um inteiro positivo. Também E(xk ) = 0. Assim,

E(Xnk ) 9 E(X k ), para qualquer k.


Proposição 1.1. A convergência em probabilidade implica em convergência em dis-
tribuição, isto é,
P d
Xn −→ X ⇒ Xn −→ X.
A convergência em distribuição não implica em convergência em probabilidade, con-
forme o exemplo a seguir. Um caso particular, em que essa implicação é verdadeira, é
apresentado na Proposição 1.2 abaixo.
Exemplo 1.8. Seja (Ω, F, P) um espaço de probabilidade com Ω = {1, 2}, F a σ-álgebra
gerada pelas partes de Ω e P a probabilidade uniforme em Ω. Considere as variáveis
aleatórias
½ ½
0, se w = 1, 1, se w = 1,
X(w) = e, para n ∈ N, Xn (w) =
1, se w = 2, 0, se w = 2.
Note que, para todas as funções de distribuição, temos igualdade entre elas, em todos
os valores de x ∈ R e n ∈ N


 0, se x < 0,



1
FXn (x) = FX (x) =
 2 , se 0 6 x < 1,




1, se x > 1.
d
Então vale a convergência em distribuição de Xn para X, isto é, Xn −→ X. Entre-
tanto, tomando ² = 12 , temos

5
1
P(|Xn (w) − X(w)| > = 1,
2
para qualquer que seja n ∈ N, w ∈ Ω e, assim, não vale a convergência em probabilidade,
P
isto é, Xn 9 X.
Proposição 1.2. Suponha que uma sequência de variáveis aleatórias {Xn , n > 1} con-
d P
verge em distribuição para uma constante c, istó é, Xn −→ c, então Xn −→ c.
Definição 1.4. (Convergência Quase Certa) Seja {Xn , n > 1} uma sequência de
variáveis aleatórias. Dizemos que Xn converge quase certamente para X, se existir um
conjunto A ∈ F tal que P(A) = 0 e

Xn → X em Ac , quando n → ∞.
q.c.
Notação: Xn −→ X. Também é denominada de convergência em quase toda parte ou
convergência forte.
Observação 1.6. Dizemos que Xn → X em Ω quando n → ∞ se, para cada ² > 0 e
w ∈ Ω, existe um inteiro n(², w) tal que

|Xn (w) − X(w)| < ² para n > n(², w).

Exemplo 1.9. Seja w um número real em (0, 1). Definimos Xn (w) = [nw] n , em que [nw]
é o maior inteiro contido em nw. Pode-se verificar que limn→∞ Xn (w) = w, para todo
w ∈ (0, 1). Logo a sequência converge para X(w) = w em Ω e, em particular, temos que
q.c.
Xn −→ X. Neste caso, o conjunto em que não há convergência é o conjunto vazio.
Teorema 1.3. Sejam {Xn , n > 1} e X variáveis aleatórias em um mesmo espaço de
q.c. r
probabilidade (Ω, P, F) Então qualquer uma das convergências, Xn −→ X ou Xn −→X,
P
implica em Xn −→X.

Figura 1: Relação entre os Modos de Convergência.

Proposição 1.3. (Funções Contı́nuas Preservam Convergência) Sejam {Xn , n >


1} e X variáveis aleatórias em um mesmo espaço de probabilidade (Ω, P, F) com funções
de distribuição {FXn , n > 1} e FX , respectivamente. Seja g : R → R uma função contı́nua.
Então, se Xn converge para X em quase toda parte, em probabilidade ou em distribuição,
o mesmo ocorre com g(Xn ) para g(X), no mesmo modo de convergência
Aplicação 1.1. Uma aplicação da Proposição 1.3 permite avaliar, a partir do que ocorre
com Xn , a convergência de Xn2 e aXn + b, a e b constantes. A seguir, temos alguns
exemplos.

6
d d
(i) Se Xn −→ Z, onde Z ∼ N (0, 1), então Xn2 −→ Z 2 , onde Z 2 ∼ χ21 .
q.c. q.c.
(ii) Se Xn −→ c, então Xn eXn −→ cec .

Aplicação 1.2. Suponha que {Xn , n > 1} e {Yn , n > 1}, são duas sequências de variáveis
aleatórias que convergem quase certamente para X e Y , respectivamente. A convergência
individual é equivalente à convergência quase certa do vetor (Xn , Yn ) para (X, Y ). Apli-
cando a Proposição 1.3com g(x, y) = x+y, que é uma função contı́nua, temos os seguintes
resultados.
q.c. q.c. q.c.
(i) Se Xn −→ X e Yn −→ Y ⇒ Xn + Yn −→ X + Y .
P P P
(ii) Se Xn −→ X e Yn −→ Y ⇒ Xn + Yn −→ X + Y .
d d
No caso da convergência em distribuição, Xn −→ X e Yn −→ Y não são condições
suficientes para concluir a convergência em distribuição da soma Xn + Yn para X + Y .

Contra Exemplo 1.1. Considere que X uma variável aleatória não nula e simétrica
d d
em torno do zero e tome Yn = −Xn . Dessa forma, se Xn −→ X, então Yn −→ X pois
FX (x) = F−X (x), para todo x ∈ R. Por outro lado, observe que, para todo n ∈ N,
Yn + Xn = 0 (variável aleatória degenerada em zero, isto é, só assume o valor zero, ou
d
seja, P(Yn + Xn = 0) = 1) e, portanto, Yn + Xn −→ 0. Logo, não temos convergência em
d
distribuição de Yn + Xn para 2X, isto é, Yn + Xn 9 X + X = 2X.

Observação 1.7. Uma variável aleatória X é simétrica em torno do zero, se X e −X


tiverem a mesma distribuição, isto é, FX (x) = F−X (x), para todo x ∈ R. A variável
aleatória X é simétrica em torno do zero se e so se FX (−x) = 1 − FX (x− ), para todo
x ∈ R.

O Teorema 1.4 a seguir, apresenta o comportamento da soma e do produto de variáveis


aleatórias, uma convergindo em distribuição e outra em probabilidade.

Teorema 1.4. (Teorema de Slutsky) Sejam {Xn , n > 1}, {Yn , n > 1} e X variáveis
d P
aleatórias tais que Xn −→ X e Yn −→ c, onde c constante. Então,
d
(i) Xn ± Yn −→ X ± c;

d
 Xn Yn −→ cX, se c 6= 0,
(ii)
 P
Xn Yn −→ 0, se c = 0;

Xn d X
(iii) Se c 6= 0, Yn −→ c, desde que P(Yn 6= 0) = 1 e se c 6= 0.

Exemplo 1.10. Considere X1 , · · · , Xn variáveis aleatórias i.i.d. (amostra aleatória),


onde Xj ∼ N (µ, σ 2 ), para j = 1, · · · , n.
Relembre que os estimadores para a média e variância populacionais (dados em função
das variáveis aleatórias) são dados, respectivamente, por
n n
1X 1 X
X= Xj e s2 = (Xj − X)2 .
n n−1
j=1 j=1

7
P
(i) Vamos verificar que s2 −→ σ 2 .
Lembre que

n
X (Xj − X)2
∼ χ2n−1 .
σ2
j=1

Como sabemos, s2 é um estimador não tendencioso para a variância da amostra,


isto é, E(S 2 ) = σ 2 e, também

n
(n − 1) X (Xj − X)2 (n − 1)s2
= ∼ χ2n−1 .
σ2 (n − 1) σ2
j=1
³ 2
´ ³ ´
(n−1)s (n−1)s2
Então E σ2
= n − 1 e Var σ2
= 2(n − 1). Logo,

(n − 1)2
Var(s2 ) = 2(n − 1).
σ4
2σ 4
Ou seja, Var(s2 ) = (n−1) ·

Pela Desigualdade Clássica de Chebyshev, para qualquer ² > 0,

Var(s2 ) 2σ 2
P(|S 2 − σ 2 | > ²) 6 = → 0, quando n → ∞,
²2 ²2 (n − 1)
P
e, portanto, s2 −→ σ 2 .
X−µ d
(ii) Seja T = √ .
s/ n
Vamos verificar que T −→ Z, onde Z ∼ N (0, 1).
σ2 X−µ
Sabemos que E(X) = µ e Var(X) = n . Então √
σ/ n
∼ N (0, 1), para todo n. Logo,
X−µ d

σ/ n
−→ Z, onde Z ∼ N (0, 1).
q
P s2 P 2 P
Pelo item (i), temos que −→ s2 logo −→ 1. Então σs 2 −→ 1, pois g(x) =
σ2, σ2

x é contı́nua e pela Proposição 1.3 (Funções Contı́nuas Preservam Convergência).
Assim, pelo Teorema de Slutsky (Teorema 1.4) temos que

√ X−µ
X −µ σ/ n d Z
√ = q −→ = Z, quando n → ∞,
s/ n s2 1
σ2

onde Z ∼ N (0, 1).

Observação 1.8. Sejam X1 , · · · , Xn variáveis aleatórias i.i.d. (amostra aleatória), onde


X−µ Pn
Xj ∼ N (µ, σ 2 ), para j = 1, · · · , n. Considere T = s/√ , onde X = 1 e s2 =
n n j=1 Xj ,
1 Pn 2
n−1 j=1 (Xj − X) .
Temos que

√ X−µ
X −µ σ/ n Z
T = √ = q =q ,
s/ n s2 s2
σ2 σ2

8
2
onde Z = X−µ

σ/ n
∼ N (0, 1). Lembrando que (n−1)s
σ2
∼ χ2n−1 , temos que
√ √ √
Z Z n−1 Z n−1 Z n−1 Z
T = q = q √ = q = √ =p ,
s2 s2 n−1 (n−1)s 2
Y Y /(n − 1)
σ2 σ2 σ2
(n−1)s2
onde Y = σ2
· Portanto, pela definição da distribuição t, temos que T ∼ tn−1 .
d
Assim, vemos que T −→ Z, quando n → ∞, onde T ∼ tn−1 e Z ∼ N (0, 1), ou seja,
para valores grande de n, a distribuição t-Student pode ser calculada, aproximadamente,
pela distribuição N (0, 1).

2 A Lei dos Grandes Números - L.G.N.


A Lei dos Grandes Números afirma que a média aritmética dos n valores observados é
aproximadamente igual a E(X) quando n é grande. De fato, ela afirma que esta média
aritmética converge, em certo sentido, para a média E(X), quando n → ∞.
Em termos de variáveis aleatórias a Lei dos Grandes Números refere-se a:

Sn X1 + · · · + Xn
= −→ E(X1 ),
n n n→∞
em certo sentido.
Teorema 2.1. (A Lei Fraca dos Grandes Números) Seja {Xn , n > 1} uma seqüência
de variáveis aleatórias i.i.d.. Se a esperança µ = E(Xn ) existe, isto é, E(Xn ) < ∞, para
todo n > 1, então, para todo ε > 0,
½¯ ¯ ¾
¯ Sn ¯ Sn P
P ¯ ¯ ¯
− µ¯ > ε −→ 0, isto é, −→ µ,
n n→∞ n
P
quando n → ∞, onde Sn = nj=1 Xj .
Prova: Aplicaremos a Desigualdade de Tchebychev à variável aleatória Sn /n. Temos
que
µ ¶ n
Sn 1 1X
E = E(Sn ) = E(Xj ) = µ,
n n n
j=1
e
µ ¶ n
Sn 1 1 X σ2
Var = Var(Sn ) = Var(X j ) = .
n n2 n2 n
j=1

Pela Desigualdade de Tchebychev, temos que, para todo ε > 0,


½¯ ¯ ¾
¯ Sn ¯ σ2
P ¯¯ ¯
− µ¯ > ε 6 2 . (2.1)
n nε
Tomando o limite quando n → ∞, temos que
½¯ ¯ ¾
¯ Sn ¯ σ2
¯
lim P ¯ ¯
− µ¯ > ε 6 lim = 0. (2.2)
n→∞ n n→∞ nε2

Lembre que
½¯ ¯ ¾
¯ Sn ¯
¯
P ¯ ¯
− µ¯ > ε > 0, para todo n > 1. (2.3)
n

9
Logo, pelas equações (2.2) e (2.3), temos que
½¯ ¯ ¾
¯ Sn ¯
lim P ¯ ¯ ¯
− µ¯ > ε = 0.
n→∞ n

Um caso particular importante é aquele em que Xi = 1 (sucesso) com probabilidade


p e Xi = 0 (falha) com probabilidade (1 − p) para i = 1, 2, 3, · · · , que corresponde a uma
seqüência de ensaios de Bernoulli. Snn representa a freqüência relativa de sucessos em n
ensaios. Neste caso, na equação (2.1) temos µ = p e σ 2 = p(1 − p). Assim,
½¯ ¯ ¾
¯ Sn ¯ p(1 − p)
P ¯ ¯ ¯
− p¯ > ε 6 . (2.4)
n nε2
A expressão do lado direito tende a zero quando n → ∞.
A Lei Fraca diz que Snn , a freqüência relativa dos sucessos, converge em probabilidade
para p.

Exemplo 2.1. Seja 0 < δ < 1 arbitrário. Podemos utilizar expressão (2.4) para deter-
minar um n a partir do qual
½¯ ¯ ¾
¯ Sn ¯
P ¯¯ − p¯¯ > ε 6 δ. (2.5)
n
p(1−p)
Comparando as equações (2.4) e (2.5), vemos que se nε2
< δ esta condição esta
satisfeita. Resolvendo esta desigualdade em n temos

p(1 − p)
n> . (2.6)
δε2
Suponha que p = 0.3, δ = 0.01 e ε = 0.05. Substituindo esses valores na equação
(2.6), temos que n > 8400.
Suponhamos agora que p fosse desconhecido e façamos a mesma pergunta com δ = 0.01
e ε = 0.05. Notemos que a função p(1 − p) está definida no intervalo [0, 1] e assume um
valor máximo para p = 1/2. Logo, p(1 − p) 6 1/4. Se substituirmos p(1 − p) por 1/4 na
equação (2.6), nós obtemos n > 10000.

Teorema 2.2. (A Lei Forte dos Grandes Números) Seja {Xn , n > 1} uma seqüência
de variáveis aleatórias i.i.d. com esperança µ = E(X1 ) < ∞, então

Sn X1 + · · · + Xn q.c.
= −→ E(X1 ),
n n
quando n → ∞.

Observação 2.1. Considerações sobre a Lei dos grandes Números.

(i) Como vimos na seção anterior, a convergência quase certa implica em convergência
em probabilidade. Logo, se uma sequência satisfaz a Lei Forte dos Grandes Números
ela também satisfaz a Lei Fraca.

(ii) Seja {Xn , n > 1} variáveis aleatórias independentes, onde Xn ∼ Ber(p), para n > 1.
Sendo a ocorrência de sucesso, segue que P(A) = p. Para n variáveis aleatórias, ou n
repetições do experimento sucesso-fracasso, temos nA = X1 + · · · + Xn e E(Xj ) = p,
para todo n > 1. Portanto, as Leis dos Grandes Números podem ser expressas da
seguinte forma

10
nA P
−→ p, pela Lei Fraca;
n

nA q.c.
−→ p, pela Lei Forte;
n
Assim, estabelecemos, a convergência da frequência relativa à probabilidade.

Teorema 2.3. (Primeira Lei Forte de Kolmogorov) Sejam {Xn , n > 1} variáveis
P Var(Xn ) < ∞. Então, {X , n > 1}
aleatórias independentes com esperança finita e ∞ n=1 n2 P n
satisfaz a Lei Forte dos Grandes Números, isto é, para Sn = nj=1 Xj temos,

Sn E(Sn ) q.c. Sn q.c. E(Sn )


− −→ 0, ou seja, −→ .
n n n n
Teorema 2.4. (Primeira Lei Forte de Kolmogorov) Sejam {Xn , n > 1} variáveis
aleatórias independentes e identicamente distribuı́das (i.i.d.) com esperança P finita µ.
Então, {Xn , n > 1} satisfaz a Lei Forte dos Grandes Números, isto é, para Sn = nj=1 Xj
temos,

Sn q.c.
−→ µ.
n

2.1 Função de Distribuição Empı́rica


A função de distribuição empı́rica é a função de distribuição de probabilidade (acumulada)
que concentra probabilidade 1/n para cada um dos n números de uma amostra aleatória.

Definição 2.1. Seja X = (X1 , X2 , · · · , Xn ) uma amostra aleatória. Para uma dada
realização da amostra aleatória, a dizer, x = (x1 , x2 , · · · , xn ), a função de distribuição
amostral é a função de distribuição empı́rica, denotada por Fbn (·) e definida por
n
{número de (X1 , X2 , · · · , Xn ) 6 x} 1X
Fbn (x) = = I(−∞,x] (Xj ),
n n
j=1
½
1, se x ∈ A;
onde IA (x) =
0, se x ∈
/ A.

Observação 2.2. (i) Note que a função de distribuição empı́rica como definida acima
é uma função da forma
½ ¾
1 2 n−1
Fbn (·) : R → Un , onde Un := 0, , , · · · , ,1 .
n n n

(ii) Para um dado x fixo, I(−∞,x] (Xj ) := I[Xj 6x] é uma variável aleatória com dis-
tribuição Bernoulli, com parâmetro p = FX (x). Logo, nFbn (x) é uma variável
aleatória com distribuição Binomial, onde E(nFbn (x)) = nFX (x) e Var(nFbn (x)) =
nFX (x)(1 − FX (x)).

Em termos das estatı́sticas de ordem, temos que X(1) 6 X(2) 6 · · · 6 X(n) e suas
realizações x(1) 6 x(2) 6 · · · 6 x(n) a função de distribuição empı́rica Fbn (·) é definida por

11


 0, para x < x(1) ;

Fbn (x) := j
n , para x(j) 6 x < x(j+1) , onde j = 1, · · · , n − 1;



1, para x > x(n) .
No caso onde alguns dos valores são os mesmos, a dizer m dos x1 são iguais, então
neste ponto a função de distribuição empı́rica possui um salto de mn . Isto é, a função de
distribuição empı́rica atribui para cada conjunto Aj := {x(j−1) 6 Xi < x(j) } nos reais a
proporção das observações da amostra aleatória que estão no conjunto.
Quando vemos como uma função das observações (x1 , x2 , · · · , xn ), Fbn (x), possui as
seguintes propriedades

(i) é unicamente definida;

(ii) sua imagem é [0, 1];

(iii) não decrescente e contı́nua a direita;


1
(iv) é seccionalmente constante com saltos (múltiplos de n) nos valores observados.

2.2 Propriedades:
(i) Pela Lei dos Grandes Números, temos que

Fbn (x) −→
q.c.
FX (x) convergência quase certa.

Em outras palavras, Fbn (x) é um estimador consistente e não viciado da função de


distribuição FX (x).

(ii) Pelo Teorema Central do Limite,


n(Fbn (x) − FX (x)),

converge em distribuição para a distribuição Normal N (0, FX (x)(1 − FX (x))) para


x fixo.

12
(a) (b)

(c) (d)
Figura 2: Função de Distribuição Empı́rica para uma amostra aleatória de tamanho n
(vermelho). Em azul é a Função de distribuição teórica. Distribuição utilizada: N (0, 1).
(a) n=30; (b) n=100; (c) n=1000; (d) n=10000.

(a) (b)

(c) (d)
Figura 3: Função de Distribuição Empı́rica para uma amostra aleatória de tamanho n
(vermelho). Em azul é a Função de distribuição teórica. Distribuição utilizada: Exp(1).
(a) n=30; (b) n=100; (c) n=1000; (d) n=10000.

13
3 Teorema Central do Limite - T.C.L.
Teorema 3.1. (Teorema Central do Limite para Variáveis Aleatórias i.i.d.)
Sejam {Xn , n > 1} variáveis aleatórias independentes e identicamente distribuı́das (iid),
com média comum µ e variância comum σ 2 , onde 0 < σ 2 < ∞. Seja Sn = X1 + · · · + Xn .
Então,

Sn − E(Sn ) D Sn − nµ D
p −→ N (0, 1), isto é, √ −→ N (0, 1), quando n → ∞. (3.7)
Var(Sn ) σ n

Observação 3.1. O Teorema Central do Limite nos diz que


µ ¶
Sn − nµ
P √ 6 x −→ FX (x),
σ n n→∞

para todo x ∈ R, onde FX (x) é a função de distribuição da N (0, 1).

Prova: Vamos supor, sem perda de generalidade, que µ = 0. Caso contrário, trocamos Xi
por Xi −P
µ e, desta forma µ = 0. Logo, queremos verificar a convergência em distribuição
de Sn = ni=1 Xi . Para isso, necessitamos mostrar que

S Sn D
p n =√ −→ Z, (3.8)
Var(Sn ) nσ 2

onde Z ∼ N (0, 1).


Pelo Teorema da Continuidade de Paul Lévy (ver Teorema 1.2), para provarmos a
convergência em (3.8), necessitamos mostrar que
t2
ϕ Sn (t) → e− 2 , para todo t ∈ R.

σ n

Pelas propriedades das funções caracterı́sticas, temos que

n
Y µ ¶ µ µ ¶¶n
1 t 2 t
ϕ Sn (t) = ϕX1 +···+Xn (t) = ϕXi √ = ϕXi √
σ

n σ

n
σ n σ n
i=1
µ µ ¶¶n
t
=3 ϕ √ .
σ n

A igualdade 1 ocorre pelas variáveis aleatórias sere independentes, a igualdade 2 ocorre


pelas variáveis aleatórias serem identicamente distribuı́das. Em 3 denotamos ϕXi = ϕ.
Pela fórmula de Taylor para uma função contı́nua em uma vizinhança de t = 0, temos
µ ¶ µ ¶2 µ ¶
t t 1 t t2
ϕ √ = ϕ(0) + √ ϕ0 (0) + √ 00
ϕ (0) + o ,
σ n σ n 2 σ n n
o(x)
onde a notação o(x), indica funções tais que lim
= 0.
x x→0
Lembre que ϕ(0) = 1, ϕ0 (0) = iµ = 0, pois inicialmente supomos que µ = 0, e
ϕ (0) = i2 σ 2 = −σ 2 . Desta forma,
00

14
µ ¶ µ ¶2 µ 2¶
t t 1 t 2 t
ϕ √ = 1+ √ ×0+ √ × (−σ ) + o
σ n σ n 2 σ n n
µ 2¶ µ 2¶
t t
= 1− +o
2n n
 ³ ´
t2
2
t  o n
= 1− 1− 2 .
2n t /n

Observe que
 ³ 2 ´
t h
o n cn in
lim 1 − =1 e lim 1 − = e−c .
n→∞ t2 /n n→∞ n

Assim,

  ³ 2 ´ n
µ µ ¶¶n 2 o t
t t n t2
lim ϕ S√n (t) = lim ϕ √ = lim 1 − 1 −
2
 = e− 2 .
n→∞ σ n n→∞ σ n n→∞ 2n t /n

Portanto, pelo Teorema da Continuidade de Paul Lévy (ver Teorema 1.2), temos que

Sn D
√ −→ Z,
σ n
onde Z ∼ N (0, 1).

Observação 3.2. (i) No Teorema Central do Limite, as variáveis aleatórias Xi ’s po-


dem ser contı́nuas ou discretas.

(ii) A distribuição limite independe da particular distribuição comum das variáveis


aleatórias Xi ’s.
Pn
Xi −nµ
(iii) i=1 √
σ/ n
pode ser reescrito, dividindo-se o denominador por n, da seguinte forma

X −µ
√ , (3.9)
σ/ n

e o Teorema Central do Limite diz que para n suficientemente grande a média


2
amostral tem distribuição aproximadamente N (µ, σn ) ou, o que é equivalente, (3.9)
tem distribuição aproximadamente N (0, 1).

(iv) Pelo Teorema Central do Limite temos que quanto maior o tamanho da amostra
aleatória (número de variáveis aleatórias i.i.d.), melhor é aproximação (Ex: µ é a
média da população. Usamos X, a média amostral(média de uma amostra aleatória)
para estimar µ. Quanto maior o tamanho da amostra mais próximo estaremos
do valor de µ. Estudos, envolvendo simulações, mostram que, em muitos casos,
valores de n ao redor de 30 fornecem aproximações bastante boas para as aplicações
práticas.

15
Teorema 3.2. (O Teorema Central do Limite de De Moivre-Laplace) Seja
{Xn , n > 1} uma seqüência de variáveis aleatórias independentes e identicamente dis-
tribuı́das (iid), com distribuição B(p) (Bernoulli). Assim, µ = E(Xn ) = p e σ 2 =
Var(Xn ) = p(1 − p). Seja Sn = X1 + · · · + Xn . Sabemos que Sn possui distribuição
B(n, p) (Binomial), com E(Sn ) = np e Var(Sn ) = np(1 − p). Então, pelo Teorema Cen-
tral do Limite, temos que

S − np D
p n −→ N (0, 1), quando n → ∞. (3.10)
np(1 − p)
Aplicação 3.1. (Aproximação Normal para o modelo Binomial) Uma conseqüência
direta do Teorema Central do Limite de De Moivre-Laplace é que podemos calcular, de
forma aproximada, probabilidades binomiais com o uso da distribuição Normal.
Note que, com a notação da Observação 3.1 e pelo Teorema 3.2, temos que
à !
Sn − np
P p 6 x −→ FZ (x),
np(1 − p) n→∞

onde FZ (x) é a função de distribuição da N (0, 1).


Dessa forma, se x e y são números reais tais que x < y, vem que
à !
Sn − np
P x< p 6 y ' FZ (y) − FZ (x),
np(1 − p)
para n suficientemente grande.
Logo, se desejar calcular P(a < Sn 6 b), a < b, temos

P(a < Sn 6 b) = P(a − np < Sn − np 6 b − np)


à !
a − np Sn − np b − np
= P p <p 6p
np(1 − p) np(1 − p) np(1 − p)
à ! à !
b − np a − np
' FX p − FX p ,
np(1 − p) np(1 − p)

para n grande.
Pelo procedimento utilizado para avaliar probabilidades com o modelo Normal, pode-
mos considerar que estamos aproximando uma B(n, p) por uma normal com mesma média
e variância, isto é, µ = np e σ 2 = np(1 − p).
Em termos práticos, a aproximação é aceitável, se np > 5 e np(1 − p) > 5. Também,
para um dado n, a aproximação é melhor para p em torno de 0.5.

Exemplo 3.1. Sabe-se que 80% das peças produzidas por uma indústria passam por três
testes de qualidade. Um amostra de 200 peças é escolhida ao acaso da linha de produção.
Qual é a probabilidade de o número de peças na amostra que passam pelos três testes de
qualidade estejam compreendido entre 154 e 170, inclusive os extremos?
Seja S o número de peças na amostra que passa pelos três testes. S tem distribuição
binomial com n = 200 √ e p = 0.8. E(S) = 200 × 0.8 = 160, Var(S) = 200 × 0.8 × 0.2 = 32.
O desvio padrão σS = 32 = 5.66. Utilizando-se o Teorema Central do Limite, temos

16
· ¸
154 − 160 S − 160 170 − 160
P(154 6 S 6 170) = P 6 6
5.66 5.66 5.66

= P(1.06 6 Z 6 1.33)

= P(Z 6 1.33) − P(Z 6 1.06)

= 0.9082 − 0.8554 = 0.0528,


onde Z tem distribuição aproximadamente N (0, 1).
Exemplo 3.2. Suponhamos que {Xn , n > 1} são variáveis aleatórias independentes, com
distribuição de Poisson com parâmetro λ. Seja Sn = X1 + · · · + Xn . Sn tem distribuição

de Poisson com parâmetro nλ. E(Sn ) = nλ, Var(Sn ) = nλ2 e σSn = nλ. Aplicando-se
o Teorema Central do Limite tem-se
· ¸ Z ∞
Sn − nλ 1 2
lim P √ 6x = e−t /2 dt.
n→∞ nλ 2π −∞
Isto é, para n suficientemente grande, a distribuição de Poisson com parâmetro nλ é
aproximadamente normal.
Exemplo 3.3. Um dado é lançado 2500 vezes. Calcula a probabilidade de que a soma
dos pontos obtidos seja menor que 8500 usando a distribuição normal.
Os sucessivos lançamentos produzem variáveis aleatórias independentes com a mesma
distribuição que X1 tal que P(X1 = i) = 16 , para i = 1, 2, · · · , 6. Temos que E(X1 ) = 3.5,
Var(X1 ) = 2.9241 e σ(X1 ) = 1.71.

· ¸
Sn − 8750 8850 − 8750
P(Sn 6 8850) = P 6
85, 5 85.5

= P(Z 6 1.17) = 0.879,


onde Z tem distribuição N (0, 1).
Teorema 3.3. (Teorema Central do Limite para Variáveis Aleatórias Inde-
pendentes) Sejam {Xn , n > 1} variáveis aleatórias independentes, com E(Xj ) = µj e
Var(Xj ) = σj2 , para j > 1. Se
(i) Xj , para j > 1, são uniformemente limitadas, isto é, se para algum M , constante
positiva finita, P(|Xj | < M ) = 1, para todo j > 1;
P 2
(ii) j>1 σj < ∞,

então
 

 Xn 


 


 (X j − µ j ) 

 
j=1
P v 6 a → FZ (a), quando n → ∞,
 uX 


 u n 2 



 t σ j 

 
j=1

onde Z ∼ N (0, 1).

17
Definição 3.1. Uma sequência de variáveis aleatórias {Yn , n > 1} com E(Yn ) = µn e
Var(Yn ) = σn2 , para todo n > 1, é dita ser assintoticamente normal ou normalmente
assintótica, se σn > 0 para n suficientemente grande e

Yn − µn
→ Z, onde Z ∼ N (0, 1).
σn
Notação: Yn é AN (µn , σn2 ).
1 Pn
Exemplo 3.4. Pelo Teorema Central do Limite, temos que X = X n = n j=1 Xj é
σ2
AN (µ, n ).

Teorema 3.4. Seja {Yn , n > 1} uma sequência de variáveis aleatórias. Se Yn é AN (µ, σn2 ),
onde σn2 → 0, quando n → ∞, e se g é uma função diferenciável em µ, então

g(Yn ) é AN (g(µ), [g 0 (µ)]2 σn2 ).


1 Pn
Exemplo 3.5. Pelo Teorema Central do Limite, temos que X = X n = n j=1 Xj é
σ2
AN (µ, n ), e pelo Teorema 3.4,
µ ¶
1 1 σ2
é AN , .
X µ µ4 n

4 Comparação entre o Teorema Central do Limite e a Lei


dos Grandes Números
Seja {Xi , i > 1} uma seqüência de variáveis aleatórias i.i.d. com E(X1 ) = µ < ∞ e
Var(X1 ) = σ 2 < ∞.
O Teorema Central do Limite nos diz que

Sn − E(Sn ) D Sn − nµ D
p −→ N (0, 1), isto é √ −→ N (0, 1), quando n → ∞, (4.11)
Var(Sn ) σ n

ou seja,
µ ¶
Sn − nµ
P √ 6 x −→ FX (x),
σ n n→∞

ou de forma análoga,
Ã√ ¡ ¢ !
n Snn − µ
P 6 x −→ FX (x),
σ n→∞

para todo x ∈ R, onde FX (x) é a função de distribuição da N (0, 1).


Portanto,
µ ¶
Sn σx
P −µ6 √ −→ FX (x).
n n n→∞
Por outro lado, temos que

18
µ¯ ¯ ¶ ï ¯ ! à ! à !
¯ Sn ¯ σ ¯ Sn − µ ¯ Sn
−µ Sn
−µ
¯ ¯ ¯ n ¯ n n
P ¯ − µ¯ > √ = P ¯ σ ¯>1 =P >1 +P 6 −1
n n ¯ √n ¯ √σ √σ
n n
à ! à !
Sn Sn
n −µ n −µ
= 1−P σ <1 +P σ 6 −1
√ √
n n

' 1 − FZ (1) + FZ (−1) =1 2FZ (−1),

quando n é suficientemente grande, onde Z ∼ N (0, 1) e FZ (·) e a função de distribuição da


variável aleatória Z. A igualdade 1 decorre do fato: Uma variável aleatória X é simétrica
se e somente se FX (x) = 1 − FX (x− ), para todo x ∈ R. Sabemos que a distribuição
Normal é simétrica.

Portanto o Teorema ¯Central¯ do Limite nos fornece uma estimativa para a probabili-
dade de que a diferença ¯ Snn − µ¯ seja maior que √σn .

¯ S A Lei
¯ Fraca dos Grandes Números nos diz que a probabilidade de que a diferença
¯ n − µ¯ seja maior do que um número ε > 0 fixado, tende a zero.
n

5 Efeito do Número de Variáveis Aleatórias na Distribuição


de X
Para verificar o efeito do tamanho da amostra aleatória sobre a distribuição de X, va-
mos considerar alguns modelos de variáveis aleatórias (distribuições) e vários tamanhos
amostrais. Simulamos a coleta de amostras de um determinado tamanho do modelo escol-
hido. Repetimos essa coleta um número grande de vezes e calculamos as correspondentes
médias amostrais, podemos obter um histograma dessas realizações, que ficaria muito
próximo da função de probabilidade (massa ou densidade) de X.
Por exemplo, fixe um tamanho da amostra aleatória e repita a coleta 100 vezes. Como
cada amostra fornece uma média amostral, temos 100 médias amostrais observadas e com
elas construı́mos um histograma. Claro que, quanto maior for o tamanho amostral e
as repetições, mais aproximado será o histograma, da densidade de X. Teremos, então,
através dessa simulação, uma idéia de como X se comportaria numa amostra grande
e poderemos perceber sua semelhança com a distribuição Normal, conforme assegura o
Teorema Central do Limite.
Usaremos as distribuições Uc (0, 1), B(5, 0.2) e E(2). Tamanho amostral n ∈ {10, 30, 50}
e 100 repetições (replicações).
Lembre que, para (X1 , · · · , Xn ) amostra aleatória,
³ ´com E(Xj ) = µ e Var(Xj ) = σ 2 ,
P 2
para j = 1 · · · , n, onde X = n1 nj=1 Xj , X ∼ N µ, σn

1
(i) Se Xj ∼ Uc (0, 1), temos que E(Xj ) = 0.5 e Var(Xj ) = 12 , logo E(X) = 0.5 e
1
Var(X) = 12n → 0, quando n → ∞.
1
(ii) Se Xj ∼ Exp(2), temos que E(Xj ) = 2 e Var(Xj ) = 41 , logo E(X) = 1
2 e Var(X) =
1
4n → 0, quando n → ∞.

19
(a) (b)

(c) (d)
Figura 4: Histograma para verificar a convergência de X para diferentes tamanhos
amostrais. Número de repetições 100. Distribuição utilizada: Uc (0, 1). (a) n=30; (b)
n=50; (c) n=100; (d) n=500.

(a) (b)

(c) (d)
Figura 5: Histograma para verificar a convergência de X para diferentes tamanhos
amostrais. Número de repetições 1000. Distribuição utilizada: Uc (0, 1). (a) n=30; (b)
n=50; (c) n=100; (d) n=500.

20
(a) (b)

(c) (d)
Figura 6: Histograma para verificar a convergência de X para diferentes tamanhos
amostrais. Número de repetições 100. Distribuição utilizada: Uc (0, 1). (a) n=30; (b)
n=50; (c) n=100; (d) n=500.

(a) (b)

(c) (d)
Figura 7: Histograma para verificar a convergência de X para diferentes tamanhos
amostrais. Número de repetições 1000. Distribuição utilizada: Uc (0, 1). (a) n=30; (b)
n=50; (c) n=100; (d) n=500.

21

Vous aimerez peut-être aussi