Vous êtes sur la page 1sur 108

Las siguientes son notas del curso de Introduccin a la Probabilidad y Estadstica

que he dictado en 2010, para licenciatura en matemtica. Por correccin de erratas y


comentarios, se agradece comunicarse a mi correo electrnico: jkalem@cmat.edu.uy
Juan Kalemkerian

ndice general
1. Espacio de probabilidad.
1.1. -lgebra de conjuntos. . . .
1.2. Espacio de probabilidad. . .
1.3. Apndice y notas histricas.

. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .

2. Probabilidad condicional e independencia.


2.1. Probabilidad condicional. . . . . . . .
2.2. Independencia. . . . . . . . . . . . . . .
2.3. Notas histricas. . . . . . . . . . . . . .

. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .

3. Variable Aleatoria.
3.1. Propiedades. . . . . . . . . . . . . . . . . . . . . . . . .
3.2. Funcin de distribucin de una variable aleatoria.
3.3. Variables Aleatorias Discretas. . . . . . . . . . . . .
3.4. Ejemplos de Variables discretas. . . . . . . . . . . .
3.5. Variables aleatorias absolutamente continuas. . . .
3.6. Ejemplos de variables absolutamente continuas. .
3.7. Variables aleatorias mixtas. . . . . . . . . . . . . . .

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

4. Distribucin conjunta.
4.1. Propiedades. . . . . . . . . . . . . . . . . . . . . .
4.2. Vectores aleatorios discretos. . . . . . . . . . .
4.3. Vectores aleatorios absolutamente continuos.
4.3.1. Propiedades. . . . . . . . . . . . . . . . .
4.4. Independencia de variables aleatorias. . . . . .
4.5. Mtodo del Jacobiano. . . . . . . . . . . . . . .

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

5. Integral de Riemann-Stieltjes.
5.1. Propiedades. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2. Mtodos de integracin. . . . . . . . . . . . . . . . . . . . .
5.3. Extensin a funciones complejas e integrales impropias.
5.4. Aplicaciones a la teora de la probabilidad. . . . . . . . .
5.5. Integrales de Riemann-Stieltjes mltiples. . . . . . . . . .
5.5.1. Aplicaciones a la teora de la probabilidad. . . . .

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

4
6
10

14

14
17
19

21

21
23
25
25
30
31
32

33

33
35
37
37
40
45

47

50
53
54
54
56
57

ndice general
5.5.2.

Integrales mltiples impropias.

. . . . . . . . . . . . . . .

6. Valor esperado.
6.1. Denicin. . . . . . . . . . . . . . . . . . . . . .
6.2. Ejemplos. . . . . . . . . . . . . . . . . . . . . .
6.3. Propiedades. . . . . . . . . . . . . . . . . . . . .
6.4. Teoremas de convergencia. . . . . . . . . . . .
6.4.1. Teorema de convergencia montona.
6.4.2. Teorema de convergencia dominada. .
6.4.3. Aplicaciones. . . . . . . . . . . . . . . .
7. Espacios Lp .
7.1. Denicin y propiedades. . . . . . . . . . .
7.2. Varianza de una variable aleatoria. . . .
7.3. Covarianza y coeciente de correlacin. .
7.4. Variables i.i.d. . . . . . . . . . . . . . . . . .

.
.
.
.

.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

8. Convergencia en probabilidad, casi segura y en distribucin.


8.1. Convergencia en probabilidad y casi segura. . . . . . . . .
8.2. Leyes de los grandes nmeros. . . . . . . . . . . . . . . . .
8.2.1. Aplicaciones. . . . . . . . . . . . . . . . . . . . . . . .
8.3. Convergencia en distribucin. . . . . . . . . . . . . . . . . .
9. Funciones caractersticas.
9.1. Propiedades. . . . . . . . . . . . . . . . . . . . . . . . . .
9.2. Frmula de inversin. . . . . . . . . . . . . . . . . . . .
9.3. Caracterizacin de la convergencia en distribucin.
9.4. Teorema Central del Lmite. . . . . . . . . . . . . . . .
10.Estimacin puntual.
10.1. Estadsticos y estimadores. . . . . . . . . .
10.2. Mtodos de estimacin. . . . . . . . . . . .
10.2.1. Mtodo de los momentos. . . . . .
10.2.2. Mtodo de mxima verosimilitud.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

57

58

58
59
60
64
64
65
66

68

68
69
72
74

76

76
79
82
84

87

88
90
92
96

99

. 99
. 100
. 101
. 101

11.Intervalos de conanza.
104
11.1. Denicin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
11.2. Construccin de intervalos de conanza en algunos casos particulares. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
11.3. Resumen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

Captulo 1
Espacio de probabilidad.
1.1. -lgebra de conjuntos.
Denicin 1.1.

-lgebra de subconjuntos de .
Dado un conjunto 6= , diremos que A 2 es una -lgebra de subconjuntos de
si cumple los siguientes axiomas:
i) A.
ii) Si A A entonces Ac A.
iii) Si {An }nN A, entonces +
n=1 An A.
En todos los teoremas que siguen a continuacin se considera dada A una -lgebra
de subconjuntos de .

Teorema 1.2.
A.
Demostracin.

Como A entonces por ii) = c A.X

Teorema 1.3.

A1 , A2 , ..., An A

entonces

ni=1 Ai A.

Demostracin.

Basta usar el axioma iii) en el caso en que An+1 = An+2 = ... = A, entonces en
n
este caso se tiene que +
n=1 An = i=1 Ai A.X

Teorema 1.4.

Si

{An }nN A,

entonces

+
n=1 An A.

Demostracin.

Como An A cualquiera sea n, entonces por


ii) Acn) A para todo n. Entonces por
(
+ c c
+ c
A.X
iii) n=1
An A, y por lo tanto +
n=1 An = n=1 An

Teorema 1.5.

Si

A, B A,

entonces

A B A.

Captulo 1. Espacio de probabilidad.


Demostracin.

Basta observar que A B = A B c A ya que A, B c A, e interseccin nita de


elementos de A, pertenece a A.X

Teorema 1.6.

Si

es

-lgebra

de conjuntos sobre

una familia cualquiera de ndices, entonces

I A

es

para todo I , siendo I


-lgebra de conjuntos sobre

.
Demostracin.

Deno A = I A .
i) A para todo I, entonces A.
ii) Si A A, entonces A A para todo I, entonces Ac A para todo I ,
luego Ac A.
iii) Si {An }nN A, entonces {An }nN A para todo I, entonces +
n=1 An A
+
para todo I, entonces n=1 An A.X

Ejemplo 1.7.

{, } es -lgebra de conjuntos sobre , cualquiera sea el conjunto

Ejemplo 1.8.

2 es -lgebra de conjuntos sobre , cualquiera sea el conjunto .

Ejemplo 1.9.

Si A es tal que
A
, entonces {, , A, Ac } es -lgebra de
conjuntos sobre , cualquiera sea el conjunto .

Denicin 1.10.

-lgebra generada por una familia de subconjuntos de . Dada


F una familia de subconjuntos de , al conjunto A AF A le llamaremos -lgebra
engendrada por F y la notaremos por (F) .
:

La -lgebra generada por una familia de subconjuntos de , siempre existe y adems


es la menor -lgebra generada por una familia de subconjuntos de que contiene
aF .

Denicin 1.11. -lgebra de Borel en R. Consideramos F = {A R : A es abierto} .


Llamaremos -lgebra de Borel en R a (F) .

Teorema 1.12.

I1 = {(a, b) R : a < b} ; I2 = {[a, b) R : a < b} ;


I3 = {(a, b] R : a < b} ; I4 = {(a, +) R : a R} ; I5 = {[a, +) R : a R} ;
I6 = {(, a) R : a R} ; I7 = {(, a] R : a R} . Entonces
Si denimos

(I) = (I1 ) = (I2 ) = (I3 ) = (I4 ) = (I5 ) = (I6 ) = (I7 ) .


Demostracin.

Probaremos a modo de ejemplo que (I1 ) = (I2 ), para lo cual basta ver que
I1 (I2 ) y que I2
(I1 ).
Efectivamente, (a, b) = n:a+1/n<b [a + 1/n, b), lo cual prueba que (I1 ) (I2 ).

Adems, [a, b) = +
n=1 (a 1/n, b), lo cual prueba la otra inclusin.
Se deja como ejercicio vericar las dems igualdades. Para trabajar con (I), tener
en cuenta que todo abierto en R se puede escribir como una unin numerable de
5

Captulo 1. Espacio de probabilidad.


intervalos abiertos. X
De manera similar se dene la -lgebra de Borel en Rk , como la -lgebra generada
por los abiertos de Rk , o sea como la menor -lgebra que contiene a todos los abiertos
de Rk . A los conjuntos de esta -lgebra, se les llama borelianos.

1.2. Espacio de probabilidad.


Denicin 1.13. Espacio de probabilidad.

Dado 6= , diremos que la terna (, A, P ) es un espacio de probabilidad sobre


si y slo A es una -lgebra de conjuntos sobre , y P es una funcin P : A [0, 1]
que cumple los siguientes axiomas:
i) P () = 1,
ii) si la familia de sucesos( {An }nN
A son disjuntos dos a dos (Ai Aj = para
)
+
todos i 6= j ), entonces P n=1 An = +
n=1 P (An ) .
En todos los teoremas que siguen se considera dado el espacio de probabilidad (, A, P ).

Teorema 1.14.
P () = 0.
Demostracin.

Consideramos la familia de sucesos disjuntos A1 = , A2 = A3 = ... = , luego


aplicamos el axioma ii) y obtenemos

+
n=1 An

= P () = P () +

P ()

n=2

por lo tanto n=2 P () = 0. Si fuera P () 6= 0, se tendra que la serie sera divergente y no podra ser cierta la igualdad anterior. Entonces P () = 0.X

Teorema
1.15. Si A1 , A2 , ..., An A y son disjuntos dos a dos, entonces P (ni=1 Ai ) =

n
i=1

P (Ai ) .

Demostracin.

Se aplica el axioma ii) teniendo en cuenta que si se agregan los conjuntos An+1 =
An+2 = ... = , se obtiene que

+
n=1 An

P (Ai ) +

i=1

i=n+1

P (Ai ) =

P (Ai )

i=1

)
(
n
pero P +
n=1 An = P (i=1 Ai ) de donde se deduce el resultado.X

Teorema 1.16.

Si

A, B A,

entonces

P (B A) = P (B) P (A B) .

Demostracin.

Escribimos la unin disjunta (B A) (A B) = B . Luego, aplicando el axioma ii)


obtenemos que P (B A) + P (A B) = P (B), de donde se deduce el resultado.X
6

Captulo 1. Espacio de probabilidad.

Corolario 1.17.

Si

A, B A

son tales que

1.

P (B A) = P (B) P (A).

2.

P (A) P (B) .

A B,

entonces

Demostracin.

1. Es inmediato a partir de la propiedad anterior, si se observa que A B = A.X


2. Es inmediato ya que P (B) P (A) = P (B A) 0.X

Teorema 1.18.

Si

A, B A,

entonces

P (A B) = P (A) + P (B) P (A B) .

Demostracin.

Escribimos A B = (A B) (B A) (A B), unin disjunta, entonces

P (A B) = P (A B) + P (B A) + P (A B) =
P (A) P (A B) + P (B) P (A B) + P (A B)
de donde se deduce el resultado.X

Teorema 1.19.
P

Si

A1 , A2 , ..., An A

(ni=1 Ai )

(1)k1

k=1

entonces

P (Ai1 Ai2 ... Aik ) .

1i1 <i2 <...<ik n

Demostracin.

Se deja como ejercicio.

Teorema 1.20.

Si

A1 , A2 , ..., An A,

entonces

P (ni=1 Ai )

n
i=1

P (Ai ) .

Demostracin.

Se deja como ejercicio.

Teorema 1.21.

Propiedad de continuidad de las probabilidades.

1. Si la familia de sucesos

{An }nN A es tal que: A1 A2 A3 ...


)
(
P +
n=1 An = lmP (An ) .

entonces

2. Si la familia de sucesos

{An }nN A es tal que: A1 A2 A3 ...


)
(
P +
n=1 An = lmP (An ) .

entonces

Demostracin.

Captulo 1. Espacio de probabilidad.


1. Denimos la familia de sucesos Bn = An An1 para n = 1, 2, 3... Sobreentenderemos que A0 = . Como An1 An cualquiera sea n, entonces
P (An An1 ) = P (An ) P (An1 ) . Por otro lado {Bn }nN A, es una
familia disjunta de sucesos, por lo que aplicando el axioma iii) se obtiene que

+
n=1 Bn

P (Bn ) =

n=1

P (An An1 ) =

n=1

[P (An ) P (An1 )]

n=1

= lmP (An ) .X
2. Tomando complementos obtenemos( que Ac1) Ac2 Ac3 ..., luego aplicando
c
c
la parte anterior, se obtiene que P +
n=1 An = lmP (An ) . O sea que

([ + ]c )
(
)
n=1 An
= 1 P +
A
=
n
n=1
lm [1 P (An )] .

Entonces

Teorema 1.22.
todo

n,

entonces

(
)
P +
n=1 An = lmP (An ) .X
Si la familia de sucesos {An }nN A
(
)
P +
n=1 An = 1.

es tal que

P (An ) = 1

para

Demostracin.

([
]c )
(
)
c
Debemos probar que P +
= P +
n=1 An
n=1 An = 0. A partir del teorema 1.20 y
tomando lmite obtenemos
P

c
+
n=1 An

P (Acn ) = 0.X

n=1

Denicin 1.23. Lmites superior e inferior de una sucesin de conjuntos.


Dados (, A, P ) espacio de probabilidad y {An }nN A, se denen el lmite superior
e inferior de la sucesin de sucesos como
limsup An : =

+
+

n=1 k=n

Ak y liminf An : =

+
+

Ak .

n=1 k=n

respectivamente.
Se deja como ejercicio vericar las siguientes propiedades.
1. limsup An = {w : w An para innitos valores de n} (ocurren innitos
An ).
2. liminf An =
{w : w An para todo n, salvo a lo sumo para una cantidad nita de ndices}
(ocurren An para todos los valores de n salvo a lo sumo una cantidad nita).
8

Captulo 1. Espacio de probabilidad.


3. liminf An limsup An .
+

4. Como la sucesin Bn =
Ak es decreciente, entonces P (limsup An ) =
k=n
( + )

lim P
Ak .
k=n

5. Como la sucesin Bn =

Ak es creciente, entonces P (liminf An ) =lim P

k=n

( +

)
Ak .

k=n

6. Si {An }nN es una sucesin creciente de sucesos, entonces liminf An = limsup


+

An .
An =
n=1

7. Si {An }nN es una sucesin decreciente de sucesos, entonces liminf An = limsup


+

An =
An .
n=1

Observacin 1.24.

La denicin de lmite superior e inferior de una familia de

conjuntos se dene de igual modo aunque no estemos en un espacio de probabilidad.

Teorema 1.25.
A,

Dados

(, A, P )

espacio de probabilidad y una sucesin

{An }nN

entonces se cumple que


(1)

P (liminf An )

(2)

liminfP

( An )

(3)

limsupP

(An ) P (limsup An ) .

Demostracin.

Para la desigualdad (3), vemos que para todo n se tiene que

P (limsup An ) = limP

( +

Ak An , entonces

k=n

)
Ak

limsupP (An ) .

k=n

Un razonamiento anlogo prueba la desigualdad (1).


La desigualdad (2) es evidente.X

Ejemplo 1.26. Si es un conjunto innito numerable, es decir = {w1 , w2 , ..., wn , ...}


entonces si consideramos la sucesin {pn }nN tal que pn 0 para todo n N y
+

) todo A 2 , P (A) =
n=1 pn = 1, y denimos P : 2 [0, 1] tal( que para
n xn A pn , entonces se cumple que la terna , 2 , P es un espacio de probabilidad. Observamos que segn esta denicin se tiene que P ({wn }) = pn para todo
n.
:

Ejemplo 1.27. Modelo de equiprobabilidad. Si es nito, denimos P

: 2
[0, 1] tal que P (A) =
siendo n(A) la cantidad de elementos que tiene el conjunto A. Observamos que en este caso, se tiene que si = {w1 , w2 , ..., wn } entonces
P ({wi }) = 1/n para todo i = 1, 2, 3, ..., n, lo cual signica que todo elemento de
es igualmente probable.
n(A)
n()

Captulo 1. Espacio de probabilidad.


En general, cuando es nito o innito numerable, si no se aclara nada al respecto
se sobreentiende que la -lgebra considerada es 2 . En numerosas ocasiones se est
en presencia de un espacio muestral nito donde cada elemento tiene la misma
probabilidad.

Ejemplo 1.28.

Se tiran 3 dados y se desea calcular la probabilidad de que salga al


menos un 2 en las 3 tiradas.
En este caso, = {(i, j, k) : i, j, k {1, 2, 3, 4, 5, 6}} . Para calcular n () observamos
que para la terna (i, j, k) tenemos 6 valores posibles de i, por cada valor de i tenemos
6 valores posibles para j por lo que existen 62 = 36 pares (i, j) , y por cada uno de
estos 36 pares tenemos 6 posibles valores de k , as obtenemos 63 = 216 ternas en .
Por otro lado, para el suceso A = sale al menos un 2 en las 3 tiradas", podemos
realizar la descomposicin A = B C D donde B = sale exactamente dos veces el 2
en las 3 tiradas", C = sale exactamente un 2 en las 3 tiradas", D = sale las 3 veces el
2 en las 3 tiradas". Esta unin es disjunta por lo que P (A) = P (B) + P (C) + P (D) .
Para calcular P (B) observamos que si el 2 sale en el primer lugar, tenemos 52 ternas,
pero el 2 puede salir en el segundo o en el tercer lugar, por lo que en total tendremos
n (B) = 3 52 = 75 y entonces P (B) = 75/216. Razonando similarmente, obtenemos
P (C) = 3 5/216 mientras que P (D) = 1/216, entonces P (A) = 91/216. Hubiera
sido ms sencillo observar que Ac = no sale ningn 2 en las 3 tiradas", entonces
tenemos 5 5 5 ternas donde esto ocurre, entonces P (Ac ) = 125/216 y por lo tanto
P (A) = 1 125/216 = 91/216.

Ejemplo 1.29.

Si se tiran 24 veces dos dados, es ms ventajoso apostar por la


aparicin de al menos un doble 6, o no? En este caso, el total de casos posibles son
... 36} = 3624 , mientras que si denimos el suceso A = no aparece ningn
|36 36 {z
24 veces

doble 6 en las 24 tiradas", tenemos que n (A) = |35 35 {z


... 35} = 3524 y por lo
24 veces

24

tanto P (A) = (35/36) = 0,508 por lo que es ms conveniente apostar a que no


aparece ningn doble 6 en 24 tiradas.

1.3. Apndice y notas histricas.


Comentario sobre la necesidad de trabajar con sigmas lgebras sobre espacios muestrales no numerables.

Dado un conjunto 6= , se dice que A es un lgebra de subconjuntos de si y slo


si cumple los siguientes axiomas:
1. A;
2. Si A A entonces Ac A;
3. Si A, B A entonces A B A.

10

Captulo 1. Espacio de probabilidad.


En el caso en que = (0, 1), entonces se verica directamente que el conjunto I
formado por uniones nitas de conjuntos de la forma: (a, b]; (0, b]; (a, 1) con a, b
(0, 1) forman un lgebra de subconjuntos de (0, 1).
Por otro lado, tambin se puede vericar directamente que la funcin P : I [0, 1]
tal que P (A) = longitud de A, cualquiera sea A I, es una funcin que cumple ser
nitamente aditiva, tal que P ((0, 1)) = 1.
Un teorema importante de teora de la medida, el teorema de Carathodory nos
dice que si tenemos una terna (, I; P ) donde P es una funcin P : I [0, 1] que
cumple que P () = 1 y adems es nitamente aditiva ( o sea que P (A B) =
P (A) + P (B) siempre que A, B I sean tales que A B = ), entonces existe
una nica funcin P tal que (, (I) , P ) es un espacio de probabilidad, tal que
P (A) = P (A) para todo A I. Dicho de otra manera, si tenemos una funcin de
probabilidad nitamente aditiva, denida sobre un lgebra I de subconjuntos de ,
entonces puede ser extendida de manera nica sobre la -lgebra generada por I.
Volviendo al ejemplo del espacio (0, 1) y el lgebra I , entonces sabemos que (I) =
B(0,1) . Usando estas ideas veremos que existen conjuntos no borelianos. Denimos la
relacin en (0, 1), xRy si y slo si x y Q. Se verica en forma inmediata que la
misma dene una relacin de equivalencia en (0, 1) . Por lo tanto queda el conjunto
(0, 1) particionado en clases de equivalencia. Elegimos un elemento de cada clase, y
con ella formamos un conjunto que llamamos A. O sea que podemos escribir (0, 1) =
I A , donde la unin es disjunta, y adems x, y A si y slo si x y Q. Para
cada I elegimos a A de manera arbitraria (esto puede ser realizado gracias
al axioma de eleccin), entonces denimos el conjunto A = I {a } . Veremos a
partir del teorema de extensin de Carathodory que A no es boreliano. Para cada
racional q Q (0, 1) denimos el conjunto Aq = {x + q : x A, x + q 1}
{x + q 1 : x A, x + q > 1} . Observando que los Aq son los trasladados por q del
conjunto A, deducimos que si A fuera boreliano, entonces tambin lo sera Aq para
cada q Q (0, 1) . Observamos adems que para todo q Q (0, 1) se cumple que
P (Aq ) = P (A).
Por otro lado, se cumple que (0, 1) = qQ(0,1) Aq , adems la unin es disjunta. Por
lo tanto, extendiendo por Carathodory la funcin P a la -lgebra generada por I
que es la -lgebra de Borel en (0, 1), obtendramos que

1 = P ((0, 1)) =
P (Aq ) = 0
qQ(0,1)

lo cual es absurdo.

Observacin 1.30.

Este resultado adems de demostrar que existen conjuntos no

= (0, 1) , es imposible deprobabilidad sobre todos los subconjuntos de (0, 1), de tal modo de
de un intervalo incluido en (0, 1) sea la longitud del mismo.

borelianos, nos permite demostrar tambin que cuando


nir una funcin de
que la probabilidad

Por lo tanto si queremos trabajar con un espacio de probabilidad donde se elije un


punto al azar en el intervalo
incluido en

(0, 1)

(0, 1),

de tal modo que la probabilidad de un intervalo

sea la longitud del mismo, no nos quedar ms remedio que de-

11

Captulo 1. Espacio de probabilidad.


nirlo como la longitud sobre los intervalos, y luego va el teorema de Carathodory,
extenderlo a la

-lgebra

de Borel sobre

(0, 1).

Un poco de historia.

Como fue visto en el ejemplo 1.29, la probabilidad de la aparicin de al menos un


doble seis cuando se tira 24 veces un par de dados, es 0,492, por lo tanto es levemente
desfavorable a apostar a que no sale ningn doble 6. Dada la proximidad de este valor
a 1/2, sin saber realizar este clculo, difcilmente podramos prever si era favorable o
desfavorable apostar a este evento, por el simple hecho de repetirlo muchas veces y
contabilizar su frecuencia. Esta situacin se le present a Antoine de Gombaud (caballero de Mer), noble francs quien en 1654 interesado en resolver este problema,
se lo plante a Blaise Pascal, quien comenz a cartearse con Pierre de Fermat, para
discutir y llegar a la solucin del problema. Si bien los juegos de azar, son tan antiguos
como la humanidad, y es natural pensar que los primeros matemticos babilnicos y
griegos ya trabajaron y por lo tanto obtuvieron ciertos resultados probabilsticos, se
considera que ste intercambio de correspondencia entre de Fermat y Pascal motiv
el inicio de la teora de la probabilidad, o al menos el comienzo de la construccin
de los principios de la misma. Christian Huygens (quien fuera maestro de Leibnitz),
enterado de esta correspondencia, en 1657 public lo que es conocido como el primer
libro de teora de probabilidades: De Ratiociniis in Ludo Aleae, que se trata de un
libro de problemas de juegos de azar.
Anterior en el tiempo a esta correspondencia y a Huygens, vale la pena destacar que
el matemtico italiano Gerolamo Cardano en el siglo XVI ya haba resuelto algunos
problemas de juegos de azar, e incluso escribi un tratado sobre probabilidad, Liber
de ludo aleae , pero el mismo fue publicado casi un siglo despus de su muerte, en
1663.
El primero en dar la denicin clsica de probabilidad (casos favorables sobre casos
posibles) fue James Bernoulli (1654-1705), en una obra fundamental para el desarrollo
de la teora de la probabilidad: Ars Conjectandi (El arte de conjeturar), esta obra
fue publicada en 1713. En 1812, Pierre Simon de Laplace, en su libro Thorie analytique des probabilits, introduce numerosas ideas y tcnicas para resolver problemas
de azar.
De manera un tanto irregular, numerosos matemticos aportaron nuevas ideas a la
teora, se plantearon nuevos problemas, y se desarrollaron nuevos conceptos, pero an
quedaba una denicin que sea adecuada y satisfactoria a situaciones donde est presente el azar, pero que no tienen que ver con juegos de azar, ni pueden ser repetidos
en idnticas condiciones muchas veces. Esta falta de una denicin precisa hizo que
muchos matemticos se desencantaran y consideraran a la probabilidad no como
una teora matemtica, y se alejaron de ella.
Durante los tres siglos en que se busc una denicin adecuada y amplia para la
probabilidad, hubieron distintas escuelas, como la clsica, la frecuencista y la subjetivista que tuvieron distintas controversias entre si, ya que todas daban deniciones
que no eran totalmente satisfactorias.
La escuela clsica es la que acotaba los problemas probabilsticos a los casos en que
es nito con resultados equiprobables, por lo que denan probabilidad como el
12

Captulo 1. Espacio de probabilidad.


nmero casos favorables sobre el nmero de casos posibles. Claramente esta denicin no es aplicable a muchas situaciones que se dan en la prctica, tanto porque a
veces es innito, como cuando los elementos del mismo no son equiprobables. Otros
denieron lo que se llama interpretacin frecuencista, que dice que para calcular la
probabilidad de un evento se lo debe repetir n veces, y entonces es el lmite cuando
n tiende a ininto del nmero de veces que ocurre el evento dividido el nmero de
repeticiones del experimento (n). Nuevamente es claro que esta interpretacin tiene
el defecto de que muchas veces el experimento no puede ser repetido en idnticas
condiciones, y adems, no se pueden hacer innitos experimentos. Por otro lado, el
lmite no es el lmite usual, hay que denir otro concepto de lmite, ya que el azar
no permitira asegurarnos un n tal que a partir del mismo, la probabilidad del suceso
diste de la frecuencia observada tan poco como se quiera. Esta escuela est basada
en la ley de los grandes nmeros que veremos ms adelante.
Por ltimo los subjetivistas, decan que la probabilidad estaba dado por un carcter
subjetivo, en el sentido de que la probabilidad de un suceso, es el grado de conanza
que se tiene de que el mismo ocurra. De esta manera dos personas distintas pueden tener probabilidades diferentes para un mismo suceso, puesto que sus grados de
conanza de que el mismo ocurra son distintos. Incluso una misma persona, en otro
momento puede llegar a tener una valoracin distinta de la ocurrencia de un suceso
y por lo tanto cambiar su grado de conanza. Esta escuela tuvo por precursores a
Bruno de Finetti y Leonard Savage.
Hubo que esperar hasta 1933 cuando Andrei Nikolayevich Kolmogorov, en su monografa titulada Grundbegrie der Wahrscheinlichkeitsrechnung (Fundamentos de
Probabilidad) planteara la denicin axiomtica de espacio de probabilidad, dndose
cuenta a partir de la teora de la medida y de los trabajos de Borel y Lebesgue, que
calcular probabilidades, es una forma de medir. Se puede decir que a partir de este
trabajo, denitivamente y para todos los matemticos, la probabilidad pas a ser un
tema de matemtica, y adems concluy con todas las discusiones sobre la denicin
de probabilidad, ya que todas ellas quedaron como casos particulares de un espacio
de probabilidad.
Si bien un espacio de probabilidad es un caso particular de espacio de medida, tiene
conceptos y formas intuitivas de pensar problemas probabilsticos (como la probabilidad condicional y el concepto de independencia, que sern vistos en el prximo
captulo) que la independizan en muchos aspectos de la teora de la medida.

13

Captulo 2
Probabilidad condicional e
independencia.
2.1. Probabilidad condicional.
Supongamos que participamos de un juego en el que se tira una moneda sucesivamente dos veces, y nosotros apostamos a que salen ambas caras. La probabilidad
que tenemos de ganar la apuesta es 1/4. Ahora bien, si ya se lanz la primer moneda y sali cara, ahora nuestra probabilidad de ganar pas a ser 1/2. Se observa que en este caso, se agreg informacin sobre el experimento. En este ejemplo,
= {(C, C); (N, C); (C, N ); (N, N )} y si le llamamos A = {(C, C)} (salen ambas
caras) y B = {(C, C); (C, N )} (la primera sali cara), como dijimos P (A) = 1/4 pero
la probabilidad de que ganemos la apuesta sabiendo que el primer lanzamiento sali
cara, lo anotaremos como P (A/B) y vale P (A/B) = 1/2. Como se ve en este caso, al
cambiar la informacin que tenemos sobre el experimento, observamos que cambi el
espacio muestral. Al calcular P (A/B) pensamos el calcular la probabilidad de A, suponiendo que el espacio muestral es B . Si estamos en el modelo de equiprobabilidad,
calcularamos P (A/B) = n(AB)
ya que ahora nuestros casos posibles son el total de
n(B)
elementos de B , esto es n(B) y los casos favorables son aquellos en los que ocurre
el suceso A (de entre los que ocurren B ), esto es n(A B), por lo tanto observamos
que en el modelo de equiprobabilidad la manera general de calcular la probabilidad
condicional sera as:

P (A/B) =

n(A B)/n()
P (A B)
=
.
n(B)/n()
P (B)

Este clculo (y otros) motivan la siguiente denicin.

Denicin 2.1.

Si (, A, P ) es un espacio de probabilidad, dados A, B A donde


P (B) > 0. Denimos P (A/B) = P P(AB)
.
(B)
La notacin P (A/B), la leemos como la probabilidad de que ocurra A, sabiendo que
ocurre B . En todos los teoremas que siguen se considera dado (, A, P ) un espacio
de probabilidad.
14

Captulo 2. Probabilidad condicional e independencia.

Teorema 2.2.

P (A B) = P (A/B) P (B)

cualesquiera sean

A, B A

tal que

P (B) > 0.
Demostracin.

Evidente a partir de la denicin.X

Teorema 2.3. P (A/B) =


y

P (B/A)P (A)
cualesquiera sean
P (B)

A, B A tales que P (A) > 0

P (B) > 0.

Demostracin.

P (A/B) =

Teorema 2.4.

Si la familia

P (A B)
P (B/A) P (A)
=
.X
P (B)
P (B)

{Bn }nN A

es tal que

i) Bi Bj = para todos i 6= j (es decir que son sucesos disjuntos dos a dos), ii)
+
n=1 Bn = iii)P (Bn ) > 0 para todo n N. Entonces cualquiera sea A A se tiene
que
1.

Frmula de probabilidades totales.

P (A) =

P (A/Bn ) P (Bn ) .

n=1

2.

Frmula de Bayes.

Para

tal que

P (A) > 0,

P (A/Bk ) P (Bk )
P (Bk /A) = +
n=1 P (A/Bn ) P (Bn )

para todo

k N.

Demostracin.

1. Dado A, de ii) deducimos que A = +


n=1 (A Bn ) unin disjunta, entonces

P (A) =

P (A Bn ) =

n=1

P (A/Bn ) P (Bn ) .X

n=1

2. Dado cualquier k N, tenemos por aplicacin de la propiedad 2 que

P (Bk /A) =

P (A/Bk ) P (Bk )
P (A)

y luego usando la frmula de probabilidades totales se obtiene que

P (A/Bk ) P (Bk )
X
P (Bk /A) = +
n=1 P (A/Bn ) P (Bn )
15

Captulo 2. Probabilidad condicional e independencia.

Observacin 2.5.
los

Bn

Este teorema sigue siendo vlido si la particin de

en unin de

es nita.

Teorema 2.6.

BA

Si

PB : AB [0, 1],

tal que

P (B) > 0. Denimos AB = {A B : A A } y


PB (A) = P (A/B) . Entonces (B, AB , PB ) es un espacio de
es tal que

probabilidad.

Demostracin. Se deja como ejercicio chequear que AB es una -lgebra de con-

juntos sobre B y que PB dene una probabilidad sobre B .

Teorema 2.7.

Si

A, B, C A

con

P (B) > 0,

entonces

1.

P (Ac /B) = 1 P (A/B) .

2.

P (A C/B) = P (A/B) + P (C/B) P (A C/B) .

Demostracin. Ambas frmulas son consecuencias directas de la propiedad anterior.X

Teorema 2.8.

Si

A1 , A2 , ..., An A

cumplen que

P (A1 A2 ... An1 ) > 0

en-

tonces

P (A1 A2 ... An ) = P (A1 ) P (A2 /A1 ) P (A3 /A1 A2 ) ...P (An /A1 A2 ... An1 ) .
Demostracin. Se deja como ejercicio.X

Ejemplo 2.9.

Supongamos que se dispone de un bolillero con 44 bolillas numeradas


del 1 al 44. Se extraen 5 sucesivamente sin reponerse cada bolilla exprada. Se supone
que apostamos a que salen los nmeros 5,13,16,18,33. Deseamos calcular la probabilidad de que acertemos al menos 2 de los 5 extrados. En este caso, para calcular
los casos posibles, se ve que para la primer bolilla hay 44 posibles nmeros, para la
segunda 43 (todos menos el que sali en el primer lugar), para la siguiente 42, luego
41 y luego 40, as tenemos 44 43 42 41 40 casos posibles. Para los favorables,
calculamos los del complemento. Observamos que si le llamamos A = salen al menos
dos de los 5 apostados", entonces Ac = B C donde B =no sale ninguno de los 5
apostados C =sale exactamente uno de los 5 apostados". La unin es disjunta por
lo que P (Ac ) = P (B) + P (C) . Los casos posibles para B son 39 38 37 36 35
mientras que para C tenemos que 5 39 38 37 36 son todas las posibilidades
en que acertamos en la primera extraccin y no acertamos en las 4 restantes, a esos
hay que sumarles los que acertamos en la segunda y erramos en las restantes, etc,
etc, como cada uno de esos casos son 5 39 38 37 36 entonces el total de casos
favorables para C son 5 39 38 37 36 5, de esta forma
2

P (A) = 1

39 38 37 36 35 + 5 39 38 37 36 5
= 0, 0911.
44 43 42 41 40

Este mismo clculo podra haberse realizado mediante el uso de la propiedad anterior. Para calcular P (B) , llammosle A1 =no acierto la primer bolilla extrada",
16

Captulo 2. Probabilidad condicional e independencia.

A2 =no acierto la primer bolilla extrada",...,A5 =no acierto la quinta bolilla extrada". Entonces P (A1 ) = 39/44, P (A2 /A1 ) = 38/43, P (A3 /A1 A2 ) = 37/42,
P (A4 /A1 A2 A3 ) = 36/41 y P (A5 /A1 A2 A3 A4 ) = 35/40, as se tiene
P (B) = P (A1 A2 A3 A4 A5 ) =

39 38 37 36 35
44 43 42 41 40

Para P (C) lo separamos como suma de acertar exactamente la primera, ms acertar


exactamente la segunda, etc y denimos adecuadamente los conjuntos A1 , A2 , A3 , A4 , A5
y se procede de manera anloga.

Ejemplo 2.10.

Se tiene una urna compuesta por 3 bolillas azules, 2 blancas y una


roja, y una segunda urna compuesta por 3 blancas y 3 azules. Se extrae una bolilla
de la urna uno, se la deposita en la segunda y luego se extrae una bolilla de esta
segunda urna. Calculemos las probabilidades de: A =la segunda bolilla extrada es
azul", B =la primer bolilla extrada es azul, sabiendo que la segunda fue blanca".
En este caso, aplicamos la propiedad de probabilidades totales quedando P (A) =

P (A/1a blanca) P (1a blanca)+P (A/1a azul) P (1a azul)+P (A/1a roja) P (1a roja) =
33 43 31
+
+
= 0, 571.
76 76 76
Para B, usamos el teorema de Bayes quedando P (B) = P (1a azul / 2a blanca) =
P ( 2a b / 1a b) P (1a b)
=
P ( 2a b / 1a b) P (1a b) + P ( 2a b / 1a a) P (1a a) + P ( 2a b / 1a r) P (1a roja)

42
76

4
7
3
7

3
6
3
6

31
76

= 0, 6.

2.2. Independencia.
Denicin 2.11.

Dado (, A, P ) un espacio de probabilidad, se dice que la familia de sucesos {A }I donde I es una familia cualquiera de ndices, son sucesos
independientes si y slo si, para todo F I nito, se cumple que
(
)
P A =
P (A ) .
F

Observacin 2.12.

Si la familia de sucesos se reduce a dos, entonces la denicin

anterior nos dice que

AyB

lo cual en el caso en que

P (A/B) = P (A),

son independientes si y slo si

P (B) > 0

P (A B) = P (A) P (B) ,

es equivalente a pedir que se cumpla que

pero la ventaja que tiene la denicin dada es que no requiere

que los sucesos tengan probabilidad positiva.

17

Captulo 2. Probabilidad condicional e independencia.

Observacin 2.13.

Si la familia de sucesos se reduce a 3, digamos

A, B

C,

en-

tonces los mismos son independientes si y slo si se cumplen las siguientes cuatro
condiciones:
1.

P (A B) = P (A)P (B)

2.

P (A C) = P (A)P (C)

3.

P (B C) = P (B)P (C)

4.

P (A B C) = P (A)P (B)P (C)

Observacin 2.14.
sucesos

A, B

Observamos que en el caso anterior, para pedir que los tres

sean independientes, se requiere que sean independientes de a pares,

que son las condiciones 1,2 y 3, pero a esto se le debe agregar la condicin 4 ya que
las condiciones 1,2 y 3 (como se ver en el siguiente ejemplo) no aseguran que
independiente del suceso

sea

B C . Se puede chequear sin dicultad que las 4 condiciones


A, B y C aseguran la independencia de A con

que determinan la independencia de


B C y la de A con B C c etc.

Se deja como ejercicio vericar el siguiente ejemplo, donde se muestra que tres sucesos
pueden ser independientes tomados de a dos, pero no ser independientes.

Ejemplo 2.15. Se tira un par de dados, uno azul y uno verde. Denimos A =en el
dado azul sale el 5, B =en el dado verde sale el 3, C =la suma de los resultados
de ambos dados es un nmero par. Entonces A, B y C son independientes tomados
de a pares, pero A, B y C no son independientes.
Teorema 2.16. Dado (, A, P ) un espacio de probabilidad, si una familia de sucesos
{A }I son independientes, entonces tambin lo son la familia {B }I , donde para
c
cada I , se tiene que, o bien B = A , o bien B = A .
Teorema 2.17.
y la sucesin
1. Si

Lema de Borel Cantelli.

{An }nN A,

+
n=1

Dados

(, A, P )

espacio de probabilidad

entonces

P (An ) < +

entonces

P (limsup An ) = 0.
2. Si

+
n=1

P (An ) = +

y adems

{An }nN

son independientes, entonces

P (limsup An ) = 1.
Demostracin.

1. P (limsup An ) =lim P
convergente.X

( +

k=n

)
Ak

+
k=n

P (An ) 0 puesto que la serie es

18

Captulo 2. Probabilidad condicional e independencia.


2. Como P (limsup An ) =lim P

( +

)
Ak , basta probar que lim P

( +

k=n

)
Ack

0.

k=n

Para cada m > n tenemos que


( + )
(m
)
m
m

c
c
c
P
Ak P
Ak =
P (Ak ) =
[1 P (Ak )] .
k=n

k=n

k=n

k=n

Ahora, usando que 1 x ex para todo x 0, se deduce que


m

k=n

[1 P (Ak )]

k=n

eP (Ak ) = e

Pm

k=n

P (Ak )

m+

0.X

Ejemplo 2.18.

Supongamos que se elije al azar un nmero en el intervalo (0, 1)


Cul es la probabilidad de que aparezcan innitos 4 en su expansin decimal? Y la
probabilidad de que el 44 aprezca innitas veces?
Para responder a la primer pregunta, denimos los sucesos An =el 4 aparece en el
n-simo lugar en su expansin decimal, entonces la sucesin {An }nN est formada
por sucesos independientes, adems, P (An ) = 1/10 cualquiera sea n, entonces
+
n=1 P (An ) = + y por lo tanto la probabilidad de que aparezca el 4 innitas
veces es 1. Para responder la otra pregunta, procedemos de forma similar, denimos
Bn =el 4 aparece en el n-simo lugar y en el siguiente en su expansin decimal,
en este caso P (Bn ) = 1/100 para todo n, pero los Bn no son independientes. De
todas formas si consideramos la subsucesin de sucesos
+ {B2n }nN , ahora si, tenemos
una sucesin de sucesos independientes y como n=1 P (B2n ) = +, tenemos que
la probabilidad de que aparezca el 44 inintas veces en un lugar par seguido de uno
impar es 1, pero ste ltimo suceso est incluido en el suceso de que el 44 aparece
inntas veces, se entonces la probabilidad de que el 44 aparezca innitas veces es 1
tambin.

2.3. Notas histricas.


El ejemplo anterior es conocido como el teorema de los innitos monos. Emil Borel en
su trabajo Mcanique Statistique et Irrversibilit en 1913 armaba que si se pone
a un milln de monos durante 10 horas a teclear una mquina de escribir (como una
manera de decir que se eligen al azar letras del alfabeto, tantas como pueda teclear
durante 10 horas un mono), es extremadamente improbable que sea posible encontrar
una secuencia de letras tecleadas que sean el desarrollo de un libro por ms pequeo
que sea. Ahora, de acuerdo al ejemplo que acabamos de desarrollar, hemos probado
que si a un solo mono se le da tiempo innito, entonces hay probabilidad 1 de que
en algn momento escriba la obra completa de Shakespeare, por ejemplo. Slo basta
cambiar el conjunto de los 10 dgitos por los smbolos del alfabeto, y la tirada 44 por
la de la obra completa de Shakespeare que es nita.
Thomas Bayes naci en Inglaterra en 1702 y muri en 1761. Se sabe muy poco de su
vida, ya que no se dedic activamente a la matemtica, no se vincul mayormente con
19

Captulo 2. Probabilidad condicional e independencia.


otros matemticos de su poca, y por lo tanto no se destac tanto mientras estuvo
con vida. Sus aportes a la teora de la probabilidad fueron enormes, ya que fue el
primero que deni y trabaj el concepto de probabilidad condicional, en tiempos
en que todos los clculos probabilsticos estaban restringidos a juegos de azar y los
clculos eran realizados segn el modelo de equiprobabilidad.
Tambin es esencial su aporte a la denicin que utiliza de probabilidad, que fue
olvidada hasta el siglo XX, y que fue retomada recin en 1937 por Bruno De Finetti,
uno de los primeros precursores de la teora subjetiva de la probabilidad.
Todos estos aportes fueron publicados en un trabajo titulado An Essay Towards
Solving a Problem in Doctrine of Chances publicado en 1763 (2 aos despus de su
muerte), y el hoy llamado teorema de Bayes, fue publicado en 1764 en las Philosophical Transactions Vol 53, que es la base de la hoy llamada inferencia bayesiana. Es
curioso que Bayes no haya intentado publicar sus trabajos, tanto su teorema como su
trabajo publicado en 1763, fueron encontrados por amigos suyos luego de su muerte.

20

Captulo 3
Variable Aleatoria.
(
)
Dado un espacio de probabilidad , A, P . Diremos que X :
Rk es una variable aleatoria en Rk si y slo si, se cumple que para cada A boreliano
se cumple que
X 1 (A) A.

Denicin 3.1.

Cuando k > 1, tambin es llamado vector aleatorio.

Observacin 3.2.

Dado que la -lgebra de Borel est engendrada por los conjuntos


1
abiertos, basta vericar que X
(A) A, para todo A abierto (o para todo A en
algn generador de la

-lgebra

de Borel).

Observacin 3.3. Si es nito o innito numerable, cualquier funcin X : Rk

-lgebra a 2 .
(
)
Observacin 3.4. Toda constante, es vector aleatorio, cualquiera sea , A, P es1
pacio de probabilidad, ya que el conjunto X
(A) es si la constante est en A o
1
vaco si no, en ambos casos X
(A) A.
es vector aleatorio, ya que en estos casos, consideramos como

En varias ocasiones, es conveniente trabajar con funciones a valores en R = R


{+, }. Para dichos casos ser conveniente extender la -lgebra de Borel a BR .
Por suerte es posible hacerlo de una forma sencilla.
Si le llamamos B a la -lgebra de Borel en R, denimos BR =

B {A {+, } : A B} {A {+} : A B} {A {} : A B} .
Se deja como ejercicio probar que BR es una -lgebra de Borel sobre R.
Frecuentemente para simplicar la notacin, se suele escribir el conjunto X 1 (A) =
{w : X(w) A} mediante la simple escritura de {X A} . As, por ejemplo al
conjunto X 1 ((, a]) lo denotaremos por {X a} .

3.1. Propiedades.
Teorema 3.5. Dado X = (X1 , X2 , ..., Xk ) : Rk . Entonces, X es vector aleatorio
si y slo si

X1 , X2 , ..., Xk

son variables aleatorias en

21

R.

Captulo 3. Variable Aleatoria.


Demostracin.

Comenzamos observando que cualesquiera sean los conjuntos A1 , A2 , ..., Ak , se tiene


que
k

1
X (A1 A2 ... Ak ) =
Xi1 (Ai ) .
i=1

) Si A es un boreliano en R, entonces

Xi1 (A) = X 1 R R... R |{z}


A R... R A.
lugar

Entonces Xi es variable aleatoria.X


) Cualesquiera sean a1 , a2 , ..., ak R se tiene que

((, a1 ) (, a2 ) ... (, ak )) =

Xi1 ((, ai )) A

i=1

ya que cada conjunto que intersectamos pertenece a A, entonces X es vector aleatorio


en Rk .X

Teorema 3.6. Si X : Rk es vector aleatorio y g : Rk Rn es continua, entonces


Y = g(X)

es vector aleatorio en

Rn .

Demostracin.

Dado un abierto A en Rn , entonces g 1 (A) es abierto por la continuidad de g , por lo


que
[
]
Y 1 (A) = (goX)1 (A) = X 1 g 1 (A) A.X

Teorema 3.7.
X, X + Y

Si

X, Y : R

son variables aleatorias, entonces tambin lo son

XY.

Demostracin.

Es consecuencia inmediata de la propiedad anterior, ya que (X, Y ) es vector aleatorio


en R2 , y lo componemos con las funciones continuas g : R2 R denidas como
g(x, y) = x, g(x, y) = x + y y g(x, y) = xy respectivamente. X

Teorema 3.8.

Xn : R es variable aleatoria para todo n N, entonces


tambin lo son las variables Y : R {+} tal que Y =sup{X1 , X2 , ..., Xn , ...} y
Z : R {} tal que Z =inf{X1 , X2 , ..., Xn , ...} .
Si

Demostracin.

Basta observar que si tenemos una sucesin de nmeros reales {xn }nN , entonces,
cualesquiera sea a R {+} se tiene que

sup {x1 , x2 , ..., xn , ...} a xn a para todo n.


22

Captulo 3. Variable Aleatoria.


Entonces

((, a]) =

Xn1 ((, a]) A.

n=1

Entonces Y es variable aleatoria. Por otro lado, como Z = sup{X1 , X2 , ..., Xn , ...},
se deduce de lo recin probado que Z tambin es variable aleatoria. X

Teorema 3.9. Si Xn : R es variable aleatoria para todo n N, entonces tambin


lo son las variables limsupXn

: R {+}

y liminfXn

: R {}.

Demostracin.

Es consecuencia inmediata de la propiedad anterior ya que


limsup Xn = inf supXk , y liminf Xn = sup inf Xk .X
n kn

kn

3.2. Funcin de distribucin de una variable aleatoria.


Denicin 3.10. Funcin de distribucin
(
) de una variable aleatoria.

Dados un espacio de probabilidad , A, P y X : R una variable aleatoria,


denimos la funcin FX : R R como FX (x) = P (X x) para cada x R.

Observacin 3.11.
por ser

Para todo

xR

se tiene que

{X x} = X 1 ((, x]) A,

variable aleatoria.

En todas las (propiedades


que siguen se sobreentiende que tenemos un espacio de
)
probabilidad , A, P y X : R una variable aleatoria.

Teorema 3.12.

FX

es montona creciente.

Demostracin.

Si a < b entonces {X a} {X b}, entonces P (X a) P (X b) , por lo que


FX (a) FX (b).X

Teorema 3.13.

lim

FX (x) = 1.

x+

Demostracin.

Como FX es montona creciente, basta restringirse a una sucesin particular que


tienda a +, por ejemplo lim FX (n).
n+

Observamos que An = {X n} es una sucesin creciente de sucesos, tal que

An =

n=1

, entonces por la propiedad de continuidad de las probabilidades se tiene que


( + )

lim FX (n) = lim P (An ) = P


An = P () = 1.X
n+

n+

n=1

23

Captulo 3. Variable Aleatoria.

Teorema 3.14.

lim

FX (x) = 0.

Demostracin.

Razonamos anlogamente al caso anterior, por lo que basta considerar lim FX (n).
n+

Consideramos ahora An = {X n} decrece a


An = , por lo que se deduce que
n=1
(+ )
lim FX (n) = lim P (An ) = P
n=1 An = P () = 0.X

n+

n+

Teorema 3.15.

FX

es continua por derecha.

Demostracin.

Nuevamente, basta ver que lim FX (a+1/n) = FX (a). La sucesin An = {X a + 1/n}


decrece a

n+

An = {X a}, de donde se obtiene el resultado.

n=1

Teorema 3.16.

Si denimos FX (x

se tiene que FX (a ) = lim FX (x).


xa

) = P (X < x),

entonces para cualquier

xR

Demostracin.

Similar a la anterior, se deja como ejercicio.

Observacin 3.17.

FX (x ),

Del teorema anterior se deduce que

por lo que la probabilidad de que

P (X = x) = FX (x)

tome un valor determinado, viene dado

por el salto de la funcin de distribucin en dicho

x.

Notas.
1. Dado un espacio de probabilidad sobre un conjunto , (, A, P ) y tenemos una
variable aleatoria en l X : R, la misma nos permite denir naturalmente
un espacio de probabilidad donde el espacio muestral sea R. El mismo sera
(R, B, FX ). Aqu hay un detalle tcnico y es el hecho de que FX debe estar
denido en cualquier boreliano de R, pero un teorema de teora de la medida
nos asegura que al ser FX creciente y positiva, y estar denida en los conjuntos
de la forma (, x] para todo x R que generan la -lgebra de Borel, existe
una nica extensin de FX a dicha -lgebra.
2. Recprocamente, si tenemos una funcin F : R R, que cumple las siguientes
condiciones: i) F es montona creciente, ii) lim F (x) = 1, iii) lim F (x) = 0,

iv) F

x+

es continua por derecha entonces, un( teorema) de teora de la medida nos


dice que existe un espacio de probabilidad , A, P y una variable aleatoria X
denida sobre este espacio tal que FX = F.

24

Captulo 3. Variable Aleatoria.

3.3. Variables Aleatorias Discretas.


Denicin 3.18. Variables aleatorias
(
)discretas.

Dado un espacio de probabilidad , A, P . Diremos que X : R es una variable


aleatoria discreta si y slo si existe un subconjunto AX de R numerable, tal que
P (X AX ) = 1.

Denicin 3.19.

Si X es discreta y se considera AX tal que P (X = x) > 0 para


todo x AX , al conjunto AX le llamaremos Rec(X) .

Observacin
3.20.

AX =

{X AX } es un sucesoya que al ser AX numerable, entonces


{X AX } = +
n=1 {X = xn } A ya que los puntos

+
n=1 {xn } por lo que

aislados son borelianos.

Denicin 3.21. Funcin de probabilidad.

Si X es discreta, denimos pX :
R R tal que pX (x) = P (X = x) para cada x R.

Observacin 3.22.
de

son tales que

X es discreta, slo una cantidad numerable de valores


P (X = x) > 0 por lo que alcanza denir pX (x) para los x
Cuando

Rec(X).

Observacin 3.23.

Cuando

es discreta, se tiene que

Observacin 3.24.

Cuando

es discreta, entonces

FX (x) =

tRec(X) : t[x]

xRec(X)

pX (x) = 1.

pX (t).

3.4. Ejemplos de Variables discretas.


Ejemplo 3.25. Variable Bernoulli de parmetro p. Notacin:

X Ber(p) .

(
)
Si consideramos , A, P espacio de probabilidad cualquiera,
A A tal que P (A) =
{
1 si w A
p (0, 1) y denimos X : R tal que X(w) =
diremos que
0 si w
/A
en este caso
{ X distribuye Ber(p) . La funcin de probabilidad queda en este caso
p
si x = 1
pX (x) =
. Se suele decir que si ocurre A es xito y si no fracaso,
1 p si x = 0
entonces p se interpreta como la probabilidad de xito.

Ejemplo 3.26. Variable Binomial de parmetros n y p. Notacin: X Bin(n, p) .


Si repetimos de manera independiente experimentos de Bernoulli con probabilidad
de xito p en cada prueba y denimos para cada i = 1, 2, 3, , ..., n
{
1 si hay xito en la i-sima prueba
Xi =
.
0
si no
25

Captulo 3. Variable Aleatoria.


Entonces diremos que X = X1 + X2 + ... + Xn (cantidad de xitos en las n pruebas),
distribuye Bin(n, p). En este caso es claro que Rec(X) = {0, 1, 2, ..., n} y para obtener
la funcin de probabilidad, observamos que si x {0, 1, 2, ..., n}, entonces P (X = x)
signica la probabilidad de obtener x xitos (y por lo tanto nx fracasos). En primer
lugar calculamos la probabilidad de que salga xito las primeras x veces y fracaso las
siguientes n x veces. Este suceso es A1 A2 ... Ax Acx+1 ... Acn donde Ai =
sale xito la vez i-sima. Como las pruebas son independientes, la probabilidad de
esta interseccin es igual al producto de las mismas. Siendo p la probabilidad de cada
xito, se deduce que la probabilidad de obtener xito las primeras x veces y fracaso las
restantes es igual a px (1 p)nx . Ahora, si consideramos los x xitos y n x fracasos
en cualquier otro orden, la probabilidad ser tambin px (1 p)nx , por lo tanto la
probabilidad de obtener x xitos y n x fracasos, ser px (1 p)nx multiplicado por
la cantidad de maneras en que se pueden combinar los x xitos y n x fracasos, de
todas las maneras posibles. Para obtener dicho nmero, debemos elegir x lugares de
entre los n para ubicar los xitos (en los restantes lugares van los fracasos), por lo
que el total de formas posibles es Cxn . Entonces se obtuvo que

pX (x) = Cxn px (1 p)nx para todo x {0, 1, 2, ..., n} .

Ejemplo 3.27. Variable Geomtrica de parmetro p. Notacin: X Geo(p) .


En este caso se realizan de manera independiente pruebas de Bernoulli hasta obtener
el primer xito. Aqu se dene la variable X = cantidad de fracasos. En este caso,
se tiene que Rec(X) = {0, 1, 2, ...} . Adems, si x {0, 1, 2, ...}, el suceso {X = x}
signica que las primeras x veces hubo fracaso y luego hubo xito. La probabilidad
en este caso es (nuevamente usando que las pruebas son independientes) (1 p)x p,
por lo que
pX (x) = (1 p)x p para todo x {0, 1, 2, ...} .

Observacin 3.28.

Para el mismo experimento, se puede denir la variable

X =

cantidad de pruebas, tambin llamada con distribucin geomtrica y para la que se


obtiene con el mismo argumento su funcin de probabilidad como

pX (x) = (1 p)x1 p

para todo

x {1, 2, 3, ...} .

Ejemplo 3.29. Variable Binomial Negativa de parmetros


X Bin Neg(r, p) .

r, p.

Notacin:

En este caso se realizan de manera independiente pruebas de Bernoulli hasta obtener


el r-simo xito. Aqu se dene la variable X = cantidad de fracasos. En este caso,
se tiene que Rec(X) = {0, 1, 2, ...} . Adems, si x {0, 1, 2, ...}, el suceso {X = x}
signica que las primeras x + r 1 veces, hubo r 1 xitos y x fracasos, y adems
en la prueba x + r hubo xito. Entonces la probabilidad del suceso {X = x} es la
probabilidad de que las primeras x + r 1 veces, hubo r 1 xitos y x fracasos, que
x+r1 r1
es (razonando como en la binomial) Cr1
p (1 p)x multiplicado por p. Entonces
x+r1 r
pX (x) = Cr1
p (1 p)x para todo x {0, 1, 2, ...} .

26

Captulo 3. Variable Aleatoria.

Observacin 3.30.
X =

Al igual que lo visto para la geomtrica, si denimos la variable

cantidad de pruebas, tambin se llama binomial negativa, y su funcin de

probabilidad queda
x1 r
pX (x) = Cr1
p (1 p)xr

para todo

x {r, r + 1, r + 2, ...} .

Ejemplo 3.31. Variable Hipergeomtrica de parmetros N1 , N2 , n. Notacin:


X Hiper(N1 , N2 , n) .
En este caso se considera una poblacin de N elementos, dividida en dos grupos,
cuyos totales son N1 y N2 . N1 + N2 = N. Se realizan n extracciones sin reposicin
de objetos de esta poblacin. Le llamaremos xito cda vez que una extraccin sea
de entre entre el grupo de los N1 y fracaso en caso contrario. Denimos en este
caso X = cantidad de xitos entre las n extracciones. Observamos que Rec(X) =
{x N : max {0, N2 n} x min {n, N1 }} . El total de las formas posibles que
hay de extraer n objetos de un total de N , sin reposicin y sin importar el orden, es
CnN . Anlogamente, tenemos CxN1 formas de elegir entre los N1 elementos x, y por cada
N2
una de estas c ombinaciones tenemos Cnx
formas de elegir entre los N2 elementos,
N2
los restantes n x, por lo tanto, tendremos CxN1 Cnx
casos favorables,entonces
N2
CxN1 Cnx
para todo x Rec(X).
pX (x) =
CnN

Ejemplo 3.32. Variable Poisson de parmetro . Notacin: X Poisson() .


Esta variable suele ser til para modelar diversos fenmenos, por ejemplo aquellos
en los cuales se mide la cantidad de sucesos que ocurren en un intervalo de tiempo.
Rec(X) = {0, 1, 2, ...} . Ejempos de estos fenmenos pueden ser dados por la cantidad
de autos que pasan por un determinado puente en un intervalo de tiempo, rompimiento de cromosomas, desintegracin de partculas, etc. Bajo ciertas hiptesis sobre el
x
experimento es posible demostrar que existe un valor de > 0 tal que pX (x) = e x! .
Veremos en lo que sigue la deduccin de la frmula que nos da la funcin de probabilidad, de una variable aleatoria Poisson con parmetro > 0. Para realizar la
deduccin de la frmula, ser conveniente utilizar la siguiente denicin.

Denicin 3.33.

Dado > 0, si f : (, ) R es tal que lim fh(h)


= 0 diremos que

f es o(h ).

Observacin 3.34.
mayor que

o(h ) es
h cuando h 0.

h0

una funcin que representa un innitsimo de orden

Se deja como ejercicio, vericar las siguientes propiedades concernientes al lgebra de


funciones o(h ).

o(h ) o(h ) = o(h ).


Si f es una funcin acotada, entonces f (h)o(h ) = o(h ).
27

Captulo 3. Variable Aleatoria.

o(h ) = o(h ) para cualquier .


Consideramos una familia de variables aleatorias discretas {Xt }t>0 que toman valores
en {0, 1, 2, 3, ...} . Le llamaremos pn (t) = P (Xt = n) . Supondremos las siguientes
hiptesis sobre las variables Xt .
1. H1: Las funciones pn son derivables en todo punto 0 < p0 (1) < 1 p0 (0) =
P (X0 = 0) = 0 (el proceso arranca en 0).
2. H2: La distribucin de Xt+h Xt es igual a la de Xh para todos t, h > 0 (el
proceso tiene incrementos estacionarios).
3. H3: Las variables Xt2 Xt1 y Xt4 Xt3 son independientes cualesquiera sean
0 < t1 < t2 < t3 < t4 (el proceso tiene incrementos independientes).
4. H4: P (Xt 2) = o(t).
H2 signica que la distribucin de Xt+h Xt , slo depende de h (no de t). Si Xt+h Xt
cuenta la cantidad de sucesos que se observan en el intervalo [t, t + h], la distribucin
de esta variable es igual a la de Xh que es la cantidad de sucesos que se observan en
el intervalo [0, h] .
H3 signica que la cantidad de sucesos que se observan en el intervalo [t1 , t2 ] es independiente de la cantidad de sucesos que se observan en [t3 , t4 ] siendo estos intervalos
disjuntos entre si.
H4 signica que para valores pequeos de t, la probabilidad de observar 2 o ms sucesos en un intervalo de longitud t es un innitsimo de mayor orden que la probabilidad
de observar un slo suceso en el mismo intervalo.

Lema 3.35.
tal que

Si se cumplen las condiciones H1, H2, H3 y H4 entonces existe


t

p0 (t) = e

>0

Demostracin.

(
]
it
t,
(i = 1, 2, 3, ..., n)
Para cada t > 0, partimos el intervalo [0, t] en n subintervalos i1
n
n
t
t], no]se obde longitud constante e igual a n . Entonces, decir que en el intervalo [0,
( i1
servaron sucesos, es equivalente a decir que en todos los subintervalos n t, itn no se
observaron sucesos.
(
) H3
p0 (t) = P (Xt = 0) = P Xt/n = 0; X2t/n Xt/n = 0; ...; Xt X(n1)t/n = 0 =
(
)
P Xt/n = 0)P (X2t/n Xt/n = 0)...P (Xt X(n1)t/n = 0 =
[
]n
P Xt/n = 0) = [p0 (t/n)]n .

H2

Entonces obtuvimos que p0 (t) = [p0 (t/n)]n para todo t > 0. Entonces, para todo
m natural tenemos que p0 (mt) = [p0 (mt/n)]n , pero por otro lado como el intervalo
[0, mt] lo podemos partir en m intervalos de igual longitud t, tambin se cumple que
p0 (mt) = [p0 (t)]m . Entonces [p0 (t)]m = [p0 (mt/n)]n , por lo que [p0 (t)]m/n = p0 (mt/n)
28

Captulo 3. Variable Aleatoria.


para todos t > 0, m y n naturales. Hacemos t = 1 y obtenemos [p0 (1)]m/n = p0 (m/n)
para todos m y n naturales. Tomando lmites, se deduce que [p0 (1)]t = p0 (t) para
todo t > 0. Asumiendo que 0 < p0 (1) < 1, existe > 0, tal que p0 (1) = e y
entonces p0 (t) = et para todo t > 0.X

Teorema 3.36.

Bajo las hiptesis H1, H2, H3 y H4, se cumple que

et (t)n
pn (t) =
n!

para todo

t>0

n = 0, 1, 2, 3, ...

Demostracin.

Sabemos que p0 (t) = et = 1 t + o(t). Como adems por H4 P (Xt 2) = o(t),


se deduce que

p1 (t) = P (Xt = 1) = 1 p0 (t) P (Xt 2) = t + o(t).


Entonces para cada h > 0 tenemos que

pn (t + h) = P (Xt+h = n) =
P (Xt = n; Xt+h Xt = 0) + P (Xt = n 1; Xt+h Xt = 1) +
n

P (Xt = n i; Xt+h Xt = i) .

i=2

Ahora, observamos que


n

P (Xt = n i; Xt+h Xt = i) P (Xt+h Xt 2) = 1 p0 (h) p1 (h) = o(h).

i=2

Entonces

pn (t + h) = P (Xt = n; Xt+h Xt = 0) + P (Xt = n 1; Xt+h Xt = 1) + o(h) =

H3

P (Xt = n)P (Xt+h Xt = 0) + P (Xt = n 1)P (Xt+h Xt = 1) + o(h) =

H2

pn (t)ph (0) + pn1 (t) p1 (t) + o(h) =


pn (t) (1 h + o(h)) + pn1 (t) (h + o(h)) + o(h).
Y como pn1 (t) y pn (t) son probabilidades, son acotadas, por lo que multiplicadas
por o(h) dan o(h) y por lo tanto podemos asegurar que

pn (t + h) = pn (t) (1 h) + pn1 (t) h + o(h).


Si restamos a ambos trminos pn (t) y dividimos entre h obtenemos

pn (t + h) pn (t)
o(h)
= pn1 (t) pn (t) +
h
h
29

Captulo 3. Variable Aleatoria.


si ahora tomamos lmite cuando h 0 obtenemos la relacin

p0n (t) = pn1 (t) pn (t) .


Observemos que conociendo la funcin pn1 (t), tenemos una ecuacin diferencial
lineal de primer orden con condicin inicial pn (0) = 0. Como conocemos p0 (t) = et ,
podemos hallar p1 (t), luego p2 (t) y as sucesivamente. Se deja como ejercicio vericar
n
t
por induccin que la solucin es pn (t) = e n!(t) .X

Observacin 3.37.

p0n (t) = pn1 (t) pn (t) en el caso n = 0 queda


p00 (t) = p0 (t) que junto con la condicin inicial p0 (0) = 0 da por solucin p0 (t) =
et . Por lo tanto si en H1 no pedimos que 0 < p0 (1) < 1 y a cambio pedimos que
p1 (t) = t + o(t), obtenemos una demostracin del resultado, sin necesidad del lema
La ecuacin

previo.

3.5. Variables aleatorias absolutamente continuas.


Denicin 3.38. Variables aleatorias
(
)absolutamente continuas.

Dado un espacio de probabilidad , A, P . Diremos que X : R es una variable


aleatoria absolutamente continua si y slo
x si existe una funcin fX : R R tal que
fX (x) 0 para todo x R y FX (x) = fX (t)dt. A la funcin fX se le denomina
densidad de X.

Teorema 3.39.

Si

es absolutamente continua y

es un boreliano cualquiera,

entonces

P (X A) =

fX .
A

La demostracin del teorema surge de la teora de la medida, pero es evidente si


consideramos como conjunto A a un intervalo (a, b] cualquiera, ya que sabemos que

P (X (a, b]) = FX (b) FX (a) =

fX

fX =

fX .
a

Como los conjuntos de la forma (a, b] generan la -lgebra de Borel, por un argumento
de teora de medida se extiende la igualdad para todo A boreliano.

Observacin 3.40. Cuando decimos A fX , nos estamos reriendo a la integral de


Lebesgue, ya que la integral de Riemann est denida nicamente sobre intervalos,
de todas formas la integral de Lebesgue coincide con la de Riemann sobre intervalos.

Observacin 3.41.

Si

es absolutamente continua, entonces

fX = 1.

30

Captulo 3. Variable Aleatoria.

Observacin 3.42.

Si

es absolutamente continua entonces

P (X = a) = 0

cualquiera sea

a.

Observacin 3.43. Si X es absolutamente continua entonces FX


FX (x ) = FX (x) P (X = x) = FX (x).
Observacin 3.44.
en

Observacin 3.45.

x es punto
= fX (x).

Si

0
y adems FX (x)

de continuidad de

fX ,

es continua ya que

entonces

FX

es derivable

Dada una funcin de densidad, si cambiamos la denicin de la

misma en un conjunto de puntos de medida nula, no cambia la funcin de distribucin,


ya que la integral sobre este conjunto valdr cero.

3.46. Si f : R R es tal que f (x) 0 para( todo x ) R y cumple


Observacin
+
f (x)dx = 1, entonces existe un espacio de probabilidad , A, P y una varia
ble aleatoria X absolutamente continua tal que fX = f . Lo anterior se debe a que
x
deniendo F : R R tal que F (x) = f (t)dt, entonces, F es montona creciente, continua en todo punto, con lmites 1 y 0 a + y respectivamente. Luego
aplicamos el teorema de existencia de un espacio de probabilidad para estos casos.

3.6. Ejemplos de variables absolutamente continuas.


Ejemplo 3.47. Variable uniforme en el intervalo [a, b] . Notacin: X U [a, b] .
{

si x (a, b)
se dice que X tiene distribucin
0 si x
/ (a, b)

xa
0 si
xa
si a x b y se
uniforme en el intervalo [a, b] . En este caso FX (x) =
ba
1 si
xb
observa que si elegimos c, d, e, f tales que a < c < d < b, a < e < f < b, con
d c = f e, entonces
Cuando X es tal que fX (x) =

1
ba

P (c < X < d) = FX (d) FX (c) =

dc
f e
=
= P (e < X < f )
ba
ba

por lo que intervalos incluidos en [a, b] de igual longitud tienen igual probabilidad.

Ejemplo 3.48. Variable Exponencial de parmetro > 0. Notacin: X Exp() .


{

0
si x < 0
se dice que X tiene distribucin
x
e
si x 0
{
0
si x < 0
exponencial de parmetro . En este caso FX (x) =
.
1 ex si x 0
Cuando X es tal que fX (x) =

Ejemplo 3.49. Variable Normal de parmetros


N (, 2 ) .

2 > 0.

Notacin:

X
31

Captulo 3. Variable Aleatoria.


2

1 x
1
Cuando X es tal que fX (x) = 2
e 22 ( ) se dice que X tiene distribucin
2
normal con media y varianza 2 . Veremos que sta funcin es una densidad. Dado que es positiva, basta ver que integra uno. Observamos que haciendo el cam + 1 (x)2
+ 1 2
1
, obtenemos que 2
e 22
dx = 12 e 2 t dt,
bio de variable t = x
2

+ 1 2
por lo que bastar con probar que es equivalente a probar que 12 e 2 t dt =
1 (x2 +y2 )
1. Calculemos
e2
dxdy. Dado que la integral es convergente, es igual a

lim

n+ D

1
2

R2
2 +y 2
x
(
)

dxdy siendo Dn = {(x, y) R2 : x2 + y 2 n2 } .

Pasando a coordenadas polares, obtenemos que


n
2

(
)
1
2 +y 2
2
2
x
(
)
er /2 rdr = 2 1 en /2 2.
d
e2
dxdy =
0

Dn

Por lo tanto, tenemos que

2 =

1
2

2
2
e (x +y ) dxdy =

x2 /2

R2

entonces,

dx

y 2 /2

2 /2

dx =

dy =

x2 /2

)2
dx

ex

2.

3.7. Variables aleatorias mixtas.


Existen variables aleatorias que no son discretas ni absolutamente continuas. A este
tipo de variables se les suele llamar mixtas. Para construir un ejemplo de una variable
de este tipo, basta considerar una funcin de R en R, con lmites 0 y 1 a menos y
ms innito respectivamente, creciente y continua por derecha, tal que tenga un slo
punto de discontinuidad, con un salto menor estricto que 1. Un ejemplo concreto de
esta situacin se puede obtener en el siguiente ejemplo.

Ejemplo 3.50.

Dada X U (0, 1), denimos Y =max{X, 1/2} .

FY (y) = P (Y y) = P (max {X, 1/2} y) = P (X y, 1/2 y) =

{
{
y < 1/2
0 si
P (X y) si 1/2 y
FX (y) si 1/2 y
y si 1/2 y 1
=
=
P ()
si 1/2 > y
0
si 1/2 > y

1 si
y>1
Por lo tanto, observando que P (Y = 1/2) = FY (1/2) FY (1/2 ) = 1/2 (lo cual nos
asegura que Y no es absolutamente continua) y que P (Y = y) = 0 para todo y 6= 1/2
se deduce que Y tampoco puede ser discreta.
32

Captulo 4
Distribucin conjunta.
Denicin 4.1. Dadas X1 , X2 , ..., Xk variables aleatorias sobre un espacio de probabilidad (, A, P ) , se dene la distribucin del vector aleatorio (X1 , X2 , ..., Xk ) (o
tambin la distribucin conjunta de las variables X1 , X2 , ..., Xk ) como la funcin
FX1 ,X2 ,...,Xk : Rk R tal que
FX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) := P (X1 x1 , X2 x2 , ..., Xk xk ) .
Como siempre, el suceso {X1 x1 , X2 x2 , ..., Xk xk } es la abreviacin de

{w : X1 (w) x1 ; X2 (w) x2 ; ....; Xk (w) xk } =

Xi1 ((, xi ]) .

i=1

Veremos en lo que sigue diversas propiedades de las distribuciones conjuntas.

4.1. Propiedades.
Teorema 4.2.
la variable

xi

FX1 ,X2 ,...,Xk : R R como funcin nicamente de


jas), entonces FX1 ,X2 ,...,Xk es continua por derecha

Fijado i, mirando

(dejando las dems

y montona creciente.

Teorema 4.3.

lim

Teorema 4.4.
Teorema 4.5.

(x , x , ..., xk ) = 0.
lim
F
algn xi X1 ,X2 ,...,Xk 1 2
lim

FX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = FX2 ,...,Xk (x2 , ..., xk ).

x1 +

Observacin 4.6.
cada variable

FX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = 1.

x1 ,x2 ,...,xk +

Xi

Usando esta propiedad,

k1

veces, obtenemos la distribucin de

haciendo tender todas las dems a

+.

Teorema 4.7.
lim

FX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = FXi (xi )

x1 ,x2 ,...,xi1 ,xi+1 ,...,xk +

33

para todo

i = 1, 2, 3, ..., k.

Captulo 4. Distribucin conjunta.


Las demostraciones de estas propiedades se realizan de manera similar al caso univariado, haremos como ejemplo el teorema 1.3.
Dado que FX1 ,X2 ,...,Xk es montona creciente como funcin de cada variable, basta
hallar el lmite sobre alguna sucesin en particular en cada variable. Por ello, denik

mos los conjuntos An =


Xi1 ((, n]) . Observamos que la sucesin de conjuntos
i=1

{An }nN crece a , luego por la propiedad de continuidad de las probabilidades se


deduce que
( + )

lim FX1 ,X2 ,...,Xk (n, n, ..., n) = lim P (An ) = P


An = P () = 1.X
n+

n+

Teorema 4.8.

n=1

p Rk , i = 1, 2, 3, ..., k y h1 , h2 , ..., hk R+ denimos el


(i)
operador FX (p) = FX (p + hi ei ) FX (p), (donde e1 , e2 , ..., ek son los vectores de
hi
k
la base cannica de R ) entonces
Si para cada

(k)

(1)

hk (k1)
...h1 FX (p) 0.
h
k1

Observamos que en el caso bivariado, tenemos que

P (a < X b; c < Y d) = FX,Y (b, d) FX,Y (b, c) FX,Y (a, d) + FX,Y (a, c) .
Demostracin.

Se deja como ejercicio. Sugerencia, probar por induccin que


(1)

(k)

...h1 FX (p) =
hk (k1)
h
k1

(1)k

Pk

i=1 i

FX (p1 + 1 h1 , p2 + 2 h2 , ..., pk + k hk ) =

1 ,2 ,...,k {0,1}

P (p1 < X1 p1 + h1 , p1 < X2 p2 + h2 , ..., pk < Xk pk + hk ) 0.X


Como en el caso univariado, podramos preguntarnos cundo una funcin F : Rk
R es la funcin de distribucin de un vector (X
( 1 , X2 , ..., )Xk ) en cierto espacio de
probabilidad. Nuevamente, deniramos la terna Rk , B, P deniendo P (A) de tal
modo que
P ((, x1 ] (, x2 ] ... (, xk ]) = F (x1 , x2 , ..., xk ). Para ello necesitamos
nuevamente del teorema de extensin de medidas. Esto es posible cuando F cumple
las siguientes propiedades: i) F es continua por derecha y montona creciente como
funcin de cada una de sus variables, ii)
lim
F (x1 , x2 , ..., xk ) = 1, iii)
lim

algn

F (x1 , x2 , ..., xk ) = 0,

xi

iv)

x1 ,x2 ,...,xk +
(k) (k1)
(1)
hk h
...h1 F (p)
k1

0 para todo p Rk y

h1 , h2 , ..., hk R+ .

Observacin 4.9.

automticamente ya que queda


ser

k = 1, se tiene que la condicin iv) se cumple


F (b) F (a) para a < b condicin que se satisface al

En el caso en que

montona creciente.

34

Captulo 4. Distribucin conjunta.

Teorema 4.10.

F : Rk R cumple
existe un espacio de probabilidad (, A, P )
que FX1 ,X2 ,...,Xk = F.
Si

las propiedades i) ii) iii) y iv) entonces,


y un vector aleatorio

(X1 , X2 , ..., Xk )

tales

4.2. Vectores aleatorios discretos.


Denicin 4.11. Vectores aleatorios discretos.

Dado un espacio de probabilidad (, A, P ), se dice que el vector aleatorio (X1 , X2 , ..., Xk ) :


Rk es discreto si y slo si existe A Rk numerable tal que P ((X1 , X2 , ..., Xk ) A) =
1.
Veremos ahora que un vector aleatorio es discreto si y slo si todas sus variables
componentes son discretas.

Teorema 4.12.
torio

Dado un espacio de probabilidad

(X1 , X2 , ..., Xk )

es discreto si y slo si

Xi

(, A, P ),

entonces el vector alea-

es discreta para todo

i = 1, 2, 3, ..., k.

Demostracin.

) Existe A Rk numerable tal que P ((X1 , X2 , ..., Xk ) A) = 1. Entonces denimos A1 := 1 (A) , A2 := 2 (A) , ..., Ak := k (A) como las proyecciones sobre cada
una de las componentes, es decir i : Rk R tal que i (x1 , x2 , ..., xk ) = xi para cada
i = 1, 2, 3, ..., k.
Observando que, para todo i = 1, 2, 3, ..., k, se tiene que {(X1 , X2 , ..., Xk ) A}
{Xi Ai }, entonces
1 = P ((X1 , X2 , ..., Xk ) A) P (Xi Ai ) ,
entonces Xi es discreta.
) Como todas las Xi son discretas, entonces existen conjuntos A1 , A2 , ..., Ak R
numerables tales que P (Xi Ai ) = 1 para todo i = 1, 2, 3, ..., k . Entonces denimos
A = A1 A2 ... Ak es numerable (por ser producto cartesiano nito de conjuntos
numerables) y adems, como interseccin nita de conjuntos de probabilidad 1 tiene
probabilidad 1, nos queda
(k
)

P ((X1 , X2 , ...Xk ) A) = P
{Xi Ai } = 1.
i=1

Entonces (X1 , X2 , ...Xk ) es discreto.X


De manera anloga a las variables discretas, y dado que un vector discreto toma
valores en un conjunto numerable con probabilidad 1, tiene sentido denir a funcin
de probabilidad conjunta, como la probabilidad de tomar cada uno de los valores de
su recorrido.

Denicin 4.13.

Si X = (X1 , X2 , ..., Xk ) es discreto, entonces le llamamos recorrido


de X al conjunto Rec(X) = {x = (x1 , x2 , ..., xk ) Rk tales que P (X = x) > 0}.
35

Captulo 4. Distribucin conjunta.

Denicin 4.14. Funcin de probabilidad conjunta. Si X = (X1 , X2 , ..., Xk ) es

discreto, denimos para cada x Rk ,

pX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = P (X1 = x1 , X2 = x2 , ..., Xk = xk ).


a la que le llamaremos funcin de probabilidad conjunta de las variables X1 , X2 , ..., Xk .

Observacin 4.15.

Si

es boreliano en

P (X A) =

Observacin 4.16.

xRec(X)

xARec(X)

Rk ,

entonces

pX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ).

pX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = 1.

Ejemplo 4.17. Vector multinomial.

Supongamos un experimento donde se repiten de forma independiente n pruebas, donde en cada una de ellas hay k resultados posibles, digamos E1 , E2 , ..., Ek . La probabilidad en cada prueba de que se observe el resultado Ei es pi , para i = 1, 2, 3, ..., k , donde
p1 + p2 + ... + pk = 1. Se denen para este experimento las variables X1 , X2 , ..., Xk ,
como Xi = cantidad de pruebas entre las n en que se obtuvo el resultado Ei  para
i = 1, 2, 3, ..., k. Se dice en estos casos que el vector (X1 , X2 , ..., Xk ) tiene distribucin
multinomial con parmetros n, p1 , p2 , ..., pk .
Notacin. (X1 , X2 , ..., Xk ) Mult(n, p1 , p2 , ..., pk ) .
Vamos a deducir su funcin de probabilidad puntual.
Fijemos x1 , x2 , ..., xk {0, 1, 2, ..., n} tales que x1 + x2 + ... + xk = n. El suceso
{X1 = x1 , X2 = x2 , ..., Xk = xk } signica que de entre las n pruebas, x1 veces se obtuvo E1 como resultado, x2 veces se obtuvo E2 ,..., xk veces se obtuvo Ek . La probabilidad de que las primeras x1 veces se obtenga E1 , las siguientes x2 veces se obtenga
E2 , y as sucesivamente hasta que las ltimas xk veces se obtenga Ek , es, debido a
la independencia de cada prueba, igual a px1 1 px2 2 ...pxk k . Si intercambiamos de lugar el
orden donde salen las x1 veces E1 , x2 veces E2 , .... xk veces Ek , la probabilidad ser
tambin px1 1 px2 2 ...pxk k ya que x1 veces aparecer el factor p1 , x2 veces p2 , ..., xk veces
pk . Por lo tanto la probabilidad de {X1 = x1 , X2 = x2 , ..., Xk = xk } ser px1 1 px2 2 ...pxk k
multiplicado por la cantidad de formas de elegir x1 lugares para ubicar las veces en
que sale E1 , x2 lugares para ubicar las veces en que sale E2 ,..., xk lugares para ubicar
las veces en que sale Ek . Para obtener este nmero, debemos primero elegir x1 lugares
entre los n para ubicar los E1 , esto se puede realizar de Cxn1 formas, luego nos quedan
n x1 lugares, disponibles, de los cuales debemos elegir x2 para ubicar los E2 , lo cual
1
se puede realizar de Cxnx
formas, luego quedan n x1 x2 lugares disponibles, de
2
1 x2
los cuales debemos elegir x3 para ubicar los E3 , lo que se puede realizar de Cxnx
3
formas, y as seguimos sucesivamente.
1
1 x2
Al nal, el nmero de todas las combinaciones posibles es Cxn1 Cxnx
Cxnx
....Cxxkk =
2
3
n!
. As obtuvimos que para todos x1 , x2 , ..., xk {0, 1, 2, ..., n} tales que x1 +
x1 !x2 !...xk !
36

Captulo 4. Distribucin conjunta.

x2 + ... + xk = n,
P (X1 = x1 , X2 = x2 , ..., Xk = xk ) =

n!
px1 px2 ...pxkk .
x1 !x2 !...xk ! 1 2

Observacin 4.18. Si (X1 , X2 , ..., Xk ) Mult(n, p1 , p2 , ..., pk ), entonces Xi Bin(n, pi )


para

i = 1, 2, 3, ..., k.

4.3. Vectores aleatorios absolutamente continuos.


Denicin 4.19. Vectores aleatorios absolutamente continuos.

Dado un espacio de probabilidad (, A, P ), se dice que el vector aleatorio (X1 , X2 , ..., Xk ) :


Rk es absolutamente continuo, si y slo si existe fX1 ,X2 ,...,Xk : Rk R tal que:
k
i) fX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) 0 paratodo (x
x1k, x2 , ..., xk ) R ,
x1
x2
ii) FX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = ... fX1 ,X2 ,...,Xk (u1 , u2 , ..., uk )du1 du2 ...duk .
A la funcin fX1 ,X2 ,...,Xk se la denomina densidad del vector (X1 , X2 , ..., Xk ), o tambin
densidad conjunta de las variables X1 , X2 , ..., Xk .
En R2 , se tiene que para todo (x, y) R2 (por aplicacin del teorema de Fubini),
)
)
x ( y
y ( x
FX,Y (x, y) =
fX,Y (u, v)dv du =
fX,Y (u, v)du dv.

4.3.1.

Propiedades.

Teorema 4.20.

Dado un espacio de probabilidad

(X1 , X2 , ..., Xk ) : Rk

(, A, P ).

Si el vector aleatorio

es absolutamente continuo con densidad


k
tonces, para todo boreliano A R se cumple que

P ((X1 , X2 , ..., Xk ) A) =

fX1 ,X2 ,...,Xk ,

en-

fX1 ,X2 ,...,Xk (x1 , x2 , ..., xk )dx1 dx2 ...dxk .


A

Demostracin.

Nuevamente el resultado se sigue del teorema de existencia y unicidad de extensin


de medidas, ya que la propiedad es vlida para todo boreliano de la forma

A = (, x1 ] (, x2 ] ... (, xk ]
y dado que los mismos generan la -lgebra de Borel en Rk se concluye la demostracin.X

Observacin 4.21. El signicado de . . . f es el de la integral de Lebesgue, que


en el caso en que el boreliano

A
es un producto cartesiano de intervalos o una unin

disjunta de productos cartesianos de intervalos, entonces dicha integral coincide con


la de Riemann.

37

Captulo 4. Distribucin conjunta.

Observacin 4.22.

Si el boreliano

tiene medida de Lebesgue nula, entonces

P (X A) = 0.

Teorema 4.23.
(X1 , X2 , ..., Xk ) :

Dado un espacio de probabilidad (, A, P ). Si el vector aleatorio


Rk es absolutamente continuo con densidad fX1 ,X2 ,...,Xk , en-

tonces,

k FX1 ,X2 ,...,Xk


(x1 , x2 , ..., xk ) = fX1 ,X2 ,...,Xk (x1 , x2 , ..., xk )
x1 x2 ...xk
igualdad vlida para todos los

(x1 , x2 , ..., xk ) Rk

salvo en un conjunto de medida

nula.

Demostracin.

Basta derivar sucesivamente a la funcin


x1 x2
FX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) =
...

xk

fX1 ,X2 ,...,Xk (u1 , u2 , ..., uk )du1 du2 ...duk

respecto a x1 , x2 , ..., xk en todo punto de continuidad de fX1 ,X2 ,...,Xk , el conjunto de


puntos donde se puede realizar esta operacin es el de puntos de continuidad de
fX1 ,X2 ,...,Xk que son todos salvo un conjunto de medida nula.X
En lo que sigue, responderemos a la siguiente pregunta: (X1 , X2 , ..., Xk ) es absolutamente continuo, es equivalente a decir que cada Xi es absolutamente continua para
i = 1, 2, 3, ..., k ?

Teorema 4.24.

Dado el vector aleatorio

(X1 , X2 , ..., Xk ) : Rk

denido sobre un

(, A, P ).
Si el vector aleatorio (X1 , X2 , ..., Xk ) es absolutamente continuo, entonces Xi
solutamente continua para todo i = 1, 2, 3, ..., k .
Adems la densidad de Xi es

fXi (ui ) =
fX1 ,X2 ,...,Xk (u1 , u2 , ..., uk )du1 du2 ...dui1 dui+1 ...duk .
espacio de probabilidad

es ab-

Rk1

Demostracin.

Sabemos que

FX1 ,X2 ,...Xk (x1 , x2 , ..., xk ) = FXi (xi ) para todo i =

lim

x1 ,x2 ,...,xi1 ,xi+1 ,...,xk +

1, 2, 3, ..., k , entonces

lim

FX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) =

x1 ,x2 ,...,xi1 ,xi+1 ,...,xk +

lim

x1 ,x2 ,...,xi1 ,xi+1 ,...,xk +

(aplicando Fubini)

xi

x1

x2

xk

...

fX1 ,X2 ,...,Xk (u1 , u2 , ..., uk )du1 du2 ..duk =

...
fX1 ,X2 ,...,Xk (u1 , u2 , ..., uk )du1 du2 ...dui1 dui+1 ...duk dui
Rk1

38

Captulo 4. Distribucin conjunta.


Entonces

FXi (xi ) =

xi

...
fX1 ,X2 ,...,Xk (u1 , u2 , ..., uk )du1 du2 ...dui1 dui+1 ...duk dui
Rk1

de donde se deduce el resultado.X

Observacin 4.25.
dice que si

(X, Y )

En el caso particular en dimensin 2, el teorema anterior nos

es absolutamente continuo con densidad

absolutamente continuas con densidades

fX (x) =

fX,Y (x, y)dy ,

fY (y) =

fX,Y ,

entonces

son

fX,Y (x, y)dx.

El recproco del teorema anterior no tiene por qu cumplirse, para ello consideremos
el siguiente ejemplo.
Denimos (X, Y ) vector en R2 , tal que (X, Y ) toma valores en la diagonal del cuadrado{[0, 1] [0, 1] con distribucin
uniforme. Es decir, si denimos el conjunto
}
D = (x, y) [0, 1]2 : y = x , entonces para todo I D intervalo, se cumple que

P ((X, Y ) A) = long(I)/ 2. Observamos en este caso que el vector (X, Y ) no es


absolutamente continuo, ya que toma valores en un segmento con probabilidad uno.
Como un segmento tiene medida nula, toda integral doble sobre dicho conjunto vale0. Entonces, si (X, Y ) admitiera densidad, se tendra que 1 = P ((X, Y ) A) =
fX,Y (x, y) = 0. Se deja como ejercicio, hallar la distribucin conjunta de (X, Y )
A

y deducir que tanto X como Y tienen distribucin uniforme en [0, 1] y por lo tanto
X e Y son absolutamente continuas.
Nuevamente, para que una funcin f : Rk R sea la funcin de densidad de un
vector (X1 , X2 , ..., Xk ) en algn espacio de probabilidad, se debe cumplir que:
i) f (x) 0 para todo x Rk (alcanza que sea para todo x salvo en un conjunto de
medida
+ nula)
+ y +
ii) ... fX1 ,X2 ,...,Xk (x1 , x2 , ..., xk )dx1 dx2 ...dxk = 1,
ya que a partir de estas dos condiciones, deniendo
x1 x2 xk
...
fX1 ,X2 ,...,Xk (u1 , u2 , ..., uk )du1 du2 ...duk
F (x1 , x2 , ..., xk ) =

se deducen de manera inmediata las 4 condiciones que requiere la funcin F para ser
la distribucin de cierto vector aleatorio en cierto espacio de probabilidad.

Ejemplo 4.26. Vector normal multivariado.

Dados un vector (1 , 2 , ..., k ) Rk y una matriz


de dimensiones k k, simtrica
y denida positiva, se dice que el
vector (X1 , X2 , ..., Xk ) tiene distribucin normal
multivariada con parmetros (, ) si su densidad viene dada por la frmula
fX (x) = fX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = (

1
)k

e
det ( )

P
1
(x) 1 (x)T
2

39

Captulo 4. Distribucin conjunta.

Observacin 4.27.
de parmetros

En el caso particular en que

k=1

queda la distribucin normal

(, 2 ) .

Para vericar que sta funcin integra 1, basta realizar enla misma el cambio de
variable t = (x )A1 siendo A una matriz tal que A2 =
(una raz cuadrada de

) y luego observar que


1 T
1
tt
...
( )k e 2 dt1 dt2 ...dtk =
Rk
2

1 2
1
2
2
...
e 2 (t1 +t2 +...+tk ) dt1 dt2 ...dtk =
( )k
Rk
2
+
+
+
1 2
1 2
1 2
1
t
t
e 2 1 dt1
e 2 2 dt2 ...
e 2 tk dtk = 1
( )k

2
ya que qued un producto de k integrales donde cada funcin integrando es la
densidad normal (0, 1) que integra 1.
Se puede probar que cuando X = (X1 , X2 , ..., Xk ) es normal multivariado, entonces
la distribucin de cada Xi es N (i , i2 ) para i = 1, 2, 3..., k .
El caso particular en(que k = 2, se
) llama tambin normal bivariada, y en este caso si

12 1,2
= (1 , 2 ) y
=
, obtenemos la frmula
1,2 22
1
2 2 2
2 1
2
1,2

fX,Y (x, y) =

e (

(x2 22 +y2 12 +12 22 +22 21 2xy1,2 +2x2 1,2 +2y1 1,2 2x22 1 2y12 2 21 2 1,2 )
2

2
12 22 1,2

4.4. Independencia de variables aleatorias.

(
)
Dado , A, P espacio de probabilidad, se dice que las variables aleatorias X1 , X2 , ..., Xk son independientes si y slo si para todos A1 , A2 , ..., Ak
borelianos, se cumple que

Denicin 4.28.

P (X1 A1 , X2 A2 , ..., Xk Ak ) = P (X1 A1 ) P (X2 A2 ) ...P (Xk Ak ) .

Observacin 4.29.

Se observa que slo sta igualdad ya implica que las variables

tomadas de a dos o de a tres, etc son indpendientes, ya que por ejemplo para ver que

X1

A3 = A4 = ... = Ak = con lo que


obtenemos P (X1 A1 , X2 A2 ) = P (X1 A1 ) P (X2 A2 ) .
(
)
Teorema 4.30. Dado , A, P espacio de probabilidad, entonces las variables aleatorias X1 , X2 , ..., Xk son independientes si y slo si se cumple que
y

X2

son independientes, basta considerar

FX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = FX1 (x1 ) FX2 (x2 ) ...FXk (xk )

para todo

(x1 , x2 , ..., xk ) Rk .
40

Captulo 4. Distribucin conjunta.


Demostracin.

) Basta considerar los borelianos A1 = (, x1 ] , A2 = (, x2 ] , ..., Ak = (, xk ],


entonces
P (X1 A1 , X2 A2 , ..., Xk Ak ) = FX1 ,X2 ,...,Xk (x1 , x2 , ..., xk )
mientras que

P (X1 A1 ) P (X2 A2 ) ...P (Xk Ak ) = FX1 (x1 ) FX2 (x2 ) ...FXk (xk )
y como las variables son independientes, se obtiene la igualdad buscada.
) La igualdad FX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = FX1 (x1 ) FX2 (x2 ) ...FXk (xk ) para todo
(x1 , x2 , ..., xk ) Rk implica que se cumple que P (X1 A1 , X2 A2 , ..., Xk Ak ) =
P (X1 A1 ) P (X2 A2 ) ...P (Xk Ak ) para los borelianos en Rk de la forma A1
A2 ... Ak = (, x1 ] (, x2 ] ... (, xk ] . Luego, como esta familia de
borelianos (al variar x1 , x2 , ..., xk ) generan la -lgebra de Borel en Rk , por extensin,
se deduce que la propiedad es vlida para todos A1 , A2 , ..., Ak borelianos. X
Dado que en el caso discreto determinar la distribucin conjunta es equivalente a
determinar la funcin de probabilidad conjunta, y en el caso absolutamente continuo,
determinar la funcin de distribucin es equivalente a determinar la densidad conjunta
(salvo conjuntos de medida nula), se tienen los siguientes corolarios.

Corolario 4.31. En el caso discreto, se tiene que las variables aleatorias X1 , X2 , ..., Xk
son independientes si y slo si se cumple que

pX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = pX1 (x1 ) pX2 (x2 ) ...pXk (xk )
para todo

(x1 , x2 , ..., xk ) Rk .

Demostracin.

) Cualesquiera sean los reales x1 , x2 , ..., xk basta considerar los borelianos A1 =


{x1 }, A2 = {x2 }, ..., Ak = {xk } y usar la denicin de independencia.
) Dados los reales x1 , x2 , ..., xk , se tiene que FX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) =

pX1 ,X2 ,...,Xk (t1 , t2 , ..., tk ) =


...
t1 Rec(X1 ) : t1 x1

...

t1 Rec(X1 ) : t1 x1

t1 Rec(X1 ) : t1 x1

tk Rec(Xk ) : tk xk

pX1 (x1 )

pX1 (x1 ) pX2 (x2 ) ...pXk (xk ) =

tk Rec(Xk ) : tk xk

t2 Rec(X2 ) : t2 x2

pX2 (x2 ) ...

pXk (xk ) =

tk Rec(Xk ) : tk xk

FX1 (x1 )FX2 (x2 )...FXk (xk ).X

41

Captulo 4. Distribucin conjunta.

Corolario 4.32.

En el caso absolutamente continuo, Si

(X1 , X2 , ..., Xk )
X1 , X2 , ..., Xk

absolutamente continuo, se tiene que las variables aleatorias

es vector
son inde-

pendientes si y slo si se cumple que

fX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = fX1 (x1 ) fX2 (x2 ) ...fXk (xk )
para todo

(x1 , x2 , ..., xk ) Rk punto

de continuidad defX1 ,X2 ,...,Xk .

Demostracin.

) FX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) = FX1 (x1 )FX2 (x2 )...FXk (xk ), para todo (x1 , x2 , ..., xk )
Rk punto de continuidad de fX1 ,X2 ,...,Xk , si derivamos sucesivamente de ambos lados de la igualdad, primero respecto de x1 luego respecto de x2 ... y por ltimo respecto de xk , del lado izquierdo queda fX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) y del derecho queda
fX1 (x1 )fX2 (x2 )...fXk (xk ), por lo tanto la igualdad se obtiene en todo punto de Rk ,
salvo en un conjunto de medida nula.
)
x1 x2 xk
FX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) =
...
fX1 (u1 )fX2 (u2 )...fXk (uk )du1 du2 ...duk =

x1

fX1 (u1 )du1

x2

fX2 (u2 )du2 ...

xk

fXk (uk )duk =

FX1 (x1 )FX2 (x2 )...FXk (xk ).X


(
)
Denicin 4.33. Dado , A, P espacio de probabilidad, se dice que la familia de
variables aleatorias {Xt }tI donde I es una familia arbitraria de ndices si y slo si
para todo F I nito, se cumple que {Xt }tF son independientes.

Ejemplo 4.34.

Si el vector X =(X1 , X2 , ..., Xk ) es normal multivariado, con parmetros (, ), donde la matriz


es diagonal, es decir cuando i,j = 0 para todos
i 6= j , observamos que

)2
1
k (

xi i
T
(x )
(x ) =
i
i=1
por lo que la densidad conjunta queda
Pk
1
fX1 ,X2 ,...,Xk (x1 , x2 , ..., xk ) =
e i=1
212 22 ...k2
k

i=1

1
1
2

e
2i2

xi i
i

xi i
i

por lo que se deduce que X1 , X2 , ..., Xk son independientes cuyas distribuciones son
) para i = 1, 2, 3, ..., k . Ms adelante se ver el signicado de los
Xi N (i , i2
parmetros (, ) .
42

Captulo 4. Distribucin conjunta.

Teorema 4.35.

Convolucin de dos variables aleatorias.

X, Y : R denidas
la variable Z = X + Y.

Dadas dos variables aleatorias independientes


cio de probabilidad

(, A, P ) .

Consideremos

sobre un espa-

Entonces:

(i)

Si

pZ (z) =
(ii)

Si

(X, Y )

Z es

son discretas, entonces

discreta y adems

xRec(X) zxRec(Y )

pX (x)pY (z x).

es absolutamente continuo, entonces

adems

fZ (z) =

es absolutamente continua y

fX (x)fY (z x)dx.

Demostracin.

(i)

pZ (z) = P (Z = z) = P (X + Y = z) =

P (X + Y = z; X = x) =

xRec(X)

P (Y = z x; X = x) =

xRec(X)

P (Y = z x) P (X = x) =

xRec(X), zxRec(Y )

pX (x)pY (z x).

xRec(X) zxRec(Y )

(ii)

Si le llamamos A = {(x, y) R2 : x + y z}, entonces

FZ (z) = P (Z z) = P (X + Y z) =
fX,Y (x, y)dxdy =
A

fX (x)fY (y)dxdy =

zx

zx

fX (x)fY (y)dy dx =

)
fY (y)dy fX (x)dx

ahora realizando en la integral en y el cambio de variable t = y + x y nos queda


)
)
+ ( z
z ( +
fY (t x)dt fX (x)dx =
fX (x)fY (t x)dx dt.

Por lo tanto Z es absolutamente continua con densidad


+
fZ (z) =
fX (x)fY (z x)dx.X

43

Captulo 4. Distribucin conjunta.

Ejemplo 4.36.

Si X N (1 , a2 ) , Y N (2 , b2 ) son independientes, entonces


Z = X + Y N (1 + 2 , a2 + b2 ) .
Basta probarlo para el caso 1 = 2 = 0, ya que si X N (, 2 ) ,entonces X = +T
donde T N (0, 2 ) .
Aplicamos entonces la frmula de la convolucin y obtenemos que
+
+
2
x2 (zx)
1
fZ (z) =
fX (x)fY (z x)dx = fZ (z) =
e 2a2 e 2b2 dx =
2ab

2
1 2(az
e 2 +b2 )
2ab

1
2a2 b2

2
x a2 +b2 za
2

a +b2

dx.

(
)
2
1
Luego de hacer el cambio de variable t = ab
x a2 + b2 aza2 +b2 , obtenemos que la
ltima integral es igual a
+ 2
z 2
z 2
t
1
1
2 +b2 )
2(a

e 2 dx =
e 2(a2 +b2 )
e
2 a2 + b2
2 (a2 + b2 )

que es la funcin de densidad correspondiente a una variable con distribucin N (0, a2 + b2 ) .


Observamos que de esta propiedad, se deduce que toda combinacin lineal de variables
normales independientes es normal.

Ejemplo 4.37.

Si X Bin(n, p), Y Bin(m, p) son independientes, entonces Z =


X + Y Bin(n + m, p) .
En este caso,
pZ (z) = P (Z = z) = P (X + Y = z) =
n+m

P (Y = z x) P (X = x) =

x=0

m
Czx
pzx (1 p)mz+x Cxn px (1 p)nx =

xn, zxm

m
Czx
Cxn pz (1 p)n+mz = pz (1 p)n+mz

xn, zxm

m
Czx
Cxn

xn, zxm

Ahora, teniendo en cuenta el coeciente que multiplica al trmino tz cuando desarrollamos (1 + t)n (1 + t)m = (1 + t)n+m , obtenemos la igualdad

m
Czx
Cxn = Cxn+m
x

Por lo tanto

xn, zxm

pZ (z) = Cxn+m pz (1 p)n+mz .

44

Captulo 4. Distribucin conjunta.

4.5. Mtodo del Jacobiano.


Frecuentemente, conocemos la distribucin de un vector aleatorio X y debemos trabajar con una funcin del mismo, digamos Y = g(X). Si el vector X es absolutamente
continuo y la funcin g es diferenciable deseamos saber si Y es tambin absolutamente continuo, y si lo es, obtener una frmula que nos permita hallar la densidad de Y .
El siguiente teorema apunta en esa direccin.
(
)
Teorema 4.38. Dados , A, P espacio de probabilidad, X = (X1 , X2 , ..., Xk ) :
Rk vector aleatorio y g : U V donde U, V son abiertos de Rk tales que
P (X U ) = 1, g es biyectiva y diferenciable con detJg (x) 6= 0 para todo x U.
Si X es absolutamente continuo entonces Y = g(X) es absolutamente continuo con
densidad conjunta dada por

(
)
fY (y) = fX g 1 (y)

1
1V (y).
|detJg (g 1 (y))|

Demostracin.

Basta ver que para todo boreliano B en Rk , se puede expresar P (Y B) como una
integral sobre el conjunto B de cierta funcin, la cual ser necesariamente (salvo
conjuntos de medida nula) la densidad del vector Y.

P (Y B) = P (g(X) B) = P X g

(B) =

fX (x)dx1 dx2 ...dxk .

g 1 (B)U

Ahora, realizando el cambio de variable y = g(x) en la integral nos queda

1
fX (g 1 (y))
dy1 dy2 ...dyk =
|detJg (g 1 (y))|
BV

(
)
fX g 1 (y)

1
1V (y)dy1 dy2 ...dyk .X
|detJg (g 1 (y))|

En el caso particular en que k = 1 tenemos el siguiente corolario.


(
)
Corolario 4.39. Dados , A, P espacio de probabilidad, X : R variable
aleatoria y g : U V donde U, V son abiertos de R tales que P (X U ) = 1, g es
0
biyectiva y derivable, con g (x) 6= 0 para todo x U.
Si X es absolutamente continua entonces Y = g(X) es absolutamente continua con
densidad dada por

(
)
fY (y) = fX g 1 (y)

1
|g 0 (g 1 (y))|

1V (y).

Ejemplo 4.40.

Como aplicacin veremos que si X, Z N (0, 1) independientes, y


denimos Y = |Z| entonces probaremos que X 2 + Y 2 Exp( = 1/2) .
45

Captulo 4. Distribucin conjunta.


En primer lugar observamos que, para y > 0, se tiene que FY (y) = P (|Z| y) =
P (y Z y) = FZ (y)FZ (y) = 2FZ (y)1, por lo tanto fY (y) = 2fZ (y)1{y>0} =
(
)
y 2
2 e 2 1{y>0} . Tambin vemos que P (X, Y ) R R+ = 1.
2
Consideramos la funcin g : R R+ V siendo V = {(u, v) R2 : v > u2 } tal
2
2
1
que
( g(x, y) )= (x, x + y ) . Esta funcin es invertible y su inversa es g (w, t) =
w, t w2 . detJg (x, y) = 2y.
Dado que X e Y son independientes, se tiene que su densidad conjunta es fX,Y (x, y) =
1
2
2
f (x)f (y) = 1 e 2 (x +y ) 1
.
X

{y>0}

La densidad conjunta de (W, T ) = g (X, Y ) = (X, X 2 + Y 2 ) ser entonces

fW,T (w, t) = fX,Y (g 1 (w, t))

1
1 t
1
1V (w, t) = e 2
1V (w, t).
1
|detJg (g (w, t))|

2 t w2

Hallamos la densidad de T = X 2 + Y 2 a partir de la densidad conjunta como

fT (t) =

+
si

t>0

fW,T (w, t)du =

1 v
1
e2
dw

2 t w2

luego, realizando el cambio de variable u = tsen obtenemos fT (t) = 12 et/2 y, dado


que para t < 0, se tiene fT (t) = 0, se deduce que
1
fT (t) = et/2 1{t>0}
2
por lo que V = X 2 + Y 2 Exp( = 1/2) .
Ejercicio.
Si X e Y son independientes con distribucin exponencial de parmetro = 1. Hallar
la densidad conjunta del vector (X + Y, X Y ) .

46

Captulo 5
Integral de Riemann-Stieltjes.
Dadas funciones g, F : [a, b] R que cumplan ciertos requisitos, deniremos la
b
expresin a g(x)dF (x) de tal manera que cuando consideremos el caso particular
en que F (x) = x nos quede la denicin clsica de integral de Riemann. Denimos
una particin del intervalo [a, b] como el conjunto nito P = {a = x0 , x1 , ...., xn = b}
donde xi1 < xi para todo i = 1, 2, ..., n. Junto con la particin, elegimos para cada
i = 1, 2, ..., n, puntos intermedios ci [xi1 , xi ] . Es decir que dar la particin P
equivale a dar los puntos de subdivisin xi y los puntos intermedios ci .

Denicin 5.1.

Dadas g, F : [a, b] R y P particin (con sus correspondientes


puntos intermedios ci ), denimos la suma parcial de Riemann-Stieltjes como

S (P, g, F ) =

g (ci ) (F (xi ) F (xi1 )) .

i=1

Observamos que cuando F (x) = x, si le pedimos a g que sea integrable Riemann,


b
dichas sumas se acercarn indenidamente al valor a g(x)dx conforme anemos
sucientemente la particin, en esa direccin apuntaremos.

Denicin 5.2. Dada P particin en [a, b] denimos kP k =mx{xi xi1 ,

i = 1, 2, ..., n}

y le llamaremos norma de la particin.

Denicin 5.3.

Dadas g, F : [a, b] R , diremos que lim S (P, g, F ) = I si y slo


kP k0

si dado > 0, existe > 0 tal que para toda P particin de [a, b] (con sus correspondientes puntos intermedios ci ) con kP k < , se cumple que |S (P, g, F ) I| < .

Denicin 5.4. Integral de Riemann-Stieltjes.

Dadas g, F : [a, b] R , si existe y es nito lim S (P, g, F ) = I , diremos que la


kP k0

integral de Riemann-Stieltjes de g respecto de F en el intervalo [a, b] existe y vale I.

Notacin:

gdF =
a

g(x)dF (x).
a

47

Captulo 5. Integral de Riemann-Stieltjes.

Observacin 5.5.

F (x) = x,
[a, b] .

En el caso particular en que

la denicin de funcin integrable Riemann en

la denicin coincide con

Se deja como ejercicio vericar el enunciado de los ejemplos que siguen.

Ejemplo
5.6.

Si F (x) = k constante, entonces cualquiera sea g : [a, b] R existe


b
gdF y adems a gdF = 0.
{
Ejemplo 5.7. Si g : [a, b] R es continua, F (x) = 1[c,b] = 10 si xsino[c, b] con
b
b
c (a, b) existe a gdF y adems a gdF = g(c).
{
Ejemplo 5.8. Si g(x) = F (x) = 1[a,c] = 01 si xsino[a, c] con c (a, b) entonces
b
no existe a gdF .

Ejemplo 5.9. Si g(x) = k constante, entonces existe ab gdF para cualquier F y vale
b
kdF (x) = k (F (b) F (a)) .
a
b
Veremos en lo que sigue un par de caracterizaciones para la existencia de a gdF.
b
a

Teorema 5.10.
(a) Existe

lim

Los siguientes enunciados son equivalentes.

kP k0

S (P, g, F )

y vale

(nito).

(b) Condicin de Cauchy.

> 0, existe > 0 tal que si P y Q son dos particiones de [a, b]


kP k < y kQk < , se cumple que |S (P, g, F ) S (Q, g, F )| < .

Dado

(c) Para toda sucesin{Pn } de particiones en


que

lim

[a, b]

tales que

kPn k 0

tales que

se cumple

S (Pn , g, F ) = I.

n+

Demostracin.

(a) (b) Dado > 0, existe > 0 tal que para toda P particin de [a, b] (con sus correspondientes puntos intermedios ci ) tal que kP k < , se cumple que |S (P, g, F ) I| <
/2. Entonces si tomamos P y Q dos particiones de [a, b] tales que kP k < y kQk < ,
se cumplir que
|S (P, g, F ) S (Q, g, F )| |S (P, g, F ) I| + |S (Q, g, F ) I| < /2 + /2 = .
(b) (c) Fijamos {Pn } sucesin de particiones en [a, b] tales que kPn k 0. Dado
> 0, tomamos el > 0 de la condicin de Cauchy, y por lo tanto existir un n0 tal que
kPn k < para todo n n0 . Entonces si consideramos n, m n0 , obtendremos que
| S (Pn , g, F ) S (Pm , g, F )| < por lo que la sucesin {S (Pn , g, F )} es de Cauchy,
entonces existir I R tal que lim S (Pn , g, F ) = I.
n+

Observamos que el valor de I depende de la eleccin de la sucesin de particiones,


faltara probar que el lmite es el mismo cualquiera sea la sucesin de particiones.
48

Captulo 5. Integral de Riemann-Stieltjes.


Consideremos entonces {Pn0 } otra sucesin de particiones en [a, b] tales que kPn0 k 0
y sea I 0 tal que lim S (Pn0 , g, F ) = I 0 . Consideramos entonces la siguiente sucen+

sin de particiones: P1 , P10 , P2 , P20 , ..., Pn , Pn0 , .... entonces es claro que esta nueva sucesin, llammosle {Qn } , cumple que kQn k 0 y por lo tanto existe I 00 tal que
lim S (Qn , g, F ) = I 00 . Pero {S (Pn , g, F )} y {S (Pn0 , g, F )}son subsucesiones de
n+

{S (Qn , g, F )} y por lo tanto I = I 0 = I 00 .


(c) (a) Supongamos por absurdo que (a) no es cierto, entonces existe > 0
tal que para todo > 0, existe una particin P , tal que |S (P , g, F ) I| .
Tomando = 1/n, encontramos una sucesin de particiones {Pn } tal que para todo
n, |S (Pn , g, F ) I| entonces lim S (Pn , g, F ) 6= I . X
n+

Teorema
5.11.

b
a

existe

Si

g : [a, b] R

es continua y

F : [a, b] R es montona, entonces

gdF.

Demostracin.

Probaremos que se cumple la condicin de Cauchy. Fijamos > 0. Como g es uniformemente continua en [a, b] existe > 0 tal que si |x y| < entonces |g(x) g(y)| <

.Tomamos una particin P = {a, x1 , x2 , ..., xn1 , b} con puntos intermedios


F (b)F (a)

ci [xi1 , xi ] i = 1, 2, ..., n y una particin Q = {a, y


1 , y2 , ..., ym1 , b} con puntos
intermedios di [yi1 , yi ] i = 1, 2, ..., m. S (P, g, F ) = ni=1 g(ci ) (F (xi ) F (xi1 )),
S (Q, g, F ) = m
i=1 g(di ) (F (yi ) F (yi1 )) .
Unimos los puntos que forman la particin P con la de Q, a la que le llamamos
{a, z1 , z2 , ..., zk1 , b} (k n + m 1 pues algunos puntos de P pueden coincidir con
algunos de Q). Podemos escribir entonces
S (P, g, F ) =

g(c0i ) (F (zi ) F (zi1 )) y S (Q, g, F ) =

i=1

g(d0i ) (F (zi ) F (zi1 ))

i=1

c0i

donde los
son los mismos que los ci (ms explcitamente, cuando [zj1 , zj ]
[ci1 , ci ] entonces c0j = ci ). Anlogamente, d0i son los mismos que los di . Observamos que|c0i d0i | < si le pedimos a las particiones P y Q, kP k < /2 y kQk < /2 .
Entonces


k




0
0
(g(ci ) g(di )) (F (zi ) F (zi1 ))
|S (P, g, F ) S (Q, g, F )| =


i=1

|g(c0i ) g(d0i )| |F (zi ) F (zi1 )| =

i=1
k

i=1

|g(c0i )

Nota.

g(d0i )| (F (zi )

F (zi1 ))

i=1

(F (zi ) F (zi1 )) = .X
F (b) F (a)

Con la misma idea, se puede probar que si F es montona creciente y g


es acotada y tiene una cantidad nita de discontinuidades,
pero F y g no tienen
b
discontinuidades en comn, entonces existe a gdF.
49

Captulo 5. Integral de Riemann-Stieltjes.

Teorema 5.12.
derivable tal que

[a, b] ,

Si g : [a, b] R
F 0 (x) = f (x) para

entonces

es continua y
todo

x [a, b],

g(x)dF (x) =
a

F : [a, b] R es
f integrable

siendo

montona y
Riemann en

g(x)f (x)dx.
a

Demostracin.

Dada una particin P de [a, b] , existen di [xi1 , xi ] i = 1, 2, ..., n tales que


F (xi ) F (xi1 ) = f (di ) (xi xi1 ), ahora si elegimos como puntos intermedios
de la particin a los di , obtenemos

S (P, g, F ) =

g(di ) (F (xi ) F (xi1 )) =

i=1

g(di )f (di ) (xi xi1 ) .

i=1

Tomando lmite cuando kP k 0 se obtiene el resultado ya que la ltima sumatoria tiende a la integral de Riemann de g(x)f (x) en [a, b] (producto de funciones
integrables Riemann es integrable Riemann). X

5.1. Propiedades.

b
g, h, F : [a, b] R son tales que existen las integrales a gdF
b
tambin existe a (g + h) dF cualesquiera sean , R y ade b
b
b
(g + h) dF =
gdF +
hdF.

Proposicin 5.13.
y

b
a

hdF

entonces

ms

Si

Demostracin.

Cualquiera sea P particin de [a, b] , se tiene que

S (P, g + h, F ) =

(g(ci ) + h(ci )) (F (xi ) F (xi1 )) =

i=1

g(ci ) (F (xi ) F (xi1 ))+

i=1

h(ci ) (F (xi ) F (xi1 )) = S (P, g, F )+S (P, h, F )

i=1

por lo que tomando lmite cuando kP k 0 se obtiene el resultado. X

Proposicin 5.14. Si h, F, G : [a, b] R


y

b
a

hdG

adems

hd (F + G) cualesquiera
b
b
b
hd (F + G) =
hdF +
hdG.

entonces tambin existe

sean

hdF
, R y

son tales que existen las integrales

50

Captulo 5. Integral de Riemann-Stieltjes.


Demostracin.

Cualquiera sea P particin de [a, b] , se tiene que

S (P, h, F + G) =

h(ci ) [ (F (xi ) F (xi1 )) + (G (xi ) G (xi1 ))] =

i=1

h(ci ) [(F (xi ) F (xi1 ))]+

i=1

h(ci ) [(G (xi ) G (xi1 ))] = S (P, h, F )+S (P, h, G)

i=1

por lo que tomando lmite cuando kP k 0 se obtiene el resultado. X

Proposicin 5.15. Si g, F : [a, b] R son tales que existe ab gdF entonces


c
b
quiera sea c (a, b), se cumple que existen a gdF y c gdF y adems

gdF =

gdF +

cual-

gdF.

Demostracin.

c
b
Primero probaremos que existe a gdF usando la condicin de Cauchy. Como a gdF
existe, jado > 0, existe > 0 tal que si P y Q son dos particiones de [a, b], donde
kP k < y kQk < se cumple que |S (P, g, F )
S (Q, g,
F )| < . Consideremos


e dos particiones de [a, c] tales que Pe < y
e
entonces Pe y Q
Q
< . Completamos Pe
e a P y Q particiones de [a, b] , agregando los mismos puntos de modo que kP k <
yQ
(
)
(
)

e g, F = |S (P, g, F ) S (Q, g, F )| < .
y kQk < . Entonces S Pe, g, F S Q,
c
b
Por lo tanto existe a gdF. Anlogamente se prueba que existe c gdF. Sabemos ahora
que las tres integrales existen. Consideramos entonces la sucesin de particiones {Pn }
tales que kPn k 0 y tales que c Pn para todo n. Podemos
escribir entonces

(1)
(1)
(2)
(2)
(1)
Pn = Pn Pn , donde Pn es particin de [a, c] con Pn 0 y Pn es particin


(2)
de [a, c] con Pn 0. Entonces, se tiene que
)
(
)
(
S (Pn , g, F ) = S Pn(1) , g, F + S Pn(2) , g, F
y tomando lmite cuando n + se obtiene

gdF =

gdF +

Proposicin
5.16. Si g, F

y existe

b
a

g(x)dF (x),

gdF.X
c

: [a, b] R son tales que g 0, F

es montona creciente

entonces

gdF 0.
a

51

Captulo 5. Integral de Riemann-Stieltjes.


Demostracin.

Cualquiera sea P particin de [a, b] , se tiene que

S (P, g, F ) =

g(ci ) (F (xi ) F (xi1 )) 0

i=1

puesto que cada sumando es no negativo, entonces

Proposicin 5.17.
creciente y existen

gdF 0. X

g, h, F : [a, b] R son tales


b
gdF, a hdF , entonces
b
b
gdF
hdF.

que

g h, F

g h 0, entonces por la propiedad anterior 0


b
b
por lo que se deduce que a gdF a hdF. X

(g h)dF =
a

son tales que


b
es montona creciente y existe a gdF entonces
Si

es montona

Demostracin.

x [a, b] , F

Si
b
a

Proposicin 5.18.

g, F : [a, b] R

(F (b) F (a))

b
a

gdF

g(x)

b
a

hdF

para todo

gdF (F (b) F (a)) .


a

Demostracin.

Es un corolario inmediato de la propiedad anterior. X

Proposicin 5.19.
creciente, entonces

Si

g : [a, b] R

es continua y

F : [a, b] R

es montona

b
b



g(x)dF (x)
|g(x)| dF (x).

a

Demostracin.

Cualquiera sea P particin de [a, b] , se tiene que




n
n




|S (P, g, F )| =
g(ci ) (F (xi ) F (xi1 ))
|g(ci )| (F (xi ) F (xi1 )) = S (P, |g| , F ) .


i=1

i=1

Tomando lmite cuando kP k 0 se obtiene el resultado. X

Proposicin 5.20.

Teorema del valor medio.

g, F : [a, b] R son tales que g es continua, F es


b
existe c [a, b] tal que a gdF = g(c) (F (b) F (a)) .

Si

montona creciente, entonces

Demostracin.

La existencia de la integral se debe a que g es continua y F es montona. Como g es


continua, por el toerema de Weierstrass tiene mnimo y mximo que les llamamos
my
R

M respectivamente. Entonces por la propiedad anterior, se tiene que m


M y como g es continua, resulta que existe c [a, b] tal que

Rb

a gdF
F (b)F (a)

b
a

gdF
F (b)F (a)

= g(c). X
52

Captulo 5. Integral de Riemann-Stieltjes.

5.2. Mtodos de integracin.


Teorema 5.21.
Si

Frmula de integracin
por partes.

g, F : [a, b] R

b
a

gdF , entonces
b
b
b
F dg = gF a
gdF.

son tales que existe

adems

tambin existe

b
a

F dg

Demostracin.

Recordamos la frmula de Abel:


n

ai bi =

i=1

n1

Ai (bi bi+1 ) + An bn siendo An =

i=1

ai .

i=1

Tomamos una particin cualquiera P = {a, x1 , x2 , ..., xn1 , b} con correspondientes


puntos intermedios
n c1 , c2 , ..., cn . Si aplicamos dicha frmula para
S (P, F, g) = i=1 F (ci ) (g (xi ) g (xi1 )) tomando ai = g (xi )g (xi1 ) y bi = F (ci ),
obtenemos

S (P, F, g) =

n1

(g(xi ) g(a)) (F (ci ) F (ci+1 )) + F (cn ) (g(b) g(a)) =

i=1
n1

g(xi ) (F (ci ) F (ci+1 )) (F (c1 ) F (cn )) g(a) + F (cn ) (g(b) g(a)) =

i=1
n1

g(xi ) (F (ci ) F (ci+1 )) F (c1 )g(a) + F (cn )g(b) =

i=1
n1

g(xi ) (F (ci ) F (ci+1 ))+(F (a) F (c1 )) g(a)+(F (cn ) F (b)) g(b)+F (b)g(b)F (a)g(a) =

i=1

S(Pe, g, F ) + g(b)F (b) g(a)F (a)


siendo Pe la particin formada por los puntos a, c1 , c2 ,
..., cn , b y los puntos intermedios
e
son a, x1 , x2 , ..., xn1 , b. Observamos adems que P 2 kP k por lo que tomando
lmite cuando kP k 0 en la igualdad

S(P, F, g) = S(Pe, g, F ) + g(b)F (b) g(a)F (a)


b
obtenemos que existe a F dg y la frmula de partes. X

Proposicin 5.22.

Cambio de variable.

g, F : [a, b] R son tales que a gdF existe, h : [c, d] [a, b]


d
biyectiva, entonces c g ohd (F oh) y adems
d
b
g(h(t))dF (h(t)) =
g(x)dF (x).
Si

es continua y

53

Captulo 5. Integral de Riemann-Stieltjes.


Demostracin.

Supondremos que h es creciente, el caso decreciente es anlogo. Si P = {c, t1 , t2 , ..., tn1 , d}


es una particin de [c, d] con puntos intermedios ci [ti1 , ti ] i = 1, 2, ..., n entonces

S (P, g oh, F oh) =

(
)
g (h (ci )) [F (h (xi )) F (h (xi1 ))] = S Pe, g, F

i=1

siendo Pe = {a, h(t1 ), h(t2 ), ..., h(tn1 ), b} con puntos intermedios h(ci ) (esto se puede
hacer ya que h es creciente
y biyectiva). Adems como h es continua, si kP k 0

e
entonces kh (P )k = P 0, lo cual se deduce ya que h es uniformemente continua
(dado > 0 existe > 0 tal que si |x y| < entonces |h(x) h(y)| < ). Por
d
lo tanto tomando lmite cuando kP k 0 se deduce que c g ohd (F oh) existe y la
frmula buscada. X

5.3. Extensin a funciones complejas e integrales impropias.


Denicin 5.23. Integrales con integrando complejo.
b
a

Dadas g : [a, b] C,
b
gdF si y slo si existen a g1 dF e

g = g1 + ig2 y F : [a, b] R, diremos que existe


b
g dF y en ese caso,
a 2
b
b
b
gdF =
g1 dF +
g2 dF.
a

Denicin 5.24. Integrales impropias.

Si g, F : R R son tales que a gdF existe cualesquiera sean a y b, denimos


+
b
gdF =
lm
gdF.

a b+

en caso de que exista el lmite.

Denicin
5.25.

Dadas g :R C (g =
g1 + g2 ) F : R R, diremos que existe
+
+
gdF si y slo si existen g1 dF y g2 dF y adems
+
+
+
gdF =
g1 dF + i
g2 dF.

5.4. Aplicaciones a la teora de la probabilidad.


Proposicin 5.26.
entonces

Si

FX

es funcin de distribucin de una variable aleatoria

X,

dFX (x) = P (a < X b) .


a

54

Captulo 5. Integral de Riemann-Stieltjes.


Demostracin.

b
Basta observar que a dFX (x)
= FX (a) FX (b) de donde se deduce el resultado. X
Nota. Se puede probar que A dFX (x) = P (X A) cualquiera sea A boreliano en R
(donde nuevamente el signicado de esta integral es el de Lebesgue).

Proposicin 5.27.
R

Si

es discreta cuyo recorrido es

A = {x1 , x2 , ...}

g : [a, b]

es continua, entonces

g(x)dFX (x) =
a

g(x)pX (x).

x(a,b]A

Demostracin.

FX (x) =
i : xi x pX (xi )=
i pX (xi )1[xi ,+) (x). Denimos para cada n, An =
n
{x1 , x2 , ..., xn } y Fn (x) = i=1 pX (xi )1[xi ,+) (x). Dado > 0, existe n0 tal que para
cada n n0 se cumple que P (X An ) 1 /n. Por lo tanto para cada x R
se tiene que 0 FX (x) Fn (x) /n (para n n0 ) . Como g es continua, entonces
|g(x)| k para todo x [a, b] y por lo tanto
b
b



g(x)d (FX (x) Fn (x))
|g(x)| d (FX (x) Fn (x)) 2k/n 0

a

n+

g(x)dFn (x) =
a

g(x)d

( n

i=1

pX (xi )1[xi ,+) (x)

pX (xi )

g(x)d1[xi ,+) (x) =

g(xi )pX (xi ).

g(x)d (FX (x) Fn (x)) =

g(x)dFn (x) +
a

i=1

i : xi (a,b]An

g(x)dFX (x) =
a

g(x)d (FX (x) Fn (x))

g(xi )pX (xi ) +


a

i : xi (a,b]An

Tomando lmite cuando n + se obtiene el resultado. X

Proposicin 5.28. Si

es absolutamente continua con densidad

fX

g : [a, b] R

es continua, entonces

g(x)dFX (x) =
a

g(x)fX (x)dx.
a

Demostracin.

Es corolario inmediato del teorema 1.11. X

55

Captulo 5. Integral de Riemann-Stieltjes.

5.5. Integrales de Riemann-Stieltjes mltiples.


Si (X, Y ) es un vector aleatorio y FX,Y : R2 R su
funcin de distribucin. Supongamos que g : [a, b] [c, d] R, deniremos [a,b][c,d] g(x, y)dFX,Y (x, y). Si
FX,Y : R2 R es una funcin de distribucin conjunta y g : [a, b] [c, d] R.
Dada PX = {a = x0 , x1 , x2 , ..., xn1 , xn = b} es una particin de [a, b] con puntos intermedios ci [xi1 , xi ] i = 1, 2, , ..., n, PY = {c = y0 , y1 , y2 , ..., ym1 , ym = d} es una
particin de [c, d] con puntos intermedios c0i [yi1 , yi ] i = 1, 2, , ..., m, denimos las
sumas
de Riemann-Stieltjes, sobre PX PY como S (PX PY , g, FX,Y ) =
n parciales
m
0
i=1
j=1 g(ci , cj )pij siendo

pij = P ((X, Y ) (xi1 , xi ] (yj1 , yj ]) =


FX,Y (xi , yj ) FX,Y (xi1 , yj ) FX,Y (xi , yj1 ) + FX,Y (xi1 , yj1 ).
Denimos la norma de la particin como kP k =mx{kPX k , kPY k} . Como en el caso
univariado diremos que lim S (P, g, FX,Y ) = I si y slo si dado > 0, existe > 0 tal
kP k0

que para toda P particin de [a, b][c, d] (con sus correspondientes puntos intermedios
ci y c0i ) con kP k < , se cumple que |S (P, g, FX,Y ) I| < .

Denicin 5.29. Integral doble de Riemann-Stieltjes.

Dadas g : [a, b] [c, d] R , FX,Y : R2 R funcin de distribucin de un vector


aleatorio (X, Y )si existe lim S (P, g, F ) = I , diremos que la integral de RiemannkP k0

Stieltjes de g respecto de FX,Y en [a, b] [c, d] existe y vale I.


Notacin:

gdF =
a

g(x, y)dFX,Y (x, y)


[a,b][c,d]

Es vlido el mismo teorema de las tres equivalencias para la existencia de la integral,


probadas en el caso univariado, con demostraciones anlogas. De manera anloga se
prueban tambin el siguiente teorema y las propiedades que siguen.

Teorema.

Si F es distribucin, y g : [a, b][c, d] R es continua, entonces existe

Propiedades.

[a,b][c,d]

gdF.

Las siguientes propiedades, pueden ser demostradas de manera similar al caso univariado.
1. Si
[c, d] R F = FX,Y son tales queexisten las integrales
g, h : [a, b]
gdF y [a,b][c,d] hdF entonces tambin existe [a,b][c,d] (g + h) dF
[a,b][c,d]
cualesquiera sean , R y adems

(g + h) dF =
gdF +
hdF.
[a,b][c,d]

[a,b][c,d]

[a,b][c,d]

56

Captulo 5. Integral de Riemann-Stieltjes.


2. Si F,
h : [a, b][c, d] R, son tales que
G son distribuciones,

existen las integrales [a,b][c,d] hdF y [a,b][c,d] hdG entonces tambin existe [a,b][c,d] hd (F + G)
cualesquiera sean , R y adems

hd (F + G) =
hdF +
hdG.
[a,b][c,d]

[a,b][c,d]

[a,b][c,d]

3. Si
: [a, b] [c, d] R son tales que g 0, y existe
F es distribucin, g
gdF
,
entonces
gdF 0.
[a,b][c,d]
[a,b][c,d]
4. Si
R son tales que
F es distribucin,
g, h : [a, b] [c, d]
g h, y existen
gdF
y
hdF
entonces
gdF

hdF.
[a,b][c,d]
[a,b][c,d]
[a,b][c,d]
[a,b][c,d]
5.5.1.

Aplicaciones a la teora de la probabilidad.

1. Si FX,Y es la funcin de distribucin de una vector aleatorio (X, Y ), entonces

dFX,Y (x, y) = P (a < X b, c < Y d) ..


[a,b][c,d]

2. Si (X, Y ) es discreto cuyo recorrido es A = {(xi , yj )}i,j y g : [a, b] [c, d] R


es continua, entonces

g(x, y)pX,Y (x, y)


g(x, y)dFX,Y (x, y) =
[a,b][c,d]

(x,y)(a,b](c,d]A

3. Si (X, Y ) es absolutamente continuo con funcin de densidad fX,Y y g : [a, b]


[c, d] R es continua, entonces

g(x, y)dFX,Y (x, y) =


g(x, y)fX,Y (x, y)dxdy
[a,b][c,d]

5.5.2.

[a,b][c,d]

Integrales mltiples impropias.

Denicin 5.30.

Dadas g : Rn R y FX1 ,X2 ,...,Xn distribucin conjunta del


vector (X1 , X2 , ..., Xn )

g(x1 , x2 , ..., xn )dFX1 ,X2 ,...,Xn (x1 , x2 , ..., xn ) =


Rn

lm
ai
bi +
para todo i

g(x1 , x2 , ..., xn )dFX1 ,X2 ,...,Xn (x1 , x2 , ..., xn )


[a1 ,b1 ][a2 ,b2 ]...[an ,bn ]

57

Captulo 6
Valor esperado.
6.1. Denicin.
Un concepto esencial en teora de la probabilidad y estadstica es el concepto de
esperanza o valor esperado de una variable aleatoria, el mismo ser denido de tal
modo que quede un promedio ponderado de los valores que puede tomar la variable.
Tambin se ver ms adelante, mediante la llamada ley de los grandes nmeros que el
valor esperado puede verse tambin como un valor al cual converge (en cierto sentido)
el promedio de una muestra de observaciones tomadas al azar, cuando el tamao de la
muestra (cantidad de observaciones) tiende a innito. Todo esto va dicho de manera
muy informal, pero ser precisado ms adelante.
Supongamos que tenemos un conjunto formado por 100 personas de las cuales 90
tienen una altura de 170 cms, 5 miden 167 cms y los restantes 5 miden 172 cms. La
altura promedio de este conjunto de personas, la calculamos, sumando la altura de
las 100 personas, y lo dividimos entre 100 que es el total de personas, as obtenemos
que la altura promedio es 90170+5167+5172
= 169. 95. Si sorteamos un individuo
100
a
al azar y denimos X = . ltura del individuo sorteado", tendramos que Rec(X) =
5
{167, 170, 172} y su fncin de probabilidad sera pX (167) = 100
= 0, 05; pX (167) =
5
90
=
0,
9
y
p
(172)
=
=
0,
05
por
lo
tanto,
la
altura
promedio
la podemos
X
100
100
escribir como 167 0, 05 + 170 0, 9 + 172 0, 05 = 167 pX (167) + 170 pX (170) +
172 pX (172) . A este valor le llamaremos esperanza (o valor esperado de X ) y
lo simbolizaremos como E (X) . Razonando como en este ejemplo, dada
una variable
xpX (x), y de
aleatoria X discreta, su valor esperado debera ser denido como
xRec(X)
+
ah, parece natural denirlo para el caso absolutamente continuo como xfX (x)dx.
An nos quedara por denir el valor esperado para una variable aleatoria mixta.

Denicin 6.1. Dado (, A, P ) un espacio de probabilidad y X


aleatoria tal que

|x| dFX (x) < +. Denimos


+
E (X) :=
xdFX (x)

y le llamaremos esperanza de X o valor esperado de X.


58

: R variable

Captulo 6. Valor esperado.

+
Diremos tambin que existe E (X) cuando se cumple que |x| dFX (x) < +.
(
)
Denicin 6.2. Dado un , A, P espacio de probabilidad, si A A es tal que
P (A) = 1, diremos que el suceso A ocurre casi seguramente (c.s.).

Observacin 6.3.
ocurre c.s.) y existe

A R es un boreliano tal que P (X A) = 1 (es


E(X), entonces E(X) = A xdFX (x), ya que sobre Ac

Si

decir si

la integral

vale 0.

Observacin 6.4.

X es discreta, observando que para


cada x R se cumple que
pX (x) = FX (x)FX (x ), entonces existe E(X) si y slo si xRec(X) |x|pX (x) < +
Si

y adems

E (X) =

Observacin 6.5.

xRec(X)

xpX (x).

FX0 (x) = fX (x) en todo


+
punto x de continuidad de fX , entonces entonces existe E(X) si y slo si |x|fX (x)dx <
+ y adems

Si

es absolutamente continua, como

E (X) =

Observacin 6.6.

xfX (x)dx.

La convergencia absoluta de la integral que dene el valor espe-

rado, se realiza para evitar problemas de convergencia debido a la reordenacin de


trminos en el caso de la serie, o reordenacin en los intervalos en el caso absolutamente continuo.

Cuando
X 0 casi
+
+seguramente, resulta FX (x) = 0 para todo x < 0, por lo tanto
xdFX (x) = 0 xdFX (x) 0 lo cual motiva la siguiente denicin.

Denicin 6.7.

E(X) = +.

Si X 0 casi seguramente, y

|x|dFX (x) = +, diremos que

6.2. Ejemplos.
Ejemplo 6.8.

Si X Ber(p) entonces E (X) = p ya que E(X) = 0.P (X = 0) +


1.P (X = 1) = p.
n
Ejemplo
6.9.
Si
X

Bin
(n,
p)
entonces
E
(X)
=
np.
E(X)
=
x=0 xP (X = x) =
n
nx
n x
= np. Se deja como ejercicio, vericar la anterior igualdad.
x=0 xCx p (1 p)
+
1
(x)2
1
2 2
Ejemplo 6.10. Si X N (, 2 ) entonces E (X) =
x 2
e
dx = . Se
2
deja como ejercicio, vericar la anterior igualdad.

59

Captulo 6. Valor esperado.

y < 1/2
0 si
Ejemplo 6.11. Como habamos observado anteriormente, FY (y) = y si 1/2 y 1 ,

1 si
y>1
0
FY tiene un nico salto en 1/2, y adems es derivable en [1/2, 1] con FY (y) = 1, por
lo tanto, obtenemos
+
1
)
1(
5

ydFY (y) =
E (Y ) =
ydy = .
FY (1/2) FY (1/2 ) +
2
8

1/2

6.3. Propiedades.
En las siguientes propiedades se considera dado un espacio de probabilidad (, A, P ) .

Teorema 6.12.
P (X 0) = 1)

X : R es variable aleatoria
existe E (X), entonces E (X) 0.

Si

tal que

X0

c.s. (es decir que

Demostracin.

Como X 0, entonces se tiene que FX (x) = 0 para todo x < 0. Entonces, se cumple
que
+
+
0 = E (X) =
xdFX (x) =
xdFX (x) 0.X

Teorema 6.13.

Si

X :R

es tal que

(X es constante), entonces existe

E (X)

X =a

y adems

c.s. (es decir que

E (X) = a.

P (X = a) = 1)
E (a) = a.

Es decir,

Demostracin.

Observando que X = a es una variable discreta donde P (X = a) = 1, entonces

E (a) = aP (X = a) = a.

Teorema 6.14.
entonces

X = 0.

Si

X:R

es variable aleatoria tal que

X0

c.s. y

E (X) = 0,

c.s.

Demostracin.

Como X 0, se deduce se tiene que FX (x) = 0 para todo x < 0. Entonces, cualesquiera sean 0 < < , se cumple que
+
+

0 = E (X) =
xdFX (x) =
xdFX (x)
xdFX (x)

(FX () FX ()) .
Entonces (FX () FX ()) = 0, por lo que se deduce que FX () = FX () para
todos , > 0. Entonces, FX (x) es constante para x > 0, lo cual sumado al hecho de
que debe tener lmite 1 cuando x tiende a +, entonces se obtuvo que FX (x) = 1
para todo x > 0, lo cual sumado al hecho de que FX (x) = 0 para todo x < 0, y
como FX es continua por derecha en 0, entonces FX (0) = 1, y entonces se obtiene
que P (X = 0) = 1. X
60

Captulo 6. Valor esperado.

Corolario 6.15. Si X, Y
y

E(Y ),

y adems

son variables aleatorias tales que

E(X) = E(Y )

entonces

X=Y

XY

c.s., existen

E(X)

c.s.

Demostracin.

Basta observar que X Y 0 c.s. y que E(X Y ) = E(X) E(Y ) = 0, luego por
el teorema anterior se tiene que X Y = 0 c.s. X

Teorema 6.16.
boreliana

X : R es variable aleatoria, g : R R es una


(g (A) B para todo A B ) tal que existe E (g(X)), entonces
+
E (g(X)) =
g(x)dFX (x).
Si

funcin

Demostracin.

Haremos la demostracin suponiendo que g es montona y biyectiva. El caso general


se prueba a partir de teora de la medida.
Supongamos que g es creciente y biyectiva, el caso decreciente es anlogo.
(
)
Fg(X) (y) = P (g(X) y) = P X g 1 (y) = FX (g 1 (y)).

E [g (X)] =

ydFg(X) (y) =

ydFX (g 1 (y))

si ahora hacemos el cambio de variable y = g(x), entonces la ltima integral nos


queda
+
g(x)dFX (x).X

Observacin 6.17.
si

A partir de esta propiedad, se deduce que existe

E (|X|) < +.

Ejemplo 6.18.

E (Y ) =

max {x, 1/2} fX (x)dx =

Si X : R
R,
existe

1/2

max {x, 1/2} dx =


0

Corolario 6.19.
cualquiera sea

si y slo

Si Y =max{X, 1/2} donde X U (0, 1), entonces

E (X)

1/2dx+

es variable aleatoria tal que existe

E (X)

y adems

xdx = 5/8.
1/2

E (X) ,

entonces

E (X) = E (X) .

Demostracin.

La existencia
+ de E (X) se deduce
+de la linealidad de la integral de Riemann Stieltjes
ya que |x| dFX (x) = || |x| dFX (x).
Ahora consideramos g : R R tal que g(x) = x, entonces g es boreliana y por lo
tanto
+
+
E (X) =
xdFX (x) =
xdFX (x) = E (X) .X

61

Captulo 6. Valor esperado.

Teorema 6.20.

E (|X|) < +,

Si

entonces

|E(X)| E (|X|) .

Demostracin.



|E(X)| =

Teorema 6.21.
tal que existe



xdFX (x)

|x|dFX (x) = E (|X|) X

X, Y : R son variables aleatorias y g : R2 R


E [g (X, Y )] entonces
+ +
E (g (X, Y )) =
g (x, y) dFX,Y (x, y).
Si

es boreliana

Demostracin.

Se prueba utilizando teora de la medida.

Teorema 6.22.
E (Y ),

X, Y : R son variables
E (X + Y ) y adems

Si

aleatorias tales que existen

E (X)

entonces existe

E (X + Y ) = E (X) + E (Y ) .
Demostracin.

E (|X + Y |) =

|x + y| dFX,Y (x, y)

|x| dFX,Y (x, y) +

|y| dFX,Y (x, y) =

E (|X|) + E (|Y |) < +


lo cual prueba que existe E (X + Y ) .
Deniendo ahora las funciones g, g1 , g2 : R2 R tales que g(x, y) = x + y, g1 (x, y) =
x, g2 (x, y) = y , entonces g = g1 + g2 , y por lo tanto usando la linealidad de la integral
de Riemann Stieltjes, obtenemos
+ +
E (X + Y ) =
(x + y) dFX,Y (x, y) =

xdFX,Y (x, y) +

ydFX,Y (x, y) =

E (X) + E (Y ) .X

Ejemplo 6.23.

Si X Bin(n, p) entonces E (X) = np. Esto se debe a que denimos


para cada {
i = 1, 2, 3, ..., n las variables
1 si hay xito la vez i-sima
Xi =
entonces cada Xi distribuye como una
0
si no
Ber(p) y adems se cumple que X = X1 + X2 + ... + Xn , luego, aplicando la aditividad
de la esperanza nos queda que

E (X) = E (X1 + X2 + ... + Xn ) = E (X1 ) + E (X2 ) + ... + E (Xn ) = np.


62

Captulo 6. Valor esperado.

Teorema 6.24.
existen

E (X)

Si X, Y : R son variables
E (Y ), entonces E (X) E (Y ) .

aleatorias tales que

X Y

c.s. y

Demostracin.

Como Y X 0, entonces

0 E (Y X) = E (Y ) E (X) .X

Teorema 6.25.
existe

E (X)

X, Y : R son variables aleatorias independientes, tales


E (Y ), entonces existe E (XY ) y adems E (XY ) = E (X) E (Y ) .
Si

que

Demostracin.

Debido a la independencia de las variables, FX,Y (x, y) = FX (x)FY (y) para todos x, y.
Entonces
+ +
+ +
E (|XY |) =
|xy| dFX,Y (x, y) =
|x| |y| dFX (x)dFY (y) =

|x|dFX (x)

E (XY ) =

|y|dFY (y) = E (|X|) E (|Y |) < +.

xydFX,Y (x, y) =

Observacin 6.26.

xdFX (x)

xydFX (x)dFY (y) =

ydFY (y) = E (X) E (Y ) .X

El corolario 6.18 junto al teorema 6.21, nos indican que si de-

nimos el conjunto

V = {X : R
entonces

variable aleatoria, tal que existe

tiene estructura de espacio vectorial, ya que es un subespacio del conjunto

de variables aleatorias denidas en

T (X) = E(X),

entonces

Teorema (6.27.
Dados un

E (X)}

Adems, si denimos

tal que

es una transformacin lineal.

Desigualdad
de Jensen.
)

, A, P

T : V R

espacio de probabilidad,

:RR
(X) . Entonces

variable aleatoria y

funcin convexa tales que existen el valor esperado de

y de

una

(E (X)) E [ (X)] .
Adems, si

es estrictamente convexa y

no es constante, entonces la desigualdad

es estricta.

63

Captulo 6. Valor esperado.


Demostracin.

Dado que es convexa, se cumple que existe una recta que pasa por el punto
(E (X) , (E (X))) tal que el grco de est por encima de la misma. Entonces, se
tiene que (X) (E (X)) + a (X E (X)) y por lo tanto, tomando esperanzas de
ambos lados de la desigualdad obtenemos que (E (X)) E [ (X)] .
Por otro lado, deniendo g(t) = (E (X)) + a (t E (X)), al ser estrictamente
convexa, se cumple que (t) g(t) para todo t, y adems, si (t) = g(t) entonces
t = E(X). Si se diera (E (X)) = E [ (X)] entonces se tendra que E ((X)) =
E (g(X)), siendo (X) g(X) por lo que se deduce que (X) = g(X) con probabilidad 1, de donde se deduce que debe ser X = E(X), o sea que X sera constante, lo
cual concluye la prueba. X

Ejemplo
6.28.
( )

x
Dado que ((x)
) = e es convexa, se tiene que si existen E (X) y
E(X)
X
E e
entonces e
E e . Ademas, si X no es constante, la desigualdad es
estricta.
X

6.4. Teoremas de convergencia.


Supongamos que tenemos una sucesin de variables aleatorias {Xn }nN y una variable
aleatoria X denidas en cierto espacio de probabilidad, tales que lim Xn (w) = X(w)
n+

para todo w . Dado que tenemos convergencia de las Xn a la X en todo punto, es


natural preguntarse si ser cierto que lim E (Xn ) = E (X) . Veremos en el siguiente
n+

ejemplo que con la sola convergencia en todo punto w de Xn (w) a X(w), no es


suciente para asegurar que lim E (Xn ) = E (X) .
n+

Ejemplo 6.29. Supongamos que X U (0, 1), denimos la sucesin Xn = n1(0,1/n) (X).

Vemos que lim Xn (w) = 0 para todo w , sin embargo, E (Xn ) = nP (0 < X < 1/n) =
n+

1 para todo n y por lo tanto, en este caso X = 0 y no se cumple que lim E (Xn ) =
n+

E (X) .

En lo que sigue veremos dos teoremas de vital importancia en teora de probabilidad y


medida, que bajo cierto conjunto de hiptesis nos permiten aseguran la convergencia
de las esperanzas de las Xn a la esperanza de X .
6.4.1.

Teorema de convergencia montona.

Teorema
( 6.30.)
Dados

, A, P

Teorema de convergencia montona.


un espacio de probabilidad, una sucesin de variables aleatorias

{Xn }nN

y una variable aleatoria

para todo

entonces existe

w ,

X tales que existe E(X), Xn (w) 0, Xn (w) X(w)


E(Xn ) para todo n y adems

lim

E (Xn ) = E (X) .

n+

64

Captulo 6. Valor esperado.


Demostracin.

En primer lugar observamos que como 0 < Xn X , entonces existe E(Xn ) para
todo n. Adems, dado que Xn Xn+1 para todo n entonces, E (Xn ) E (Xn+1 )
por lo que la sucesin {E (Xn )}nN es creciente y por lo tanto tiene lmite. Por otro
lado, como Xn X para todo n, entonces E (Xn ) E (X) para todo n, por lo que
lim E (Xn ) E (X) .
n+

Entonces ser suciente probar que lim E (Xn ) E (X). Para lograrlo, veremos que
n+

dado > 0, se cumplir que lim E (Xn ) E (X) . Fijado > 0, aproximaremos
n+

X por una variable discreta Y tal que |X Y | .


Denimos los sucesos
{ Bn = {n < X (n + 1)} para n = 0, 1, 2, ... y denimos
n si n < X(w) (n + 1)
la variable Y (w) =
. Vemos que X Y X
0
si X(w) = 0
por lo que E (X) E (Y ) E (X) . Para obtener el resultado, probaremos que
lim E (Xn ) E (Y ) .
n+

Denimos los sucesos Ak = {Xk Y }. Si w Ak entonces Xk (w) Y (w) pero


Xk+1 (w) Xk (w) por lo que Xk+1 (w) Y (w), luego w Ak+1 por lo que los
Ak son una sucesin creciente de sucesos. Adems, para todo w , se cumple
que w Bn para algn n, y como Xk (w) X(w) entonces existe un k0 tal que
Xk0 (w) n = Y (w), entonces +
k=1 Ak = .
Por lo tanto, dejando n jo, los sucesos Ak Bn variando k , crecen a Bn . Por otro lado,
observamos que las variables Y 1Ak son discretas, tomando los valores 0, , 2, 3, ...
por lo que para cualquier m se tiene que
+

E (Y 1Ak ) =

nP (Y 1Ak = n) =

n=0

lim E (Y 1Ak ) lim

k+

n=0

tonces lim E (Y 1Ak )


k+

n=0

nP (Ak Bn )

n=0

k+

nP (Ak Bn ) =

m
n=0

nP (Ak Bn ).

n=0

nP (Bn ) para todo m, en-

nP (Bn ) = E (Y ) . Adems Y 1Ak Xk entonces

E (Y 1Ak ) E (Xk ) por lo que lim E (Xk ) E (Y ) lo cual concluye la demostracin.


k+

Observacin 6.31.
Xn+1

para todo

n,

Xn

E(X) = +,

queda

El teorema sigue siendo vlido si las hiptesis

Xn > 0

se cumplen casi seguramente.

Observacin 6.32.

El teorema sigue valiendo en el caso en que

como ejercicio realizar la vericacin de la demostracin para este caso.

6.4.2.

Teorema de convergencia dominada.

Teorema
( 6.33.) Teorema
, A, P
{Xn }nN y dos
Dados

|Xn (w)| Y (w)

de convergencia dominada.

un espacio de probabilidad, una sucesin de variables aleatorias

variables aleatorias
para todos

w.

tales que que

Adems existe

E (Y ).

lim

Xn (w) = X(w)

n+

65

Captulo 6. Valor esperado.

Xn

Entonces existen las esperanzas de


lim

para todo

y la de

y adems

E (Xn ) = E (X) .

n+

Demostracin.

En primer lugar vemos que como |Xn | Y para todo n, entonces existe la esperanza
de las Xn , adems tomando lmites en la desigualdad, obtenemos que |X| Y, por
lo que tambin existe la esperanza de X.
Denimos la sucesin Yn = inf Xk entonces Yn X (ya que las Yn tienden a supYn =
kn

sup inf Xk que es el lmite inferior de la sucesin Xn ). Adems observamos que 0


n kn

Yn +Y X+Y , por lo que aplicando el teorema de convergencia montona, obtenemos


que
lim E (Yn + Y ) = E (X + Y ) = E (X) + E (Y ) .
n+

Luego, lim E (Yn ) = E (X) . Anlogamente, deniendo Zn = supXk , vemos que


n+

kn

Zn X y como adems 0 Y Zn Y X , aplicando nuevamente el teorema de


convergencia montona y utilizando la linealidad del valor esperado, obtenemos que
lim E (Zn ) = E (X) .
n+

Para concluir la demostracin, basta observar ahora que para todo n y todo w, se
cumple que Yn (w) Xn (w) Zn (w) por lo que E (Yn ) E (Xn ) E (Zn ) y como
lim E (Yn ) = E (X) y lim E (Zn ) = E (X) se obtiene que lim E (Xn ) = E (X) . X
n+

n+

Observacin 6.34.

n+

Como en el teorema de convergencia montona, se tiene que

basta tomar como hiptesis que

lim

Xn = X

n+

|Xn | Y

se cumplan casi segura-

mente.

Corolario 6.35.

Si

lim

Xn (w) = X(w)

n+

entonces vale el teorema ya que

6.4.3.

|Xn (w)| k (cte)

para todos

w,

tiene esperanza nita.

Aplicaciones.

Teorema 6.36.
todo

fn : [a, b] R son funciones integrables Riemann en [a, b] para


n N, g : [a, b] R es integrable Riemann y f : [a, b] R lim fn (x) = f (x) y

|fn (x)| g(x)

Si

para todo

x [a, b] . Entonces
b
b
fn (x)dx =
f (x)dx.
lim
n+

n+

Demostracin.

Consideramos X U (0, 1). Denimos entonces las variables Yn = fn (X) e Y =


b
c.s.
1
f (X). Entonces Yn Y, |Yn | g (X), existe E (g (X)) = ba
g(x)dx < +, luego
a
por el teorema de convergencia dominada, se tiene que lim E (Yn ) = E (Y ) , ahora
n+
b
b
1
1
f (x)dx
vemos que E (Yn ) = E (fn (X)) = ba a fn (x)dx y E (Y ) = E (f (X)) = ba
a
b
b
1
1
entonces lim ba a fn (x)dx = ba a f (x)dx, de donde se deduce el resultado.X
n+

66

Captulo 6. Valor esperado.

Teorema 6.37. Dada la sucesin doblemente indizada (sucesin de sucesiones)


R.
+

Supongamos que existe una sucesin


(k)
(k)
b
=
L
<
+
an b(k)
k=1

para todos

lim

n+

a(k)
n

b(k)

kN

tal que

Si

lim

n, k.

k=1

b(k) > 0,

(k)

an = a(k) ,

n+

{ }
(k)
an

n,kN

para todo

k,

entonces

a(k) .

k=1

Demostracin.

(
)
Denimos el espacio de probabilidad N, 2N , P donde P ({k}) =

b(k)
.
L

(k)

n
Denimos la sucesin de variables aleatorias Xn : N R tales que Xn (k) = ab(k)
y
(k)
c.s.
a
X : N R tal que X(k) = b(k) . Entonces Xn X (ya que Xn (k) X(k) para
todo k N). Adems
(
)
(k)
an
b(k)
P Xn = (k) = P ({k}) =
.
b
L

Anlogamente,

(
P

a(k)
X = (k)
b

b(k)
.
L

= P ({k}) =

Adems |Xn (k)| 1 para todo k. Entonces, aplicando el teorema de convergencia


dominada, se deduce que lim E (Xn ) = E (X) .
n+
(
) +
+
+
(k)
(k)
a(k)
a(k)
an
1 (k)
n
n b
an
E (Xn ) =
P Xn = (k) =
=
b(k)
b
b(k) L
L
k=1

k=1

k=1

y anlogamente,

E (X) =

+ (k)

a
k=1

b(k)

(
P

Entonces obtuvimos que lim


sultado. X

1
n+ L

a(k)
X = (k)
b
+
k=1

(k)

an =

+ (k) (k)

a b
k=1
1
L

b(k)

+
k=1

1 (k)
=
a .
L
L k=1
+

a(k) de donde se deduce el re-

+
)n
n(
1
Como aplicacin, se deja como ejercicio hallar lim
1 + nx e2x dx
2 k 2 ; lim
n
0
n+ k=1
n+
)
n(
x n x/2
y lim 0 1 n e dx.
n+

67

Captulo 7
Espacios Lp.
7.1. Denicin y propiedades.
Denicin 7.1. Espacios

Lp .
Dado un espacio de probabilidad (, A, P ), y p > 0, se dene el conjunto
Lp = {X : R variable aleatoria tal que E (|X|p ) < +)} .

Teorema 7.2.

Si

0<p<q

entonces

Lq Lp .

Demostracin.

Si X Lq , entonces
(
)
(
)
(
)
E (|X|p ) = E |X|p 1{|X|<1} + E |X|p 1{|X|1} 1 + E |X|q 1{|X|1}

1 + E (|X|q ) < +.X


Diremos que X admite momentos de orden p si y slo si E (|X|p ) < + o sea, si y
slo si X Lp .
Del teorema anterior deducimos que si X admite momentos de orden p, entonces
admite momentos de cualquier orden menor que p. Por ejemplo, decir que X admite
momentos de orden 3, implica que admite momentos de cualquier orden menor que
3.

Teorema 7.3.
que

Si

X, Y Lp

entonces

X + Y Lp

para todos

, R.

Es decir

es un espacio vectorial (ya que es subespacio del conjunto de todas las variables

aleatorias, que forman un espacio vectorial).

Demostracin.

Si X Lp entonces cualquiera sea R, se tiene que E (|X|p ) = ||p E (|X|p ) < +


por lo que X Lp .
Ahora, si X, Y Lp observamos que |X + Y | |X|+|Y | 2max{|X| , |Y |} entonces
|X + Y |p 2p max{|X|p , |Y |p }, por lo tanto se tiene que
E (|X + Y |p ) 2p max{E |X|p , E (|Y |p ) < +} .X
68

Captulo 7. Espacios Lp .

Observacin
7.4.
[

XY =

1
2

2
1
X, Y L
] , entonces XY L , ya que
2
2
(X + Y ) X Y , es combinacin lineal de variables

Teorema 7.5.
Si

Si

que

L2 .

Desigualdad de Cauchy-Schwartz.

X, Y L2 ,

( ) ( )
[E (XY )]2 E X 2 E Y 2 .

Adems se da el igual si y slo si existe

0 R

tal que

P (X = 0 Y ) = 1 (o P (Y = 0 X) = 1) .
Demostracin.

( )
( )
0 E (X Y )2 = 2 E Y 2 2E (XY ) + E X 2 para todo R.
Entonces, si Y no es la funcin nula casi seguramente, podemos asegurar que nos
qued un polinomio de segundo grado. Como dicho polinomio es 0 para todo valor
de , no puede tener dos races reales y distintas, por lo que su discriminante debe ser
0. Entonces 4 [E (XY )]2 4E (X 2 ) E (Y 2 ) 0, de donde se deduce la desigualdad.
Adems, si fuera [E (XY )]2 = E (X 2 ) E (Y 2 ), entonces existe un valor de donde se
)
anula el polinomio, dicho valor es 0 = E(XY
, y por lo tanto para dicho valor 0 , se
E(Y 2 )

tiene que 0 = E (X 0 Y )2 , por lo que se tiene que X = 0 Y casi seguramente.


Si fuera Y = 0 casi seguramente, entonces tambin se cumple la igualdad, y adems
Y = 0X , lo cual concluye la prueba. X
La desigualdad de Cauchy Schwartz recin probada, responde a la conocida desigualdad respecto a espacios vectoriales con producto interno. Para ello denimos la funcin h , i : L2 L2 R tal que hX, Y i = E (XY ) , entonces, h , i es un seudo producto
interno, es decir que es una funcin bilineal simtrica, tal que hX, Xi = E (X 2 ) 0
pero no cumple la condicin hX, Xi = 0 si y slo si X = 0, ya que en este caso si hX, Xi = E (X 2 ) = 0, entonces X = 0 c.s. por lo que puede haber innitas
(dependiendo del espacio de probabilidad) funciones que cumplan hX, Xi = 0. Este
problema se puede solucionar si identicamos todas las variables aleatorias que son 0
casi seguramente. Para ello se dene la relacin tal que X Y si y slo si X = Y
c.s.
Se deja como ejercicio chequear que es una relacin de equivalencia, y que si denimos h , i : L2 / L2 / R tal que h[X] , [Y ]i = E (XY ) donde X e Y
son representantes de [X] y [Y ] respectivamente, entonces la funcin h , i est bien
denida y dene un producto interno en L2 / .

7.2. Varianza de una variable aleatoria.


Junto con el valor esperado de una variable aleatoria, en la mayora de las aplicaciones
es necesario tener algn tipo de medida sobre la dispersin que hay entre los valores
que puede tomar la variable, y su valor esperado. La denicin de varianza apunta
en esa direccin.
69

Captulo 7. Espacios Lp .

Denicin 7.6. Varianza de una variable aleatoria.

Si X L2 , entonces se dene la varianza de X , como el valor


[
]
V (X) = E (X E (X))2 .

Observacin 7.7.

Como se ve, si le llamamos = E(X), entonces la varianza es


(X )2 que mide la diferencia entre los valores que

el valor esperado de la variable


puede tomar

y su valor esperado, elevado al cuadrado.

X y su valor esperado sean


(X E (X)) es 0. Por ejemplo, si
X es una variable aleatoria discreta tal que Rec(X) = {x1 , x2 , ..., xn }con probabilidades pX (xi ) = 1/n para todo i = 1, 2, 3, ..., n, entonces E (X) =
xpX (x) =
xRec(X)
[
]
x1 +x2 +...+xn
= . Luego, V (X) = E (X )2 =
n

La presencia del cuadrado es para que las diferencias entre


positivas, ya que sin el cuadrado, la esperanza de

xRec(X)

(x )2 pX (x) =

(x1 )2 + (x2 )2 + ... + (xn )2


n

que representa el promedio de las diferencias al cuadrado que existen entre los valores
que toma la variable

y su valor esperado.

En las aplicaciones, al calcular la esperanza de (X E (X))2 , se pierde la unidad


de medida de la variable X , la cual queda expresada en unidades al cuadrado. Para
salvar este problema se suele considerar la raz cuadrada de la varianza a la que se le
llama desviacin tpica o estandar de la variable.

Denicin 7.8. Desviacin tpica. Si X


se dene como

X =

L2 entonces la desviacin tpica de X

V(X).

Propiedades.
Teorema 7.9. Si X L2 , entonces V (X) = E (X 2 ) E2 (X) . Aqu se sobreentiende
que

E2 (X) = [E (X)]2 .

Demostracin.

Llammosle = E (X) . Entonces


[
]
(
)
V (X) = E (X )2 = E X 2 2X + 2 =
( )
( )
( )
E X 2 2E (X) + 2 = E X 2 22 + 2 = E X 2 2 .X

Teorema 7.10.
Demostracin.

Si

X L2 ,

entonces

V (aX + b) = a2 V (X) .

[
]
V (aX + b) = E (aX + b)2 [E (aX + b)]2

desarrollando ambos cuadrados y simplicando nos queda igual a


( ( )
)
a2 E X 2 E2 (X) = a2 V (X) .X
70

Captulo 7. Espacios Lp .

Teorema 7.11.

Si

X L2 ,

entonces

V (X) = 0

si y slo si

X = E (X)

casi segura-

mente.

Demostracin.

2
) Si X = E (X) = , entonces[V (X) = E (
) E2 () = 2 2 = 0.
2]
) Si V (X) = 0, entonces E X E (X) = 0 y como (X E (X))2 0 casi
seguramente y tiene esperanza 0, entonces debe ser (X E (X))2 0 c.s., por lo que
debe ser X = E (X) casi seguramente. X

Ejemplo 7.12. Si X Ber(p), entonces ya vimos que E(X) = p. Adems E(X 2 ) = p


con lo cual obtenemos V(X) = p p2 = p(1 p).

Ejemplo 7.13.

Si X N(, 2 ) , entonces ya vimos que E(X) = . Ahora, si


integramos por partes
+
+
1
2
1
2
2
E(X ) =
x fX (x)dx =
x2 e 22 (x) dx
2
2

nos da 2 + 2 , por lo tanto V(X) = 2 .


Veremos en lo que sigue, algunas desigualdades que son muy tiles en la teora y en
la prctica, conocidas como desigualdades de Markov y de Chebyshev.

Teorema 7.14.

X
aR

Dadas

g (X) L , g 0
1

variable aleatoria,
tal que

g(a) > 0,

P (X > a)

g:RR

montona creciente, tal que

entonces

1
E (g (X)) .
g(a)

Demostracin.

Consideramos el conjunto A = {X > a} , entonces, dado que g 0, obtenemos que

E (g (X)) = E (g (X) 1A ) + E (g (X) 1Ac ) E (g (X) 1A ) .


Puesto que g (X) 1A g (a) 1A , ya que g es montona creciente y por denicin del
conjunto A, vemos que

E (g (X) 1A ) E (g (a) 1A ) = g(a)E (1A ) = g(a)P (A) = g(a)P (X > a) .X

Observacin 7.15.

Surge de la demostracin, que vale la misma acotacin si la

probabilidad que se considera es

Corolario 7.16.

P (X a).

Desigualdad de Markov.

P (|X| > a)

Si

X Lp (p > 0)

a > 0,

entonces

1
E (|X|p ) .
p
a

Demostracin.

Basta tomar g(x) = xp para x > 0 y g(x) = 0 para x 0 y aplicar la desigualdad


anterior a la variable Y = |X| .
71

Captulo 7. Espacios Lp .

Corolario 7.17.

Desigualdad de Chebyshev.

P (|X E (X)| > a)

Si

X L2

a > 0,

entonces

1
V (X) .
a2

Demostracin.

Basta usar la desigualdad del corolario anterior, para el caso en que p = 2 y para la
variable Y = X E (X) .X

Observacin 7.18.

Como se ve, la desigualdad de Markov nos proporciona una cota

para la funcin de distribucin de una variable aleatoria, si se conoce nicamente el


momento de algn orden de la variable, por ejemplo, el momento de orden uno.

Observacin 7.19.

La desigualdad de Chebyshev es equivalente a

P (|X E (X)| a) 1

1
V (X) .
a2

y por lo tanto, nos proporciona una cota inferior para la probabilidad de que la variable
tome valores en un entorno de su valor esperado, conociendo nicamente el valor
esperado y la varianza de la variable.

Observacin 7.20.

Las desigualdades de Markov y de Chebyshev, son cotas uni-

versales, es decir se cumplen para cualquier tipo de variable aleatoria (con la sla
hiptesis de que admitan momentos de algn orden), por lo que suelen dar cotas groseras de las probabilidades. En cada situacin particular, conociendo ms informacin
sobre la variable aleatoria

X,

se suelen conseguir cotas ms nas.

7.3. Covarianza y coeciente de correlacin.


La covarianza y el coeciente de correlacin que deniremos en lo que sigue, sirven
como medidas del grado de asociacin que hay entre dos variables aleatorias X e
Y , ambos conceptos estn relacionados como veremos con la independencia entre las
variables.

Denicin 7.21. Covarianza entre dos variables aleatorias.

Si X, Y L2 , entonces denimos COV (X, Y ) = E [(X E (X)) (Y E (Y ))] .

Propiedades.
1. Si X, Y L2 , entonces COV (X, Y ) = E (XY ) E (X) E (Y ) .
2. Si X, Y L2 , entonces COV (X, Y ) = COV (Y, X) .
3. Si X L2 , entonces COV (X, X) = V (X) .
4. Si X, Y L2 , entonces COV (aX + b, Y ) = aCOV (X, Y ) para todos a, b R.
72

Captulo 7. Espacios Lp .
5. Si X, Y, Z L2 , entonces COV (X + Y, Z) = COV (X, Y ) + COV (Y, Z) .
6. Si X, Y L2 y son independientes, entonces COV (X, Y ) = 0.
7. Si X1 , X2 , ..., Xn L2 , entonces
( n
)
n

COV (Xi , Xj ) .
V
Xi =
V (Xi ) + 2
i=1

Observacin 7.22.

i<j

i=1

COV(X, Y ) = 0

no implica necesariamente que

sean

independientes. Se deja como ejercicio construir un contraejemplo.

Observacin 7.23.

Si

X1 , X2 , ..., Xn L2 son independientes,


( n
)
n

V
Xi =
V (Xi ) .
i=1

Observacin 7.24.

Si

X, Y L2 ,

entonces

i=1

entonces

V (X + Y ) = V (X) + V (Y ) + 2COV (X, Y ) .


Las demostraciones son simplemente operativas y se dejan como ejercicio. Haremos
igualmente la demostracin de la propiedad 7.
( n
)
( n
)
n
n
n

V
Xi = COV
Xi ,
Xj =
COV (Xi , Xj )
i=1

i=1

j=1

i=1 j=1

y usando que COV (Xi , Xj ) = COV (Xj , Xi ) y que COV (Xi , Xi ) = V (Xi ) , obtenemos
n

COV (Xi , Xi ) +

i=1

i=1 j6=i

COV (Xi , Xj ) =

i=1

V (Xi ) + 2

COV (Xi , Xj ) .X

j<i

Ejemplo 7.25.

Si X Bin(n, p) entonces vimos que X = X1 + X2 + ... + Xn donde


las Xi son Ber(p) e independientes, por lo tanto

V(X) = V(X1 + X2 + ... + Xn ) = V(X1 ) + V(X2 ) + ... + V(Xn ) = np(1 p).

Denicin 7.26. Coeciente de correlacin entre dos variables aleatorias.


Si X, Y L2 son no constantes, entonces denimos (X, Y ) = COV(X,Y ) .
V(X)V(Y )

Propiedades.

En las propiedades que siguen se consideran X, Y L2 no constantes.


1. 1 (X, Y ) 1.
2. (X, Y ) = 1 si y slo si existen a, b R, a > 0, tales que Y = aX + b.
73

Captulo 7. Espacios Lp .
3. (X, Y ) = 1 si y slo si existen a, b R, a < 0, tales que Y = aX + b.
4. Si X, Y son independientes, entonces (X, Y ) = 0.
Demostracin.

Aplicando la desigualdad de Cauchy Schwartz, tenemos que

|COV (X, Y )| = |E [(X E (X)) (Y E (Y ))]|

E (X E (X))2 E (Y E (Y ))2 = V (X) V (Y ).


lo cual es equivalente a decir que | (X, Y )| 1. Adems sabemos que | (X, Y )| = 1
si y slo si existe R tal que X E (X) = (Y E (Y )) donde 6= 0 ya que X
no es constante. Por lo tanto | (X, Y )| = 1 si y slo si existen a 6= 0 y b tales que
Y = aX + b. Ahora, aplicando las propiedades de varianza y covarianza, obtenemos
a
que (X, Y ) = (X, aX + b) = |a|
de donde se deduce que (X, Y ) es 1 si y slo si
a > 0, y 1 si y slo si a < 0. Quedan probadas as las primeras 3 propiedades. La
ltima propiedad es evidente ya que (X, Y ) = 0 si y slo si COV (X, Y ) = 0. X

7.4. Variables i.i.d.


Denicin 7.27.

Se dice que la sucesin de variables aleatorias X1 , X2 , ..., Xn , ....


son v.a.i.i.d, cuando dichas variables son independientes y todas tienen igual funcin
de distribucin, es decir cuando son independientes y adems FX1 = FX2 = ... = FXn
para todo n.
Cuando n es jo, se dice tambin que X1 , X2 , ..., Xn son una M.A.S.c/rep de X
de tamao n (muestra aleatoria simple con reposicin). Lo cual signica que las
variables son i.i.d con distribucin como la de cierta variable X que se toma como
representativa.
Supongamos que tenemos X1 , X2 , ..., Xn v.a.i.i.d cuya distribucin es como la de
cierta X L2 . Llammosle en este caso y 2 a la esperanza y la varianza de X
respectivamente. Es decir que E (X) = y V (X) = 2 .
Se dene la media muestral como la siguiente variable aleatoria: X n := X1 +X2n+...+Xn .
La misma es fundamental desde el punto de vista estadstico, ya que si X1 , X2 , ..., Xn
representan n observaciones obtenidas de forma independiente de una cierta variable
aleatoria, lo que se llama tambin una muestra aleatoria simple de tamao n, entonces
X n nos da el promedio de las observaciones
de(la muestra.
)
)
( obtenidas
2
Veremos ahora que si X L , entonces E X n = y V X n = 2 /n.
Efectivamente, usando la linealidad de la esperanza obtenemos que
(
)
( )
n
X1 + X2 + ... + Xn
E (X1 ) + E (X2 ) + ... + E (Xn )
=
= .
E Xn = E
=
n
n
n
Ahora, aplicando propiedades de varianza, obtenemos que
(
)
( )
X1 + X2 + ... + Xn
1
V Xn = V
= 2 V (X1 + X2 + ... + Xn ) =
n
n
74

Captulo 7. Espacios Lp .

V (X1 ) + V (X2 ) + ... + V (Xn )


n 2
2
=
=
.
n2
n2
n

Una aplicacin estadstica.

Supongamos que deseamos estimar el porcentaje de fumadores en una poblacin.


Para obtener el resultado, se encuestarn de manera independiente, n individuos
de la poblacin y se calcular el porcentaje de fumadores en la muestra. Podemos
pensar{entonces que tenemos n variables aleatorias X1 , X2 , ..., Xn , denidas como
1 si la i-sima persona encuestada fuma
. Entonces las variables son inXi =
0
si no
dependientes con distribucin Ber(p), donde p es el porcentaje de fumadores en la
poblacin. p es desconocido, que estimaremos mediante el porcentaje de fumadores
en la muestra, el cual es X n = X1 +,X2n+...+Xn ya que el numerador cuenta el total de
fumadores (xitos).
Supongamos que queremos respondernos a la siguiente pregunta: a cuntos individuos hay que encuestar si deseamos que el porcentaje de la muestra no diera del
real en ms de un 1 % con una probabilidad
( mayor al 95 %?)
Por lo tanto queremos hallar n tal que P X n p 0, 01 0, 95.
Observamos que las variables, al ser Bernoulli estn en L2 y ya vimos que tienen valor
esperado p y varianza p(1 p).
Por otro lado, ya vimos que el valor esperado de X n coincide con el de cada Xi , y la
varianza de X n(es )2 /n = p(1( p)/n.
) O sea que en el caso de las variables Bernoulli,
tenemos que E X n = p y V X n = p(1 p)/n.
Aplicando el corolario 7.16 (desigualdad de Chebyshev) a la variable X n , llegamos a
que

(
)
( )
1
p(1 p)
P X n p 0, 01 1
V Xn = 1
.
2
0, 01
n0, 012
Puesto que p(1 p) 1/4 para todo valor de p, obtenemos que


(
)
p(1 p)
1
P X n p 0, 01 1
1
.
2
n0, 01
4n0, 012
1
Entonces eligiendo n tal que 1 4n0,01
2 0, 95, el mismo nos asegurar que

(
)
P X n p 0, 01 0, 95. En este caso el menor valor de n que nos asegura esta
desigualdad es 50.000.

75

Captulo 8
Convergencia en probabilidad, casi
segura y en distribucin.
Consideremos una sucesin de variables aleatorias {Xn }nN y una variable aleatoria
X denidas sobre un mismo espacio de probabilidad. Dado que las Xn y la X son
funciones de en R, hay varias nociones de convergencia de una sucesin de funciones
a una funcin, como la convergencia puntual, la uniforme, la convergencia cuadrtica
o en el espacio Lp por ejemplo. En teora de probabilidad, dado que las funciones
son aleatorias, es decir que toman valores reales de manera aleatoria, es necesario
denir nuevos conceptos de convergencia que involucren el clculo de la probabilidad
de que las Xn esten prximas a X en algn sentido. Deniremos tres conceptos de
convergencia que son vitales en teora de la probabilidad y en estadstica matemtica,
que son la convergencia en probabilidad, la convergencia casi segura y la convergencia
en distribucin.

8.1. Convergencia en probabilidad y casi segura.


Denicin 8.1. Convergencia en probabilidad.

Dadas una sucesin


aleatorias {Xn }nN y una variable aleatoria X de( de variables
)
nidas sobre cierto , A, P espacio de probabilidad, se dice que la sucesin {Xn }nN
converge en probabilidad a X si y slo si, para todo > 0 se cumple que
lim P (|Xn X| < ) = 1.

n+
P

Notacin: Xn X.

Observacin 8.2.
>0

Equivalentemente, tenemos que

Xn X

si y slo si para todo

se cumple que
lim

P (|Xn X| ) = 0.

n+

Informalmente, la convergencia en probabilidad nos dice que una vez que jamos el
valor de > 0 arbitrariamente pequeo, pero jo, la probabilidad de que Xn tome
76

Captulo 8. Convergencia en probabilidad, casi segura y en distribucin.


un valor perteneciente al intervalo (X , X + ) se acerca a uno en la medida de
que n se tome sucientemente grande.

Denicin 8.3. Convergencia casi segura.

Dadas una sucesin


aleatorias {Xn }nN y una variable aleatoria X de( de variables
)
nidas sobre cierto , A, P espacio de probabilidad se dice que la sucesin {Xn }nN
converge casi seguramente a X (o en casi todo punto) si y slo si se cumple que
(
)
P
lim Xn = X = 1.
n+

c.s.

Notacin: Xn X.

Observacin 8.4.
verica que

Dado que el lmite de variables aleatorias es variable aleatoria, se

{limXn = X}

Teorema 8.5.

c.s.

Xn X

es un suceso.
si y slo si

lim P
k+

(+
n=k

)
{|Xn X| < } = 1

para todo

> 0.

Demostracin.

Si w es tal que lim Xn (w) = X(w) entonces, para todo > 0, existe un k tal que
n+

para todo n k se cumple que |Xk (w) X(w)| < . Observando(que es suciente
) en
la denicin de lmite considerar Q+ entonces tenemos que P

1 si y solo si

lim Xn = X

n+

+
+

{|Xn X| < } = 1.

Q+ k=1 n=k

Como la interseccin en el conjunto de Q+ es numerable, y tiene probabilidad 1,


entonces la ltima condicin es equivalente a
(+ +
)

{|Xn X| < } = 1 para todo Q+ .


P
k=1 n=k

Por otro lado, los conjuntos Bk = +


n=k {|Xn X| < } forman una sucesin creciente
de(sucesos,
+ )entonces, la propiedad de continuidad de las probabilidades nos dice que
P
k=1 Bk = lim P (Bk ) , por lo que
k+

(+ +

)
{|Xn X| < }

k=1 n=k

Llegamos as a que
c.s.

Xn X si y slo si lim P
k+

( +

= lim P
k+

( +

)
{|Xn X| < } .

n=k

)
{|Xn X| < }

= 1 para todo Q+ .

n=k

77

Captulo 8. Convergencia en probabilidad, casi segura y en distribucin.


Finalmente, dado que en la dencin de lmite es equivalente a trabajar con > 0 y
c.s.
observando
la demostracin, se) deduce que Xn X si y slo si
(+
lim P
n=k {|Xn X| < } = 1 para todo > 0. X

k+

Observacin 8.6.

La interseccin sobre los

Q+

se realiza para que podamos

asegurar que los conjuntos con los que trabajamos pertenezcan a la


modo si trabajamos con los

> 0,

Teorema 8.7. Dados un


aleatorias

{Xn }nN

, A, P

-lgebra.

espacio de probabilidad, una sucesin de variables

y una variable aleatoria


Si

de otro

la interseccin es no numerable y no podemos

asegurar que la misma pertenezca a la

-lgebra,

X.

c.s.

Xn X entonces Xn X.

Demostracin.
c.s.

Como Xn X, entonces jado > 0, entonces para todo k N se cumple que


+

{|Xn X| < } {|Xk X| < }

n=k

entonces

( +

)
{|Xn X| < }

P (|Xk X| < )

n=k

por lo que tomando lmite cuando k tiende a + se deduce el resultado. X


Veremos en el siguiente ejemplo que la nocin de convergencia casi segura es estrictamente ms fuerte que la de convergencia en probabilidad.

Ejemplo 8.8.

Tomemos un espacio de probabilidad en el cual denimos


una
(
) variable Y U (0, 1) . Consideramos la sucesin de intervalos Im,k = 2km , k+1
para
2m
m
m = 1, 2, 3, ... y k = 0, 1, 2, 3, ..., 2 1. Denimos In ordenando los Im,k dando
primero el valor de m y luego, para dicho m, variamos en los distintos valores de
k = 0, 1, 2, 3,( ..., 2)m 1. Es decir,
( 1 para
) m = 1, tenemos k = 0, 1 por lo que denimos
1
I1 = I1,0 = 0, 2 ; I2 = I1,1 = 2 , 1 . Luego, para m = 2,( tenemos
k = 0, 1, 2,( 3 con
)
)
1
1 1
lo que denimos
I
,
I
,
I
e
I
como
sigue:
I
=
I
=
0,
;
I
=
I
=
,
;
3
4
5
6
3
2,0
4
2,1
4
4 2
(
)
( )
I5 = I2,2 = 12 , 34 e I6 = I2,3 = 34 , 1 . As continuamos sucesivamente.
Denimos ahora la sucesin Xn = 1In (Y ). Las longitudes de los intervalos In
tienden a cero por lo que se podra esperar que exista algn
{ tipo de convergencia de
P (Y In ) si < 1
las Xn a cero. Dado > 0, se tiene que P (|Xn | ) =
y
0
si 1
P

como P (Y In ) =longitud de In 0, entonces tenemos que Xn 0.


Por otro lado, vemos que cualquier nmero (0, 1) pertenece a innitos de los intervalos In y tambin no pertenece a innitos de los intervalos In . Entonces dado
cualquier w , se tendr que Y (w) (0, 1) y por lo tanto no existe lim Xn (w).
n+
{
}
Entonces
lim Xn = 0 = lo cual prueba que Xn no converge casi seguramente
n+
a cero.
78

Captulo 8. Convergencia en probabilidad, casi segura y en distribucin.

Algebra de lmites en las convergencias en probabilidad y casi segura.

En las siguientes propiedades se consideran dadas las sucesiones de variables aleatorias


(
)
{Xn }nN , {Yn }nN y las variables aleatorias X e Y denidas sobre cierto , A, P
espacio de probabilidad. Se deja como ejercicio su demostracin.
P

c.s.

c.s.

1. Unicidad. Si Xn X , Xn Y entonces X = Y c.s.


2. Unicidad. Si Xn X , Xn Y entonces X = Y c.s.
P

c.s.

c.s.

c.s.

3. Si Xn X , Yn Y entonces Xn + Yn X + Y para todos , R.


4. Si Xn X , Yn Y entonces Xn + Yn X + Y para todos , R.
P

c.s.

c.s.

5. Si Xn X y g : R R es continua, entonces g (Xn ) g (X) .


6. Si Xn X y g : R R es continua, entonces g (Xn ) g (X) .
P

c.s.

c.s.

c.s.

c.s.

c.s.

7. Si Xn X , Yn Y entonces Xn Yn XY.
8. Si Xn X , Yn Y y P (Y 6= 0) = 1, entonces Xn Yn XY.
9. Si Xn X , Yn Y y P (Y 6= 0) = 1, entonces Xn Yn XY.
c.s.

10. Si Xn X , Yn Y entonces Xn Yn XY.


P

11. Si Xn 0, existe k R tal que P (|Yn | > k) = 0 para todo n, entonces


P
Xn Yn 0.
c.s.

12. Si Xn 0, existe k R tal que P (|Yn | > k) = 0 para todo n, entonces


c.s.
Xn Yn 0.

8.2. Leyes de los grandes nmeros.


Teorema(8.9.
Dado un

Ley
) dbil de los grandes nmeros.

, A, P

espacio de probabilidad. Si las variables aleatorias {Xn }nN son


X L2 y le llamamos = E (X) y 2 =

i.i.d con distribucin como la de cierta

V (X) .
Entonces

X n .

Demostracin.

Ya( vimos
sobre el
)
( nal
) del captulo anterior cuando las varaibles son i.i.d. que
E X n = y V X n = 2 /n para todo n. Entonces aplicando la desigualdad de
Chebyshev, obtenemos que, para todo > 0,
( )

(
) V Xn
2
P X n
=
0
2
n2 n+
P

por lo que X n .X
79

Captulo 8. Convergencia en probabilidad, casi segura y en distribucin.

Observacin 8.10.

Como se ve repasando la denicin, la misma demostracin

funciona cambiando las hiptesis de i.i.d por las de que todas las variables, tengan
iguales esperanza y varianza, y adems sean no correlacionadas.

Teorema(8.11.
Dado un

Ley
) fuerte de los grandes nmeros.

, A, P

espacio de probabilidad. Si las variables aleatorias {Xn }nN son


X L4 y le llamamos = E (X) .

i.i.d con distribucin como la de cierta


Entonces

c.s.

X n .

Demostracin.

Basta probar el teorema para el caso en que = 0, ya que una vez que lo tenemos
probado en este caso, para deducir el caso general, denimos para cada n, Yn = Xn ,
entonces la sucesin {Yn }nN es i.i.d con distribucin como la de Y = X , entonces,
c.s.
c.s.
Y n E(Y ) = 0, pero Y n = X n , por lo tanto X n .
Suponemos entonces que = 0.
c.s.
, segn
8.4 debemos probar que, dado > 0,
Para probar que X n
(0+
{ el teorema
})
X n < = 1, lo cual es equivalente a probar que
se cumple que lim P
n=k
k+

(+ {
})
X n > = 0.
lim P
n=k
k+
})
(
)
(+ {
X n > + P X n > se deduce que para obtener el
Dado que P
n=k
n=k
)
+ (
X n > < +.
P
resultado es suciente con probar que
)n=1
(
La idea ser entonces acotar P X n > superiormente por una sucesin cuya serie
sea convergente.
Como X L4 , usaremos la desigualdad de Markov con p = 4, por lo que

(
)
1 ( 4)


P Xn > 4 E Xn .

( 4)

E
Por lo tanto ser suciente probar que +
X n < +.
n=1
( 4)
E Xn =
1
E [(X1 + X2 + ... + Xn ) (X1 + X2 + ... + Xn ) (X1 + X2 + ... + Xn ) (X1 + X2 + ... + Xn )] .
n4
Desarrolando esta suma, y aplicando linealidad del valor esperado, obtenemos que

E [(X1 + X2 + ... + Xn ) (X1 + X2 + ... + Xn ) (X1 + X2 + ... + Xn ) (X1 + X2 + ... + Xn )] =


n

)
)
(
( )
(
E Xi2 Xj2
E Xi4 +
E Xi3 Xj +

i=1

+
i,j,k

i6=j6=k, i6=k

i,j

i,j

i6=j

i6=j

)
(
E Xi2 Xj Xk +
i,j,k,l

E (Xi Xj Xk Xl ) .

i6=j6=k6=l, j6=l, i6=k, i6=l

80

Captulo 8. Convergencia en probabilidad, casi segura y en distribucin.


Como las variables son i.i.d, tenemos que dentro de cada una de las sumatorias
anteriores, los sumandos son todos iguales entre s, entonces nos queda igual a
( )
(
)
(
)
(
)
nE X14 +8C2n E X13 X2 +C24 C2n E X12 X22 +6C24 C3n E X12 X2 X3 +4!C4n E (X1 X2 X3 X4 ) .
Ahora usando que las variables son i.i.d y recordando que en estos casos, la esperanza de un producto se factoriza como el producto de esperanzas, observamos
que E (X13 X2 ) = E (X13 ) E (X2 ) = 0, E (X12 X2 X3 ) = E (X12 ) E (X2 ) E (X3 ) = 0 y
E (X1 X2 X3 X4 ) = E (X1 ) E (X2 ) E (X3 ) E (X4 ) = 0.
Entonces

( 4)
( ) ( ))
1 ( ( )
E X n = 4 nE X14 + 3n(n 1)E X12 E X22
n
por lo que

+
( 4)
1
E Xn
< +.X
2
n
n=1
n=1

Trabajando con desigualdades ms nas, lo cual lleva ms trabajo, es posible demostrar que vale el mismo teorema slo pidiendo que X L1 . Por lo tanto cuando sea
necesaria aplicar la ley, lo haremos simplemente vericando que X L1 .
Si las variables {Xn }nN son i.i.d con distribucin como la de cierta X
/ L1 , entonces,
tambin tenemos una versin de la ley fuerte.
(
)
Teorema 8.12. Dado un , A, P espacio de probabilidad. Si las variables aleatorias {Xn }nN son i.i.d con distribucin como la de cierta X tal que E (|X|) = +,
entonces
limsup


X n = +

c.s.

Demostracin.

( )
Como E (|X|) = +, entonces E |X|
= + para todo k = 1, 2, 3, ... Entonces
k
)
+ ( |X|
n = +, para todo k = 1, 2, 3, ...
n=1 P
k
Como las variables son idnticamente distribuidas, tenemos que
+

n=1

(
P

)
(
)
(
)
+
+
|Xn |
|Xn |
|X|
n =
P
n =
P
k = + para todo k = 1, 2, 3, ...
k
k
n
n=1
n=1

{
}
(k)
Fijado k , se tiene que los sucesos An = |Xnn | k son independientes, luego, por
el lema de Borel-Cantelli se tiene que
(
)
P ocurren innitos A(k)
= 1 para todo k = 1, 2, 3, ...
n
(k)

Entonces, si denimos Bk = ocurren innitos An , tenemos que P (Bk ) = 1 para


todo k = 1, 2, 3, ... y como interseccin
de sucesos de probabilidad 1, tiene
)
(+numerable
B
=
1.
probabilidad 1, obtenemos que P
k=1 k
81

Captulo 8. Convergencia en probabilidad, casi segura y en distribucin.

+
(k)
Observamos
adems
que
B
=
para innitos
valores de n,
k = ocurre An ({
k=1 B}
{{
}
}
) para
|Xn |
|Xn |
todo k "=
es no acotada . Entonces P
es no acotada = 1.
n
n
nN
} nN
{
Ya que existe probabilidad 1 de que la sucesin |Xnn |
sea no acotada, para
nN

terminar
+ X + ... + Xn , y bastar con probar que si
{
} la prueba, denimos Sn ={X
1 2 |Sn | }
|Xn |

es no acotada, entonces X n = n
es no acotada.
n
nN
nN
{
{ }
}
|Sn1 |
|Sn |
acotada, entonces tambin lo sera
ya
Efectivamente, si fuera
n
n
|
que |Sn1
=
n
tanto
{
}
|Xn |
n

8.2.1.

|Sn1 | n1
,
n1
n

nN

nN
|Xn |
n

entonces,

|Sn Sn1 |
n

|Sn |
n

|Sn1 |
,
n

nN

sera acotada, por lo

es acotada lo cual es absurdo. X

Aplicaciones.

La cantidad de aplicaciones de la ley fuerte es enorme, veremos en lo que sigue, a


modo de ejemplo, algunos corolarios de la ley a modo de aplicacin de la misma.

Corolario 8.13. Si las variables aleatorias {Xn }nN son i.i.d con distribucin Ber(p),
entonces
c.s.

X n p.

Demostracin.

Es obvia ya que las variables Ber(p) estn en L1 y son tales que E (X) = p. X
Frecuentemente, en estadstica, se tiene un muestreo de alguna variable aleatoria cuya
funcin de distribucin es desconocida. Se desea estimar a la funcin FX dada una
muestra aleatoria simple X1 , X2 , ..., Xn .
Supongamos entonces que tenemos X1 , X2 , ..., Xn , variables aleatorias i.i.d con distribucin como la de X. Se dene a la distribucin
emprica asociada a la muestra, a
n
1

la funcin Fn : R R tal que Fn (x) = n i=1 1(,x] (Xi ) .


Observamos que 1(,x] (X1 ) , 1(,x] (X2 ) , ..., 1(,x] (Xn ) son independientes (porque las Xi lo son) con distribucin Ber(p = FX (x)) .
Observamos que Fn : R R es una funcin de distribucin escalonada, con saltos
en los Xi y donde cada salto es de longitud 1/n (en el caso en que las Xi sean todas
distintas).

Corolario 8.14.

Aplicacin estadstica: estimacin de una funcin de distribucin desconocida.

Fn

converge puntualmente a

FX .

Demostracin.
Aplicamos la ley fuerte de los grandes nmeros, se cumple que jado
(
)
c.s.
Fn (x) E 1(,x] (X) = FX (x).X

x R,

entonces

82

Captulo 8. Convergencia en probabilidad, casi segura y en distribucin.

Corolario 8.15.
Dadas

Clculo de integrales mediante nmeros aleatorios.

f : [a, b] R

continua, y

{Xn }nN

i.i.d con distribucin

ba
c.s.
f (Xi )
n i=1
n

U (a, b) .

Entonces

f (x)dx.
a

Demostracin.

Si denimos para cada n las variables Yn = (b a)f (Xn ) , entonces, tendremos que
{Yn }nN son i.i.d en L1 ya que f es continua. Entonces, por la ley fuerte de los grandes
nmeros tendremos que

c.s.

Y n E (Y ) = E [(b a)f (Xn )] = (b a)


a

Corolario 8.16.

1
f (x)
dx =
ba

f (x)dx.X
a

Nmeros normales.

Dado un nmero x (0, 1) podemos escribirlo en su expresin binaria como x =


+
xn
donde xi {0, 1} para todo i = 1, 2, 3, ... Si truncamos el nmero x a sus
2n
n=1
primeras n cifras en su expansin binaria (sumamos hasta n), observamos que xn =
x1 +x2 +...+xn
es el porcentaje de veces que aparece el 1, entre los primeros n trminos.
n
El nmero x se dice normal respecto a la base 2, si xn 1/2.

(0, 1) es normal respecto a la base 2 (es decir que si


(0, 1) con distribucin uniforme, entonces el conjunto
probabilidad 1).

Probaremos que casi todo punto


se elige un nmero aleatorio en
de nmeros normales tiene

Demostracin.
Dado x (0, 1), escribimos x =

n=1

xn
2n

donde xi {0, 1} para todo i = 1, 2, 3, ...

Observamos que xn = 0 en una unin de 2n1 intervalos de longitud (1/2)n y xn =


1 en la unin de los restantes 2n1 intervalos de longitud (1/2)n . Consideramos el
siguiente espacio de probabilidad. = (0, 1), sigma = B(0,1) y P denida mediante
la distribucin uniforme.
Denimos la sucesin de variables aleatorias Xn : (0, 1) R tales que Xn (x) = xn .
Entonces, la probabilidad de que Xn tome el valor 1 es la suma de las longitudes de
los 2n1 intervalos disjuntos de longitud (1/2)n lo que es igual a 1/2. Esto prueba que
Xn Ber(p = 1/2) para todo n. Adems las variables son independientes ya que

P (Xn1 = 1 , Xn2 = 2 , ..., Xnk = k ) =

1
= P (Xn1 = 1 ) P (Xn2 = 2 ) ...P (Xnk = k )
2k

cualesquiera sean k , 1 , 2 , ..., k {0, 1} y n1 < n2 < ... < nk .


Hemos probado entonces que la sucesin {Xn }nN son variables i.i.d con distribucin
Ber(p = 1/2) por lo tanto, la ley fuerte de los grandes nmeros nos asegura que
c.s.
X n p = 1/2 lo cual signica que casi todo nmero real perteneciente al intervalo
(0, 1) es normal respecto a la base 2.X
De similar forma, se prueba que si se dene nmero normal respecto a la la base
83

Captulo 8. Convergencia en probabilidad, casi segura y en distribucin.

k , cuando el porcentaje de apariciones de cualquier j {0, 1, 2, ..., k 1} converge a


1/k , entonces casi todo nmero (0, 1) es normal respecto a la base k. Por ejemplo, en
el caso en que k = 10, tenemos que casi todo punto es normal respecto a su expansin
decimal lo cual signica que el promedio de apariciones de los dgitos 0, 1, 2, ..., 9 en
su expansin decimal tiende a 1/10.

8.3. Convergencia en distribucin.


Apuntamos en lo que sigue a otro concepto de convergencia, de gran utilidad que es la
convergencia en distribucin. La idea, de la misma es que cuando n tienda a innito, la
funcin de distribucin de las Xn converja a la funcin de distribucin puntualmente
en algn conjunto. En el siguiente ejemplo, veremos que la convergencia puntual de
Fn (x) a F (x) es muy restrictiva si la pedimos para todo x.

Ejemplo 8.17. Si {cn }nN R es una sucesin decreciente tal que cn c y denimos
para cada n las variables Xn = cn y X = c, desearamos tener una denicin de
convergencia en distribucin tal que Xn converja a X. Las funciones de distribucin
de estas variables son
{
{
0 si x < cn
0 si x < c
.
FXn (x) =
y FX (x) =
1 si x c
1 si x cn
Como se ve, FXn (c) = 0 no tiende a FX (c) = 1, mientras que FXn (x) FX (x) para
todo x 6= c.
Como se observa, c es el nico punto de discontinuidad de FX .
Cuntos puntos de discontinuidad puede tener una cierta funcin de distribucin?
Si F : R R es una funcin de distribucin, veremos que admite a lo sumo una
cantidad numerable de discontinuidades.
Para demostrarlo, observamos que

{x R : F es discontinua en x} =

x R : F (x) F (x ) 1/n

n=1

adems, para cada n, el conjunto {x R : F (x) F (x ) 1/n} tiene a lo sumo n


elementos, puesto que dado que F es creciente y acotada entre 0 y 1, la suma de los
saltos de distintos puntos de discontinuidad no puede exceder a 1. Por lo tanto el
conjunto de puntos de discontinuidad de F es numerable por ser unin numerable de
conjuntos nitos.
Se deja como ejercicio vericar que si F : R R es montona entonces el conjunto
de sus puntos de discontinuidad es a lo sumo numerable.

Denicin 8.18. Convergencia en distribucin.


(

)
Dadas {Xn }nN variables aleatorias denidas en

,
A
,
P
espacios de probabilin
n
n
(
)
dad, y X variable aleatoria denida en cierto , A, P espacio de probabilidad. Se
dice que la sucesin {Xn }nN converge en distribucin a X si y slo si
lim FXn (x) = FX (x) para todo x punto de continuidad de FX .

n+

84

Captulo 8. Convergencia en probabilidad, casi segura y en distribucin.


d

Notacin: Xn X.
Tambin se dice que la sucesin {Xn }nN converge dbilmente a X, o tambin que
FXn converge dbilmente a FX .

Observacin 8.19. Como se ve en la denicin, no es necesario que las variables Xn


y

esten todas denidas en el mismo espacio de probabilidad, ya que lo que importa,

es que la convergencia se de entre sus funciones de distribucin que son funciones de

en

R.

Veremos en el siguiente teorema que cuando trabajamos sobre un mismo espacio de


probabilidad, la nocin de convergencia en distribucin es an ms dbil que la nocin
de convergencia en probabilidad.

Teorema 8.20.
aleatoria

Dadas una sucesin de variables aleatorias

denidas sobre cierto


Si

, A, P

Xn X

{Xn }nN

y una variable

espacio de probabilidad.

entonces

Xn X.

Demostracin.

Dado x punto de continuidad de FX . Fijamos > 0 y le llamamos An, = {X < Xn < X + } .


Entonces
(
)
FXn (x) = P (Xn x) = P ({Xn x} An, ) + P {Xn x} Acn, .
Con respecto al primer sumando, tenemos que

P ({Xn x} An, ) P ({X x} An, ) P (X x) = FX (x + ).


Entonces tenemos que

(
)
FXn (x) FX (x + ) + P {Xn x} Acn, .
(
)
Tomando lmite en n, el segundo sumando tiende a cero (ya que P Acn, tiende a
cero), por lo que obtenemos la desigualdad FXn (x) FX (x + ) vlida para todo
> 0. Luego, tomamos lmite cuando 0+ y usando que FX es continua por
derecha, nos queda
limsupFXn (x) FX (x).
n+

Para obtener una desigualdad en el otro sentido razonaremos en forma similar.

P ({Xn x} An, ) P ({X x } An, ) .


Entonces

)
(
FXn (x) P ({X x } An, ) + P {Xn x} Acn, .

85

Captulo 8. Convergencia en probabilidad, casi segura y en distribucin.


Si ahora tomamos lmite en n, obtenemos que para todo > 0,
liminf FXn (x) FX (x ).
n+

Ahora usando que x es punto de continuidad de FX ,tomamos lmite cuando 0+


y obtenemos que liminf FXn (x) FX (x). Hemos probado entonces que
n+

lim FXn (x) = FX (x).X

n+

Ahora veremos en el siguiente ejemplo que la convergencia en probabilidad es estrictamente ms fuerte que la convergencia en distribucin.

Ejemplo 8.21.

Denimos una sucesin de variables X, X1 , X2 , ..., Xn , ... i.i.d con


d
distribucin N (0, 1). Entonces Xn X ya que FXn = FX para todo n. Sin embargo
la sucesin {Xn }nN no converge en probabilidad a X ya que Xn X tiene distribucin
N (0, 2) para todo n (ya que es combinacin lineal de normales independientes), y
por lo tanto
)
(
)
(


P (|Xn X| ) = P ( Xn X ) =
2
2

esta probabilidad, no depende de n y es menor estricto que 1 por lo que no hay


convergencia en probabilidad.

86

Captulo 9
Funciones caractersticas.
En este captulo deniremos un concepto que nos permitir seguir desarrollando el
concepto de convergencia en distribucin, de hecho veremos ms caracterizaciones
para esta nocin de convergencia, y nalizaremos con un teorema esencial en la teora
y prctica: el teorema central del lmite.
(
)
Denicin 9.1. Funcin caracterstica. Dado un , A, P espacio de probabilidad y X : R variable aleatoria,
( itX ) se dene la funcin caracterstica de X como
X : R C tal que X (t) = E e
.

Observacin 9.2.

eitX = cos(tX) + isen(tX), se tiene que


+
+
( itX )
itx
E e
=
e dFX (x) =
(cos(tx) + isen(tx)) dFX (x) =
Dado que

cos(tx)dFX (x) + i

Observacin 9.3.
para todo

= E (cos(tX)) + iE (sen(tX)) .

sen(tx)dFX (x)

La funcin caracterstica de

siempre existe ya que

itX
e = 1

t.

Ejemplo 9.4.

Si X Poisson(), entonces

X (t) = E e

itX

+
itx

e dFX (x) =

itx

e pX (x) =

x=0

+
x

(eit )
x=0

x!

x=0

it 1

= e ee = e(e
it

eitx

e x
=
x!

).

Como se ver ms adelante, la funcin caracterstica, juega un papel esencial en la


teora de la convergencia en distribucin, convergencia clave en estadstica.

87

Captulo 9. Funciones caractersticas.

9.1. Propiedades.
En
( todas) las siguientes propiedades, se supone dado un espacio de probabilidad
, A, P y en l, una variable aleatoria X : R.

Proposicin 9.5.

|X (t)| 1

para todo

t R.

Demostracin.
(

)
)
(
|X (t)| = E eitX E eitX = E (1) = 1.X

Proposicin 9.6.
X (0) = 1.

Demostracin.
Obvia.X

Proposicin 9.7.
aX+b (t) = eitb X (at)

para todo

t R.X

Demostracin.
(

)
(
)
(
)
aX+b (t) = E eit(aX+b) = E eitaX eitb = eitb E eiatX = eitb X (at).

Proposicin 9.8.

Si

son independientes, entonces

X+Y (t) = X (t)Y (t)

para todo

t R.

Demostracin.
(
)
(
)
(
) (
)
X+Y (t) = E eit(X+Y ) = E eitX eitY = E eitX E eitY = X (t)Y (t) .X
indep

Proposicin 9.9.

es uniformemente continua.

Demostracin.
(
))
)
(
)
(
)
(
(
X (t) X (s) = E eitX E eisX = E eitX eisX = E eisX ei(ts)X 1 .
)
(
Si denimos g(h) = E eihX 1 , entonces
(
(
) )
(
))
(
|X (t) X (s)| = E eisX ei(ts)X 1 E eisX ei(ts)X 1 =
)
(
E ei(ts)X 1 = g(t s).
Por lo tanto, bastar con ver que g es continua en cero, es decir que g(h) tiende a
cero cuando h 0.

Observamos que eihx 1 2 L1 , y como eihX 1 0 c.s, entonces por el
( h0 )
teorema de convergencia dominada, se tiene que lim E eihX 1 = 0.X
h0

88

Captulo 9. Funciones caractersticas.

Proposicin 9.10.

Si

adems

X Lk

para cierto

(
)
(k)
X (t) = ik E X k eitX

k N, k 1.
para todo

Entonces

X C k

t R.

Demostracin.

La prueba se realiza por induccin. Probmoslo para k = 1.


(
)
(
)
E ei(t+h)X E eitX
X (t + h) X (t)
=
=
h
h
(
(
)
(
))
E ei(t+h)X eitX
eitX eihX 1
.
=E
h
h
Ahora, observamos que lim e
h0

h 0.

ihx 1

= ix, por lo tanto

eitX (eihX 1) c.s.

iXeitX cuando



eitx (eihx 1) eihx 1 x ihs x ihs
=

Adems,
= 0 e ds 0 e ds = |x| para todos x, h
h
h



eitX (eihX 1)
|X| L1 , por lo tanto, usando el teorema de convergencia
R. Entonces
h

dominada se deduce que
(
(
))
(
)
eitX eihX 1
X (t + h) X (t)
lim
= lim E
= iE XeitX .
h0
h0
h
h
Se deja como ejercicio demostrar el paso inductivo y as completar la demostracin.
X

Observacin 9.11.

Si Si

X Lk

asegura que podemos derivar respecto a la

k N, la
variable t debajo

para cierto

proposicin anterior nos


del signo de la esperanza

veces.

j
j
Observacin 9.12. Si X Lk para cierto k N, k 1, entonces (j)
X (0) = i E (X )
k
para todo j = 1, 2, 3, ..., k. En particular si X L para todo k N, entonces

X C y adems quedan determinados todos los momentos de la variable X a

partir de

X .

Observacin 9.13.
cierto

k,

entonces

Ejemplo 9.14.

Se deduce de la demostracin que en el caso en que

X Lk

para

es uniformemente continua.

Si X N (, 2 ), entonces
2 2 /2

X (t) = eitt

Para demostrarlo, en primer lugar probaremos que si X N (0, 1), probaremos que
2
X (t) = et /2 . Para lograrlo, demostraremos que si denimos la funcin h como
2
h(t) := et /2 X (t), entonces h(t) = 1 para todo t.
Como h(0) = 1, bastar probar que h0 (t) = 0 para todo t. En efecto, dado que
89

Captulo 9. Funciones caractersticas.


podemos derivar
del signo
de esperanza
en la funcin caracterstica,
obtenemos
( debajo
)
(
)
(
)
2
2
h0 (t) = tet /2 E eitX +et /2 E iXeitX . Entonces, resta probar que E (t + iX) eitX =
0.

E (t + iX) e

itX

1
=
2

itx x2 /2

(t + ix)e e

ieitxx

2 /2

1
dx =
2

2 /2

(t + ix)eitxx

dx =

|+
= 0.

Ahora, para demostrar el caso en que X N (, 2 ), escribimos X = Z + donde


Z N (0, 1) . Entonces,
2 2 /2

X (t) = Z+ (t) = eit Z (t) = eitt

9.2. Frmula de inversin.


En esta seccin probaremos una frmula que nos pemite obtener FX si conocemos
X , de aqu se deducir que la funcin caracterstica de una variable aleatoria, caracteriza a la funcin de distribucin, es decir que FX = FY si y slo si X = Y .

Teorema 9.15.

Frmula de inversin.

(
)
Dado un , A, P espacio de probabilidad y X : R variable aleatoria, entonces
1
FX (x) = lim lim lim
zx yh+ 2

h
h

eity eitz
X (t)dt para todo x,
it

donde los lmites en y y en z se realizan sobre puntos de continuidad de FX .

Demostracin.

En primer lugar jamos y < z puntos de continuidad de FX .


Denimos
)
h ( + ity
h ity
e
eitz itx
e
eitz
X (t)dt =
e dFX (x) dt.
I(h) :=
it
it
h

h
Dado que la funcin integrando f (t, z) =

eity eitz itx


e
it

ity eitz

es continua, ya que lim e


t0

it

y (
z , por lo tanto |f (t, x)|
) c para todo (t, x) [h, h] R y entonces
h +
|f (t, x)| dFX (x) dt 2hc, por lo que podemos intercambiar el orden de
h

+ ( h eit(xy) eit(xz) )
integracin (Fubini), obteniendo que I(h) =
dt dFX (x).
it
h
Ahora, observando que cos(at)
es impar y sen(at)
es par para todo a R, nos queda
t
t
que
)
+ ( h
h
sent(x y)
sent(x z)
I(h) =
2
dt 2
dt dFX (x) = E (gh (X))
t
t

0
0
90

Captulo 9. Funciones caractersticas.

h sent(xz)
h
dt

2
dt.
siendo gh (x) = 2 0 sent(xy)
t
t
0
Tomaremos lmite cuando h + y veremos que podemos aplicar el
convergencia dominada.

/2
+ sen(at)
0
Utilizando el valor de la integral de Dirichlet 0
dt =
t

/2
entonces el lmite puntual de gh es

teorema de
si a > 0
si a = 0 ,
si a < 0

lim gh (x) = 21{y<x<z} + 1{x=y} + 1{x=z} .

h+


h
Observando que 0

sen(at)
dt
t



|gh (x)| = 2


h
sup 0
h>0

sent
dt
t

sent(x y)
dt 2
t

def

:= M , entonces


sent(x z)
dt 4M
t

entonces por el teorema de convergencia dominada se obtiene que


(
)
lim I(h) = lim E (gh (X)) = E 21{y<X<z} + 1{X=y} + 1{X=z}
h+

h+

y como y, z son puntos de continuidad de FX entonces


lim I(h) = 2P (y < X < z) = 2 (FX (z) FX (y)) .

h+

Entonces

1
1
FX (z) FX (y) =
lim I(h) =
lim
2 h+
2 h+

eity eitz
X (t)dt.
it

Si tomamos lmite cuando y (siendo y punto de continuidad de FX ) en la


anterior igualdad, obtenemos
h ity
1
e
eitz
FX (z) =
lim lim
X (t)dt para todo z punto de continuidad de FX .
2 yh+ h
it
Para concluir, basta jar cualquier x R y tomar lmite en la anterior igualdad
cuando z x+ tomando z puntos de continuidad de FX (esto es posible debido a
que por ser FX una funcin montona, la cantidad de puntos de discontinuidad es
numerable).
Entonces nos queda
h ity
1
e
eitz
lim+ lim lim
X (t)dt para todo x R,
FX (x) =
2 zx yh+ h
it
donde el lmite en las variables y, z se hacen sobre puntos de continuidad de FX .X
(
)
Corolario 9.16. Dado un , A, P espacio de probabilidad y X, Y : R variables
aleatorias. Entonces

FX = FY

si y slo si

X = Y .

Demostracin.

Es consecuencia inmediata de la frmula de inversin.X


91

Captulo 9. Funciones caractersticas.

9.3. Caracterizacin de la convergencia en distribucin.


En el siguiente teorema, probaremos que la convergencia en distribucin es equivalente
a la convergencia puntual de las funciones caractersticas.

Teorema 9.17.
y

n, Xn : R es variable aleatoria sobre (n , An , Pn )


aleatoria sobre (, A, P ). Entonces son equivalentes:

Si para cada

X : R es variable
d
(a) Xn X.
(b) E (g (Xn )) E (g (X))
(c) Xn (t)

n+

X (t)

n+

para toda

para todo

g:RR

continua y acotada.

t R.

Demostracin.
(a) (b)

Para simplicar la escritura, le llamamos Fn a la funcin de distribucin de las Xn


y F a la funcin de distribucin de X . Tomemos g : R R continua y acotada, tal
que |g(x)| c para todo x R, entonces para cualesquiera a < b, tenemos
+

+


|E (g (Xn )) E (g (X))| =
gdFn
gdF

b
b
b
b

+






gdFn
gdFn +
gdFn
gdF +
gdF

Fijemos un > 0 arbitrario.


a

+


I3 =
gdF +
gdF



gdF



gdF := I1 +I2 +I3 .

|g| dF +

|g| dF
b

cdF = c (F (a) + 1 F (b)) .

cdF +



gdF +

Dado que c (F (a) + 1 F (b)) 0 cuando a y b +, elegimos a sucientemente pequeo y b sucientemente grande tal que c (F (a) + 1 F (b)) < .
Por conveniencia tomaremos a, b puntos de continuidad, ya que lo necesitaremos para
acotar I1 e I2 .
Acotamos de manera similar I1 y obtenemos

+
b



gdFn
gdFn c (Fn (a) + 1 Fn (b)) .
I1 =

Para los a y b obtenidos, dado que son puntos de continuidad de F , se deduce que
c (Fn (a) + 1 Fn (b)) c (F (a) + 1 F (b)) < , por lo tanto existe k N tal
n+

que c (Fn (a) + 1 Fn (b)) < 2 para todo n k. Por ahora obtenemos I1 + I3 < 3
para todo n k.
92

Captulo 9. Funciones caractersticas.


Para culminar la demostracin, probaremos que I2 < 3 para todo n sucientemente
grande.
Como g es continua en [a, b], entonces es absolutamente continua, por lo que podemos
elegir una particin de [a, b] , a = x0 < x1 < x2 < ... < xN = b tal que x1 , x2 , ..., xN 1
sean puntos de continuidad de FX y |g(x) g(xi )| < para todo x [xi , xi+1 ] para
todo i = 0, 1, 2, ..., N 1.

b
N 1 (
b


I2 =
gdFn
gdF =

a

i=0

xi+1

g(x)dFn (x)

xi

xi+1

xi

xi+1

mni = (g(xi ) ) (Fn (xi+1 ) Fn (xi ))


def

)

g(x)dF (x) .

g(x)dFn (x)

xi

(g(xi ) + ) (Fn (xi+1 ) Fn (xi )) = Mni


xi+1
mi = (g(xi ) ) (F (xi+1 ) F (xi ))
g(x)dF (x)
def

def

xi

(g(xi ) + ) (F (xi+1 ) F (xi )) = Mi .


def

Entonces

xi+1

mni Mi

xi+1

g(x)dFn (x)

xi

g(x)dF (x) Mni mi

xi

y sumando en todos los intervalos, obtenemos que


N
1

(mni Mi )

g(x)dFn (x)
a

i=0

g(x)dF (x)
a

N
1

(Mni mi ) .

i=0

Ahora, observamos que como los xi son puntos de continuidad de FX , se obtiene que
mni mi y Mni Mi para todo i = 0, 1, 2, ..., N 1, por lo que
n+

n+

N
1

i=0

N
1

(mni Mi )

n+

N
1

(mi Mi ) =

i=0

(F (xi+1 ) F (xi )) = 2 (F (b) F (a)) 2

i=0

N
1

i=0

N
1

(Mni mi )

n+

N
1

(Mi mi ) =

i=0

(F (xi+1 ) F (xi )) = 2 (F (b) F (a)) 2.

i=0

93

Captulo 9. Funciones caractersticas.


Entonces a partir de cierto n sucientemente grande, se tiene que
b
b
3
g(x)dFn (x)
g(x)dF (x) 3
a

lo que prueba que I2 3 concluyendo as la prueba.


(b) (c)
Fijado t R, consideramos las funciones g1 (x) = sen (tx) y g2 (x) = cos(tx) ambas
son continuas y acotadas, por lo que E (g1 (Xn )) = E (sen(tXn )) E (g1 (X)) =
n+

E (sen(tX)) , y E (g2 (Xn )) = E (cos(tXn )) E (g2 (X)) = E (cos(tX)) . Entonces


n+
( itX )
( itX )
n
E e
E e
y como t es arbitrario, entonces Xn (t) X (t) para
n+

n+

todo t R.
(c) (a)
Nuevamente, por simplicidad, le llamamos Fn a la funcin de distribucin de Xn
d
y F a la funcin de distribucin de X. Para demostrar que Fn F , bastar con
d
probar que existe una subsucesin tal que Fnj F. Esto se debe a que una vez
d

probado que Fnj F, si {Fn }nN no convergiera dbilmente a F , entonces, existira


x0 punto de continuidad de F tal que Fn (x0 ) 9 F (x0 ), entonces como {Fn (x0 )}nN es
una sucesin acotada, existe una subsucesin {Fnk }kN tal que Fnk (x0 ) a para
k+

cierto a 6= F (x0 ). Entonces extraemos una subsucesin de {Fnk }kN , que converge
d

dbilmente a F , Fnkj F. Entonces, dado que x0 es punto de continuidad de F , se


{
}
tendra que Fnkj (x0 ) F (x0 ), pero Fnkj (x0 )
es subsucesin de {Fnk (x0 )}kN
j+

jN

y por lo tanto Fnkj (x0 ) a 6= F (x0 ), lo cual es absurdo.


j+
{ }
d
En lo que sigue, construiremos una subsucesin Fnj jN de {Fn }nN tal que Fnj F.
Consideramos una numeracin de los racionales, Q = {qk }kN . Para cada k , existe
una subsucesin de {Fn (qk )}nN que es convergente, llammosle gk a dicho lmite.
Mediante el procedimiento de la diagonal, podemos asegurar que existe una sucesin
de naturales n1 < n2 < ... < nj < ... tal que Fnj (qk ) g(qk ) para todo k.
j+
{
g(qk )
si x = qk
Denimos la funcin G : R R tal que G(x) =
lim g(q) si x
/ Q . En
qx qQ

primer lugar debemos ver que G est bien denida, es decir que existe el lmite
para el caso en que x es irracional. Para ello, observamos que G restringida a Q, es
montona creciente, esto se debe a que si q < q 0 entonces Fnj (q) Fnj (q 0 ) para todo
j , luego, se toma lmite en j . De aqu se deduce que G es montona creciente. Podra
no ser continua por derecha, pero veamos en lo que sigue, que Fnj (x) G(x) en
j+

todo punto de continuidad de G.


En efecto, si x es punto de continuidad de G, entonces, dado > 0, existen dos
racionales q y q 0 tales que q < x < q 0 con G(q 0 ) < G(x) < G(q) + , entonces

G(x) < G(q) = lim Fnj (q) liminf Fnj (x)


j+

94

Captulo 9. Funciones caractersticas.


limsup Fnj (x) lim Fnj (q 0 ) = G(q 0 ) < G(x) +
j+

de donde se deduce que lim Fnj (x) = G(x). En los puntos donde G no sea continua,
j+

la podemos redenir de modo que quede continua por derecha (esto es posible porque
G es creciente).
Probaremos que sta funcin G redenida de modo que quede continua por derecha,
es una funcin de distribucin, para lo cual bastar ver que tiene lmites 0 y 1 a
y + respectivamente.
Como Xnj X en todo punto, entonces, por el teorema de convergencia dominada




dado que Xnj (s) 1 para todo s, obtenemos

Xnj (s)ds

X (s)ds para todo t.

j+

Por otro lado, observamos que


)
t
t ( +

Fubini
isu
X (s)ds =
e dF (u) ds =
0

eiut 1
iu

isu

)
ds dF (u) =

dF (u).

Adems, observando que la demostracin de que (a) (b) sigue valiendo si la convergencia dbil, es denida sobre funciones acotadas, si denimos gt : R R tal que
eiut 1
gt (u)
( = iu) , entonces, dado que para todo t, gt es continua y acotada, se tiene que
E gt (Xnj ) E (gt (X)), es decir
j+

eiut 1
iu

dFnj (u)

j+

Entonces obtuvimos
t
t (
X (s)ds =
0

+
isu

)
dG(u) para todo t.

)
t (
dF (u) ds =

eiut 1
iu

isu

)
dG (u) ds

para todo t. Luego

1
t

1
X (s)ds =
t

eiut 1
iu

)
dG(u)

+
y tomando lmite cuando t 0 se obtiene que 1 = (0) = dG(u) = G (+)
G () y como adems G es creciente y acotada entre 0 y 1, entonces necesariamente G (+) = 1 y G () = 0. Se concluye entonces que G es una funcin de
distribucin.
d
Ahora, como tenemos que Fnj G, sabemos que existe un espacio de probabilidad
y en l una variable aleatoria Y tal que G = FY . Como (a) implica (c), se deduce que
95

Captulo 9. Funciones caractersticas.

Xn (t)

n+

Y (t) para todo t, pero por hiptesis Xn (t)

n+

X (t) para todo t,

por lo tanto X = Y , lo cual implica que FX = FY , es decir F = G.


d
Queda probado hasta ahora que existe una subsucesin de {Fn }nN tal que Fnj F.
d

Para concluir la prueba debemos ver que Fn F. Ahora, si {Fn }nN no convergiera
en distribucin
{ } a F , entonces existira a R punto de continuidad de{ F y una
} subsucesin Fnj jN tal que Fnj (a) 9 F (a). Podemos suponer que Fnj (a) jN es
j+

convergente ya que de lo contrario como es una sucesin acotada en R, admiitira una


subsucesin convergente y trabajaramos con dicha subsucesin si fuera necesario.
Suponemos entonces que lim Fnj (a) = b 6= F (a). Por lo recin probado, existe una
j+
{ }
subsucesin de Fnj jN que converge en distribucin a cierta funcin de distribucin G. Observamos adems que debe ser G = F ya que por hiptesis, las funciones
caractersticas asociadas a esta subsucesin convergen a la funcin caracterstica asociada a F .
Entonces como a es punto de continuidad de F, esta{ subsucesin
evaluada en a,
}
debera converger a F (a), pero por ser subsucesin de Fnj (a) jN converge a b. X

9.4. Teorema Central del Lmite.


El teorema central del lmite es un equivalente en importancia a la ley de los grandes
nmeros en lo que respecta al lmite en distribucin de la sucesin X n .

Teorema 9.18. Si {Xn }n1 es una sucesin de v.a.i.i.d con distribucin FX , X L2 ,


E (X) = , V (X) = 2 .

Demostracin.

Entonces

)
(
n Xn d
N (0, 1) .

Suponemos en un primer caso que = 0 y = 1.


2
Recordando que la funcin caracterstica de N (0, 1) es (t) = et /2 para todo
t R, y usando el teorema que caracteriza la convergencia en distribucin mediante
la convergencia de las funciones caractersticas para todo t, bastar probar que

nX n (t) et

2 /2

n+

t R.

Usando que aX (t) = X (at) y luego que las Xi son independientes e idnticamente
distribudas, se obtiene

nX n

(t) = X1 +X2+...+Xn
n

n
( ) [ ( )]n
( )
Xi t/ n = X t/ n
.
(t) = X1 +X2 +...+Xn t/ n =
i=1

Ahora si tenemos en cuenta que admite dos derivadas continuas (ya que X L2 )
desarrollamos por Taylor alrededor de cero y obtenemos

X (t) = X (0) +

0X

00X (ct ) t2
(0) t +
donde |ct | |t|
2
96

Captulo 9. Funciones caractersticas.


Pero X (0) = 1, 0X (0) = iE (X) = 0, 00X (0) = E (X 2 ) = 1, entonces queda

[ (
)]n [
]n
00
00
X (ct,n ) t2
n
ln
1+
t

(c
)
t,n 2
2n
nXn (t) = X
= 1+ X
t
=e
.
2n
n

Ahora, teniendo en cuenta que 00X es continua y que |ct,n | |t| / n, se deduce que
00X (ct,n ) 00X (0) = 1.
n+

Entonces

lim nXn (t) = lim e

n+

00 (c
)
n ln 1+ X 2nt,n t2

n+

= lim en

00
X (ct,n ) t2
2n

n+

= et

2 /2

lo que concluye la prueba en el caso = 0 y = 1.


El caso general se deduce deniendo las variables Yn := Xn . Entonces {Yn }n1 es
una sucesin de v.a.i.i.d con distribucin FY , Y L2 , E (Y ) = 0, V (Y ) = 1. Entonces

d
se tiene que nYn = n X n N (0, 1) lo que concluye la prueba. X

Observacin 9.19. Si X1 , X2 , ... son variables i.i.d en L2 con esperanza y varianza


2,

el teorema central del lmite nos dice que

lim

n+

Entonces, si

)
n(
Xn x

)
= (x) .

es sucientemente grande, podemos realizar la siguiente aproximacin

)
aprox

P
= P X n + x ' (x)
n
(
)
n

luego, si le llamamos t = + x, entonces FX n (t) '


(t

)
que es la funcin

n
)
n(
Xn x

de distribucin de una variable

N (, 2 /n) ,

grande, entonces podemos aproximar la distribucin de

Observacin 9.20.

n es sucientemente
X n por N (, 2 /n) .

por lo tanto si

n es suX1 + X2 + ... + Xn por

A partir de la observacin anterior deducimos que, si

cientemente grande, podemos aproximar la distribucin de


2

N (n, n ) .

Ejemplo 9.21. Si X Bin(n, p) y n es sucientemente grande, entonces X es aproximadamente N (np, np(1 p)) ya que podemos escribir X como X = X1 +X2 +...+Xn
donde X1 , X2 , ..., Xn son i.i.d Ber(p) .

Ejemplo 9.22.

Si tiramos 100 veces una moneda, calcularemos de manera aproximada mediante le empleo del teormea central del lmite la probabilidad de obtener
entre 40 y 60 caras.
Para el clculo, denimos X = antidad de caras en los 100 lanzamientos", entonces
X Bin(n = 100, p = 1/2). Deseamos hallar P (40 X 60) . Dado que np = 50 y
np(1 p) = 25, tenemos que la distribucin
X es) aproximadamente N (50; 25) y
( 6050 ) de( 4050

= 0, 954 50. El valor exacto en


por lo tanto P (40 X 60) =
5
5
este caso es 0,9648.
97

Captulo 9. Funciones caractersticas.


Como
podemos
volver a calcular n, de forma aproximada, tal que

( aplicacin,
)
P X n p 0, 01 0, 95 para el caso en que X1 , X2 , ..., Xn son i.i.d Ber(p). Esto
ya fue resuelto como aplicacin de la desigualdad de Chebyshev, ahora podremos
dar otra solucin, aproximada, mediante el empleo del teorema central del lmite.
Aproximando la distribucin de X n por N (p, p(1 p)/n) obtenemos

(
)
(
)
P X n p 0, 01 = P p 0, 01 X n p + 0, 01
=

(
(
)
)
)
0, 01 n
0, 01 n
0, 01 n


= 2
1
p(1 p)
p(1 p)
p(1 p)

y usando que p(1 p) 1/4 obtenemos


(
)
(
)
0, 01 n
1 2 0, 02 n 1
2
p(1 p)

por lo que bastar con hallar n tal que 2 (0, 02 n) 1 0, 95 lo cual se cumple si
( )2

1,96
y slo si 0, 02 n 1 (0, 975) = 1, 96, es decir que basta con tomar n 0,02
=
9604.

Observacin 9.23.
un valor de

El hecho de que aplicando el teorema central del lmite, resulte

(aunque aproximado) notoriamente ms pequeo que el obtenido por

aplicacin de la desigualdad de Chebyshev, se debe a que como ya fue dicho en su


momento, la desigualdad de Chebysehv es una desigualdad universal, aplicable a toda
2
variable aleatoria en L y por lo tanto es natural esperar que en ciertas situaciones
nos de acotaciones groseras de la probabilidad buscada.

98

Captulo 10
Estimacin puntual.
10.1. Estadsticos y estimadores.
Cuando X1 , X2 , ..., Xn son variables i.i.d con distribucin como la de cierta X , se dice
que X1 , X2 , ..., Xn es una M.A.S (muestra aleatoria simple) de tamao n de X .
En estadstica aplicada, es frecuente encontrarse con nmeros x1 , x2 , ..., xn producto
de un muestreo sobre alguna caracterstica de cierta poblacin, por ejemplo, ingreso
de los hogares de cierta ciudad, dimetro de las clulas de cierta poblacin observada
al microscopio, altura o peso de ciertos animales, etc. En todas estas situaciones,
la variable a estudiar, no se conoce su distribucin, por lo que interesa manipular
la informacin que nos brinda la muestra x1 , x2 , ..., xn para poder estimar diversos
parmetros de inters.

Denicin 10.1.

Si X1 , X2 , ..., Xn es una M.A.S de cierta X para un determinado


n, se le llama estadstico a la funcin T (X1 , X2 , ..., Xn ) : Rk para cierto k, donde T : Rn Rk es una funcin boreliana que no depende de parmetros desconocidos.
Se pide que la funcin T sea boreliana para que T (X1 , X2 , ..., Xn ) sea variable aleatoria, y se pide que no dependa de parmetros desconocidos porque dada una muestra
realizada (u observada) x1 , x2 , ..., xn , el valor T (x1 , x2 , ..., xn ) pueda ser utilizado para
estimar parmetros desconocidos por ejemplo.

Denicin 10.2. Si X1 , X2 , ..., Xn es una M.A.S de cierta X con distribucin FX (x, )


con Rk . Al conjunto se le denomina espacio paramtrico.

Cuando tenemos X1 , X2 , ..., Xn una M.A.S de cierta X con distribucin FX (x, ) con
Rk , es decir que la distribucin de la variable de estudio (X ) es completamente conocida salvo por un parmetro , se dice que estamos en estadstica paramtrica,
mientras que si la distribucin de X es totalmente desconocida, estamos en presencia
de estadstica no paramtrica.

99

Captulo 10.

Estimacin puntual.

Denicin 10.3. Estimador.

Si X1 , X2 , ..., Xn es una M.A.S de cierta X con distribucin FX (x, ) con Rk ,


se dice que b : es un estimador de si y slo si b (X1 , X2 , ..., Xn ) es un
estadstico que es usado para estimar el verdadero valor de .
En general para abreviar, le llamaremos b a b (X1 , X2 , ..., Xn ) .
Observamos que b depende de n y es importante tener un estimador que cumpla
propiedades de convergencia al verdadero valor de cuando el tamao de muestra
n +.

Denicin 10.4. Estimador consistente.

Si X1 , X2 , ..., Xn es una M.A.S de cierta X con distribucin FX (x, ) con Rk ,


se dice que b = b (X1 , X2 , ..., Xn ) es un estimador dbilmente consistente si y slo si
P
c.s.
b y se dice que es fuertemente consistente si y slo si b .

Denicin 10.5. Estimador insesgado.

k
Si X1 , X2 , ..., Xn es una M.A.S de cierta X con distribucin FX (x, ) con
(
)R ,
se dice que b = b (X1 , X2 , ..., Xn ) es un estimador insesgado si y slo si E b = y
( )
asintticamente insesgado si y slo si lim E b = .
n+

Si X1 , X2 , ..., Xn es una M.A.S de cierta X L1 , por la ley fuerte de los grandes


c.s.
b = X n es un estimador
nmeros, sabemos que X n = E (X) lo cual nos dice
( que
)
fuertemente consistente de , adems, sabemos que E X n = lo que prueba que el
estimador es adems insesgado.
Por otro lado, si X L2 , el estimador natural de 2 es la varianza muestral, es decir
n (
)2

c.s.
Sn2 = n1
Xi X n , se deja como ejercicio vericar que Sn2 2 , lo cual prueba
i=1

que b2 = Sn2 es un estimador fuertemente consistente de 2 , adems se deja como


ejercicio tambin vericar que E (Sn2 ) = n1
2 lo que prueba que es asintticamente
n
insesgado.
n (
)2

n
1
Xi X n es un estimador fuertemente consistente
Se observa que n1
Sn2 = n1
y adems insesgado de 2 .

i=1

10.2. Mtodos de estimacin.


Ya vimos que podemos estimar de manera fuertemente consistente e insesgada, a la
esperanza y la varianza de una variable aletoria. Ahora cmo se estima otro tipo de
parmetros? Sera importante tener mtodos que nos permitan obtener estimadores,
por lo que veremos los dos ms populares, el mtodo de los momentos y el de mxima
verosimilitud.

100

Captulo 10.
10.2.1.

Estimacin puntual.

Mtodo de los momentos.

Si X1 , X2 , ..., Xn es una M.A.S de cierta X Lk con distribucin FX (x, ) con


Rk entonces se plantean las siguientes k ecuaciones
E (X) = X n

1
2

Xi2
E (X ) = n
i=1
Observamos que las k igualdades se pueden ver como un
..

n
( )

E X k = n1
Xik
i=1

sistema de k ecuaciones con k incgnitas, donde las incgnitas son 1 , 2 , ..., k que
aparecen del lado izquierdo en las igualdades, ya que al depender la distribucin
( de)
X de los parmetros 1 , 2 , ..., k , entonces sus momentos E (X) , E (X 2 ) , ..., E X k
quedan en funcin de 1 , 2 , ..., k .
Si estas k ecuaciones con k incgnitas, admitieran una solucin, b1 , b2 , ..., bk , esta
n
n

Xi2 , ..., n1
Xik quedando as los llamados
solucin quedar en funcin de X n , n1
i=1

i=1

estimadores por momentos de 1 , 2 , ..., k .


Se observa que ste mtodo est basado en la ley de los grandes nmeros ya que la
n

misma nos arma que X n converge casi seguramente a E (X) , n1


Xi2 converge casi
seguramente a E (X

) ... n1

i=1

Xik

)
converge casi seguramente a E X k por lo que pa-

i=1

rece natural pensar que si este sistema admite solucin, la misma se debera esperar
que sea fuertemente consistente.

Ejemplo 10.6.

Si X1 , X2 , ..., Xn es una M.A.S de cierta X U (0, b) entonces para


hallar el estimador por el mtodo de los momentos, dado que hay un slo parmetro
a estimar, planteamos una ecuacin con una incgnita: E (X) = X n , la misma nos
queda 2b = X n por lo que el estimador por momentos de b nos queda bb = 2X n .
Como se observa en este caso, el estimador queda fuertemente consistente ya que
c.s.

X n E (X) =

b
c.s. b
por lo que 2X n 2 = b.
2
2

Adems es insegado ya que


( )
(
)
( )
b
E bb = E 2X n = 2E X n = 2 = b.
2
Bajo ciertas hiptesis de regularidad, se puede probar que el estimador de un parmetro = (1 , 2 , ..., k ) por momentos, en caso de existir es fuertemente consistente
y asintticamente insesgado.
10.2.2.

Mtodo de mxima verosimilitud.

Si X1 , X2 , ..., Xn es una M.A.S de cierta X discreta con funcin de probabilidad


pX (x, ) ( o absolutamente continua con funcin de densidad fX (x, )) se dene la
101

Captulo 10.

Estimacin puntual.

funcin de verosimilitud de la muestra a la funcin L (x1 , x2 , ..., xn , ) =


o L (x1 , x2 , ..., xn , ) =

pX (xi , )

i=1

fX (xi , ) segn el caso.

i=1

El mtodo de mxima verosimilitud, consiste en resolver el siguiente problema de


optimizacin:
dada X1 , X2 , ..., Xn M.A.S de cierta X con distribucin FX (x, ) con Rk el
estimador mximo verosmil de es la solucin al problema (si existe)

b = arg max L (X1 , X2 , ..., Xn , ) .

Es decir que para hallar el estimador mximo verosmil de , se debe maximizar la


funcin L (X1 , X2 , ..., Xn , ) como funcin de (generalmente se la llama L () para
recordar que miramos la funcin de veosimilitud como funcin de ) y luego el valor
de donde se obtiene dicho mximo (que depende de la muestra) es el estimador
buscado.
Dado que la funcin logaritmo es creciente, el valor de donde se maximiza L ()
es el mismo que el valor de donde se maximiza h () =log L () (el logaritmo es
neperiano) muchas veces es ms sencillo maximizar h.
Supongamos que luego de realizado el muestreo, obtuvimos la muestra (x1 , x2 , ..., xn )
es decir que (x1 , x2 , ..., xn ) es la realizacin de una M.A.S (X1 , X2 , ..., Xn ) . Supongamos adems que X es discreta con funcin de probabilidad pX (x, ), entonces

L (x1 , x2 , ..., xn , ) =

pX (xi , ) =

i=1

i.d.

P (X = xi , ) =

i=1

indep

P (Xi = xi , ) =

i=1

P (X1 = x1 , X2 = x2 , ..., Xn = xn , ) = P ((X1 , X2 , ..., Xn ) = (x1 , x2 , ..., xn )) .


Es decir que la funcin de verosimilitud es la probabilidad (en funcin de ) de que
la muestra (X1 , X2 , ..., Xn ) sea (x1 , x2 , ..., xn ), que es la muestra realmente observada.
Entonces, dado que es intuitivo, aunque no necesariamente cierto, pensar de que si
se observ la muestra (x1 , x2 , ..., xn ) , entonces la misma, debera tener una probabilidad alta de ocurrir, por lo tanto como mtodo se busca aquel valor de donde se
maximice esta probabilidad.
Podra no existir el estimador mximo verosmil en algunas situaciones, pero vale la
pena observar que si bien la funcin L podra no tener mximo, al menos en el caso
discreto es acotada superiormente, por lo que admite supremo.

Ejemplo 10.7.

Si X1 , X2 , ..., Xn M.A.S de X Ber(p), hallaremos el estimador mximo verosmil de p.

h(p) =

i=1

log pX (xi , p) =

i=1

log p (1 p)
xi

1xi

[xi logp + (1 xi ) log (1 p)] =

i=1

102

Captulo 10.
n

(
n

xi log p +

i=1

Luego,
0

h (p) =

Estimacin puntual.

)
xi log (1 p) .

i=1
n

i=1

1
xi
p

Entonces h0 (p) = 0 si y slo si p =

1
n

(
n

i=1

)
xi

1
.
1p

xi = x. Dado que para cada i se tiene que

i=1

xi {0, 1}, entonces X n {0, 1} para todo n, entonces analizando el signo de h0


vemos que h se maximiza para pb = X n .

Ejemplo 10.8.

Si X1 , X2 , ..., Xn M.A.S de X U (0, b), hallaremos el estimador


mximo verosmil de b.

L (b) =

i=1

{
n {

1/bn si 0 < x1 , x2 , ..., xn < b


1/b si 0 < xi < b
.
=
fX (xi , ) =
0
si
no
0 si
no
i=1

Dado que L es una funcin decreciente cuando b > x1 , x2 , ..., xn (es decir cuando
b >max{x1 , x2 , ..., xn }) y 0 cuando no, se deduce que la funcin L se optimiza para
bb =max {X1 , X2 , ..., Xn } .
Bajo ciertas condiciones de regularidad, es posible demostrar que existe el estimador mximo verosmil y es fuertemente consistente, tambin es posible demostrar la
convergencia en distribucin a una variable normal.

103

Captulo 11
Intervalos de conanza.
11.1. Denicin.
Dada una X1 , X2 , ..., Xn muestra aleatoria simple de X cuya funcin de distribucin
es FX (x, ) siendo R, en lugar de estimar el parmetro dando un valor
numrico a partir de los datos de la muestra, daremos una regin (en general un
intervalo) con probabilidad tan alta como se desee de que el verdadero parmetro
pertenezca a dicha regin (intervalo).

Denicin 11.1.

Si X1 , X2 , ..., Xn es una muestra aleatoria simple de X cuya funcin de distribucin es FX (x, ) siendo R.
Dado (0, 1), supongamos que a (X1 , X2 , ..., Xn ) y b (X1 , X2 , ..., Xn ) son dos estadsticos tales que P ( [a (X1 , X2 , ..., Xn ) ; b (X1 , X2 , ..., Xn )]) = 1 , diremos
entonces que I = [a (X1 , X2 , ..., Xn ) ; b (X1 , X2 , ..., Xn )] es un intervalo de conanza
de nivel 1 para el parmetro .

Observacin 11.2. Observamos que en la prctica el valor de (o equivalentemente


el nivel de conanza

1 )

est determinado por el investigador, por lo que es un

valor jo.

Observacin 11.3.

X1 , X2 , ..., Xn
es realizada en los nmeros x1 , x2 , ..., xn , el intervalo I = [a(x1 , x2 , ..., xn ); b(x1 , x2 , ..., xn )]
no es aleatorio y por lo tanto, la probabilidad de que I es 0 o 1 segn el parmetro
I o
/ I , entonces vale observar que el intervalo
I = [a(X1 , X2 , ..., Xn ); b(X1 , X2 , ..., Xn )] es aleatorio, mientras que el intervalo I =
[a(x1 , x2 , ..., xn ); b(x1 , x2 , ..., xn )] es jo, para distinguir una situacin de otra, se le
Observemos tambin que una vez que la muestra

suele llamar a ste ltimo, intervalo de conanza mientras que al otro se le suele
denominar intervalo aleatorio. En lo que sigue, seremos informales en la escritura y
les llamaremos a ambos intervalos de conanza, a pesar de que debemos tener clara
su diferencia.

104

Captulo 11.

Intervalos de conanza.

11.2. Construccin de intervalos de conanza en algunos casos particulares.


En esta seccin, construiremos intervalos de conanza en algunos casos particulares.
Si X1 , X2 , ..., Xn es una muestra de X N (, 2 ). Supongamos que conocemos 2 .
Construiremos un intervalo de conanza para el parmetro desconocido .
c.s.
Sabemos por la ley fuerte de los grandes
nmeros que
] X n , por lo que es razonable
[
formar un intervalo de la forma X n k; X n + k siempre y cuando podamos hallar
(
[
])
k de modo que P X n k; X n + k = 1 cumpliendo adems que k no
dependa de parmetros desconocidos.
Recordamos que X n N (, 2 /n) por ser combinacin lineal de normales. Entonces

(
[
])
(
)
P X n k; X n + k = P k X n + k =
(
)
(
)
+k
k

=
/ n
/ n
( )
( )
( )
k n
k n
k n

= 2
1 = 1 ,

( )

luego k n = 1 /2 por lo que k n = 1 (1 /2) de donde obtenemos


1

k = (1/2)
. Dado que en este caso el valor de 2 se supone conocido, tenemos
n
que k no depende de parmetros desconocidos.
Si adems para cada p (0, 1) le llamamos zp = 1 (p) tendremos entonces el
intervalo de conanza para este caso como sigue
[
]
z1/2
z1/2
Xn
; Xn +
.
n
n

En el caso en que X1 , X2 , ..., Xn es una muestra aleatoria simple de X N (, 2 )


donde 2 es desconocido, si bien la igualdad calculada es vlida, carece de valor ya
z

que en este caso a (X1 , X2 , ..., Xn ) = X n 1/2


no es un estadstico (tampoco lo
n
es b) por lo que no es vlido como intevalo de conanza. Para obtener un intervalo
en estos caso introducimos dos nuevas familias de variables aleatorias.

Denicin 11.4.

Se dice que X tiene una distribucin tstudent con n grados de


libertad cuando tiene la siguiente densidad:
(
)
n+1
1
2( )
fX (x) =
n+1
n (
n 2 1 + x2 ) 2
n

Notacin: X tn .
Se observa que si X tn entonces E (X) = 0 para n > 1 (si n 1, entonces no existe
n
la esperanza) y se puede vericar que V (X) = n2
para n > 2 (si n 2, no admite
momentos de orden 2).
105

Captulo 11.

Intervalos de conanza.

Denicin 11.5.

Se dice que X tiene una distribucin 2 con n grados de libertad


cuando tiene la siguiente densidad:

fX (x) =

1
2n/2 (n/2)

xn/21 ex/2 1{x>0}

Notacin: X 2n .
Se puede vericar que si X 2n , entonces E (X) = n y V (X) = 2n.
Para obtener un intervalo de conanza para en estos casos, nos serviremos del
siguiente teorema (que no demostraremos).

Teorema 11.6. Si X1 , X2 , ..., Xn es una muestra de X N (, 2 ) entonces


T (n 1) (tstudent

con

n1

grados de libertad) siendo

Sn2 =

1
n

n (

Xi

n1(X n )
Sn
)2
X n la

i=1

varianza muestral.

Entonces, veamos que en este caso podemos determinar k , no dependiendo de parmetros desconocidos, de modo que el intervalo de conanza de nivel 1 sea de la
]
[
n1(X n )
forma X n kSn ; X n + kSn . Para abreviar, le llamamos T a la variable
.
Sn
Entonces


(
[
])
(
)
P X n kSn ; X n + kSn = P X n kSn =
)
(


n 1 X n
P
n 1k =
Sn

(
)
P (|T | k) = P k T n 1k =

FT ( n 1k) FT ( n 1k) = 2FT ( n 1k) 1


ya que por simetra
de la distribucin de Student, se tiene que FT (t) = 1 FT (t).

Entonces 2FT ( n 1k) 1 = 1 de donde obtenemos k = FT1 (1 /2) que no


depende de parmetros desconocidos. Nuevamente si le llamamos tp (n) = F 1 (p)
para p (0, 1) y F funcin de distribucin
a una variable tStudent
correspondiente
1
con n grados de libertad, tenemos que n 1k = FT (1 /2) = t1/2 (n 1) por
lo que tenemos el intervalo de conanza en la forma
]
[
Sn t1/2 (n 1)
Sn t1/2 (n 1)

Xn
; Xn +
.
n1
n1
Para completar el caso de la variable normal, construiremos en lo que sigue un intervalo de conanza para 2 . Para ello nos serviremos del siguiente teorema (que no
demostraremos).

Teorema 11.7.
2 (n 1) (2

Si

con

X1 , X2 , ..., Xn

n1

X N (, 2 ) entonces nS
2
n
(
)

2
Sn2 = n1
Xi X n la varianza

es una muestra de

grados de libertad) siendo

i=1

muestral.

106

Captulo 11.

Intervalos de conanza.

c.s.

Dado que Sn2 2 podramos nuevamente intentar buscar un intervalo en la forma


[Sn2 k; Sn2 + k] pero la idea no funciona, por lo tanto veremos si podemos encontrar
valores a y b tales que el intervalo quede en la forma [aSn2 ; bSn2 ] . Planteamos entonces la
ecuacin 1 = P ( 2 [aSn2 ; bSn2 ]) y hallaremos a y b tales que P ( 2 < aSn2 ) = /2
2
n
.
y P ( 2 > bSn2 ) = /2. Para simplicar le llamaremos 2 a la distribucin de nS
2

Entonces
(
)
( 2
)
(n)
( 2
)
2
nSn
n
2
2
P < aSn = P Sn >
=P
>
= 1 F2
= /2
a
2
a
a
por lo que

n
a

= F1
2 (/2) de donde obtenemos a =

n
F 1
2 (/2)

y nuevamente, llamndole

2p (n) = F 1 (p) siendo la funcin de distribucin asociada a una variable 2 (n) y


observando que en este caso la variable con la cual estamos distribuye 2 (n 1)
obtenemos a = 2 n(n1) . Trabajando anlogamente con la otra igualdad se obtiene
que b =
queda

/2

n
21/2 (n1)

y por lo tanto el intervalo de conanza para 2 de nivel 1 nos

]
nSn2
nSn2
;
.
2/2 (n 1) 21/2 (n 1)

En numerosas situaciones, se tiene una muestra X1 , X2 , ..., Xn de cierta X desconocida. Si el tamao de muestra es grande, y suponemos que X L2 y deseamos estimar
= E (X) mediante un intervalo de conanza, entonces podemos aplicar el teorema
central del lmite y realizar algunos clculos similares a los realizados, obtenindose
as intervalos de conanza de nivel aproximadamente iguales a 1 .
Efectivamente, debido al teorema central del lmite podemos armar que (en el caso n
sucientemente
grande)
la distribucin
de X n es aproximadamente N (, 2 /n). Por
(
[
])
lo tanto, P X n k; X n + k =
(
)
(
)
(
) TCL

+
k

=
P k Xn + k
=
/ n
/ n
( )
( )
( )
k n
k n
k n

= 2
1 = 1 ,

]
[
z
z1/2

;
X
+
es tal que
por lo que obtendramos que el intervalo I = X n 1/2
n
n
n

P ( I) = 1 . Ahora, como el intervalo depende de un parmetro desconocido


( ), no nos sirve como intervalo de conanza, pero recordando que n es grande,

podemos sustituir por un estimador consistente del mismo, por ejemplo Sn = Sn2
obtenindose de esa forma el intervalo
[
]
Sn z1/2
Sn z1/2
; Xn +
Xn
n
n

que es, ahora si, un intervalo de conanza de un nivel aproximadamente igual a 1 .


Como caso particular podemos obtener un intervalo de conanza aproximado para p
107

Captulo 11.

Intervalos de conanza.

cuando X Ber(p) en el caso en que n es grande. Efectivamente, cuando X Ber(p)

2
entonces = E (X) = p, adems, como Xi = Xi2 , entonces Sn2 = n1 ni=1 Xi2 X n =
(
)
2
X n X n = X n 1 X n , obtenindose as un intervalo de conanza para p

(
)
(
)
X n 1 X n z1/2
X n 1 X n z1/2

X n

; Xn +
n
n
cuyo nivel es aproximadamente 1 .

11.3. Resumen.
Recordemos que dado p (0, 1) usamos las siguientes notaciones para F 1 (p) : zp si
F es la funcin de distribucin de una variable N (0, 1); tp (n) si F es la distribcuin
de una variable tn (tstudent con n grados de libertad) y 2p cuando F es la fucnin
de distribucin de una variable 2n dada X1 , X2 , ..., Xn muestra de X , hemos obtenido
intervalos de conanza para los siguientes casos.
1. Intervalo de conanza para = E (X) al nivel 1 .
a)

Si X N (, 2 ) con 2 conocido,
]
[
z1/2
z1/2
; Xn +
.
Xn
n
n

b)

Si X N (, 2 ) con 2 desconocido,
[
]
Sn t1/2 (n 1)
Sn t1/2 (n 1)

Xn
; Xn +
.
n1
n1

c)

Si X L2 y n es sucientemente grande, un intervalo aproximado es


[
]
Sn z1/2
Sn z1/2
Xn
; Xn +
.
n
n

2. Intervalo de conanza para p al nivel 1 cuando X Ber(p) y n es sucientemente grande, un intervalo aproximado es

(
)
(
)
X n 1 X n z1/2
X n 1 X n z1/2
X n
.

; Xn +
n
n

3. Intervalo de conanza para 2 en el caso en que X N (, 2 ) .

]
nSn2
nSn2
;
.
2/2 (n 1) 21/2 (n 1)
108

Vous aimerez peut-être aussi