Cabaña - Probabilidad y Aplicaciones Estadisticas

Probabilidad y aplicaciones estadsticas.
Enrique M. Caba na
1
PARTE I: Introducci
on a la probabilidad.
1
Universidad de la Rep ublica, Departamento de Metodos Cuantitativos de
la Facultad de Ciencias Econ omicas y de Administraci on, y Centro de Matem atica
de la Facultad de Ciencias.
Contenido
1 La probabilidad, un modelo matematico para la incertidum-
bre. 1
1.1 Sucesos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Probabilidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.1 La ley del azar. . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.2 Un juego de azar. . . . . . . . . . . . . . . . . . . . . . . 6
1.2.3 Denici on de probabilidad. . . . . . . . . . . . . . . . . . 8
1.3 La denici on cl asica de la probabilidad. . . . . . . . . . . . . . . 10
2 Probabilidades condicionales. 15
2.1 Interpretaci on intuitiva. . . . . . . . . . . . . . . . . . . . . . . 15
2.2 Denici on de la probabilidad condicional. . . . . . . . . . . . . . 17
2.3 Independencia. . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.4 Una interpretaci on objetiva para la probabilidad condicional. . . 20
2.5 El Teorema de Bayes. . . . . . . . . . . . . . . . . . . . . . . . . 21
2.6 Dos ejemplos de aplicaci on estadstica del Teorema de Bayes. . . 22
3 Variables aleatorias. 25
3.1 Introducci on. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2 Dos teoremas de existencia. . . . . . . . . . . . . . . . . . . . . 28
3.3 Variables discretas y absolutamente continuas. . . . . . . . . . . 30
3.4 Algunos ejemplos de variables aleatorias. . . . . . . . . . . . . . 33
3.4.1 Variables asociadas a ensayos repetidos. . . . . . . . . . 33
3.4.2 Dos distribuciones absolutamente continuas. . . . . . . . 38
3.5 Construcci on explcita de variables aleatorias en R, con funci on
de distribuci on F dada, a partir de U Uni(0, 1). . . . . . . . . 40
3.6 Soluci on de la ecuaci on funcional g(s+t) = g(s) +g(t), s, t > 0.
Probabilidad e informaci on. . . . . . . . . . . . . . . . . . . . . 41
3.6.1 Las soluciones de la ecuaci on. . . . . . . . . . . . . . . . 41
iii
iv CONTENIDO
3.6.2 La informaci on. . . . . . . . . . . . . . . . . . . . . . . . 42
4

Tres aplicaciones vinculadas con la distribuci on binomial. 47
4.1 Un modelo probabilstico: El paseo al azar simple. . . . . . . . . 47
4.1.1 Paseo al azar simetrico simple. Principio de Reflexi on. . 49
4.1.2 El paseo con dos barreras. Principio de Reflexi on M ultiple. 51
4.2 La f ormula de Stirling y el lmite de las probabilidades binomiales. 53
4.3 Una aplicaci on estadstica: inferencia sobre el par ametro en un
modelo de Bernoulli. . . . . . . . . . . . . . . . . . . . . . . . . 57
4.3.1 Introducci on. . . . . . . . . . . . . . . . . . . . . . . . . 57
4.3.2 Un primer esquema de soluci on. . . . . . . . . . . . . . . 58
4.3.3 Algunas generalidades sobre la prueba de hip otesis. . . . 59
4.3.4 Estimaci on de p. . . . . . . . . . . . . . . . . . . . . . . 62
5

Cadenas de Markov 65
5.1 Algunos ejemplos. . . . . . . . . . . . . . . . . . . . . . . . . . . 65
5.2 Cadenas nitas homogeneas en el tiempo . . . . . . . . . . . . . 66
5.3 Cadenas nitas con estados absorbentes. . . . . . . . . . . . . . 68
5.3.1 Partici on en bloques de la matriz de probabilidades de
transici on . . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.4 Teorema de convergencia de probabilidades en una cadena de
Markov nita. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
6 Valor esperado de una variable aleatoria. 77
6.1 Introducci on. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
6.2 Una denici on descriptiva de la esperanza. . . . . . . . . . . . . 78
6.3 Denici on constructiva de la esperanza. . . . . . . . . . . . . . . 81
6.4 C alculo de esperanzas. . . . . . . . . . . . . . . . . . . . . . . . 83
6.5 Algunas propiedades de las esperanzas. . . . . . . . . . . . . . . 88
6.5.1 Variables constantes con probabilidad 1. . . . . . . . . . 88
6.5.2 Desigualdad de Jensen. . . . . . . . . . . . . . . . . . . . 89
6.5.3 C alculo de lmites . . . . . . . . . . . . . . . . . . . . . . 90
6.5.4 Teorema de Convergencia Dominada de Lebesgue. . . . . 90
6.6 Momentos, variancia. . . . . . . . . . . . . . . . . . . . . . . . . 91
6.7 Medidas de posici on y medidas de dispersi on de una distribuci on
de probabilidades. . . . . . . . . . . . . . . . . . . . . . . . . . . 92
6.8 Esperanza del producto de variables independientes. . . . . . . . 93
6.8.1 Independencia de variables aleatorias. . . . . . . . . . . . 93
6.9 Funciones generatrices. . . . . . . . . . . . . . . . . . . . . . . . 95
CONTENIDO v
6.10 Ejercicios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
6.11 * Una aplicaci on: C alculo de probabilidades en el paseo al azar
con barreras. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
6.11.1 Paseo al azar con dos barreras absorbentes. . . . . . . . . 97
6.11.2 Paseo al azar con una barrera . . . . . . . . . . . . . . . 100
7 Medidas, integrales, densidades. 103
7.1 Espacios de medida. . . . . . . . . . . . . . . . . . . . . . . . . 103
7.2 Probabilidades y medidas completas. . . . . . . . . . . . . . . . 104
7.3 Integral respecto de una medida. . . . . . . . . . . . . . . . . . 105
7.4 Dos ejemplos: Integral de Lebesgue e integral respecto de una
medida discreta. . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
7.4.1 Integral respecto de la medida de Lebesgue . . . . . . . . 107
7.4.2 Integral respecto de la medida
S
del Ejemplo 7.1.1. . . . 108
7.5 La esperanza como caso particular de la integral. . . . . . . . . 108
7.6 Densidad de una medida respecto de otra medida. . . . . . . . . 109
8 Distribuciones conjuntas, independencia. 111
8.1 Distribuci on conjunta de una pareja de variables aleatorias. . . . 111
8.2 La integral de Lebesgue en R
2
. . . . . . . . . . . . . . . . . . . 114
8.3 C alculo de esperanzas. . . . . . . . . . . . . . . . . . . . . . . . 115
8.3.1 Momentos asociados a una pareja de variables. . . . . . . 115
8.4 Distribuci on de variables aleatorias independientes. Producto
de probabilidades. . . . . . . . . . . . . . . . . . . . . . . . . . . 116
8.4.1 Independencia de variables aleatorias. . . . . . . . . . . . 116
8.4.2 Producto de probabilidades. . . . . . . . . . . . . . . . . 117
8.4.3 La medida de Lebesgue en R
2
, como medida producto. . 117
8.5 Ejercicios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
8.6 Una aplicaci on de la esperanza. Otra soluci on al problema de la
aguja de Buon. . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
8.7 Distribuci on de la suma de variables independientes. . . . . . . . 121
8.8 Un ejemplo: Suma de variables geometricas, distribuci on bino-
mial negativa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
8.9 Otro ejemplo: Suma de variables exponenciales. Distribuci on
Gamma y distribuci on de Poisson. . . . . . . . . . . . . . . . . . 123
8.10 Ensayos repetidos, cuando hay m as de dos resultados posibles:
la distribuci on multinomial . . . . . . . . . . . . . . . . . . . . . 125
8.11 Los estadsticos de orden de una muestra. . . . . . . . . . . . . 127
8.11.1 Denici on de los estadsticos de orden. . . . . . . . . . . 127
vi CONTENIDO
8.11.2 Distribuci on de los estadsticos de orden. . . . . . . . . . 128
8.11.3 Otra derivaci on de la densidad del h-esimo estadstico
de orden. . . . . . . . . . . . . . . . . . . . . . . . . . . 129
9 Distribuciones y esperanzas condicionales. 131
9.1 Introducci on. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
9.2 Una interpretaci on intuitiva para la esperanza condicional. . . . 132
9.3 Denici on de la esperanza condicional. . . . . . . . . . . . . . . 133
9.4 La distribuci on condicional. . . . . . . . . . . . . . . . . . . . . 137
9.5 Esperanzas condicionales iteradas. . . . . . . . . . . . . . . . . . 139
9.6 La esperanza de una funci on de una pareja de variables inde-
pendientes, y el Teorema de Fubini. . . . . . . . . . . . . . . . . 142
10

Convergencia de probabilidades en una cadena de Markov. 145
10.1 Cadenas con una cantidad numerable de estados. . . . . . . . . 145
10.2 Teorema de convergencia de probabilidades en una cadena de
Markov numerable. . . . . . . . . . . . . . . . . . . . . . . . . . 146
10.2.1 Signicado de las hip otesis del enunciado. . . . . . . . . 147
10.2.2

Demostraci on del Teorema 10.2.1. . . . . . . . . . . . . 148
10.3 Ejercicios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
10.4 Un ejemplo: Obtenci on de las probabilidades de absorci on, y de
las esperanzas de los tiempos de absorci on a partir del Teorema
de convergencia de probabilidades. . . . . . . . . . . . . . . . . 154
10.5 Uso de los metodos matriciales de 5.3 para el c alculo de los
tiempos esperados de absorci on. . . . . . . . . . . . . . . . . . . 155
11 Convergencia de variables aleatorias. Leyes de Grandes N u-
meros. 157
11.1 Desigualdades de Markov y de Chebyshev. . . . . . . . . . . . . 157
11.2 Distancias entre variables aleatorias basadas en momentos. . . . 158
11.2.1 Distancia cuadr atica. . . . . . . . . . . . . . . . . . . . . 158
11.3 Convergencias cuadr atica y en probabilidad. . . . . . . . . . . . 160
11.3.1 Convergencia cuadr atica. . . . . . . . . . . . . . . . . . . 160
11.3.2 Convergencia en probabilidad. . . . . . . . . . . . . . . . 160
11.3.3 Criterio de convergencia en probabilidad basado en la
convergencia cuadr atica. . . . . . . . . . . . . . . . . . . 162
11.4 Convergencia casi segura. . . . . . . . . . . . . . . . . . . . . . . 162
11.5 Completitud de L
2
(, P). . . . . . . . . . . . . . . . . . . . . . 164
11.6 Ejercicios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
CONTENIDO vii
11.7 Una aplicaci on a la estadstica. Coherencia de una sucesi on de
estimadores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
11.7.1 Estimaci on coherente de las cuantilas de F a partir de
una muestra aleatoria simple. . . . . . . . . . . . . . . . 167
11.8 Una aplicaci on al an alisis: Teorema de Weierstrass de aproxi-
maci on de funciones continuas por polinomios. . . . . . . . . . . 168
11.9 Leyes de Grandes N umeros. . . . . . . . . . . . . . . . . . . . . 169
11.9.1 Ley Debil de los Grandes N umeros. . . . . . . . . . . . . 169
11.9.2 Ley Fuerte de los Grandes N umeros. . . . . . . . . . . . 170
11.10 Distribuci on emprica de una muestra. Ley de Glivenko-Can-
telli. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
11.11Reinterpretaci on de la Ley de Glivenko - Cantelli como una Ley
de los Grandes N umeros funcional. . . . . . . . . . . . . . . . . 174
11.12Algunas aplicaciones estadsticas de la convergencia de F
n
a F. . 175
12 Convergencia en Ley. Distribuci on normal. Teorema del L-
mite Central. 177
12.1 Convergencia en ley o en distribuci on, para variables con valores
en R. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
12.1.1 Un recproco del Teorema 12.1.1. . . . . . . . . . . . . . 179
12.1.2 Una caracterizaci on de la convergencia en distribuci on. . 180
12.2 Distribuci on normal en R. . . . . . . . . . . . . . . . . . . . . . 183
12.3 Teorema del Lmite Central para variables equidistribuidas. . . . 186
12.4 Teorema del Lmite Central para arreglos triangulares de varia-
bles independientes. . . . . . . . . . . . . . . . . . . . . . . . . . 190
12.5 Aplicaci on: Un ejemplo de convergencia en distribuci on asocia-
do a los estadsticos de orden. . . . . . . . . . . . . . . . . . . . 190
13 Complementos y demostraciones omitidas en captulos ante-
riores. 195
13.1 Teorema de Extensi on de Probabilidades de A. N. Kolmogorov. 195
13.1.1 Demostraci on de la existencia. . . . . . . . . . . . . . . . 195
13.1.2 Demostraci on de la unicidad. . . . . . . . . . . . . . . . 198
13.2 Denici on de una probabilidad en R a partir de su funci on de
distribuci on. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199
13.3 Algunas propiedades de las esperanzas y de las integrales. . . . . 201
13.3.1 Monotona, linealidad y -aditividad de esperanzas e in-
tegrales. . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
13.3.2 C alculo de lmites. . . . . . . . . . . . . . . . . . . . . . 203
viii CONTENIDO
13.4 Cambio de variables en una integral. . . . . . . . . . . . . . . . 203
13.5 Producto de probabilidades, Teorema de Fubini. . . . . . . . . . 204
13.6 Integral de Lebesgue y densidades en R
d
. . . . . . . . . . . . . . 206
13.7 Una distancia entre probabilidades. . . . . . . . . . . . . . . . . 206
13.8 Normas L
p
en espacios de clases de equivalencia de funciones
medibles. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
13.9 Densidad de una medida absolutamente continua. . . . . . . . . 210
13.9.1 Demostraci on del Teorema de Radon-Nikodym. . . . . . 211
13.10Inversi on de la funci on caracterstica de una distribuci on de pro-
babilidades en R. . . . . . . . . . . . . . . . . . . . . . . . . . . 212
13.11Inversi on de la funci on caracterstica de una distribuci on de pro-
babilidades en R
d
. . . . . . . . . . . . . . . . . . . . . . . . . . 215
13.12Demostraci on de la Ley Fuerte de los Grandes N umeros de Kol-
mogorov. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216
13.13Demostraci on del T.L.C. de Lindeberg, para arreglos triangulares.219
Indice de Figuras
2.1 Ilustraci on para el Ejemplo 2.6.1 . . . . . . . . . . . . . . . . . . 23
3.1 Funci on de distribuci on de una variable discreta . . . . . . . . . 31
3.2 Funci on de distribuci on de una variable absolutamente continua 32
3.3 Soluci on de la ecuaci on funcional g(s + t) = g(s) + g(t) . . . . . 43
4.1 Representaciones gr acas de la trayectoria de un paseo al azar. . 48
4.2 Reflexi on de una trayectoria . . . . . . . . . . . . . . . . . . . . 50
4.3 Reflexiones sucesivas de j respecto del par de niveles a y b. . . 52
4.4 Ilustraci on para el Ejemplo 4.3.1 . . . . . . . . . . . . . . . . . . 59
4.5 Errores de tipos I y II en una prueba de hip otesis. . . . . . . . . 61
5.1 Diagrama de estados y transiciones de la cadena del Ejemplo 1. 66
6.1 Interpretaci on gr aca de un sumando en la esperanza de una
variable discreta. . . . . . . . . . . . . . . . . . . . . . . . . . . 84
6.2 Interpretaci on gr aca de la esperanza de una variable discreta. . 85
6.3 Interpretaci on de la esperanza como diferencia de areas. . . . . . 85
6.4 Aproximaci on de la esperanza por esperanzas de aproximaciones
discretas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
8.1 Dominios de integraci on. . . . . . . . . . . . . . . . . . . . . . . 113
12.1 Gr acos de u
z,
y de u
+
z,
. . . . . . . . . . . . . . . . . . . . . . . 181
12.2 Funci on de distribuci on de probabilidades y densidad (lla-
mada campana de Gauss) de una variable normal tpica. . . . . 184
13.1 Gr acos de sin(x)/x y de

x
0
sin(y)dy/y. . . . . . . . . . . . . . . 213
13.2 Camino de integraci on para el c alculo de

e
z
dz/z. . . . . . . . 214
ix
x FIGURAS
Indice de Tablas
6.1 Esperanzas, variancias y funciones generatrices de momentos de
algunas distribuciones. . . . . . . . . . . . . . . . . . . . . . . . 98
12.1 Distribuci on normal tpica. . . . . . . . . . . . . . . . . . . . . . 185
xi
Tanto el desarrollo de la probabi-
lidad como el de la estadstica, lo
mismo que sus aportes al progreso
cientco y tecnol ogico, son un pro-
ducto del Siglo XX.
El registro de datos estadsticos es
tan viejo como la escritura, pero el
an alisis matematico de esos datos,
con el prop osito de tomar decisiones,
tiene aproximadamente un siglo de
antig uedad, ya que suele estable-
cerse como hito que marca el origen
de la estadstica al comienzo de la
edici on de la revista estadstica mas
antigua, Biometrika, cuyo primer
n umero apareci o en 1899.
Aunque hay antecedentes de c alculos de probabilidades asociados a juegos de
azar, que se remontan al menos al Siglo XVI, los matematicos de principios del siglo
pasado a un vean a la probabilidad como un invento de los siglos 17 y 18 no integrado
a la disciplina rigurosa que cultivaban, carente de una estructura s olida, que apenas
tena el merito de dar ingeniosas soluciones ad hoc a variados problemas.
La formalizaci on del c alculo de probabilidades, como una rama de la matem atica
solidamente fundada, est a asociada a trabajos realizados por Andrei N. Kolmogorov
(1903-1987). Basandose en los estudios de quienes en esa epoca formalizaban el
calculo de integrales, Kolmogorov construy o una teora axiom atica de la probabilidad
inmersa dentro de la teora de la medida y contribuy o al desarrollo de ambas con
aportes originales.
Hoy sigue public andose Biometrika, junto con un gran n umero
de revistas de probabilidad y de estadstica matematica que, en
conjunto, recogen un doceavo de los trabajos de matem atica que
aparecen en la bibliografa especializada. El aporte de la probabi-
lidad y de la estadstica al desarrollo de las ciencias sociales y de la
naturaleza, e incluso de otras ramas de la matematica es induda-
ble, y los metodos estadsticos contribuyen de manera sustantiva
a mejorar la producci on de bienes y la prestaci on de servicios.
1. La probabilidad, un modelo
matematico para la incertidum-
bre.
La teora de las probabilidades proporciona modelos matem aticos para des-
cribir situaciones en las que existe incertidumbre. Se indica por medio de la
probabilidad el grado de factibilidad de un determinado acontecimiento o de
conanza que se tiene en que ocurra ese acontecimiento. M as precisamente,
la probabilidad es una funci on que tiene por dominio una familia de acon-
tecimientos cuya ocurrencia es posiblemente incierta. A cada uno de estos
acontecimientos la probabilidad atribuye un n umero, tanto m as grande cuanto
mayor sea su factibilidad, o la conanza en que ese acontecimiento ocurra. A
la m axima factibilidad o conanza (certeza), le atribuye el 1, y a la mnima,
el 0.
1
1.1 Sucesos.
Comencemos por analizar el dominio de la probabilidad, es decir, la familia que lla-
maremos A, de los acontecimientos que vamos a incluir en el modelo. Convendremos
que toda vez que nos interese considerar la eventual ocurrencia de un acontecimiento
A, incluiremos tambien en nuestro modelo el acontecimiento

1
Estos comentarios iniciales solo aspiran a establecer un vnculo entre el modelo
matematico que vamos a introducir, y algunas de las posibles aplicaciones de ese modelo,
fuera de la matematica. Buena parte de la riqueza y del atractivo de la probabilidad consis-
ten en que constituye un instrumento para construir modelos capaces de reejar fen omenos
inciertos de la naturaleza, respecto de los cuales puede interesarnos adoptar decisiones. Es-
tas incertidumbres pueden en particular pensarse de manera objetiva o subjetiva, y eso
explica el uso de los terminos factibilidad y conanza, respectivamente. Es por ello que
motivaremos en 1.2 la denici on de la probabilidad mediante dos modelos, uno de ellos
objetivo, y el otro subjetivo.
1
2
Enrique M. Caba na.
Captulo 1: Probabilidad.
no ocurre

A , abreviado no

A,
y toda vez que nos interese considerar la ocurrencia de los acontecimientos

A y

B,
tambien incluiremos en nuestro modelo los acontecimientos compuestos a partir de

A
y de

B que son:
ocurren ambos acontecimientos, el

A y el

B, abreviado

A y

B,
alguno de los acontecimientos

A,

B ocurre, abreviado

A o

B,
y tambien otras combinaciones cuya inclusi on es consecuencia de las anteriores, tales
como ocurre

A pero no

B, que equivale a

A y (no

B), o bien ocurre

A o

B pero
no ambos, que es lo mismo que (

A y (no

B)) o (

B y (no

A)). Por una inducci on
obvia, estas convenciones se generalizan a acontecimientos compuestos por mas de
dos, tales como la ocurrencia de por lo menos uno de varios acontecimientos dados,
o la no ocurrencia de ninguno de ellos.
Resulta un sencillo ejercicio vericar que las operaciones (no, o, y) entre acontecimien-
tos tienen las mismas propiedades formales que ciertas operaciones (complemento,
uni on, interseccion, respectivamente) entre conjuntos. M as a un, es posible mostrar
que cada acontecimiento se puede asociar a un subconjunto de un conjunto dado que
llamaremos , de modo que se correspondan:
acontecimiento subconjunto
A A
B B
no

A A
c
A o

B A B
A y

B A B
A y (no

B) A\ B
. . . . . . . . .
Introducci on a la probabilidad.
1.1. Sucesos 3
Para ello podemos pensar que es el conjunto de todos los acontecimientos ele-
mentales o estados posibles de la naturaleza, es decir, el conjunto formado por
las descripciones exhaustivas y mutuamente excluyentes de cada uno de los estados
posibles del sistema que nos interesa describir. Entonces, un subconjunto A de se
corresponder a con el acontecimiento consistente en que ocurre alguno de los estados
descritos por los puntos de contenidos en A.
Las consideraciones anteriores nos conducen a introducir la siguiente denici on.
Dado un conjunto no vaco , consideremos una familia A de partes de
con las propiedades:
(a
0
) A es no vaca.
(a
1
) Si A pertenece a A, entonces su complemento A
c
tambien pertenece a
A.
(a
2
) Si los conjuntos A
1
, . . . , A
n
(n N) pertenecen a A, entonces
n
m=1
A
m
tambien pertenece a A.
Denici on 1.1.1 A una familia A que cumple (a
0
), (a
1
) y (a
2
), o, en otras
palabras, a una familia de subconjuntos de cerrada bajo complementos y
uniones nitas, se la llama un algebra de subconjuntos de .
Toda algebra de subconjuntos de es tambien cerrada bajo intersecciones
nitas, y bajo diferencias simetricas. Conviene recordar, para vericarlo, que
una intersecci on nita puede escribirse en la forma

n
m=1
A
m
= (
n
m=1
A
c
m
)
c
, y
que la diferencia simetrica de A y B es A B = (A B
c
) (B A
c
).
Denici on 1.1.2 Una familia A de subconjuntos de que cumple las propie-
dades
(s
0
) = (a
0
),
(s
1
) = (a
1
), y
(s
2
) Si los conjuntos de una sucesi on (A
n
)
n=1,2,...
pertenecen a A, entonces
n=1
A
m
tambien pertenece a A.
se llama -algebra de subconjuntos de .
Puede vericarse que toda -algebra de subconjuntos de es un algebra.
Conviene vericar previamente que una consecuencia de las deniciones (1.1.1)
y (1.1.2) es que toda algebra y toda -algebra contienen necesariamente a
y al conjunto vaco .
Observemos que la familia {, } es una -algebra, y, de acuerdo a la
observaci on precedente, se trata de la -algebra m as peque na posible, a la que
suele llam arsele -algebra trivial.
4
Enrique M. Caba na.
Nota: Aunque la introducci on informal que precede a la Denici on 1.1.1
sugiere adoptar un algebra como dominio de la probabilidad, tiene ventajas
tecnicas adoptar en cambio una -algebra. El Teorema 3.2.1 nos dar a una
primera clave para apreciar la conveniencia de esta formalizaci on.
Denici on 1.1.3 La pareja (, A) en la que es un conjunto no vaco y A
es una - algebra de subconjuntos de , se llama espacio probabilizable, y los
elementos de A se llaman sucesos.
Ejercicios.
Ejercicio 1.1.1 Vericar que toda -algebra A contiene a y al suceso vaco ,
y que se cumplen las propiedades
(a
2
) A
1
, . . . , A
n
(n N) A
n
m=1
A
m
A.
(a
3
) A
1
, A
2
, . . . A
m=1
A
m
A
Ejercicio 1.1.2 Vericar que toda -algebra de subconjuntos de es un algebra.
Ejercicio 1.1.3 Vericar que la familia 2
de todos los subconjuntos de es una

-algebra.
Ejercicio 1.1.4 Vericar que si A
1
, . . . , A
n
es una partici on de , es decir, los
sucesos A
1
, . . . , A
n
son disjuntos y

n
m=1
A
m
= , entonces la familia de todas las
uniones {
mJ
: J subconjunto de {1, 2, . . . , n}} es un algebra.
Ejercicio 1.1.5 Vericar que la interseccion de -algebras de subconjuntos de
es tambien una -algebra. Deducir que dada una familia cualquiera de subconjuntos
de , existe una mnima -algebra que los contiene.
Ejercicio 1.1.6 Enumerar la mnima -algebra de subconjuntos de Rque contiene
a los conjuntos { 0 }, { 1 } y { 2 }.
Ejercicio 1.1.7 Vericar que si A es una -algebra de partes de R que contiene
los intervalos abiertos {(a, b) : a, b R, a b}, entonces A contiene tambien todos
los intervalos cerrados y semiabiertos.
Ejercicio 1.1.8 Vericar que coinciden las mnimas -algebras de partes de R
que contienen (i) los intervalos abiertos; (ii) los intervalos cerrados; (iii) todos los
intervalos; (iv) los conjuntos abiertos; (v) los conjuntos cerrados.
Esta -algebra se llama de Borel.
1.2. Probabilidad 5
1.2 Probabilidad.
A cada acontecimiento (o suceso), sobre cuya ocurrencia existe incertidumbre,
queremos atribuir ahora una medida, su probabilidad, que nos diga hasta que
punto podemos conar en que ese acontecimiento ocurra. Antes de dar una
denicion formal, vamos a considerar dos situaciones que nos proporcionar an
una interpretaci on intuitiva para la probabilidad.
1.2.1 La ley del azar.
Consideremos la siguiente ley sobre cuya eventual validez no nos pronunciamos.
Repitamos indenidamente un cierto experimento E con independencia entre las suce-
sivas replicaciones. Supongamos que el resultado del experimento es incierto, y lla-
memos A a uno de los resultados posibles. Designamos por r
n
(A) (que llamamos
frecuencia de A) al n umero de veces que ha ocurrido A al cabo de n repeticiones.
Entonces, el cociente r
n
(A)/n (que llamamos frecuencia relativa de A) tiene lmite
cuando n tiende a innito, y a ese lmite lo llamamos p(A).
Consideremos un ejemplo de tal situaci on. Supongamos que el experimento consiste
en arrojar un dado cuyas caras est an numeradas de 1 a 6. El resultado (el n umero
de la cara que queda hacia arriba) puede ser cualquiera de esos seis n umeros, pero en
cada repeticion del experimento no hay certeza sobre cu al de estos sera como suele
ocurrir cuando se arroja un dado. Interpretamos la independencia entre las sucesivas
repeticiones en el sentido de que la ejecucion de cualesquiera de ellas, y, en particular
sus resultados, no tiene ninguna influencia sobre las otras y sobre sus resultados.
La ley que hemos enunciado conduce a lmites p(1), . . . , p(6) para las frecuencias
relativas con que se obtienen los resultados 1, . . . , 6. Aunque la ley no dice nada sobre
cuales son estos lmites, es claro que todos ellos son n umeros comprendidos entre 0
y 1, ya que las frecuencias relativas cumplen esa propiedad por su propia denici on.
Ademas, como en cada repeticion del experimento ocurre alguno de los resultados
indicados y s olo uno, las frecuencias r
n
(1), . . . , r
n
(6) cumplen r
n
(1) +. . . +r
n
(6) = n,
de donde resulta p(1) + . . . + p(6) = 1. Si tuvieramos buenas razones para suponer
que ninguna de las caras est a privilegiada respecto de las otras (por la construcci on
del dado y por la manera de arrojarlo), concluiramos p(1) = p(2) = . . . = p(6), y
entonces debe cumplirse p(i) = 1/6, i = 1, . . . , 6.
En general, si A, B son dos resultados posibles del experimento que no pueden ocurrir
simult aneamente, entonces r
n
(A o B) = r
n
(A) +r
n
(B), de donde p(A o B) = p(A) +
p(B). Por otra parte, si es el resultado consistente en que ocurra alguno cualquiera
de los resultados posibles, resultado trivial que siempre ocurre, tenemos r
n
() = n ,
de modo que p() = 1.
6
Enrique M. Caba na.
1.2.2 Un juego de azar.
Veamos a continuaci on otro ejemplo, que retomaremos en varias oportunidades para
motivar algunas de las deniciones, basado en un juego de azar hipotetico. Considere-
mos un experimento cuyo resultado es incierto, y llamemos A a uno de sus resultados
posibles. Un jugador se dispone a participar en el siguiente juego de azar: se realiza
el experimento; si ocurre A, recibe como premio una unidad monetaria, y si no ocurre
A, no recibe ning un premio. Vamos a llamar (A) a la cantidad que el jugador estima
equitativo pagar para intervenir, sin pretender obtener una ganancia de su juego, pero
sin sufrir tampoco una perdida. De otra manera, llamemos (A) a una cantidad tal
que el jugador considera que le conviene jugar si el pago que debe hacer por intervenir
en el juego es menor que (A), pero estara dispuesto a intercambiar su papel con la
banca por un pago superior a (A). La cantidad (A) no tiene por que ser la misma
para distintos jugadores, pues puede depender de su informaci on previa, o de otras
consideraciones subjetivas.
(A)
E
r
r
r
r
r
r
E
A?
s
no
1
c
0
Podemos expresar la condici on de equitatividad del juego de otra manera: el jugador
estima que la cantidad cierta (A) y la cantidad incierta que es el premio del juego,
que vale 1 si ocurre A y 0 si no ocurre A, tienen el mismo valor, es decir, son
intercambiables.
Obviamente se cumple 0 (A) 1, pues en caso contrario el jugador tendra
seguramente una ganancia (si fuese (A) < 0) o una perdida (si 1 < (A)).
Aceptemos ademas que si el premio del juego fuese c si ocurre A y 0 si no ocurre, el
jugador lo cambiara por c(A). Esta condici on de linealidad s olo es razonable si las
sumas a intercambiar son peque nas; en efecto, un jugador podra estimar apropiado
invertir una peque na cantidad en un juego para duplicarla en caso de ganar, pero no
invertira toda su fortuna en el mismo juego, a un cuando la duplicara en caso de ganar,
para no arriesgarse a perder, por la consecuencia desastrosa que esto le signicara.
Por lo tanto, convendr a pensar en lo sucesivo que las sumas que se intercambian son
peque nas.
Observemos tambien que, si Ay B son dos resultados posibles, que no pueden ocurrir a
la vez, nuestro jugador podra intervenir simult aneamente dos veces en el mismo juego,
apostando una vez en favor de A, por lo cual estima que debe pagar (A), y la otra vez
por B, por lo cual estima que debe pagar (B). Como esto es equivalente a intervenir
una vez apostando por (A o B) (observese que para que esto sea correcto se requiere
que A y B no puedan ocurrir simult aneamente), se deduce (A o B) = (A) +(B).
1.2. Probabilidad 7
(A)
E
r
r
r
r
r
r
E
A?
s
no
1
c
0
+
(B)
E
r
r
r
r
r
r
E
B?
s
no
1
c
0
=
(A B)
E
r
r
r
r
r
r
E
A B?
s
no
1
c
0
Una observaci on trivial es que si el jugador apuesta por el resultado consistente en
que ocurra cualquiera de los resultados posibles, con lo que se asegura una ganancia
de 1, la condici on de equitatividad presente en la descripci on de implica () = 1.
El mismo experimento de 1.2.1 sirve de ejemplo para esta situaci on. Pero ahora no
es necesario suponer que haya una sucesion de repeticiones independientes (termino
difcil de denir formalmente, al menos por el momento!). El experimento de arrojar
el dado podra realizarse por una unica vez. El jugador puede saber poco o nada sobre
la construccion del dado, o sobre la habilidad del que lo arroja. Har a su composicion
de lugar, usando la informaci on que tenga, y atribuir a valores a . Notemos que
cualquiera sea esta composicion de lugar, las consideraciones anteriores indican que
los seis valores (1), . . . , (6) no pueden ser completamente arbitrarios: deben ser
no negativos y sumar 1. Observemos de paso que si nuestro jugador no encuentra
razones para preferir un resultado a otro, desde el punto de vista de la conanza que
tenga en que cada uno de ellos ocurra, elegir a (1) = . . . = (6) = 1/6.
Entre los modelos de 1.2.1 y 1.2.2 puede establecerse la siguiente relaci on. Supon-
gamos que el juego puede repetirse, y que nuestro jugador est a dispuesto a apostar
cada vez (A) para ganar 1 en caso de ocurrir A. Para las n primeras repeticiones,
considerar a intercambiable una apuesta n(A) con la ganancia r
n
(A) (con la notaci on
introducida en 1.2.1); la apuesta promedio, constante, es (A), y la ganancia promedio
r
n
(A)/n . De aqu resulta que el jugador deber a considerar intercambiables (A) con
r
n
(A)/n, y, si considera que la ley del azar es v alida, como la equivalencia de (A)
con r
n
(A)/n vale para todo n, deber a estimar (A) = p(A).
No debe extra narnos entonces que y p compartan algunas propiedades.
Nota: La denici on que sigue intenta recoger los elementos comunes pre-
sentes en los dos ejemplos precedentes. Sin ir m as all a de lo que ellos sugieren,
la propiedad del item (p
2
) se formulara para sucesiones nitas exclusivamente.
Sin embargo, razones de conveniencia tecnica vinculadas a resultados tales
como los de los Teoremas 3.2.1, y 1.2.1, aconsejan extender la aditividad a
sucesiones innitas.
8
Enrique M. Caba na.
1.2.3 Denici on de probabilidad.
Denici on 1.2.1 . Dado un espacio probabilizable (, A), llamamos probabi-
lidad en (, A) a una funci on P : A R
+
que satisfaga
(p
1
) P() = 1
(p
2
) Si (A
n
)
n=1,2,...
es una sucesi on de sucesos disjuntos, entonces se
cumple
P(
n=1
A
n
) =
n=1
P(A
n
).
Denici on 1.2.2 La terna (, A, P), donde P es una probabilidad en (, A),
se llama espacio de probabilidad.
Ejemplo. Si = {
1
,
2
, . . . ,
n
, . . .} es un conjunto numerable, A = 2
es la familia de todos los subconjuntos de , y (p

n
)
n=1,2,...
es una sucesion de
n umeros no negativos tal que

n=1
p
n
= 1, entonces P(A) =
nA
p
n
es una
probabilidad en (, A).
Ejercicios
Ejercicio 1.2.1 Probar que toda probabilidad satisface las siguientes propiedades:
(p
1
) P() = 0.
(p
2
) Si (A
m
)
m=1,2,...,n
es una familia nita de sucesos disjuntos, entonces se
cumple P(
n
m=1
A
m
) =

n
m=1
P(A
m
).
(p
3
) P(A
c
) = 1 P(A)
(p
4
) A B P(A) P(B).
(p
5
) P(A B) = P(A) +P(B) P(A B).
Ejercicio 1.2.2 Probar por inducci on completa la siguiente generalizaci on de la
propiedad (p
5
) del ejercicio precedente:
Para cualesquiera sucesos A
1
, A
2
, . . . , A
n
, la probabilidad de la uni on puede cal-
cularse mediante la f ormula:
P(
n
i=1
A
i
) =
n
k=1
(1)
k+1
1i
1
<...<i
k
n
P(A
i
1
A
i
2
. . . A
i
k
)
Ejercicio 1.2.3 Si P y Q son dos probabilidades denidas en un mismo espacio,
mostrar que aP + bQ tambien es una probabilidad para cualquier par de n umeros
no negativos a y b que satisfagan a +b = 1.
Ejercicio 1.2.4 Si A, B, C, son sucesos arbitrarios, mostrar que
1.2. Probabilidad 9
(a) P(A B C) P(A) P(B) P(C);
(b) P(A B C) P(A) P(B) P(C).
Ejercicio 1.2.5 Un dado est a cargado de modo que la probabilidad de cada cara
es proporcional al n umero indicado en la cara. Cu al es la probabilidad de que al
arrojarlo, se obtenga un resultado par?
Ejercicio 1.2.6 Dada una sucesion creciente de sucesos: = E
0
E
1
E
2
. . .,
vericar que

i=1
E
i
se puede escribir como una uni on disjunta en la forma
i=1
E
i
=
i=1
(E
i
\ E
i1
).
Teorema 1.2.1 (Continuidad de la probabilidad).
(i) Si (A
n
)
n=1,2,...
es una sucesi on creciente de sucesos, se cumple
P
n=1
A
n
= lim
n
P(A
n
).
(ii) Si (B
n
)
n=1,2,...
es una sucesi on decreciente de sucesos,entonces
P
n=1
B
n
= lim
n
P(B
n
).
Demostraci on. Observemos en primer lugar que (i) y (ii) son equivalentes.
En efecto, si vale (i) y (B
n
)
n=1,2,...
es decreciente, entonces (B
c
n
)
n=1,2,...
es cre-
ciente, y P
n=1
B
n
=1P(
n=1
B
n
)
c
=1P(
n=1
B
c
n
)=1lim
n
P(B
c
n
), por
(i). De aqu resulta P(
n=1
B
n
)=1lim
n
(1 P(B
n
)) =lim
n
P(B
n
). De
manera an aloga se muestra que (ii) implica (i).
Para probar (i) denimos C
n
= A
n
\ A
n1
, n = 2, 3, . . ., y C
1
= A
1
de
manera que los sucesos (C
n
)
n=1,2,...
son disjuntos. Adem as se verica que
A
n
=

n
m=1
C
m
y que

n=1
A
n
=

n=1
C
n
. Como los C
n
son disjuntos, P(A
n
)
=

n
m=1
P(C
m
), y P
n=1
A
n
=

m=1
P(C
m
). Por lo tanto, P
n=1
A
n
=
lim
n
n
m=1
P(C
m
) = lim
n
P(A
n
). 2
El enunciado del Teorema 1.2.1 podra haberse escrito en la forma: Para toda sucesi on
monotona de sucesos (A
n
), se cumple limP(A
n
) = P(limA
n
), porque cuando (A
n
)
10
Enrique M. Caba na.
es creciente, se dene limA
n
=
n=1
A
n
, y cuando es decreciente, limA
n
=
n=1
A
n
.
Esta observaci on justica mejor el nombre de teorema de continuidad para el Teorema
1.2.1. Las dos deniciones precedentes de lmite de sucesiones monotonas de conjuntos
son coherentes con las siguientes:
Para cualquier sucesion de conjuntos (A
n
), llamamos lmite superior de la sucesion al
conjunto limsupA
n
=
n=1
m=n
A
m
, y lmite inferior a liminf A
n
=
n=1
m=n
A
m
.
Decimos que (A
n
) tiene lmite cuando limsupA
n
y liminf A
n
coinciden, y en ese caso,
denimos limA
n
= limsup A
n
= liminf A
n
.
Resulta inmediato vericar que cuando (A
n
) es mon otona, esta ultima denici on de
lmite coincide con la del p arrafo anterior.
Finalmente, dejamos a cargo del lector vericar que las deniciones de limsup y de
liminf de conjuntos podran haberse hecho de la siguiente manera equivalente: Si
designamos por 1
A
a la funci on indicatriz de A, es decir, 1
A
() =
1 si A
0 si A,
entonces se cumplen las igualdades,
1
limsup An
= limsup 1
An
, 1
liminf An
= liminf 1
An
,
que pueden adoptarse como denici on de lmites de sucesiones de conjuntos a partir
de los lmites de las sucesiones de sus funciones indicatrices. Mas precisamente:
limsup A
n
= { : limsup 1
An
= 1}, liminf A
n
= { : liminf 1
An
= 1}.
1.3 La denici on clasica de la probabilidad.
Teorema 1.3.1 Si {A
1
, A
2
, . . . , A
n
} es una partici on de (es decir, A
1
, A
2
,
. . ., A
n
, son sucesos disjuntos cuya uni on es ) y se cumple P(A
1
) = P(A
2
)
= . . . =P(A
n
), entonces P(A
1
A
2
. . . A
k
) = k/n.
El mismo resultado suele expresarse diciendo que, cuando hay n sucesos
igualmente probables y mutuamente excluyentes, alguno de los cuales ocurre
necesariamente, entonces, si exactamente k de ellos son favorables a cierto
resultado, la probabilidad de este resultado es k/n, es decir, es igual al n umero
de casos favorables dividido por el n umero de casos posibles.
La demostraci on del Teorema 1.3.1 no ofrece dicultades especiales. Su
principal interes se debe a sus aplicaciones. Estas corresponden al contexto
relativamente limitado en que podemos identicar una partici on de en suce-
sos equiprobables, y queremos determinar la probabilidad del suceso obtenido
por la uni on de algunos de ellos. A pesar de esta limitaci on, hay una amplia
variedad de situaciones que pueden modelarse mediante un esquema en el que
el Teorema 1.3.1 es aplicable, como lo sugieren los ejercicios siguientes.
1.3. La definici on cl asica de la probabilidad. 11
Ejercicios
En cada uno de los enunciados que siguen se plantean situaciones para cuya
soluci on es posible plantear un modelo para la aplicaci on del Teorema 1.3.1.
La validez de los resultados estar a condicionada, por supuesto, a la validez del
modelo.
Ejercicio 1.3.1 Se distribuyen al azar N bolas numeradas de 1 a N, en N cajas,
de modo que se coloca una bola en cada caja.
Cu al es la probabilidad de que en las cajas n umeros 1 y 2 se coloquen las bolas
con n umeros 1 y 2 respectivamente, y que, en cambio, en la caja n umero 4 no este
la bola n umero 4? (N 4).
Ejercicio 1.3.2 Se arrojan repetidamente dos dados perfectos y se observan las
sumas sucesivas S
1
, S
2
, . . .
(a) Calcular la probabilidad de obtener el mismo resultado las tres primeras
veces (es decir, S
1
= S
2
= S
3
).
(b) Calcular la probabilidad del suceso S
1
< S
2
< S
3
.
(c) Generalizar (a) y (b) al caso en que se consideran los N primeros resul-
tados en vez de los tres primeros.
Ejercicio 1.3.3 Se eligen n dgitos al azar. Cu al es la probabilidad de que no
haya dos iguales?
Ejercicio 1.3.4 Si m bolas se colocan al azar en n cajas, cual es la probabilidad
de que exactamente una caja quede vaca?
Ejercicio 1.3.5 Cu al es la probabilidad de que en un grupo de r personas elegi-
das al azar, haya por lo menos dos que cumplan a nos el mismo da?
Ejercicio 1.3.6 Se busca una determinada cha de un mazo de n, que ha sido
mezclado. Para encontrarla, se examinan las chas una a una hasta que la cha
buscada aparece. Cu al es la probabilidad de tener que examinar j chas?
Ejercicio 1.3.7 Se corren seis carreras, en cada una de las cuales participan diez
caballos. Cada caballo tiene la misma probabilidad de ganar una carrera, que cual-
quier otro de los que corren en ella. Se eligen al azar un caballo de cada carrera.
Cu al es la probabilidad de elegir a los ganadores?
12
Enrique M. Caba na.
Ejercicio 1.3.8 En la ciudad circulan a billetes de una serie que llamaremos A,
b de una serie B y c de una serie C. Cu al es la probabilidad de que una persona
que tiene cinco billetes, tenga alg un billete de cada serie?
Es posible responder la misma pregunta si en vez de conocer el n umero de
billetes de cada serie que circulan se conocen las proporciones =
a
a+b+c
, =
b
a+b+c
, =
c
a+b+c
?
Ejercicio 1.3.9 En un examen se le entregan a un estudiante n preguntas y se le
entregan de manera desordenada las n respuestas. Se le pide que ponga en corres-
pondencia cada pregunta con su respuesta. Cu al es la probabilidad de que acierte
alguna, si contesta al azar? Se sugiere utilizar la f ormula establecida en el Ejercicio
1.2.2.
N1.- Los comienzos del calculo de probabilida-
des.
Se suele establecer como comienzo del c alculo de probabilidades, el intercam-
bio de correspondencia entre Fermat y Pascal referente a juegos de azar. No
fueron ellos, sin embargo, los primeros en ocuparse en formalizar aspectos re-
lativos a este tema, y entre sus predecesores se encuentran Fra Luca Pacioli
(aproximadamente 1445 - 1517), Tartaglia (ap.1500 - 1557), Cardano (1501 -
1576) (a quien se remonta el c alculo de probabilidades mediante la denici on
cl asica, 1.3) y Galileo Galilei (1564 - 1642).
Fermat, Pierre de (1601-1665).
Nacio en Beaumont de Lomages, Francia, el 17 de agosto de 1601. Aunque
era abogado y funcionario del gobierno, se le recuerda por sus contribuciones
a la matematica, especialmente a la teora de n umeros. El llamado ultimo
Teorema de Fermat que expresa que la ecuacion diofantica x
n
+ y
n
= z
n
no tiene races para n > 2, que manifesto haber demostrado en una nota
escrita al margen de un texto, pero cuya demostracion nunca se conocio, fue
un desafo para quienes intentaron demostrarlo durante mas de trescientos
a nos desde entonces. La demostracion recien se obtuvo en 1993 - 1995 como
resultado de la aplicacion de teoras muy elaboradas, algunas de las cuales,
sin duda, deben su surgimiento al proposito de demostrar el Teorema de
Fermat.
El y Blaise Pascal, en correspondencia intercambiada entre ambos, es-

tablecieron las bases del calculo de probabilidades, al resolver problemas
planteados por juegos de azar.
1. N1.- Fermat, Pascal. 13
Pascal, Blaise (1623-1662).
Nacio en Clermont, Auvergne, Francia, el 19 de junio de 1623. Su padre, Etienne Pascal, le dio una
educacion poco ortodoxa, y, aunque pretendio mantenerlo alejado de la matematica durante sus primeros
a nos de estudio, el redescubrio por s mismo algunos resultados de la geometra.
Sus principales contribuciones las hizo en al campo de la hidrostatica, la hidrodinamica, y la geometra
proyectiva. Invento la pascalina, primera calculadora decimal mecanica.
Junto con Fermat, establecio las bases del calculo de probabilidades, resolviendo problemas planteados
por la practica de los juegos de azar.
14
Enrique M. Caba na.
2. Probabilidades condicionales.
2.1 Interpretaci on intuitiva.
Vamos a retomar el modelo de 1.2.2. Consideremos un experimento con resultados
posibles A y B y supongamos que un jugador estima, con la informaci on que posee
a priori, que resulta equitativo pagar (B) por obtener premio 1 cuando B ocurre.
Demosle ahora al jugador la informaci on adicional de que A ocurre. A la nueva
cantidad que considera equitativo pagar para obtener premio 1 cuando ocurre B,
luego de saber que A ocurre, la llamaremos (B|A). Resulta razonable plantearse si
esta informaci on nueva lo induce a cambiar su apuesta, y en caso armativo, de que
manera. De otra modo: nos preguntamos si (B|A) diere de (B).
Consideremos un ejemplo. Supongamos que en una caja se han guardado dos mo-
nedas. Una de ellas tiene dos caras, y la otra dos cruces. Se retira una de ellas de
la caja, sin que resulte m as verosmil que la moneda retirada sea una o la otra, y se
arroja sobre la mesa. Llamemos A al suceso que consiste en que sale cara. Luego se
vuelve a arrojar, y se ofrece apostar a que en esta segunda oportunidad salga cruz,
suceso que llamaremos B. A un jugador que ignore el resultado de la primera vez que
se ha arrojado la moneda, le resulta equitativo pagar 0.5 por intervenir en el juego en
que recibe premio 1 cuando ocurre B, ya que es igualmente plausible que la moneda
extrada sea la que tiene dos caras, o la que tiene dos cruces. Sin embargo, es claro
que si sabe que A ha ocurrido, es porque la moneda que se extrajo es la que tiene dos
caras, y entonces es seguro que no ocurrir a B, lo que le lleva a pagar 0 por intervenir
en el juego.
Modiquemos ahora nuestro ejemplo de la manera siguiente. Supongamos que una
de las monedas ha sido trucada de modo que la probabilidad de que al arrojarla salga
cara es p, o, lo que es lo mismo - y lo que precede es una manera abreviada de decirlo
- dentro de nuestro modelo subjetivo, la composici on de lugar del jugador sobre esa
moneda lo llevara a pagar p por intervenir en el juego en que recibe 1 si al arrojar
la moneda sale cara. Consecuentemente, la probabilidad de que salga cruz es 1 p.
Supongamos asimismo que la otra moneda tiene una propiedad an aloga, pero ahora
es 1 p la probabilidad de que salga cara y p la de que salga cruz.
Si p es 1, se repite la situacion descrita arriba. Si en cambio p es 0.5, las dos monedas
son equivalentes. Cualquiera que sea la elegida, la probabilidad de que en la segunda
instancia en que se arroja salga cara es 0.5, de modo que conocer si A ocurre o no, no
15
16
Enrique M. Caba na.
Captulo 2: Probabilidades condicionales
servir a para modicar la composici on de lugar respecto del resultado de la segunda
instancia, como antes.
Parece razonable que el efecto del par ametro p sea continuo. En todos los casos,
(B) = 0.5, cualquiera sea p. Pero cuando p = 1, (B|A) = 0, cuando p = 0.5,
(B|A) = 0.5, y cuando p = 0, (B|A) = 0, por analoga con el primer caso, ya que
la situaci on es similar. Es de esperar entonces que (B|A) vare continuamente con
p recorriendo valores que van de 0 a 0.5 y nuevamente a 0, cuando p va de 1 a 0.5, y
a 0. M as adelante, una vez introducidos algunos elementos que facilitar an el calculo,
propondremos como ejercicio encontrar (B|A) en funci on de p.
Consideremos ahora una forma particular de apuesta, que llamaremos apuesta com-
binada: Se apuesta por un cierto resultado A, y, si este se produce, se invierte la
ganancia en apostar a otro resultado B. Cuando esto es as, a un antes de jugar y
sin saber si A ocurre o no, el jugador debe considerar, en el momento de preguntarse
hasta cu anto esta dispuesto a pagar al apostar por B, que A ha ocurrido, dado que
solo en este caso tiene efecto su segunda apuesta.
(A)
E
r
r
r
r
r
r
E
A?
s
no
c
0
= (B|A)
E
r
r
r
r
r
r
E
B?
s
no
1
c
0
=
(A)(B|A)
E
r
r
r
r
r
r
E
A B?
s
no
1
c
0
Vamos a analizar como puede decidir un jugador cu anto esta dispuesto a pagar para
intervenir en un juego en que apuesta por A e invierte su ganancia en apostar por B.
Supongamos por a nadidura que el premio en esta segunda instancia es 1.
Por una parte, dado que s olo obtiene la ganancia 1 cuando ocurre A (para poder
continuar apostando) y tambien B (para ganar en la segunda apuesta), se deduce
que estara dispuesto a pagar (A B).
Por otra parte, al apostar por B con la informaci on de que A ha ocurrido (tiene
que haber ocurrido, pues de no ser as no estara apostando), est a dispuesto a pagar
(B|A). Esto es lo que debe obtener como ganancia de su primera apuesta. Dado
que pagara (A) por obtener premio 1 si ocurre A, para multiplicar el premio por
(B|A) multiplicar a tambien su apuesta por el mismo coeciente, de modo que la
apuesta combinada ser a (A)(B|A).
De los dos p arrafos anteriores resulta que debe cumplirse
(A B) = (A)(B|A).
2.2. Definici on de la probabilidad condicional. 17
Observemos nalmente que las consideraciones anteriores conducen a una formaliza-
cion del concepto de independencia, hasta ahora manejado de manera informal. En
efecto, si la informaci on sobre la ocurrencia de A no cambia la conanza en la ocur-
rencia de B, diremos que B es independiente de A. Con las notaciones que estamos
utilizando, B es independiente de A cuando (B|A) = (B). La probabilidad condi-
cional y la independencia de sucesos se introducen formalmente en las deniciones
que siguen.
2.2 Denici on de la probabilidad condicional.
Denici on 2.2.1 Dado un espacio de probabilidad (, A, P), y un suceso A
tal que P(A) > 0, se dene la funci on P(|A) : A R
+
de la siguiente
manera:
P(B|A) = P(A B)/P(A).
Dicha funcion se llama probabilidad condicional dado A.
Ejercicios.
Ejercicio 2.2.1 (i) Vericar que (, A, P(|A)) es un nuevo espacio de probabili-
dad. (Se supondr a P(A) > 0).
(ii) Vericar que A
A
= {A B : B A} es una -algebra de subconjuntos de
A, y que la restriccion de P(|A) a A
A
es tambien una probabilidad.
Ejercicio 2.2.2 Probar la siguiente regla de multiplicacion de probabilida-
des. (Se supondr a en lo que sigue que las probabilidades condicionales est an deni-
das, es decir, los sucesos condicionantes tienen probabilidad positiva.)
(p
6
) P(A
1
A
2
) = P(A
1
) P(A
2
|A
1
)
(p
6
) P(A
1
A
2
. . . A
n
) =
P(A
1
)P(A
2
|A
1
)P(A
3
|A
1
A
2
) . . . P(A
n
|A
1
A
2
. . . A
n1
)
Ejercicio 2.2.3 Vericar
(i) P(A|B C)P(B|C) = P(B|A C)P(A|C)
(ii) Si A B C D, entonces P(A|D) P(B|C).
18
Enrique M. Caba na.
Ejercicio 2.2.4 Se elige una de dos monedas, con iguales probabilidades 0.5, 0.5
para cada una de ellas. Una de las monedas, al ser arrojada, resulta en cara con
probabilidad p y en cruz con probabilidad 1 p. El resultado de arrojar la otra es
cruz con probabilidad p y cara con probabilidad 1p. Se arroja dos veces la moneda
elegida, con independencia entre los resultados de una y otra instancia. A y B son,
respectivamente, los sucesos que consisten en que la primera vez el resultado es cara,
y en que la segunda vez es cruz. Calcular la probabilidad de B dado A en funci on
de p.
2.3 Independencia.
Denici on 2.3.1 Se dice que los sucesos A, B son independientes, cuando
P(A B) = P(A)P(B).
De acuerdo a los comentarios previos a la Denici on 2.3.1, correspondera denir de
manera asimetrica
A independiente de B cuando P(A|B) = P(A),
y, an alogamente
B independiente de A cuando P(B|A) = P(B),
Sin embargo, estas dos deniciones son casi equivalentes a la Denici on 2.3.1 (Para
vericarlo basta recurrir a la denici on de probabilidad condicional). La Denici on
2.3.1 es mas general, porque tiene sentido a un cuando A y/o B tienen probabilidad
cero.
Denici on 2.3.2 Se dice que el conjunto {A
1
, A
2
, . . . , A
n
} es un conjunto
independiente de sucesos, cuando P(
jJ
A
j
) =

jJ
P(A
j
) para cualquier
subconjunto de ndices J {1, 2, . . . , n}.
Para referirse a un conjunto independiente de sucesos, es habitual decir
que los sucesos son independientes. Esta forma de expresi on puede prestarse a
confusi on, pero no la evitaremos en lo que sigue, en la medida que el contexto
indique que es lo que se quiere expresar.
Ejercicios.
Ejercicio 2.3.1 Mostrar por medio de un ejemplo que {A, B}, {B, C}, {A, C}
pueden ser conjuntos independientes, sin que {A, B, C} lo sea necesariamente.
2.3. Independencia. 19
Ejercicio 2.3.2 Se lanzan tres dados simult aneamente. Calcular:
(a) la probabilidad de obtener un 6, dado que no hay dos resultados iguales.
Se lanza ahora un dado n veces, sucesiva e independientemente. Calcular las
probabilidades de los siguientes sucesos:
(b) obtener al menos dos 5, dado que ocurri o al menos un 5 en los n lanza-
mientos.
(c) idem, dado que ocurri o al menos un 5 en los primeros m lanzamientos.
Ejercicio 2.3.3 Se lanza una moneda sucesiva e independientemente. La proba-
bilidad de que ocurra cara en un lanzamiento es p, y la de que ocurra cruz es 1 p.
Cu al es la probabilidad de que ocurran cuatro caras antes que cinco cruces?
Ejercicio 2.3.4 Probar que si P(A|B) > P(A), entonces P(B|A) > P(B).
Ejercicio 2.3.5 Se distribuyen al azar k bolas (numeradas de 1 a k ) en 2k cajas
(numeradas de 1 a 2k ), de modo que cada caja contiene a lo sumo una bola. Calcular
las siguientes probabilidades:
(a) la caja #1 resulte ocupada;
(b) la bola #2 resulte colocada en la caja #2 dado que la caja #1 result o
desocupada;
(c) la bola #2 resulte colocada en la caja #2 dado que la caja #1 result o
ocupada por la bola #1.
Ejercicio 2.3.6 Mostrar que los dos experimentos siguientes son equivalentes:
(1) De un mazo de n cartas se extrae una carta de modo que la probabili-
dad de cualquiera de las cartas del mazo es la misma. Luego se extrae
una segunda carta de modo que la probabilidad de cualquiera de las
restantes cartas es la misma. Luego una tercera en las mismas condi-
ciones, y as sucesivamente hasta haber extrado m cartas. El resultado
del experimento es el conjunto desordenado de las m cartas extraidas.
(2) Se extraen al azar m cartas del mazo, de modo que cualquiera de las
n
m
combinaciones posibles tenga la misma probabilidad.

Ejercicio 2.3.7 Se eligen dos enteros no negativos T
1
, T
2
, independientemente, de
modo que P(T
1
= n) = P(T
2
= n) = p(1 p)
n
(n = 0, 1, 2, . . .). Probar que para
cualquier n
0
y n = 0, 1, .. . . . , n
0
, se cumple P{T
1
= n|T
1
+T
2
= n
0
} = 1/(n
0
+ 1).
20
Enrique M. Caba na.
Ejercicio 2.3.8 Se arroja sucesivamente una moneda y se describen los resultados
por medio de los n umeros U
1
, U
2
, U
3
, . . .. Cuando en la nesima replicacion el
resultado es cara, ponemos U
n
= 1, y en caso contrario, U
n
= 0. Suponemos que
en cada oportunidad, la probabilidad de obtener cara es 1/2, y que las sucesivas
replicaciones son independientes.
Llamemos X al n umero cuya expresi on en el sistema de numeracion binaria
es 0.U
1
U
2
U
3
. . . U
n
. . . o bien, de manera equivalente, X =

n=1
2
n
U
n
. Calcular
P(X 1/2), P(X = 0), P(X = 1), P(j2
n
X k2
n
), (j k 2
n
).
Nota: Cada uno de los resultados que especican exclusivamente los valores
de U
1
, . . . , U
n
para un valor jo de n, corresponden a sucesos en la -algebra
generada por {U
i
= 1}
i=1,...,n
, que no es otra que el algebra formada por
las uniones de sucesos elegidos entre los 2
n
sucesos elementales de la forma
{U
i
= u
i
: i = 1, 2, . . . , n} con u
i
= 0 o 1.
Esto no basta para incluir resultados del tipo de {X = 1} = {U
i
= 1 :
i = 1, 2, . . .}, por ejemplo, que involucran a todos los U
i
. Para incluirlos
puede considerarse, para cada n, el algebra A
n
de todas las uniones nitas
de {U
i
= u
i
: i = 1, 2, . . . , n} con u
i
= 0 o 1, en la que la probabilidad de
cada resultado elemental es P{U
i
= u
i
: i = 1, 2, . . . , n} =

n
i=1
P{U
i
= u
i
}, y
extender la probabilidad a la mnima -algebra que contiene todas las A
n
(n
= 1, 2, . . .). El Teorema 3.2.1 indica que la extensi on es posible y unica.
2.4 Una interpretaci on objetiva para la pro-
babilidad condicional.
Podemos ahora reinterpretar la probabilidad condicional, a partir de la con-
sideraci on de una sucesi on de repeticiones independientes de un experimento.
Supongamos un experimento en el que pueden obtenerse resultados A, B, que
puede repetirse indenidamente, de manera independiente. Repitamos el ex-
perimento hasta que ocurra A por primera vez. En esa oportunidad nos jamos
si ocurri o B y en tal caso decimos que ocurri o el suceso B|A . Tenemos as
una descripci on explcita de la ocurrencia de B condicionada a que se sabe que
ocurre A.
Si llamamos abreviadamente A
n
=A ocurre por primera vez en la n-esima
repetici on, y B
n
=B ocurre en la n-esima repetici on, entonces B|A =
n=1
A
n
B
n
, y la uni on es disjunta pues lo son los A
n
.
Por la independencia de las repeticiones, el suceso C
n
que consiste en que
A no ocurre en ninguna de las primeras n 1 repeticiones tiene probabilidad
2.5. El Teorema de Bayes. 21
(1 P(A))
n1
. El suceso D
n
que consiste en que A y B ocurren en la n-
esima repetici on tiene probabilidad P(A B). El suceso A
n
B
n
coincide
con C
n
D
n
pero estos ultimos son independientes, de modo que se cumple
P(A
n
B
n
) = P(A B)(1 P(A))
n1
.
De aqu resulta
P(B|A) =
n=1
P(A
n
B
n
) = P(AB)
n=1
(1P(A))
n1
= P(AB)/P(A),
como era de esperar.
2.5 El Teorema de Bayes.
Teorema 2.5.1 (de Bayes) Supongamos dada una partici on de en sucesos
B
1
, B
2
, . . ., B
n
, de probabilidades conocidas, y supongamos que tambien se
conocen las probabilidades condicionales de un suceso A dados cada uno de los
sucesos de la partici on. Entonces, la probabilidad condicional de cada uno de
los B
j
dado A se calcula mediante la f ormula
P(B
j
|A) =
P(B
j
)P(A|B
j
)
n
h=1
P(B
h
)P(A|B
h
)
.
Demostraci on. Por la denici on de probabilidad condicional, podemos es-
cribir P(B
j
|A) = P(B
j
A)/P(A), y P(B
j
A) = P(B
j
)P(A|B
j
). Basta en-
tonces vericar que P(A) =

n
h=1
P(B
h
)P(A|B
h
), y esto es debido a que A se
puede descomponer como uni on disjunta de los sucesos B
j
A(j = 1, 2, . . . , n),
de modo que P(A) =

n
h=1
P(B
j
A). 2
Ejercicios.
Ejercicio 2.5.1 De un estudio clnico se han concluido los siguientes resultados:
La probabilidad de que una persona extrada al azar de la poblaci on tenga cierta
afeccion cardaca es 0.002; dado que padece esa afeccion, la probabilidad de que
fume es 0.40, y dado que no la padece, la probabilidad de que fume es 0.10. Cu al
es la probabilidad de que un fumador padezca la mencionada afecci on cardaca?
Ejercicio 2.5.2 Repetir el ejercicio anterior con los datos ligeramente modicados:
La probabilidad de que una persona extrada al azar de la poblaci on tenga cierta
afeccion cardaca es 0.002; la probabilidad de que fume es 0.10; la probabilidad de
que fume dado que padece la enfermedad es 0.40.
22
Enrique M. Caba na.
Ejercicio 2.5.3 Los aspirantes a ocupar cierto empleo se clasican en dos cate-
goras, A y B, de acuerdo a la capacidad demostrada durante un primer mes de
trabajo a prueba. La experiencia muestra que puede suponerse que la probabilidad
de que un aspirante que termina por ser clasicado A provenga de cierto instituto
de formaci on es 0.35, que la probabilidad de que un aspirante -no importa su cali-
cacion- provenga de ese instituto es 0.05, y que la probabilidad de que un aspirante
-no importa de donde venga- sea calicado A, es 0.25 (esto a veces se formula expre-
sando que el 35% de los clasicados A y el 5% del total de los aspirantes provienen
del mencionado instituto, y que el 25% de los aspirantes son clasicados A). A
partir de estos datos, Cu al es la probabilidad de que un aspirante proveniente del
instituto en cuesti on sea clasicado A?
2.6 Dos ejemplos de aplicaci on estadstica del
Teorema de Bayes.
Vamos a considerar situaciones en la que el Teorema de Bayes nos ayudar a
a adoptar una decisi on, basada en la informaci on proporcionada por un ex-
perimento. Esto justica de por s el ttulo aplicacion estadstica ya que la
estadstica matem atica tiene por objeto, precisamente, la aplicaci on de mode-
los probabilsticos a la toma de decisiones en base a informaci on emprica.
Ejemplo 2.6.1 Supondremos que cierto mecanismo posee una pieza que es
sometida a un intenso esfuerzo cada vez que se acciona, de modo que debe ser
reemplazada con frecuencia. Cada repuesto es utilizable H veces, con P{H = h}
= q
h1
(1 q), h = 1, 2, . . .. En un dep osito hay 100 cajas de 150 repuestos cada
una. Las duraciones de estas piezas son independientes con la distribuci on indicada.
De las 100 cajas, 30 fueron elaboradas con un procedimiento A que produce un
valor de q = 0.95, mientras que las restantes 70 se prepararon mediante un procedi-
miento B y tienen q = 0.8. Sin embargo, ni las cajas ni las piezas que contienen
poseen indicios que permitan saber cu al fue el procedimiento de elaboraci on, y por
consiguiente cu anto vale q.
Si extraemos una caja al azar, la probabilidad de que q valga 0.95 es 30/100 = 0.3. Si
estuvieramos obligados a responder cu anto vale q, deberamos decir que vale 0.8, para
minimizar la probabilidad de equivocarnos, que sera 0.3, ya que si respondieramos
0.95 erraramos con probabilidad 0.7.
Que deberamos responder a la misma pregunta, una vez abierta la caja, y utilizados
10 de los repuestos, cuyas duraciones resultan ser H
1
= h
1
, H
2
= h
2
, . . ., H
10
= h
10
?
Nuevamente, para minimizar la probabilidad de error, elegiremos la respuesta m as
probable, pero ahora es la probabilidad condicional dadas H
1
= h
1
, . . ., H
10
= h
10
,
la que resulta relevante. Con s = h
1
+. . . +h
10
,
P{q = 0.95|H
i
= h
i
, i = 1, . . . , 10} =
0.3(0.95)
s10
(0.05)
10
0.3(0.95)
s10
(0.05)
10
+ 0.7(0.8)
s10
(0.2)
10
2.6. El Teorema de Bayes. 23
y esta expresion vara con s como lo indica la Figura 2.1. Esa misma gura muestra
que para s 113 se puede responder q = 0.95 con conanza de que se errar a la res-
puesta con probabilidad inferior a 5%, y si s 78, en cambio, al responder q = 0.8 la
probabilidad de errar es tambien inferior a 5%. En ambos casos se trata de probabi-
lidades a posteriori, como suele denominarse a las probabilidades condicionales dada
la informaci on relativa a los diez primeros repuestos utilizados. Se observar a que solo
resulta relevante en los resultados, la suma de las duraciones de los repuestos, y no
cada una de las duraciones individuales.
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
70 75 80 85 90 95 100 105 110 115 120
Figura 2.1: Probabilidad a posteriori del suceso q = .95 del Ejemplo 2.6.1, en
funcion de la suma s de las duraciones de los primeros diez repuestos utilizados.
Ejemplo 2.6.2 Un medico es consultado por un paciente y encuentra que este
presenta ciertos sntomas. El conocimiento general de medicina que posee el medico
le permite saber
(a) que esos sntomas solo aparecen eventualmente en pacientes que hayan contraido
alguna de las enfermedades E
1
, E
2
y E
3
,
(b) que la incidencia de esas enfermedades en la poblaci on formada por los pacientes
que concurren a la clnica es de, respectivamente, 1%, 0.5% y 0.1%, y que la
eventualidad de que un paciente padezca a la vez dos de esas enfermedades es
descartable, y
(c) que la probabilidad de que un enfermo de E
i
presente los mencionados sntomas
es p
i
, donde p
1
= .7, p
2
= .4, p
3
= 1.
24
Enrique M. Caba na.
Con esa informaci on, en cu anto estima el medico la probabilidad de que el paciente
en observacion este enfermo de E
1
?
El medico ya sabe que la probabilidad de que el paciente este aquejado de E
1
es
2%, desde el momento que llega a ser atendido. Lo que debemos respondernos es
como cambia su composicion de lugar la informaci on resultante de su examen, que
le dice que el paciente posee los sntomas en cuestion. En otras palabras, cu al es la
probabilidad condicional de que el paciente este enfermo de E
1
dado que posee los
sntomas.
La respuesta es el cociente entre la probabilidad de que posea los sntomas y este
enfermo de E
1
, y la probabilidad de que posea los sntomas, es decir,
0.01 0.7
0.01 0.7 + 0.005 0.4 + 0.001
= 0.7.
De la misma manera, el medico puede calcular las probabilidades a posteriori de que
el paciente padezca E
2
(0.2) o E
3
(0.1), y estos resultados facilitar an su decision
respecto de que aconsejarle, o que informaci on adicional procurar, mediante nuevos
examenes, por ejemplo, o mediante la observaci on de las reacciones del paciente a
cierta medicacion.
3. Variables aleatorias.
3.1 Introducci on.
Vamos a considerar funciones que a cada uno de los estados posibles de la naturaleza
hacen corresponder un punto de un conjunto dado E, es decir, funciones de en
E. Se utilizan habitualmente para describir alguna caracterstica de interes, repre-
sentable por un un punto de E. Por ejemplo, si al arrojar un dado nos interesa
describir que cara qued o hacia arriba, podemos hacerlo con una funci on con valores
en {1, 2, 3, 4, 5, 6} o en R, que vale 1, 2, . . . , 6 seg un el caso. Una descripci on completa
de la naturaleza se obtiene, por ejemplo, con E = , y la funci on identidad.
Recordemos que hemos dado a una estructura de espacio probabilizable dot an-
dolo de una -algebra de subconjuntos A . Convendremos en dar tambien a E una
estructura de espacio probabilizable, con una -algebra S, y las descripciones de la
naturaleza que haremos por medio de la funci on X : E, seran las que especican
que X toma valores en S, para alg un S en S. Vamos a exigir que, cualquiera sea S
en S, los acontecimientos { : X() S} sean sucesos, es decir, sean elementos de
A. A las funciones de en E que cumplen esta propiedad las llamaremos variables
aleatorias.
Denici on 3.1.1 Dado un espacio probabilizable (, A) se llama variable
aleatoria en (E, S) a una funci on X : E tal que la preimagen de todo
conjunto S de S es un suceso.
Para indicar que X es una variable aleatoria de (, A) en (E, S), puede
escribirse X : (, A) (E, S).
En particular, cuando E sea R y no se indique lo contrario, se convendr a
en tomar como -algebra S, la de Borel, descrita en el Ejercicio 1.1.8, cuya
denicion se indica a continuaci on.
Denici on 3.1.2 Llamamos -algebra de Borel de R a la mnima - algebra
que contiene los intervalos.
25
26
Enrique M. Caba na.
Captulo 3: Variables aleatorias.
Nota 1. Cuando se haga referencia a una variable aleatoria real, se so-
breentender a que es una variable aleatoria en (R, B) donde B es la -algebra
de Borel de R.
Nota 2. A las variables aleatorias del espacio probabilizable (, A) en
el espacio probabilizable (E, S), se las llama tambien funciones medibles de
(, A) en (E, S), particularmente cuando el contexto en el que se las utiliza
no es el de la teora de las probabilidades.
Ejercicio 3.1.1 Observar que la denici on de variable aleatoria X : (, A)
(E, S) es tanto mas exigente cuanto mas rica es S, mientras que, cuando S es muy
reducida, la denici on es poco exigente. En el caso extremo S = {, }, cualquier
funci on de en E es una variable aleatoria, no impoorta cu al sea la -algebra A.
Observar tambien que ocurre un fen omeno inverso con A: Puede elegirse A
de manera que cualquier funci on de en E sea una variable aleatoria? Puede
elegirse A de manera que ninguna funci on de en E sea una variable aleatoria? Si
la respuesta es armativa, indicar c omo se elige A, y si es negativa, describir cu al es
el caso extremo.
Ejercicio 3.1.2 (i) Dada una funci on X : E, mostrar que la familia S
X
=
{S E : X
1
(S) A} (subconjuntos de E cuya preimagen es un suceso), es
una -algebra.
(ii) Vericar que X es una variable aleatoria en (E, S
X
).
(iii) Mostrar que es equivalente que X : (, A) (E, S) sea una variable aleatoria,
a que S este incluido en S
X
.
(iv) Mostrar que la familia A
X
= {X
1
(S) : S S} es una -algebra, y que X es
una variable aleatoria de (, A
X
) en (E, S).
(v) Mostrar que es equivalente que X : (, A) (E, S) sea una variable aleatoria
a que A
X
este incluida en A.
A la familia A
X
se la llama - algebra generada por X. De acuerdo a su
construcci on, es la mnima -algebra respecto de la cual X es medible.
Ejercicio 3.1.3 Mostrar que si X : (, A) (E, S) es una variable aleatoria,
entonces, cualquiera sea la funci on medible g : (E, S) (E, S), g X : (, A)
(E, S) es una variable aleatoria.
Lema 3.1.1 Una funci on X : R es una variable aleatoria (en (R, B)) si
y s olo si para todo par de n umeros reales a, b, el conjunto { : a X() b}
es un suceso.
3.1. Introducci on. 27
Demostraci on. Cuando X : (, A) (R, B) es una variable aleatoria, { :
a X() b} A, porque [a, b] es un conjunto de Borel. Recprocamente,
{ : a X() b} A implica [a, b] S
X
, de modo que la mnima -algebra
B que contiene a {[a, b] : a, b R}, est a en S
X
y se aplica la proposici on (iii)
del Ejercicio 3.1.2. 2
Denici on 3.1.3 Dada una variable aleatoria X: (, A) (E, S), la funci on
P
X
: S R denida por medio de P
X
(S) = P(X
1
(S)) = P({ : X() S})
se llama distribuci on de probabilidad de la variable aleatoria X.
Teorema 3.1.1 La terna (E, S, P
X
) es un nuevo espacio de probabilidad.
Demostraci on. Para demostrar el Teorema hay que vericar que P
X
cumple
las propiedades (p
1
) y (p
2
) de la Denici on 1.2.1.
La primera es consecuencia de X
1
(R) = , y la segunda, de que para
cada sucesion de conjuntos disjuntos (S
n
)
n=1,2,...
en S, se cumple
P
X
n=1
S
n
= P
X
1
n=1
S
n
= P
n=1
X
1
(S
n
)
n=1
P(X
1
(S
n
)).
2
Denici on 3.1.4 Se llama funci on de distribuci on de probabilidad de una
variable aleatoria real X a la funci on F
X
: R R
+
denida por F
X
(x)
= P
X
((, x]) = P(X
1
((, x]) = P({ : X() x}).
Notaci on. En lo sucesivo, denotaremos un suceso de la forma
{ : X() cumple la propiedad P},
en la forma abreviada
{X cumple la propiedad P}.
Para recordar el origen de la abreviatura, mantendremos las llaves { },
pero eliminaremos en cambio la menci on explcita del punto generico de .
En particular, escribiremos {X x} en lugar de { : X() x}, y
aligeraremos algo m as las notaciones, escribiendo P{X cumple P} en vez de
P({X cumple P}).
Teorema 3.1.2 La funcion de distribuci on de probabilidad F
X
de una variable
aleatoria real X, satisface las propiedades:
28
Enrique M. Caba na.
(d
1
) F
X
es no decreciente,
(d
2
) F
X
es continua por la derecha,
(d
3
) F
X
()(= lim
x
F(x)) = 0, F
X
(+)(= lim
x+
F(x)) = 1.
Demostraci on. Si x < y, entonces F
X
(x) = P{X x} P{X x} +
P{x < X y} = P{X y} = F
X
(y), y esto prueba (d
1
). Para demostrar
(d
2
), nos damos una sucesi on decreciente x
n
x, y aplicamos el Teorema 1.2.1
a la sucesion decreciente de conjuntos de Borel (, x
n
] y a la probabilidad P
X
. Obtenemos lim
n
F
X
(x
n
) = lim
n
P
X
((, x
n
]) = P
X
(
n=1
(, x
n
])
= P
X
((, x]) = F
X
(x). La demostraci on de (d
3
) es similar. 2
Observaci on. A partir de la funci on de distribuci on de X se calcula la
probabilidad de que X pertenezca a un intervalo semiabierto (a, b] en la forma
P{a < X b} = F
X
(b) F
X
(a),
como resulta del c alculo realizado para la demostraci on de (d
1
).
Ejercicios.
Ejercicio 3.1.4 Vericar que, si F
X
es la funci on de distribuci on de X, se cumplen
(i) P{a < X b} = F
X
(b) F
X
(a),
(ii) P{X = x} = F
X
(x) F
X
(x
),
(iii) P{a X b} = F
X
(b) F
X
(a
), P{a < X < b} = F

X
(b
) F
X
(a),
P{a X < b} = F
X
(b
) F
X
(a
).
Ejercicio 3.1.5 Mostrar que, si X Y , entonces F
X
F
Y
.
3.2 Dos teoremas de existencia.
Enunciamos a continuaci on dos teoremas cuyas demostraciones, que pueden
ser salteadas en una primera lectura, incluimos en 13.1.
Teorema 3.2.1 Teorema de extensi on de probabilidades de Kolmogorov.
Dada una funcion p en un algebra A
0
de subconjuntos de con las propiedades
3. N2.- Kolmogorov. 29
p() = 1,
para cualquier sucesi on A
1
, A
2
, . . . , A
n
, . . . de conjuntos disjuntos en A
0
cuya uni on tambien est a en A
0
, se cumple p(
n=1
A
n
) =
n=1
p(A
n
),
existe una unica probabilidad P en la mnima - algebra que contiene al algebra
dada, cuya restricci on al algebra es p, denida por
P(A) = inf
j=1
p(A
j
) : (A
j
)
jN
cubrimiento disjunto de A en A
0
. (3.1)
Un cubrimiento disjunto de A en A
0
es cualquier sucesi on disjunta (A
j
)
jN
de conjuntos contenidos en A
0
, cuya union contiene a A.
El teorema precedente permite concluir un recproco del Teorema 3.1.2,
que expresa lo siguiente:
Teorema 3.2.2 Si F : R R satisface las propiedades (d
1
), (d
2
) y (d
3
) del
enunciado 3.1.2, entonces existe una probabilidad P
(F)
en (R, B) tal que
F(x) = P
(F)
((, x]).
Corolario 3.2.2.1 En las condiciones del Teorema 3.2.2, existe una variable
aleatoria X
F
cuya funci on de distribuci on es F.
Demostraci on del corolario: La construcci on de una X
F
es inmediata a
partir del Teorema 3.2.1 pues basta tomar como espacio de probabilidad (R,
B, P
(F)
) y como variable aleatoria X
F
: R R a la identidad. De esta manera
su funcion de distribuci on en x es P
(F)
{X
F
x} = P
(F)
((, x]) = F(x). 2
N2.- Kolmogorov, A. N. (1903-1987).
Andrei Nicolaievich Kolmogorov fue uno de los matematicos mas creativos
del siglo pasado, con aportes en muy diversas ramas de la matematica.
Nacio en Tambov (Rusia) en 1903 y murio en Mosc u en 1987.
En un artculo publicado en 1933 realizo una construccion rigurosa de la teora de la probabilidad. Antes
ya haba obtenido condiciones necesarias y sucientes para la Ley de los Grandes N umeros, y publicado las
30
Enrique M. Caba na.
bases de la teora moderna de los procesos de Markov. En trabajos posteriores enfatizo el papel de la
probabilidad en el analisis de muchos fenomenos fsicos, realizo aportes al estudio de la turbulencia, y a los
sistemas dinamicos en vinculacion con el movimiento de los planetas. Otra de sus contribuciones mayores
fue la introduccion de la medida de complejidad de algoritmos que lleva su nombre. Una lista detallada de
los temas de la matematica a los que realizo aportes originales, dejara muy pocos sin mencionar.
En muchos casos, sus trabajos se nalaron profundas vinculaciones entre temas que solan estudiarse
separadamente. Otros de sus aportes fundamentales a la probabilidad y a la estadstica matematica, ademas
de su trabajo pionero de fundamentacion de la probabilidad, fueron sus estudios de la dependencia y sus
contribuciones a la teora de los procesos estocasticos. Su celebrada prueba de ajuste basada en la utilizacion
de una distancia entre la distribucion emprica y la distribucion hipotetica, data de 1937.
Ademas de su actividad como investigador, por la que fue designado integrante de la Academia de
Ciencias de Mosc u, y por la que recibio el Premio Lenin, dedico muchos esfuerzos al mejoramiento de la
ense nanza de la matematica en los colegios secundarios, y a la formacion en matematica de los estudiantes
mas destacados.
3.3 Variables discretas y absolutamente con-
tinuas.
Denici on 3.3.1 (i) Una variable aleatoria se dice discreta cuando su
recorrido es un conjunto discreto S, es decir, un conjunto de puntos
de R cuya intersecci on con cualquier intervalo contiene una cantidad
nita de elementos. A la funci on que a cada punto x de S le asocia la
probabilidad P{X = x}, se la suele llamar funci on de cuanta de la
distribuci on de probabilidad.
(ii) Una variable se dice absolutamente continua cuando su funci on de
distribuci on tiene derivada seccionalmente continua, y, por lo tanto, la
funci on de distribuci on puede escribirse como integral de su derivada. A
la derivada de la funci on de distribuci on se la llama funci on de densi-
dad de la distribuci on de probabilidad.
Observemos que cuando el recorrido de una variable aleatoria discreta X es
el conjunto S = {x
i
: i = 1, 2, . . .}, entonces las probabilidades p
i
= P{X = x
i
}
bastan para determinar la distribuci on de probabilidades de X, y, en particular,
la funci on de distribuci on F
X
(x) =
x
i
x
p
i
. La funcion de distribuci on resulta
ser una funci on de saltos o en escalera.
Para el caso de una variable absolutamente continua, si la densidad de
distribuci on de probabilidad es f
X
, entonces
F
X
(x) =
f
X
(t)dt, P{a < X b} =
b
a
f
X
(t)dt.
Como F
X
resulta continua, para cualquier x se cumple P{X = x} = 0, de
modo que los intervalos (a, b], [a, b], [a, b), [a, b] tienen la misma probabilidad.
3.3. Variables discretas y absolutamente continuas. 31
-
6
1
0
x
n
x
n1
x
i
x
3
x
2
x
1
p
1
p
2
p
3
p
i
p
n1
p
n
Figura 3.1: La funci on de distribuci on de probabilidades de una variable X
discreta es una funci on en escalera con salto en cada punto x
i
del recorrido
igual a la cuanta p
i
= P{X = x
i
}. El esquema de la gura corresponde a una
variable con recorrido nito.
Obviamente, toda densidad de distribuci on de probabilidades debe ser no
negativa y satisfacer
f
X
(t)dt = 1.
Recprocamente, si f satisface esas condiciones, es claro que
F(x) =
f
X
(t)dt
satisface (d
1
), (d
2
) y (d
3
), y por consiguiente f es una funci on de densidad de
probabilidad.
An alogamente, toda funci on de cuanta p : S R debe ser no negativa y
satisfacer
xS
p(x) = 1,
y, recprocamente, toda funci on con esas propiedades dene una distribuci on
de probabilidades que a cada A asocia

xSA
p(x), de la cual es funci on de
cuanta.
32
Enrique M. Caba na.
a b
f
X
Figura 3.2: Para una distribuci on absolutamente continua, el area bajo el
gr aco de la funci on de densidad de distribuci on en un intervalo representa la
probabilidad de que la variable este en ese intervalo.
Ejercicios.
Ejercicio 3.3.1 Se arroja una moneda hasta que salga cara por primera vez. Lla-
mamos X al n umero necesario de lanzamientos. Calcular: (a) P{X = par}, (b)
P{X 5}, (c) P{X = m ultiplo de 3}
Ejercicio 3.3.2 Encontrar la distribuci on de la variable aleatoria X del enunciado
precedente.
Ejercicio 3.3.3 Se dice que X tiene distribuci on geometrica (y se abrevia X
Geo(p)) cuando P{X = h} = (1 p)
h
p (h = 0, 1, 2, . . .).
(a) Calcular P{X h},
(b) Si Y es el mnimo entre X y M, calcular P{Y = h}.
(c) Calcular P{X Y = par}.
Ejercicio 3.3.4 Se eligen al azar e independientemente cuatro puntos X
1
, X
2
, X
3
,
X
4
en una circunferencia. Calcular la probabilidad de que la cuerda que une X
1
con
X
2
y la que une X
3
con X
4
se corten.
Ejercicio 3.3.5 Se realizan n repeticiones independientes de un experimento. En
cada una de ellas, la probabilidad de que ocurra un cierto resultado A es p. Calcular
la probabilidad de que al cabo de las n repeticiones, el n umero de veces que ocurre
A sea h, para cada h = 0, 1, 2, . . . , n.
3.4. Algunos ejemplos de variables aleatorias. 33
Ejercicio 3.3.6 Llamemos X a la duraci on de un componente electr onico, y su-
pongamos que X se puede representar como una variable aleatoria continua con
densidad exponencial: f(x) = e
x
, x 0. Mostrar que p
j
= P{j X < j +1} es
de la forma (1 a)a
j
. Determinar a.
Ejercicio 3.3.7 X tiene densidad constante en [0, 1] y cero, fuera de ese intervalo.
(i) Hallar la distribuci on de probabilidad de la n-esima cifra decimal de X.
(ii) Hallar la distribuci on de la n-esima cifra del desarrollo binario de X.
Comparar con los resultados del Ejercicio 2.3.8.
Ejercicio 3.3.8 X tiene distribuci on absolutamente continua F
X
y se dene una
nueva variable aleatoria Y por medio de Y = g(X), donde g es una funci on deri-
vable, estrictamente creciente. Calcular las funciones de distribuci on y de densidad
de probabilidad de Y . Repetir el calculo para el caso en que g es estrictamente
decreciente.
Ejercicio 3.3.9 Si X tiene funci on de distribuci on F en (R, B), encontrar la fun-
cion de distribuci on de F(X).
3.4 Algunos ejemplos de variables aleatorias.
Vamos a describir expresamente las distribuciones de algunas variables alea-
torias de frecuente aplicaci on, que ya han intervenido en ejercicios propuestos
m as arriba.
3.4.1 Variables asociadas a ensayos repetidos.
Distribuci on de Bernoulli
Convengamos en describir la ocurrencia de un suceso A mediante su funci on
indicatriz
1
A
() =
1 si A,
0 si A.
1
A
es una variable aleatoria, con valores posibles 0 y 1, y su distribuci on de
probabilidades es discreta, con probabilidades 1 P(A) y P(A) concentradas
en 0 y 1 respectivamente. A esta distribuci on se la denomina de Bernoulli, de
par ametro P(A), y abreviaremos 1
A
Ber(P(A)).
34
Enrique M. Caba na.
Distribuci on binomial
Consideremos un experimento aleatorio que se repite sucesivamente con inde-
pendencia de las repeticiones anteriores. Llamemos A a uno de sus resultados
posibles, y p a la probabilidad de que ocurra A. Llamamos X
n
a la variable ale-
atoria (de Bernoulli) indicatriz del suceso A ocurre en la n-esima repetici on,
es decir, X
n
vale 1 si A ocurre en la n-esima repetici on, y vale 0 si no ocurre.
Llamamos binomial con par ametros n, p (abreviado Bin(n, p)) a la variable
B =
n
j=1
X
j
, o a cualquiera que tenga su misma distribuci on de probabilida-
des. Se trata obviamente de una variable discreta, pues sus valores posibles
son 0, 1, 2, . . . n. Su distribuci on queda determinada por los valores P{B = h}
= P{Bin(n, p) = h}.
Para n > 1, el suceso {Bin(n, p) = h} = {
n
j=1
X
j
= h} se descompone
como uni on (disjunta) de {
n1
j=1
X
j
= h} {X
n
= 0} y {
n1
j=1
X
j
= h 1}
{X
n
= 1}. En ambos casos los sucesos que se interceptan son independientes, y
sus probabilidades son P{Bin(n1, p) = h}, 1p, P{Bin(n1, p) = h1}, p,
respectivamente. Resulta entonces la relaci on de recurrencia P{Bin(n, p) = h}
= P{Bin(n 1, p) = h}(1 p) + P{Bin(n 1, p) = h 1}p.
Se observar a que en el caso h = n, el suceso {
n1
j=1
X
j
= h} es vaco, pero la
ecuaci on sigue siendo v alida, ya que P{Bin(n1, p) = h} = 0. An alogamente,
si h = 0, {
n1
j=1
X
j
= h 1} es vaco, pero la ecuaci on tambien sigue siendo
v alida.
Con las nuevas variables g
n,h
= P{Bin(n, p) = h}/[p
h
(1 p)
(nh)
], la
ecuaci on precedente se reduce a g
n,h
p
h
(1p)
(nh)
= g
n1,h
p
h
(1p)
(n1h)
(1p)
+ g
n1,h1
p
h1
(1 p)
(nh)
p, es decir,
g
n,h
= g
n1,h
+g
n1,h1
.
Esto muestra que para obtener los n umeros g
n,h
se puede proceder de
la misma manera que para obtener los n umeros binomiales por medio del
tri angulo de Tartaglia.
En efecto, en el tri angulo:
g
1,0
g
1,1
g
2,0
g
2,1
g
2,2
g
3,0
g
3,1
g
3,2
g
3,3
. . . . . . . . . . . . . . . . . . . . . . . . . . .
g
n,0
g
n,1
g
n,2
. . . g
n,h
. . . g
n,n
3.4. Algunos ejemplos de variables aleatorias. 35
cada elemento se obtiene sumando los dos inmediatos que est an arriba a la
izquierda y arriba a la derecha. Cuando se trata de los extremos de la la,
se procede como si la la anterior estuviera continuada con ceros hacia ambos
lados.
Para terminar el c alculo, basta observar que P{Bin(1, p) = 0} = P{X
1
=
0} = 1p, y que P{Bin(1, p) = 1} = P{X
1
= 1} = p, de donde deducimos que
los elementos g
1,0
, g
1,1
de la primera la del tri angulo son precisamente iguales
a los n umeros combinatorios
1
0
1
1
, lo que implica que todo el tri angulo

coincide con el Tri angulo de Tartaglia. Naturalmente, puede agregarse una
primera la con un unico elemento igual a 1, que corresponde a la variable
Bin(0, p) trivialmente igual a cero.
Dado que g
n,h
=
n
h
, resulta P{Bin(n, p) = h} =
n
h
p
h
(1 p)
(nh)
. Esta
ultima f ormula puede obtenerse tambien a partir de la relaci on de recurrencia
original, por inducci on completa, sin necesidad de introducir las variables g
n,h
y utilizar el Tri angulo de Tartaglia.
Distribuci on geometrica
Repetimos un experimento con las mismas caractersticas que en el caso ante-
rior, es decir, las sucesivas repeticiones son independientes, y en cada una de
ellas ocurre A, con probabilidad p.
Llamamos variable geometrica con par ametro p, abreviado Geo(p), al n u-
mero de ensayos que deben realizarse antes de obtener por primera vez el
resultado A, o a cualquier variable con la misma distribuci on.
El suceso {Geo(p) = h} se cumple cuando en las primeras h1 repeticiones
no ocurre A y en la siguiente (la h-esima) ocurre.
La probabilidad de que esto suceda es P{Geo(p) = h} = (1 p)
h1
p, por
la independencia de las sucesivas repeticiones.
Advertencia. Supongamos que Y tiene distribuci on geometrica con par ame-
tro p de acuerdo a la denici on precedente, es decir, que puede interpretarse
como el n umero de intentos hasta el primer exito en la sucesi on de ensayos
descrita arriba. Tambien suele decirse que tiene distribuci on geometrica con
par ametro p la variable Z = Y 1, que corresponde al n umero de fracasos
antes del primer exito, y no cuenta el ultimo intento exitoso. Se trata de dos
distribuciones diferentes, la de Z con valores posibles 0, 1, 2, 3, . . ., y la de Y
con valores posibles 1, 2, 3, . . ., y con probabilidades P{Z = h} = (1 p)
h
p,
P{Y = h} = (1 p)
(h1)
p.
Cuando se encuentren referencias a distribuciones geometricas, ser a nece-
sario en cada caso referirse al contexto, para saber cu al de las situaciones
36
Enrique M. Caba na.
mencionadas es la aludida.
N3.- Bernoulli, Jacob (1654-1705).
Jacob Bernoulli, nacido el 27 de diciembre de 1654 in Basilea,
Suiza, fue uno de los integrantes de una familia de cientcos,
varios de los cuales realizaron importantes aportes a la proba-
bilidad.
La familia Bernoulli, de origen belga, debio emigrar a Suiza
huyendo, como muchos protestantes, de la persecucion de los
catolicos espa noles que reinaban en los Pases Bajos.
Aunque debio graduarse en losofa (1671) y teologa (1676)
por imposicion paterna, fue tambien el primero en la familia
en dedicarse al estudio de la matematica y de la astronoma,
siguiendo su vocacion. Estudio con Malebranche en Francia,
y con Boyle y con Hooke en Inglaterra.
A partir de 1683 ense no mecanica en la Universidad de Basilea,
y a partir de 1687, tambien matematica. El y su hermano
menor y discpulo Johann, fueron los primeros en estudiar y
aplicar las teoras de Leibniz sobre el calculo diferencial. La co-
laboracion entre los hermanos se transformo pronto en una ri-
validad, alimentada por la competencia por el reconocimiento
a sus propios meritos, y por las posiciones a ocupar, que los
llevo a romper relaciones en 1697.
Un resumen de las contribuciones de Jacob Bernoulli incluye trabajos sobre vnculos entre el algebra y
la logica, probabilidad, geometra, series y el calculo de variaciones y las ecuaciones diferenciales.
Entre otros resultados, publico la Ley de los Grandes N umeros para las frecuencias de ocurrencia de un
resultado en observaciones repetidas, en 1689.
La publicacion mas importante de Bernoulli fue su opus postumo Ars Conjectandi (Basilea, 1713), un
celebre tratado de teora de la probabilidad, que incluye contribuciones de van Schooten y Leibniz, ademas
de las propias, en particular, su analisis de los resultados probabilsticos asociados a ensayos repetidos.
Ense no matematica en la Universidad de Basilea hasta su muerte en 1705. Su catedra fue luego de-
sempe nada por su hermano Johann.
La familia Bernoulli.
La importancia para la matematica y la fsica del trabajo cientco de parientes cercanos de Jacob Bernoulli
justica un breve esquema (indicado con apenas alguna palabra clave) de la naturaleza de esos aportes, y
de los vnculos de parentesco entre los cientcos que los produjeron:
3 N3.- Bernoulli. 37
Nicolaus
(1623-1708)
c
r
r
r
r j
Jacob Nicolaus Johann
(1654-1705) (1662-1716) (1667-1748)
Ensayos repetidos, Calculo diferencial,
Ley de los series, calculo
Grandes N umeros de variaciones.
c
c
d
d
Nicolaus Nicolaus Daniel Johann
(1687-1759) (1695-1726) (1700-1782) (1710-1790)
Series, calculo, Curvas, ecuacio- Vibraciones, pro- Calor,
ecuaciones nes diferenciales, babilidad, seguros, optica.
diferenciales. probabilidad. hidrodin amica.
c
d
d
Johann Daniel Jacob
(1744-1807) (1751-1834) (1759-1789)
Probabilidad, Elasticidad,
astronoma. hidrostatica.
La siguiente cronologa muestra las coincidencias en el tiempo de los miembros de la familia con otros
notables matematicos.
38
Enrique M. Caba na.
3.4.2 Dos distribuciones absolutamente continuas.
Distribuci on uniforme.
Decimos que X tiene distribuci on uniforme en el intervalo (a, b) (abreviado,
X Uni(a, b)) cuando su densidad de distribuci on de probabilidades es con-
stante en (a, b) y cero fuera de ese intervalo. Se deduce que el valor de esa
constante debe ser 1/(b a), para que la integral de la densidad en toda la
recta sea 1. Observese, por ejemplo, que la variable X del Ejercicio 2.3.8
tiene distribuci on uniforme en (0, 1). Se observar a que la probabilidad que
la distribuci on uniforme asocia a cada conjunto de (a, b) es invariante bajo
traslaciones.
La funci on F(x) =
0, si x < a,
xa
ba
, si a x b,
1, si b < x,
cumple las propiedades de una
funcion de distribuci on, de modo que, por el corolario del Teorema 3.2.2, exis-
te una variable aleatoria en (R, B) con esa funci on de distribuci on, es decir,
uniforme en (a, b).
Observaci on: Es interesante notar, sin embargo, que es necesario dotar a R de una
-algebra m as peque na que 2
R
(como lo es la de Borel, de acuerdo a lo que resulta
de los argumentos que siguen), para poder asegurar la existencia de variables con la
distribuci on uniforme. En efecto, vamos a vericar que no existe una variable aleatoria
U en (R, 2
R
), con valores en un intervalo (a, b), cuya distribuci on de probabilidad sea
invariante bajo traslaciones, es decir, tal que si A, B son dos subconjuntos de (a, b)
y B se obtiene como resultado de aplicar a A una traslaci on, entonces P{Z A} =
P{Z B}.
Por comodidad, tomamos a = 0, b = 2, e identicamos los puntos x del intervalo
[0, 2) con los puntos (cos x, sin x) de la circunferencia C de radio 1. A cada punto
(cos x, sin x) asociamos el conjunto A
x
= {(cos(n + x), sin(n + x)) : n entero }. Es
inmediato vericar que el giro que lleva el punto (cos x, sin x) en el punto (cos y, sin y)
aplica A
x
en A
y
. Como cada A
x
es un conjunto numerable, no llena C, y es claro
que si (cos y, sin y) no pertenece a A
x
, entonces A
x
A
y
= . Vamos a partir C
en conjuntos de la forma A
x
, y vamos a llamar a un subconjunto de C formado
con un punto de cada uno de los A
x
, es decir, tal que (cos x, sin x), (cos y, sin y) ,
(cos x, sin x) = (cos y, sin y) implica A
x
= A
y
, y
(cos x,sin x)
A
x
= C.
Este conjunto es innito, porque lo contrario implicara que C sera numerable. Por
la construccion, la circunferencia C se obtiene como uni on (disjunta) de los conjuntos
n
= {(cos(n + x), sin(n + x)) : (cos x, sin x) }, que se obtienen girando en un
angulo n, para cada n entero. Como estos conjuntos se obtienen uno de otro por
medio de un giro en C, que equivale a una traslaci on modulo 2 en el intervalo, la
distribuci on uniforme debe atribuir a cada uno de ellos la misma probabilidad.
3 N3.- Bernoulli. 39
De all resultara 1 = P([0, 2)) = P(C) = P
n=
n=
P(
n
), y esta
serie cuyos sumandos son todos iguales no puede converger a 1.
Esta contradicci on muestra que no puede pretenderse denir una distribuci on uni-
forme sobre todos los subconjuntos del intervalo. No hay contradicci on con la exis-
tencia de la distribuci on uniforme sobre la -algebra de Borel. Lo que necesariamente
ocurre, es que los conjuntos
n
no son de Borel. En particular, de este argumento se
deduce que la -algebra de Borel es estrictamente mas peque na que la de todos los
subconjuntos de R.
Distribuci on exponencial.
Llamemos T a una variable aleatoria que representa la duraci on de una pieza
que no envejece, pero que puede ser destruida accidentalmente. Vamos a des-
cribir un modelo para la distribuci on de probabilidades de T que corresponde
al caso en que la propensi on a la ocurrencia de accidentes que pueden destruir
la pieza es constante en el tiempo, y no depende de la historia anterior del
proceso que estamos considerando. En tal caso, como la pieza no envejece,
cuando sabemos que en el instante t a un no se ha destruido, desde entonces
en adelante tenemos para ella la misma expectativa de duraci on que en el mo-
mento en que la colocamos en el sistema. (Se trata, por ejemplo, de un modelo
bastante natural para describir la vida de una componente electr onica del tipo
de un transistor, o un diodo, cuya duraci on depende de las sobreintensidades
accidentales que circulan por ella por causa del funcionamiento del circuito
en el que est an incluidas, pero no de efectos de envejecimiento propios de la
pieza.)
Esto nos lleva a exigir P{T > t +s|T > t} = P{T > s}, para cualesquiera
s, t 0, es decir,
P({T > t +s} {T > t})
P{T > t}
= P{T > s}.
De aqu resulta, teniendo en cuenta que {T > t+s}{T > t} = {T > t+s},
que para s, t 0 se cumple P{T > t + s} = P{T > s}.P{T > t}, o, con
g(t) = log P{T > t},
g(s + t) = g(s) +g(t). (3.2)
Como P{T > t} decrece con T, lo mismo ocurre con g y las unicas solu-
ciones mon otonas de la ecuaci on funcional (3.2) (ver Lema 3.6.1) son de la
forma g(t) = t, donde es una constante (positiva, para que g sea mon otona
decreciente). Deducimos que P{T > t} = e
t
.
40
Enrique M. Caba na.
Cuando una variable aleatoria T tiene funcion de distribuci on de probabi-
lidad P{T t} = 1 e
t
(t 0), decimos que su distribuci on es exponencial
con par ametro . Lo abreviaremos Exp().
3.5 Construcci on explcita de variables alea-
torias en R, con funci on de distribuci on F
dada, a partir de U Uni(0, 1).
Al resolver el Ejercicio 3.3.9 se habr a observado que cuando X tiene funcion
de distribuci on F continua, U = F(X) es uniforme en (0, 1). Esto sugiere
que para construir una variable aleatoria real X con funci on de distribuci on
F, a partir de una variable aleatoria U uniforme en (0, 1) basta invertir la
correspondencia U = F(X) al menos cuando F es continua, y adem as existe
la funci on inversa. El siguiente enunciado introduce una inversa generalizada
de F, e indica un resultado algo m as general.
Teorema 3.5.1 Si U Uni(0, 1) y F es una funci on de distribuci on en R,
entonces X = F
1
(U) F, con
F
1
(u) = inf{x : F(x) u}.
Demostraci on. P{F
1
(U) x} = P{inf{y : F(y) U} x} = P{U
F(x)} = F(x). 2
Nota: El resultado anterior interesa cuando se quiere simular variables aleatorias por
medio de una computadora o una calculadora manual, porque unas y otras suelen te-
ner procedimientos que simulan sucesiones de variables aleatorias uniformes en (0, 1),
independientes. Se trata de procedimientos determinsticos, que producen sucesiones
de n umeros del intervalo (0, 1) totalmente previsibles, pero cuyo comportamiento se
asemeja al de variables uniformes independientes obtenidas por alg un procedimiento
de sorteo. Uno de los metodos mas simples y mas utilizados para dicha generaci on de
n umeros seudo aleatorios, como se les suele llamar, es el siguiente: Se elige un entero
positivo p muy grande, dos enteros positivos A, B, y un valor inicial X
0
, tambien
entero, comprendido entre 0 y p 1. A partir de estos valores iniciales, se calculan
sucesivamente X
n
= A + BX
n1
[mod p], y se toma la sucesion U
n
= X
n
/p como
salida del proceso.
Cuando los n umeros p, A, B estan bien elegidos, la sucesion U
1
, U
2
, . . . que se obtiene
se comporta de manera similar a una sucesion de variables uniformes en (0, 1) inde-
pendientes. Un comentario sobre el signicado de expresiones tales como se comporta
de manera similar, puede encontrarse en la nota biogr aca sobre Karl Pearson, al
n de este captulo, donde se menciona la aparici on de la primera prueba de ajuste.
3.6. Soluci on de una ecuaci on funcional. 41
Ejercicios.
Ejercicio 3.5.1 Si U
1
, U
2
, . . . son variables aleatorias independientes e identica-
mente distribuidas con distribuci on uniforme en (0, 1) (lo abreviamos U
1
, U
2
, . . .
i.i.d. Uni(0, 1)), y X
i
= log U
i
, (i = 1, 2, . . .) entonces (X
i
)
i=1,2,...
son i.i.d.
Exp(1), y (X
i
)
i=1,2,...
son i.i.d. Exp(1/).
1
, U
2
, . . . son i.i.d. Uni(0, 1), entonces
(a)
ni
j=n(i1)+1
1
{U
j
p}
i=1,2,...
y
(b)
j=0
j1
{
j1
h=0
p
n,h
<U
i
j
h=0
p
n,h
}
i=1,2,...
, con p
n,h
= P{Bin(n, p) = h}
son i.i.d. Bin(n, p).
1
, U
2
, . . . son i.i.d. Uni(0, 1), entonces la sucesion denida
recursivamente H
0
= 0, H
i
= min
j :
H
i1
+j
k=H
i1
+1
1
{U
k
p}
1
es i.i.d. Geo(p).
Ejercicio 3.5.4 Si X
1
, X
2
, . . . son i.i.d. Exp(), entonces ([X
i
])
i=1,2,...
([X]
designa la parte entera de X) son i.i.d. con distribuci on geometrica. Cu al es el
par ametro?
3.6 Soluci on de la ecuaci on funcional g(s + t)
= g(s) +g(t), s, t > 0. Probabilidad e infor-
maci on.
Completamos este captulo con la demostraci on del Lema utilizado para re-
solver la ecuaci on funcional (3.2) y con otra aplicaci on de la misma ecuaci on.
3.6.1 Las soluciones de la ecuaci on.
Lema 3.6.1 Cuando g : R
+
R es solucion de la ecuaci on funcional
g(s +t) = g(s) +g(t), s, t > 0
o bien es de la forma g(t) = tg(1) o bien su gr aco es denso en un angulo con
vertice en el origen.
42
Enrique M. Caba na.
Demostraci on. Observemos que, aplicando (3.2) con s = 1/m, 2/m, 3/m, . . ., t =
1/m, se obtiene respectivamente
g(2/m) = g(1/m) +g(1/m) = 2g(1/m),
g(3/m) = g(2/m) +g(1/m) = 3g(1/m),
g(4/m) = g(3/m) +g(1/m) = 4g(1/m),
. . . . . . . . . . . . . . . . . . . . . . . .
g(n/m) = ng(1/m). (3.3)
En particular, con n = m en esta ultima igualdad, obtenemos g(1) = mg(1/m), de
modo que g(1/m) = (1/m)g(1). Reemplazamos ahora esta expresion de g(1/m) en
(3.3), y obtenemos g(r) = rg(1), que vale para todo racional positivo r puesto que m
y n son enteros positivos arbitrarios.
Finalmente, o bien esta f ormula vale para todo t en R
+
, o bien existe un irracional
u tal que g(u) = cu con c = g(1). Como la funci on h(t) = g(tu) satisface la misma
ecuacion (3.2), se cumple h(r) = rh(1) para todo r racional positivo, es decir, g(ru) =
rg(u) = cru. Tomemos un punto cualquiera del angulo formado por las combinaciones
lineales con coecientes no negativos de los vectores (1, g(1)) y (u, g(u)). Si las coor-
denadas de este punto son ( +u, g(1) +g(u)), con , 0, podemos encontrar
un par de sucesiones (r
n
), (s
n
) de racionales no negativos tales que lim
n
r
n
= ;
lim
n
s
n
= . Se cumple entonces g(r
n
+s
n
u) = g(r
n
) +g(s
n
u) = r
n
g(1) +s
n
g(u).
Esto indica que la sucesion de puntos (r
n
+s
n
u, r
n
g(1) +s
n
g(u)) esta en el gr aco de
g y por la construcci on de las sucesiones (r
n
), (s
n
), converge a (+u, g(1)+g(u)).
2
3.6.2 La informaci on.
La probabilidad de un suceso est a vinculada a la cantidad de informaci on
que proporciona saber que ha ocurrido. Es por eso que saber que hemos sido
favorecidos en un sorteo realizado entre un n umero muy grande de postulantes
que participan en condiciones de equitatividad - una lotera, por ejemplo - nos
resulta mucho m as informativo que saber que no fuimos favorecidos, ya que,
sin duda, esto ultimo era lo que, razonablemente, esper abamos que ocurriera.
Lo que vuelve sorprendente el hecho de haber ganado no es el tama no
del premio, sino su escasa probabilidad. Y si en vez de un premio, lo que
se sorteara con iguales probabilidades fuera un castigo, tambien resultara
igualmente sorprendente.
Convengamos entonces en medir la informaci on que nos aporta saber que
ha ocurrido un suceso A por medio de una funci on g(P(A)) que decrece cuando
crece P(A).
3.6. Soluci on de una ecuaci on funcional. 43
(1, g(1))
a
1 rn snu
(u, g(u))
a
u
(1, g(1)) +(u, g(u))
a
-
6
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
22

2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
Figura 3.3: El gr aco de la soluci on de g(s +t) = g(s) +g(t) es una semirrecta
o es denso en un angulo.
Resulta razonable adem as establecer que si A y B son sucesos indepen-
dientes, la informaci on proporcionada por saber que ocurren ambos sucesos
es la suma de las informaciones correspondientes a saber que ocurre cada uno
de ellos. Esta propiedad, que podemos expresar en la forma g(P(A)P(B))
= g(P(A))+g(P(B)) una vez que hemos convenido en expresar la informaci on
como una funci on de la probabilidad, se justica porque cuando A y B son
independientes, la informaci on ocurre A no cambia nuestra composici on de
lugar respecto de la ocurrencia de B, y por lo tanto agregar a ella la informaci on
ocurre B nos aporta tanto despues de saber que ocurre A como nos hubiera
aportado antes de saberlo. En cambio, si A y B no fueran independientes y
ya sabemos que ocurre A, nuestra sorpresa al enterarnos que tambien ocurre
B ser a funcion de P(B|A) (= P(B)) y no de P(B), que, despues de saber que
ocurri o A, ya no es relevante.
Estas dos propiedades, (i) que la informaci on que aporta ocurre A es
g(P(A)), con g mon otona, y (ii) que
g(pq) = g(p) +g(q) (3.4)
para cualesquiera p, q (0, 1) determinan la forma de la informaci on g. En
efecto, el cambio de variables p = e
s
, q = e
t
, s, t 0 transforma (3.4) en
44
Enrique M. Caba na.
g(e
st
) = g(e
s
) +g(e
t
) de modo que concluimos g(e
t
) = t, para alg un
valor de (positivo para que la informaci on misma sea no negativa).
La medida de la informaci on de ocurre A es entonces log P(A).
Se suele convenir que la unidad de informaci on es la que aporta saber cu al
de dos sucesos complementarios de probabilidad 1/2 es el que ocurre, es decir,
1 = log 1/2, de modo que, si hacemos esa convenci on binaria, estaremos
eligiendo = 1/ log 2 y g(P(A)) = log P(A)/ log 2 = log
2
P(A).
N4.- Pearson, Karl (1857-1936).
Karl Pearson nacio en Coldharbour, Surrey, Inglaterra. Fue un estudiante destacado, tercero en la lista
de honores de matematica en Cambridge (1879), y luego estudio en Alemania, donde se volvio un experto
en literatura en idioma aleman (y cambio la ortografa del nombre Carl con el que haba sido bautizado para
transformarse en homonimo de Karl Marx).
En 1884 fue designado Goldsmid Professor de matematica aplicada y mecanica en el University College
de Londres. Sus clases con conceptos modernos sobre la ciencia, constituyeron la base de The Grammar of
Science que publico en 1892, y sus clases sobre probabilidades y la losofa del azar fueron una solida base
para sus posteriores trabajos en biometra y estadstica. Motivado por el estudio de la evolucion y de la
herencia, fue uno de los fundadores de la estadstica moderna, y su trabajo llevo a la estadstica a ser una
rama de estudio independiente.
Pearson fue atrado al estudio de la biometra por su trabajo como profesor de matematica aplicada.
Fue Walter Weldon, que haba sido designado Profesor de Zoologa en el University College quien lo intereso
en el tema, al pedir su ayuda para resolver problemas estadsticos. Francis Galton, que haba arbitrado
artculos de Weldon, conocio a Pearson y le proveyo el apoyo intelectual y economico para la creacion del
Laboratorio de Biometra. En el, entre 1893 y 1901, Pearson produjo mas de treinta artculos sobre metodos
estadsticos. En ese perodo completo la derivacion del coeciente de correlacion iniciada por Francis Galton,
para ayudarlo a mostrar cuantitativamente la relacion entre las variables que intervenan en sus experimentos,
e introdujo el termino desviacion tpica (standard deviation). En 1899 publico la prueba chi-cuadrado.
Aplico los metodos estadsticos que el mismo contribuyo a desarrollar al estudio de muchos problemas
de la sociedad de su epoca, tales como la tuberculosis, el alcoholismo, y el retardo mental. Los resultados
que obtuvo, a menudo contradecan el pensamiento corriente de sus contemporaneos, lo que le atrajo la
crtica de autoridades de la medicina y de la administracion p ublica.
A pesar de la importancia de sus aportes a la teora, probablemente su mayor contribucion a la es-
tadstica fue poner de maniesto la importancia de la aplicacion de los metodos estadsticos, y lo hizo con
singular capacidad y habilidad, en particular, como fundador y editor de la revista Biometrika (1901-1936).
Se retiro del University College en 1933 tres a nos antes de su muerte.
3. N4.- Karl Pearson. 45
Los modelos aleatorios y las pruebas de ajuste.
Hasta nes del siglo XIX era habitual pensar todos los fenomenos naturales de manera determinstica.
Los modelos aleatorios para los fenomenos naturales se desarrollaron desde entonces, y posibilitaron una
verdadera revolucion en la manera de pensar los problemas de la fsica, la biologa, la economa, por ejemplo.
Todo el pensamiento cientco del Siglo XX esta permeado por la utilizacion de modelos aleatorios, e incluso
los intentos de volver al viejo determinismo, asociados al estudio de los sistemas caoticos, si bien tienen
importancia losoca y han motivado interesantes avances matematicos, no han aportado alternativas que
reemplacen a los modelos aleatorios.
Pearson, por su aporte cientco y por su inuencia como editor, fue uno de los grandes precursores de
esta nueva forma de pensar la naturaleza, gracias a la cual las observaciones empricas aparecen como un
reejo de una distribucion de probabilidad subyacente, que es el verdadero objeto de estudio.
Como consecuencia, el objeto de interes que es la distribucion de probabilidades nunca puede observarse.
Lo que puede observarse son resultados de fenomenos naturales, que proporcionan variables aleatorias con
la distribucion que, en denitiva, es lo que nos interesa conocer.
Dentro de este contexto, Pearson introdujo la primera prueba de ajuste que se conoce en la bibliografa,
aparecida en un artculo suyo de 1999. Se trata de un procedimiento estadstico por el cual, dadas las obser-
vaciones X
1
, X
2
, . . . , Xn de un fenomeno natural, que, como tales pueden considerarse variables aleatorias
con cierta distribucion F, se decide si es plausible que esa distribucion F sea cierta distribucion dada F
0
.
A tales procedimientos, se los llama pruebas de ajuste a la distribucion F
0
. El resultado de una prueba
de ajuste puede ser, o bien rechazar por inverosmil que F sea F
0
, o bien no rechazarlo, por considerar que
la informacion proporcionada por las observaciones X
1
, . . . , Xn no refuta esa suposicion.
46
Enrique M. Caba na.
4.

Tres aplicaciones vinculadas
con la distribuci on binomial.
4.1 Un modelo probabilstico: El paseo al azar
simple.
Se llama en general paseo al azar a la sucesion de sumas parciales S
n
=

n
i=1
X
i
de una sucesion dada X
n
, n = 1, 2, . . . de variables aleatorias. Cada incremento
X
n
= S
n
S
n1
se interpreta como un paso realizado por el sistema (S
n
)
n=0,1,...
en el instante n.
Llamamos realizaci on o trayectoria de un paseo, a cada una de las sucesiones
(S
n
())
n=0,1,...
que se obtienen eligiendo .
Esto sugiere que un paseo puede pensarse como una variable aleatoria con valores
en el espacio de las sucesiones. Para que los elementos de la sucesion sean variables
aleatorias, dotamos al espacio de las sucesiones de la mnima -algebra que contiene
a los conjuntos de la forma { : S
j
B
j
, j = 1, 2, . . . , n}, para cualquier n N y
cualesquiera conjuntos de Borel B
j
.
Vamos a estudiar a continuaci on algunas propiedades del paseo al azar
simple, que corresponde a tomar los pasos independientes e identicamente dis-
tribuidos, con valores 1 o 1.
Denici on 4.1.1 Se llama paseo al azar simple con probabilidades p, q,
p + q = 1, a la sucesion S
n
=

n
i=1
X
i
, n = 0, 1, 2, . . . obtenida a partir de
las variables independientes X
n
con la misma distribuci on P{X
n
= 1} = p,
P{X
n
= 1} = q.
Dado que el cambio X
n
= 2B
n
1 permite representar las variables X
n
en
terminos de variables B
n
Ber(p), las sumas parciales S
n
= 2H
n
n, con H
n
=
n
i=1
B
i
Bin(n, p) tienen una distribuci on de probabilidades que se describe
de manera inmediata a partir de la distribuci on binomial con par ametros (n, p).
47
48
Enrique M. Caba na.
Captulo 4
Tres aplicaciones.
Figura 4.1: Representaciones gr acas de la trayectoria de un paseo al azar.
Resulta igualmente inmediato que incrementos S
n
j
S
m
j
, j = 1, 2, . . . , k
correspondientes a intervalos disjuntos del ndice (m
1
< n
1
m
2
< n
2
. . .
m
k
< n
k
) son independientes, con distribuci on Bin(n
j
m
j
, p).
Cada realizaci on o trayectoria de un paseo suele representarse por medio
del gr aco de los puntos de la sucesi on, o tambien alguno de los dos gr acos
de funciones de dominio R
+
que muestra la Figura 4.1. Uno de ellos es la
poligonal que une los puntos (n 1, S
n1
) y (n, S
n
), y el otro es el gr aco de
S
[t]
, 0 t, donde [] designa a la parte entera. (La trayectoria representada es la
que corresponde a n = 6 pasos con X
1
= X
2
= X
3
= X
5
= 1, X
4
= X
6
= 1.)
Cada una de las trayectorias que une (0, 0) con (n
1
+ n
2
, n
1
n
2
) tiene
la misma probabilidad p
n
1
q
n
2
. Hay
n
1
+n
2
n
1
trayectorias que unen esos

puntos, de modo que P{S
n
1
+n
2
= n
1
n
2
} =
n
1
+n
2
n
1
p
n
1
q
n
2
como surge
tambien de aplicar directamente los resultados conocidos para la distribuci on
binomial.
Ejercicios.
Ejercicio 4.1.1 Llamemos p
m,n
(h, k) = P{S
n
= k | S
m
= h}, con m n, |h|
m, de la misma paridad que m. Mostrar que p
m,n
(h, k) = p
0,nm
(0, k h).
Ejercicio 4.1.2 Vericar que las probabilidades p
m,n
(h, k) denidas en el ejercicio
precedente satisfacen las ecuaciones:
p
m,n+1
(h, k) = pp
m,n
(h, k 1) +qp
m,n
(h, k + 1),
que, junto a las condiciones iniciales p
0,0
(0, k) = 1
{k=0}
, permiten calcular las pro-
babilidades {p
0,n
(0, k) : |k| n} recursivamente en n.
4.1. Paseo al azar simple. 49
Ejercicio 4.1.3 Vericar que, con la convenci on p
m,n
(h, k) = 0 si |h| > m o si
|k h| > n m, entonces p
m,n
(h, k) =

l
p
m,
(h, l)p
,n
(l, k), para cualquier
(m n). Deducir en particular el resultado del ejercicio anterior.
Ejercicio 4.1.4 Vericar que para todo n, E(q/p)
Sn
= 1. (Se sugiere proceder
por inducci on, calculando E[E((q/p)
Sn
| S
n1
)].
4.1.1 Paseo al azar simetrico simple. Principio de Re-
flexi on.
El caso particular p = q tiene especial interes:
Denici on 4.1.2 Al paseo al azar simple con iguales probabilidades p = q =
1/2, se le llama paseo al azar simetrico simple.
Para el paseo simetrico, el c alculo de probabilidades y el recuento de trayec-
torias son equivalentes, porque cada trayectoria particular de lon gitud n tiene
la misma probabilidad que cualquier otra de la misma longitud, a saber, 2
n
.
Una propiedad interesante del paseo al azar, que vamos a describir a con-
tinuaci on, es el llamado Principio de Reflexion de Desire Andre:
Teorema 4.1.1 (Principio de Reflexion.) La probabilidad de que el paseo al
azar simetrico simple S
1
, S
2
, . . . , S
n
satisfaga S
n
= m, max
jn
S
j
k, donde
n, m, k son enteros positivos, m < k, es igual a P{S
n
= 2k m}.
Demostraci on: Por cada trayectoria que une (0, 0) con (n, m) cuyo m aximo
es mayor o igual que k, hay otra que une (0, 0) con (n, 2k m) que se obtiene
simetrizando la anterior respecto de L
k
= {(t, k) : t R} a partir del primer
punto (h, k) en que la trayectoria alcanza el valor k: h = min{j : S
j
= k}
(Ver Figura 4.2). Recprocamente, por cada trayectoria que une (0, 0) con
(n, 2k m) (y necesariamente alcanza k por primera vez en alg un h < n,
puesto que 2k m > k), su simetrica respecto de la misma horizontal L
k
une
(0, 0) con (n, m).
La simetra respecto del primer punto en que una trayectoria alcanza a
L
k
, establece entonces una correspondencia biunvoca entre las trayectorias
que unen (0, 0) con (n, m) y alcanzan el nivel k, y las que unen (0, 0) con
(n, 2k m). Esta correspondencia conserva trivialmente la probabilidad, ya
que cada una de esas trayectorias tiene probabilidad 2
n
. Se deduce entonces
el resultado indicado en el enunciado. 2
50
Enrique M. Caba na.
Captulo 4
Tres aplicaciones.
k k
m
n
2k m
0
Figura 4.2: Reflexi on respecto del nivel k.
Corolario 4.1.1.1 (i) La probabilidad de que el paseo (S
i
)
0in
alcance el
nivel k (k > 0) es P{S
n
= k} + 2P{S
n
> k}.
(ii) La probabilidad de que (S
i
)
0in
permanezca por debajo del nivel k es
1 P{S
n
= k} 2P{S
n
> k} = P{k S
n
< k}.
(iii) En particular, la probabilidad de que el paseo (S
n
)
n=0,1,2,...
no alcance
el nivel k es 0 para cualquier k.
Demostraci on. Por el Principio de Reflexi on, la probabilidad de que el
paseo alcance el nivel k y termine en k + h es igual a la probabilidad de que
alcance k y termine en k h. Por lo tanto, con M
n
= max{S
j
: j n},
P{M
n
k, S
n
< k} = P{M
n
k, S
n
> k} = P{S
n
> k},
y de aqu resulta (i):
P{M
n
k} = P{M
n
k, S
n
< k} +P{M
n
k, S
n
> k}
+P{M
n
k, S
n
= k} = 2P{S
n
> k} +P{S
n
= k}.
La probabilidad (ii) de que el paseo permanezca por debajo del nivel se
obtiene como complemento de la anterior. Por la simetra de la distribuci on
de S
n
se puede escribir por medio de la suma nita P{k S
n
< k} =
kj<k,nj par
n
(n j)/2
2
n
. Cada una de las probabilidades binomiales
P{Bin(n, p) = j} tiende a cero para p (0, 1), j jos, cuando n , y esto
implica (iii). 2
4.1. Paseo al azar simple. 51
4.1.2 El paseo con dos barreras. Principio de Reflexi on
M ultiple.
El Principio de Reflexi on nos da una manera de contar cu antas de las 2
n
trayectorias de un paseo de longitud n alcanzan el nivel k. Vamos a contar
ahora cu antas de esas trayectorias alcanzan alguno de los niveles a o b, donde
a, b son dos enteros positivos.
Las notaciones siguientes se reeren a cantidades de trayectorias de longitud
n que cumplen las condiciones que se indican: Vamos a llamar
N(j) a la cantidad de trayectorias que terminan en S
n
= j,
N
+
m
(j) a la cantidad de trayectorias para las cuales existen ndices n
1
,
n
2
, . . ., n
m
tales que S
n
1
= b, S
n
2
= a, S
n
3
= b, S
n
4
= a, S
n
5
= b, . . .,
S
nm
= b, si n
m
es impar, o a, si es par, y terminan en S
n
= j,
N
m
(j) a la cantidad de trayectorias para las cuales existen ndices n
1
,
n
2
, . . ., n
m
tales que S
n
1
= a, S
n
2
= b, S
n
3
= a, S
n
4
= b, S
n
5
= a,
. . ., S
nm
= a, si n
m
es impar, o b, si es par, y terminan en S
n
= j,
N
++
m
(j) a la cantidad de trayectorias que cumplen las condiciones de la
denicion de N
+
m
(j), y alcanzan el nivel b antes que el nivel a,
N
m
(j) a la cantidad de trayectorias que cumplen las condiciones de la
denicion de N
m
(j), y alcanzan el nivel a antes que el nivel b.
Entre las funciones de j as denidas existen las siguientes relaciones:
N
+
m
= N
++
m
+N
m+1
, N
m
= N
m
+N
++
m+1
,
y de ellas podemos obtener recursivamente
N
++
1
+N
1
= (N
+
1
+N
1
) (N
++
2
+N
2
)
= (N
+
1
+N
1
) (N
+
2
+N
2
) + (N
++
3
+N
3
) = . . .
=
m=1
(1)
m1
(N
+
m
+N
m
)
donde la serie es en realidad una suma nita, ya que al menos para m > n, los
sumandos se anulan.
Para calcular N
+
m
establecemos una correspondencia biunvoca entre las
trayectorias con S
n
= j que alcanzan sucesivamente los niveles b, a, b, a,
. . . al menos en m oportunidades, y las trayectorias que llegan a S
n
= j
m
, donde
52
Enrique M. Caba na.
Captulo 4
Tres aplicaciones.
b
j
0
= j
j
1
= 2b j
j
2
= j + 2(a +b)
j
3
= 2b j + 2(a +b)
j
1
= 2a j
j
2
= j 2(a +b)
j
3
= 2a j 2(a +b)
a
a (a +b)
a 2(a +b)
a 3(a +b)
b + (a +b)
b + 2(a +b)
b + 3(a +b)
(+)
()
(+)
()
()
(+)
()
Figura 4.3: Reflexiones sucesivas de j respecto del par de niveles a y b.
j
m
es el punto que se obtiene reflejando j m veces, sucesivamente respecto de b,
la primera vez que alcanza ese nivel, luego respecto del reflejado a
1
= b+(a+b)
de a respecto de b, la primera vez que lo alcanza despues de haber alcanzado
b, luego del reflejado b
1
= b + 2(a + b) de b respecto de a
1
, del reflejado
a
2
= b+3(a+b) de a
1
respecto de b
1
, etc. hasta haber alcanzado m reflexiones.
Mas precisamente, j
2h
= j + 2h(a + b), j
2h+1
= 2b j + 2h(a + b), para
h = 0, 1, . . ., si convenimos en que j
0
= j.
Como consecuencia, N
+
m
(j) = N(j
m
).
De la misma manera, con notaciones an alogas, se procede para calcular
N
m
(j) = N(j
m
), con j
2h
= j 2h(a +b), j
2h1
= 2a j 2h(a +b).
La cantidad de trayectorias que alcanzan alguno de los dos niveles y ter-
4.2. F ormula de Stirling. 53
minan en j es por lo tanto
N
++
1
+N
1
=
m=1
(1)
m1
(N
+
m
+N
m
) =
m=1
(1)
m1
(N(j
m
) +N(j
m
)),
y la cantidad de trayectorias que terminan en S
n
= j sin haber alcanzado
ninguno de los dos niveles a y b es, por complemento,
m=
(1)
m
N(j
m
) =
m=
(1)
m
n
(n j
m
)/2
, (4.1)
con la convenci on de que
n
h
= 0 cuando h < 0, h > n, y cuando h no es entero. (4.2)

Resumimos lo que precede en el siguiente enunciado:
Teorema 4.1.2 (Principio de Reflexi on M ultiple).
El n umero de trayectorias de un paseo al azar de longitud n que no alcanza
ninguno de los dos niveles a y b (a, b, > 0) y termina en S
n
= j es el que
indica (4.1), con la convenci on (4.2) y los valores de j
m
indicados en la Figura
4.3.
4.2 La f ormula de Stirling y el lmite de las
probabilidades binomiales.
La f ormula de Stirling describe el comportamiento asint otico de n! cuando n
tiende a innito:
Teorema 4.2.1 Para cada n, se cumple
n!
n
n+
1
2
e
n
=
2e
n/12n
, 0
n
1,
y, como consecuencia,
lim
n
n!
n
n+
1
2
e
n
=
2.
Demostraci on. Est a contenida en los ejercicios del nal de esta secci on.2
Como ejemplo de una aplicaci on de esta f ormula, vamos a calcular el lmite
cuando n tiende a innito de las probabilidades asociadas a la distribuci on
binomial:
54
Enrique M. Caba na.
Captulo 4
Tres aplicaciones.
Ejemplo 4.2.1 Vericar el siguiente Teorema de De Moivre:
Teorema 4.2.2 Para a < b cualesquiera, y B
n
Bin(n, p),
lim
n
P
a <
B
n
np
np(1 p)
b
b
a
1
2
e
t
2
/2
dt.
Demostraci on. Se cumple
P
a <
B
n
np
np(1 p)
b
a<(hnp)/
np(1p)b
p
n,h
, (4.3)
donde p
n,h
=
n
h
p
n
(1 p)
nh
es la probabilidad binomial.
Para obtener el resultado del enunciado, vincularemos la suma del segundo miembro
de (4.3) con la suma de Riemann
a<(hnp)/
np(1p)b
1
2np(1 p)
e
2
/2
, = (h np)/
np(1 p),
que tiene por lmite la integral del enunciado del Teorema.
M as precisamente, mostraremos que la diferencia entre las dos sumas tiene lmite
cero. Dado que el n umero de sumandos es la parte entera de (b a)
np(1 p),
basta mostrar que
n max
a<(hnp)/
np(1p)b
(p
n,h
e
2
/2
/
2np(1 p))
tiende a cero o, lo que es equivalente, que
2np(1 p)p
n,h
e
2
/2
tiene una cota
(uniforme en h o ) que tiende a cero cuando n . Para que esto suceda, basta
que la diferencia de los logaritmos cumpla una propiedad an aloga.
Vamos a calcular entonces log
2np(1 p)p
n,h
+
2
/2 utilizando la F ormula de
Stirling escrita en la forma
log n! = (n + 1/2) log n n + log
2 +
n
/12n,
y trataremos de acotar esta diferencia por una expresi on que tienda a cero,
Obtenemos
log
2np(1 p)p
n,h

2
2
= log
2 +
1
2
log np(1 p)
+log n! log h! log(n h)! +hlog p + (n h) log(1 p) +

2
2
=
1
2
log np(1 p) + (n + 1/2) log n (h + 1/2) log h (n h + 1/2) log(n h)
4.2. F ormula de Stirling. 55
+

n
12n

h
12h

nh
12(n h)
+hlog p + (n h) log(1 p) +

2
2
=
1
2
log
p(1 p)
(h/n)(1 h/n)
n
h
n
log
h/n
p
(1
h
n
) log
1 h/n
1 p
+A
n,h
+

2
2
(4.4)
con
A
n,h
=
n
/12n
h
/12h
nh
/12(n h). (4.5)
La expresion precedente incluye las variables h y , que estan vinculadas por =
(hnp)/
np(1 p). Vamos a eliminar h introduciendo una variable intermedia

n
=
h
n
p =
p(1 p)/
n. Dado que los sumandos que intervienen en nuestros c alculos

son aquellos para los que a < b resulta como consecuencia que lim
n
n
= 0.
Reemplacemos primeramente h/n por p +
n
en (4.5). Para esta ultima expresi on,
obtenemos
nA
n,h
=
n

h
12(p +
n
)

nh
12((1 p)
n
)
que nos permite concluir que, para n sucientemente grande, |A
n,h
| C/n, donde
C es una constante adecuada que depende de p (0 < p < 1), pero no de n, ni de h,
cuando se cumple a < b.
Recordemos que nuestra meta es mostrar que (4.4) tiende a cero uniformemente en ,
es decir, esta acotado por una expresi on independiente de que tiende a cero cuando
n tiende a innito. Acabamos de mostrar que esto ocurre con el termino A
n,h
. Vamos
a vericarlo ahora separadamente para los dos otros sumandos que componen (4.4):
1
2
log
p(1 p)
h
n
(1
h
n
)
(4.6)
y
2
2
n
h
n
log
h/n
p
(1
h
n
) log
1 h/n
1 p
. (4.7)
Al reemplazar h/n = p +
n
en (4.6), resulta
1
2
log(1 +
n
/p)
1
2
log(1
n
/(1 p)),
que tiende a cero uniformemente en .
Al reemplazar h/n = p +
n
en (4.7), y aplicar el desarrollo (1 + x) log(1 + x) =
(1 +x)(x
x
2
2
+
x
3
3

x
4
4
+. . .) = x +
x
2
2
+B(x)x
3
, B(x) uniformemente acotada para
|x| < const. < 1, se obtiene:
2
2
np(1 +
n
/p) log(1 +
n
/p) n(1 p)(1
n
/(1 p)) log(1
n
/(1 p))
=

2
2
np
n
p
+

2
n
2p
2
+B(
n
p
)
3
n
p
3
n(1 p)
n
1 p
+

2
n
2(1 p)
2
+B(
n
p
)
3
n
p
3
=

2
2

1
2
n
2
n
1
p
+
1
1 p
n
3
n
B(
n
/p)
p
2

B(
n
/p)
(1 p)
2
56
Enrique M. Caba na.
Captulo 4
Tres aplicaciones.
2
p(1 p)
n
B(
n
/p)
p
2

B(
n
/p)
(1 p)
2
,
y esta expresion tambien tiende uniformemente a cero. 2
N5.- de Moivre, Abraham (1667-1754).
Abraham de Moivre, nacio el 26 de mayo de 1667 en Vitry, Francia.
Pertenecio a una familia protestante. Luego de realizar estudios de
logica, tomo lecciones privadas de matematica con un tutor, al tiempo
que realizaba estudios en el Collège de Harcourt en Pars.
A los 18 a nos de edad, tuvo que emigrar a Inglaterra, por razones
polticas y religiosas, luego de la expulsion de los Hugonotes de Fran-
cia. Como extranjero, tuvo dicultades en ser reconocido, y trabajo
como tutor privado.
En 1697 fue elegido miembro de la Royal Society, y en 1710 integro
una comision de la Sociedad que deba dirimir una controversia entre
Newton y Leibniz, acerca de quien era el creador del calculo.
Su tratado The Doctrine of Chance publicado en 1718 estudia diversos problemas relativos a juegos
de azar, y dene la independencia. En 1730 descubrio la llamada Formula de Stirling (que lleva el nombre
de Stirling porque este obtuvo una version mejorada), y la uso en 1733 para encontrar el lmite de las
probabilidades binomiales. Tambien obtuvo la famosa formula (cos x + sin x)
n
= cos nx + sin nx.
Ejercicio 4.2.1 (i) Utilizando el desarrollo
1
2
log
1 +x
1 x
= x +
x
3
3
+
x
5
5
+
x
7
7
+. . . ,
calcular d
n
d
n+1
, donde d
n
= log n! (n +
1
2
) log n + n y deducir que la sucesion
d
n
es decreciente.
(ii) Deducir tambien que d
n
d
n+1

1
3(2n+1)
2
=
1
12n

1
12(n+1)
y a partir de esta
desigualdad, concluir que la sucesi on d
n

1
12n
es creciente.
(iii) De (i) y (ii), deducir que d
n
tiene un lmite, que llamaremos , y acotar la
velocidad de convergencia.
(iv) Obtener la F ormula de Stirling lim
n
n!
n
n+
1
2 e
n
= e
Ejercicio 4.2.2 Dado un paseo al azar simetrico, simple S

j
, j = 0, 1, 2, . . .,
(i) Mostrar que la probabilidad u
2n
= P{S
2n
= 0} coincide con la probabilidad
de que S
j
no se anule para j = 1, 2, . . . , 2n.
(ii) Calcular la probabilidad
2k,2n
= P{S
2k
= 0, S
i
= 0, 2k < i 2n}.
(iii) Para cada n, llamamos K
n
a la variable aleatoria denida por las condiciones:
S
2Kn
= 0, S
i
= 0, 2K
n
< i 2n. Encontrar la distribuci on de probabilidades de
K
n
. Expresar la probabilidad de {0 K
n
n}, que vale 1, como suma de las
probabilidades individuales, y, pasando al lmite en cada sumando, deducir que la
constante que interviene en la F ormula de Stirling (ver el ejercicio anterior) vale
log
2.
(iv) Dadas las constantes a, b, 0 a < b 1, calcular lim
n
P{a < K
n
/n b}.
(Al resultado que se obtendr a se le suele llamar Ley del Arcoseno ).
4.3. Una aplicaci on estadstica. 57
4.3 Una aplicaci on estadstica: inferencia so-
bre el parametro en un modelo de Ber-
noulli.
La estadstica constituye una importante motivaci on para el estudio de la
probabilidad, y es adem as una fuente de interesantes problemas probabilsticos.
Nos adelantamos desde ya a plantear algunas aplicaciones de los elementos de
probabilidad que estamos estudiando, a situaciones que podr an ser descritas y
estudiadas como problemas de inferencia estadstica.
Lo haremos en relaci on a un ejemplo, sin pretender mayor generalidad.
4.3.1 Introducci on.
Supondremos dadas n observaciones independientes de una distribuci on de
Bernoulli con par ametro p (es decir, n variables i.i.d. Ber(p)) y buscaremos
argumentos probabilsticos que nos ayuden a tomar decisiones en relaci on con
p.
Ejemplo 4.3.1 Preferencias de consumidores ante una opci on binaria.Supongamos
que se admite que los integrantes de cierta poblaci on tan grande que podemos suponer
innita, consumen cierto producto que viene presentado de dos maneras diferentes,
A y B, y que no tienen preferencia por ninguna de esas dos presentaciones, de
modo que si se elige al azar un integrante de la poblaci on, la probabilidad de que
preera A es 1/2 (y la de que preera B es tambien 1/2).
A partir de esa situaci on, se ha hecho una campa na publicitaria en favor de la opci on
A. Se desea vericar el exito de la campa na. y para ello se consulta a n integrantes
de la poblaci on elegidos al azar, independientemente, sobre su preferencia. Llamemos
H al n umero de respuestas favorables a A.
Una campa na exitosa estara indicada por un alto valor de H. El problema que nos
planteamos es como usar el resultado H de nuestra consulta para medir el exito de
la campa na.
En cualquier caso, la variable H tiene distribuci on binomial con par ametros (n, p),
donde p es la proporci on de integrantes de la poblaci on que optan por A, y por
consiguiente, es tambien la probabilidad de respuesta A cuando se pregunta a un
individuo elegido al azar.
La campa na es exitosa cuando p es mayor que 1/2, y tanto m as exitosa cuanto mayor
sea p. Por lo tanto, se nos plantea dar respuesta a la pregunta Cu anto vale p? o al
menos a la pregunta Es p mayor que 1/2?
58
Enrique M. Caba na.
Captulo 4
Tres aplicaciones.
La segunda pregunta es m as simple, porque admite solo dos respuestas: S o No,
mientras que a la primera se puede responder al menos con cualquiera de los innitos
n umeros reales del intervalo [1/2, 1], o del intervalo [0, 1] si se admitera que la campa na
puede ser contraproducente.
4.3.2 Un primer esquema de soluci on.
Intentaremos dar una respuesta binaria, que depender a del valor de H, pero previa-
mente reformularemos la pregunta, para adaptarla mejor a la situaci on que, dada
la naturaleza del problema y de la informaci on que poseemos, seremos capaces de
resolver. Nos haremos, en vez de la pregunta Es p mayor que 1/2?, la nueva pregunta
Nos alcanza la evidencia experimental dada por el valor de H para concluir que
p > 1/2? La respuesta adecuada a esta pregunta es tambien binaria. Para ciertos
valores de H responderemos S y concluiremos p > 1/2, y para otros valores de H
responderemos No y no concluiremos p > 1/2.
Ya hemos observado intuitivamente que los valores grandes de H son los que corres-
ponden a una campa na exitosa, de modo que resulta natural elegir una constante
c adecuada, y concluir p > 1/2 si y solo si H > c. Para saber si un c dado es
adecuado, evaluemos las consecuencias de nuestro procedimiento. Cuando p = 1/2,
el suceso H > c que nos lleva a concluir err oneamente p > 1/2 tiene probabilidad
= P{Bin(n, 1/2) > c}, mientras que para cada p > 1/2, el mismo suceso que ahora
nos conduce a la respuesta correcta, tiene probabilidad (p) = P{Bin(n, p) > c}.
Se concluye que el valor de c sera adecuado cuando resulte peque no, puesto que es
una probabilidad de error, y (p) resulte grande, puesto que es una probabilidad de
acierto. Sin embargo, es inmediato vericar que (p) es una funci on continua de p, y
que (1/2) = , de modo que es imposible conseguir simult aneamente ambas metas.
La Figura 4.4 muestra la forma de (p) para aproximadamente igual a .05, y varios
valores de n.
Conviene tener en cuenta que para obtener el valor aparentemente optimo = 0, es
preciso elegir c n, lo que tiene por consecuencia (p) = 0 para todo p, y en ese
caso el procedimiento es inoperante. Por ese motivo se descarta utilizar = 0, y
es preciso elegir para alg un valor tolerablemente peque no, que para nuestra gura
hemos jado en aproximadamente 5%. El valor 5% no puede obtenerse de manera
exacta en general, ya que solo hay un conjunto nito de sucesos de la forma {H > c},
a saber, (para c < 0), (para c n) y cada uno de los sucesos {H > c} para c
= 0, 1, . . . , n1, y por lo tanto s olo n+2 valores posibles de . Para la gura hemos
elegido para cada n, el valor de c que induce el valor de mas pr oximo a 5% (con
n = 10, obtenemos c = 7 y =
10
j=8
10
j
2
10
= 56/1024 = 5.47%, con n = 20,
obtenemos c = 13 y = 5.77%, y con n = 50, c = 30 y = 5.95%).
Ejercicio 4.3.1 Para n = 10, vericar que el valor de c para el que es lo
mas pr oximo posible a 5% es 7. Para ese valor de c, y p = 0.5, 0.6, 0.7, 0.8,
0.9 y 1, calcular (p). Aprovechar los resultados para constatar la correcci on
de la Figura 4.4.
n = 10
n = 20
n = 50
Figura 4.4: Probabilidad de decidir que la propaganda es efectiva, para n =
10, 20, 50 en funci on de p.
Como resumen de resultados de nuestro an alisis, podemos concluir que un procedi-
miento razonable para decidir si la campa na ha sido exitosa consiste en (a) jar un
nivel de probabilidad que se considere relativamente peque no, correspondiente a
la probabilidad de decidir que la campa na ha tenido exito cuando en la realidad las
probabilidades de respuesta siguen inalteradas, iguales a (1/2, 1/2), (b) elegir una
probabilidad p
0
> 1/2 tal que, cuando p > p
0
, se considere importante reconocer
que la campa na ha tenido exito, al menos con probabilidad
0
, y, por ultimo, en un
abaco como el de la Figura 4.4, correspondiente al valor de elegido, y completado
con un mayor n umero de curvas correspondientes a otros valores de n, para que
resulte efectivo, elegir el n adecuado para que (p
0
)
0
(es decir, el mnimo n -
para abaratar el costo de la decisi on - para el que se cumpla esa desigualdad). Se
consultan entonces n individuos independientemente, y se toma la decisi on de acuerdo
al procedimiento descrito arriba.
Por ejemplo, con = 5%, p
0
= 70%,
0
= 60%, la Figura 4.4 nos lleva a concluir que
basta tomar n 20. 2
4.3.3 Algunas generalidades sobre la prueba de hip ote-
sis.
El procedimiento que hemos llevado a cabo en nuestro ejemplo suele llamarse prueba
de la hip otesis p = 1/2 contra la alternativa p > 1/2. El termino contra debe inter-
60
Enrique M. Caba na.
Captulo 4
Tres aplicaciones.
pretarse como sinonimo de en comparaci on con, y es simplemente una abreviatura
frecuente en el lexico de los estadsticos.
En efecto, es claro que hemos comparado ambas posibilidades o hip otesis. Tambien
es claro que ambas hip otesis no juegan un papel intercambiable en el problema, y
vale la pena enfatizar que tampoco lo han jugado en el esbozo de soluci on que hemos
propuesto. La hip otesis p = 1/2 estaba aceptada como valida antes de aplicar el pro-
cedimiento sobre cuyo resultado hay incertidumbre, en nuestro ejemplo: la campa na
publicitaria. Si la campa na fuese inoperante, p continuara valiendo 1/2. Nuestro
interes es demostrar, si es posible, que se cumple otra hip otesis diferente, en nuestro
caso, p > 1/2, con lo que mostraramos que la campa na ha surtido efecto. A la
primera hip otesis suele llamarsele hip otesis nula, y a la que querramos demostrar (en
tanto sea verdadera), hip otesis alternativa.
La soluci on que hemos propuesto, conduce a una decisi on binaria y asimetrica: (1)
rechazar la hip otesis nula y adoptar como verdadera la hip otesis alternativa, o bien
(2) entender que no hay evidencia experimental que justique ese rechazo, y por lo
tanto, no rechazar la hip otesis nula.
La asimetra de la decision esta en general justicada por razones pr acticas: al expe-
rimentador interesado en demostrar que cierto procedimiento, sobre cuyos resultados
hay a priori incertidumbre, opera de la manera deseada, no le interesa en cambio
aportar argumentos para demostrar que ese procedimiento es inoperante. Le interesa
demostrar que es operativo, si lo es, porque en ese caso estara justicado para dar
los pasos necesarios para ponerlo en pr actica. Y mientras no este convencido que es
operativo, le podr a interesar mejorarlo o cambiarlo, pero le resultara in util gastar
esfuerzos en demostrar que el procedimiento no es operativo.
De acuerdo al esquema que hemos utilizado para plantear el problema y para aportar
una soluci on, tenemos que comparar dos situaciones. La realidad desconocida, y
nuestra decision basada en la informaci on experimental. En la realidad, la hip otesis
nula puede ser falsa o verdadera. En nuestra decisi on, podemos darla por falsa o no
hacerlo. Cada una de las dos posibilidades reales puede aparecer combinada con cada
una de las dos decisiones posibles.
Dos de estas combinaciones son deseables, rechazar la hipotesis nula cuando es falsa,
y no rechazarla cuando es verdadera.
En cambio, las otras dos combinaciones son indeseables: Dar por falsa la hip otesis
nula cuando es verdadera, y esto es claramente un error, que suele llamarse error de
tipo I, y no rechazarla cuando es falsa, y a esta situaci on se la llama error de tipo II.
Puede argumentarse que cuando se produce un error de tipo II, no se est a cometiendo
tecnicamente un error, sino que se esta desaprovechando la oportunidad de tener un
acierto.
Al procedimiento utilizado para adoptar la decisi on, se lo llama una prueba de la
hip otesis nula. Tambien se utiliza el termino contraste como sinonimo de prueba.
Cuando se contrasta o se pone a prueba una hip otesis nula, se lo hace con cierta
hip otesis alternativa como referencia, que es la hip otesis que se adoptar a cuando se
rechaza la hip otesis nula. Si llamamos H
0
a la hip otesis nula y H
1
a la hip otesis
alternativa, al procedimiento de decisi on se lo llama abreviadamente una prueba de
H
0
contra H
1
.
Naturaleza
H
0
es cierta
H
0
es falsa Error de tipo II
Error de tipo I
No rechazamos H
0
Rechazamos H
0
Decisi on
Figura 4.5: Errores de tipos I y II en una prueba de hip otesis.
Como hemos visto, el procedimiento consiste en dividir el conjunto de los resultados
posibles de la experimentacion, en dos regiones. Una de ellas es la regi on de rechazo o
regi on crtica, que denotaremos S, y la otra es su complemento. Si la muestra resulta
en S, se adopta la decisi on de rechazar H
0
, y si resulta en S
c
no se rechaza H
0
.
Supondremos que la informaci on experimental es un punto en cierto conjunto E de
resultados posibles de los experimentos realizados, en nuestro caso, E = {0, 1, . . . , n},
y la informaci on experimental es H con valores en E.
Supondremos que E esta dotado de una -algebra (en este caso 2
E
) de modo que H es
una variable aleatoria, y que S es un subconjunto de E perteneciente a la -algebra.
A menudo, H
0
especica una unica distribuci on de probabilidad. Cuando una hip o-
tesis, sea H
0
o H
1
, contiene una sola distribuci on de probabilidades, se dice que es
una hip otesis simple. En caso contrario, se dice que es una hip otesis compuesta.
Cuando H
0
es simple, una vez dada S queda determinada la probabilidad
= P{(X
1
, . . . , X
n
) S : (X
i
) i.i.d. F}, F especicada por H
0
de cometer un error de tipo I. A esa probabilidad se la llama nivel de la prueba.
Cuando H
0
es compuesta, se llama nivel de la prueba al supremo
sup
FH0
P{(X
1
, . . . , X
n
) S : (X
i
) i.i.d. F}.
Para cada F compatible con H
1
,
(F) = P{(X
1
, . . . , X
n
) S : (X
i
) i.i.d. F}
se llama potencia de la prueba asociada a F.
La Figura 4.4 describe las potencia de las pruebas asociadas a tres valores diferentes
de n. Cada distribuci on F compatible con H
1
esta identicada por un valor del
par ametro p, y en vez de la notaci on (Bin(n, p)) se ha optado por la notaci on mas
simple (p).
62
Enrique M. Caba na.
Captulo 4
Tres aplicaciones.
4.3.4 Estimaci on de p.
Estimaci on puntual clasica.
Volvamos ahora sobre la pregunta cu anto vale p? que formulamos al comienzo, cuya
consideracion pospusimos para considerar inicialmente una pregunta aparentemente
mas simple, por admitir s olo dos respuestas, a diferencia de esta, que puede ser
respondida con cualquier n umero en el intervalo [0, 1]. La informaci on experimental
que disponemos es la variable aleatoria H, cuya distribuci on es Bin(n, p). Es razonable
que una respuesta a la pregunta formulada dependa de H, y solo de H, ya que esta
es la unica informaci on que poseemos. Por lo tanto, la manera de elegir un valor de
p en respuesta a la pregunta, es denir una funci on T : {0, . . . , n} [0, 1] que para
cada H especique un valor T(H) para p. Diremos en ese caso que T es un estimador
de p y que T(H) es la estimaci on de p correspondiente al valor experimental obtenido
H.
Nos limitamos ahora a indicar un par de criterios para elegir un estimador, para los
que puede encontrarse una interpretaci on heurstica:
De todos los valores posibles de p, elijamos el que hace mas probable el resultado
H obtenido. En nuestro ejemplo, dado que la probabilidad del resultado H es
n
H
p
H
(1 p)
nH
, elegiremos entonces como estimador de p el valor p que
maximiza
n
H
p
H
(1p)
nH
para 0 p 1, a saber: p = H/n, como se deduce
sin dicultad. Este criterio fue introducido por R. A. Fisher y a el se asocia el
nombre de m axima verosimilitud.
Cuando hemos realizado m observaciones independientes de una variable ale-
atoria, llamamos distribuci on emprica a la distribuci on de probabilidades que
asocia iguales probabilidades (con valor
1
m
) a cada una de las m observaciones.
De todos los valores posibles de p, elijamos aquel p para el que la esperanza
de la distribuci on y la de la distribuci on emprica coinciden. Si esto no fuese
suciente para determinar el (los) par ametro(s), se busca la igualdad de las
variancias, luego de los momentos de tercer orden, y as hasta que resulte su-
ciente para determinar el o los par ametros. En nuestro caso tenemos una
unica observaci on H de Ber(n, p), de modo que la distribuci on emprica esta
concentrada en H, y basta igualar n p = H para obtener p = H/n.
En ambos casos hemos obtenido el mismo resultado. Interesa saber que propiedades
tiene nuestro estimador. Por ejemplo, cu al es su distribuci on de probabilidades,
y cu an concentrada esta esa distribuci on alrededor del par ametro que pretende-
mos estimar. En pr oximos captulos estudiaremos medidas de la concentraci on de
esa distribuci on respecto a p que muestran que el estimador obtenido tiene buenas
propiedades.
Se podra aducir que una vez obtenido H, la estimacion resultante esta determinada, y
su error
H
n
p ya no esta sujeto a ninguna distribuci on de probabilidad. Sin embargo,
puesto que no conocemos p, esa distribuci on es lo ( unico!) que nos permite valorar
las propiedades del estimador, de la misma manera que el valor de venta o reventa
de un billete de lotera depende de la probabilidad de que ese billete gane el premio,
no solo antes de realizado el sorteo, sino a un despues, si la operacion ha de realizarse
con total desconocimiento del resultado del sorteo.
Estimaci on bayesiana.
Existe tambien una posibilidad alternativa: en vez de elegir un valor de p como res-
puesta, podemos asumir que existe incertidumbre sobre el valor de p y describirla
mediante un modelo probabilstico: nuestra respuesta sera una distribuci on de pro-
babilidades para p.
Esta distribuci on deber a depender de los resultados experimentales, en nuestro caso,
de H. Esta forma de proceder tiene un antecedente en el Ejemplo 2.6.1. En aquel
caso conocamos las probabilidades (a priori) de que un paciente tomado al azar en-
tre los que acuden a una consulta padeciera la enfermedad E
i
(i = 1, 2, 3), y nos
pregunt abamos por la probabilidad condicional (a posteriori) de que padeciera la en-
fermedad E
1
, dado que posee ciertos sntomas vinculados a las tres enfermedades de
cierta manera conocida. En el caso presente, podemos dar una respuesta an aloga:
si conocemos una distribuci on de probabilidades para p que describa nuestra incer-
tidumbre a priori sobre el valor de ese par ametro, una vez que conozcamos el valor
de H, nuestra composicion de lugar a posteriori sobre p pasar a a estar descrita por
la distribuci on condicional de p dada H.
Por ejemplo, supongamos que nuestra distribuci on a priori para p tiene densidad
f
p
(u) proporcional a u
2
(1 u)
2
, que esta concentrada alrededor de 1/2. Llamemos
c = (
1
0
u
2
(1 u)
2
du)
1
, de modo que f
p
(u) = cu
2
(1 u)
2
.
La integral que nos permite calcular c es un caso particular de
B(, ) =
1
0
u
1
(1 u)
1
du =
( 1)!( 1)!
( + 1)!
.
Esta f ormula es inmediata para = 1. Una inducci on en a partir de B(, )
= B(, 1) B( + 1, 1) permite completar la vericaci on.
En particular, c = B(3, 3) =
2!2!
5!
=
1
30
.
La distribuci on condicional de H dado p es Bin(n, p), de manera que la distribuci on
conjunta de p, H atribuye al suceso {a < p < b, H = h} (0 a b 1) la
probabilidad
b
a
cu
2
(1 u)
2
n
h
u
h
(1 u)
nh
du. Eligiendo a = 0 y b = 1, obtenemos
P{H = h} = c
n
h
B(h + 3, n = h + 3). Podemos observar ahora que la distribuci on

condicional de p dado H = h tiene densidad f
p|H=h
(u) que satisface
P{a < p < b, H = h} = P{H = h}
b
a
f
p|H=h
(u)du.
Al igualar las dos expresiones obtenidas para la probabilidad de {a < p < b, H = h},
v alidas para toda pareja a, b, resulta la igualdad de los integrandos:
cu
2
(1 u)
2
n
h
u
h
(1 u)
nh
= P{H = h}f
p|H=h
(u).
64
Enrique M. Caba na.
Captulo 4
Tres aplicaciones.
Como consecuencia, f
p|H=h
(u) es proporcional a u
h+2
(1 u)
nh+2
. La constante de
proporcionalidad c
n
h
(P{H = h})
1
queda determinada para que la integral en (0, 1)
valga 1, y debe valer (B(h+3, nh+3))
1
, de manera que los calculos ya realizados
de c y de la probabilidad de {H = h} son innecesarios.
Como resultado de nuestro proceso de estimacion, en vez de describir nuestra incer-
tidumbre sobre p por medio de la distribuci on a priori con densidad f
p
, lo haremos por
medio de la distribuci on a posteriori f
p|H
(u) = u
H+2
(1u)
nH+2
/B(H+3, nH+3).
El valor m as probable a posteriori del par ametro es entonces (H + 2)/(N + 4).
5.

Cadenas de Markov
5.1 Algunos ejemplos.
Los paseos al azar estudiados en captulo 4 pueden replantearse como ejemplos
de cadenas de Markov, como resulta de la denici on que veremos m as adelante.
El Ejemplo 3 de la siguiente lista corresponde precisamente a un paseo al
azar con un par de barreras absorbentes. Vamos a considerar tambien otros
ejemplos, para luego introducir una denici on formal.
Ejemplo 1. Un jugador arroja un dado. Si el resultado es 1, gana. Si el
resultado es a = 1 realiza un nuevo lanzamiento independiente. Cuando el
resultado de este nuevo lanzamiento es 1, pierde. Cuando es a, gana, y cuando
no es 1 ni a, vuelve a realizar un lanzamiento independiente, con el cual se
procede de la misma manera, hasta que por primera vez el resultado sea 1 o a.
A lo largo de este juego se pueden producir cuatro situaciones, o estados
del juego:
I: El jugador se dispone a arrojar el dado por primera vez.
G: El jugador acaba de realizar un lanzamiento exitoso y por lo tanto gana
el juego.
N: El jugador ha obtenido un resultado desfavorable y por lo tanto pierde.
R: El ultimo lanzamiento no dene el resultado del juego, y por lo tanto el
jugador se dispone a realizar un nuevo lanzamiento. En este caso ganar a
si obtiene a, perder a si obtiene 1 y volver a a la misma situaci on si obtiene
cualquier otra cara del dado.
El diagrama de la Figura 5.1 indica los estados posibles, y las echas que los
vinculan indican las transiciones entre estados que pueden ocurrir a medida que
transcurre el juego, as como sus respectivas probabilidades, con la suposici on
de que el dado es simetrico.
65
66
Enrique M. Caba na.
Captulo 5
Cadenas de Markov.
G
N
R I
1/6
1/6
1/6
4/6
5/6

E
T
c
Figura 5.1: Diagrama de estados y transiciones de la cadena del Ejemplo 1.
Ejemplo 2. Un laboratorio de computaci on tiene una sala con una red de N
computadoras personales. Se observa la sala a intervalos regulares de tiempo,
y se registra el n umero de computadoras ocupados.
Este sistema tiene N + 1 estados posibles: 0, 1, . . ., N computadoras
ocupadas en cada instante.
Ejemplo 3. Un jugador llega a una casa de juego con un capital C, que
suponemos un n umero entero de unidades monetarias, y apuesta en sucesivas
instancias una unidad. Si gana recibe dos unidades, y si pierde, ninguna (Su
ganancia neta es 1 o 1, seg un gane o pierda). Contin ua este procedimiento
hasta obtener una ganancia G, es decir, hasta retirarse con un capital C + G
(correspondiente, por ejemplo, a la ganancia m axima que la casa de juego est a
dispuesta a cubrir), o bien hasta perder todo su capital, luego de lo cual no
puede seguir arriesgando. Los estados del sistema que describe las sucesivas
instancias de esta situaci on son los posibles montos en poder del jugador al
termino de cada apuesta, a saber, 0, 1, 2, . . ., C +G.
5.2 Cadenas nitas homogeneas en el tiempo
El modelo que describimos a continuaci on puede utilizarse para estudiar las
situaciones de los ejemplos precedentes. Se tiene un conjunto o espacio de
estados nito E = {E
1
, E
2
, . . . , E
k
}. En E hay un estado inicial, posiblemente
determinstico, o bien sujeto a un modelo aleatorio que asigna a cada estado
E
j
de E la probabilidad
j
de ser el estado inicial. A este estado lo llamaremos
X
0
.
En un instante dado que llamaremos 1, el sistema pasa de X
0
a un nuevo
5.2. Cadenas finitas. 67
estado X
1
, no necesariamente distinto del anterior, que tambien es un elemento
del espacio de estados E. A este pasaje lo llamamos una transici on del sistema.
Luego, en sucesivos instantes prejados que llamaremos 2, 3, . . ., n, . . ., el
sistema pasa de X
1
a X
2
, de X
2
a X
3
, . . ., de X
n1
a X
n
, . . . .
Las sucesivas transiciones son aleatorias. Lo que caracteriza al modelo que
estamos considerando es la forma sencilla en que se describen las probabilidades
asociadas a las transiciones:
La probabilidad condicional de que el sistema pase en los instantes 1, 2,
. . ., n a los estados E
i
1
, E
i
2
, . . . , E
in
dado que parte de E
i
0
es
P{X
h
= E
i
h
, h = 1, 2, . . . , n|X
0
= E
i
0
} =
n
h=1
P
i
h1
,i
h
(5.1)
donde P
i,j
es una funci on exclusiva de E
i
y E
j
, que llamamos probabilidad
de transici on de E
i
a E
j
.
Denici on 5.2.1 Llamamos cadena de Markov con espacio de estados E =
{E
i
: i = 1, 2, . . . , k} y matriz de probabilidades de transici on
P = ((P
i,j
))
i,j=1,2,...,k
a cualquier sucesi on de variables aleatorias X
0
, X
1
, . . . , X
n
, . . . que cumpla
(5.1) para cualquier n y cualquier sucesi on de estados (E
i
h
)
h=0,1,2,...
.
Nota. Como consecuencia de (5.1), para cualesquierandices i, j y cualquier
sucesion nita de estados (E
i
h
)
h=0,1,2,...,n2
,
P{X
n
= E
j
|X
n1
= E
i
, X
h
= E
i
h
, h = 0, 1, . . . , n 2} = P
i,j
.
En palabras, la probabilidad condicional de que la transici on n-esima sea de
E
i
a E
j
, dado que la trayectoria inicial llega a E
i
en la n 1-esima transici on,
es siempre la misma, P
i,j
, no importa cu al haya sido la trayectoria que condujo
al estado E
i
al cabo de las primeras n 1 transiciones.
Esto signica que el conocimiento de la posici on del sistema luego de la
n 1-esima transici on permite saber la distribuci on (condicional) de probabi-
lidades de la posici on luego de la siguiente transici on, con independecia de la
historia del proceso, antes de llegar a E
i
en el instante n 1.
Notemos que la matriz P = (p
i,j
)
i,j=1,...,k
de las probabilidades de transici on
tiene la propiedad de que los elementos de cada una de sus las suman 1,
dado que si en un instante la cadena se encuentra en cualquier estado E
i
, la
probabilidad p
i,1
+ p
i,2
+ . . . + p
i,k
de que luego de la pr oxima transici on este
68
Enrique M. Caba na.
Captulo 5
Cadenas de Markov.
en alguno de los estados del sistema (E
1
, E
2
, . . ., E
k
) es necesariamente igual
a 1.
El vector = (
1
,
2
, . . . ,
k
) de probabilidades iniciales y la matriz P de
las probabilidades de transici on denen el comportamiento probabilstico del
sistema. Veremos c omo, a partir de ellos, pueden calcularse por ejemplo las
probabilidades
(n)
j
= P{X
n
= E
j
}.
Para uniformizar la notaci on, al vector de probabilidades iniciales lo
denotaremos
(0)
= (
(0)
1
,
(0)
2
, . . . .
(0)
k
)
Para encontrar
(n)
conviene proceder de manera inductiva: Supongamos
que conocemos
(n1)
= (
(n1)
1
,
(n1)
2
, . . . ,
(n1)
k
).
Se deduce para cada j que
(n)
j
= P{X
n
= E
j
} = P
k
i=1
{X
n1
= E
i
, X
n
=
E
j
} =

k
i=1
P{X
n1
= E
i
, X
n
= E
j
} =

k
i=1
P{X
n1
= E
i
}P{X
n
= E
j
|
X
n1
= E
i
} =

k
i=1
(n1)
i
p
i,j
.
De aqu resulta la igualdad
(n)
=
(n1)
P, que vale para n 1 y permite
deducir por inducci on completa
(n)
=
(0)
P
n
. (5.2)
Esta f ormula muestra que si sabemos c omo se comportan las sucesivas po-
tencias de P, podemos deducir c omo evoluciona
(n)
. Por ejemplo, si existiera
el lmite lim
n
P
n
= P
, entonces existe el lmite de

(n)
y vale
(0)
P
.
En la seccion que sigue vamos a ver que este es el caso del Ejemplo 1.
5.3 Cadenas nitas con estados absorbentes.
Comencemos analizando el Ejemplo 1: Los estados son I = E
1
, R = E
2
,
G = E
3
, N = E
4
, el vector de probabilidades iniciales es
(0)
= (1, 0, 0, 0) y la
matriz de probabilidades de transici on es:
P =
0 5/6 1/6 0
0 4/6 1/6 1/6
0 0 1 0
0 0 0 1
Se observar a que para inscribir el juego dentro del modelo general de una
Cadena de Markov homogenea, se ha a nadido articialmente a la descripci on
original del problema que cuando el jugador llega al estado G que corresponde
a ganar el juego, contin uan realizandose las transiciones, pero son triviales,
con estado de llegada G despues de cada una de ellas. De la misma manera,
5.3. Cadenas con estados absorbentes. 69
una vez que el sistema llega a N, queda absorbido all, pues las transiciones
siguientes son obligatoriamente de N a N.
Las probabilidades
(1)
se obtienen de manera inmediata: dado que con
certeza X
0
= I = E
1
, se cumple
(1)
= (p
1,1
, p
1,2
, p
1,3
, p
1,4
) = (0, 5/6, 1/6, 0).
Para calcular cada componente de
(2)
podemos calcular probabilidades a
lo largo de cada uno de los caminos posibles que llevan de I a cada uno de los
otros estados, en exactamente dos transiciones.
El diagrama ayuda a enumerarlos. Hay un solo camino que lleva a R en
dos pasos: I R R, y su probabilidad es (5/6)(4/6). Tambien hay un solo
camino que lleva a N, con probabilidad (5/6)(1/6), y hay dos que llevan a G:
I RG, con igual probabilidad que el anterior, e I GG con probabilidad
(1/6). Finalmente, no hay ning un camino de longitud 2 (ni de ninguna otra
mayor que cero) que lleve a I. En resumen,
(2)
= (0, (5/6)(4/6), (5/6)(1/6) +
(1/6), (5/6)(1/6)) = (0, 20/36, 11/36, 5/36).
El mismo resultado se encuentra aplicando 5.2, y tambien se obtienen por la
misma f ormula los vectores de probabilidades correspondientes a los instantes
que siguen.
5.3.1 Partici on en bloques de la matriz de probabilida-
des de transici on
Vamos a introducir una notaci on que nos simplicar a la vericaci on de que las
potencias de P tienen lmite. Observemos que la matriz P puede escribirse
en la forma P =
Q R
0 I
, donde Q =
0 5/6
0 4/6
, R =
1/6 0
1/6 1/6
, I =
1 0
0 1
, 0 =
0 0
0 0
.
De ello resulta que las sucesivas potencias son:
P
2
=
Q
2
(I +Q)R
0 I
, P
3
=
Q
3
(I +Q+Q
2
)R
0 I
, . . . ,
P
n
=
Q
n
(I +Q+Q
2
+. . . +Q
n1
)R
0 I
,
y el lmite se calcula f acilmente cuando Q
n
0, y existe (I Q)
1
, porque en
ese caso
(I Q)(I +Q+Q
2
+. . . +Q
n1
) = I Q
n
I,
y entonces
(I +Q+Q
2
+. . . +Q
n1
) (I Q)
1
.
70
Enrique M. Caba na.
Captulo 5
Cadenas de Markov.
En nuestro caso, la vericaci on de que I Q es no singular es inmediata.
En cuanto al lmite, basta vericar que cualquiera sea el vector z, Q
n
z 0.
Si | z | denota el m aximo de los valores absolutos de las componentes de z,
entonces | Qz | (5/6) | z |, lo que implica | Q
n
z | (5/6)
n
| z | 0.
Se concluye que existe el lmite, y vale P
0 (I Q)
1
R
0 I
.
Para calcular esta matriz observemos que (I Q)
1
R es la matriz M
soluci on de la ecuaci on R = (I Q)M, que en nuestro caso se reduce a
1 5/6
0 2/6
M =
1/6 0
1/6 1/6
,
cuya soluci on es
7/12 5/12
1/2 1/2
.
El an alisis precedente nos muestra condiciones bajo las que existe el lmite
de las potencias de P, y nos dice cu anto vale. Estos resultados est an resumidos
en el enunciado siguiente.
Teorema 5.3.1 Cuando la matriz de probabilidades de transici on de una ca-
dena de Markov homogenea nita es de la forma P =
Q R
0 I
, donde Q es
una matriz cuadrada con (IQ) no singular y con la propiedad lim
n
Q
n
= 0,
entonces
lim
n
P
n
=
0 (I Q)
1
R
0 I
.
Ejercicios.
Ejercicio 5.3.1 Proponer modelos para describir las situaciones descritas en los
ejemplos 2 y 3 de 5. En el caso del Ejemplo 2, suponer que cada usuario utiliza
el sistema un n umero entero de unidades de tiempo. Al cabo de cada unidad de
tiempo, deja el equipo con probabilidad p y permanece por una unidad m as con
probabilidad 1 p. Al principio de cada unidad de tiempo puede llegar un nuevo
usuario, con probabilidad q, o ninguno, con probabilidad 1 q. Cuando estan todas
las computadoras ocupadas, si llega un nuevo usuario, este se retira sin utilizar el
sistema. Cada individuo, procede con independencia del resto.
Ejercicio 5.3.2 Cu al es la probabilidad de ganar en el siguiente juego de dados?
El jugador arroja dos dados simult aneamente. Si obtiene suma 7 u 11, gana, en caso
contrario, llamemos a a la suma. Si no gana luego de la primera jugada, vuelve a
arrojar los dos dados, y gana cuando vuelve a sacar a, pierde cuando saca 7 u 11, y
repite la operaci on cuando el resultado no es 7, 11, ni a.
5.4. Teorema de convergencia de probabilidades. 71
Ejercicio 5.3.3 En la situaci on del Ejemplo 2, con N = 3, p = .5 y q = .5,
identicar el lmite
, si existe, pasando al lmite en la igualdad

(n)
=
(n1)
P.
Ejercicio 5.3.4 Vericar que la existencia del lmite en el Ejemplo 2, esta garan-
tizada por el Teorema 5.4.1, que se enuncia m as abajo.
Ejercicio 5.3.5 Un conjunto de M individuos (M > 0), que llamaremos 1, 2, . . .,
M, esta distribuido en dos compartimientos, que llamaremos A, B. En el instante
0 hay X
0
individuos en A (y n X
0
en B). Inmediatamente antes de cada instante
n (= 1, 2, . . .) se elige uno de los individuos al azar, con independencia de lo ocu-
rrido anteriormente, y este individuo cambia de compartimiento, de manera que el
n umero X
n
de individuos en A en el instante n es X
n1
+ 1 si el individuo elegido
inmediatamente antes de n estaba en B, y X
n1
1 si estaba en A.
(a) Describir el fen omeno mediante una cadena de Markov.
(b) Si
(n)
es el vector cuyas componentes son las probabilidades P{X
n
= k}
k = 0, 1, . . . , M, mostrar que no existe lim
n
(n)
.
(c) Si P es la matriz de probabilidades de transici on de la cadena obtenida en
(a), observar que P
2
es la matriz de probabilidades de transici on de otra cadena
cuyos estados son solo una parte de los de la cadena anterior. Mostrar que a esta
nueva cadena se aplica el Teorema 5.4.1, y deducir cu anto vale el lmite del vector
de probabilidades.
Nota: Al modelo del ejercicio precedente se la llama Dog-Flea Model, porque suele
presentarse reemplazando los individuos por pulgas y los compartimientos por pe-
rros. Tambien puede pensarse que los compartimientos son dos recipientes cerrados
intercomunicados por un peque no oricio circular, dentro de los cuales se mueven
esferas elasticas que rebotan en las paredes, con di ametro ligeramente menor que el
del oricio. En los instantes 1, 2, 3 . . ., una de las esferas atraviesa el oricio.
Este modelo fue propuesto por Ehrenfest, dentro del contexto de la Teora Cinetica
de los Gases.
5.4 Teorema de convergencia de probabilida-
des en una cadena de Markov nita.
Teorema 5.4.1 Cuando existe una potencia de la matriz P de probabilidades
de transici on de una cadena de Markov nita que tiene una columna de ele-
mentos estrictamente positivos, existe el lmite de P
n
y es de la forma 1
,
donde 1 designa un vector cuyas componentes son todas iguales a 1.
El vector la
es soluci on de la ecuaci on
P =
.
72
Enrique M. Caba na.
Captulo 5
Cadenas de Markov.
Mas abajo enunciaremos un teorema de convergencia de probabilidades en
una Cadena de Markov, del que el Teorema 5.4.1 es un caso particular, que se
reere a una cadena cuyo conjunto de estados puede ser innito. Sin embargo,
deberemos posponer su demostraci on hasta el Captulo 10.
Por el momento, vamos a adelantar una demostraci on que se basa fuerte-
mente en la nitud del n umero de estados.
Demostraci on del Teorema. El conjunto de los valores posibles del vector
(0)
es el simplejo S = { : 0, 1 = 1} (donde la desigualdad se interpreta
componente a componente), formado por las combinaciones convexas de los
vectores la e
tr
1
, . . ., e
tr
k
de la base can onica.
Su imagen SP = {P : S} est a contenida en S. La inclusion es
inmediata porque P tiene componentes no negativas y P1 = 1. De SP
S deducimos aplicando nuevamente P que SP
2
SP, y por extensi on de
este razonamiento encontramos que la sucesi on SP
n
de subconjuntos de S es
decreciente por inclusi on, y tiene por lo tanto un lmite A S que es no vaco
porque las sucesivas im agenes por cada nueva aplicaci on de P son conjuntos
cerrados. Notemos por otra parte que estos conjuntos tambien son convexos,
de modo que tambien lo es A. El conjunto A es invariante bajo P, ya que A
= lim
n
SP
n
= (lim
n
SP
n1
)P = AP.
La hip otesis del Teorema expresa que para alg un n
0
y alg un j
0
, todos los
elementos de la columna j
0
de P
n
0
son positivos. De all resulta que SP
n
0
est a estrictamente contenido en S. Mas a un, s olo puede tener en com un con
el borde de S el punto e
j
0
. Si B es un conjunto de la variedad lineal (k 1-
dimensional, se trata de un hiperplano) generada por S, el area (o volumen
k 1-dimensional) de BP es igual al area de B multiplicada por | det P| (ver
Ejercicio 5.4.1) y la inclusi on estricta de SP
n
0
en S implica | det P| < 1, de
manera que el area de A es necesariamente cero. Por tratarse de un convexo,
tiene interior no vaco relativo al hiperplano generado por S, y necesariamente
genera una variedad de dimensi on menor que k 1.
Para terminar la demostraci on del Teorema basta vericar que A contiene
un unico punto, que es el lmite de las probabilidades
(n)
cuando n tiende a
, cualquiera sea
(0)
.
Si A no fuera un punto, llamemos V a la variedad que genera, contenida
estrictamente en el hiperplano que genera S. La interseccion de V con S es
necesariamente llevada al cabo de n
0
aplicaciones de P en un subconjunto
estricto de V S, y una repetici on del argumento originalmente aplicado a
las sucesivas im agenes de S para concluir que A tiene area 0, lleva ahora a
concluir que el lmite de las sucesivas im agenes de V S tiene volumen dimV -
dimensional nulo, y esto es una contradicci on porque lim(V S)P
n
A, a
5.4. Teorema de convergencia de probabilidades. 73
menos que A se reduzca a un punto. 2
Ejercicio 5.4.1 (a) Mostrar que el volumen del paraleleppedo de R
k
de lados
u
1
, u
2
, . . . , u
k
es | det U|, donde U es la matriz de columnas u
1
, u
2
, . . . , u
k
.
Se sugiere fraccionar la demostraci on en dos pasos:
Paso 1. u
1
, . . . , u
k
ortogonales. En ese caso, el volumen es u
1
.u
2
. . . . .u
k
.
Por la ortogonalidad, U
tr
U= diag(u
1
2
, u
2
2
, . . . , u
k
2
) y entonces (det U)
2
=
u
1
2
u
2
2
. . . u
k
2
.
Paso 2. En el caso general, ni el determinante de U ni el volumen del para-
leleppedo cambian cuando el conjunto de vectores se ortogonaliza por el siguiente
procedimiento (de Gram-Schmidt): Se deja u
1
incambiado. Se reemplaza u
2
por ese
mismo vector mas un m ultiplo de u
1
para que el resultado sea ortogonal a u
1
. Se
reemplaza u
3
por u
3
mas una combinaci on lineal de u
1
y u
2
de modo que el resultado
sea ortogonal a u
1
y a u
2
,etc.
(b) Deducir que, si P es una matriz de k k, entonces el paraleleppedo de lados
Pu
1
, Pu
2
, . . ., Pu
k
tiene volumen | det U|.| det P|, y extender el resultado a una
gura medible cualquiera: Si C tiene volumen V, entonces PC = {Pu : u C}
tiene volumen V| det P|.
(c) Si H es el hiperplano determinado por e
1
, e
2
, . . . , e
k
y PH = H entonces para
cada regi on medible A en H, el area o volumen k 1-dimensional de PA es | det P|
por el area de A.
Se sugiere observar que si, para cualquier B H, denimos C(B) = {x : x
B, 0 1}, entonces C(PA) = PC(A) y vol(C(B)) = dist(O, H) area(C(B)),
donde dist(O, H) (= 1/
k) es la distancia del origen al hiperplano H.

Ejemplo 5.4.1 Consideremos el siguiente paseo al azar con barreras reflec-
toras:
Una partcula parte del nivel (estado) X
0
= 0, y en cada instante 1, 2, . . . se
desplaza al nivel una unidad superior o una unidad inferior, con probabilidades
respectivas p y q (p + q = 1), a menos que haya alcanzado los niveles a o b.
En ese caso, si esta en a pasa a a + 1 con probabilidad 1, y si est a en b,
pasa a b1 con probabilidad 1. Los n umeros a y b son enteros positivos dados.
Se propone calcular el vector de probabilidades lmite, si existe.
La primera observaci on que podemos hacer es que X
0
es par, X
1
es impar, y, en
general, X
n
tiene la paridad de n y como consecuencia las probabilidades no pueden
tener lmite, ya que, para cada n de distinta paridad que i,
(n)
i
es cero. Si existiera
el lmite lim
n
(n)
i
debera ser cero, pero esto no es posible, porque hay un n umero
nito de estados y sus probabilidades para cada n suman 1.
Esta observaci on responde por la negativa a la cuesti on planteada. Sin embargo,
parece natural plantearse peque nas variantes, por ejemplo, si es posible modicar
ligeramente la cadena de manera que las probabilidades tengan lmite, o si es posible
74
Enrique M. Caba na.
Captulo 5
Cadenas de Markov.
pasar al lmite en la cadena que se obtiene observando exclusivamente los valores de
X
n
para n par, o para n impar, por separado.
En el primer caso, supongamos que la matriz de probabilidades de transici on, en vez
de
P =
0 1 0 0 . . . 0 0 0
q 0 p 0 . . . 0 0 0
0 q 0 p . . . 0 0 0
0 0 q 0 . . . 0 0 0
. . . . . . . . . . . . . . . . . . . . . . . .
0 0 0 0 . . . q 0 p
0 0 0 0 . . . 0 1 0
es
P =
q +r p 0 0 . . . 0 0 0
q r p 0 . . . 0 0 0
0 q r p . . . 0 0 0
. . . . . . . . . . . . . . . . . . . . . . . .
0 0 0 0 . . . q r p
0 0 0 0 . . . 0 q r +p
, (5.3)
con q +r +p = 1.
Al menos cuando r es peque no, las dos matrices son muy parecidas, pero basta
que r sea positivo para que existan caminos de longitud max{a, b}, por ejemplo,
de probabilidad positiva, que unen cualquier estado con el 0.
El Teorema 5.4.1 es aplicable, como consecuencia, y las probabilidades lmite
= (
a
,
a+1
, . . . ,
b1
,
b
) son soluciones del sistema de ecuaciones:
a
(q +r) +
a+1
q =
a
,
i1
p +
i
r +
i+1
q =
i
(i = a + 1, a + 2, . . . , b 1),
b1
p +
b
(r +p) =
b
.
La ecuaciones extremas nos dan
a+1
= (p/q)
a
,
b1
= (q/p)
b
, mientras que
las ecuaciones centrales se pueden escribir en la forma p
i1
(p +q)
i
+q
i+1
= 0,
con soluciones
i
= C
1
m
i
1
+ C
2
m
i
2
(i = a . . . , b), donde m
1
y m
2
son las races de
p (p + q)m + qm
2
= 0, es decir, m
1
= p/q, m
2
= 1 (ver Ejercicio 5.4.2). Estas son
todas las soluciones, cuando p = q.
Reemplazando estas expresiones en las dos primeras ecuaciones, obtenemos:
C
1
(p/q)
a+1
+C
2
= C
1
(p/q)
a+1
+ (p/q)C
2
,
C
1
(p/q)
b1
+C
2
= C
1
(p/q)
b1
+ (p/q)
1
C
2
.
Cada una de estas dos expresiones implica C
2
= 0 y ambas dejan C
1
indeterminada.
Concluimos entonces que
i
= C
1
(p/q)
i
, y el valor de C
1
se obtiene imponiendo que
la suma de las probabilidades C
1
b
i=a
(p/q)
i
valga 1.
Es interesante observar que las probabilidades lmite no dependen de r.
5 N6.- Markov. 75
Consideremos ahora las observaciones de la cadena para tiempos pares: X
0
, X
2
, X
4
,
. . .. Las probabilidades de transici on para esta cadena son
P
2
=
q 0 p 0 0 . . . 0 0 0
0 q +pq 0 p
2
0 . . . 0 0 0
q
2
0 2pq 0 p
2
. . . 0 0 0
. . . . . . . . . . . . . . . . . . . . . . . . . . .
0 0 0 0 0 . . . 2pq 0 p
2
0 0 0 0 0 . . . 0 pq +p 0
0 0 0 0 0 . . . q 0 p
.
Los estados de ndice par, por una parte, y los de ndice impar por otra, constituyen
dos clases de equivalencia que no se comunican entre si, de modo que pueden estudiar-
se separadamente la restricci on de la cadena a los estados pares, correspondiente a
vectores de probabilidades iniciales que atribuyen probabilidad cero a todos los esta-
dos impares, y la restriccion complementaria, que corresponde a poner probabilidades
iniciales nulas a los estados pares.
Cada una de las matrices de las restricciones es muy similar a (5.3), y las probabili-
dades lmite se obtienen de la misma manera.
Dejamos como ejercicio completar los detalles de estos casos, y estudiar el caso p = q,
excluido en el tratamiento que precede. 2
Ejercicio 5.4.2 (a) Mostrar que el conjunto de las soluciones del sistema de ecua-
ciones
i+1
+
i
+
i1
= 0; (i = a, a + 1, . . . , b, , = 0)
es un subespacio vectorial de R
ba+1
, es decir que, si llamamos
= (
a
, . . . ,
b
),
= (
a
, . . . ,
b
) a dos soluciones, entonces A
+ B
es tambien soluci on para

cualesquiera A y B.
(b) Observar, despejando sucesivamente
a+2
,
a+3
, . . . que existe una unica
soluci on que cumple
a
= 1,
a+1
= 0, y que existe una unica soluci on que
cumple
a
= 0,
a+1
= 1.
(c) Deducir que el conjunto de todas las soluciones es {A + B : A, B R},
de manera que el subespacio de las soluciones tiene dimensi on 2.
(d) Buscar soluciones de la forma
i
= m
i
. Deducir que cuando la ecuaci on
m
2
+ m + = 0 tiene races distintas m
1
, m
2
, las soluciones son de la forma
Am
i
1
+Bm
i
2
.
(e) Vericar que cuando la ecuaci on m
2
+m + = 0 tiene una raz doble m,
i
= m
i
,
i
= im
i
y sus combinaciones lineales son las soluciones del sistema.
76
Enrique M. Caba na.
Captulo 5
Cadenas de Markov.
N6.- Markov, Andrei A. (1856-1922).
Andrei Markov nacio en Ryazan (Rusia), fue alumno de
Chebyshev, se graduo en la Universidad de San Petersburgo,
y fue profesor de esa misma Universidad.
Sus primeros trabajos matematicos se reeren a la teora de
n umeros y al analisis. Entre otros temas, contribuyo al estu-
dio de las fracciones continuas, las series y las integrales. Su
aporte mas importante a la probabilidad se reere al estudio
de procesos estocasticos, particularmente el tipo de dependen-
cia de sucesiones de variables aleatorias que lleva su nombre
(Cadenas de Markov).
6. Valor esperado de una
variable aleatoria.
6.1 Introducci on.
El juego de azar que utilizamos como ejemplo para motivar la denici on de probabi-
lidad, nos servir a tambien para introducir la denici on del valor esperado o esperanza
matem atica de una variable aleatoria. En ese ejemplo el jugador decide que cantidad
cierta (A) estima equivalente a la ganancia aleatoria 1
A
; supongamos ahora que la
ganancia aleatoria es una variable X, no necesariamente tan sencilla como la funci on
indicatriz del suceso A. En ese caso, la composicion de lugar an aloga de nuestro
jugador, podr a llevarlo a estimar que una determinada cantidad cierta (es decir, no
aleatoria) e(X) es intercambiable con la ganancia aleatoria X.
Esta aplicaci on e del conjunto de las variables aleatorias en los reales, debe cumplir
algunas condiciones de coherencia con la interpretaci on que pretendemos darle.
En primer lugar, es lo mismo participar simult aneamente en el juego de ganancia X
y en el juego de ganancia Y , que participar en el juego de ganancia X + Y . Por
lo tanto, debe cumplirse e(X + Y ) = e(X) +e(Y ). Esta observaci on se extiende a
cualquier n umero de sumandos, por inducci on.
Veamos, antes de continuar, un ejemplo que se nala una dicultad que deber a tenerse
en cuenta.
Ejemplo 6.1.1 Se arroja una moneda equilibrada, sucesiva e independientemente,
hasta que sale cara por primera vez. (La independencia signica que, con la no-
tacion Y
i
= 1 si sale cara la i-esima vez, Y
i
= 0 en caso contrario, entonces los
sucesos {Y
i
= u
i
} i = 1, 2, . . . son independientes, cualesquiera sean los valores (1 o
0) de u
1
, u
2
, . . ..)
Llamemos H al orden del primer intento en que sale cara (H {1, 2, . . .}, H = h
si la primera cara ocurre en el h-esimo intento). Denimos la variable X = x
H
, y
nos preguntamos que cantidad cierta es intercambiable por una ganancia incierta
X.
Comparemos este juego con el que tiene por ganancia X
n
= x
H
1
{Hn}
. Intervenir
en este ultimo equivale a hacerlo en n juegos con ganancias respectivas x
h
si H = h,
77
78
Enrique M. Caba na.
Captulo 6: Valor esperado de una variable aleatoria.
para h = 1, 2, . . . , n. Para cada uno de ellos la apuesta equitativa es x
h
P{H = h}
= (x/2)
h
, de modo que la apuesta equitativa para ganar X
n
ser a la suma: e(X
n
)
=
n
h=1
(x/2)
h
.
Este antecedente hace que resulte natural asociar al juego de duraci on indenida con
ganancia X la apuesta equitativa e(X) =
h=1
(x/2)
h
. Esta serie suma
x/2
1(x/2)
cuando |x| < 2, pero no converge cuando |x| 2. Si x > 2, podemos convenir en que
e(X) es +. Cuando x < 2, no hay ning un valor admisible para e(X).
El resultado del ejemplo anterior, nos lleva a tener en cuenta que puede no haber
soluci on al problema de encontrar una cantidad cierta, intercambiable con X. En
algunos casos es posible que esta dicultad se resuelva agregando la convenci on de
que e(X) puede ser +o , y el ejemplo sugiere que esto ocurrir a al menos cuando
X 0 o X 0, respectivamente. Pero en general es posible que no exista ninguna
cantidad e(X) adecuada, ni siquiera en R {} {+}.
Convendremos entonces desde ya en limitarnos en lo sucesivo a variables aleatorias no
negativas, para evitar una parte de la dicultad, y a extender los resultados a variables
cualesquiera mediante e(X) = e(X
+
) e(X
), con X
+
= X 0, X
= X
+
X,
f ormula que resulta de e(X + Y ) = e(X) + e(Y ) con X
en el lugar de Y , siempre
que las cantidades que intervienen sean nitas.
Con X 0, debe cumplirse e(X) 0, para que el juego sea equitativo. Esto implica,
junto con la observaci on anterior, que cuando X Y , debe ocurrir e(X) e(Y ).
Argumentos parecidos a los que se utilizan para demostrar el Lema 3.6.1, que no vamos
a detallar en esta oportunidad, muestran que para todo racional r debe cumplirse
e(rX) = re(X), como consecuencia de que la aplicacion de e conmuta con las sumas.
Nuevamente, como en la mencionada demostracion, la monotona permite concluir
que la f ormula se extiende para todo r real. Esto, junto con la primera de las
propiedades establecidas, implica que e debe ser lineal. Podemos observar por a na-
didura que cuando X se reduce a la funci on indicatriz de A, entonces e(X) se reduce
a (A). En particular, si X es constante, e(X) debe coincidir con esa constante.
6.2 Una denici on descriptiva de la esperanza.
Los elementos considerados en 6.1 sugieren la siguiente denici on de la espe-
ranza.
Denici on 6.2.1 (i) Llamamos esperanza o valor esperado a la aplicaci on
E denida en el conjunto de las variables aleatorias no negativas, con valores
en

R
+
= R
+
{+} que satisface:
(e
1
): E(1
A
) = P(A), y
6.2. Definici on de la esperanza. 79
(e
2
): Si , X 0, entonces EX = EX. Si X
n
0, n = 1, 2, . . ., entonces
E
n=1
X
n
=

n=1
EX
n
. En particular, si , , X, Y 0, entonces
E(X + Y ) = EX + EY .
(ii) La aplicacion anteriormente denida se extiende a la familia de las
variables aleatorias que satisfacen E(|X|) < , mediante
E(X) = E(X
+
) E(X
).
Nota 1: Para el enunciado anterior y en lo que sigue, convenimos en
que, con a R, valen las f ormulas a + (+) = +, (+) + (+) =
(+), a.(+) = +, si a > 0 y si a < 0. En cambio no atribuimos
ning un signicado a las expresiones (+) (+), 0.(+).
Nota 2: De |X| = X
+
+X
, resulta que E(|X|) < implica E(X

+
) < ,
E(X
) < , de modo que la diferencia E(X

+
) E(X
) que aparece al nal

de la denici on precedente, est a bien denida.
Nota 3: El mismo tipo de razones tecnicas que conducen a denir las
probabilidades con la propiedad de aditividad, motivada por consideraciones
heursticas, reforzada con la -aditividad, lleva en este caso a reforzar la lineal-
idad mediante la formulaci on de (e
2
), en la que la aditividad de la esperanza
tambien se exige para sumas de sucesiones de variables aleatorias no negativas,
y no solo para sumas nitas.
Nota 4: No es obvio que exista alguna aplicaci on que cumpla las condi-
ciones de la Denici on 6.2.1, pero si existe, tiene que estar dada de la manera
que indica la denici on constructiva (Denici on 6.3.2) que se indica m as abajo.
Para garantizar la coherencia de las dos deniciones, resultar a necesario de-
mostrar el teorema siguiente.
Teorema 6.2.1 Existe una unica aplicaci on que cumple las condiciones de la
Denicion 6.2.1.
La demostraci on est a contenida en lo que sigue: la unicidad es consecuen-
cia de la construcci on que se describe en la Denici on 6.3.2 y la existencia
resulta de establecer que la esperanza denida a partir de la Denici on 6.3.2
cumple con las propiedades que establece la Denici on 6.2.1. Esto ultimo es
el contenido del Teorema 6.3.1.
De la Denici on 6.2.1 resultan estas dos importantes consecuencias:
Teorema 6.2.2 (Convergencia Mon otona) Si (X
n
) es una sucesi on de va-
riables aleatorias, que cumplen 0 X
1
X
2
X
3
. . . X
n
. . . y
lim
n
X
n
= X, entonces lim
n
E(X
n
) = E(X).
80
Enrique M. Caba na.
Demostraci on: Es una consecuencia inmediata de la segunda parte de la
propiedad (e
2
) de la denici on, aplicada a las diferencias X
n
X
n1
(n = 1,
2, . . ., X
0
= 0). 2
Nota: Recprocamente, este Teorema de Convergencia Mon otona, aplicado
a la sucesion creciente de reducidas de la serie

n=1
X
n
cuyos sumandos son
variables aleatorias no negativas, implica para este caso la interversi on de la
esperanza con la suma, es decir, E
n=1
X
n
=

n=1
EX
n
.
Teorema 6.2.3 (Linealidad) La linealidad E(X+Y ) = EX+EY que la
Denicion 6.2.1 establece en (i-e
2
) para , , X, Y no negativos, vale tambien
cualquiera sea el signo de , , X e Y , cuando E(|X|) < , E(|Y |) < .
Demostraci on: Basta vericar por separado (a): EX = EX y (b):
E(X + Y ) = EX +EY .
Para (a), podemos suponer no negativo, porque en caso contrario, reem-
plazamos por y X por X. Entonces, EX = E(X)
+
E(X)
= EX
+
EX
= EX
+
EX
= EX.
Para establecer (b), notemos en primer lugar que cuando U, V y U V
son no negativas, entonces E(U V ) = EU EV , ya que la descomposici on
de U en sumandos no negativos nos permite escribir EU = E((U V ) + V )
= E(U V ) +EV .
Con la abreviatura Z = 1
{X+Y 0}
, podemos escribir
E(X + Y ) = E(X + Y )
+
E(X + Y )
= E((X
+
X
) + (Y
+
Y
)Z E((X
+
X
) (Y
+
Y
))(1 Z).
Puesto que U
= (X
+
+Y
+
)Z y V
= (X
+Y
)Z satisfacen U
0, V
0,
U
0, se cumple
E((X
+
X
) + (Y
+
Y
)Z = E(X
+
+ Y
+
)Z E(X
+ Y
)Z
= EX
+
Z +EY
+
Z EX
Z EY
Z.
An alogamente, tambien U
= (X
+ Y
)(1 Z) y V
= (X
+
+ Y
+
)(1 Z)
satisfacen U
0, V
0, U
0, de modo que
E((X
+
X
)(Y
+
Y
))(1Z) = E(X
+Y
)(1Z)E(X
+
+Y
+
)(1Z)
= EX
(1 Z) +EY
(1 Z) EX
+
(1 Z) EY
+
(1 Z).
Restando las dos ecuaciones obtenidas, encontramos
E(X + Y ) = EX
+
Z +EY
+
Z EX
Z EY
Z
6.3. Definici on constructiva de la esperanza. 81
EX
(1 Z) EY
(1 Z) +EX
+
(1 Z) +EY
+
(1 Z).
Por ser Z y 1 Z no negativas, EX
+
= E(X
+
Z + X
+
(1 Z)) = EX
+
Z +
EX
+
(1 Z). An aloga descomposici on se aplica a X
para obtener EX
= EX
Z + EX
(1 Z), y de la misma manera se procede con Y

+
, Y
. Se
concluye entonces
E(X + Y ) = EX
+
+EY
+
EX
EY
= EX +EY.
2
6.3 Denici on constructiva de la esperanza.
Denici on 6.3.1 Se llama variable aleatoria simple, a cualquier combinaci on
lineal nita de funciones indicatrices de sucesos.
Denici on 6.3.2 (i) La esperanza de la funci on indicatriz de un suceso A es
E1
A
= P(A).
(ii) Las esperanzas de las variables aleatorias simples se calculan mediante la
f ormula
E
k
i=1
x
i
1
A
i
=
k
i=1
x
i
P(A
i
).
(iii) Cuando X es una variable aleatoria no negativa tomamos una sucesi on
mon otona creciente X
n
=

j
x
j,n
1
A
j,n
, n = 1, 2, . . . de variables aleatorias
simples, cuyo lmite es X. Entonces
EX = lim
n
EX
n
= lim
n
j
x
j,n
P(A
j,n
).
En particular, por ejemplo,
EX = lim
n
n2
n
j=0
j2
n
P{j2
n
< X (j + 1)2
n
}. (6.1)
(iv) Cuando E|X| < ,
E(X) = E(X
+
) E(X
).
82
Enrique M. Caba na.
La construcci on particular de la esperanza de X 0 que indica la denici on
precedente, resulta de aproximar X por la sucesion de variables aleatorias
simples X
n
=

n2
n
j=0
j2
n
1
{j2
n
<X(j+1)2
n
}
.
La parte (ii) de la Denici on 6.3.2 es coherente, porque cuando una misma
variable aleatoria simple se representa de dos maneras diferentes como combi-
naci on lineal de indicatrices de sucesos, las esperanzas resultantes coinciden,
como indica el lema siguiente.
Lema 6.3.1 Si

I
i=1
a
i
1
A
i
=

J
j=1
b
j
1
B
j
, son dos representaciones para la
misma variable aleatoria simple, entonces

I
i=1
a
i
P(A
i
) =

J
j=1
b
j
P(B
j
).
Demostraci on. Cada combinaci on lineal nita de indicatrices de sucesos se puede
escribir de manera unica como una combinaci on lineal con coecientes diferentes entre
s, de las indicatrices de sucesos de una partici on de .
Supongamos
I
i=1
a
i
1
Ai
=
K
k=1
c
k
1
C
k
, donde los c
k
son diferentes entre s, y
(C
k
)
k=1,2,...,K
es una partici on de . Se deduce que para cada k, c
k
=
C
k
Ai
a
i
,
de modo que
K
k=1
c
k
P(C
k
) =
K
k=1
C
k
Ai
a
i
P(C
k
) =
I
i=1
a
i
C
k
Ai
P(C
k
),
y esto coincide con
I
i=1
a
i
1
Ai
dado que
C
k
Ai
P(C
k
) = P(A
i
). De manera an aloga
se verica que
K
k=1
c
k
P(C
k
) coincide con
J
j=1
b
j
P(B
j
). 2
La parte (iii) de la Denici on 6.3.2 es coherente, porque las sucesiones de las
esperanzas de sucesiones crecientes de variables aleatorias simples no negativas
que convergen a una variable aleatoria X, tienen todas el mismo lmite, que
es lo que se dene como la esperanza de X. La unicidad del lmite de las
aproximaciones simples y mon otonas est a expresada en el siguiente lema.
Lema 6.3.2 Si X es no negativa, y las sucesiones crecientes de funciones
simples no negativas Y
n
=

j
y
j,n
1
A
j,n
, Z
n
=

j
z
j,n
1
B
j,n
tienen lmite X,
entonces lim
n
j
y
j,n
P(A
j,n
) = lim
n
j
z
j,n
P(B
j,n
).
Demostraci on: Basta mostrar que
Y
n
, limY
n
Z =
j
z
j
1
Bj
implica lim
n
EY
n
EZ, (6.2)
ya que esta propiedad, aplicable a cada Z
m
conduce a lim
n
EY
n
EZ
m
, para
cada m, y al pasar al lmite cuando m tiende a innito en esta ultima desigualdad, se
obtiene limEY
n
limEZ
m
. Al intercambiar los papeles de (Y
n
) y (Z
m
) se obtiene
la desigualdad contraria, y ambas implican la conclusi on requerida.
6.4. C alculo de esperanzas. 83
Para establecer (6.2), observemos que es suciente proceder por separado, para cada
j, con cada una de las sucesiones
1
zj
Y
n
1
Bj
=
h
y
h,n
zj
1
A
h,n
Bj
, n = 1, 2, . . ., cuyo
lmite es mayor o igual que 1
Bj
, de modo que no perdemos generalidad al limitarnos
al caso Z = 1
B
.
Para cada (0, 1), y D
n
= { B : Y
n
() > 1 } B, P(D
n
) P(B) y entonces
EY
n
(1 )P(D
n
) (1 )P(B) = (1 )EZ. Puesto que es arbitrario,
concluimos EY
n
EZ. 2
Teorema 6.3.1 La esperanza a la que se reere la Denici on 6.3.2, cumple
las propiedades del operador esperanza de la Denicion 6.2.1.
Demostraci on. La propiedad (e
1
) de la Denici on 6.2.1 coincide con (i) de la
Denici on 6.3.2. La propiedad (e
2
) equivale a las siguientes tres propiedades:
(e
2,1
) EX = EX, para , X, no negativos,
(e
2,2
) E(X + Y ) = EX +EY , para X, Y no negativos, y
(e
2,3
) la propiedad del Teorema 6.2.2, que demostramos en 6.5.3.
La validez de (e
2,1
) y de (e
2,2
) para variables aleatorias no negativas cua-
lesquiera resulta de establecer que esas mismas f ormulas valen para variables
simples, y de aproximar variables arbitrarias por sucesiones mon otonas de va-
riables simples.
La linealidad en el caso de variables simples es trivial, en virtud de la propia
denicion de la esperanza, y del resultado del Lema 6.3.1. 2
6.4 Calculo de esperanzas.
Observemos que la parte (ii) de la Denici on 6.3.2 nos permite calcular la
esperanza de una variable aleatoria X con recorrido nito {x
1
, x
2
, . . . , x
k
}, por
medio de la f ormula
E(X) =
k
j=1
x
j
P{X = x
j
}. (6.3)
En la Figura 6.1 se muestra una interpretaci on gr aca para el sumando
x
j
P{X = x
j
}, como area de un rect angulo vinculado al gr aco de la funci on
de distribuci on F
X
de la variable X. Como consecuencia de esa interpretaci on,
encontramos que la esperanza puede expresarse como la diferencia entre el area
limitada por el gr aco de F
X
y el de la constante 1, del lado derecho del eje
de ordenadas, menos el area comprendida entre el eje de abscisas y el gr aco
de F
X
del lado izquierdo (ver la Figura 6.2).
84
Enrique M. Caba na.
x
j
P{X = x
j
}
Figura 6.1: Interpretaci on gr aca de un sumando en la esperanza de una
variable discreta.
Teorema 6.4.1 (i) Si X es no negativa, E(X) =

+
0
(1 F
X
(t))dt.
(ii) Si las integrales que aparecen en la f ormula siguiente convergen, enton-
ces: E(X) =

+
0
(1 F
X
(t))dt
F
X
(t)dt.
Demostraci on. Estas f ormulas valen en caso que X sea una variable discreta
con recorrido nito, por la observaci on anterior.
Si X es no negativa, la aproximamos por la sucesi on mon otona creciente
de variables discretas X
n
= (2
n
[2
n
X]) n, donde [ ] designa a la parte entera.
La Figura 6.4 muestra un esquema de las funciones de distribuci on de X y de
X
n
.
Vamos a vericar que cuando n tiende a innito, el area sobre el gr aco de
F
Xn
, que es la esperanza de X
n
, tiende al area sobre el gr aco de F
X
, que es
lo que se requiere probar, ya que por el Teorema 6.2.2 sabemos que tiende a
la esperanza de X.
Para ello, pasamos al lmite cuando n tiende a + en las desigualdades
+
0
(1F
Xn
(t))dt=
n
0
(1F
Xn
(t))dt
n
0
(1F
X
(t))dt
n
0
(1F
Xn
(t))dt+2
n
y esto termina la demostraci on de (i).
El caso general enunciado en (ii) se puede resolver separando X como
diferencia de sus partes positiva y negativa, como en otros casos ya tratados,
y no lo detallamos. 2
x
j
P{X = x
j
}
Figura 6.2: Interpretaci on gr aca de la esperanza de una variable discreta.
Figura 6.3: Interpretaci on de la esperanza como diferencia de areas.
86
Enrique M. Caba na.
Distribucion de Xn
2
n
Distribucion de X
Figura 6.4: Aproximaci on de la esperanza por esperanzas de aproximaciones
discretas.
Teorema 6.4.2 Si X tiene distribuci on absolutamente continua con densidad
f
X
, y la integral que aparece en la f ormula siguiente es absolutamente conver-
gente, entonces
E(X) =
tf
X
(t)dt.
Demostraci on Separemos la integral en dos terminos, correspondientes a
cada una de las semirrectas determinadas por el cero, e integremos por partes
en cada una de ellos de la manera siguiente.
+
0
tf
X
(t)dt = lim
t
t(F
X
(t) 1)
+
0
(F
X
(t) 1)dt
tf
X
(t)dt = lim
t
(tF
X
(t))
F
X
(t)dt.
Las acotaciones t(1F
X
(t)) = t
+
t
f
X
(s)ds

+
t
sf
X
(s)ds, v alida para
t > 0, y tF
X
(t) = t
f
X
(s)ds

t
sf
X
(s)ds, para t < 0, y la hip otesis
sobre la convergencia absoluta de la integral impropia

+
tf
X
(t)dt, muestran
que lim
t
t(F
X
(t) 1) = lim
t
(tF
X
(t)) = 0. Sumando las igualdades
obtenidas anteriormente y aplicando el Teorema 6.4.1, se obtiene el resultado
deseado. 2
Los vnculos entre el c alculo de esperanzas y el c alculo de integrales que
aparecen en los resultados previos son un sntoma de una relaci on mucho m as
estrecha entre unas y otras, que se discute en el pr oximo captulo. En par-
ticular, la f ormula (6.3) y la que aparece en el Teorema 6.4.2, se generalizan
como indica el enunciado siguiente, que resulta muy util para el c alculo de
esperanzas.
Teorema 6.4.3 (i) Si X es una variable discreta, con valores x
1
, x
2
, . . .,
x
n
, . . . y g es una funci on tal que

j=1
|g(x
j
)|P{X = x
j
} < , entonces
E(g(X)) =

j=1
g(x
j
)P{X = x
j
}
(ii) Si X es una variable con distribuci on absolutamente continua, y g es
una funci on seccionalmente continua tal que

+
|g(t)|f
X
(t)dt < , en-
tonces E(g(X)) =

+
g(t)f
X
(t)dt.
Demostraci on de (i). La f ormula EX =
m
i=1
p
i
x
i
vale cuando X toma los valores
todos diferentes x
i
(i = 1, . . . , m) con probabilidades respectivas p
i
, pero tambien
vale a un cuando los x
i
no sean necesariamente diferentes, cuando P{X = x
i
} =
{xj=xi}
p
j
, como es inmediato vericar.
La variable g(X) toma los valores g(x
i
) con probabilidades p
i
= P{X = x
i
}, si son
todos diferentes, o bien P{g(X) = g(x
i
)} =
{g(xj)=g(xi)}
p
j
en general, de modo
que la observaci on precedente establece el resultado a demostrar.
Demostraci on de (ii). Paso 1. Cuando g = 1
B
, el resultado a demostrar se reduce a
E1
{XB}
=
B
f(t)dt, que es cierto pues ambos miembros coinciden con P{X B}.
Paso 2. Dado que ambos miembros son lineales en g, la validez del resultado se
extiende a funciones g que son combinaciones nitas de funciones indicatrices. Paso
3. Cuando g es no negativa, y g
n
es una sucesion de combinaciones lineales de
indicatrices que converge mon otonamente a g, 0 g
n
g, entonces g
n
(X) g(X),
y g
n
(t)f(t) g(t)f(t), de modo que, por pasaje al lmite de las igualdades entre
esperanzas e integrales de las sucesiones aproximantes, el resultado a establecer se
extiende a g 0. Para la validez de este argumento es preciso establecer un Teorema
de Convergencia Mon otona para las integrales. A tal efecto, nos referimos a 7.3.4.
Paso 4. Finalmente, la descomposicion g = g
+
g
permite reducir el caso general

al de g no negativa, ya demostrado en el Paso 3. 2
Revemos este teorema en 13.4, dentro del contexto de los cambios de variable
en una integraci on.
Ejercicios.
Ejercicio 6.4.1 Demostrar que, si X solo toma valores enteros positivos, E(X) =
n=1
P{X n}. Calcular mediante esta f ormula E(Y ), si Y Geo(p).
Ejercicio 6.4.2 Una urna contiene N bolas numeradas de 1 a N. Se extrae una
muestra con reposicion X
1
, X
2
, . . . , X
n
de n bolas. Suponemos que las extracciones
son independientes y que cada bola tienen la misma probabilidad de ser extrada
que cualquier otra.
88
Enrique M. Caba na.
Hallar las distribuciones de probabilidad de las variables aleatorias
M
n
= max{X
1
, X
2
, . . . , X
n
} y m
n
= mn{X
1
, X
2
, . . . , X
n
}.
Calcular E(M
n
) y comprobar que si N es grande E(M
n
) vale aproximadamente
Nn/(n + 1).
Ejercicio 6.4.3 Dada X Uni(/2, /2), calcular E(Y ) cuando:
(a) Y = sin X, (b) Y = cos X, (c) Y = 3X + 2, (d) Y = 1/(|X|
a
) (Para que
valores de a es E(Y ) < ?)
Ejercicio 6.4.4 Si X tiene funci on de distribuci on F absolutamente continua,
hallar la funci on de distribuci on de: log F(X).
Ejercicio 6.4.5 Si X Bin(n, p), calcular E(1/(1 +X))
Ejercicio 6.4.6 Se escriben n cartas y sus respectivos sobres, y se ensobran las
cartas al azar de modo que la probabilidad de cualquiera de las posibles permuta-
ciones de las cartas en sus sobres es la misma.
Calcular la esperanza del n umero H de cartas que se ensobran correctamente.
Sugerencia:
H =
n
i=1
X
i
, con X
i
=
1, si la i-esima carta va al i-esimo sobre

0 en caso contrario.
Ejercicio 6.4.7 Si X Geo(p) y M > 0, entero, calcular la esperanza de Y =
mn{X, M}.
Ejercicio 6.4.8 Calcular la esperanza del estimador p del par ametro p obtenido
en 4.3.4. Vericar que, si llamamos sesgo de p a la diferencia b = E pp, y decimos
que un estimador es insesgado cuando su sesgo es cero, entonces p es insesgado.
6.5 Algunas propiedades de las esperanzas.
6.5.1 Variables constantes con probabilidad 1.
De la denici on de esperanza, se deduce sin dicultad que cuando una varia-
ble aleatoria vale 0 con probabilidad 1, su esperanza es 0, lo mismo que la
esperanza de su valor absoluto, y la de su cuadrado. En el siguiente teorema
y en sus corolario, encontramos criterios basados en esperanzas que permiten
concluir que una variable aleatoria es cero con probabilidad uno.
6.5. C alculo de lmites. 89
Teorema 6.5.1 (Corolario de la Denici on 6.3.2.) Si X 0 y EX = 0,
entonces P{X = 0} = 1.
Demostraci on. La sucesion cuyo lmite se calcula en (6.1) es no negativa y no
decreciente. Si el lmite es cero, necesariamente cada termino es cero, y como
se trata de una suma de sumandos no negativos, cada sumando es cero. Se
deduce que para cada n, (2
n
, n + 2
n
] tiene probabilidad nula, y, pasando al
lmite, que P{0 < X} = 0. 2
Corolario 6.5.1.1 (i) EX
2
= 0 si y s olo si P{X = 0} = 1.
(ii) E(X EX)
2
= 0 si y solo si P{X = EX} = 1.
(iii) Si EH = 0 (= EH
+
EH
), entonces Elog(1 + H) 0, y la igualdad

s olo se cumple si P{H = 0} = 1.
Demostraci on. Con X
2
, (XEX)
2
en lugar de X, el Teorema permite concluir
inmediatamente (i) y (ii). Para obtener (iii), observamos que la nueva variable
aleatoria K = log(1 +H) tiene el mismo signo que H, y satisface K H. Por
la monotona, se cumple EK EH. La igualdad corresponde a E(H K)
= 0, y por el Teorema precedente, esto implica P{H = K} = 1. Por otra
parte, esta igualdad se cumple si y s olo si H = 0. 2
6.5.2 Desigualdad de Jensen.
Denici on 6.5.1 (Funcion convexa) Una funci on F : A R R se dice
convexa cuando por cada punto (a, f(a)) de su gr aco pasa una recta g(x)
= f(a) +c
a
(x a) con la propiedad g(x) f(x) para todo x A.
Teorema 6.5.2 (Desigualdad de Jensen) Si X es una variable aleatoria con
valores en el dominio de una funci on f convexa, entonces Ef(X) f(EX).
Demostraci on. Tomemos la recta de ecuaci on g(x) = f(EX) +c(x EX) que
satisface g(X) f(X) para todo X. Tomando esperanzas en esta desigualdad
obtenemos Eg(X) = f(EX) +cE(XEX) = f(EX) Ef(X), que es lo que
se requiere vericar. 2
90
Enrique M. Caba na.
6.5.3 Calculo de lmites
Teorema de Convergencia Mon otona de Beppo Levi (ver 6.2.2).
Dada una sucesion creciente de variables aleatorias no negativas X
n
con lmite X,
tenemos que demostrar que EX
n
EX.
Aproximemos X
1
por una sucesion creciente de variables aleatorias simples: 0
X
1,n
X
1
. Luego aproximamos X
2
de la misma manera: 0

X
2,n
X
2
y
reemplazamos la aproximacion

X
2,n
por la nueva sucesion X
2,n
= max{X
1,n
,

X
2,n
}
que es tambien creciente, y tambien converge a X
2
. Continuamos de la misma
manera: para cada m, elegimos

X
m,n
X
m
(n ), y la reemplazamos por
X
m,n
= max{X
m1,n
,

X
m,n
}. De esta manera se construye una sucesion X
m,n
cre-
ciente en cada uno de sus ndices, con la propiedad X
m,n
X
m
, (n ).
Para m n, X
m,n
X
n,n
. La sucesion de variables aleatorias simples X
n,n
es
creciente, de modo que tiene un lmite Z, y cada elemento esta acotado por X, de
modo que Z X.
Pasando al lmite cuando n tiende a innito en X
m,n
X
n,n
Z X resulta X
m
Z X, y pasando al lmite cuando m tiende a innito, se obtiene X Z X, de
modo que Z = X.
Tomando esperanzas en las desigualdades X
m,m
X
m,n
X, tambien v alidas para
m n, obtenemos EX
m,m
EX
m,n
EX, y pasando al lmite cuando n tiende a
innito resulta EX
m,m
EX
m
EX, por la denici on constructiva de la esperanza,
ya que la sucesion X
m,n
( X
m
) es simple. Tambien X
m,m
( X) es simple, de modo
que pasamos al lmite con m en la ultima desigualdad, y obtenemos EX
lim
m
EX
m
EX. 2
Lema de Fatou.
Teorema 6.5.3 (Lema de Fatou) Cuando (X
n
)
nN
es una sucesi on de va-
riables aleatorias no negativas, se cumple
Eliminf
n
X
n
liminf EX
n
.
Suponemos ahora 0 X
n
. Dado que liminf
n
X
n
= lim
n
inf
mn
X
m
, es el
lmite ordinario de la sucesi on Y
n
= inf
mn
X
m
no decreciente, por el Teorema de
Convergencia Mon otona se cumple limEY
n
= ElimY
n
= Eliminf
n
X
n
.
Para obtener la conclusi on requerida, basta observar que Y
n
X
n
, de modo que
EY
n
EX
n
, y Eliminf
n
X
n
= limEY
n
liminf EX
n
. 2
6.5.4 Teorema de Convergencia Dominada de Lebesgue.
Teorema 6.5.4 (de Convergencia Dominada) Cuando Y, Z, (X
n
)
n=1,2,...
son
variables aleatorias que satisfacen E|Y | < , E|Z| < , Y X
n
Z,(n =
6.6. Momentos, variancia. 91
1, 2, . . .) y lim
n
= X, entonces
lim
n
EX
n
= EX.
Suponemos ahora Y X
n
Z, E|Y | < , E|Z| < . El Lema de Fatou aplicado
a las variables no negativas X
n
Y conduce a E(liminf X
n
Y ) liminf EX
n
EY ,
de modo que se deduce:
Eliminf X
n
liminf EX
n
. (6.4)
El mismo Lema aplicado a las variables no negativas Z X
n
, nos lleva a concluir
Eliminf(Z X
n
) liminf E(Z X
n
), que es lo mismo que EZ Elimsup X
n

EZ limsup EX
n
, de modo que
Elimsup X
n
limsup EX
n
. (6.5)
Reuniendo (6.4) y (6.5) con la existencia del lmite X
n
X establecida en la hip otesis
del Teorema, obtenemos
EX = Eliminf X
n
liminf EX
n
limsup EX
n
Elimsup X
n
= EX.
2
6.6 Momentos, variancia.
Denici on 6.6.1 (Momentos de una distribuci on de probabilidades)
Cuando E(|X|
n
) < , decimos que E(X
n
) es el momento de orden n
de la variable X o de la distribuci on de probabilidad de X . Los momentos de
|X| se llaman momentos absolutos de X. Los momentos de X E(X) se
llaman momentos centrales de X.
En particular, el momento central de orden 2 de X, se llama variancia
Var(X) = E([X E(X)]
2
).
Nota. Si denimos en la recta real una distribuci on de masas para la cual la masa de
la semirrecta (, x] es P{X x} = F
X
(x), entonces el baricentro de la distribuci on
de masas tiene abscisa E(X). Los momentos de segundo orden corresponden a los
momentos de inercia. En particular, la variancia es el momento de inercia respecto
del baricentro.
As como el baricentro y el momento de inercia tienen especial importancia para
describir propiedades mecanicas de la distribuci on de masas, lo mismo ocurre con la
esperanza y la variancia, respecto de las distribuciones de probabilidades.
92
Enrique M. Caba na.
Ejercicios.
Ejercicio 6.6.1 Mostrar que vale la siguiente f ormula para el c alculo de la vari-
ancia
Var(X) = E(X
2
) (EX)
2
Ejercicio 6.6.2 Calcular las variancias de las distribuciones:
Geo(p), Uni(0, 1), Uni(a, b), Bin(n, p), Exp().
Ejercicio 6.6.3 Si X Uni(0, 1), hallar las distribuciones de X
2
y de e
X
, y
calcular en cada caso la esperanza y la variancia.
Ejercicio 6.6.4 Calcular la variancia de la variable H del Ejercicio 6.4.6.
Ejercicio 6.6.5 Si X tiene distribuci on discreta con recorrido {0, 1, . . .} y pro-
babilidades P{X = h} = e
()
h
/h!(h = 0, 1, 2, . . .), calcular su esperanza y su
variancia. Calcular E((1 +X)
1
).
Nota: La distribuci on discreta del ejercicio 6.6.5, se denomina distribuci on de
Poisson con par ametro .
6.7 Medidas de posici on y medidas de disper-
si on de una distribuci on de probabilida-
des.
Ya hemos indicado en 6.1 que la esperanza de una variable aleatoria X da
una idea del valor de esta variable aleatoria, a saber, puede interpretarse como
el valor cierto intercambiable por el valor incierto de la variable.
Si en vez de aplicar la esperanza a X, la aplicamos a las variables aleatorias
|X c|
p
, p > 0, obtenemos medidas de la magnitud del apartamiento entre
la variable X y el n umero c, o, en otras palabras, medidas de la dispersi on
de la distribuci on de probabilidades de la variable alrededor del punto c. En
particular, esta interpretaci on es aplicable a los momentos absolutos de primero
y segundo orden, para los cuales el c alculo es relativamente simple.
Consideremos las dispersiones E|X c| y E(X c)
2
como funciones de c.
El siguiente enunciado identica para que valor de c resultan mnimas.
Teorema 6.7.1 (i) El momento absoluto de primer orden de X respecto de
c es nito si y s olo si E|X| < , y alcanza el mnimo cuando c satisface
P{X < c} 1/2, P{X > c} 1/2.
6.8. EXY , X, Y independientes. 93
(ii) El momento de segundo orden de X respecto de c es nito si y s olo si
EX
2
< , y alcanza el mnimo cuando c es la esperanza EX.
Denici on 6.7.1 Cuando c satisface las condiciones de la parte (i) del teo-
rema precedente, se dice que es mediana de la distribuci on de X.
Demostraci on del Teorema 6.7.1. La parte relativa a la esperanza es la m as
simple: basta escribir
E(X c)
2
= E[(X EX) + (EX c)]
2
= VarX + (EX c)
2
,
puesto que la esperanza del doble producto es cero. El termino de la derecha
es obviamente mnimo cuando c = EX.
Para demostrar la parte (i), llamemos m a una mediana y c a un n umero
cualquiera. Supongamos c < m (si c > m se procede an alogamente) y calcule-
mos
E|X c| E|X m| = E((c m)1
{
X c}
+(2X c m)1
{
c < X < m} + (mc)1
{
m X})
E((c m)1
{
X c} + (c m)1
{
c < X < m} + (mc)1
{
m X})
= (mc)(P{m X} P{X < m}) 0.
La primera desigualdad se debe a que en {c < X < m} se cumple 2X c m
c m, y la segunda a la denici on de m. 2
Los valores de c que minimizan los momentos, es decir, la esperanza EX
y la mediana MedX, son indicadores de la posici on de la distribuci on de pro-
babilidades de X. Pueden interpretarse como centros alrededor de los cuales
est a distribuida la probabilidad asociada a X. Los valores mnimos de los
momentos, es decir, E|X MedX| y VarX son utilizados como medidas de
la dispersi on de la distribuci on de X respecto de los valores centrales MedX,
EX.
6.8 Esperanza del producto de variables inde-
pendientes.
6.8.1 Independencia de variables aleatorias.
Denici on 6.8.1 La familia de variables aleatorias X = {X
i
: i I} (I
denota un conjunto de ndices arbitrario) es independiente cuando para cua-
lesquiera conjuntos medibles B
i
en el recorrido de X
i
, (i I), la familia de
sucesos {{X
i
B
i
} : i I} es independiente.
94
Enrique M. Caba na.
Nota: En ese caso, se suele decir que las variables X
i
, (i I) son indepen-
dientes, aunque la independencia sea una propiedad de la familia, y no de las
variables.
Ejemplo 6.8.1 Las variables 1
A
, 1
B
son independientes si y s olo si A, B son
independientes.
Ejemplo 6.8.2 Cuando las variables X, Y son independientes, entonces tam-
bien X
n
=

2
2n
i=1
i1
2
n
1
{i1<2
n
Xi}
, Y
n
=

2
2n
i=1
i1
2
n
1
{i1<2
n
Y i}
son independien-
tes.
Ejercicio 6.8.1 Vericar los enunciados de los dos ejemplos precedentes.
Teorema 6.8.1 Si X, Y son independientes, y tienen esperanzas nitas, en-
tonces
E(XY ) = E(X)E(Y ).
Demostraci on. Consideremos primero el caso en que X, Y son discretas, con
recorridos respectivos {x
i
: i = 1, 2, . . .}, {y
j
: j = 1, 2, . . .}. Se deduce que
el recorrido de la pareja est a contenido en {(x
i
, y
j
) : i, j = 1, 2, . . .}, y la
esperanza del producto es
E(XY ) =
i,j
x
i
y
j
P{X = x
i
, Y = y
j
} =
i,j
x
i
y
j
P{X = x
i
}P{Y = y
j
} =
i
x
i
P{X = x
i
}
j
y
j
P{Y = y
j
} = E(X)E(Y ).
Cuando X, Y son no negativas, las aproximamos por sucesiones crecientes
de variables discretas X
n
= (2
n
[2
n
X]) n, Y
n
= (2
n
[2
n
Y ]) n . Por el Teo-
rema 6.2.2, se cumple E(XY ) = lim
n
E(X
n
Y
n
). Adem as, como el recorrido
de la variable X
n
es {j2
n
: j = 0, 1, . . . , n2
n
}, si A es un conjunto de Borel,
el suceso {X
n
A} se escribe como uni on de los sucesos {X
n
= j2
n
} para
aquellos j para los cuales j2
n
A. Se deduce que, dados A, B de Borel
en R, los sucesos {X
n
A}, {Y
n
B} son independientes. Para vericarlo,
basta ver que cualquier suceso del conjunto {X
n
= j2
n
}
(0jn2
n
)
es indepen-
diente de cualquier suceso del conjunto {Y
n
= k2
n
}
(0kn2
n
)
. Esto es conse-
cuencia de la independencia de las variables X e Y , y de que {X
n
= j2
n
}
= {j2
n
X < (j + 1)2
n
}, para 0 j < n2
n
, y {X
n
= n} = {n X}, y de
las expresiones an alogas para los sucesos {Y
n
= k2
n
}.
Podemos escribir entonces E(X
n
Y
n
) = E(X
n
)E(Y
n
) de modo que E(XY ) =
lim
n
E(X
n
)E(Y
n
) = E(X)E(Y ).
6.9. Funciones generatrices. 95
La demostraci on para el caso general se hace descomponiendo cada variable
en diferencia de su parte positiva y su parte negativa, a los productos de las
cuales es aplicable el resultado ya demostrado. 2
Ejemplo 6.8.3 La covariancia de dos variables independientes es cero.
En efecto, si X, Y son independientes, tambien lo son X EX, Y EY , de
modo que E(X EX)(Y EY ) = E(X EX)E(Y EY ) = 0. 2
6.9 Funciones generatrices.
Denici on 6.9.1 Se llama funci on generatriz de probabilidades de una varia-
ble X o de su distribuci on, a la funci on g : R
+
R denida por la f ormula
g(t) = E(t
X
). Tambien se la llama funci on generatriz de momentos factoria-
les.
Se llama funci on generatriz de momentos de X o de su distribuci on, a la
funci on p : R R denida por p(t) = E(e
tX
).
Se llama funci on caracterstica de X o de su distribuci on, a la funci on
: R C denida por (t) = E(e
tX
).
Ejemplo 6.9.1 La funci on generatriz de probabilidades de la distribuci on del
Ejercicio 6.6.5 es g(t) =

j=0
t
j
j
e
/j! = e
(t1)
.
Ejemplo 6.9.2 La funci on generatriz de momentos de una variable Bin(n, p)
es p(t) =

n
j=0
e
tj
n
j
p
j
(1 p)
nj
= (pe
t
+ 1 p)
n
.
Ejemplo 6.9.3 La funci on caracterstica de la distribuci on uniforme en (0, 1)
es (t) =

1
0
e
tx
dx =
e
t
1
t
.
Cuando las esperanzas que aparecen arriba no esten denidas en todo el
dominio, llamaremos de la misma manera a las funciones dadas por la misma
correspondencia, en el dominio en que esta este denida.
Ejemplo 6.9.4 La funci on generatriz de momentos de la distribuci on Exp()
es p(t) =

0
e
x
e
tx
dx = e
(t)x
/(t )|
0
=( t)
1
, para t < . La funcion
no est a denida para t .
Teorema 6.9.1 Cuando X es una variable discreta con recorrido en N, la
funci on generatriz de probabilidades es un polinomio (recorrido acotado) o una
serie de potencias (recorrido no acotado). El coeciente del termino de grado
n es la probabilidad del suceso {X = n}.
96
Enrique M. Caba na.
Demostraci on. Es inmediata a partir de la denici on de la funci on genera-
triz de probabilidades. 2
Nota 1: Se deduce en particular que la funci on generatriz caracteriza a la
distribuci on.
Ejemplo 6.9.5 Funci on generatriz de probabilidades de la distribuci on bino-
mial.
La funci on generatriz de probabilidades de X Bin(n, p) es g(t) = Et
X
=
Et
(X
1
+X
2
+...+Xn)
= Et
X
1
t
X
1
. . . t
Xn
, con X
1
, X
2
, . . ., X
n
Ber(p) independien-
tes.
Se deduce que t
X
1
, t
X
1
, . . . t
Xn
son independientes, y entonces
g(t) = (Et
X
1
)(Et
X
1
) . . . (Et
Xn
)
= (Et
X
1
)
n
= [(1 p) +pt]
n
=
n
j=0
n
j
p
j
(1 p)
nj
t
j
.
Esta es una forma de obtener P{X = j}, que es el coeciente de t
j
, inde-
pendiente de la utilizada en 3.4.1.
Nota 2: Cuando la derivaci on respecto de t conmuta con el c alculo de espe-
ranzas en las deniciones de funciones generatrices o de funci on caracterstica
(y esto puede ser vericado en cada caso particular), se cumplen
g
(1) = E(X), g
(1) = E(X(X 1)), . . . , g

(n)
(1) = E(
n1
j=0
(X j)), . . .
p
(0) = E(X), p
(0) = E(X
2
), . . . , p
(n)
(0) = E(X
n
), . . .
f
(0) = E(X), f(0) = E(X

2
), . . . , f
(n)
(0) =
n
E(X
n
), . . .
La dos primeras lneas justican las denominaciones generatriz de momentos
factoriales, y generatriz de momentos, respectivamente.
Nota 3: La funci on caracterstica est a denida para todo t, pues el modulo
de la variable e
tX
es 1, y por lo tanto tiene esperanza nita. Esta funci on
caracteriza a la distribuci on, es decir, dos variables con la misma funci on car-
acterstica, tienen necesariamente la misma distribuci on (Ver 13.10).
Teorema 6.9.2 Dadas las variables independientes X
1
, X
2
, . . . , X
n
, llamamos
S a su suma. Designemos respectivamente por g
X
,
X
,
X
, a las funciones
generatriz de probabilidades, generatriz de momentos, y caracterstica de cierta
variable X. Entonces, cuando las funciones que aparecen en las f ormulas sigu-
ientes est on denidas, valen las igualdades
g
S
=
n
i=1
g
X
i
,
S
=
n
i=1
X
i
,
S
=
n
i=1
X
i
Demostraci on: Calculamos g
S
(t) = E(t
S
) = E(t
(
n
i=1
X
i
)
) = E(
n
i=1
t
X
i
) =
n
i=1
E(t
X
i
), donde la ultima igualdad es consecuencia del Teorema 6.8.1 El re-
sultado obtenido prueba la primera igualdad de la tesis. Las otras dos se
verican de la misma manera. 2
6.10 Ejercicios.
Ejercicio 6.10.1 A partir de la sucesion de variables independientes equidistri-
buidas (X
i
)
i=1,2,...
se dene

X =
1
n
(
n
i=1
X
i
). Demostrar que E(
n
i=1
(X
i

X)
2
) =
(n 1)
2
, donde
2
= Var(X
1
).
Ejercicio 6.10.2 Utilizando la funci on generatriz de probabilidades, demostrar
que si las variables X
i
son independientes, de Poisson con par ametro
i
(i = 1, 2, . . .),
entonces

n
i=1
X
i
tiene distribuci on de Poisson con par ametro =
n
i=1
i
.
Ejercicio 6.10.3 Cu al es la distribuci on de la suma de variables aleatorias inde-
pendientes binomiales de par ametros (n
i
, p) ? (i = 1, 2, . . . , n).
Ejercicio 6.10.4 Vericar la informaci on contenida en la Tabla 6.1.
6.11 * Una aplicaci on: Calculo de probabili-
dades en el paseo al azar con barreras.
6.11.1 Paseo al azar con dos barreras absorbentes.
Hemos denido en 4.1 el paseo al azar simple como la sucesi on S
n
=

n
i=1
X
i
de las sumas parciales de las variables independientes X
n
con la misma dis-
tribuci on P{X
n
= 1} = p, P{X
n
= 1} = q.
98
Enrique M. Caba na.
Tabla 6.1: Esperanzas, variancias y funciones generatrices de momentos de
algunas distribuciones.
f: facto-
Funci on de distribucion Esperanza Variancia Funci on riales
densidad o cuanta. generatriz u o: ordi-
de momentos narios
Bernoulli: Ber(p)
P{X = 0} = 1 p p p(1 p) 1 p +pt f
P{X = 1} = p
Binomial: Bin(n, p)
P{X = h} =
n
h
p
h
(1 p)
nh
, np np(1 p) (1 p +pt)
n
f
h = 0, 1, . . . , n
Geometrica: Geo(p)
P{X = h} = (1 p)
h
p,
1p
p
1p
p
2
p
1t(1p)
f
h = 0, 1, . . .
Geometrica alternativa: Geo(p)
P{X = h} = (1 p)
h1
p,
1
p
1p
p
2
pt
1t(1p)
f
h = 1, 2, . . .
Poisson: Pois()
P{X = h} =
h
e
/h! e
(1t)
f
h = 0, 1, . . .
Uniforme: Uni(0, 1)
f
X
(x) =
1 si 0 x 1;
1/2 1/12
e
t
1
t
o
Exponencial: Exp()
F
X
(x) = 1 e
x
, x > 0 1/ 1/
2
/( t) o
f
X
(x) = e
x
, x > 0
Gamma: (n, )
f
X
(x) =

n
x
n1
e
x
(n1)!
, (x > 0) n/ n/
2
n
o
Nos damos ahora dos enteros a, b que satisfacen a < 0 < b +,
y llamamos T al tiempo de llegada a las barreras{a, b} (o tiempo de absorci on
en el contexto de la denici on siguiente):
T = min{n : S
n
= a o S
n
= b}, (6.6)
con la convenci on habitual min = +, es decir, cuando la trayectoria no
alcanza ninguna de las barreras, decimos que T es innito. (Este sera segu-
ramente el caso cuando a = b = . En cualquier otro caso, tal resultado es
improbable: P{T = } = 0, como consecuencia del Corolario 4.1.1.1, parte
(iii).)
Denici on 6.11.1 Llamamos paseo al azar con barreras absorbentes
{a, b}, a S
{a,b}
n
= S
nT
, con n T = min{n, T}, con T dado por (6.6).
De otra manera: una vez que la trayectoria del paseo original alcanza alguna
de las barreras a o b, el nuevo paseo es absorbido por la barrera alcanzada,
y permanece constante en el nivel de esa barrera.
Ejercicios y un ejemplo complementario.
Ejercicio 6.11.1 Observar que el resultado del Ejercicio 4.1.4 es trivial en el caso
del paseo simetrico. Mostrar que para este caso, valen para todo n, ES
n
= 0,
ES
2
n
n = 0.
Ejercicio 6.11.2 Vericar que la esperanza del paseo al azar simetrico simple
S
{a,b}
n
absorbido por las barreras {a, b} es ES
{a,b}
n
= 0 para todo n.
Ejercicio 6.11.3 Deducir de la parte (iii) del Corolario 4.1.1.1 que existe el lmite
lim
n
S
{a,b}
n
.
Ejercicio 6.11.4 El lmite del ejercicio precedente es una variable aleatoria S
.
Cu al es su recorrido? Obtener la distribuci on de S
pasando al lmite en ES
{a,b}
n
= 0.
Ejemplo 6.11.1 Los ejercicios que siguen al 6.11.1, desarrollan consecuen-
cias de la primera igualdad de ese ejercicio, en el contexto del paseo detenido
por una doble barrera. Veamos ahora el equivalente respecto de la otra igualdad,
es decir, ES
2
n
n = 0.
Dado el paseo al azar simetrico simple S
{a,b}
n
absorbido por las barreras
{a, b}, vamos a vericar en primer lugar que E(S
{a,b}
n
)
2
n T = 0 para
todo n.
100
Enrique M. Caba na.
El incremento [(S
{a,b}
n+1
)
2
(n+1) T] [(S
{a,b}
n
)
2
nT] vale 0 cuando
T N, y dado T > n vale (S
n
+ 1)
2
S
2
n
1 con probabilidad condicional
1/2, y (S
n
1)
2
S
2
n
1 con probabilidad condicional 1/2. La esperanza es
entonces P{T > n}[
1
2
((S
n
+ 1)
2
S
2
n
1) +
1
2
((S
n
1)
2
S
2
n
1)] = 0.
De lo que precede podemos deducir el siguiente resultado:
Teorema 6.11.1 La esperanza del tiempo de absorci on T = min{n : S
n
=
a o S
n
= b} del paseo al azar simetrico simple S
n
en las barreras {a, b} es
ET = ab.
Como (S
{a,b}
n
)
2
tiene lmite (S
)
2
y esta acotada uniformemente por (a
b)
2
, el Teorema de Convergencia Dominada nos permite calcular E(S
)
2
=
Elim(S
{a,b}
n
)
2
= limE(S
{a,b}
n
)
2
= limEn T. El Teorema de Convergencia
Mon otona nos permite completar el c alculo: limEn T = Elimn T = ET.
Por otra parte, como conocemos la distribuci on de S
, estamos en condi-
ciones de calcular Elim(S
{a,b}
n
)
2
=
a
2
b+b
2
a
a+b
= ab.
Ejercicio 6.11.5 Deducir de los resultados del ejemplo anterior, que la esperanza
del tiempo de llegada del paseo al azar simetrico simple a una barrera unica es .
6.11.2 Paseo al azar con una barrera
Denici on 6.11.2 Dados a > 0 y T = min{n : S
n
= a}, llamamos paseo
al azar con barrera absorbente {a}, a S
{a}
n
= S
nT
.
De acuerdo a la parte (iii) del Corolario 4.1.1.1, si p = q(= 1/2), entonces
P{T < } = 1.
De ello resulta que para p < q, tambien se cumple P{T < } = 1, ya que
cuando S
n
=

n
i=1
X
i
es un paseo al azar con probabilidades p < q, podemos
denir un nuevo paseo al azar simetrico S
n
=

n
i=1
X
i
con
X
i
=
1, si X
i
= 1 o X
i
= 1 y Z
i
= 1,
0, si X
i
= 1 y Z
i
= 0,
donde las nuevas variables (Z
i
)
i=1,2,...
son independientes entre s e independi-
entes de (X
i
)
i=1,2,...
, con distribuci on de Bernoulli ((q 1/2)/q). Por ser (S
n
)
simetrico alcanza el nivel a con probabilidad 1, y lo mismo ocurre con S
n
puesto que, en virtud de la construcci on, para cada se cumple S
n
S
n
.
Cuando p > q, en cambio, hay probabilidades positivas y complementarias
de que S
n
sea absorbido en a o tenga lmite +. La demostraci on se propone
como ejercicio.
Ejercicio.
Ejercicio 6.11.6 (i) Mostrar, de manera an aloga a la utilizada en el Ejercicio
4.1.4 que cuando T
es el tiempo de llegada al par de barreras {a, b}, se cumple

E
q
p
S
nT
= 1. Deducir la distribuci on del lmite lim

n
S
nT
.
(ii) Si T es el tiempo de llegada de S
n
a la unica barrera {a}, mostrar que
el suceso {lim
n
S
nT
= } coincide con

bN
{S
nT
= b}, y deducir que su
probabilidad es 1
q
p
a
.
102
Enrique M. Caba na.
7. Medidas, integrales,
densidades.
7.1 Espacios de medida.
Las funciones de conjunto -aditivas tienen un interes que trasciende la teora
de las probabilidades.
Denici on 7.1.1 Se llama medida en (, A) a una funci on : A

R
+
=
R
+
{+}, -aditiva.
Nota: Se observar a que las probabilidades son las medidas con la propie-
dad () = 1.
Denici on 7.1.2 Una medida en (, A) es -nita cuando existe una par-
tici on (A
n
)
nN
de con la propiedad (A
n
) < para todo n N.
Cuando es -nita, y (A
n
) es una partici on de con c
n
= (A
n
) < ,
podemos introducir las probabilidades P
n
(A) = (AA
n
)/c
n
, que nos permiten
escribir =

n=1
c
n
P
n
.
Ejemplo 7.1.1 Dada una sucesion de puntos S = (x
n
)
nN
, la funci on
S
que a cada A A asocia la cantidad de puntos de S contenidos en A:
S
(A) = #{x
n
: x
n
A, n N}
es una medida. La llamaremos medida de recuento asociada a S.
En particular,
N
(A) = #{n : n A, n N} es una medida en (R, B),
y se trata de una medida -nita que puede escribirse en la forma
N
(A) =
nN
1
{nA}
.
103
104
Enrique M. Caba na.
Captulo 7: Medidas, integrales, densidades.
Ejemplo 7.1.2 Introducimos las probabilidades P
n
(A) = P{U n A}, con
U uniforme en (0, 1) y n Z. Entonces =

nZ
P
n
es una medida -nita
en R con la - algebra de Borel.
Se observar a que, para cada n, la probabilidad P
n
denida en el ejemplo
precedente esta concentrada en (n, n+1], y para cada intervalo (x, y] (n, n+1]
P
n
((x, y]) = y x es su longitud. M as en general, para cualquier intervalo
(x, y], P
n
((x, y]) es la longitud de la intersecci on (x, y] (n, n + 1]. Dado que
los conjuntos ((n, n +1])
nN
son una partici on de R, ((x, y]) =

n
P
n
((x, y])
es la suma de las longitudes de las intersecciones de (x, y] con cada intervalo
de la partici on, y por consiguiente vale y x, la longitud total.
Denici on 7.1.3 A la medida que se introduce en el Ejemplo 7.1.2, cuya
restricci on a los intervalos es la longitud, se la llama medida de Lebesgue
en R.
7.2 Probabilidades y medidas completas.
Una vez denida una probabilidad P en (, A), si
A
0
= {A : existe B A tal que A B, P(B) = 0}
es la familia de todos los subconjuntos de contenidos en alg un suceso de
probabilidad nula, entonces

A = {A : existe B A tal que AB A
0
} es
una nueva -algebra, y la extensi on

P(A) = P(B) cuando B A y B A, es
una probabilidad en (,

A).
Se dice que

P completa a P, y cuando una probabilidad P coincide con su
completada

P, se dice que P es completa.
De manera an aloga, se dene una medida completa.
Denici on 7.2.1 Llamaremos tambien Medida de Lebesgue a la que se ob-
tiene completando la medida introducida en la denici on 7.1.3. Habitualmente
es a esta ultima a la que se hace referencia con este nombre, es decir, se so-
breentiende que la medida de Lebesgue es completa.
Ejercicio 7.2.1 Vericar que

A denida en el contexto previo es una -algebra, y
que la extensi on

P de P es una probabilidad.
7.3. Integral respecto de una medida. 105
7.3 Integral respecto de una medida.
Dada la medida en (, A) y la funci on medible (o variable aleatoria) X :
R
+
, denimos, imitando la Denici on 6.3.2, integral de X respecto de , al
resultado de reemplazar en esa denici on la probabilidad P por la medida :
Denici on 7.3.1 (i) La integral de la indicatriz del conjunto medible A re-
specto de es

1
A
d = (A).
(ii) La integral de una combinaci on lineal nita de indicatrices de conjuntos
medibles es

k
j=1
a
j
1
A
j
k
j=1
a
j
(A
j
).
(iii) Dada la funcion medible no negativa X, tomemos una sucesi on mo-
n otona creciente X
n
=

j
x
j,n
1
A
j,n
, n = 1, 2, . . . de funciones simples, cuyo
lmite es X. Entonces

Xd = lim
n
j
x
j,n
(A
j,n
). En particular, por
ejemplo,
Xd = lim
n
n2
n
j=0
j2
n
({j2
n
< X (j + 1)2
n
}).
(iv) Cuando X es una funci on medible no necesariamente no negativa, y
X
+
y X
tienen integral nita respecto de , entonces
Xd =
X
+
d
d.
(v) Llamamos integral de X en un conjunto A medible, a la integral de
X1
A
.
Observaci on. La coherencia de la partes (ii) y (iii) de la denici on, requiere
establecer resultados an alogos a los de los Lemas 6.3.1 y 6.3.2. Tales resultados
tambien son v alidos en el presente contexto, y omitimos sus demostraciones,
porque son identicas a las de los lemas mencionados.
Notaci on. Decimos que X es integrable respecto de , cuando
|X|d < .
Teorema 7.3.1 Si

A
Xd = 0 para todo A medible, entonces {X = 0} =
{ : X() = 0} = 0.
Demostraci on: Basta mostrar que el resultado es cierto cuando X 0, pues si
no se trabaja por separado con X
+
y X
a las que se aplica la misma hip otesis

como surge de considerar las integrales extendidas a los conjuntos medibles
A {X > 0} o A {X < 0}.
Con X 0, la hip otesis implica en particular
X d = 0. Esto signica, de
acuerdo a la parte (i) de la Denici on 7.3.1 que cada termino de la sucesi on no
106
Enrique M. Caba na.
negativa y no decreciente

n2
n
j=0
j2
n
({j2
n
< X (j + 1)2
n
}), cuyo lmite
es cero, es el mismo igual a cero, y por lo tanto lo es cada sumando. Se deduce
inmediatamente que para cada j positivo, ({j2
n
< X (j +1)2
n
}) es cero,
y entonces ({2
n
< X n}) = 0, de donde, por continuidad, ({X = 0}) =
(lim
n
{2
n
< X n}) = 0. 2
Por medio de los enunciados siguientes, indicamos algunas propiedades
importantes de la integral. Omitimos las demostraciones porque son similares
a las de las correspondientes propiedades de las esperanzas.
Teorema 7.3.2 La integral es una funci on mon otona y lineal del integrando:
0 X Y o
X Y, X, Y integrables,
implican
Xd
Y d,
X, Y, , 0, o bien
X, Y integrables
implican
(X + Y )d =
Xd +
Y d.
Teorema 7.3.3 Cuando X es no negativa o integrable, la integral

A
Xd es
una funci on -aditiva del dominio A:
j
A
j
Xd =
A
j
Xd, A
1
, A
2
, . . . , disjuntos.
Corolario 7.3.3.1 Cuando X es no negativa, la funci on
(A) =
A
Xd (7.1)
es una medida, con la propiedad (A) = 0 para todo A tal que (A) = 0.
Cuando X es integrable, es una diferencia de dos medidas, con la misma
propiedad.
Demostraci on del Corolario. La -aditividad es una consecuencia inmedi-
ata del Teorema. Si Y
n
=

j
y
j,n
1
A
j,n
es una sucesion mon otona creciente
de funciones simples no negativas con lmite X1
A
(y con los coecientes y
j,n
estrictamente positivos), cada A
j,n
debe estar contenido en A porque en caso
contrario no se cumplira Y
n
X1
A
. Entonces (A) = 0 implica (A
j,n
) = 0
y por lo tanto

Y
n
d = 0 para todo n. Se concluye (A) =

A
Xd =
lim
n
Y
n
1
A
d = 0.
Cuando X cambia de signo, la funci on (A) =

A
Xd =

A
X
+
d
A
X
d es una diferencia de dos medidas, y se la llama una medida con

signo. 2
7.4. Ejemplos: Integral de Lebesgue, e integral respecto de
S
. 107
Los teoremas que siguen se reeren al pasaje al lmite bajo el signo de inte-
graci on. Sus demostraciones coinciden con las de los correspondientes teoremas
de pasaje al lmite bajo el signo de esperanza (6.5.3), y no las repetiremos.
Teorema 7.3.4 (Teorema de convergencia mon otona de Beppo Levi). Si X
n
es una sucesi on mon otona creciente de funciones medibles no negativas con
lmite X, entonces
lim
n
X
n
d =
Xd.
Teorema 7.3.5 (Lema de Fatou). Si X
n
es una sucesion de funciones medi-
bles no negativas, entonces
liminf
n
X
n
d
Xd.
Teorema 7.3.6 (Teorema de convergencia dominada de Lebesgue). Si X
n
es
una sucesi on de funciones medibles con lmite X, y existen funciones inte-
grables Y , Z tales que Y X
n
Z para todo n, entonces
lim
n
X
n
d =
Xd.
7.4 Dos ejemplos: Integral de Lebesgue e in-
tegral respecto de una medida discreta.
7.4.1 Integral respecto de la medida de Lebesgue
Vamos a vericar que, en un sentido bastante amplio, la integral de Lebesgue,
como se llama a la integral respecto de la medida de Lebesgue, es una gener-
alizaci on de la integral de Riemann.
Teorema 7.4.1 Si f es una funci on acotada en [a, b] y existe la integral de
Riemann

b
a
f(t)dt, entonces esta integral coincide con la integral de Lebesgue
de f en [a, b], es decir, la integral de f1
[a,b]
respecto de la medida de Lebesgue
(ver Denicion 7.1.3).
Demostraci on Por hip otesis, existe una sucesion de particiones de [a, b]
en subintervalos {J
j,n
: j = 1, 2, . . . , k
n
} tal que las sumas inferiores S
n
=
kn
j=1
inf{f(t) : t J
j,n
}(J
j,n
) y las sumas superiores S
+
n
=

kn
j=1
sup{f(t) :
t J
j,n
}(J
j,n
) convergen a la integral

b
a
f(t)dt, cuando n tiende a innito.
108
Enrique M. Caba na.
Para la escritura de las sumas se ha aprovechado que la medida de Lebesgue
de un intervalo es su longitud.
En particular, si abreviamos m
j,n
= inf{f(t) : t J
j,n
} y M
j,n
= sup{f(t) :
t J
j,n
}, e introducimos las funciones simples f
n
=

kn
j=1
m
j,n
1
J
j,n
, f
+
n
=
kn
j=1
M
j,n
1
J
j,n
, encontramos que, por una parte, f
n
f f
+
n
, de modo
que

[a,b]
f
n
d

[a,b]
fd

[a,b]
f
+
n
d, y, por otra parte,

[a,b]
f
n
d = S
n
,
[a,b]
f
+
n
d = S
+
n
, lo que nos lleva a concluir que S
n

[a,b]
fd S
+
n
, y,
pasando al lmite cuando n tiende a innito, resulta que

[a,b]
fd coincide con
el lmite de las sumas de Riemann que es la integral de Riemann. 2
Nota. En 13.6 se hace referencia a la extensi on a R
n
de la medida de
Lebesgue y de la correspondiente integral.
7.4.2 Integral respecto de la medida
S
del Ejemplo
7.1.1.
Es inmediato vericar que

A
fd
S
=

x
j
AS
f(x
j
).
Resulta en particular, por ejemplo, que si X es una variable discreta con
recorrido S y probabilidades P{X = x
j
} = p
j
, entonces P{X A} =

A
pd
S
,
donde p es cualquier funci on con la propiedad p(x
j
) = p
j
, para cada x
j
S.
7.5 La esperanza como caso particular de la
integral.
De la denici on de integral resulta que la esperanza de X : (, A, P) (R, B)
es la integral en :
E(X) =
XdP.
Del Teorema 13.4.1 resulta que la esperanza puede expresarse tambien por
medio de una integral en R:
E(X) =
xdP
X
(x) =
xdF
X
(x),
respecto de la distribuci on de probabilidad P
X
de la variable X. La expresi on
en terminos de la funci on de distribuci on de probabilidad F
X
, es una notaci on
para esa misma integral.
7.6. Densidad. 109
7.6 Densidad de una medida respecto de otra
medida.
El Corolario 7.3.3.1 indica una relaci on entre medidas que resulta de interes:
Denici on 7.6.1 Cuando y son dos medidas en un mismo espacio de
medida (, A), y para todo A A con (A) = 0 se cumple (A) = 0, se dice
que es absolutamente continua respecto de . Cuando (A) =

A
Xd,
se dice tambien que X es la densidad de con respecto a .
Observaci on. Con esta nomenclatura, el Corolario 7.3.3.1 expresa que la
medida denida por (7.1) es absolutamente continua respecto de .
Ahora es posible rever, y generalizar en cierta medida, la Denici on 3.3.1.
Las deniciones introducidas en este captulo nos permiten reemplazar (i) por
otra formulaci on equivalente. En cuanto a (ii), lo esencial es que la funci on de
distribuci on sea la integral de una densidad. En el Captulo 3 se sobreentiende
que se utiliza la integral de Riemann, pero si esta se reemplaza por la integral
de Lebesgue, resulta una formulaci on algo m as general. La Denici on 3.3.1
puede en consecuencia reemplazarse por la siguiente:
Denici on 7.6.2 Cuando se dice que una variable aleatoria X o su distri-
buci on de probabilidades es absolutamente continua, se sobreentiende que
la distribuci on de probabilidades es absolutamente continua respecto de la
medida de Lebesgue. Una variable o su distribuci on de probabilidades se
dicen discretas cuando esta ultima es absolutamente continua respecto de la
medida
S
de recuento de un conjunto discreto S.
Se llama densidad de la distribuci on de X a la densidad respecto de la
medida de Lebesgue, en el primer caso, y a la densidad respecto de
S
en el
segundo. A esta ultima tambien se la llama funci on de cuanta.
De lo que precede surge que la pr actica de tratar separadamente a las distribuciones
absolutamente continuas y a las distribuciones discretas, responde a la comodidad
de formular enunciados que aprovechan las propiedades particulares de la medida
o la integral de Lebesgue, en el primer caso, o bien de las medidas discretas y las
correspondientes integrales respecto de medidas de recuento de conjuntos discretos,
que se reducen a sumas, en el segundo.
Esta pr actica puede asimismo tener, como contrapartida, el inconveniente de dar
formas diferentes a resultados de naturaleza identica, cuando se reeren a una u otra
medida. Adem as, deja fuera a las distribuciones que no son absolutamente continuas
respecto de o de alguna
S
.
110
Enrique M. Caba na.
El siguiente resultado, recproco del Corolario 7.3.3.1, cuya demostraci on
se incluye en 13.9.1, tiene una importante aplicaci on en el Captulo 9.
Teorema 7.6.1 (de Radon-Nikodym). Cuando es una medida -nita abso-
lutamente continua respecto de la medida -nita , existe la densidad de con
respecto a , es decir, existe una funci on medible g (que se denota d/d), tal
que para todo A medible, (A) =

A
gd. La densidad es esencialmente unica,
es decir, si h es tambien una densidad (porque es una funci on medible que
cumple (A) =

A
hd para todo A medible), entonces {g = h} = 0.
8. Distribuciones conjuntas,
independencia.
8.1 Distribuci on conjunta de una pareja de va-
riables aleatorias.
Dadas dos variables aleatorias X, Y , as como cada una de ellas induce una
distribuci on de probabilidad en (R, B), descrita por la correspondiente funci on
de distribuci on, es posible vericar (mediante el Teorema 3.2.1) que la pareja
induce una probabilidad en la mnima -algebra de subconjuntos B
(2)
de RR
que contiene a los rect angulos (a, b] (c, d], que se llama distribuci on conjunta
de X, Y . Esta distribuci on conjunta, que denotaremos P
X,Y
, asocia a cada
rect angulo (a, b] (c, d] la probabilidad
P
X,Y
((a, b] (c, d]) = P({a < X b} {c < Y d}).
En lo sucesivo, intersecciones tales como {a < X b} {c < Y d} se
abreviar an por medio de la notaci on {a < X b, c < Y d}.
Denici on 8.1.1 Se llama funci on de distribuci on de probabilidad de
la pareja de variables aleatorias X, Y a la funcion F
X,Y
: R R R
+
denida por F
X,Y
(x, y) = P{X x, Y y}.
Teorema 8.1.1 La funci on de distribuci on de probabilidades F
X,Y
de una
pareja de variables aleatorias reales X, Y satisface las propiedades:
(1) F
X,Y
es no decreciente, y continua por la derecha como funci on de cada
uno de sus argumentos,
(2) F
X,Y
(, y) = F
X,Y
(x, ) = 0, para todo x, y,
(3) F
X,Y
(x, ) = F
X
(x), F
X,Y
(, y) = F
Y
(y),
111
112
Enrique M. Caba na.
Captulo 8: Distribuciones conjuntas, independencia.
(4) Para cualquier rect angulo semiabierto R = (a, b] (c, d], se cumple
P{(X, Y ) R} = F
X,Y
(b, d) + F
X,Y
(a, c) F
X,Y
(b, c) F
X,Y
(a, d). A
esta expresi on la llamamos incremento doble de F
X,Y
en R.
Demostraci on. Se extiende el procedimiento utilizado para vericar el Teo-
rema 3.1.2. 2
Las deniciones de distribuci on discreta y distribuci on absolutamente con-
tinua se suelen extender al caso de la distribuci on de una pareja, de la siguiente
manera:
Denici on 8.1.2 (i) Diremos que una pareja X, Y de variables aleatorias
tiene distribuci on de probabilidades discreta cuando su recorrido es un
conjunto discreto, es decir, un conjunto de puntos de R
2
cuya inter-
secci on con cualquier rect angulo contiene una cantidad nita de elemen-
tos.
(ii) Diremos que X, Y es absolutamente continua cuando su funci on de
distribuci on F
X,Y
puede representarse por medio de la integral (de Rie-
mann)
F
X,Y
(x, y) =
dx
f
X,Y
(x
, y
)dy
.
A la funci on f
X,Y
se la llama funci on de densidad de la distribuci on
conjunta.
Observemos que cuando el recorrido de una variable aleatoria discreta
X es el conjunto {x
i
: i = 1, 2, . . .}, y el de una variable discreta Y es
{y
j
: j = 1, 2, . . .}, entonces las probabilidades p
i,j
= P{X = x
i
, Y = y
j
}
bastan para determinar la distribuci on de la pareja X, Y , y, en particular,
la funci on de distribuci on F
X,Y
(x, y) =

x
i
x
y
j
y
p
i,j
, y la probabilidad
a<x
i
b
c<y
j
d
p
i,j
de que (X, Y ) pertenezca al rect angulo (a, b] (c, d].
Para el caso de una distribuci on conjunta absolutamente continua, se ob-
servar a que la propiedad (3) del Teorema 8.1.1 implica que cada una de las
variables por separado tiene distribuci on absolutamente continua, con densi-
dades respectivas
f
X
(x) =
f
X,Y
(x, y)dy, f
Y
(y) =
f
X,Y
(x, y)dx. (8.1)
A las distribuciones de X y de Y se las llama distribuciones marginales
de la distribuci on conjunta de (X, Y ), y a las densidades (8.1) se las llama
densidades marginales.
8.2. Integral de Lebesgue en el plano. 113
x
a b
y = c(x)
y = d(x)
y
x
c
d
x = a(y)
x = b(y)
y
Figura 8.1: Dominios de integraci on.
La probabilidad de que (X, Y ) pertenezca a (a, b] (c, d] est a dada por
b
a
dx
d
c
f
X,Y
(x, y)dy.
Es facil vericar que en este caso el borde del rect angulo tiene probabili-
dad nula, de modo que la probabilidad de que la pareja (X, Y ) pertenezca al
rect angulo abierto (a, b) (c, d) y al rect angulo cerrado [a, b] [c, d] coinciden.
Se deduce de lo anterior que para un conjunto S que sea una uni on de
rect angulos, se cumple
P{(X, Y ) S} =

S
f
X,Y
(x, y). (8.2)
Cuando S es el lmite de una sucesion creciente de uniones de rect angulos
S
n
, P{(X, Y ) S} = lim
n
P{(X, Y ) Sn} = lim
n
Sn
f
X,Y
(x, y)dx dy.
Esta consecuencia de la monotona de la probabilidad puede aprovecharse para
extender (8.2) a regiones S para las que lim
n
Sn
f
X,Y
(x, y)dx dy coincide
con

S
f
X,Y
(x, y)dxdy, como es el caso, por ejemplo, cuando S es la regi on
del plano limitada por x = a, x = b y los gr acos de un par de funciones c(x),
d(x) continuas en [a, b], (Figura 8.1, parte superior), cuando es una regi on
an aloga con intercambio de los papeles que juegan la x y la y, (Figura 8.1,
parte inferior), o cuando es una uni on nita de regiones como estas. Al menos
para regiones de este tipo vale entonces (8.2).
114
Enrique M. Caba na.
8.2 La integral de Lebesgue en R
2
.
La medida de Lebesgue en (R
2
, B
(2)
) puede denirse de manera similar a la
que utilizamos en el Ejemplo 7.1.2.
Supongamos en primer lugar una variable aleatoria U = (U
1
, U
2
)
tr
en R
2
con distribuci on uniforme en [0, 1] [0, 1]. Esto signica que para 0 a < b
1, 0 c < d 1, se cumple P{U (a, b] (c, d]} = (b a)(d c). Vamos a
denotar P
m,n
a la distribuci on de probabilidad de U + (m, n)
tr
.
Denici on 8.2.1 La medida de Lebesgue en R
2
es la medida denida por
(A) =
m=
n=
P
m,n
(A),
donde, para cada m, n, P
m,n
es la probabilidad uniforme en el cuadrado C
m,n
=[m, m + 1] [n, n + 1] denida en el contexto previo.
En particular, la restricci on de a cada C
m,n
, es la probabilidad P
m,n
.
Denici on 8.2.2 La integral de Lebesgue en R
2
, es la integral respecto de la
Medida de Labesgue en R
2
.
Dentro de este contexto, si para cada rect angulo C = (a, b] (c, d], la
probabilidad P
X,Y
(C) coincide con la medida denida mediante la integral
de Lebesgue

1
C
f
X,Y
d, entonces coinciden sobre todo conjunto de Borel,
como consecuencia del Teorema de Extensi on de Probabildades de Kolmogorov
(3.2.1).
Los comentarios que preceden muestran que la expresi on para el c alculo
de la distribuci on de probabilidad de una variable absolutamente continua a
partir de la integral de la densidad, vale para cualquier S en la -algebra de
Borel B
(2)
.
Obviamente, toda densidad de distribuci on de probabilidades debe ser no
negativa y debe satisfacer
dx
f
X,Y
(x, y)dy = 1.
Recprocamente, si f satisface esas condiciones, la funci on
F
X,Y
=
dx
f
X,Y
(x
, y
)dy
es la funcion de distribuci on conjunta de una pareja con distribuci on P

X,Y
(S)
=

S
f
X,Y
d.
8.3. Integral de Lebesgue en el plano. 115
8.3 Calculo de esperanzas.
Teorema 8.3.1 (Regla para el c alculo de E(g(X, Y ))).
(i) Si g es una funci on de R
2
en R , y X, Y son variables aleatorias discretas,
entonces g(X, Y ) es una nueva variable aleatoria discreta y su esperanza
se calcula en la forma E(g(X, Y )) =

i,j
p
i,j
g(x
i
, y
j
) cuando g 0 o
cuando

i,j
p
i,j
|g(x
i
, y
j
)| < .
(ii) Si g es una funci on continua de R
2
en R , y X, Y son variables aleato-
rias con distribuci on conjunta absolutamente continua, entonces g(X, Y )
es una nueva variable aleatoria y su esperanza se calcula en la forma
E(g(X, Y )) =

dx
g(x, y)f
X,Y
(x, y)dy cuando g 0 o cuando
dx
|g(x, y)|f
X,Y
(x, y)dy < .
Este Teorema es consecuencia del Teorema 13.4.1. Una vericaci on directa
de la parte (i) no ofrece dicultades especiales.
8.3.1 Momentos asociados a una pareja de variables.
Denici on 8.3.1 Llamamos momentos mixtos de una pareja de variables
aleatorias X, Y a esperanzas de productos de potencias de ambas.
Momentos mixtos centrales de X, Y son los momentos mixtos de X
E(X), Y E(Y ). Un caso particular es la covariancia.
Se llama covariancia de las variables X, Y a
Cov(X, Y ) = E((X E(X))(Y E(Y ))),
y coeciente de correlaci on a
(X, Y ) =
Cov(X, Y )
Var(X)Var(Y )
.
Ejercicios
Ejercicio 8.3.1 Las variables X, Y tienen momentos absolutos de segundo orden
E(|X|
2
), E(|Y |
2
), E(|XY |) nitos. Probar las desigualdades
(E(X))
2
E(|X|)
2
E(X
2
),
(E(XY ))
2
E(X
2
)E(Y
2
)(Cauchy-Schwarz).
116
Enrique M. Caba na.
Ejercicio 8.3.2 Vericar que, para cualesquiera X, Y con momentos de segundo
orden nitos, se cumple Cov(X, Y ) = E(XY ) E(X)E(Y ).
Ejercicio 8.3.3 Dos variables se dicen no correlacionadas cuando su coeciente
de correlacion es cero. Probar que si las variables X
1
, X
2
, . . . , X
n
, estan dos a dos
no correlacionadas, entonces Var(
n
i=1
X
i
) =

n
i=1
VarX
i
.
8.4 Distribuci on de variables aleatorias inde-
pendientes. Producto de probabilidades.
8.4.1 Independencia de variables aleatorias.
La denici on de la independencia de variables aleatorias ha sido adelantada en
6.8.1.
Teorema 8.4.1 (i) Si X, Y son independientes, entonces
F
X,Y
(x, y) = F
X
(x)F
Y
(y).
(ii) Si la distribuci on conjunta de (X, Y ) es absolutamente continua,
f
X,Y
(x, y) = f
X
(x)f
Y
(y).
(iii) Si X, Y son discretas, con recorridos respectivos {x
i
: i = 1, 2, . . .}, {y
j
:
j = 1, 2, . . .}, entonces las probabilidades p
i,j
= P{X = x
i
, Y = y
j
}
se obtienen por producto de las probabilidades P{X = x
i
}, P{Y = y
j
}
correspondientes a cada variable.
Demostraci on. Los sucesos {X x}, {Y y} son independientes, de
modo que P{X x, Y y} = P{X x}P{Y y}, y esto demuestra (i).
En el caso en que (X, Y ) es absolutamente continua, lo son X e Y por
separado, y podemos derivar (i) con respecto a x y con respecto a y. El
resultado es (ii).
La igualdad P{X = x
i
, Y = y
j
} = P{X = x
i
}P{Y = y
j
} de (iii) es
consecuencia de la independencia de {X = x
i
}, {Y = y
j
}. 2
8.4. Variables aleatorias independientes. 117
8.4.2 Producto de probabilidades.
Denici on 8.4.1 (Producto de espacios de probabilidad.)
Dados los espacios de probabilidad (
1
, A
1
, P
1
) y (
2
, A
2
, P
2
), llamamos
espacio de probabilidad producto de ambos a (
1

2
, A
1
A
2
, P
1
P
2
)
donde

1
2
es el producto cartesiano de
1
y
2
,
A
1
A
2
es la mnima - algebra que contiene los productos cartesianos
A
1
A
2
con A
1
A
1
, A
2
A
2
,
P = P
1
P
2
es la probabilidad que vale P(A
1
A
2
) = P
1
(A
1
)P
2
(A
2
) para
A
1
A
1
, A
2
A
2
.
Nota 1: Cuando decimos que P es el producto P
1
P
2
, se sobreentiende
que su dominio es la -algebra producto de los dominios de P
1
y P
2
.
Nota 2: La coherencia de la denici on de probabilidad producto requiere
establecer un teorema de existencia y unicidad. M as precisamente, requiere
mostrar que existe una y una sola probabilidad P en la -algebra producto
(que es la mnima que contiene al algebra de las uniones nitas de rect angulos
A
1
A
2
con A
1
A
1
, A
2
A
2
, y sus complementos) que en A
1
A
2
vale
P
1
(A
1
)P
2
(A
2
). Esto es consecuencia del Teorema de Extensi on de Probabili-
dades de Kolmogorov (3.2.1).
Ejemplo 8.4.1 Cuando X, Y son independientes, P
X,Y
es la probabilidad pro-
ducto de P
X
y P
Y
.
8.4.3 La medida de Lebesgue en R
2
, como medida pro-
ducto.
La denici on de producto de probabilidades se extiende sin dicultad a medi-
das -nitas. En particular, el producto de dos medidas de Lebesgue
(1)
en
R se puede obtener a partir de la serie
(1)
=

n=
P
n
, con P
n
igual a la pro-
babilidad uniforme en [n, n+1], mediante la serie
(2)
=

m=
n=
P
m,n
,
donde P
m,n
= P
m
P
n
es la distribuci on uniforme en el cuadrado C
m,n
denido
m as arriba. Es inmediato vericar que esta denici on de
(2)
como medida pro-
ducto es equivalente a la Denici on 8.2.1.
Las deniciones de producto, y en particular de la medida de Lebesgue, se
extienden sin dicultad a R
d
para cualquier d N.
118
Enrique M. Caba na.
Notaci on: Cuando resulte claro del contexto cu al es el espacio donde la
medida de Lebesgue est a denida, la denotaremos simplemente por , sin
indicar por medio de un superndice cual es la dimensi on.
8.5 Ejercicios.
Ejercicio 8.5.1 (a) Si X e Y son variables aleatorias independientes con reco-
rrido contenido en N, y sus funciones generatrices de probabilidades son g
X
y g
Y
respectivamente, entonces la funci on generatriz de la suma, g
X+Y
es:
g
X+Y
(t) = g
X
(t)g
Y
(t).
(b) Considerar ahora X
1
, X
2
, . . . variables aleatorias i.i.d. (independientes e iden-
ticamente distribuidas) con recorrido contenido en N, y N otra variable aleato-
ria con valores enteros no negativos, independiente de las anteriores. Denir
S
0
= 0, S
n
= X
1
+ . . . + X
n
. Vericar que la funci on generatriz de S
N
= X
1
+. . . +X
N
es g
S
N
(t) = g
N
(g
X
1
(t)).
Ejercicio 8.5.2 Hallar la densidad de la suma y del producto de dos variables
independientes con igual distribuci on uniforme en (a): (0, 1); (b): (1/2, 1/2).
Ejercicio 8.5.3 Si X, Y tienen densidad conjunta
f
X,Y
(x, y) = ce
(x
2
+y
2
)/2
,
(a) Vericar integrando f
X,Y
en R
2
mediante coordenadas polares, que c vale
1
2
y deducir que (t) =
1
2
e
t
2
/2
es una densidad en R y que X e Y tienen
densidad .
Nota: A la distribuci on con densidad , se la llama normal tpica o gaussiana
(Ver 12).
(b) Hallar la densidad de R =
X
2
+Y
2
.
(c) Hallar la densidad conjunta de R, A tales que X = Rcos A, Y = Rsin A.
Ejercicio 8.5.4 Calcular E(X
m
) si X tiene distribuci on normal tpica (Ver Ejer-
cicio 8.5.3), y m es un n umero natural.
1
, X
2
, . . . , X
n
son variables independientes, con distribuci on
normal tpica (Ver Ejercicio 8.5.3), calcular E(X
2
1
+. . . +X
2
n
) y Var (X
2
1
+. . . +X
2
n
).
Nota: La distribuci on de Y = X
2
1
+. . . +X
2
n
se conoce como
2
n
(Ji-cuadrado con
n grados de libertad)
8. N7.- Buffon. 119
Ejercicio 8.5.6 Se supone que (X, Y ) tiene distribuci on uniforme en (0, 1)(0, 1),
esto es, si A (0, 1) (0, 1), entonces P{(X, Y ) A} = area(A).
(a) Hallar la distribuci on de X, la de Y , y probar que X, Y son independientes.
(b) Hallar la distribuciones de min(X, Y ), max(X, Y ) y max(X, Y ) min(X, Y ).
(c) Calcular la probabilidad de que min(X, Y ), max(X, Y ) min(X, Y ), y 1
max(X, Y ) sean los lados de un tri angulo.
Ejercicio 8.5.7 (Problema de la aguja de Buon). Se arroja al azar una aguja
de longitud 2b sobre un plano en el que se han trazado lneas paralelas que distan
2a(a > b). Supondremos que la distancia X del centro de la aguja a la lnea mas
pr oxima y el angulo agudo Y que forma la direcci on de la aguja con la de las
lneas son variables independientes, respectivamente uniforme en (0, a) y uniforme
en (0, /2).
Calcular la probabilidad de que la aguja corte a alguna lnea, integrando la
densidad conjunta de (X, Y ) en b sin Y > X.
N7.- Buon, Georges Louis Leclerc, Comte de (1707 -
1788).
Nacio en Montbard, en la Costa de Oro francesa, el 7 de sep-
tiembre de 1707.
Aunque el campo de la ciencia por el que mas merece ser recor-
dado es el de las ciencias de la naturaleza, su experimento con-
sistente en arrojar baguettes por encima del hombro y observar
si caen encima de alguna de un conjunto de lneas paralelas
equidistantes marcadas en el pavimento, ha merecido abun-
dante discusion entre los probabilistas. Llama la atencion que
ese procedimiento ofrece una manera experimental de calcular
el n umero .
8.6 Una aplicaci on de la esperanza. Otra so-
luci on al problema de la aguja de Buon.
En el Ejercicio 8.5.7 se ha planteado el siguiente problema, conocido como
Problema de la aguja de Buon: Se arroja al azar una aguja de longitud 2b
sobre un plano en el que se han trazado lneas paralelas que distan 2a (a > b).
La interpretaci on que se da a la expresi on arrojar al azar es que la distancia
X del centro de la aguja a la lnea m as pr oxima y el angulo agudo Y que
forma la direcci on de la aguja con la de las lneas son variables independientes,
respectivamente uniforme en (0, a) y uniforme en (0, /2). A partir de esa
120
Enrique M. Caba na.
interpretaci on, puede observarse que el el suceso la aguja corta un lnea
equivale a X < b sin Y . Dado que la pareja X, Y es uniforme en el rect angulo
(0, a)(0, /2), la probabilidad del suceso {X < b sin Y } es el cociente entre el
area de la regi on {((x, y) : 0 < x < b sin y, 0 < y < /2} (que vale

/2
0
b sin ydy
= b) y el area del rect angulo (que vale a/2), es decir, 2b/(a).
Una manera alternativa de resolver este ejercicio es la siguiente: observemos
que la condici on a > b implica que el n umero de cortes de la aguja con las lneas
solo puede ser 0 o 1. Como consecuencia, la probabilidad de cortar coincide
con el n umero esperado de cortes.
Para calcular la esperanza del n umero de cortes, observamos que este es
aditivo respecto de una partici on de la aguja en segmentos: con esto queremos
decir que si partimos la aguja en segmentos (es decir, interpretamos a la aguja
como una uni on de segmentos o peque nas agujas, que ni siquiera tienen por
que tener todos la misma direcci on, o incluso estar unidos) entonces el n umero
de cortes de la aguja a las lneas es la suma del n umero de cortes de cada
segmento. Por lo tanto, la esperanza del n umero de cortes de la aguja es la
suma de las esperanzas del n umero de cortes de cada segmento. Dado que
segmentos iguales tienen esperanzas iguales, por la geometra del problema, se
deduce (haciendo uso del Lema 3.6.1) que la esperanza del n umero de cortes de
una aguja es proporcional a su longitud, digamos, k, donde k es la constante
de proporcionalidad, y es la longitud de la aguja.
Para encontrar k vamos a elegir una aguja especial: un aro de di ametro
2a. Para esa aguja, el n umero de cortes es (casi) seguramente 2, y por lo
tanto eso mismo vale la esperanza, de modo que, como la longitud es 2a,
tenemos la ecuaci on k2a = 2, de la que deducimos k = 1/(a). Finalmente,
para la aguja de longitud 2b, la esperanza (y la probabilidad de corte) vale(n)
2b 1/(a), como habamos encontrado antes.
Se observar a que esta soluci on no requiere calcular ninguna integral. Sin
embargo, en la medida que la aditividad es obvia para poligonales, pero no
para curvas, se requiere un argumento que permita aplicar la misma f ormula k
para la esperanza del n umero de cortes, tambien a una circunferencia, cuando
se acepta como v alida para una poligonal. Basta considerar una sucesi on de
poligonales C
n
, de longitudes
n
, que tienda a la circunferencia C cuya longi-
tud es 2a. En particular, lim
n
n
= 2a. El n umero N
n
de cortes de la
poligonal C
n
est a acotado por 2, y converge al n umero de cortes de la circun-
ferencia (que es 2), de modo que EN
n
2, por el Teorema de Convergencia
Dominada de Lebesgue. Por otra parte, EN
n
= k
n
2ka, y esto termina
nuestra argumentaci on. 2
(La idea de esta ingeniosa soluci on al Problema de la Aguja de Buon es
8.7. Distribuci on de la suma de variables independientes. 121
del matem atico espa nol - argentino Luis Santal o (1911-2001).)
8.7 Distribuci on de la suma de variables inde-
pendientes.
Cuando X e Y son variables aleatorias independientes, la funci on de dis-
tribuci on de la suma F
X+Y
(z) = F
X,Y
({(x, y) : x + y z}) est a determinada
por las distribuciones marginales F
X
, F
Y
. Vamos a vericar c omo puede cal-
cularse F
X+Y
a partir de F
X
, F
Y
en los casos en que F
X,Y
es absolutamente
continua, o discreta.
En el primer caso, f
X,Y
(x, y) = f
X
(x)f
Y
(y) y entonces
F
X,Y
({(x, y) : x + y z}) =

{(x,y):x+yz}
f
X
(x)f
Y
(y)dx dy =
f
X
(x)dx
zx
f
Y
(y)dy =
f
X
(x)F
Y
(z x)dx,
de modo que
F
X+Y
(z) =
F
Y
(z x)dF
X
(x),
y, por simetra,
F
X+Y
(z) =
F
X
(z y)dF
Y
(y).
La densidad se obtiene derivando respecto a z:
f
X+Y
(z) =
f
X
(x)f
Y
(z x)dx =
f
X
(z y)f
Y
(y)dy.
Cuando X e Y son discretas, con recorridos respectivos
{x
1
, . . . , x
k
, . . .}, {y
1
, . . . , y
l
, . . .},
sus distribuciones est an determinadas por las probabilidades P{X = x
i
}, i =
1, . . ., k, . . . y P{Y = y
j
}, j = 1, . . ., l, . . ..
La distribuci on de la suma est a dada por
P{X + Y z} =
x
i
+y
j
z
P{X = x
i
}P{Y = y
j
}.
En el caso particular en que las variables tienen a los naturales por recorri-
do, la expresi on se reduce a P{X + Y = n} =

n
i=0
P{X = i}P{Y = n i}.
122
Enrique M. Caba na.
Ejercicio.
Ejercicio 8.7.1 Si X, Y son independientes, con distribuci on Exp(),
(a) Cu al es la distribuci on de X +Y ?
(b) Cu al es la distribuci on de min(X, Y )?
(c) B usquense generalizaciones de los resultados precedentes, al caso en que
X, Y son independientes, con distribuci on exponencial, pero no necesa-
riamente con el mismo par ametro.
(d) En este ultimo caso, calcular P{X > Y }.
8.8 Un ejemplo: Suma de variables geometri-
cas, distribuci on binomial negativa.
Una lnea de fabricaci on produce sucesiva e independientemente piezas con
probabilidad p de no ser defectuosas. Cu al es la distribuci on del n umero N
h
de piezas defectuosas que es necesario desechar antes de obtener h buenas?
Cuando h vale 1, dicho n umero N
1
tiene distribuci on Geo(p). Si X
1
, X
2
, . . .
designan las cantidades de piezas defectuosas que preceden a cada pieza buena,
desde la anterior pieza buena fabricada, entonces cada X
i
tiene distribuci on
Geo(p), son variables independientes, y N
h
=

h
i=1
X
i
. La distribuci on de N
2
est a dada por
P{N
2
= n} =
n
i=0
P{X
1
= i}P{X
2
= n i}
=
n
i=0
(1 p)
i
p(1 p)
ni
p = (n + 1)p
2
(1 p)
n
.
Para h = 3 utilizamos el resultado anterior:
P{N
3
= n} =
n
i=0
P{N
2
= i}P{X
3
= n i}
=
n
i=0
(i + 1)p
2
(1 p)
i
(1 p)
ni
p =
(n + 1)(n + 2)
2
p
3
(1 p)
n
.
De la misma manera,
P{N
4
= n} =
n
i=0
P{N
3
= i}P{X
4
= n i} = C
3
(n)p
4
(1 p)
n
,
8.9. Suma de exponenciales. Distribuciones y de Poisson. 123
con C
3
(n) =

n
i=0
(i+1)(i+2)
2
, y, en general, P{N
h
= n} = C
h1
(n)p
h
(1 p)
n
,
con C
h
(n) =

n
i=0
C
h1
(i), para h = 4, 5, . . . .
Por inducci on en h y en n vericaremos que C
h
(n) =
(n+1)(n+2)...(n+h)
h!
. Para
ello, basta observar que para cualesquiera h, n, C
h
(n) C
h
(n 1) = C
h1
(n),
que equivale a (n + 1)(n + 2) . . . (n + h) n(n + 1)(n + 2) . . . (n + h 1) =
h(n + 1)(n + 2) . . . (n +h 1), y esta ultima igualdad se cumple trivialmente.
El mismo resultado podra haberse obtenido de manera directa, por medio
del siguiente razonamiento: Dado que N
h
representa el n umero de fracasos
hasta el h-esimo exito, el suceso {N
h
= n} es la uni on de los sucesos disjuntos
que consisten en que en los n +h 1 primeros ensayos hay exactamente h 1
exitos, y, adem as, el n + h -esimo ensayo es un exito. La probabilidad de que
en los n + h 1 primeros ensayos haya exactamente h 1 exitos es
P{Bin(n + h 1, p) = h 1} =
n + h 1
h 1
p
h1
(1 p)
n
,
y esta probabilidad debe ser multiplicada por la probabilidad p de exito en el
ultimo ensayo. El resultado es C
h1
(n).
A la distribuci on de la variable N
h
se la llama binomial negativa con
par ametros h, p.
8.9 Otro ejemplo: Suma de variables expo-
nenciales. Distribuci on Gamma y distri-
buci on de Poisson.
Si T
1
, T
2
, . . . , T
k
son variables independientes con distribuci on Exp(), la fun-
ci on de densidad de cada una de ellas es f(t) = e
t
1
{t0}
, y la densidad de
la suma de T
1
y T
2
es
f
2
(t) =
e
x
1
{x0}
e
(tx)
1
{tx0}
dx =
t
0
2
e
t
dx =
2
te
t
,
para t 0.
Una vez obtenida la densidad f
2
, calculamos la densidad f
3
de T
1
+T
2
+T
3
mediante
f
3
(t) =
f
2
(x)f(t x)dx =
t
0
2
xe
x
e
(tx)
dx =

3
t
2
2!
e
t
.
Por inducci on completa, se obtiene la f ormula general para la densidad f
k
de
la suma S
k
=

k
i=1
T
i
de k variables independientes Exp(): f
k
(t) =

k
t
k1
(k1)!
e
t
.
124
Enrique M. Caba na.
Este resultado muestra que S
k
tiene la distribuci on (k, ) denida en el cuadro
de la p agina 98.
Por integraci on del resultado anterior, se encuentra la funci on de dis-
tribuci on de la sumaS
k
:
F
k
(t) =
t
0
f
k
(s)ds =
t
0
(s)
k1
(k 1)!
e
s
ds
=
(s)
k1
(k 1)!
e
s
t
0
+
t
0
(s)
k2
(k 2)!
e
s
ds
=
(t)
k1
(k 1)!
e
t
+
t
0
f
k1
(s)ds = F
k1
(t)
(t)
k1
(k 1)!
e
t
.
En esta relaci on de recurrencia puede reemplazarse F
k1
(t) en funcion de
F
k2
(t), y as sucesivamente hasta obtener una f ormula para F
k
(t) en funcion
de t.
Si las variables T
i
representan los tiempos de duraci on de los sucesivos
repuestos de un componente de un sistema, S
k
es el tiempo total de fun-
cionamiento del sistema con utilizaci on de k repuestos, y el n umero necesario
H de reemplazos para que el sistema funcione durante un lapso t es aquel en-
tero h tal que S
h
< t pero S
h+1
t. De all se deduce que la distribuci on de
la variable aleatoria H est a dada por
P{H = h} = P{S
h
< t S
h+1
} = P{S
h
< t} P{S
h+1
< t} =
(t)
k
k!
e
t
,
por la relaci on de recurrencia obtenida m as arriba. Esto muestra que H tiene
la distribuci on de Poisson con par ametro t, denida tambien en el cuadro de
la p agina 98.
Ejercicios.
Ejercicio 8.9.1 Supongamos que T
h
(h = 1, 2, . . .) son variables independientes,
con distribuci on Exp(), que representan los tiempos de duraci on de sucesivas piezas
que son reemplazadas en un sistema en funcionamiento permanente tan pronto como
la anterior falla. Si el sistema comienza a funcionar en el instante 0, la primera pieza
act ua en el intervalo (0, T
1
), y en T
1
es reemplazada por la segunda que dura hasta
T
1
+T
2
, y as sucesivamente.
Cu al es la probabilidad de que en el intervalo (0, a) se agoten las primeras n
piezas?
Cu al es la probabilidad de que se agoten las primeras n piezas pero en el instante
a todava este funcionando la n + 1-esima pieza?
8.10. Distribuci on multinomial. 125
Ejercicio 8.9.2 Calcular la distribuci on de la suma de dos variables independi-
entes con distribuci on de Poisson,
(a) de manera directa,
(b) por medio del vnculo con las sumas parciales de variables exponenciales
independientes (8.9).
Ejercicio 8.9.3 Vericar el resultado del ejemplo en 8.8 aprovechando la forma
conocida de la funci on generatriz de momentos factoriales de la distribuci on Geo(p)
que se indica en la tabla de la p agina 98.
Ejercicio 8.9.4 Calcular la esperanza y la variancia de la distribuci on binomial
negativa con par ametros h, p.
Ejercicio 8.9.5 Una tarjeta de circuito impreso tiene un cierto n umero de huecos
que se hacen usando un taladro numerico controlado autom aticamente. El control
tiene un n umero de fallas aleatorio l con distribuci on de Poisson (). Si el control
falla, la probabilidad de que el taladro no haga el hueco correspondiente es p. La
tarjeta se descarta cuando le falta al menos un hueco.
(a) Calcular la probabilidad de que una tarjeta resulte aceptable.
(b) Aprovechar el resultado del Ejercicio 8.5.1 para deducir la distribuci on
del n umero de tarjetas aceptables.
(c) Calcular la probabilidad directamente.
8.10 Ensayos repetidos, cuando hay mas de
dos resultados posibles: la distribuci on
multinomial
Cuando se realiza n veces un experimento que puede dar lugar a cierto resul-
tado A, o bien a su complemento A
c
, las realizaciones son independientes, y en
cada una de ellas la probabilidad de que ocurra A es la misma, digamos p, la
cantidad B de veces que ocurre A tiene distribuci on binomial con par ametros
(n, p). Si A
i
es el suceso A ocurre en el i-esimo intento, entonces B =

n
i=1
1
A
i
.
Las variables 1
A
i
son Ber(p) independientes. Esta descripci on bien conocida
(3.4.1) singulariza uno de los resultados posibles: A. Si se hubiera contado
en cambio el n umero de veces que no ocurre A se hubiera obtenido la variable
nB con distribuci on Bin(n, 1p). La informaci on completa de cu antas veces
126
Enrique M. Caba na.
ocurre A y cuantas A
c
requerira utilizar la variable vectorial (B, n B), pero
la redundancia obvia vuelve innecesario trabajar con variables en R
2
.
Cuando el resultado de cada realizaci on del experimento, en vez de descri-
birse de manera binaria (ocurre A o no ocurre A) se describe indicando cu al
de k resultados posibles A
1
, A
2
, . . . A
k
ocurre, la informaci on relevante es
ahora un vector de k componentes M = (M
1
, M
2
, . . . , M
k
)
tr
(que convenimos
en escribir como una columna, por eso la trasposici on), cada una de las cuales
cuenta cu antas veces ocurri o el correspondiente resultado.
Vamos a suponer que los resultados A
1
, . . ., A
k
son mutuamente excluyen-
tes, y que necesariamente uno de ellos ocurre en cada realizaci on del experi-
mento. Suponemos tambien que las realizaciones son independientes, y que en
cada una de ellas las probabilidad de que ocurra A
h
es p
h
. Las probabilidades
p
h
necesariamente cumplen

k
h=1
= 1. El vector (aleatorio) M que cuenta
cuantas veces ocurre cada resultado posible al cabo de las n repeticiones inde-
pendientes puede escribirse como suma de los vectores U
i
R
k
(i = 1, . . . , n)
cada uno de los cuales tiene todas las componentes iguales a cero menos la que
corresponde al resultado que ocurre en el h-esimo intento, que vale 1.
Si e
h
es el vector de componentes nulas excepto la h-esima que vale 1,
entonces las variables aleatorias U
i
son independientes, con distribuci on de
probabilidades P{U
i
= e
h
} = p
h
, h = 1, . . . , k. El vector M resulta entonces
ser la suma de los n vectores independientes U
1
, . . ., U
n
.
A la distribuci on de probabilidades de M se la llama distribuci on multino-
mial de par ametros n, p R
k
, donde p = (p
1
, . . . , p
k
)
tr
.
Como en el caso binomial la informaci on es redundante, porque una cual-
quiera de las componentes de M se obtiene restando las otras componentes del
total n, pero la conveniencia de pasar de un vector en R
k
a un vector en R
k1
a expensas de tener que singularizar una de las componentes, aquella que se
elimina, no justica la reducci on en 1 de la dimensi on, y se suele trabajar con
el vector de k componentes a pesar de la redundancia.
El calculo directo de P{M = m} donde m es un vector de R
k
con com-
ponentes enteras no negativas que suman n se hace observando que el suceso
{M = m} es la uni on de los sucesos

n
i=1
{U
i
= u
i
} para los cuales cada u
i
tiene alguno de los valores e
1
, . . ., e
k
, y

n
i=1
u
i
= m.
Para que esta ultima condici on se cumpla se requiere que m
1
de los u
i
val-
gan e
1
, que m
2
valgan e
2
, . . ., que m
k
valgan e
k
. Por lo tanto, la probabilidad
de cada una de las intersecciones

n
i=1
{U
i
= u
i
} de sucesos independientes es el
producto de las probabilidades de cada {U
i
= u
i
}. Cada una de estas probabi-
lidades vale p
h
cuando u
i
es e
h
. Dado que cada e
h
aparece m
h
veces, se cumple
P
n
i=1
{U
i
= u
i
} =

k
h=1
p
m
h
h
, resultado que no depende de cu ales son los u
i
.
8.11. Estadsticos de orden. 127
Se deduce entonces que la probabilidad de la uni on {M = m} es igual a la
cantidad de elecciones posibles de los vectores u
i
compatibles con la condici on
de que m
h
de ellos valgan e
h
(h = 1, . . . , k). De otra manera, tenemos que
contar de cu antas maneras pueden elegirse los n resultados de manera que m
h
de ellos sean e
h
. Para ello, observemos, por ejemplo, que Los m
1
vectores e
1
pueden ubicarse en
n
m
1
conguraciones diferentes. Por cada una de ellas,

los m
2
vectores e
2
pueden ubicarse en
nm
1
m
2
conguraciones diferentes cor-

respondientes a los n m
1
lugares a un no ocupados. Luego hay
nm
1
m
2
m
3
conguraciones posibles para ubicar los m

3
vectores que tienen que vales e
3
,
etc., y de esta manera se encuentra que el n umero total de conguraciones es
n!
m
1
!(n m
1
)!
(n m
1
)!
m
2
!(n m
1
m
2
)!
(n m
1
m
2
)!
m
3
(n m
1
m
2
m
3
)!
(n m
1
m
2
m
3
)!
m
4
(n m
1
m
2
m
3
m
4
)!
. . .
(n m
1
. . . m
k1
)!
m
k
(0)!
=
n!
k
h=1
m
h
!
.
En resumen,
P{M = m} =
n!
k
h=1
m
h
!
k
h=1
p
m
h
h
Los momentos de primero y segundo orden de U
i
son EU
i
=

k
h=1
p
h
e
h
= p,
EU
i
U
tr
i
=

k
h=1
p
h
e
h
e
tr
h
= diagp, donde la notaci on diag aplicada a un vector
indica la matriz cuadrada que tiene las componentes del vector en la diagonal
y ceros fuera de ella.
Llamemos a la variancia de cada U
i
. De los c alculos precedentes resulta
= EU
i
U
tr
i
EU
i
EU
tr
i
= diagp pp
tr
.
Como consecuencia, EM = np, VarM = n.
8.11 Los estadsticos de orden de una muestra.
8.11.1 Denici on de los estadsticos de orden.
A un conjunto X
1
, X
2
, . . . , X
n
de n variables independientes identicamente
distribuidas con distribuci on de probabilidades F, se le llama muestra aleatoria
simple de la distribuci on F. Consideremos una permutaci on de los n umeros
{1, 2, . . . , n} (es decir, una funci on biyectiva : {1, 2, . . . , n} {1, 2, . . . , n})
con la propiedad X
(1)
X
(2)
. . . X
(n)
. En otras palabras, es la
permutaci on de los subndices que ordena la muestra de manera creciente.
128
Enrique M. Caba na.
Denici on 8.11.1 (Estadsticos de orden.)
Llamamos estadstico de orden h de la muestra X
1
, X
2
, . . . , X
n
a la variable
X
(h)
, donde es una permutaci on que ordena la muestra.
Se utiliza habitualmente la notaci on X
(h)
= X
(h)
) (h = 1, 2, . . . , n) para
los estadsticos de orden.
Cuando las n variables de la muestra son diferentes entre s, como ocurre
con probabilidad 1, por ejemplo, cuando la funci on de distribuci on de F es
continua, hay una sola permutaci on que ordena la muestra, pero, en general,
puede haber m as de una. A un en ese caso, los estadsticos de orden est an bien
denidos, a un cuando no lo este, pues su valor es el mismo, cualquiera sea
la permutaci on que se elija como entre las que ordenan la muestra.
8.11.2 Distribuci on de los estadsticos de orden.
Vamos a obtener la distribuci on de probabilidades del estadstico de orden h,
para cada h = 1, 2, . . . , n.
Calculemos en primer lugar la probabilidad del suceso X
(h)
x < X
(h+1)
que consiste en que exactamente h de las n variables de la muestra pertenecen
a la semirrecta (, x]. El n umero de variables en (, x] es Bin(n, F(x))
(con F(x) = F((, x]), como es habitual), de modo que
P{X
(h)
x < X
(h+1)
} = P{Bin(n, F(x)) = h} =
n
h
(F(x))
h
(1 F(x))
nh
.
De aqu resulta
P{X
(h)
x} = P{Bin(n, F(x)) h} =
n
i=h
n
i
(F(x))
i
(1 F(x))
ni
.
Por lo tanto, cuando F tiene densidad f, obtenemos, derivando la expresi on
precedente, que la densidad f
(h)
de X
(h)
es:
f
(h)
(x) =
n
i=h
n
i
[i(F(x))
i1
(1F(x))
ni
(F(x))
i
(ni)(1F(x))
ni1
]f(x)
= n
n 1
h 1
(F(x))
h1
(1 F(x))
nh
f(x) (h = 1, 2, . . . , n).
8.11. Estadsticos de orden. 129
Ejemplo 8.11.1 La distribuci on del h-esimo estadstico de orden U
(h)
de una
muestra de tama no n de la distribuci on uniforme en (0, 1), tiene densidad
n
n1
h1
x
h1
(1 x)
nh
. Consecuentemente, la esperanza de U
(h)
vale h/(n +1)
(Ver Ejercicio 8.11.1). Los espaciamientos U
(h+1)
U
(h)
tienen todos la misma
esperanza 1/(n + 1), a un para h = 0 y h = n, con la convenci on U
(0)
= 0,
U
(n+1)
= 1.
Ejercicio 8.11.1 Observese que, por ser n
n1
h1
x
h1
(1 x)
nh
la densidad del
estadstico de orden h de una muestra uniforme en (0, 1) de tama no n, la integral
de esa funci on en (0, 1) vale 1.
Reemplazar n, h por n + 1, h + 1, y deducir que la esperanza del estadstico de
orden h de la muestra uniforme de tama no n vale
EU
(h)
=
1
0
n
n 1
h 1
x
h
(1 x)
nh
dx = h/(n + 1).
8.11.3 Otra derivaci on de la densidad del h-esimo es-
tadstico de orden.
Cuando F tiene densidad f, calculamos la densidad f
(h)
del h-esimo estadstico
de orden en x mediante el lmite cuando tiende a cero del cociente incremental
F
(h)
(x+)F
(h)
(x)
, si este lmite existe.

Para ello, calculamos F
(h)
(x + ) F
(h)
(x) = P{x < X
(h)
x + } obser-
vando que los sucesos A(x, ) = {x < X
(h)
x+} y B(x, ) = {X
(h1)
x <
X
(h)
x + < X
(h+1)
} tienen probabilidades muy pr oximas, para peque no.
En efecto, el segundo est a contenido en el primero, y la diferencia est a con-
tenida en el suceso {hay al menos dos elementos de la muestra en (x, x + ]}
cuya probabilidad est a acotada por n(n 1)(F(x + ) F(x))
2
.
Se deduce
lim
0
1
PA(x, ) lim
0
1
PB(x, ) lim
0
n(n 1)
1
(F(x + ) F(x))
2
= 0,
de modo que
f
(h)
(x) = lim
0
1
PA(x, ) = lim
0
1
PB(x, )
= lim
0
1
n(F(x + ) F(x))
n 1
h 1
(F(x))
h1
(1 F(x + ))
nh
= n
n 1
h 1
f(x)(F(x))
h1
(1 F(x + ))
nh
.
130
Enrique M. Caba na.
El interes de este procedimiento alternativo, es que basa el c alculo en la
obtenci on de la probabilidad de B(x, ) y en un pasaje al lmite muy senci-
llo. La probabilidad de B(x, ) surge de la enumeraci on de los diversos casos
posibles y de un c alculo combinatorio trivial, de modo que, en denitiva, este
metodo de c alculo de f
(h)
resulta convenientemente mnemotecnico.
Ejercicios.
Ejercicio 8.11.2 Vericar, mediante un procedimiento an alogo al de esta seccion,
que la densidad conjunta de (X
(h)
, X
(k)
) en (x, y) (h < k, x < y) es
n!
(h 1)!(k h 1)!(n k)!
f(x)f(y)(F(x))
h1
(F(y) F(x))
kh1
(1 F(y))
nk
.
Ejercicio 8.11.3 Calcular la covariancia de los estadsticos de orden h y k de
una muestra uniforme en (0, 1) de tama no n, para cada h, k n. (Se sugiere
calcular E(U
(h)
(1 U
(k)
) para h k, aprovechando la densidad obtenida en el
ejercicio anterior, y a partir del resultado de ese c alculo, obtener Cov(U
(h)
, U
(k)
)
=
h(nk+1)
(n+1)
2
(n+2)
.)
Ejercicio 8.11.4 Designemos la parte entera de un n umero real x mediante [x]
= max{n N : n x}. Vericar en particular que, cuando n y (0, 1),
EU
([n])
tiende a y VarU
([n])
tiende a 0.
9. Distribuciones y esperanzas
condicionales.
9.1 Introducci on.
Cuando B es un suceso de probabilidad no nula y X es una variable aleatoria,
resulta razonable denir distribuci on condicional de X dado B a la probabili-
dad P
X|B
que en cada suceso A vale P
X|B
(A) = P{X A|B}.
Cuando Y es una variable discreta con recorrido esencial {Y
1
, . . . , Y
n
, . . .}
(llamamos recorrido esencial de una variable discreta con recorrido (numera-
ble) R, al subconjunto del recorrido que contiene s olo los puntos de probabi-
lidad positiva) a partir de las distribuciones condicionales P
X|{Y =y
j
}
, resulta
igualmente razonable llamar distribuci on condicional de X dado Y a la dis-
tribuci on de probabilidades aleatoria
P
X|Y
(A) =
n
j=1
1
{Y =y
j
}
P
X|{Y =y
j
}
(A), (9.1)
que, cuando se cumple {Y = y
j
}, vale P
X|{Y =y
j
}
. Esta denici on no da por
resultado una probabilidad cuando Y no pertenece a su recorrido esencial, pero
tal suceso tiene probabilidad nula. Sobre un suceso de probabilidad 1, y para
cada A, P
X|Y
(A) est a bien determinada.
Extender la denici on de P
X|Y
a un caso general en el que Y no este
necesariamente concentrada en un conjunto discreto, por ejemplo, cuando Y
tiene distribuci on absolutamente continua, requiere una mayor elaboraci on.
Un punto de vista a la vez m as intuitivo y menos restringido, corresponde
a introducir primero la idea de esperanza condicional, de la que podremos
obtener como consecuencia particular la probabilidad condicional, de la misma
manera que las probabilidades de sucesos P(A) pueden obtenerse de las espe-
ranzas E(1
A
).
131
132
Enrique M. Caba na.
Captulo 9: Distribuciones y esperanzas condicionales
9.2 Una interpretaci on intuitiva para la espe-
ranza condicional.
Volvamos a considerar el modelo de un juego de azar, como el ya analizado en 1.2.2
y en 2.1, pero ahora supondremos que el premio es la variable aleatoria X, cuando
ocurre el suceso {Y B} y 0 en caso contrario. Vamos a suponer que la apuesta
se hace en el instante 0, sin ninguna informaci on sobre los resultados inciertos, se
conoce el valor de la variable Y en el instante1, y el de la variable X en el instante
2, a partir del cual el jugador conoce cu al ha sido su premio X1
{Y B}
.
Consideraremos tambien una segunda variante de este juego, en la que la apuesta se
hace en el instante 1, cuando el jugador ya conoce Y , pero a un no conoce X. Para
la primera variante, la cantidad determinstica que el jugador considera intercam-
biable por el premio es E(X1
{Y B}
), en ausencia de informaci on adicional sobre Y .
Agreguemos ahora la informaci on de cu al es el valor de la variable Y . Como en 2.1,
resulta razonable pensar que el jugador, con esta informaci on adicional, modique
eventualmente su apuesta, es decir, interprete que el valor determinstico equivalente
a X1
{Y B}
es ahora una nueva cantidad, funci on del valor de Y . Evidentemente, si
Y B, la apuesta sera 0. Y cuando Y B, la eventual dependencia entre ambas
variables har a que la nueva apuesta sea ahora cierta funci on del valor y que haya
obtenido la variable Y , que denotaremos por g(y). Es tambien claro que, si cambia-
mos el suceso B sin que deje de contener al punto y, la cantidad g(y) no cambia. Por
lo tanto, para la segunda variante, en el instante 1, el jugador considerar a inter-
cambiables las cantidades X1
{Y B}
y g(y)1
{Y B}
. Esto implica que en el instante
0 considerar a intercambiables las variables aleatorias X1
{Y B}
y g(Y )1
{Y B}
, y
ademas la constante E(X1
{Y B}
), que, por consiguiente, es tambien E(g(Y )1
{Y B}
).
A esta funci on compuesta de g con la variable Y , considerada intercambiable a X,
la vamos a llamar esperanza condicional de X dada Y . Al valor g(y) lo llamamos
esperanza condicional de Xdado {Y = y}.
Antes de escribir las deniciones en forma resumida, consideremos un ejemplo. Su-
pongamos que en una mesa de juego se arroja un dado (equilibrado) dos veces inde-
pendientemente, y se denota por S a la suma de los puntos resultantes. El premio es
X = 1
{S10}
. Sin m as informaci on adicional, tenemos 36 resultados posibles equi-
probables, de los cuales seis ((4, 6), (5, 5), (5, 6), (6, 4), (6, 5), (6, 6)) son favorables.
La apuesta equitativa o esperanza de X = 1
{S10}
es 1/6. Sin embargo, si el jugador
antes de apostar conoce la cara Y obtenida en el primer intento, su apuesta depender a
de cu al sea este resultado. Si es 1, 2 o 3, apostar a 0, pues estara seguro de perder. Si
es 4, apostara 1/6, pues solo gana si el segundo dado cae en 6. Si es 5, apostar a 1/3,
y si es 6, apostar a 1/2. Tenemos entonces g(1) = g(2) = g(3) = 0, g(4) = 1/6, g(5)
= 1/3, g(6) = 1/2.
Notemos por ultimo que cuando X, Y son independientes, el conocimiento de Y no
debe alterar la apuesta en favor de X, es decir, g(y) no debe variar con el valor y de
Y , sino que debe valer E(X) para todo y.
9.3. Definici on de la esperanza condicional. 133
9.3 Denici on de la esperanza condicional.
Vamos a formalizar la denici on de esperanza condicional introducida en 9.2
de manera intuitiva. Observemos que de esa introducci on resulta que la espe-
ranza condicional de X dada Y es una variable aleatoria que puede escribirse
en la forma g Y.
Para asegurar que esta funci on compuesta sea efectivamente una varia-
ble aleatoria, admitiremos que g resulte ser una funci on de Borel, es decir,
una funci on para la cual la correspondencia C g
1
(C) entre subconjuntos
del recorrido y del dominio establecida por las preim agenes, lleva cualquier
conjunto de Borel C de R en un conjunto de Borel g
1
(C). Esto implica
adem as que la preimagen de C por la variable aleatoria g Y es un conjunto
Y
1
(g
1
(C)) de la -algebra A
Y
generada por la variable Y , es decir, la mnima
-algebra que contiene a los sucesos de la forma {Y B}, para B B.
Como resumen de lo que precede, podemos establecer que E(X|Y ) es una
variable aleatoria g(Y ) de (, A
Y
) en (R, B) que para todo suceso {Y B},
{B B}, satisface E(E(X|Y )1
{Y B}
) = E(X1
{Y B}
).
De lo que precede recogemos la siguiente denici on:
Denici on 9.3.1 (i) Dadas las variables aleatorias X, Y , con valores en R
llamamos esperanza condicional de X dada Y a una nueva variable aleatoria
g(Y ) que denotamos E(X|Y ), con la propiedades
g : (R, B) (R, B) es medible,
E(g(Y )1
{Y B}
) (= E(E(X|Y )1
{Y B}
)) = E(X1
{Y B}
), para todo con-
junto B de B.
La medibilidad de g asegura que g(Y ) sea una variable aleatoria.
(ii) Dadas la variable aleatoria X, en el espacio de probabilidad (, A) y
la sub-- algebra C A, llamamos esperanza condicional de X dada C a una
nueva variable aleatoria en (, C) que denotamos E(X|C), con la propiedad
E(E(X|C)1
C
) = E(X1
C
), para todo conjunto C de C.
Nota 1: La parte (i) de la denici on precedente se extiende con los cam-
bios obvios al caso de variables X, Y con valores en espacios de probabilidad
cualesquiera, no necesariamente (R, B).
Nota 2: La denici on introduce de manera paralela la esperanza dada una
variable aleatoria Y y la esperanza dada una -algebra C. La variable aleatoria
E(X|Y ) denida en (i) satisface las condiciones de E(X|C) en (ii), cuando C
es la -algebra A
Y
generada por Y . Para ese caso particular, la parte (i) del
134
Enrique M. Caba na.
enunciado agrega al contenido de la parte (ii) que la variable aleatoria E(X|Y )
A
Y
-medible se escribe en la forma g(Y ).
Teorema 9.3.1 (Existencia de las esperanzas condicionales).
(i) Si E(|X|) < , las esperanzas condicionales E(X|Y ) de X dada
Y y E(X|C) de X dada la - algebra C existen y son esencialmente
unicas. M as precisamente, en el primer caso, si g
1
y g
2
son dos fun-
ciones de Borel con la propiedad E(g
1
(Y )1
{Y B}
) = E(g
2
(Y )1
{Y B}
)
= E(X1
{Y B}
), para todo B en B, entonces P{g
1
(Y ) = g
2
(Y )} = 0;
en el segundo caso, si Z
1
y Z
2
son dos variables aleatorias en (, C)
con la propiedad E(Z
1
1
C
) = E(Z
2
1
C
) = E(X1
C
), para todo con-
junto C de C, entonces P{Z
1
= Z
2
} = 0.
(ii) En el primer caso, para cualquier variable aleatoria V de (, A
Y
) en
(R, B), con esperanza nita, se cumple E(V X|Y ) = V E(X|Y ) (A
Y
designa a la - algebra generada por Y ). En el segundo caso, para
cualquier variable aleatoria V de (, C) en (R, B), con esperanza
nita, se cumple E(V X|C) = V E(X|C).
Nota: A cualquiera de las funciones g en las condiciones de la denici on
de E(X|Y ), la denotaremos g(y) = E(X|Y = y). Si g satisface las condiciones
de la denici on, tambien las satisface cualquier funci on g
1
tal que P{g
1
(Y ) =
g(Y )} = 0, y por la parte (ii) del Teorema, las unicas otras funciones que las
satisfacen son precisamente las de la clase de equivalencia
{g
1
: R R, P{g
1
(Y ) = g(Y )} = 0}. (9.2)
Por ese motivo, extendemos la notaci on E(X|Y ) que representa cualquiera de
las variables aleatorias de la clase de equivalencia (9.2) a la clase misma, y del
mismo modo llamaremos E(X|Y = y) a cualquiera de las funciones g
1
(y) de
la clase (9.2) o bien a toda la clase conjuntamente, de acuerdo al contexto.
Demostraci on de la parte (i).
Existencia de la esperanza condicional de X dada C:
Dadas la variable X 0 en (, A, P) y la -algebra C A, buscamos una
nueva variable Z = E(X|C) en (, C) tal que para todo C C,

C
Z dP =
C
X dP. La soluci on est a dada por la densidad de la medida C

C
X dP
respecto de P que el Teorema 7.6.1 muestra que es esencialmente unica. La
9.3. Definici on de la esperanza condicional. 135
medida cuya densidad calculamos es nita, por la acotaci on E(|X|) <
indicada en la hip otesis.
En el caso general (X no necesariamente no negativa), se calculan por
separado las esperanzas condicionales de X
+
y de X
y se restan.
Existencia de la esperanza condicional de X dada Y :
Se aplica el caso anterior, con C = A
Y
, -algebra generada por la variable
aleatoria Y . Solo resta vericar que una variable aleatoria Z en A
Y
se puede
expresar en la forma Z = g(Y ). Para ello, denimos en (R, B) la medida
con signo B EZ1
{Y B}
, que es absolutamente continua respecto de la dis-
tribuci on P
Y
de Y . La densidad g respecto de la distribuci on de Y cumple
entonces
EZ1
{Y B}
=
B
g(y)dP
Y
(y) = Eg(Y )1
{Y B}
.
Dado que Z y g(Y ) son A
Y
-medibles, la igualdad anterior implica que P{Z =
g(Y )} = 1. 2
Demostraci on de la parte (ii).
Basta considerar el segundo caso, porque el primero se reduce a este:
Dada V : (, C) (R, B), con esperanza nita, tenemos que vericar que
la esperanza condicional E(V X|C) vale V E(X|C).
Puesto que V E(X|C) es obviamente C-medible, solo resta vericar que para
cada C C,
E(V E(X|C)1
C
) = E(V X1
C
).
Esto es cierto trivialmente cuando V es la indicatriz de un suceso A de C,
porque en ese caso la igualdad se reduce a E(E(X|C)1
AC
) = E(X1
AC
) y
se aplica la propiedad que caracteriza a la esperanza condicional E(X|C). En
virtud de la linealidad y del Teorema de Beppo Levi, la igualdad se extiende
primero al caso en que V es una variable aleatoria simple, y luego a V 0.
Finalmente, para V de signo cualquiera, se aplica la igualdad ya vericada a
V
+
y a V
, y se obtiene el resultado requerido por diferencia. En esta instancia

se aplica la hip otesis de nitud de la esperanza de V . 2
Teorema 9.3.2 Si X, Y son variables discretas, con recorridos respectivos
{x
1
, x
2
, . . . , x
h
}, {y
1
, y
2
, . . . , y
k
}, entonces se cumple
E(X|Y = y
j
) =
h
i=1
x
i
P{X = x
i
|Y = y
j
}
para j = 1, 2, . . . , k, y, por lo tanto,
E(X|Y ) =
k
j=1
h
i=1
x
i
P{X = x
i
|Y = y
j
}1
{Y =y
j
}
.
136
Enrique M. Caba na.
Demostraci on. La esperanza condicional de X dada Y es una variable ale-
atoria que sobre cada uno de los sucesos {Y = y
j
}, j = 1, 2, . . . , k vale g(y
j
).
Llamamos g
j
a g(y
j
), lo que nos permite escribir E(X|Y ) =

k
j=1
g
j
1
{Y =y
j
}
.
La propiedad que caracteriza a la esperanza condicional es que para cada m,
E(X1
{Y =ym}
) = E(1
{Y =ym}
k
j=1
g
j
1
{Y =y
j
}
).
Reemplazando X =

h
j=1
x
i
1
{X=x
i
}
y calculando las esperanzas, encon-
tramos g
m
=

h
j=1
x
i
P{X = x
i
|Y = y
m
}. 2
Nota. Se observar a que la conclusi on del teorema anterior equivale a decir
que la esperanza condicional de X dado {Y = y} es la esperanza de X calcu-
lada con la distribuci on de probabilidad condicional dado el suceso {Y = y}.
Esta caracterizaci on de la esperanza condicional es apropiada en el caso de
variables discretas. No resulta util en cambio para variables con distribuci on
absolutamente continua, porque en ese caso P{Y = y} es cero para cada y.
Teorema 9.3.3 Si X, Y tienen distribuci on absolutamente continua con den-
sidad conjunta f, entonces se cumple
E(X|Y = y) =
xf
(X|Y =y)
(x)dx
con
f
(X|Y =y)
(x) =
f(x, y)
f(x, y)dx
. (9.3)
Demostraci on. Dado un conjunto de Borel B, tenemos que vericar la
identidad E(E(X|Y )1
{Y B}
) = E(X1
{Y B}
). El primer miembro vale
B
f
Y
(y)E(X|Y = y)dy =
B
f
Y
(y)dy
f(x, y)dx
xf(x, y)dx
=
B
dy
xf(x, y)dx,
ya que
f
Y
(y) =
f(x, y)dx.
La ultima expresi on obtenida es precisamente E(X1
{Y B}
). 2
Nota mnemotecnica. La expresi on (9.3) se obtiene de
P{X (x, x + )|Y (y, y + )} =
P{X (x, x + ), Y (y, y + )}
P{Y (y, y + )}
9.4. La distribuci on condicional. 137
aproximando, cuando y son peque nos, P{X (x, x + )|Y (y, y + )}
por f
X|Y =y
(x), P{X (x, x + ), Y (y, y + )} por f
X,Y
(x, y) y P{Y
(y, y + )} por f
Y
(y). 2
Los enunciados de los Teoremas 9.3.2 y 9.3.3 son un caso particular del
siguiente:
Teorema 9.3.4 Si (X, Y ) tiene densidad f
X,Y
respecto de la medida en R
2
producto de las medidas -nitas
1
y
2
(es decir, para A, B cualesquiera
de Borel en R, (A B) =
1
(A)
2
(B) (ver 8.4.2, 8.4.3)), entonces la
distribuci on condicional de X dado Y = y tiene densidad f
X|Y =y
respecto de
1
, que vale
f
X|Y =y
(x) =
f
X,Y
(x, y)
f
Y
(y)
(9.4)
donde f
Y
es la densidad de Y respecto de
2
.
Demostraci on. Tenemos que vericar que para cualesquiera A, B de Borel,
E
A
f
X|Y
(x)d
1
(x)1
{Y B}
= E1
{XA}
1
{Y B}
,
es decir
A
f
X|Y =y
(x)d
1
(X)
f
Y
(y)d
2
(y) =

AB
f
X,Y
(x, y)d(x, y),
y esta ultima igualdad se cumple como consecuencia del Teorema de Fubini
(ver Teorema 9.6.2), cuando f
X|Y
est a dada por (9.4). 2
Teorema 9.3.5 Si X, Y son independientes, E(X|Y ) = E(X).
Demostraci on. Para cada C en la -algebra del codominio de Y , E(X1
{Y C}
)
vale E(X)E(1
{Y C}
) por la independencia, y este producto es E(E(X)1
{Y C}
)
por ser EX una constante. 2
9.4 La distribuci on condicional.
Ya hemos notado que la distribuci on de probabilidad de una variable alea-
toria X puede describirse a partir de esperanzas, por medio de P{X A}
= E(1
{XA}
). Esto sugiere la denici on siguiente.
138
Enrique M. Caba na.
Denici on 9.4.1 Se llama distribuci on condicional de X dado {Y = y}
a la probabilidad P
X|{Y =y}
en (R, B) con funci on de distribuci on
F
X|{Y =y}
(x) = E(1
{Xx}
|Y = y).
La expresi on que dene F
X|{Y =y}
(x) es aplicable a todo x R, pero
para determinar la distribuci on de probabilidades P
X|{Y =y}
basta conocer
F
X|{Y =y}
(x) sobre el conjunto numerable de los racionales.
Para cada x, F
X|{Y =y}
(x) no est a totalmente determinada como funci on de
y, sino a menos de una clase de equivalencia, de acuerdo a lo indicado en la
Nota que sigue al Teorema 9.3.1. Por lo tanto, si nos damos dos represen-
tantes F(x, y) y F
(x, y) de E(1
{Xx}
|Y = y), estos pueden diferir s olo para
y C
x
con P{Y C
x
} = 0. Por lo tanto, las funciones F(x, y) y F
(x, y)
son identicas sobre el dominio Q de los x racionales, para y en el comple-
mento de C =

xQ
C
x
. Esta uni on numerable de sucesos de probabilidad
nula, tiene probabilidad cero, de modo que concluimos que las distribuciones
condicionales, que est an determinadas por sus funciones de distribuci on eval-
uadas en Q, son todas esencialmente la misma, es decir, dos de ellas dieren a
lo sumo para y en C y P{Y C} = 0.
Notaci on: Es habitual denotar la probabilidad condicional P
X|{Y =y}
(A)
por P{X A|Y = y}.
Teorema 9.4.1 La distribuci on condicional P{X A|Y = y} es una proba-
bilidad, como funci on de A, excepto posiblemente para y en un conjunto C de
probabilidad P{Y C} nula.
Cuando Y es la funci on indicatriz de un suceso B, la distribuci on de X
dado Y = 1 en A coincide con la probabilidad condicional dado B de {X A}.
La primera parte est a demostrada en el contexto previo al enunciado del
Teorema. El segundo resultado del enunciado es consecuencia del Teorema
9.3.2, y muestra la coherencia de la notaci on que se utiliza. 2
Ejercicios
Ejercicio 9.4.1 Supongamos que (X, Y ) tiene distribuci on conjunta absolutamen-
te continua con densidad f
X,Y
continua, y densidad marginal f
Y
continua. Mostrar
que P
X|{y<Y <y+}
es absolutamente continua, y que su densidad tiene lmite
f
X|{Y =y}
cuando 0.
9.5. Esperanzas condicionales iteradas. 139
Ejercicio 9.4.2 Mostrar que si X tiene distribuci on con recorrido {x
1
, . . . , x
m
. . .}
e Y tiene distribuci on condicional dado {X = x
i
} absolutamente continua para cada
i = 1, . . . , m, . . ., entonces P{X = x
i
|y < Y < y + } tiene lmite que coincide
con P
X|{Y =y}
({x
i
}).
Ejercicio 9.4.3 Si X, Y son independientes, entonces P
X|{Y =y}
(A) = P
X
(A) (la
distribuci on condicional de X dado {Y = y} es la distribuci on de X, a la que,
dentro del contexto de distribuciones condicionales, suele llam arsele la distribuci on
incondicional de X).
Ejercicio 9.4.4 Dadas las variables i.i.d.Y
1
, Y
2
, . . . , Y
n+1
, con distribuci on expo-
nencial de par ametro 1, escribir la densidad conjunta f
Y
1
,...,Y
n+1
(t
1
, . . . , t
n+1
) y la
densidad condicional f
Y
1
,...,Yn|Y
n+1
=t
n+1
(t
1
, . . . , t
n
).
Dados 0 < a
1
< b
1
< a
2
< b
2
< . . . < a
n
< b
n
< 1, calcular la probabilidad
condicional dado Y
n+1
= t
n+1
del suceso
{a
1
t
n+1
< Y
1
< b
1
t
n+1
, a
2
t
n+1
< Y
2
< b
2
t
n+1
, . . . , a
n
t
n+1
< Y
n
< b
n
t
n+1
}.
Deducir que los cocientes Y
1
/Y
n+1
, . . . , Y
n
/Y
n+1
tienen la distribuci on conjunta
de los estadsticos de orden de la distribuci on uniforme en [0, 1].
9.5 Esperanzas condicionales iteradas.
Denotaremos A
Y,Z
a la -algebra generada por los sucesos {Y B, Z C}
B, C, de Borel.
Denici on 9.5.1 Dadas tres variables aleatorias X, Y , Z, llamamos espe-
ranza condicional de X dadas Y, Z, a la esperanza condicional de X dada
la variable aleatoria Y, Z con valores en R
2
.
E(X|Y, Z) es una variable aleatoria en (, A
Y,Z
), funci on de las variables
Y, Z, que denotaremos tambien E(X|Y, Z) = g (Y, Z), y para cualesquiera
B, C, de Borel, E(E(X|Y, Z)1
{Y B,ZC}
) = E(X1
{Y B,ZC}
).
Consideremos el juego con premio X1
{Y B,ZC}
, y supongamos que Y , Z y X
se dan a conocer respectivamente en los instantes 1, 2 y 3. La apuesta eq-
uitativa en 0 es E(X1
{Y B,ZC}
), en 1, una vez que se conoce Y = y es
1
{Y B}
E(X1
{ZC}
|Y = y), y en 2, luego de conocer adem as el valor de la va-
riable Z = z, es 1
{Y B,ZC}
E(X|Y = y, Z = z). Se deduce de esta interpretaci on
heurstica que deben cumplirse las identidades
E(X1
{Y B,ZC}
) = E(1
{Y B}
E(X1
{ZC}
|Y )) = E(1
{Y B,ZC}
E(X|Y, Z)),
140
Enrique M. Caba na.
para cualesquiera conjuntos de Borel B, C, pero tambien que para cada y, debe
cumplirse
E(X1
{ZC}
|Y = y) = E(1
{ZC}
E(X|Y, Z)|Y = y),
como resulta de aplicar la propiedad de la Denici on 9.3.1 con la distribuci on de
probabilidades condicional dado Y = y que es la aplicable luego de1 y antes de
2.
Lo que precede sugiere el enunciado del siguiente teorema.
Teorema 9.5.1 (i) Dadas las variables X, Y , Z, cuando X 0 o E|X| <
, se cumple E(E(X|Y, Z)|Y ) = E(X|Y ).
(ii) Dadas X no negativa o con esperanza nita y las - algebras C, D (C
D A), se cumple E(E(X|D)|C) = E(X|C).
El vnculo con la observaci on que precede, y entre ambas partes del enuncia-
do, se obtiene con C = A
Y
, -algebra generada por Y , y D = A
Y,Z
, -algebra
generada por Y , Z, que es mas rica que A
Y
.
Demostraci on. Basta demostrar (ii), que contiene a (i) a partir de la
observaci on previa. Por la unicidad (Teorema 9.3.1), basta vericar que para
cada conjunto C de C se cumple E(E(E(X|D)|C)1
C
) = E(X1
C
). Esto es cierto
porque, de la denici on de esperanza condicional, resulta E(E(E(X|D)|C)1
C
)
= E(E(X|D)1
C
) y, debido a la inclusi on C D, C es un conjunto de D, de
modo que E(E(X|D)1
C
) = E(X1
C
). 2
Ejercicios.
Ejercicio 9.5.1 Diez cajas numeradas del 0 al 9 contienen cada una, nueve chas.
La caja No. i contiene i chas rojas, y las restantes blancas.
Se elige al azar una caja, que resulta ser la No. X, y de ella se extrae una cha
al azar. Si la cha es roja, denimos Y = 1, y si es blanca, Y = 0.
(a) Hallar la distribuci on conjunta de X, Y .
(b) Hallar la distribuci on (marginal ) de Y .
(c) Calcular EX, EY , E(Y |X=x), E(X|Y =y), VarX, VarY , Var(X|Y =y),
Var(Y |X =x), E(E(X|Y )), E(E(Y |X)), Var(E(X|Y )), Var(E(Y |X)),
E(Var(X|Y )), E(Var(Y |X)).
(d) Si tuvieramos que adivinar X, que valor elegiramos a priori (sin cono-
cer Y ) para maximizar la probabilidad de acierto? que valor elegiramos
a posteriori (despues de conocer Y ), cuando Y = 1? cual cuando Y = 0?
9.5. Esperanzas condicionales iteradas. 141
Ejercicio 9.5.2 La pareja de variables (X, Y ) tiene densidad de distribuci on con-
junta
f
X,Y
(x, y) =
x +y si 0 < x, y < 1
(a) Hallar la densidad f
X
de la distribuci on de X. Calcular P{X 1/2},
P{X +Y 1/2}.
(b) Hallar la densidad condicional f
X|Y =y
, E(X|Y = y), Var(X|Y = y).
Ejercicio 9.5.3 Un pasajero llega al terminal de autobuses en el instante T, con
distribuci on uniforme entre las 11 y las 12 horas. De acuerdo a lo anunciado, est a
previsto que del terminal partan un autob us a las 11 y otro a las 12, pero estos salen
con retardos X e Y , con igual funci on de distribuci on F que satisface F(1 hora) = 1.
Si ambos autobuses le sirven al pasajero, y T, X, Y son independientes, cu al es
la esperanza del tiempo que el pasajero permanecera en el terminal?
Ejercicio 9.5.4 A dos taquillas desocupadas llegan simult aneamente las personas
A y B, cuyos respectivos tiempos de atencion son variables aleatorias independientes
con distribuci on exponencial, y con esperanza igual a una hora. Inmediatamente
despues llega la persona C, que sera atendida en la primera taquilla que quede libre.
Se supone que el tiempo de atenci on de C tambien es una variable aleatoria con
distribuci on exponencial, independiente de las anteriores, pero con esperanza igual
a dos horas.
Calcular la probabilidad de que C no sea el ultimo en retirarse.
Ejercicio 9.5.5 Se considera el siguiente juego de azar entre dos jugadores:
El primer jugador elige al azar un punto X en el intervalo (0, 2) con distribuci on
uniforme, y el segundo jugador un punto al azar Y en (1, 3), tambien con distribuci on
uniforme. Suponemos que X e Y son variables aleatorias independientes.
Si X < Y , el primer jugador paga a(Y X) al segundo; si X Y , el segundo
jugador paga b(X Y ) al primero. (a y b son constantes positivas).
(i) Hallar la relaci on b/a para que el juego sea equitativo, es decir para que
la ganancia esperada de cada jugador sea cero.
(ii) Con la relaci on b/a calculada en la parte anterior, calcular la variancia
de la ganancia del primer jugador.
Ejercicio 9.5.6 El tiempo T que demora en caer un sistema de procesamiento de
datos tiene distribuci on con densidad f
T
(t) = (t(hora
1
) exp(thora
1
)(0 < t < ).
Si se procesan sucesivamente trabajos con tiempos de procesamiento X
1
, X
2
, . . .
independientes, con igual distribuci on exponencial con media 6 minutos, calcular la
esperanza del n umero de trabajos que se pueden procesar completamente antes que
caiga el sistema.
142
Enrique M. Caba na.
Ejercicio 9.5.7 Cu anto vale la esperanza condicional de X dadas las -algebras
triviales {, } y 2
.
Ejercicio 9.5.8 Rever el Ejercicio 8.5.1(b) a la luz del Teorema 9.5.1.
9.6 La esperanza de una funci on de una pareja
de variables independientes, y el Teorema
de Fubini.
Vamos a aplicar el Teorema 9.5.1 al c alculo de la esperanza de una funci on
g(X, Y ) de variables independientes X, Y .
Por una parte (ver13.4) Eg(X, Y ) vale

g(x, y)dP
X,Y
(x, y). Por otra,
el Teorema 9.5.1 permite calcular Eg(X, Y ) = E(E(g(X, Y )|Y )) mediante la
integral

E(g(X, Y )|Y = y)dP
Y
(y). Adem as, la independencia implica que
la distribuci on condicional de X dada Y = y coincide con la distribuci on
incondicional P
X
, de modo que E(g(X, Y )|Y = y) =

g(x, y)dP
X
(x).
Estas observaciones permiten concluir el enunciado siguiente:
Teorema 9.6.1 Si X P
X
e Y P
Y
son independientes,
Eg(X, Y ) =

g(x, x)dP
X
(x)dP
Y
(y)
=

g(x, y)dP
X
(x)
dP
Y
(y) =

g(x, y)dP
X
(x)
dP
Y
(y),
donde dP
X
(x)dP
Y
(y) es una notaci on para dP
X,Y
(x, y) cuando P
X,Y
= P
X

P
Y
.
Demostraci on. La primera expresi on de la integral respecto de la medida
producto como integral iterada est a justicada en el contexto previo al enun-
ciado, y la segunda se obtiene intercambiando el papel de la X y la Y. 2
Corolario 9.6.1.1 (Teorema de Fubini para la Integral de Lebesgue).
(i) Si g : [0, 1] [0, 1] R es no negativa o integrable respecto de la medida
de Lebesgue en R
2
, entonces

[0,1][0,1]
g(x, y)d(x, y) =
1
0
dx
1
0
g(x, y)dy =
1
0
dy
1
0
g(x, y)dx.
(ii) Un resultado an alogo vale cuando se reemplaza el dominio por el plano
R
2
= RR:

RR
g(x, y)d(x, y) =
dx
g(x, y)dy =
dy
g(x, y)dx.
9.6. Teorema de Fubini. 143
Demostraci on. La parte (i) resulta del Teorema 9.6.1 con X e Y uniformes
en [0, 1]. La parte (ii) resulta de desarrollar las integrales en la forma

R
2
g(x, y)d(x, y) =
m=
n=
Eg(X + m, Y + n)
con X, Y Unif(0, 1), y, an alogamente,
R
h(t)dt =
m=
Eh(X + m),
con X Unif(0, 1). 2
Teorema 9.6.2 (Teorema de Fubini). Cuando
1
,
2
son medidas -nitas
en R, =
1
2
es la medida producto en R
2
, y f : R
2
R es no negativa
o integrable respecto de , entonces
R
f(x, y)d
1
(x)
d
2
(y) =
R
f(x, y)d
2
(y)
d
1
(x),
y, si el soporte de f est a en el rect angulo [a, b] [c, d],
d
c
b
a
f(x, y)d
1
(x)
d
2
(y) =
b
a
d
c
f(x, y)d
2
(y)
d
1
(x).
Demostraci on. Cuando
1
,
2
son probabilidades, el presente Teorema coin-
cide con el Teorema 9.6.1. El caso general se obtiene por un argumento similar
al que demuestra la parte (ii) del Corolario precedente a partir de la parte (i)
del mismo Corolario:
Cuando
1
es una medida -nita, se puede escribir mediante una serie
de la forma
1
=

m
c
1,m
P
1,m
, donde P
1,m
son probabilidades. De la misma
manera,
2
=

n
c
2,n
P
2,n
, donde P
2,n
son tambien probabilidades.
Entonces =

m,n
c
1,m
c
2,n
P
1,m
P
2,n
, y a cada producto P
1,m
P
2,n
se
aplica el Teorema 9.6.1. Esto permite llegar sin dicultad al resultado del
enunciado. 2
Nota: El Captulo 13 incluye una demostraci on del Teorema de Fubini,
independiente de la precedente (ver 13.5.1).
144
Enrique M. Caba na.
10.

Convergencia de
probabilidades en una cadena de
Markov.
El presente captulo es una continuaci on natural del Captulo 5. Est a cen-
trado alrededor de un teorema de convergencia de las probabilidades de una
cadena de Markov con un conjunto numerable de estados (Teorema 10.2.1),
cuyo tratamiento ha sido necesario posponer hasta haber introducido la espe-
ranza, ya que las esperanzas de los tiempos de llegada a estados de la cadena
intervienen de manera crucial en el enunciado y en la demostraci on del men-
cionado teorema.
10.1 Cadenas con una cantidad numerable de
estados.
La denici on de una Cadena de Markov con un conjunto numerable de estados
E = {E
1
, E
2
, . . . , E
n
, . . .}, es una extensi on natural de la denici on de una
cadena nita. Tambien las notaciones matriciales se extienden a este caso,
utilizando matrices innitas.
Una matriz innita es una sucesi on doble P = P
,
= (P
i,j
: i, j N).
Un vector innito x = x
= (x
k
: k N) es una sucesion. Si convenimos en
decir que x es un vector columna, multiplicamos Px =

j
P
,j
x
j
y convenimos
en que la sucesion resultante es tambien un vector columna. En cambio, si
convenimos en que =
es un vector la, entonces tambien convenimos en

que P es un vector la, a saber, P =

i
i
P
i,
.
Omitimos detallar otras operaciones entre matrices innitas, por ejemplo,
suma o producto, que son tambien generalizaci on natural de las mismas ope-
raciones en el caso nito.
145
146
Enrique M. Caba na.
Captulo 10: Convergencia de probabilidades en una C. de M.
Aunque no sean formalmente correctas, utilizaremos a menudo las nota-
ciones ((P
i,j
)) en vez de P
,
y (x
j
) o (
i
) para los vectores (x
), (
). Una vez
reservados los nombres i y j para los ndices de la y columna de la matriz, la
utilizaci on de la i en (
i
) indica que se trata de un vector la, y la de la j en
(x
j
) indica que es un vector columna.
Podemos dentro de este contexto reescribir la Denici on 5.2.1:
Denici on 5.2.1, versi on numerable.Llamamos cadena de Markov con es-
pacio de estados E = {E
i
: i = 1, 2, . . . , n, . . .} y matriz (innita) de probabili-
dades de transici on
P = (P
i,j
: i, j N)
a cualquier sucesi on de variables aleatorias X
0
, X
1
, . . . , X
n
, . . . que cumpla
(5.1) para cualquier n y cualquier sucesi on de estados (E
i
h
)
h=0,1,2,...
.
Como en el caso nito, si 1 es el vector columna de componentes todas
iguales a 1, entonces P1 = 1. El vector
(n)
= (P{X
n
= E
i
} : i N) se
calcula mediante la f ormula formalmente identica a la del caso nito
(n)
= P
n
.
Notaci on: En lo sucesivo, para abreviar, supondremos a menudo que los
estados de una cadena son E
i
= i, es decir, identicaremos cada estado con su
ndice.
10.2 Teorema de convergencia de probabilida-
des en una cadena de Markov numerable.
El siguiente enunciado contiene varios terminos cuyas deniciones se indican
luego del mismo:
Teorema 10.2.1 (Teorema de convergencia de probabilidades.) Si (X
n
)
n=1,2,...
es una cadena de Markov con probabilidades de transici on P = ((P
i,j
)) y espa-
cio de estados E (nito o numerable) que forman una unica clase de equiva-
lencia, recurrente, aperi odica, entonces existe el lmite lim
n
P
(n)
i,j
=
j
, que
no depende de i.
Adem as, ocurre una de estas dos alternativas:
(a) la esperanza del tiempo de llegada o retorno T
j
= min{n 1 : X
n
= j}
es innita para todo j, y en ese caso
j
= 0 para todo j, o bien
10.2. Cadenas numerables. 147
(b) la esperanza del tiempo de llegada o retorno T
j
= min{n 1 : X
n
= j} es
nita para todo j, y en ese caso el vector
= (
h
)
hE
es un vector de
probabilidades estacionarias:
P =
. El valor de cada componente

de
es
j
= (ET
j
)
1
.
Con la convenci on (ET
j
)
1
= 0 cuando ET
j
= , la expresi on
j
=
(ET
j
)
1
vale para ambas alternativas.
Notaci on: Si 1 es el vector columna de componentes todas iguales a 1,
entonces lim
n
P
n
= 1
.
10.2.1 Signicado de las hip otesis del enunciado.
Denici on 10.2.1 Los estados i, j de una cadena con probabilidades de tran-
sici on ((P
i,j
)) son equivalentes, cuando existen n
i,j
0 tal que P
(n
i,j
)
i,j
> 0 (y
en este caso se dice que i precede a j), y n
j,i
tal que P
(n
j,i
)
j,i
> 0 (tambien j
precede a i).
Nota: La relaci on de la denici on precedente es en efecto una relaci on
de equivalencia, como es inmediato vericar (Ejercicio 10.3.1), de modo que
clasica a los estados de una cadena en clases de equivalencia. Dos estados
est an en la misma clase cuando la probabilidad de que el sistema pase de
cualquiera de ellos al otro es positiva.
Notaci on: Cuando i precede a j, lo denotaremos i ;j.
Denici on 10.2.2 El estado i de la cadena con probabilidades de transici on
((P
i,j
)) es recurrente cuando

n
P
(n)
i,i
= .
Para interpretar esta denici on, llamemos f
(n)
i,j
a la probabilidad de que la
cadena pase de i a j por primera vez en n pasos:
f
(n)
i,j
= P{X
n
= j, X
h
= j, h = 1, 2, . . . , n 1|X
0
= i}.
La probabilidad de que la cadena alcance el estado j cuando parte de i es
entonces

F
i,j
=

n=1
f
(n)
i,j
. Por otra parte,
P
(n)
i,j
=
n
m=1
f
(m)
i,j
P
(nm)
j,j
, (10.1)
ya que el suceso {X
0
= i, X
n
= j} es la uni on disjunta de los sucesos {X
0
=
i, X
= j para 0 < < m, X

m
= j, X
n
= j}, (m = 1, 2, . . . , n) y cada sumando
es la probabilidad de cada uno de esos sucesos.
148
Enrique M. Caba na.
Sumando (10.1) en n e introduciendo la notaci on

P
i,j
=

n=1
P
(n)
i,j
, encon-
tramos

P
i,j
=

n=1
P
(n)
i,j
=

n=1
n
m=1
f
(m)
i,j
P
(nm)
j,j
=

m=1
f
(m)
i,j
n=m
P
(nm)
j,j
=

F
i,j
(1 +

P
j,j
).
Poniendo j = i, se deduce en particular que la recurrencia de i implica
F
i,i
= 1. Interesa notar que F
i,i
= P{X
n
= i para alg un n|X
0
= i}.
Recprocamente, podemos despejar
P
i,i
=
F
i,i
1

F
i,i
y deducir que la condici on P{X
n
= i para alg un n|X
0
= i} = 1 equivale a la
recurrencia de i. En otras palabras, i no es recurrente (y en ese caso se llama
transitorio) cuando la probabilidad de retornar es menor que 1.
Los c alculos que preceden muestran que vale el enunciado siguiente:
Lema 10.2.1 El estado i es recurrente (

P
i,i
= ) si y solo si la probabilidad
de retorno F
i,i
es 1.
El siguiente lema muestra que la recurrencia es una propiedad de las clases
de equivalencia:
Lema 10.2.2 Cuando una clase de equivalencia tiene un estado recurrente,
todos los estados de la clase son recurrentes.
Demostraci on. Si i es recurrente y j es equivalente a i, entonces existen m
1
y m
2
tales que P
(m
1
)
j,i
> 0, P
(m
2
)
i,j
> 0, y entonces P
(m
1
+n+m
2
)
j,j
P
(m
1
)
j,i
P
(n)
i,i
P
(m
2
)
i,j
,
lo que implica

n=1
P
(n)
j,j

n=1
P
(m
1
+n+m
2
)
j,j
P
(m
1
)
j,i
n=1
P
(n)
i,i
P
(m
2
)
i,j
= . 2
Denici on 10.2.3 El estado i de la cadena con probabilidades de transici on
((P
i,j
)) es aperi odico cuando el m aximo com un divisor del conjunto {n : P
(n)
i,i
>
0} es 1, es decir, cuando no existe ning un entero k > 1 tal que el sistema (con
probabilidad uno) s olo pueda retornar a i al cabo de un n umero de pasos que
es m ultiplo de k.
10.2.2

Demostraci on del Teorema 10.2.1.
La siguiente demostraci on, que incluimos para no dejar incompleta la ex-
posici on del tema, es considerablemente elaborada, y puede ser omitida en
una primera lectura, ya que los argumentos en ella utilizados no ser an objeto
de referencias posteriores.
Llamemos
+
j
= limsup
n
P
(n)
j
y
j
= liminf
n
P
(n)
j
, y tomemos dos suce-
siones n
+
m
, n
m
estrictamente crecientes de ndices tales que lim
m
P
(n
+
m
)
j
=
+
j
,
lim
m
P
(n
m
)
j
=
j
.
Puesto que

F
j
=
n=1
f
(n)
j,j
=1, dado >0, podemos encontrar n
tal que
n=n
f
(n)
j,j
< .
Como consecuencia, a partir de (10.1), obtenemos la acotacion
P
(n
+
m
)
j,j
f
(k)
j,j
P
(n
+
m
k)
j,j
+
n,=k
f
()
j,j
P
(n
+
m
)
j,j
+ ,
en la que k designa un ndice para el que f
(k)
j,j
> 0.
Para m sucientemente grande, se cumple
+
j
P
(n
+
m
)
j,j
f
(k)
j,j
P
(n
+
m
k)
j,j
+ (1 f
(k)
j,j
)(
+
j
+ ) +
y de esas desigualdades se deduce
+
j
+
3
f
(k)
j,j
P
(n
+
m
k)
j,j
.
Por ser
+
j
el lmite superior de P
(n)
j,j
, concluimos que lim
m
P
(n
+
m
k)
j,j
=
+
j
. En
resumen, hemos mostrado que si (n
+
m
) es una sucesion tal que lim
m
P
(n
+
m
k)
j,j
=
+
j
,
y f
(k)
j,j
> 0, entonces lim
m
P
(n
+
m
k)
j,j
=
+
j
.
Repitiendo el razonamiento, obtenemos que, si k
se elige de modo que f

(k
)
j,j
> 0,
entonces lim
m
P
(n
+
m
kk
)
j,j
=
+
j
, y, m as a un, que si f
(k
h
)
j,j
> 0 (h = 1, 2, . . . , H),
entonces lim
m
P
(n
+
m
H
h=1
k
h
)
j,j
=
+
j
.
Interrumpimos ahora la demostraci on para establecer el siguiente lema:
Lema 10.2.3 Si K es un conjunto de n umeros naturales con m aximo com un divisor
igual a 1, entonces existe M tal que todo n M puede escribirse como suma de
elementos de K.
Demostraci on. El algoritmo de Euclides para obtener el m aximo com un divisor de
dos n umeros naturales m y n esta basado en que, si m > n y r es el resto de la divisi on
entera de m entre n, entonces, (a) o bien r es cero, y n es el maximo com un divisor, o
(b) r > 0 y los divisores comunes de m y n son tambien los de n y r. Se concluye que
para obtener el m aximo com un divisor de m y n se puede proceder a buscar el de n
y r, y esta observacion permite trabajar con un conjunto de n umeros estrictamente
menores (n < m y r < n). Iterando el procedimiento, termina por darse el caso (a),
con lo que naliza el c alculo.
150
Enrique M. Caba na.
La ecuacion que vincula m, n y r es m = qn+r, es decir, r = mqn puede escribirse
como combinaci on lineal de m y n con coecientes enteros. Lo mismo ocurre con
los sucesivos restos, de modo que, en particular, el maximo com un divisor d puede
escribirse en la forma d = am + bn con a, b enteros.
Consideremos ahora un conjunto K de n umeros naturales con maximo com un divisor
1. Entonces, o bien 1 K, y en ese caso cualquier n umero natural es suma de
elementos de K, basta sumar veces 1, o bien podemos elegir k
0
> k
1
, k
0
, k
1
K de
modo que k
0
no sea m ultiplo de k
1
. Se obtiene el maximo com un divisor d
1
, que es
combinaci on lineal con coecientes enteros de k
0
y k
1
. Si d
1
= 1 se da por terminada
esta etapa del procedimiento. Si no, se busca k
2
en K que no sea m ultiplo de d
1
(tiene
que existir, porque si no existiera, d
1
- y no 1 - sera el maximo com un divisor de
los elementos de K). Se obtiene ahora el m aximo com un divisor d
2
de d
1
y k
2
, que
es combinaci on lineal con coecientes enteros de d
1
y k
2
, y por lo tanto de k
0
, k
1
, k
2
.
Nuevamente, si d
2
= 1 se da por terminada esta etapa, y si no se busca k
3
que no
sea m ultiplo de d
2
y se contin ua hasta obtener un m aximo com un divisor d
h
= 1,
combinaci on lineal con coecientes enteros de k
0
, k
1
, . . . , k
h
.
Si m es el mnimo elemento en K, 1 =
h
i=0
a
i
k
i
es la combinaci on lineal con co-
ecientes enteros obtenida anteriormente, y s = max{|a
i
| : a
i
< 0, i = 0, 1, . . . , h},
entonces todo n M = (m 1)s
h
i=0
k
i
puede escribirse como combinaci on lineal
de coecientes naturales de m, k
0
, k
1
, . . ., k
h
. En efecto, dado n M, se escribe
n = M +qm +r con r m 1 y se reemplaza r por
h
i=0
ra
i
k
i
, de manera que n
=
h
i=0
((m1)s +ra
i
)k
i
+qm. Por la forma de elegir s, cada uno de los coecientes
(m1)s + ra
i
es no negativo. 2
Continuamos la demostraci on del Teorema 10.2.1 observando que, luego del lema
precedente, el resultado que hemos llegado a establecer se puede expresar de la sigu-
iente manera:
Toda vez que (n
+
m
) sea una sucesi on parcial para la que lim
m
P
(n
+
m
k)
j,j
=
+
j
, se
cumple tambien lim
m
P
(n
+
m
k)
j,j
=
+
j
para k M, donde M es el n umero al que
hace referencia el Lema 10.2.3 relativo al conjunto K = {k : f
(k)
j,j
> 0}.
En lo que sigue, utilizaremos la propiedad
lim
m
P
n
+
m
M
j,j
=
+
j
, para todo 0.
Introducimos ahora la esperanza del tiempo de retorno a j, a saber,
j
=
n=1
nf
(n)
j,j
=
n=1
n
m=1
f
(n)
j,j
=
m=1
n=m
f
(n)
j,j
=
m=1
S
(m)
j
,
con S
(m)
j
=
n=m
f
(n)
j,j
. La ecuacion (10.1) con i = j se escribe en la forma
P
(n)
j,j
=
n
=1
(S
()
j
S
(+1)
j
)P
(n)
j,j
,
que equivale a
n
=0
S
(+1)
j
P
(n)
j,j
=
n
=1
S
()
j
P
(n)
j,j
,
debido a que S
(1)
j
= 1. Cambiando en + 1 en la segunda suma, obtenemos
n
=0
S
(+1)
j
P
(n)
j,j
=
n1
=0
S
(+1)
j
P
(n1)
j,j
,
y como esta igualdad vale para cada n 1, se deduce, aplic andola iteradamente, que
n
=0
S
(+1)
j
P
(n)
j,j
= S
(1)
j
P
(0)
j,j
= 1.
Con n
+
m
M en lugar de n, tenemos
n
+
m
M
=0
S
(+1)
j
P
(n
+
m
M)
j,j
= 1,
y con un n jo menor o igual que n
+
m
M,
n
=0
S
(+1)
j
P
(n
+
m
M)
j,j
1.
Pasando al lmite cuando m resulta
n
=0
S
(+1)
j

+
j
1,
y pasando ahora al lmite cuando n , deducimos
=0
S
(+1)
j

+
j
=
j
+
j
1, de
manera que
+
j
1/
j
.
En el caso = , se concluye
+
j
= 0, y esto termina la demostracion.
Cuando < , un argumento similar al anterior servir a para mostrar que
j
1/
j
.
Nuevamente partimos de (10.1), esta vez para acotar
+ P
(n
m
)
j,j
f
(k)
j,j
P
(n
m
k)
j,j
+ (1 f
(k)
j,j
)(
j
),
y deducir
j
+
2
f
(k)
j,j
P
(n
m
k)
j,j
,
para m sucientemente grande, y f
(k)
j,j
> 0.
Se concluye que lim
m
P
(n
m
)
j,j
=
j
implica lim
m
P
(n
m
k)
j,j
=
j
para todo k en
K = {k : f
(k)
j,j
> 0}, y entonces existe M tal que
lim
m
P
(n
m
M)
j,j
=
j
152
Enrique M. Caba na.
se cumple para todo 0.
Escribimos la igualdad
n
m
M
=0
S
(+1)
j
P
(n
m
M)
j,j
= 1
en la forma
n
=0
S
(+1)
j
P
(n
m
M)
j,j
+
n
m
M
=n+1
S
(+1)
j
P
(n
m
M)
j,j
= 1
para acotar
n
=0
S
(+1)
j
P
(n
m
M)
j,j
1
=n+1
S
(+1)
j
.
Pasamos al lmite cuando m tiende a innito, y luego cuando n tiende a innito.
Resulta
j
j
1, ya que la serie
S
(+1)
j
converge por la hip otesis < . El
resultado implica
j
1/
j
, y esto termina de demostrar que el lmite de las proba-
bilidades P
(n)
j,j
es 1/
j
.
Para cualesquiera i, j, volvemos a utilizar 10.1 para obtener
|P
(n)
i,j

n
m=1
f
(m)
i,j
P
(nm)
j,j
| <
y pasamos al lmite cuando n tiende a innito. Resulta
n
m=1
f
(m)
i,j
(1/
j
) liminf
n
P
(n)
i,j
limsup
n
P
(n)
i,j
leq
n
m=1
f
(m)
i,j
(1/
j
) +
y como a su vez 1
n
m=1
f
(m)
i,j
1, se concluye
(1 )(1/
j
) liminf
n
P
(n)
i,j
limsup
n
P
(n)
i,j
leq(1/
j
) + .
Haciendo tender a 0 se obtiene la conclusion requerida, a saber, que lim
n
P
(n)
i,j
=
1/
j
.
S olo resta mostrar que el vector
()
= (1/
1
, 1/
2
, . . .) es un vector propio a la
izquierda de la matriz de probabilidades de transici on. Para hacerlo, si E es el conjunto
de estados y H es un subconjunto nito de E, acotamos P
(n)
i,j
=
hE
P
(n1)
i,h
P
h,j
hH
P
(n1)
i,h
P
h,j
y pasamos al lmite cuando n tiende a innito:
(1/
j
)
hH
(1/
h
)P
h,j
.
Dado que la desigualdad precedente vale para todo H nito, tambien se cumple
(1/
j
)
hE
(1/
h
)P
h,j
.
10.4. Un ejemplo. 153
Por reducci on al absurdo, si para alg un j se cumpliera la desigualdad estricta (1/
j
) >
hE
(1/
h
)P
h,j
, sumando en j obtendramos
jE
(1/
j
) >
jE
hE
(1/
h
)P
h,j
=
hE
(1/
h
)
jE
P
h,j
=
hE
(1/
h
),
y esta contradicci on muestra que debe cumplirse
(1/
j
) =
hE
(1/
h
)P
h,j
para todo j. 2
10.3 Ejercicios.
Ejercicio 10.3.1 Vericar que la relaci on de la Denici on 10.2.1 es una equiva-
lencia. En otras palabras, si abreviamos i j cuando i ; j y j ; i, mostrar (a)
que i i, (b) que i j y j i expresan lo mismo, y (c) que i j, j k implican
i k.
Ejercicio 10.3.2 Vericar que, si C, C
son dos clases de equivalencia, i C,

i
C y ademas i ;i
, entonces cualquier estado de C precede a cualquier estado

de C
. En ese caso, diremos que la clase C precede a C
y lo denotaremos C ;C
.
Observemos que C ;C
y C
;C implican C = C
.
Ejercicio 10.3.3 Indicar cu ales son las clases de equivalencia y cuales sus rela-
ciones de precedencia en los ejemplos del comienzo de 5.
Ejercicio 10.3.4 Otra demostraci on del Teorema 5.4.1, por reducci on del caso
nito al caso general: Mostrar que las hip otesis del Teorema 5.4.1 implican las del
Teorema 10.2.1.
Ejercicio 10.3.5 Mostrar que cuando una cadena tiene una unica clase de estados
recurrentes, entonces T
i
= min{n : n 1, X
n
= i} es c.s. nito.
Sugerencia: Observar que basta vericar que F
j,i
= 1 para cada j.
154
Enrique M. Caba na.
10.4 Un ejemplo: Obtenci on de las probabili-
dades de absorci on, y de las esperanzas
de los tiempos de absorci on a partir del
Teorema de convergencia de probabilida-
des.
Vamos a describir una aplicaci on del Teorema 10.2.1 al estudio de una cadena
con estados transitorios y absorbentes. Lo haremos para el Ejemplo 1 de 5.1.
Modiquemos la cadena reemplazando las absorciones en los estados G y
N por transiciones con probabilidad 1 hacia el estado I. Esto signica que
cada vez que el juego termina, inmediatamente recomienza. La nueva cadena
tiene una unica clase de estados recurrentes aperi odicos, y la nueva matriz de
probabilidades de transici on es
P =
0 5/6 1/6 0
0 4/6 1/6 1/6
1 0 0 0
1 0 0 0
De acuerdo al Teorema 10.2.1, las probabilidades tienen lmite

()
que
son soluci on del sistema de ecuaciones
()
=
()
P,
()
1 = 1.
Las primeras cuatro ecuaciones del sistema, escritas con notaci on escalar
son:
()
I
=
()
G
+
()
N
()
R
=
5
6
()
I
+
4
6
()
R
()
G
=
1
6
()
I
+
1
6
()
R
()
N
=
1
6
()
R
o bien
()
N
=
1
6
()
R
,
()
I
=
2
5
()
R
,
()
G
= (
2
5

1
6
)
()
R
=
7
30
()
R
,
10.5. Tiempos esperados de absorci on. 155
y a ellas se agrega
(
2
5
+ 1 +
7
30
+
1
6
)
()
R
= 1
de donde
()
= (12/54, 30/54, 7/54, 5/54).
Cuando el juego se repite indenidamente, las probabilidades de ganar y de
perder son proporcionales a las probabilidades de estar en G y en N, es decir,
a 7 y a 5, de modo que valen respectivamente 7/12 y 5/12. El tiempo esperado
de retorno a I es 54/12, que es igual a una unidad m as el tiempo esperado de
absorci on, a saber
54
12
= 1 +
7
12
G
+
5
12
N
,
donde
G
es la esperanza del tiempo de absorci on cuando se gana el juego, y
N
es la esperanza del tiempo de absorci on cuando se pierde.
Esta ecuaci on no basta para obtener las dos inc ognitas. Agreguemos la
observaci on de que la probabilidad de ganar por el tiempo esperado de ganar
es la suma de la probabilidad de ganar en un solo paso multiplicada por 1
m as la probabilidad de ganar pasando por R ((5/6) (1/2)) por el tiempo
esperado de ganar pasando por R, que es igual al tiempo esperado de perder,
por la simetra una vez que se llega a R. Esto es:
7
12
G
=
1
6
+
5
12
N
.
Las dos ecuaciones nos dan
G
= 22/7, y
N
= 4.
10.5 Uso de los metodos matriciales de 5.3
para el calculo de los tiempos esperados
de absorci on.
Vamos a retomar el estudio de las probabilidades asociadas a una cadena con
matriz de probabilidades de transici on de la forma P =
Q R
0 I
, cuyas
potencias
P
n
=
Q
n
(I + Q + Q
2
+ . . . + Q
n1
)R
0 I
,
hemos calculado en 5.3.1.
Para cada estado absorbente j, la probabilidad f
(n)
i,j
de llegar por primera
vez en n pasos partiendo de un estado no absorbente i es p
(n)
i,j
p
(n1)
i,j
, de
156
Enrique M. Caba na.
manera que la matriz que indica esas probabilidades es
(I + Q + Q
2
+ . . . + Q
n1
)R (I + Q + Q
2
+ . . . + Q
n2
)R = Q
n1
R.
Cada la de esta matriz corresponde a un estado no absorbente de partida, y
cada columna a un estado absorbente de llegada.
Los tiempos esperados de llegada
i,j
= E(min{n : X
n
= j}|X
0
= i, X
=
j) =

n=1
nf
(n)
i,j
/
()
j
multiplicados por la correspondiente probabilidad de
absorci on
()
j
son las componentes de la matriz

n=1
nQ
n1
R.
Para obtener la suma de esta serie cuyos sumandos son matrices, vamos a
proceder por analoga con el c alculo de la serie numerica

n=1
nx
n1
, que vale
(1 x)
2
, como es inmediato vericar, para |x| < 1.
Esto sugiere que

n=1
nQ
n1
= (I Q)
2
. Para vericarlo, calculamos
(I Q)
2
n=1
nQ
n1
= (I Q)
n=1
n(Q
n1
Q
n
)
= (I Q)[
n=1
nQ
n1
n=2
(n 1)Q
n1
] = (I Q)(I +
n=2
Q
n1
),
y ya hemos vericado en 5.3.1 que este producto es la identidad, cuando
Q
n
0 y existe (I Q)
1
.
En conclusi on, los tiempos esperados de absorci on son las componentes
de T = (I Q)
2
R divididas por las probabilidades de absorci on. En nuestro
ejemplo, Q =
0 5/6
0 2/3
, R =
1/6 0
1/6 1/6
, IQ =
1 5/6
0 1/3
, (IQ)
1
=
1 5/2
0 3
, de modo que T =
1 5/2
0 3
1/6 0
1/6 1/6
22/12 20/12
3/2 3/2
.
De
()
G
= 7/12 resulta
G
= 22/7, y de
()
N
= 5/12 resulta
N
= 4. Con-
rmamos as los resultados de los c alculos realizados a partir de la aplicaci on
del Teorema de Convergencia de Probabilidades.
11. Convergencia de variables
aleatorias. Leyes de Grandes
N umeros.
11.1 Desigualdades de Markov y de Cheby-
shev.
Teorema 11.1.1 (Desigualdad de Markov). Si X es una variable aleatoria,
g es una funci on creciente, no negativa, y g(a) > 0, entonces
PX a
E(g(X))
g(a)
.
Demostraci on. Eg(X) Eg(X)1
{Xa}
Eg(a)1
{Xa}
= g(a)PX a.
2
Corolario 11.1.1.1 (Desigualdad de Chebyshev). Si la variable Y tiene va-
riancia nita, para cualquier a > 0 se cumple
P[Y E(Y )[ a
Var(Y )
a
2
.
Demostraci on. Basta elegir X = [Y E(Y )[
2
, g(x) = x
+
= maxx, 0 y
aplicar el Teorema 11.1.1. 2
Nota: Se observar a que cuando es positivo, y se eligen X = [Y E(Y )[
y
g(x) = x
+
, el Teorema 11.1.1 conduce a la desigualdad siguiente, que generaliza
el resultado del Corolario 11.1.1.1:
P[Y E(Y )[ a
E([Y E(Y )[
)
a
.
157
158
Enrique M. Caba na.
Captulo 11: Convergencia de variables aleatorias. LGN.
11.2 Distancias entre variables aleatorias ba-
sadas en momentos.
11.2.1 Distancia cuadratica.
Ya hemos se nalado que la variancia de una variable aleatoria da una medida
de su apartamiento de la esperanza, o bien de su dispersi on. En particular,
cuando una variable aleatoria tiene variancia nula, eso signica que coincide
casi seguramente con la esperanza:
Lema 11.2.1 Si VarX = 0, entonces PX = EX = 1.
Demostraci on. Por la Desigualdad de Chebyshev (Corolario 11.1.1.1), pode-
mos escribir P[X EX[ VarX/
2
= 0, y entonces PX = EX
= P
n
[X EX[ 1/n = lim
n
P[X EX[ 1/n = 0.
Corolario 11.2.1.1 Cuando EX
2
= 0, entonces PX = 0 = 1.
Demostraci on: Basta aplicar la relaci on EX
2
= VarX +(EX)
2
.
Notaci on Cuando un suceso tiene probabilidad uno, diremos que se cumple
casi seguramente.
El corolario precedente muestra que cuando E(X Y )
2
= 0, entonces
PX = Y = 1, o, en otras palabras, X e Y coinciden casi seguramente.
Vamos a mostrar que el momento de segundo orden E(X Y )
2
permite
denir una distancia, no exactamente entre variables aleatorias, pero entre
las clases de equivalencia que resultan de identicar variables aleatorias casi
seguramente iguales entre s.
Lema 11.2.2 La relaci on X

= Y si y s olo si PX = Y = 1 es una relaci on
de equivalencia entre variables aleatorias.
Notaci on: Llamaremos L
2
(, P) al conjunto formado por las clases de
equivalencia de variables aleatorias X, con la propiedad EX
2
< . A la clase
de equivalencia de una variable aleatoria X la llamaremos tambien X, cuando
no haya riesgo de confusi on.
Teorema 11.2.1 (i) La funcion | |
2
:L
2
(, P) R
+
denida por |X|
2
= EX
2
es una norma.
(ii) La funcion d
2
(X, Y ) = |X Y |
2
es una distancia en L
2
(, P).
(iii) La funcion 'X, Y `
2
= EXY es un producto interno en L
2
(, P).
11.2. Distancias entre variables aleatorias. 159
El enunciado del Teorema 11.2.1 contiene casos particulares de dos propiedades
generales. Una de ellas establece que cuando (x, y) 'x, y` es un producto interno,
entonces x
'x, x` es una norma. La otra, que cuando es una norma, d(x, y) =

(y x) es una distancia.
Las deniciones pertinentes son las siguientes:
Denicion 11.2.1 (Producto interno). La aplicaci on (x, y) 'x, y`, x, y E (E
espacio vectorial real) es un producto interno, cuando cumple:
', y` y 'x, ` son funciones lineales, para cada y y para cada x respectivamente,
'x, y` = 'y, x`,
'x, x` es no negativo para cada x, y es cero si y s olo si x = 0.
Denicion 11.2.2 (Norma). La aplicaci on x (x), x E (E espacio vectorial)
es una norma cuando cumple:
(x) 0 para todo x, y (x) = 0 si y s olo si x = 0.
(x) = [[(x) para cualesquiera x E y R.
(x + y) (x) + (y) para cualesquiera x, y E.
Denicion 11.2.3 (Distancia) La funci on d(x, y), x, y E (E conjunto cualquiera)
es una distancia, cuando
d(x, y) 0 para cualesquiera x, y, y d(x, y) = 0 si y s olo si x = y,
d(x, y) = d(y, x) para cualesquiera x, y,
d(x, y) d(x, z) + d(z, y) para cualesquiera x, y, z.
Ejercicio 11.2.1 Dado el producto interno ', `, mostrar que la funci on (x) =
'x, x` es una norma. (Se dice que esta norma esta inducida por el producto
interno.)
Sugerencia: Para demostrar la llamada desigualdad triangular de las normas
((x+y) (x)+(y)), conviene utilizar la llamada Desigualdad de Cauchy-
Schwarz, que expresa
'x, y` (x)(y).
La Desigualdad de Cauchy-Schwarz resulta como consecuencia de desarrollar
el miembro de la derecha de
0
2
((y)x (x)y) = '(y)x (x)y, (y)x (x)y`.
160
Enrique M. Caba na.
Ejercicio 11.2.2 Mostrar que si es una norma inducida por un producto
interno ', `, entonces este se puede obtener a partir de la norma mediante
'x, y` =
1
4
(
2
(x + y)
2
(x y))
Ejercicio 11.2.3 Dada la norma , mostrar que d(x, y) = (y x) es una
distancia. (Se dice que d es la distancia inducida por la norma .)
Demostraci on del Teorema 11.2.1. En virtud de los resultados de los ejer-
cicios precedentes, basta mostrar que (X, Y ) EXY es un producto interno.
La linealidad de EXY separadamente en X y en Y es inmediata. La desigual-
dad EX
2
0 es tambien inmediata, y la condici on EX
2
= 0 implica que X es
la clase de equivalencia que contiene e la constante 0, como consecuencia del
Corolario 11.2.1.1. 2
11.3 Convergencias cuadratica y en probabili-
dad.
11.3.1 Convergencia cuadratica.
Denici on 11.3.1 Dadas una sucesion de variables aleatorias (X
n
)
n=1,2,...
y
una variable Y , decimos que (X
n
) converge cuadr aticamente a Y , cuando
lim
n
E((X
n
Y )
2
) = 0.
De manera equivalente, si

X
n
es la clase de equivalencia de X
n
y

Y la de
Y , entonces X
n
converge cuadr aticamente a Y si y s olo si

X
n
converge a

Y en
L
2
(, P), es decir, |

X
n

Y |
2
0.
11.3.2 Convergencia en probabilidad.
Denici on 11.3.2 Dadas una sucesion de variables aleatorias (X
n
)
n=1,2,...
y
una variable Y , decimos que (X
n
) converge en probabilidad a Y , y lo escribi-
mos en la forma plim
n
X
n
= Y , o tambien X
n
P
Y , cuando, para todo
positivo,
lim
n
P[X
n
Y [ > = 0.
Ejemplo 11.3.1 Si las variables U
1
, U
2
, . . . son independientes, con distribu-
ci on uniforme en [0, ], entonces X
n
= minU
1
, U
2
, . . . , U
n
converge en pro-
babilidad a 0, e Y
n
= maxU
1
, U
2
, . . . , U
n
converge en probabilidad a .
11.3. Convergencias cuadr atica y en probabilidad. 161
Dado positivo, calculamos P[X
n
[ > = P(
n
i=1
U
i
> = (1 /)
n
0. (Se ha supuesto < ; si no fuese as, la probabilidad que hemos
calculado sera cero, y el resultado no cambia).
An alogamente, P[Y
n
[ > = PY
n
< = P(
n
i=1
U
i
< 1/
= (1 /)
n
0. 2
La situaci on del ejemplo anterior nos sugiere una aplicaci on importante de la
convergencia en probabilidad. Supongamos que el extremo del intervalo en que
se distribuye la probabilidad de las variables U
n
es desconocido, y que queremos
conocerlo, al menos con un error relativo, digamos, del 1%.
La informaci on sobre la naturaleza que podemos disponer es la que resulta de la
observacion de las variables U
1
, U
2
, . . ., U
n
. La cantidad n de variables a observar,la
podemos elegir convenientemente. No tan grande que implique un gasto excesivo,
dado que resulta natural suponer que cada observaci on tiene un costo, pero tampoco
tan peque no que el conjunto de las observaciones nos de una informaci on insuciente.
En virtud del resultado del ejemplo, proponemos tomar Y
n
como valor aproxi-
mado de . Al hacerlo as, estaremos cometiendo un error relativo e = ( Y
n
)/.
Es posible que este error relativo no cumpla la especicaci on e < 1%, pero la pro-
babilidad de fallar Pe > 1% = PY
n
> .01 tiende a cero cuando n tiende a
innito, por la convergencia en probabilidad de Y
n
a . Si elegimos n sucientemente
grande, estaremos cumpliendo la especicacion con una probabilidad pr oxima a 1.
En nuestro caso particular, para obtener una probabilidad del 95% de cumplir
con la especicacion, basta tomar n tal que P Y
n
> .01 = (1 .01)
n
.05,
y esto ocurre para n > log .05/ log .99 = 298.07 . . .
Ejemplo 11.3.2 Si las variables X
1
, X
2
, . . . no est an correlacionadas y tienen
todas igual esperanza e igual variancia
2
, entonces el promedio

X
n
=
1
n
n
i=1
X
i
converge en probabilidad al valor com un de las esperanzas.
La variancia de la suma de variables no correlacionadas es la suma de sus
variancias (ver Ejercicio 8.3.3), de modo que Var

X
n
=
2
/n. Por otra parte,
la esperanza de

X
n
es . Por lo tanto,
E((

X
n
)
2
) = Var

X
n
0,
y esto establece la convergencia indicada. 2
162
Enrique M. Caba na.
11.3.3 Criterio de convergencia en probabilidad basado
en la convergencia cuadratica.
Teorema 11.3.1 Si (X
n
) converge cuadr aticamente a Y , entonces X
n
P
Y .
Demostraci on. Por la desigualdad de Chebyshev, (Corolario 11.1.1.1)
P[X
n
Y [ >
Var(X
n
Y )
2

E(X
n
Y )
2
2
0.
2
Teorema 11.3.2 (Criterio de convergencia cuadr atica a una constante). Si
lim
n
E(X
n
) = c, y lim
n
Var(X
n
) = 0, entonces (X
n
) converge cuadr ati-
camente a c.
Demostraci on. E(X
n
c)
2
= Var(X
n
) + (E(X
n
) c)
2
. Ambos sumandos
tienen lmite cero, por las hip otesis. 2
Nota: Un ejemplo trivial permite observar que el recproco del Teorema
11.3.1 no es cierto. Si X
n
n Ber(1/n), para cualquier positivo y n > ,
P[X
n
[ > = 1/n 0, mientras que E(X
n
)
2
= n no tiende a cero. Esto
signica que X
n
converge en probabilidad a cero, pero no cuadr aticamente.
11.4 Convergencia casi segura.
Denici on 11.4.1 (Convergencia casi segura)
Dadas la sucesion de variables aleatorias (X
n
)
n=1,2,...
y la variable Y , dec-
imos que X
n
converge casi seguramente a Y , y lo denotamos X
n
Y c.s.,
cuando
PX
n
Y = 1.
En palabras, la sucesi on de funciones X
n
con dominio converge puntual-
mente a la funci on Y , excepto quiz a en un suceso de probabilidad 0.
Una peque na modicaci on del ejemplo de la seccion precedente muestra
que la convergencia casi segura no implica la convergencia cuadr atica. En
efecto, basta denir U Uni(0, 1) y X
n
= n1
{U<1/n}
. De esta manera,
X
n
0 = U > 0 tiene probabilidad 1, pero las variables X
n
tienen
la misma distribuci on que en el ejemplo anterior, y por lo tanto no convergen
cuadr aticamente.
11.4. Convergencia casi segura. 163
Por otra parte, la sucesi on Y
2
n
+j1
= 1
{(j1)2
n
<Uj2
n
}
, j = 1, 2, . . . , 2
n
,
n = 0, 1, . . . denida a partir de la misma U Uni(0, 1) no converge con
probabilidad uno (s olo converge si U = 0) pero converge cuadr aticamente a
cero, ya que EY
2
2
n
+j1
= 2
n
0.
El enunciado siguiente describe el vnculo entre la convergencia casi segura
y la convergencia en probabilidad.
Teorema 11.4.1 (i) Si X
n
Y c.s., entonces X
n
P
Y .
(ii) Si X
n
P
Y , entonces existe una sucesi on parcial X
n
i
de X
n
que tiende
a Y c.s.
Demostraci on. Consideremos el conjunto de no-convergencia ^ = X
n

Y . Dado que X
n
Y cuando para cualquier > 0 existe m N tal que
para todo n m se cumple [X
n
Y [ < , podemos escribir
^
c
=
>0
mN
nm
[X
n
Y [
o bien
^
c
=
kN
mN
nm
[X
n
Y [ 1/k
de modo que
^ =
kN
mN
nm
[X
n
Y [ > 1/k.
De aqu resulta que X
n
Y c.s. equivale a P(^) = 0, y esto se cumple si
y solo si
P
mN
nm
[X
n
Y [ > 1/k
= 0
para todo k.
Dado que la sucesi on

nm
[X
n
Y [ > 1/k es mon otona, la condici on de
convergencia casi segura puede expresarse en la forma
lim
m
P
nm
[X
n
Y [ > 1/k = 0 para todo k. (11.1)
Para obtener (i), tenemos que mostrar que la convergencia casi segura
implica que para cualquier positivo, lim
m
P[X
m
Y [ > = 0. Dado ,
elegimos k > 1/ de donde
[X
m
Y [ > [X
m
Y [ > 1/k
nm
[X
n
Y [ > 1/k
164
Enrique M. Caba na.
y aplicamos (11.1) para obtener
lim
m
P[X
m
Y [ > lim
m
P
nm
[X
n
Y [ > 1/k = 0.
Para establecer (ii) suponemos que X
n
converge en probabilidad a Y . Por
lo tanto, para cada i N, P[X
n
Y [ > 2
i
tiende a cero. Llamamos n
1
al
primer entero positivo para el cual
P[X
n
Y [ > 2
1
< 2
1
,
e, inductivamente, n
i
al primer entero mayor que n
i1
tal que
P[X
n
i
Y [ > 2
i
< 2
i
.
Se deduce que la sucesion Z
i
= X
n
i
Y cumple
P[Z
i
[ > 2
i
< 2
i
. (11.2)
Completaremos la demostraci on vericando que (11.2) implica que Z
i
0
c.s.
En efecto, para m tal que 2
m
k,
P
nm
[Z
n
[ > 1/k P
nm
[Z
n
[ > 2
n

nm
P[Z
n
[ > 2
n
nm
2
n
= 2
m+1
0,
y esto implica la convergencia casi segura a cero de Z
n
de acuerdo a (11.1). 2
11.5 Completitud de L
2
(, P).
Una sucesion fundamental o de Cauchy en un espacio c dotado de una metrica
o distancia d es una sucesion Z
n
de elementos de c con la propiedad
lim
n
sup
mn
d(Z
m
, Z
n
) = 0.
Se verica sin dicultad que una formulaci on equivalente es la siguiente:
Dado , existe N tal que si m, n N, entonces d(Z
m
, Z
n
) < .
Denici on 11.5.1 (Espacio completo.) Se dice que el espacio c con la dis-
tancia d es completo, cuando toda sucesi on fundamental tiene lmite.
11.6. Completitud de L
2
(, P). 165
Teorema 11.5.1 El espacio L
2
(, P) es completo.
Demostraci on. Se requiere vericar que, dada la sucesi on fundamental de
clases de equivalencia X
n
, existe una clase X tal que E(X
n
X)
2
0. Como
ya hemos indicado, usaremos indistintamente la notaci on X
n
para la clase o
para una variable aleatoria que la representa.
Por hip otesis, dado > 0, existe N tal que para todo m, n N, se cumple
E(X
m
X
n
)
2
< . Vamos a elegir la sucesi on no decreciente n
i
de modo que,
para cada i, y para m, n n
i
, se cumpla E(X
m
X
n
)
2
< 1/8
i
. En particular,
para cada i, E(X
n
i
X
n
i+1
)
2
< 1/8
i
.
Por la Desigualdad de Markov, P[X
n
i
X
n
i+1
[ > 1/2
i
2
2i
/2
3i
= 1/2
i
.
Como consecuencia,
P
ji
[X
n
j
X
n
j+1
[ > 1/2
j

ji
1
2
j
=
1
2
i1
.
El suceso [X
n
i
X
n
k
[ >
1
2
i1
para alg un k i est a contenido en la uni on
que aparece en el termino de la izquierda de la desigualdad precedente. Por
consiguiente,
P
ki
[X
n
i
X
n
k
[ >
1
2
i1

1
2
i1
.
Dado > 0, tomemos i N tal que
1
2
N1
<
1
2
. Para esos valores de i, se
cumple P
ki
[X
n
i
X
n
k
[ >
1
2

1
2
i1
y, como consecuencia,
P
k,li
[X
n
k
X
n
l
[ >
1
2
i1
.
Se deduce entonces que P
iN
k,li
[X
n
k
X
n
l
[ > = 0, de modo
que el complemento

iN
k,li
[X
n
k
X
n
l
[ tiene probabilidad 1, y esto
signica que, dado , casi seguramente existe i tal que para cualesquiera k, l
mayores o iguales que i, se cumple [X
n
k
X
n
l
[ . Esto es lo mismo que decir
que la sucesion X
n
i
es casi seguramente de Cauchy, y por lo tanto existe casi
seguramente su lmite que llamaremos X.
Veriquemos nalmente que X es el lmite cuadr atico de X
m
. Dado
elegimos N
tal que para m, n N
, se cumpla E(X
m
X
n
)
2
< . Calculamos
|X
m
X|
2
= E(X
m
X)
2
= E(X
m
lim
i
X
n
i
)
2
= Elim
i
(X
m
X
n
i
)
2
.
Por el Lema de Fatou (Lema 6.5.3), esta expresi on est a acotada superiormente
por liminf
i
E(X
m
X
n
i
)
2
para m N
. 2
166
Enrique M. Caba na.
11.6 Ejercicios.
Ejercicio 11.6.1 Probar que, si B
n
tiene distribuci on Binomial (n, p), entonces
Bn
n
converge en probabilidad a p.
Ejercicio 11.6.2 Vericar que para el c alculo de lmites en probabilidad valen las
mismas reglas que para el calculo de lmites ordinarios:
plimX = , plimY = plimX + Y = + ;
g continua en a, plimX = a plimg(X) = g(a);
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ejercicio 11.6.3 Para estimar la intensidad con que se producen accidentes en
una carretera, de acuerdo al modelo:
Pn accidentes en un intervalo de longitud t =
(t)
n
e
t
n!
,
se cuenta el n umero de de accidentes N(t) en un perodo de longitud t y se calcula
=
N(t)
t
.
(a) Calcular E
, Var

.
(b) Deducir que

converge en probabilidad a cuando t .
1
, U
2
, . . . son variables independientes con distribuci on uni-
forme en [0, 1], y M
n
= minU
1
, U
2
, . . . , U
n
, probar
(a) que M
n
converge en probabilidad a cero.
(b) que PM
n
0 = 1.
(c) Converge la sucesion PM
n
tE(M
n
)? En caso armativo, a que
lmite?
11.7 Una aplicaci on a la estadstica. Coheren-
cia de una sucesi on de estimadores.
A menudo se utilizan procedimientos de estimaci on que conducen a familias
de estimadores (T
n
)
nN
, uno para cada tama no de muestra. Cuando cada
muestra consta de variables con valores en 1, el espacio de muestras para
muestras de tama no n es c
n
= 1
n
, y como consecuencia, el estimador T
n
:
c
n
tiene por dominio ese espacio de muestras.
11.7. Aplicaci on estadstica: Coherencia. 167
Para una sucesi on de estimadores que aprovechen adecuadamente la infor-
maci on cada vez mayor que proporcionan las muestras cada vez m as grandes,
es de esperar que ese aprovechamiento pueda describirse mediante alguna
propiedad asint otica cuando n .
La coherencia de una sucesion de estimadores (consistency en ingles, tam-
bien traducido al castellano por consistencia) es precisamente una propiedad
que refleja un comportamiento asint otico deseable:
Denici on 11.7.1 La sucesi on (T
n
: c
n
)
nN
de estimadores de
es
coherente (o consistente) cuando
plimT
n
(X
1
, . . . , X
n
) =
.
Ejemplo 11.7.1 Si U
1
, . . . , U
n
son i.i.d. Unif(0, ), la sucesi on de estimadores
de m axima verosimilitud de T
n
= maxU
1
. . . , U
n
es coherente.
En efecto, P T
n
> = P(
n
i=1
U
i
< ) =
n
0 (n )
para cualquier > 0. (La escritura anterior es correcta s olo para (0, ]. Si
> , hay que cambiar por la parte positiva ( )
+
= max , 0.)
2
Ejemplo 11.7.2 Si X
1
, . . . , X
n
, . . . son i.i.d. Exp(), la sucesi on de estima-
dores de m axima verosimilitud

n
=
n
X
1
+...+Xn
de es coherente.
En vez de mostrar que plim
n
= , basta vericar que plim

X
n
=
1
, con
X
n
=
1
n
n
i=1
X
i
= (
n
)
1
, como aplicaci on del Ejercicio 11.6.2.
De E

X
n
=
1
, Var

X
n
= n
1
2
y de los criterios de los Teoremas 11.3.1
y 11.3.2 resulta la conclusi on del enunciado. 2
Ejemplo 11.7.3 Es inmediato vericar, a partir del Teorema 11.3.1, que una
sucesi on de estimadores cuyo error cuadr atico medio tienda a cero, es coher-
ente. En el caso de los estimadores insesgados, esto mismo se expresa diciendo
que una sucesi on de estimadores insesgados cuya variancia tiende a cero, es
coherente.
11.7.1 Estimaci on coherente de las cuantilas de F a par-
tir de una muestra aleatoria simple.
Para cada p (0, 1), llamamos p-cuantila de una distribuci on de probabilidad
en R con funci on de distribuci on F a cualquier x
p
tal que F(x
p
) p F(x
p
).
168
Enrique M. Caba na.
Obviamente, si F tiene en una cuantila x
p
un punto de crecimiento, en-
tonces x
p
es la unica p-cuantila. Recprocamente, si x
p
< x
p
son dos p-
cuantilas, entonces F es constante (igual a p) en [x
p
, x
p
). M as precisamente,
las p-cuantilas son los puntos del intervalo [supx : F(x) p, F
1
(u) =
infx : F(x) p], con la denici on de la inversa generalizada introducida en
el Teorema 3.5.1.
Dada una sucesi on U
1
, . . ., U
n
, . . . i.i.d. Unif(0, 1), la sucesi on (X
i
=
F
1
(U
i
))
iN
es i.i.d. F, de acuerdo al Teorema 3.5.1. Por la monotona de
F
1
, el estadstico de orden h de la muestra uniforme de tama no n formada
por las primeras n variables, que denotaremos U
(n)
(h)
es llevado por F
1
en el
correspondiente estadstico de orden h de (X
1
, . . . , X
n
).
El calculo de las esperanzas y variancias de U
(n)
[np]
, donde [] designa a la
parte entera (ver los Ejercicios 8.11.1 y 8.11.3) permite aplicar los Teoremas
11.3.1 para concluir que plimU
(n)
[np]
= p. Como consecuencia, cuando p es un
punto de continuidad de F
1
, y esto ocurre cuando la p-cuantila x
p
es un punto
de crecimiento de F, se cumple
plimX
(n)
[np]
= x
p
.
Tenemos de esta manera una sucesi on coherente de estimadores de x
p
.
11.8 Una aplicaci on al analisis: Teorema de
Weierstrass de aproximaci on de funcio-
nes continuas por polinomios.
Como aplicaci on de la Desigualdad de Chebyshev, podemos obtener una de-
mostraci on del siguiente teorema debido a Weierstrass, mediante un procedi-
miento justicado por una heurstica probabilstica.
Teorema 11.8.1 (Aproximaci on de funciones continuas por polinomios.)
Si F es una funci on continua en el intervalo [a, b], y es un n umero positivo
arbitrario, entonces existe un polinomio Q tal que para todo x [a, b], se
cumple [F(x) Q(x)[ .
Demostraci on. Con el cambio de variables p = (x a)/(b a), basta
mostrar que f(p) = F(a + (b a)p), continua en [0, 1], se puede aproximar
uniformemente en ese intervalo por medio de un polinomio q
n
de grado n.
11.9. Leyes de Grandes N umeros. 169
Supongamos una muestra X
1
, . . . , X
n
de tama no n de la distribuci on de
Bernoulli con par ametro p, de modo que el estadstico B
n
/n, con B
n
=

n
i=1
X
i
es un estimador coherente de p.
Resulta entonces razonable esperar que cuando n tiende a , la esperanza
de f(B
n
/n) resulte pr oxima a f(p). Esta esperanza resulta ser un polinomio
q
n
(p) =
n
j=0
f(j/n)
n
j
p
j
(1 p)
nj
.
Vamos a mostrar que cuando n tiende a innito, q
n
converge uniformemente
a f: Por ser continua en el intervalo [0, 1], la funci on f est a acotada, y es
uniformemente continua. Llamemos M a una cota de [f[, y encontremos tal
que, si [s t[ < , entonces [f(s) f(t)[ < /2.
Puesto que B
n
/n converge en probabilidad a p, la probabilidad
P[B
n
/n p[ >
tiende a cero, de modo que podemos encontrar n
0
tal que para n n
0
,
P[B
n
/n p[ > < /(4M).
Se deduce entonces
[q
n
(p) f(p)[ = [Ef(B
n
/n) f(p)[
[E(f(B
n
/n) f(p))1
{|Bn/np|}
[ +[E(f(B
n
/n) f(p))1
{|Bn/np|>}
[
(/2)P[B
n
/n p[ + 2MP[B
n
/n p[ > = ,
para cualquier n > n
0
, uniformemente en p. 2
11.9 Leyes de Grandes N umeros.
11.9.1 Ley Debil de los Grandes N umeros.
Teorema 11.9.1 (Ley debil de los Grandes n umeros para variables equidis-
tribuidas, no correlacionadas).
Si (X
n
)
n=1,2,...
es una sucesi on de variables aleatorias no correlacionadas,
todas con la misma esperanza , y con la misma variancia nita, entonces
plim
n
X
n
= , con

X
n
=
1
n
n
i=1
X
i
.
170
Enrique M. Caba na.
Demostraci on. Si
2
es la variancia com un a las variables X
i
, un c alculo
directo muestra que la esperanza y la variancia del promedio

X
n
son respecti-
vamente y
2
/n. Los criterios de los Teoremas 11.3.1 y 11.3.2 terminan la
demostraci on. 2
Corolario 11.9.1.1 Si (X
n
)
n=1,2,...
es una sucesi on de variables aleatorias in-
dependientes, identicamente distribuidas, con esperanza y variancia nitas,
vale la conclusi on del Teorema.
11.9.2 Ley Fuerte de los Grandes N umeros.
Teorema 11.9.2 Ley fuerte de los Grandes n umeros para variables equidis-
tribuidas, de A.N.Kolmogorov Si (X
n
)
n=1,2,...
es una sucesi on de variables
aleatorias independientes, todas con la misma distribuci on, E[X
1
[ < , y
es el valor esperado com un de todas ellas, entonces
P
lim
n
X
1
+ X
2
+ . . . + X
n
n
=
= 1.
Demostraci on La posponemos hasta '13.12, pero mostramos a continuaci on que la
misma conclusion vale con la hip otesis agregada E(X
1
)
4
< .
Abreviemos

X
n
=
X1+X2+...+Xn
n
, y reescribamos el suceso lim
n

X
n
= en la
forma
dado > 0, existe m tal que para todo n m se cumple [

X
n
[ < ,
que equivale a
para todo h N, existe m tal que para todo n m, [

X
n
[ < 1/h
=
hN
mN
nm
[

X
n
[ < 1/h.
Para probar que este suceso tiene probabilidad 1, vericaremos que su complemento
hN
mN
nm
[

X
n
[ 1/h tiene probabilidad cero. Como se trata de una uni on
numerable en h N, basta probar que cada uno de los uniendos tiene probabilidad
cero. Para ello jamos h arbitrario y empezamos por acotar
P
mN
nm
[

X
n
[ 1/h
nm
[

X
n
[ 1/h
,
para todo m.
11 N8.- Ars Conjectandi. 171
Hacemos un parentesis para acotar P[

X
n
[ 1/h usando la desigualdad parecida
a la de Chebyshev que se obtiene como ella del Teorema 11.1.1 (Ver Ejercicio 11.1):
P[

X
n
[ 1/h
E((

X
n
)
4
)
(1/h)
4
= (h/n)
4
E((
n
i=1
(X
i
))
4
).
Calculamos por separado
E
i=1
(X
i
)
4
=
n
i,j,k,l=1
E
i,j,k,l
,
donde abreviamos E
i,j,k,l
= E(X
i
)(X
j
)(X
k
)(X
l
).
Cuando alguno de los cuatro ndices (i, j, k, l) es diferente a los otros, el correspon-
diente factor, digamos (X
i
) es independiente del producto de los otros tres, y
E
i,j,k,l
= E(X
i
) E(X
j
)(X
k
)(X
l
) = 0, porque E(X
i
) = 0.
El cuarto momento de la suma se reduce entonces a
i=j=k=l
E
i,j,k,l
+
i=j,k=l
E
i,j,k,l
+
i=k,j=l
E
i,j,k,l
+
i=l,j=k
E
i,j,k,l
=
n
i=1
E(X
i
)
4
+ 3
i=j
E(X
i
)
2
(X
j
)
2
.
Usamos ahora la hip otesis de que todas las variables tienen la misma distribuci on, de
lo que resulta
E
i=1
(X
i
)
4
= nE(X
1
)
4
+ 3n(n 1)(E(X
1
)
2
)
2
,
y continuamos con nuestra desigualdad inicial:
P
mN
nm
[

X
n
[ 1/h
nm
[

X
n
[ 1/h
nm
P[

X
n
[ 1/h
nm
(h/n)
4
[nE(X
1
)
4
+ 3n(n 1)(E(X
1
)
2
)
2
],
para todo m. Esta ultima expresi on tiene lmite cero cuando m tiende a , pues la
serie es convergente. 2
172
Enrique M. Caba na.
N8.- El Ars Conjectandi de Jacob Bernoulli.
La primera Ley de los Grandes n umeros se debe a Jacob Bernoulli. Es una ley debil, referida a varia-
bles de Bernoulli, y se la encuentra en Ars Conjectandi, uno de los primeros tratados sobre el calculo de
probabilidades, publicado en 1713 despues de la muerte de su autor.
El primer texto sobre probabilidades que se publico fue De Ratiociniis in Ludo Aleae (1657) de Christian
Huygens (1629 - 1695), y su contenido esta esencialmente contenido en elArs Conjectandi. Otras obras
contemporaneas del libro de Bernoulli, fueron Essai danalyse sur les jeux de hasard (1708) de Pierre de
Montmort (1678 - 1719) y The Doctrine of Chances (1718) de Abraham De Moivre (1667 - 1754).
11.10 Distribuci on emprica de una muestra.
Ley de Glivenko-Cantelli.
Consideremos una muestra aleatoria simple de una distribuci on F (esta deno-
minaci on ya ha sido utilizada en '8.11.1), es decir, un conjunto X
1
, X
2
, . . .,
X
n
de variables aleatorias independientes con la distribuci on F.
Dada la muestra X
1
, X
2
, . . . , X
n
de F, llamamos funci on de distribuci on
emprica de dicha muestra a la funci on (aleatoria)
F
n
(t) =
1
n
n
i=1
1
{X
i
t}
, t R. (11.3)
11.11. Ley de los Grandes N umeros funcional. 173
Teorema 11.10.1 (Ley de Glivenko Cantelli) Para cada t R, la funci on
de distribuci on emprica F
n
(t) converge en probabilidad a F(t).
En cada intervalo de continuidad de F, F
n
converge a F uniformemente
con probabilidad 1.
Demostraci on. 1
{X
i
t}
es para cada i una variable Ber(F(t)). Por lo tanto,
por ser las variables (1
{X
i
t}
)
i=1,2,...,n
independientes, nF
n
(t) es Bin(n, F(t)).
Se deduce entonces que E(F
n
(t)) = F(t), Var(F
n
(t)) =
1
n
(F(t)(1 F(t)), y
los criterios de los Teoremas 11.3.1 y 11.3.2 permiten obtener la conclusi on
deseada relativa a la convergencia en probabilidad.
De otra manera, por ser F
n
(t) el promedio de n variables Ber(F(t)) in-
dependientes, se le aplican las leyes de los grandes n umeros de los Teoremas
11.9.1 y 11.9.2; la ley debil nos da nuevamente la convergencia en probabilidad.
La ley fuerte (la demostraci on vista arriba es aplicable porque la distribuci on
de Bernoulli tiene momento de cuarto orden nito, puesto que la propia varia-
ble es acotada), nos da la convergencia con probabilidad 1, para cada t. Esto
no basta para concluir la convergencia con probabilidad uno simult aneamente
para todo t, pero s para todo t en un conjunto numerable, por ejemplo, el
de los racionales, o, tambien, como nos conviene considerar para la aplicaci on
inmediata, en la uni on del conjunto de los racionales con un conjunto nito
dado.
Dado el intervalo de continuidad [a, b] de F, vamos a vericar que si F
n
(t)
F(t) para todo t en la uni on de los racionales con el conjunto nito a, b,
entonces la convergencia es uniforme en todo el intervalo [a, b].
Por ser F continua en [a, b], es uniformemente continua, de modo que dado
arbitrario, podemos encontrar una partici on a = t
0
< t
1
< t
2
< . . . <
t
m
= b para la cual F(t
i
) F(t
i1
) < /2 (i = 1, 2, . . . , m), y, sin perdida de
generalidad podemos elegir t
1
, t
2
, . . ., t
m1
racionales.
Para todo t en [t
i1
, t
i
] se cumple entonces, por la monotona de las fun-
ciones de distribuci on y por la construcci on de la partici on,
F
n
(t) F(t) F
n
(t
i
) F(t
i
) +F(t
i
) F(t) F
n
(t
i
) F(t
i
) +/2
F(t) F
n
(t) F(t) F(t
i1
) +F(t
i1
) F
n
(t
i1
) /2 +F(t
i1
) F
n
(t
i1
)
y por la convergencia (casi segura) de F
n
a F sobre la uni on del conjunto
de los racionales, y del conjunto nito a, b, deducimos que se puede elegir
n tan grande que para todo i = 0, 1, 2, . . . , m se cumplan F
n
(t
i
) F(t
i
) <
/2, F(t
i1
) F
n
(t
i1
) < /2. Con estas desigualdades y las establecidas
anteriormente se concluye que para todo t en [a, b], [F
n
(t) F(t)[ < . 2
174
Enrique M. Caba na.
11.11 Reinterpretaci on de la Ley de Glivenko
- Cantelli como una Ley de los Grandes
N umeros funcional.
A la variable aleatoria real X, con funci on de distribuci on de probabilidades
F, asociaremos la funcion escal on
1
X
(x) = 1
{Xx}
.
Esto dene una correspondencia de en el espacio de las funciones de R en
R, que podremos interpretar como una variable aleatoria, si dotamos a este
ultimo de una -algebra adecuada.
Dentro de ese contexto, resulta natural llamar esperanza de 1
X
a la funcion
que a cada x R asocia E(1
X
(x)) = F(x), es decir, E1
X
= F.
Dada la sucesi on de variables aleatorias (X
n
)
n=1,2,...
independientes, con
funcion de distribuci on continua F, consideremos la sucesi on de sus funciones
escal on 1
Xn
. El promedio

1 = n
1
n
i=1
1
X
i
es precisamente la funci on de
distribuci on emprica F
n
, de modo que la Ley de Glivenko-Cantelli (Teorema
11.10.1) expresa que el promedio de las funciones escal on de variables alea-
torias independientes con funci on de distribuci on F converge a su esperanza,
que es F, con probabilidad 1, uniformemente en los intervalos de continuidad
de F. Cuando F es continua, la convergencia a la que alude el enunciado
precedente es la convergencia uniforme.
Dotemos al espacio de las funciones de R en R de la norma del supremo
| |
denida por |f|
= sup
<t<
[f(t)[.
La convergencia uniforme es precisamente la convergencia en esta norma,
de modo que el enunciado precedente para la Ley de Glivenko-Cantelli es el de
una Ley fuerte de los Grandes N umeros, para variables aleatorias con valores
en el espacio de las funciones de R en R con la norma del supremo, cuando F
es continua.
No vamos a discutir aqu como elegir la -algebra para que las funciones
escal on sean variables aleatorias. M as adelante volveremos sobre la inter-
pretaci on en espacios de funciones de los teoremas que se reeren al com-
portamiento asint otico de los promedios de variables aleatorias independientes
equidistribuidas.
11.12. Aplicaciones de la convergencia de F
n
a F. 175
11.12 Algunas aplicaciones estadsticas de la
convergencia de F
n
a F.
Cuando se desea estimar un par ametro de una distribuci on F, y la informaci on
emprica que se dispone es una muestra aleatoria simple X
1
, X
2
, . . ., X
n
de
F, suele dar buenos resultados expresar el par ametro de la distribuci on en
terminos de la funci on de distribuci on F, y reemplazar F por F
n
en esa ex-
presi on.
La convergencia de F
n
a F implicar a frecuentemente la convergencia de la
expresi on as obtenida al par ametro que se desea describir. De esta manera
se consigue un procedimiento asint oticamente adecuado (para n ) de
descripcion del par ametro de interes.
Vamos a considerar algunos ejemplos. Naturalmente, en cada caso ser a
necesario vericar la continuidad de la dependencia del par ametro de interes
respecto de la distribuci on, o, m as directamente, la convergencia de la ex-
presi on en F
n
hacia la expresi on en F.
Ejemplo 11.12.1 Supongamos que nos interesa obtener el valor del par ame-
tro p de una distribuci on de Bernoulli de la que se conoce una muestra aleatoria
simple X
1
, . . ., X
n
.
El par ametro p es la esperanza de la distribuci on, es decir, p =

xdF(x)
con F(x) = 0 si x < 0, F(x) = 1 p si 0 x < 1 y F(x) = 1 si x 1. Por lo
tanto, la integral que se obtiene con F
n
en lugar de F
T
n
=
xdF
n
(x) = n
1
n
j=1
X
j
es calculable a partir de las observaciones, y es de esperar que converja a p
cuando n tiende a innito. En efecto es as, como lo asegura la Ley de los
Grandes N umeros.
Se observar a que T
n
es una razonable aproximaci on de p, al menos para n
grande. Lo conrma, por ejemplo, el c alculo de la distancia cuadr atica entre
T
n
y p:
E(T
n
p)
2
= VarT
n
= p(1 p)/n.
(Ver como antecedente '4.3.4). 2
Nota: Algunas observaciones del ejemplo precedente son generalizables:
para estimar la esperanza de una distribuci on de la que se posee una muestra
(X
1
, . . . , X
n
), es razonable utilizar el promedio

X
n
=
X
1
+...+Xn
n
. El estimador
176
Enrique M. Caba na.
obtenido es insesgado, y si la esperanza de F es nita, la sucesi on de promedios
es coherente.
Podemos ir un poco m as lejos, e intentar una justicaci on heurstica del
metodo de estimaci on de los momentos:
Ejemplo 11.12.2 Llamemos m
i
() =

x
i
dF
(x) al momento de orden i de

la distribuci on F
. Es de esperar que el momento emprico T

(i)
n
=

x
i
dF
n
(x)
nos de un valor pr oximo a m
i
() y que plimT
(i)
n
= m
i
(). Si la transformaci on
m
1
() es invertible y tiene una inversa continua m
1
1
, entonces m
1
1
(T
(i)
n
)
nos dar a un estimador coherente de .
Cuando = (
1
,
2
) R
2
, no es de esperar que m
1
() sea invert-
ible, pero si (
1
,
2
) (m
1
(
1
,
2
), m
2
(
1
,
2
)) lo es, y tiene inversa continua
1
= t
1
(m
1
, m
2
),
2
= t
2
(m
1
, m
2
), entonces (t
1
(T
(1)
n
, T
(2)
n
), t
2
(T
(1)
n
, T
(2)
n
)) ser a
un estimador coherente de (
1
,
2
).
Ejemplo 11.12.3 Supongamos que queremos obtener un estimador de a
partir de la muestra X
1
, . . ., X
n
de la distribuci on uniforme en (0, ) cuya
funci on de distribuci on llamaremos F.
Una primera observaci on, a saber, que = 2
0
xdF(x) (n otese que F(x) =
x/ para 0 < x < ), nos conduce al estimador T
n
= 2
n
j=1
X
j
/n, cuya
convergencia a es de nuevo consecuencia de la Ley de los Grandes N umeros.
Una segunda observaci on, que es el extremo derecho del soporte de F,
nos lleva a proponer como estimador al extremo derecho del soporte de F
n
, es
decir, X
(n)
= max
1jn
X
j
. 2
Ejercicio 11.12.1 Mostrar que el estimador X
(n)
del ejemplo precedente converge
casi seguramente a cuando n .
Ejercicio 11.12.2 Comparar los dos estadsticos del ejemplo precedente desde el
punto de vista de su distancia cuadr atica al par ametro que pretenden estimar.
12. Convergencia en Ley.
Distribuci on normal. Teorema
del Lmite Central.
12.1 Convergencia en ley o en distribuci on,
para variables con valores en R.
Denici on 12.1.1 La sucesi on F
n
de funciones de distribuci on de probabili-
dad en R converge debilmente a la funci on de distribuci on de probabilidad F,
cuando para cada punto de continuidad x de F se cumple
lim
n
F
n
(x) = F(x).
La sucesi on de variables aleatorias X
n
converge en ley o en distribuci on a
la variable aleatoria X, cuando la sucesi on de las distribuciones de probabilidad
F
Xn
de las variables X
n
converge debilmente a la funci on de distribuci on de
probabilidad F de la variable X.
Nota: Se observar a que la convergencia en distribuci on de una sucesi on de
variables aleatorias X
n
F
n
es una propiedad de la sucesi on de sus distribu-
ciones, y no requiere ning un tipo de convergencia de las variables aleatorias
consideradas como funciones denidas en cierto espacio de probabilidad .
Mas a un, esas variables pueden tener diferentes espacios de probabilidad como
dominio. Sin embargo, cuando todas ellas est an denidas en el mismo espacio
y X
n
X c.s., esto implica la convergencia en distribuci on, como lo expresa
el siguiente Teorema.
Teorema 12.1.1 Si X, X
n
(n = 1, 2, . . .) son variables aleatorias de (, A, P)
en R y limX
n
= X c.s., entonces X
n
converge a X en distribuci on.
177
178
Enrique M. Caba na.
Captulo 12: Convergencia en Ley. Dist. Normal. TLC.
Demostraci on. Si x es un punto de continuidad de la funci on de distribuci on
F de X, y es un n umero positivo arbitrario, elegimos y > x tal que F(y) <
F(x) +.
Se cumple entonces
P
nm
{|X
n
X| y x}
= 1
por la convergencia casi segura de X
n
a X, y, por tratarse de la probabilidad
de una uni on creciente, existe m
0
tal que
P
nm
0
{|X
n
X| y x} > 1 , (12.1)
o bien,
P(C) < , C =
nm
0
{|X
n
X| y x}
c
(12.2)
Observamos adem as que, para cualquier entero positivo n, las desigualdades
X
n
x y |X
n
X| < y x implican X < y, de modo que
{X
n
x} {|X
n
X| < y x} {X y} (12.3)
Por lo tanto, para n > m
0
, la denici on de C y (12.3) implican
{X
n
x} {X
n
x} {|X
n
X| < y x} C {X y} C,
de donde resulta ( por (12.2) y (12.1))
P{X
n
x} P{X y} + P{X x} + 2. (12.4)
Tomando lmite superior en (12.4) resulta
limsup
n
P{X
n
x} P{X x} + 2,
y, por ser arbitrario, concluimos
limsup
n
P{X
n
x} P{X x}.
De manera an aloga, o aplicando el mismo razonamiento a las variables
X
n
, X se establece la desigualdad complementaria
liminf
n
P{X
n
x} P{X x}.
y ambas implican la conclusi on deseada. 2
12.1. Convergencia en ley o en distribuci on. 179
Ejercicios.
n
esta uniformemente distribuida en 1/n, 2/n, . . ., (n1)/n,
1, demostrar que X
n
converge en distribuci on, y hallar la distribuci on lmite.
Si g es una funci on continua en R (o en [0, 1]), encontrar el lmite de Eg(X
n
).
n
F
n
converge en probabilidad a la constante a, entonces
converge en distribuci on a la constante a, es decir, las distribuciones F
n
convergen
debilmente a la probabilidad concentrada en a.
Vericar que, si g es continua y acotada, Eg(X
n
) Eg(a).
n
converge en probabilidad a X (es decir, si la sucesion de
las diferencias X
n
X converge en probabilidad a la constante 0), entonces X
n
converge en distribuci on a X.
Observar que la convergencia casi segura en la hip otesis del Teorema 12.1.1 puede
reemplazarse por convergencia en probabilidad.
Ejercicio 12.1.4 Mostrar que si F es una funci on de distribuci on, entonces el con-
junto de los valores {u : Existe mas de un valor de x con imagen u} es numerable.
Sugerencia: Observar que cada uno de esos valores de u es imagen de puntos de
un cierto intervalo, y que esos intervalos son disjuntos. La cantidad de intervalos
contenidos en (n, n) constituyen un conjunto numerable, porque hay a lo sumo 2n
de longitud mayor o igual que 1, luego a lo sumo 2
2
n de longitud mayor o igual que
2
1
, 2
3
n de longitud mayor o igual que 2
2
, etc. A estos se agregan los que a un no
esten considerados, que esten incluidos en (n 1, n + 1), que por un argumento
an alogo tambien son un conjunto numerable. Esto se aplica para n = 1, 2, . . . y
resulta que el conjunto buscado es numerable, por ser uni on de una sucesion de
conjuntos numerables.
12.1.1 Un recproco del Teorema 12.1.1.
Teorema 12.1.2 Si la sucesi on de variables aleatorias X
n
converge en dis-
tribuci on a X, existe una sucesi on de copias X
n
, denidas en un mismo espacio
de probabilidad, que converge casi seguramente a una copia X
de X.
(Llamamos copia de una variable Z a una variable Z
con la misma dis-

tribuci on de probabilidad).
Demostraci on. Si F
n
, F son las funciones de distribuci on de X
n
, X, y U es
una variable uniforme en [0, 1], construimos X
n
= F
1
n
(U), X
= F
1
(U). Uti-
lizamos para esta construcci on, la inversa generalizada denida en el Teorema
3.5.1: F
1
(u) = inf{x : F(x) u}.
180
Enrique M. Caba na.
Vamos a mostrar que P{lim
n
X
n
= X
} = 1. Para ello, empecemos

por observar que cuando x es un punto de crecimiento de F, es decir, cuando
cualquiera sea > 0, existen y, z tales que x < y < x < z < x +
y F(y) < F(x) < F(z), se cumple entonces F
1
(F(x)) = x. En efecto,
llamemos u = F(x). Se cumple, por una parte, z {x
: u F(x
)} de modo
que F
1
(u) z x + , y por otra parte, y {x
: u F(x
)}, por lo
que F
1
(u) y x . Por ser arbitrario, necesariamente debe cumplirse
F
1
(u) = x.
Para n sucientemente grande, F
n
(z) > u, puesto que tiene lmite F(z),
y por el mismo argumento aplicado a F, tambien F
1
n
(u) < z. De manera
an aloga, para n sucientemente grande, F
n
(y) < u y esto implica y < F
1
n
(u).
Se concluye entonces que x F
1
n
(u) x + , y esto signica que
F
1
n
(u) tiende a x = F
1
(u), porque es arbitrario.
Para terminar la demostraci on, basta vericar que el conjunto {F(x) :
x punto de crecimiento de F} tiene probabilidad 1 para la distribuci on uni-
forme en (0, 1), y es suciente mostrar que tiene probabilidad mayor que 1
para > 0 arbitrario.
Cada punto x que no es de crecimiento, est a contenido en un intervalo
[y, z) en el que F es constante. Como F es no decreciente y continua por
la derecha, los intervalos de constancia constituyen un conjunto numerable
(ver Ejercicio 12.1.4). Si u
1
, u
2
, u
3
, . . ., son los valores de F en la sucesion
de intervalos donde es constante, entonces excluiremos de (0,1) el intervalo
de longitud 2
1
centrado en u
1
, el intervalo de longitud 2
2
centrado en
u
2
, el intervalo de longitud 2
3
centrado en u
3
, . . ., el intervalo de longitud
2
i
centrado en u
i
, . . ., y lo que excluimos de esa manera es un conjunto de
probabilidad acotada por . Los puntos no excluidos son de crecimiento, es
decir, P{U {F(x) : x punto de crecimiento de F}} > 1 . 2
12.1.2 Una caracterizaci on de la convergencia en dis-
tribuci on.
Teorema 12.1.3 Es condicion necesaria y suciente para que la sucesi on F
n
de funciones de distribuci on de probabilidad converja debilmente a la funci on
de distribuci on de probabilidad F, que para cada funci on g continua y acotada
lim
n
g(x)dF
n
(x) =
g(x)dF(x).
De manera equivalente, con otra notaci on: es condici on necesaria y su-
ciente para que las variables aleatorias reales X
n
converjan en distribuci on a
12.1. Convergencia en ley o en distribuci on. 181
la variable aleatoria X, que para cada funci on g : R R continua y acotada,
lim
n
Eg(X
n
) = Eg(X).
Demostraci on de la suciencia. Dados z de continuidad de F, y > 0,
construimos las funciones auxiliares continuas y acotadas u
z,
(x) = 1
{x<z}
+
1
(z x)1
{zxz}
y u
+
z,
(x) = 1
{x<z}
+
1
(z + x)1
{zxz+}
, que sa-
tisfacen las desigualdades 1
{xz}
u
z,
(x) 1
{xz}
u
+
z,
(x) 1
{xz+}
.
0
1
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
u
z,
u
+
z,
z z + z
Figura 12.1: Gr acos de u
z,
y de u
+
z,
.
Obtenemos, con X
n
F
n
y X F,
F
n
(z) = E1
{Xnz}
Eu
z,
(X
n
),
de donde deducimos
liminf
n
F
n
(z) lim
n
Eu
z,
(X
n
) = Eu
z,
(X) E1
{Xz}
= F(z ),
y, an alogamente
F
n
(z) Eu
+
z,
(X
n
),
limsup
n
F
n
(z) lim
n
Eu
+
z,
(X
n
) = Eu
+
z,
(X) E1
{Xz+}
= F(z + ).
Dado que las desigualdades
F(z ) liminf
n
F
n
(z) limsup
n
F
n
(z) F(z + )
valen para todo > 0, pasamos al lmite con 0 y la continuidad de F en z
implica que ambos lmites coinciden con F(z). 2
Demostraci on de la necesidad. supongamos g continua y acotada por M.
Dado > 0 arbitrario, elegimos puntos de continuidad a, b de F tales que F(a)
182
Enrique M. Caba na.
< /(6M), 1 F(b) < /(6M). La continuidad uniforme de g en [a, b] nos
permite encontrar puntos de continuidad de F x
0
= a < x
1
< x
2
< . . . < x
k
= b de modo que para cualquier i = 1, 2, . . ., k, si y, z [x
i1
, x
i
], entonces
|g(y) g(z)| < /6.
A partir de esta construcci on, denimos las aproximaciones por defecto y
por exceso de g:
g
(x) = M1
{xa}
+
k
i=1
(g(x
i
) /6)1
{x
i1
<xx
i
}
M1
{b<x}
,
g
+
(x) = M1
{xa}
+
k
i=1
(g(x
i
) +/6)1
{x
i1
<xx
i
}
+ M1
{b<x}
.
Por ser g
y g
+
funciones seccionalmente constantes, es posible expresar

las esperanzas Eg
(X
n
), Eg
(X
n
) de manera sencilla:
Eg
(X
n
) = MF
n
(a) +
n
i=1
(g(x
i
) /6)(F
n
(x
i
) F
n
(x
i1
)) M(1 F
n
(b))
MF(a) +
n
i=1
(g(x
i
) /6)(F(x
i
) F(x
i1
)) M(1 F(b)) = Eg
(X),
y, an alogamente,
Eg
+
(X
n
) Eg
+
(X).
Las desigualdades g
(x) g(x) g
+
(x) implican
Eg
(X
n
) Eg(X
n
) Eg
+
(X
n
),
de modo que, pasando al lmite en n, obtenemos para cada
Eg
(X) liminf Eg(X

n
) limsup Eg(X
n
) Eg
+
(x).
La diferencia entre los extremos Eg
+
(X) Eg
(X) est a acotada por

2MF(a) + (2/6)(F(b) F(a)) + 2M(1 F(b)) < ,
que puede elegirse arbitrariamente peque no, y adem as, la constante Eg(X)
est a comprendida entre ambos extremos para cualquier , de modo que se
concluye que ambos lmites, inferior y superior, coinciden con Eg(X). 2
12.2. Distribuci on normal en R. 183
Ejercicios.
Ejercicio 12.1.5 Concluir, como consecuencia del Teorema 12.1.3, que, si la su-
cesion de variables aleatorias reales (X
n
) converge en distribuci on a X, entonces
sus funciones caractersticas
n
(t) = Ee
tXn
convergen para cada t a la funci on
caracterstica (t) = Ee
tX
de X.
Ejercicio 12.1.6 (i) Dada la sucesion (X
n
) de variables aleatorias i.i.d., expre-
sar la funci on caracterstica
n
(t) de Z
n
= (
n
i=1
X
i
)/
n a partir de la funci on
caracterstica
0
(t) de X
1
.
(ii) De la desigualdad |e
y
1| |y
3
|/2 y de un desarrollo de Taylor de segundo
orden de e
y
, deducir la acotaci on |e
y
1 y +y
2
/2| |y|
3
/2.
(iii) Mostrar que, si X
1
tiene esperanza cero, variancia uno y momento de tercer
orden nito, entonces lim
n
n
(t) = e
t
2
/2
.
(iv) Deducir que, si la sucesi on (Z
n
) converge en distribuci on, el lmite tiene que
tener funci on caracterstica (t) = e
t
2
/2
.
Ejercicio 12.1.7 Adaptar la demostraci on del Teorema 12.1.3, para obtener el
siguiente resultado similar:
Teorema 12.1.4 Es condici on necesaria y suciente para que la sucesi on F
n
de
funciones de distribuci on de probabilidad converja a la funci on G en cada punto de
continuidad de G, que para cada funci on g continua con lmites 0 en y en +,
lim
n
g(x)dF
n
(x) =
g(x)dG(x).
La funci on G es no decreciente, con recorrido en [0, 1], por ser lmite de una
sucesion de funciones de distribuci on, pero no es necesariamente una funci on de
distribuci on de probabilidades, es decir, puede no tener lmites 0 y 1 en y en
+ respectivamente.
12.2 Distribuci on normal en R.
Denici on 12.2.1 Decimos que la variable aleatoria real Z tiene distribuci on
normal tpica cuando su densidad de distribuci on de probabilidades es
(z) =
1
2
e
z
2
/2
, z R.
Notaci on: Llamamos a la funci on de distribuci on (z) =
(t)dt.
184
Enrique M. Caba na.
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
-3 -2 -1 0 1 2 3
Figura 12.2: Funci on de distribuci on de probabilidades y densidad (lla-

mada campana de Gauss) de una variable normal tpica.
La gura 12.2 describe la forma de ambas funciones, y la Tabla 12.2 indica
algunos valores de la funci on de distribuci on .
Los valores de la Tabla 12.2 se han obtenido mediante integraci on numerica. Las
desigualdades del Ejercicio 12.2.3 permiten obtener aproximaciones de (x) para x
mayor que el maximo valor incluido en la tabla (x > 3).
Las variables normales tpicas tienen esperanza cero, y variancia uno (ver
Ejercicio 12.2.1). Por lo tanto, cuando Z es normal tpica, X = + Z tiene
esperanza y variancia
2
. Esto justica la denici on siguiente:
Denici on 12.2.2 Decimos que X tiene distribuci on normal (,
2
), o dis-
tribuci on normal con media y variancia
2
, cuando (X )/ tiene dis-
tribuci on normal tpica.
Nota: A las variables normales tambien se las llama gaussianas.
Ejercicios.
Ejercicio 12.2.1 Mostrar que la funci on generatriz de momentos de una variable
gaussiana tpica Z es
Ee
tZ
= e
t
2
/2
12.2. Distribuci on normal en R. 185
Tabla 12.1: Tabla de la funci on de distribuci on normal tpica: (x) =
(t)dt, (x) =
e
x
2
/2
(2)
.
x (x) x (x) x (x) x (x) x (x) x (x)
.00 .5000 .50 .6914 1.00 .8413 1.50 .9331 2.00 .9772 2.50 .9937
.01 .5039 .51 .6949 1.01 .8437 1.51 .9344 2.01 .9777 2.51 .9939
.02 .5079 .52 .6984 1.02 .8461 1.52 .9357 2.02 .9782 2.52 .9942
.03 .5119 .53 .7019 1.03 .8484 1.53 .9369 2.03 .9787 2.53 .9944
.04 .5159 .54 .7054 1.04 .8508 1.54 .9382 2.04 .9792 2.54 .9945
.05 .5199 .55 .7088 1.05 .8531 1.55 .9394 2.05 .9797 2.55 .9947
.06 .5239 .56 .7122 1.06 .8554 1.56 .9406 2.06 .9802 2.56 .9948
.07 .5279 .57 .7156 1.07 .8576 1.57 .9417 2.07 .9807 2.57 .9950
.08 .5318 .58 .7190 1.09 .8621 1.58 .9429 2.08 .9811 2.58 .9951
.09 .5358 .59 .7224 1.08 .8599 1.59 .9440 2.09 .9816 2.59 .9952
.10 .5398 .60 .7257 1.10 .8643 1.60 .9452 2.10 .9820 2.60 .9954
.11 .5437 .61 .7290 1.11 .8665 1.61 .9463 2.11 .9825 2.61 .9955
.12 .5477 .62 .7323 1.12 .8686 1.62 .9473 2.12 .9829 2.62 .9956
.13 .5517 .63 .7356 1.13 .8707 1.63 .9484 2.13 .9833 2.63 .9958
.14 .5556 .64 .7389 1.14 .8728 1.64 .9494 2.14 .9837 2.64 .9959
.15 .5596 .65 .7421 1.15 .8749 1.65 .9505 2.15 .9841 2.65 .9960
.16 .5635 .66 .7453 1.16 .8769 1.66 .9515 2.16 .9845 2.66 .9961
.17 .5674 .67 .7485 1.17 .8789 1.67 .9525 2.17 .9849 2.67 .9962
.18 .5714 .68 .7517 1.18 .8809 1.68 .9535 2.18 .9853 2.68 .9963
.19 .5753 .69 .7549 1.19 .8829 1.69 .9544 2.19 .9856 2.69 .9964
.20 .5792 .70 .7580 1.20 .8849 1.70 .9554 2.20 .9860 2.70 .9965
.21 .5831 .71 .7611 1.21 .8868 1.71 .9563 2.21 .9863 2.71 .9966
.22 .5870 .72 .7642 1.22 .8887 1.72 .9572 2.22 .9867 2.72 .9967
.23 .5909 .73 .7673 1.23 .8906 1.73 .9581 2.23 .9870 2.73 .9968
.24 .5948 .74 .7703 1.24 .8925 1.74 .9590 2.24 .9874 2.74 .9969
.25 .5987 .75 .7733 1.25 .8943 1.75 .9599 2.25 .9877 2.75 .9970
.26 .6025 .76 .7763 1.26 .8961 1.76 .9607 2.26 .9880 2.76 .9971
.27 .6064 .77 .7793 1.27 .8979 1.77 .9616 2.27 .9883 2.77 .9972
.28 .6102 .78 .7823 1.28 .8997 1.78 .9624 2.28 .9886 2.78 .9973
.29 .6140 .79 .7852 1.29 .9014 1.79 .9632 2.29 .9889 2.79 .9973
.30 .6179 .80 .7881 1.30 .9031 1.80 .9640 2.30 .9892 2.80 .9974
.31 .6217 .81 .7910 1.31 .9049 1.81 .9648 2.31 .9895 2.81 .9975
.32 .6255 .82 .7938 1.32 .9065 1.82 .9656 2.32 .9897 2.82 .9976
.33 .6292 .83 .7967 1.33 .9082 1.83 .9663 2.33 .9900 2.83 .9976
.34 .6330 .84 .7995 1.34 .9098 1.84 .9671 2.34 .9903 2.84 .9977
.35 .6368 .85 .8023 1.35 .9114 1.85 .9678 2.35 .9905 2.85 .9978
.36 .6405 .86 .8051 1.36 .9130 1.86 .9685 2.36 .9908 2.86 .9978
.37 .6443 .87 .8078 1.37 .9146 1.87 .9692 2.37 .9910 2.87 .9979
.38 .6480 .88 .8105 1.38 .9162 1.88 .9699 2.38 .9912 2.88 .9980
.39 .6517 .89 .8132 1.39 .9177 1.89 .9706 2.39 .9915 2.89 .9980
.40 .6554 .90 .8159 1.40 .9192 1.90 .9712 2.40 .9917 2.90 .9981
.41 .6590 .91 .8185 1.41 .9207 1.91 .9719 2.41 .9919 2.91 .9982
.42 .6627 .92 .8212 1.42 .9221 1.92 .9725 2.42 .9921 2.92 .9982
.43 .6664 .93 .8238 1.43 .9236 1.93 .9731 2.43 .9924 2.93 .9983
.44 .6700 .94 .8263 1.44 .9250 1.94 .9738 2.44 .9926 2.94 .9983
.45 .6736 .95 .8289 1.45 .9264 1.95 .9744 2.45 .9928 2.95 .9984
.46 .6772 .96 .8314 1.46 .9278 1.96 .9750 2.46 .9930 2.96 .9984
.47 .6808 .97 .8339 1.47 .9292 1.97 .9755 2.47 .9931 2.97 .9985
.48 .6843 .98 .8364 1.48 .9305 1.98 .9761 2.48 .9933 2.98 .9985
.49 .6879 .99 .8389 1.49 .9318 1.99 .9767 2.49 .9935 2.99 .9985
.50 .6914 1.00 .8413 1.50 .9331 2.00 .9772 2.50 .9937 3.00 .9986
186
Enrique M. Caba na.
y que la funci on caracterstica es
Ee
itZ
= e
t
2
/2
.
Calcular todos los momentos de una variable gaussiana tpica. Vericar que si X es
normal (,
2
), entonces valen las f ormulas:
E(X )
2n
=
2n
(2n)!
n!2
n
, E(X )
2n+1
= 0, n = 0, 1, 2, . . .
Ee
tX
= e
t+(t)
2
/2
y que la funci on caracterstica es
Ee
itX
= e
t(t)
2
/2
.
Ejercicio 12.2.2 Mostrar que la suma de dos variables gaussianas independientes
es gaussiana. Deducir que cualquier combinaci on lineal de dos o m as variables
gaussianas independientes es gaussiana.
Ejercicio 12.2.3 Mostrar que cuando Z es normal tpica y x es positivo, la pro-
babilidad 1 (x) del suceso {Z (x, +)} satisface las desigualdades :
x(x)
1 +x
2
< 1 (x) <
(x)
x
Ejercicio 12.2.4 Vericar que los cocientes incrementales de :
(x +) (x)
estan uniformemente acotados en valor absoluto por (1).

12.3 Teorema del Lmite Central para varia-
bles equidistribuidas.
Teorema 12.3.1 Si las variables X
1
, X
2
, . . ., X
n
, . . . son independientes,
equidistribuidas, con esperanzas y variancias
2
, entonces para cada x se
cumple
lim
n
P
X
1
+ X
2
+ . . . + X
n
n
n
2
x
=
1
e
t
2
/2
dt.
12.3. TLC para variables equidistribuidas. 187
Ya sabemos, por la Ley de los Grandes N umeros, que, cualquiera sea la dis-
tribuci on (con esperanza nita) de una muestra aleatoria simple, el promedio
X
n
converge a la esperanza, y por lo tanto,

X
n
converge a cero. Lo que
expresa el teorema anterior, es que, si para cada n multiplicamos esa diferencia
(aleatoria), que tiende a cero, por el factor
n/
2
que tiende a innito, los
productos resultantes constituyen una sucesi on de variables aleatorias cuyas
distribuciones de probabilidad convergen en el sentido de la Denici on 12.1.1
a la distribuci on normal tpica, distribuci on cuya importancia es considerable,
por esta entre otras razones.
Una demostraci on parcial del Teorema 12.3.1. Es claro que basta demostrar
el teorema en el caso en que las variables tienen esperanza cero y variancia
uno. En tal caso, el Ejercicio 12.1.6 muestra que, con la hip otesis adicional
E|X
1
|
3
< , si

n
i=1
X
i
/
n converge en distribuci on, la distribuci on lmite

debe tener funcion caracterstica (t) = e
t
2
/2
. Esta es precisamente la funci on
caracterstica de la distribuci on normal tpica (ver Ejercicio 12.2.1, y tener en
cuenta el Corolario 13.10.1.1). El mismo argumento es aplicable a cualquier
sucesion parcial de

n
i=1
X
i
/
n.
Supongamos, para hacer una demostraci on por reducci on al absurdo, que
la sucesion F
n
de las funciones de distribuci on de

n
i=1
X
i
/
n no converge a
la funci on de distribuci on (t) de la normal tpica. La suposici on precedente
implica que para alg un x
0
, F
n
(x
0
) tiene una sucesion parcial (F
n
(x
0
))
N
que
converge a otro lmite G(x
0
) = (x
0
).
El Lema 12.3.1 muestra que F
n
tiene a su vez una sucesion parcial que
converge a una funci on de distribuci on G en todos sus puntos de continuidad.
Esta es la contradicci on que busc abamos, porque entonces la funci on ca-
racterstica de F
n
debera converger a la funci on caracterstica de G, y no
a e
t
2
/2
. Esta demostraci on del Teorema del Lmite Central para variables
equidistribuidas es parcial, porque ha requerido agregar la hip otesis de nitud
del momento de tercer orden. 2
Lema 12.3.1 Bajo las hipotesis del Teorema 12.3.1, cualquier sucesi on parcial
G
n
= F
n
de la sucesi on F
n
de las funciones de distribuci on de

n
i=1
X
i
/
n
tiene una sucesi on parcial que converge a una funci on de distribuci on G en
todos sus puntos de continuidad.
Demostraci on. Tomemos una sucesi on (x
m
)
mN
densa en R (por ejemplo,
una sucesion que recorra a los racionales).
Veriquemos en primer lugar que G
n
tiene una sucesion parcial que con-
verge en cada x
m
. Para ello utilizaremos una construcci on a la que suele
denominarse proceso diagonal.
188
Enrique M. Caba na.
Como {G
n
(x
1
) : n N} es un conjunto acotado (entre 0 y 1), existe una
sucesion estrictamente creciente de naturales n
1,i
tal que G
n
1,i
tiene lmite que
llamaremos G(x
1
), cuando i .
Tambien {G
n
1,i
(x
2
) : i N} es acotado, de modo que existe una sucesi on
parcial n
2,i
de n
1,i
tal que G
n
2,i
(x
2
) converge a un lmite G(x
2
) cuando i .
Adem as, por ser G
n
2,i
(x
1
) una sucesion parcial de G
n
1,i
(x
1
), tambien converge
a G(x
1
).
La acotaci on de {G
n
2,i
(x
3
) : i N} asegura ahora la existencia de una
sucesion parcial n
3,i
de n
2,i
para la que existe lim
i
G
n
3,i
(x
3
), que llamamos
G(x
3
). Se cumple adem as lim
i
G
n
j,i
(x
j
) para j < 3.
La continuaci on de este procedimiento lleva a construir sucesiones n
h,i
par-
ciales de n
h1,i
, para las que existe el lmite lim
i
G
n
h,i
(x
h
) que denominamos
G(x
h
), y que por ser sucesiones parciales de todas las anteriores, cumplen
tambien lim
i
G
n
h,i
(x
j
) = G(x
j
) para j < h.
La llamada sucesi on diagonal n
i,i
es una sucesion parcial de cada n
h,i
, a
partir de i = h, y por lo tanto cumple
lim
i
G
n
i,i
(x
j
) = G(x
j
)
para cada j.
Dado que cada una de las funciones de distribuci on G
n
i,i
es no decreciente,
con valores en [0, 1], tambien el lmite G es no decreciente y tiene recorrido en
[0, 1].
S olo resta para terminar la demostraci on, vericar que G es una funci on de
distribuci on de probabilidades, o, en otras palabras, que su recorrido contiene
al intervalo abierto (0, 1). Para ello no basta que G sea lmite puntual de
funciones de distribuci on, como lo muestra el Ejercicio 12.3.1.
Vamos a mostrar que para cada positivo, el recorrido de G contiene al
intervalo (, 1 ). Basta para ello mostrar que existe un intervalo [a, b] tal
que G(b) G(a) 1 . Esto se debe a que pueden encontrarse a, b tales
que cada una de las funciones de distribuci on F
n
satisface la misma propiedad:
F
n
(b) F
n
(a) 1 .
La demostraci on de este ultimo hecho puede basarse en una aplicaci on de
la desigualdad de Chebyshev: Como cada Y
n
=
n
i=1
X
i
/
n tiene esperanza 0
y variancia 1,
P{|Y
n
| > 1/
}
y entonces F
n
(1/
) F
n
(1/
) 1 , es decir, basta tomar b = a

= 1/
cualquiera sea n. 2
12.3. TLC para variables equidistribuidas. 189
Un mayor cuidado en las acotaciones dentro del mismo contexto permite
eliminar la hip otesis E|X
1
|
3
< , que fue utilizada en la demostraci on prece-
dente. Posponemos una demostraci on del Teorema del Lmite Central para
variables equidistribuidas sin el agregado de esta hip otesis superflua, basada
en una argumentaci on diferente, hasta 12.4.
Aprovechamos ahora algunos elementos de la demostraci on precedente del
Teorema del Lmite Central, para obtener el siguiente resultado, m as gene-
ral, del que puede obtenerse nuevamente el Teorema del Lmite Central como
corolario:
Teorema 12.3.2 Si las funciones caractersticas
Xn
(t) = Ee
tXn
de la su-
cesi on de variables X
n
con valores en R tienen por lmite la funci on carac-
terstica
X
(t) de una variable X, para cada t, entonces (X
n
)
n=1,2,...
converge
en distribuci on a X.
Demostraci on. Para cada n, llamemos F
n
a la funcion de distribuci on
de X
n
. Si el enunciado no fuera cierto, el proceso diagonal utilizado en la
demostraci on del Lema 12.3.1 muestra que existira una sucesi on parcial de
F
n
que converge a una funci on G en sus puntos de continuidad, distinta de la
funcion de distribuci on F de la variable X. Esta funci on G no tiene por que
ser una funci on de distribuci on de probabilidades.
La hip otesis
Xn
(t)
X
(t) implica, para cada u > 0,
lim
n
u
0
Xn
(t) =
u
0
X
(t).
Por otra parte
u
0
Xn
(t) =
u
0
e
tx
dF
n
(x)
dt
=
e
tx
ix
u
0
dF
n
(x) =
e
ux
1
ix
dF
n
(x).
Para el c alculo del lmite de esta ultima integral cuando n tiende a innito, se
aplica el Teorema 12.1.4, y esto conduce a
lim
n
u
0
Xn
(t) =
e
ux
1
ix
dG(x) =
u
0
e
tx
dG(x)
dt.
Concluimos entonces que para cada u vale
u
0
X
(t) =
u
0
e
tx
dG(x)
dt
de manera que

e
tx
dG(x) es la funcion caracterstica de X, y esto implica
que G coincide con F. 2
190
Enrique M. Caba na.
Ejercicios
Ejercicio 12.3.1 Mostrar que la sucesion de funciones de distribuci on de las va-
riables X
n
= n + U, U Uniforme(0, 1) tiene lmite en cada punto de la recta
real, pero ese lmite no es una funci on de distribuci on de probabilidades. Obser-
var que lo mismo ocurre cualquiera sea la distribuci on de probabildades de U, no
necesariamente uniforme.
12.4 Teorema del Lmite Central para arreglos
triangulares de variables independientes.
Teorema 12.4.1 (de Lindeberg) Si k(n) es una sucesi on creciente de natura-
les, para cada n, X
n,1
, X
n,2
, . . ., X
n,k(n)
son variables independientes, EX
n,j
= 0,

k(n)
j=1
VarX
n,j
= 1, y lim
k(n)
j=1
EX
2
n,j
1
{|X
n,j
|>}
= 0 para cada > 0,
entonces

k(n)
j=1
X
n,j
converge en distribuci on a la normal tpica N(0, 1).
Posponemos la demostraci on hasta 13.13.
Corolario 12.4.1.1 Vale el Teorema del Lmite Central para variables equi-
distribuidas (Teorema 12.3.1).
Demostraci on. En efecto, es suciente vericar que si las variables X
1
, X
2
,
. . ., X
n
, . . . son independientes, equidistribuidas, con esperanzas y variancias
2
, entonces el arreglo triangular X
n,j
= (X
j
)/(
n), j = 1, . . . , n, satisface
las hip otesis del Teorema de Lindeberg.
La unica vericaci on no trivial es que para cada positivo,
lim
n
j=1
E[(X
j
)/(
n)]
2
1
{|X
j
|/(
n)>}
= 0.
Calculamos
n
j=1
E[(X
j
)/(
n)]
2
1
{|X
j
|/(
n)>}
=
2
E(X
1
)
2
1
{|X
1
|>
n}
.
La variable aleatoria cuya esperanza se calcula en el termino de la derecha est a
uniformemente acotada por (X
1
)
2
, que tiene esperanza nita, y converge
a cero cuando n tiende a innito, de modo que el lmite de las esperanzas es
cero, por el Teorema de Convergencia Dominada de Lebesgue. 2
12.5. Convergencia en distribuci on de estadsticos de orden. 191
12.5 Aplicaci on: Un ejemplo de convergencia
en distribuci on asociado a los estadsticos
de orden.
En lo que sigue utilizamos las notaciones de 8.11.1, con el agregado de un
superndice entre parentesis que indica el tama no de la muestra, por ejemplo,
el estadstico de orden h de una muestra U
1
, . . . , U
n
de la distribuci on uniforme
en [0, 1] lo denotaremos U
(n)
(h)
.
De acuerdo a lo visto en el Ejemplo 8.11.1, y en el Ejercicio 8.11.3, EU
(n)
(h)
=
h
n+1
y VarU
(n)
(h)
=
h(nh+1)
(n+1)
2
(n+2)
, de modo que cuando se hace tender n a innito,
con h = h(n) tal que h(n)/(n + 1) p, la esperanza de U
(n)
(h)
tiende a p y la
variancia tiende a cero, y esto implica que U
(n)
(h)
converge en probabilidad a p.
La variancia del producto Z
n
() = n
(U
(n)
(h)
p) a un tiende a cero para
< 1/2, de modo que si limn
h(n)
n+1
p
= 0, plim
n
Z
n
() = 0, y esto da
una idea de la rapidez de la convergencia de U
(n)
(h)
a p.
Cuando es mayor que 1/2, en cambio, la variancia de Z
n
() tiende a
innito, y en el caso lmite = 1/2, lim
n
VarZ
n
(1/2) = p(1 p). Vamos
a vericar que en este caso la sucesi on de variables aleatorias Z
n
= Z
n
(1/2)
converge en distribuci on, cuando la rapidez de la convergencia de h(n)/(n+1)
a p es suciente.
Teorema 12.5.1 Cuando 0 < p < 1 y se cumple
lim
n
h(n)
n
p
= 0 (12.5)
la sucesi on
1
p(1p)
Z
n
=
n
p(1p)
(U
(n)
(h(n))
p) converge en distribuci on a la
normal tpica.
Demostraci on. Tenemos que mostrar que, para todo x,
P
n
p(1 p)
(U
(n)
(h(n))
p) x
= P
U
(n)
(h(n))
p + x
p(1 p)
n
converge a (x) cuando n tiende a innito, y, con B

n
(p) =

n
i=1
1
{U
i
p}

Bin(n, p), B
n
(
n
) =

n
i=1
1
{p<U
i
p+n}
Bin(n,
n
), y
n
= x
p(1p)
n
, esto
192
Enrique M. Caba na.
equivale a vericar que
lim
n
P{B
n
(p) +B
n
(
n
) h(n)} = (x). (12.6)
Por el Teorema del Lmite Central aplicado a B
n
(p) (suma de variables
independientes de Bernoulli(p)), sabemos que W
n
=
Bn(p)np
np(1p)
converge en
destribuci on a la normal tpica, de modo que para cada x, limP{W
n
x} =
(x).
Esto sugiere reescribir la probabilidad que aparece en (12.6) en la forma
P
B
n
(p) np
np(1 p)
+
B
n
(
n
) n
n
np(1 p)
h(n) np n
n
np(1 p)
(12.7)
que abreviamos P{W
n
+ Y
n
+ x
n
x x} con
Y
n
=
B
n
(
n
) n
n
np(1 p)
,
x
n
=
1
p(1 p)
h(n)
n
p
n
n
x (n ).
De EY
n
= 0, VarY
n
=
nn(1n)
np(1p)
0 (cuando n ), resulta que Y
n
converge a cero en probabilidad, y lo mismo ocurre con Y
n
+ x
n
x.
Para obtener el resultado requerido, basta aplicar la parte (i) del Lema
12.5.1 a la suma de W
n
con Y
n
+ x
n
x. La conclusi on que se obtiene es que
W
n
+ Y
n
+ x
n
x converge en ley a la normal tpica, y, como consecuencia el
lmite de (12.7) es (x). 2
Corolario 12.5.1.1 La condici on (12.5) y por lo tanto la conclusi on del Teo-
rema se cumplen cuando h(n) = [np], h(n) = [np] + 1, o mas en general,
cuando h(n) = [np] +m, para cualquier entero jo m (la notaci on [x] signica
la parte entera de x, esto es, [x] = max{i : i Z, i x}).
La vericaci on es inmediata.
Corolario 12.5.1.2 Cuando, para cada n, X
(n)
1
, . . . , X
(n)
n
es una muestra de
tama no n de F, X
(n)
(h)
denota al estadstico de orden h de la muestra, y F tiene
densidad positiva y continua f, entonces
n
p(1p)
f(F
1
(p))(X
(n)
(h(n))
F
1
(p))
converge en distribuci on a la normal tpica cuando h(n) cumple la condici on
del enunciado del Teorema.
12.5. Convergencia en distribuci on de estadsticos de orden. 193
Demostraci on. Podemos pensar que X
(n)
(h(n))
es el resultado de aplicar la
transformaci on can onica F
1
al estadstico de orden h(n) de una muestra de
tama no n de la distribuci on uniforme en (0, 1). Un desarrollo de Taylor de
primer orden de
F
1
(U
(n)
(h(n))
) = F
1
(p)) +
1
f(F
1
(p + (U
(n)
(h(n))
p)))
(U
(n)
(h(n))
p), 0 < < 1
conduce a escribir la sucesi on
n
p(1p)
f(F
1
(p))(F
1
(U
(n)
(h(n))
) F
1
(p)) como
producto de
n
p(1p)
(U
(n)
(h(n))
p), que converge a la normal tpica como conse-
cuencia del Teorema 12.5.1, y el cociente
f(F
1
(p))
f(F
1
(p+(U
(n)
(h(n))
p)))
, que mostraremos
que converge en probabilidad a 1. La demostraci on quedar a completa estable-
ciendo la parte (ii) del Lema 12.5.1.
Para vericar que plim
f(F
1
(p))
f(F
1
(p+(U
(n)
(h(n))
p)))
= 1, nos referimos al Ejercicio
11.6.2. De acuerdo a lo que all se establece, nos basta mostrar que
plimf(F
1
(p + (U
(n)
(h(n))
p))) = f(F
1
(p)),
y, por la continuidad de f F
1
, basta que plim(U
(n)
(h(n))
p) = 0. Esto ultimo
lo hemos vericado directamente en 12.5, y tambien es consecuencia de la
parte (i) del Lema 12.5.1 aplicada al producto

n(U
(n)
(h(n))
p)
1
n
. 2
Lema 12.5.1 (i) Si Z
n
converge en distribuci on y X
n
converge en probabi-
lidad a cero, entonces Z
n
X
n
converge en probabilidad a cero, y Z
n
+X
n
converge en distribuci on al mismo lmite que Z
n
.
(ii) Si Z
n
converge en distribuci on y X
n
converge en probabilidad a 1, en-
tonces Z
n
X
n
converge en distribuci on al mismo lmite que Z
n
.
Demostraci on de (ii) a partir de (i). Basta escribir Z
n
X
n
= Z
n
+Z
n
(X
n
1),
y notar que plimX
n
1 = 0 2
Demostraci on de (i). Supongamos que Z
n
converge en distribuci on a Z
con funci on de distribuci on F y X
n
converge en probabilidad a 0. Dado > 0,
elegimos puntos de continuidad M, M de F tales que 1 F(M) +F(M) <
/2. Luego elegimos N tal que, para n N, P{|X
n
| > /M} < /2.
Deducimos que {|Z
n
X
n
| > } {|Z
n
| > M} {|X
n
| > /M}, y entonces
P{|Z
n
X
n
| > } P{|Z
n
| > M} + P{|X
n
| > /M} < , para n N, y esto
muestra que Z
n
X
n
converge a cero en probabilidad.
194
Enrique M. Caba na.
Dado el punto de continuidad x de F, y > 0, elegimos > 0 tal que
F(x + ) < F(x) + /2, y F(x ) > F(x) /2 y de modo que x + y
x sean tambien puntos de continuidad de F. Luego elegimos N tal que
si n N, P{|X
n
| > } < /2. Concluimos, por una parte, que el suceso
{Z
n
+ X
n
x} est a contenido en {Z
n
x + } {|X
n
| > } y por lo tanto
P{Z
n
+ X
n
x} P{Z
n
x + } +P{|X
n
| > }, y, por otra parte, que su
complemento {Z
n
+X
n
> x} est a contenido en {Z
n
> x}{|X
n
| > } y por
lo tanto P{Z
n
+X
n
> x} P{Z
n
> x} +P{|X
n
| > }, y P{Z
n
+X
n
x}
= 1 P{Z
n
+X
n
> x} 1 P{Z
n
> x} P{|X
n
| > } = P{Z
n
x}
P{|X
n
| > }.
Para n N,
P{Z
n
x } /2 P{Z
n
+ X
n
x} P{Z
n
x + } + /2,
y, pasando al lmite cuando n tiende a innito, resulta
F(x) F(x ) /2 liminf
n
P{Z
n
+ X
n
x}
limsup
n
P{Z
n
+ X
n
x} F(x + ) +/2 F(x) +.
Dado que es arbitrario, concluimos que existe el lmite de P{Z
n
+X
n
x}
y que vale F(x). 2
13. Complementos y
demostraciones omitidas en
captulos anteriores.
13.1 Teorema de Extensi on de Probabilidades
de A. N. Kolmogorov.
Repetimos el enunciado para facilitar la lectura: Teorema 3.2.1 Dada una
funci on p en un algebra /
0
de subconjuntos de con las propiedades
p() = 1,
para cualquier sucesi on A
1
, A
2
, . . . , A
n
, . . . de conjuntos disjuntos en /
0
cuya uni on tambien est a en /
0
, se cumple p(
n=1
A
n
) =

n=1
p(A
n
),
existe una unica probabilidad P en la mnima - algebra que contiene al algebra
dada, cuya restricci on al algebra es p, denida por
P(A) = inf
j=1
p(A
j
) : (A
j
)
jN
cubrimiento disjunto de A en /
0
. (13.1)
13.1.1 Demostraci on de la existencia.
Paso 1: Denici on de una extensi on P de p al dominio 2
.
Para cada A , denimos P(A) mediante (13.1). Llamamos abreviadamente
cubrimiento disjunto de A en /
0
a cualquier sucesion disjunta (A
j
)
jN
de conjuntos
contenidos en /
0
, cuya uni on contiene a A.
Se observar a que el nmo sobre todos los cubrimientos de A en /
0
, no necesaria-
mente disjuntos, coincide con P(A), ya que, por cada cubrimiento (A
j
)
jN
en /
0
,
195
196
Enrique M. Caba na.
Captulo 13 Complementos y demostraciones.
(

A
j
= A
j
(
i<j
A
i
)
c
)
jN
es un cubrimiento disjunto tambien en /
0
, y
j=1
p(

A
j
)
j=1
p(A
j
).
Vamos a mostrar que la restriccion de P a /
0
es p: Dado A en /
0
, la desigualdad
P(A) p(A) es trivial, pues (A, , , , . . .) es un cubrimiento de A en /
0
, y p(A) +
p() + p() + . . . = p(A). Por otra parte, la inclusi on A

j=1
A
j
, con (A
j
)
jN
disjuntos, en A
0
, permite escribir A =
j=1
(A
j
A), p(A) =
j=1
p(A
j
A)
j=1
p(A
j
), de modo que p(A) inf
j=1
p(A
j
) = P(A).
Paso 2: P es mon otona: (A B implica P(A) P(B)).
De /
0
resulta P() = p() = 0, y, dado que cuando A B, todo cubrimiento
de B lo es de A, entonces
B
=
j=1
p(A
j
) : (A
j
)
jN
cubrimiento de B en /
0
j=1
p(A
j
) : (A
j
)
jN
cubrimiento de A en /
0
=
A
y resulta la desigualdad
P(A) = inf
A
inf
B
= P(B).
Paso 3: P es subaditiva: para cualquier sucesi on (A
j
)
jN
de subconjuntos
disjuntos de , P(
j=1
A
j
)

j=1
P(A
j
)) y P() = 0.
Para cada sucesion disjunta (A
j
), y para cada > 0, P(
j=1
A
j
)
j=1
P(A
j
) +
. Para cada A
j
, buscamos un cubrimiento (A
j,k
)
k=1,2,...
en /
0
tal que P(A
j
)
k=1
p(a
j,k
) /2
j
. El cubrimiento (A
j,k
)
j,k=1,2,...
de
j=1
A
j
nos lleva a acotar
P(
j=1
A
j
)
j,k=1
p(a
j,k
)
j=1
(P(A
j
) +/2
j
) =
j=1
P(A
j
) +, y esta es la
desigualdad requerida. Como es arbitrario, se concluye la subaditividad.
Paso 4: La familia
/ = A : para todo B , P(B) = P(B A) + P(B A
c
)
es un algebra.
Es trivial que / contiene a , y que es cerrada bajo complementos, a partir de la
denici on. Tambien es cerrada bajo intersecciones, ya que si A, B / y C es un
conjunto cualquiera,
P(C) = P(C A) + P(CÀ) = P(C A B) + P((C A)`B) + P(CÀ)
13.1. Extensi on de probabilidades. 197
P(C (A B)) + P(C`(A B)), (13.2)
por la subaditividad de P, ya que C`(AB) = (CÀ) (CA)`B. Otra vez usamos
la subaditividad para agregar a la cadena de desigualdades (13.2)
P(C (A B)) + P(C`(A B)) P(C), (13.3)
y esto implica que todas las desigualdades en (13.2) y (13.3) pueden ser reemplazadas
por igualdades, y que, por consiguiente, A B esta en /.
Al ser / cerrada bajo complementos e intersecciones, tambien lo es bajo uniones.
Paso 5: La familia / introducida en el Paso 4 es una -algebra y (, /, P)
es un espacio de probabilidad.
Falta vericar que si (A
n
)
nN
/, entonces
nN
A
n
esta en /. La uni on
nN
A
n
=
nN
(A
n
`
j<n
A
j
) puede escribirse como uni on disjunta de elementos
de /, de modo que no perdemos generalidad al suponer para lo que sigue que los A
n
son disjuntos.
Para cada n,
jn
A
j
/, de modo que para cada B,
P(B) = P(B
jn
A
j
) + P(B`
jn
A
j
)
jn
P(B A
j
) + P(B`
jN
A
j
)
y, pasando al lmite cuando n , obtenemos
P(B)
jN
P(B A
j
) + P(B`
jN
A
j
)
P(B
jN
A
j
) + P(B`
jN
A
j
) P(B)
(las dos ultimas desigualdades por la subaditividad).
Se concluye que
jN
A
j
/, y ademas, con B =
jN
A
j
, P(
jN
A
j
) =
jN
P(A
j
), de modo que P es una probabilidad en (, /).
Paso 6 ( ultimo): /
0
/, y, por lo tanto, / contiene a la -algebra
generada por /
0
.
Dado A /
0
, D cualquiera, y arbitrario, cubrimos D por
j
A
j
, (A
j
) /
0
, de
modo que P(D) <
j
p(A
j
) + . 2
198
Enrique M. Caba na.
13.1.2 Demostraci on de la unicidad.
Supongamos ahora dos probabilidades P, Q sobre la -algebra / generada por /
0
,
cuya restriccion a /
0
es p, y llamemos
0
a la familia de sucesos en / sobre los
cuales P y Q coinciden.
Es inmediato que
0
contiene a /
0
, por la hip otesis sobre P y Q. Ademas, es cerrada
bajo complementos y bajo lmites monotonos: En efecto, si A,
0
, es decir, si P(A)
= Q(A), entonces P(A
c
) = 1P(A) = 1Q(A) = Q(A
c
), de modo que A
c

0
. Por
otra parte, si A
n
A, A
n

0
, entonces P(A) = lim
n
P(A
n
) = lim
n
Q(A
n
)
= Q(A). Esto ultimo establece que el lmite de una sucesion creciente en
0
tambien
esta en
0
. Lo mismo ocurre con una sucesion decreciente, ya que su lmite es el
complemento del lmite de la sucesion de complementos, y se aplican los resultados
ya establecidos.
Terminamos la demostracion una vez que establezcamos que cualquier familia de
conjuntos , cerrada bajo lmites monotonos que contiene un algebra /
0
, tambien
contiene a la -algebra / generada por /
0
. Esto es consecuencia del Lema 13.1.1,
que contiene un enunciado m as preciso. 2
Lema 13.1.1 La mnima - algebra / y la mnima familia cerrada bajo
lmites de sucesiones mon otonas de conjuntos, que contienen un algebra /
0
,
coinciden.
Demostraci on: La inclusi on / es inmediata, ya que toda -algebra es cerrada
bajo lmites de sucesiones.
Para demostrar la inclusi on en sentido inverso, vamos a establecer en primer lugar
que es un algebra. Para ello basta mostrar que
si A, B , entonces A B, A B
c
, A
c
B, A
c
B
c
(13.4)
En efecto, (13.4) aplicado a A, implica que es cerrada bajo complementos (Se
notar a que, puesto que /
0
, entonces en particular ). Que es cerrado
bajo intersecciones es parte de (13.4), y dado que una uni on se expresa en terminos de
intersecciones y complementos, AB = (A
c
B
c
)
c
, tambien es cerrada bajo uniones.
Una vez demostrado que es un algebra, se muestra que es una -algebra expresando
cada uni on
n=1
A
n
, A
n
en la forma lim
n
mn
A
m
, y esto implica
/.
De lo que precede, resulta que para terminar la demostraci on, s olo falta establecer
(13.4).
Dado A , llamemos
A
al conjunto de los B que cumplen (13.4). Si B
n
es una sucesion mon otona en
A
, entonces A B = limA B
n
esta en por ser
lmite de una sucesion mon otona en , y de la misma manera se cumplen el resto
de las propiedades que implican que B esta en
A
, es decir,
A
es cerrada bajo
lmites de sucesiones monotonas. Cuando A /
0
,
A
contiene a /
0
, y por lo tanto
coincide con .
13.2. Probabilidad en R, dada su funci on de distribuci on. 199
Reformulamos lo que precede en la forma A /
0
, B implican la conclusi on
de (13.4), que, por la intercambiabilidad de A y B en esa conclusion, equivale a
A , B /
0
implican la conclusi on de (13.4) o bien
A
/
0
para todo A
en . Repetimos el argumento que muestra que
A
es cerrada bajo lmites de
sucesiones monotonas, con lo que obtenemos nuevamente la conclusi on
A
contiene
a /
0
, y por lo tanto coincide con , esta vez para todo A . Esto es una manera
de reformular (13.4). 2
13.2 Denici on de una probabilidad en R a
partir de su funci on de distribuci on.
Teorema 3.2.2 Si F : R R satisface las propiedades
(d
1
) F
X
es no decreciente,
(d
2
) F
X
es continua por la derecha,
(d
3
) F
X
() = 0, F
X
(+) = 1,
entonces existe una probabilidad P
(F)
en (R, B) tal que
F(x) = P
(F)
((, x]).
Demostraci on: La probabilidad aludida es la extensi on de la funci on aditiva p en
el algebra de las uniones nitas de intervalos disjuntos de la forma (a, b], a
b , que vale p((a, b]) = F(b) F(a).
Observemos en primer lugar que p es aditiva, es decir, si A, B, son uniones nitas de
intervalos semiabiertos, y AB = , entonces p(AB) = p(A)+p(B). La vericaci on
es simple: Sugerimos, por ejemplo, considerar el conjunto nito C formado por los
puntos que pertenecen a la frontera de A o a la de B, y +, y el conjunto
tambien nito de los intervalos semiabiertos . = (a, b] : a, b C, (a, b) C = .
De esta construccion resulta que, si .
A
, .
B
son los subconjuntos de . formados
respectivamente por los intervalos contenidos en A, y los contenidos en B, entonces
A =
(a, b] : (a, b] .
A
, p(A) =
F(b) F(a) : (a, b] .

A
,
B =
(a, b] : (a, b] .
B
, p(B) =
F(b) F(a) : (a, b] .

B
,
A B =
(a, b] : (a, b] .
A
.
B
, p(A B)
=
F(b) F(a) : (a, b] .

A
.
B
,
y la conclusi on requerida es inmediata.
200
Enrique M. Caba na.
Para aplicar el Teorema de Extensi on (Teorema 3.2.1) es necesario vericar ademas
que, cuando una uni on numerable de uniones nitas de intervalos semiabiertos es ella
misma una uni on nita de intervalos semiabiertos, entonces a un vale la aditividad.
Cuando esta uni on consta de un solo intervalo, la demostraci on es el contenido del
Lema 13.2.1. Cuando consta de varios, se procede con cada uno por separado de la
misma manera. 2
Lema 13.2.1 Si F es una funci on con las propiedades (d
1
), (d
2
) y (d
3
) de
3.1.2, y (a, b] =

j=1
(a
j
, b
j
], donde ((a
j
, b
j
])
j=1,2,...
es una familia de intervalos
disjuntos, entonces F(b) F(a) =

j=1
(F(b
j
) F(a
j
)).
Demostraci on: Para cada J = 1, 2, . . ., reordenamos los intervalos del conjunto
nito (a
j
, b
j
] : j = 1, 2, . . . , J: Elegimos como primer intervalo al que contiene
los n umeros mas peque nos, y lo denominamos (a
J
(1)
, b
J
(1)
]. Como segundo intervalo,
que denominamos (a
J
(2)
, b
J
(2)
] elegimos al que contiene los n umeros mas peque nos en-
tre los restantes J 1 intervalos, y as sucesivamente. De esta manera, las familias
de intervalos (a
j
, b
j
] : j = 1, 2, . . . , J y (a
J
(j)
, b
J
(j)
] : j = 1, 2, . . . , J coinciden, y
b
J
(j)
a
J
(j+1)
para cada j = 1, 2, . . . , J 1.
Con esta nueva notaci on,
J
j=1
(F(b
j
) F(a
j
)) =
J
j=1
(F(b
J
(j)
F(a
J
(j)
))
= F(b
J
(J)
) F(a
J
(1)
)
J1
j=1
(F(a
J
(j+1)
) F(b
J
(j)
)) F(b
J
(J)
) F(a
J
(1)
)
porque la ultima suma tiene todos sus terminos no negativos.
De F(b
J
(J)
) F(b), F(a
J
(1)
) F(a) resulta la desigualdad
J
j=1
(F(b
j
) F(a
j
))
F(b) F(a), que vale para todo J y por lo tanto implica
j=1
(F(b
j
) F(a
j
)) F(b) F(a). (13.5)
Para demostrar la desigualdad opuesta, nos basamos en que cada intervalo cerrado
en R (como cualquier conjunto cerrado y acotado en R
d
) es compacto (Teorema de
Heine-Borel). Esto signica, aplicado al intervalo [c, b], que si la uni on de una familia
T de conjuntos abiertos
A : A T cubre (contiene) a [c, b], hay una subfamilia

nita T
0
T cuya union
A : A T
0
tambien cubre al mismo intervalo
1
.
1
Lo vericamos por reducci on al absurdo: Si no la hubiere, una de las dos mitades
[c, (c + b)/2] o [(c + b)/2, b] tampoco podra cubrirse con la uni on de una subfamilia nita,
ya que si ambas mitades admitieran un cubrimiento nito, la uni on de ambos cubrimientos,
que tambien es una uni on nita de abiertos de T, sera un cubrimiento de todo el intervalo.
Llamemos [c
1
, b
1
] a una de las mitades, que no admita un cubrimiento nito. Por el mismo
13.3. Propiedades de esperanzas e integrales. 201
Dado > 0, elegimos c (a, b) tal que F(c)F(a) < /2. La seleccion de c es posible
por la continuidad de F en a por la derecha. Para cada j, elegimos c
j
> b
j
tal que
F(c
j
) F(b
j
) /2
j+1
, lo que tambien es posible por la continuidad a la derecha de
F en b
j
. Se deduce que
j=1
(a
j
, c
j
)
j=1
(a
j
, b
j
] = (a, b] [c, b], de modo que, por
la compacidad, hay una uni on nita que cubre [c, b]:
J
j=1
(a
j
, c
j
) [c, b].
De esta ultima inclusi on se deduce la desigualdad
F(b) F(c)
J
j=1
(F(c
j
) F(a
j
)),
y por la seleccion de c, c
1
, c
2
, . . .,
F(b) F(a) /2
J
j=1
(F(b
j
) F(a
j
) + /2
j+1
)
j=1
(F(b
j
) F(a
j
)) + /2.
Esto equivale a F(b) F(a)
j=1
(F(b
j
) F(a
j
)) + , y, por ser arbitrario,
F(b) F(a)
J
j=1
(F(b
j
) F(a
j
)). (13.6)
De (13.5) y (13.6) resulta la igualdad requerida. 2
13.3 Algunas propiedades de las esperanzas y
de las integrales.
13.3.1 Monotona, linealidad y -aditividad de esperan-
zas e integrales.
Monotona.
La demostracion del Lema 6.3.2, se aplica tanbien al caso de la integral respecto
de , reemplazando P por . Ademas de justicar la coherencia de la denici on de
argumento, al menos una de las mitades de [c
1
, b
1
], que llamaremos [c
2
, b
2
], tampoco admite
un cubrimiento nito. Continuamos aplicando el mismo argumento a [c
2
, b
2
], y as sucesi-
vamente, para obtener una sucesion de intervalos [c
i
, b
i
] que no admiten ser cubiertos por
uniones nitas de elementos de T, cada uno mitad del anterior, es decir, b
i
c
i
= (b c)/2
i
,
b
i+1
= b
i
o c
i+1
= c
i
, i = 1, 2, . . .. Las sucesiones monotonas (c
i
), (b
i
) tienen un lmite
com un c
i
m, b
i
m, contenido en [c, b], y por lo tanto cubierto por un A
0
T. Para i su-
cientemente grande, [c
i
, b
i
] A
0
(porque A
0
es abierto), y esto contradice la construcci on,
puesto que basta un solo elemento de T para cubrir uno de los intervalos ([c
i
, b
i
]). Queda
as vericada la compacidad de [c, b]. 2
202
Enrique M. Caba na.
la integral, tiene como consecuencia inmediata que si 0 X Y y X es simple,
entonces
Xd
Y d.
De aqu resulta la monotona de la integral, expresada en la primera parte del Teorema
7.3.2, para integrandos no negativos. La monotona para integrandos cualesquiera es
inmediata a partir de la reducci on de la integral a diferencia entre la integral de la
parte positiva menos la integral de la parte negativa del integrando. 2
Linealidad.
Para demostrar la linealidad, segunda parte del enunciado del Teorema 7.3.2, puede
procederse en pasos sucesivos que imitan los que conducen a la denici on de la integral.
Paso 1: Linealidad para integrandos simples. Si X =
i
x
i
1
Ai
, Y =
j
y
j
1
Bj
,
x
i
, y
j
> 0, entonces X + Y , , > 0, es tambien una funci on simple, y
(X +
Y )d =
i
x
i
1
Ai
+
j
y
j
1
Bj
)d =
i
x
i
(A
i
) +
j
y
j
(B
j
) es lo mismo
que
Xd+
Y d (el resultado + no esta excluido). La extensi on a funciones

simples y coecientes de signo cualquiera, en el caso en que los integrandos son inte-
grables, es inmediata, como consecuencia de sumar por separado los terminos de uno
y otro signo.
Paso 2: Linealidad para integrandos y coecientes no negativos. Cuando X, Y son
no negativas, las aproximamos por sucesiones de funciones simples 0 X
n
X,
0 Y
n
Y , y la ecuacion
(X + Y )d =
Xd +
Y d resulta de pasar
al lmite en la igualdad
(X
n
+Y
n
)d =
X
n
d +
Y
n
d cuya validez se ha
establecido en el Paso 1.
Paso 3: Linealidad para integrandos y coecientes cualesquiera. Surge del resultado
del Paso 2, de manera elemental, aunque algo trabajosa. El detalle para el caso
, > 0, es el siguiente: Para establecer que
(X + Y )d =
(X + Y )
+
d
(X + Y )
d es lo mismo que
Xd +
Y d =
X
+
d +
Y
+
d
Y

d, hay que vericar la igualdad
(X + Y )
+
d +
d
+
Y

d =
(X + Y )
d +
X
+
d +
Y
+
d.
A esta ultima expresi on le podemos aplicar el Paso 2, que nos permite escribirla en
la forma
[(

X +

Y )
+
+

X
+

Y

]d =
[(

X +

Y )
+

X
+
+

Y
+
]d, (13.7)
con

X = X,

Y = Y . La igualdad (13.7) se debe a que los integrandos coinciden:
(

X +

Y )
+
+

X
+

Y

(

X +

Y )

X
+

Y
+
= (

X +

Y )

X

Y = 0.
2
-aditividad.
Se establece a partir de la linealidad y del Teorema 7.3.4 de Convergencia Mon otona,
cuando el integrando es no negativo, o del Teorema 7.3.6 de Convergencia Dominada,
13.5. Producto de probabilidades. 203
cuando es integrable: Si (A
n
)
nN
es una sucesion disjunta,
An
Xd = lim
n
mn
An
Xd = lim
n
mn
An
Xd
=
lim
n
1
mn
An
Xd =
nN
An
Xd.
2
13.3.2 Calculo de lmites.
En '6.5.3, con las notaciones que corresponden al c alculo de esperanzas, se
demuestran teoremas de pasaje al lmite que tambien son v alidos cuando las
esperanzas se reemplazan por integrales. Las demostraciones para integrales
respecto de medidas no necesariamente unitarias, son las mismas.
13.4 Cambio de variables en una integral.
Teorema 13.4.1 Dada la funcion medible X : (, /, ) (c, B), llamemos
X
a la medida
X
(B) = ( : X() B inducida por X en B, a partir de
. Valen entonces los dos enunciados siguientes:
Si g : (c, B) (T, () es una funci on medible no negativa, entonces
X
1
(B)
g Xd =
B
gd
X
. (13.8)
Son equivalentes g es integrable respecto de
X
y g X es integrable
respecto de , y en tal caso, vale (13.8).
La validez de (13.8) es trivial cuando g es la indicatriz de un conjunto en B, y por la
linealidad de ambos terminos respecto de la funci on g, (13.8) se extiende a funciones
simples. Dado que cuando una sucesi on de funciones simples (g
n
) aproxima g 0
mon otonamente (0 g
n
g), entonces tambien 0 g
n
X g X, se extiende la
validez de (13.8) a g 0 por convergencia mon otona.
Al aplicar (13.8) a [g[, se deduce en particular la equivalencia de las integrabilidades
de g y g X, y la validez de (13.8) aplicada a g integrable resulta de separar g =
g
+
g
, y aplicar el mismo resultado que se acaba de establecer para funciones no

negativas a g
+
y a g
por separado. 2
Corolario 13.4.1.1 En particular, cuando X es una variable aleatoria real
con funci on de distribuci on F,
Eg(X) =
g XdP =
gdP
X
=
g(x)dF
X
(x).
204
Enrique M. Caba na.
13.5 Producto de probabilidades, Teorema de
Fubini.
Denici on 13.5.1 Dados los espacios de probabilidad (
1
, /
1
), y (
2
, /
2
), se
llama producto de ambos al nuevo espacio de probabildad (
1
2
, /
1
/
2
),
donde
1

2
designa como es habitual al producto cartesiano (
1
,
2
) :
1

1
,
2

2
, y /
1
/
2
es la llamada -algebra producto de /
1
y /
2
, que es la mnima - algebra que contiene a los productos cartesianos
A
1
A
2
: A
1
/
1
, A
2
/
2
.
Dadas las probabilidades P
1
en (
1
, /
1
) y P
2
(
2
, /
2
), llamamos proba-
bilidad producto P = P
1
P
2
a la probabilidad en (
1
2
, /
1
/
2
) que a
cada suceso en / que es un producto cartesiano de sucesos A
1
/
1
, A
2
/
2
,
asocia P(A
1
A
2
) = P
1
(A
1
)P
2
(A
2
).
Para asegurar la coherencia de la denici on precedente, es necesario vericar que
la funci on de conjunto P denida sobre los productos cartesianos de sucesos se ex-
tiende a una probabilidad en la -algebra producto. Esta vericaci on es parte de la
demostracion del Teorema 13.5.1.
Lema 13.5.1 Cuando A /
1
/
2
sus secciones A
1
=
2
: (
1
,
2
) A,
A
2
=
1
: (
1
,
2
) A estan en /
2
, /
1
, respectivamente, para cada
1

1
y cada
2

2
, y cuando X : (
1

2
, /
1
/
2
) (c, B) es una funci on
medible, entonces X(
1
, ) : (
2
, /
2
) (c, B) y X(,
2
) : (
1
, /
1
) (c, B)
son medibles para cada
1
y cada
2
.
Teorema 13.5.1 (Teorema de Fubini.) Cuando X : (
1

2
, /
1
/
2
)
(c, B) es, o bien no negativa, o bien integrable respecto de la probabilidad
producto P = P
1
P
2
, entonces
E(X) =
XdP =

X(
1
,
2
)dP
2
(
2
)
dP
1
(
1
)
=

X(
1
,
2
)dP
1
(
1
)
dP
2
(
2
). (13.9)
Demostraci on del Teorema de Fubini:
Paso 1: X indicatriz de un suceso producto A = A
1
A
2
.
Cuando X(
1
,
2
) = 1
A
(
1
,
2
) = 1
A1
(
1
)1
A2
(
2
), hay que vericar que
XdP =
P(A) es igual a

1
A1
(
1
)1
A2
(
2
)dP
1
(
1
)
dP
2
(
2
) =
1
A1
(
1
)P
2
(A
2
)dP
1
(
1
) =
13.6. Integraci on en R
d
. 205
P
1
(A
1
)P
2
(A
2
), y esto es precisamente lo que establece la denicion de la probabilidad
producto.
Paso 2: X indicatriz de un suceso A /
1
/
2
, y vericacion de la coherencia de
la denici on de probabilidad producto.
Del Paso 1 resulta una consecuencia interesante: En virtud del Lema 13.5.1 la funci on
de conjunto
A

1
A
(
1
,
2
)dP
2
(
2
)
dP
1
(
1
) (13.10)
esta bien denida por medio de las integrales para todo A medible en la -algebra
producto, y, como consecuencia de las propiedades de las integrales, es -aditiva.
Por otra parte, coincide con el producto de las probabilidades de los factores cuando
A = A
1
A
2
como lo muestra el calculo que precede. Por lo tanto, se concluye
la coherencia de la denici on de la probabilidad producto, y esta puede expresarse
mediante (13.10). Por un argumento en el que se intercambian los papeles de
1
y
2
, se establece que tambien P(A) =

1
A
(
1
,
2
)dP
1
(
1
)
dP
2
(
2
). En resumen,
vale (13.9) para indicatrices de sucesos.
Pasos restantes: extension sucesiva hasta el caso general, de la manera habitual.
Una vez vericada la validez de (13.9) para indicatrices, las igualdades se extienden
a variables simples por la linealidad, y a variables no negativas por la convergencia
mon otona, ya que una y otra son aplicables en cada termino de la ecuacion a estable-
cer. Se extiende luego a variables integrables X = X
+
X
, aplicando (13.9) por

separando a X
+
y a X
. 2
Demostraci on del Lema 13.5.1: Para cada
1

1
introducimos la funci on
1
:
2

1

2
denida por
1
(
2
) = (
1
,
2
). Dado que para cada A
1
/
1
,
A
2
/
2
,
1
1
(A
1
A
2
) es A
2
si
1
A
1
o en caso contrario, y en ambos casos
1
1
(A
1
A
2
) /
2
, se deduce que las preimagenes de los sucesos de la -algebra
generada por los productos A
1
A
2
esta contenida en /
2
, y esto signica que
1
:
(
2
, /
2
) (
1

2
, /
1
/
2
) es medible.
Como consecuencia,
A
1
=
1
1
(A) /
2
,
y
X(
1
, ) = X
1
composicion de funciones medibles, es medible.
Estas dos ultimas conclusiones y las que se obtienen intercambiando el papel de las
coordenadas
1
y
2
terminan la demostraci on. 2
Nota: Los resultados de esta secci on se extienden de probabilidades a me-
didas -nitas a partir de la representaci on de estas ultimas mediante combi-
naciones lineales de probabilidades.
206
Enrique M. Caba na.
13.6 Integral de Lebesgue y densidades en R
d
.
La medida de Lebesgue en R
d
es la que a cada producto cartesiano B
1

. . . B
d
de conjuntos de Borel B
i
en R (i = 1, . . . , d) asocia el producto de
sus medidas de Lebesgue unidimensionales
(B
1
. . . B
d
) =
d
i=1
(B
i
).
Esta medida est a denida en la mnima -algebra B
(d)
que contiene a los
productos de conjuntos de Borel, que es la - algebra de Borel de R
d
.
La integral de Lebesgue en R
d
es la integral respecto de .
De la misma manera que en el caso unidimensional, cuando X : R
d
tiene distribuci on P
X
en (R
d
, B
(d)
) absolutamente continua respecto de ,
decimos que la distribuci on de X es absolutamente continua sin hacer menci on
expresa de la medida de Lebesgue. A la densidad f =
dPx
d
la llamamos
densidad de P
X
y esta funci on satisface
PX S = P
X
(S) =
S
f d (13.11)
para cualquier S en B
(D)
.
Las observaciones limitativas de '8.1 sobre las regiones S donde vale (8.2)
se deben a que se sobreentiende que la integral a la que se reere el contexto
es la de Riemann. Al enunciar la validez de (8.2), en el caso d = 2, sobre
rect angulos, uniones de rect angulos, o regiones tales como S = (x, y) : a
x b, c(x) y d(x) con c, d continuas en [a, b], lo que se procura garantizar
es la existencia de la integral de Riemann. Al utilizar la integral de Lebesgue,
estas limitaciones son innecesarias, como acabamos de establecer al enunciar
(13.11).
Cuando la integral de Riemann
A
f(x, y)dx dy existe, y f es -integrable,
entonces

A
f dx dy =

f1
A
d. Un enunciado an alogo vale para cualquier
d > 2. La demostraci on es similar a la del Teorema 7.4.1.
13.7 Una distancia entre probabilidades.
Supongamos que las probabilidades P y Q tienen densidades p y q respec-
tivamente, respecto de una medida . La diferencia P(A) Q(A) puede
entonces escribirse por medio de la integral

A
(p q)d. Esta expresi on al-
canza su m aximo valor en el conjunto A
+
= p > q, y su mnimo (nega-
tivo) en A
= p < q. La suma de los valores absolutos de estos extremos,

13.8. Normas L
p
. 207
que tambien puede escribirse en la forma

A
+(p q)d

A
(p q)d =
(1
A
+ 1
A
)(dP dQ), coincide con
P Q = max
|f|1
fd(P Q), (13.12)

como es f acil vericar a partir de esta ultima forma de escritura.
La expresi on (13.12) puede utilizarse como un indicador de la distancia
entre las probabilidades P y Q.
Nota: Se observar a que, aunque la medida no juega ning un papel en el
resultado
P Q = max
A
(P(A) Q(A)) + max
A
(Q(A) P(A))
el razonamiento s olo se aplica, en principio, a probabilidades que tengan den-
sidad respecto de alguna medida , pues se requiere utilizar esas densidades
para vericar la existencia de los m aximos involucrados, e incluso encontrar en
que sucesos se producen. Sin embargo, el Teorema 7.6.1 asegura la existencia
de tal medida , por ejemplo, = P + Q.
Ejercicio 13.7.1 Mostrar que (13.12) tiene las propiedades de una distancia entre
probabilidades, a saber,
P Q 0, con igualdad si y s olo si P = Q, y
P R P Q + Q R, para cualesquiera probabilidades P, Q, R.
13.8 Normas L
p
en espacios de clases de equi-
valencia de funciones medibles.
Es facil vericar que la distancia P Q entre las probabilidades P y Q con
densidades respectivas p y q respecto de dada por la f ormula 13.12 coincide
con

[p q[d. Al expresarla de esta manera, en terminos de las densidades,
resulta natural preguntarse si esta distancia entre las probabilidades puede ser
tambien interpretada como una distancia entre las funciones de densidad p y
q.
La respuesta es que no, porque dos funciones distintas, pero que dieran
solo sobre un conjunto de medida nula (es decir, p = q = 0) cumplen
[p q[d = 0. Esto no contradice que la misma integral mida la distancia

entre las probabilidades cuyas densidades son p y q, ya que cuando p = q
208
Enrique M. Caba na.
= 0, para todo conjunto medible A,

A
pd =

A
qd, y entonces p y q son
densidades de la misma medida.
Esta observaci on sugiere introducir las clases de equivalencia de funciones
que dieren entre s en conjuntos de medida nula:
Denici on 13.8.1 Dos funciones medibles f, g : (, /, ) R son equiva-
lentes (o -equivalentes, cuando la medida a la que se asocia esta denici on
no es obvia dentro del contexto) cuando f = g = 0.
Notacion: Denotaremos la clase de equivalencia de una funci on f mediante el mismo
smbolo f que denota a la funci on.
Lema 13.8.1 En el conjunto de las clases de -equivalencia de funciones me-
dibles f de (, /, ) en R con la propiedad

[f[d < , |f|
1
=

[f[d es
una norma, y d
1
(f, g) =

[f g[d es una distancia.
Notacion: En expresiones tales como |f|
1
=
[f[d, el smbolo f en el primer

miembro denota una clase de equivalencia de funciones, y el mismo smbolo f en el
segundo miembro designa una cualquiera de las funciones representantes de esa clase.
La coherencia de la notaci on se debe a que cualquiera sea la funci on de la clase que
se use como integrando, el resultado es el mismo.
Corolario 13.8.1.1 La distancia P Q entre las probabilidades P con densi-
dad p y Q con densidad q es igual a la distancia |p q|
1
entre las densidades.
Ejercicio 13.8.1 Vericar que la armaci on del Lema 13.8.1 referente a d
1
es
consecuencia del resultado del Ejercicio 11.2.3, y demostrar la armaci on relativa a
| |
1
.
Ejercicio 13.8.2 Mostrar que | |
1
no esta inducida por un producto interno.
Sugerencia: Si lo estuviera, el Ejercicio 11.2.2 permite encontrarlo. Sin embargo el
presunto producto interno que se escribe en terminos de la norma no cumple las
propiedades que debe cumplir un producto interno.
El siguiente enunciado generaliza al del Lema 13.8.1:
Teorema 13.8.1 (Espacios L
p
.) En el conjunto L
p
(, /, ) de las clases de -
equivalencia de funciones medibles f : (, /, ) R con la propiedad

[f[
p
d
< , |f|
p
= (
[f[
p
d)
1/p
es una norma, y d
p
(f, g) = (
[f g[
p
d)
1/p
es una
distancia, cuando p es mayor o igual que 1.
13.9. Densidad de una medida. 209
Demostraci on. Basta mostrar que |f|
p
= (
[f[
p
d)
1/p
dene una norma.
La unica propiedad no inmediata a vericar es que para cualesquiera f, g en
L
p
(, /, ), |f + g|
p
|f|
p
+|g|
p
.
El caso p = 2 est a esencialmente tratado en el Ejercicio 11.2.1, ya que
los mismos argumentos utilizados en la demostraci on del Teorema 11.2.1 se
aplican para mostrar que (f, g)

fgd es un producto interno.
El caso p = 1 es el del Teorema 13.8.1, ya establecido, y supondremos en
lo que sigue p > 1. Observamos en primer lugar que no se pierde generalidad
si se suponen f y g no negativas. Bajo esta suposici on, escribimos
(f + g)
p
d =
f(f + g)
p1
d +
g(f + g)
p1
d,
y la desigualdad que queremos establecer es equivalente a
f(f + g)
p1
d +
g(f + g)
p1
d (|f|
p
+ |g|
p
)|f + g|
p1
p
.
Vamos a vericar por separado
f(f + g)
p1
d |f|
p
|f + g|
p1
p
, (13.13)
g(f + g)
p1
d |g|
p
|f + g|
p1
p
.
Basta considerar la primera de estas desigualdades, porque la otra se obtiene in-
tercambiando f con g. Introducimos las notaciones h =
f
fp
p
, k =
f+g
f+gp
p
,
con lo que (13.13) se expresa en la forma

h
(1/p)
k
(p1)/p
d 1.
Vamos a utilizar la siguiente desigualdad, que demostramos por separado
(ver Lema 13.8.2 y tomar la exponencial):
0 1, x, y > 0, implican x
y
(1)
x + (1 )y.
La aplicamos con x = h, y = k y = 1/p, y obtenemos
h
(1/p)
k
(p1)/p
d
1
p
hd + (1
1
p
)
kd = 1,
porque

hd =

[f/|f|
p
]
p
d =

f
p
d/|f|
p
= 1, y tambien, an alogamente,
kd = 1. Esto termina la demostraci on. 2

Lema 13.8.2 La funci on log tiene derivada segunda negativa, y, como con-
secuencia, cada punto del segmento que une los puntos (x, log x), (y, log y) de
su gr aco, est a por debajo del gr aco, es decir, para cada entre 0 y 1,
log(x + (1 )y) log x + (1 ) log y.
Demostraci on. Est a incorporada al enunciado. 2
210
Enrique M. Caba na.
13.9 Densidad de una medida absolutamente
continua.
Con motivo del Corolario 7.3.3.1 hemos considerado diferencias de medidas, que
hemos llamado medidas con signo en esa oportunidad. En la secci on '13.7 se observo
que la medida con signo P Q alcanza su maximo sobre un conjunto A
+
y su
mnimo sobre un conjunto A
. Es inmediato que sobre el complemento de A

+
A
P Q se anula, de modo que podemos establecer que existe un suceso C (que puede
elegirse igual a A
+
o a (A
)
c
) sobre el cual P Q alcanza su maximo, y sobre cuyo
complemento alcanza su mnimo. M as a un, P Q es no negativa sobre cualquier
subconjunto de C y no positiva sobre cualquier subconjunto de su complemento.
Este resultado se obtuvo en '13.7 a partir de las densidades de las medidas involu-
cradas P y Q. Sin embargo, puede establecerse de manera directa, y lo haremos para
utilizarlo como insumo en la demostraci on del Teorema que demuestra la existencia
de la densidad.
Denici on 13.9.1 Llamamos una medida con signo en un espacio de me-
dida (, /) a una funci on -aditiva con dominio / y recorrido en R+
o bien en R .
Lema 13.9.1 (Descomposicion de Jordan-Hahn). Dada la medida con signo
en (, /), nita, existe un conjunto medible C tal que para cualquier A
/, A C, se cumple (A) 0, y para cualquier A /, A C = , se
cumple (A) 0. Como consecuencia, es m axima en C y mnima en su
complemento.
Demostraci on. Llamemos M al extremo superior de (A) : A /, y consideremos
una sucesion (A
n
)
nN
tal que (A
n
) M, cuya uni on llamamos A
. Para cada n
se considera la familia 1
n
de las 2
n
intersecciones de la forma
n
i=1
A
i
, donde cada A
i
es A
i
o A
` A
i
, y se denen B
n
=
C : C 1
n
, (C) > 0. De esta construccion
resulta (A
n
) (B
n
).
Complementamos la construccion con C
m
=
mn
B
m
. A medida que m crece, el
agregado de cada B
m
agranda la uni on con conjuntos sobre los cuales es no negativa.
Por lo tanto, (B
n
) (C
n
).
Reunimos esta desigualdad con la obtenida anteriormente, y recordamos que esta
acotada por M, de modo que (A
n
) (C
n
) M. La sucesion C
n
es monotona.
Llamemos C a su lmite, y pasemos al lmite en las desigualdades anteriores cuando
n tiende a innito. Obtenemos M (C) M, es decir, (C) alcanza el valor
maximo M.
Como consecuencia, sobre cualquier subconjunto medible del complemento de C,
debe ser no positiva, pues de lo contrario, agreg andolo a C tendramos un valor mayor
para . An alogamente, sobre cualquier subconjunto medible de C es no negativa,
porque en caso contrario, quit andolo obtendramos un valor de a un mayor. 2
13.9. Densidad de una medida. 211
Corolario del Lema 13.9.1Si << son dos medidas nitas en (, /) y
() > 0, entonces existe una funci on medible f no negativa tal que
f d > 0,
y para todo A medible,

A
f d (A). En particular, puede elegirse f igual
a un m ultiplo de la indicatriz de un suceso.
Demostraci on: La medida con signo denida por (A) = (A)
A
c d alcanza
un valor positivo en cuando c se elige adecuadamente, por ejemplo, c =
()
2()
. Por
lo tanto, el conjunto C donde es positiva, de la descomposicion de Jordan-Hahn es
no trivial, y en el se cumple (C) () =
1
2
().
Para cualquier A C, (A) = (A)
A
c d > 0, de modo que la funci on f = c1
C
tiene las propiedades que se indican en el enunciado. 2
13.9.1 Demostraci on del Teorema de Radon-Nikodym.
Repetimos el enunciado del Teorema 7.6.1 para facilidad de referencia:
Cuando es una medida -nita absolutamente continua respecto de la
medida -nita , existe la densidad de con respecto a , es decir, existe
una funci on medible g (que se denota d/d), tal que para todo A medible,
(A) =

A
gd. La densidad es esencialmente unica, es decir, si h es tambien
una densidad (porque es una funci on medible que cumple (A) =

A
hd para
todo A medible), entonces g = h = 0.
Para el caso en que es una probabilidad P, y es una medida nita, el
enunciado expresa que, si P es absolutamente continua respecto de , entonces
existe la densidad p de P con respecto a , tal que para todo suceso A, P(A) =
A
p d.
Desarrollamos a continuaci on la demostraci on para este caso. Cuando se
trata de una medida sigma nita en vez de P, se la escribe como combi-
naci on lineal de probabilidades, y se aplica el resultado ya establecido a cada
probabilidad. Cuando es -nita, se hace una partici on disjunta (D
n
)
nN
de tal que sobre cada D
n
sea nita, y se aplica el resultado ya obtenido a
las restricciones de y de a cada D
n
por separado.
Demostraci on: Partimos entonces de P << , nita, y consideramos la clase
T
+
= q 0 :
A
q d P(A), para todo A /.
Se trata de una familia no vaca, pues contiene a la constante 0, y adem as es cerrada
bajo supremos de sucesiones. En efecto, si q, r T
+
, entonces
A
(q r) d =
A{q>r}
q d +
A{qr}
r d P(A p > q) + P(A p q = P(A). Si
212
Enrique M. Caba na.
(q
n
)
nN
T
+
y r
n
= q
1
q
2
. . . q
n
, entonces (r
n
)
nN
T
+
, por el calculo
precedente, y se deduce sup
n
q
n
= limr
n
T
+
por la continuidad de la integral.
Llamemos s = sup
qF
q d. A partir de una sucesi on (q

n
)
nN
T
+
con la propie-
dad lim
n
q
n
d = s, construimos p = sup
nN
q
n
, que cumple
p d = s. Vamos
a mostrar que p es la densidad que buscamos. Para ello, basta vericar que la medida
(A) = P(A)
A
p d es nula.
Lo demostramos por reducci on al absurdo. Si no lo fuera, el Corolario del Lema
13.9.1 nos llevara a encontrar f = c1
C
con c, (C) > 0, tal que p + f estara en
T
+
, pero
f d > 0, en contradicci on con la seleccion de p, pues se obtendra
(p + f)d >
p d = s.
Si p
es otra densidad, entonces para todo suceso A, P(A) =
A
p
d, de modo que
para todo suceso A,
A
(p
p) d = 0, y esto implica p
= p = 0 (ver Teorema
7.3.1). 2
13.10 Inversi on de la funci on caracterstica de
una distribuci on de probabilidades en
R.
Teorema 13.10.1 Cuando : R C es la funci on caracterstica (t) =
E(e
tX
) de una variable aleatoria X : R, la distribuci on F
X
de X se
obtiene a partir de mediante la f ormula de inversi on
F
X
(b) F
X
(a) =
1
2
lim
u
u
u
e
ta
e
tb
t
(t)dt
v alida en puntos de continuidad a, b de F
X
.
Demostraci on: Calculamos
1
2
u
u
e
ta
e
tb
t
(t)dt =
1
2
u
u
e
ta
e
tb
t
dt
e
tx
dF
X
(x)
=
1
2

u
u
e
t(xa)
e
t(xb)
t
dt
dF
X
(x)
=
1
2

u
u
e
t(x(a+b)/2)
e
t(ba)/2
e
t(ba)/2
t
dt
dF
X
(x)
=
1

u
0
(e
t(x(a+b)/2)
+ e
t(x(a+b)/2)
)
sin(t(b a)/2)
t
dt
dF
X
(x)
13.10. Inversi on de la funci on caracterstica en R. 213
= 2
1

u
0
cos(t(x (a + b)/2))
sin(t(b a)/2)
t
dt
dF
X
(x)
=
1

u
0
sin(t(x a)) + sin(t(b x))
t
dt
dF
X
(x)
=
1
u(xa)
0
sin(y)
y
dy
dF
X
(x) +
1
u(bx)
0
sin(y)
y
dy
dF
X
(x).
La funci on sin(y)/y es positiva en (0, ), (2, 3), . . ., (2n, (2n + 1)), . . ., y nega-
tiva (, 2), . . ., ((2n1), 2n), . . ., de modo que su integral I(x) =
x
0
(sin(y)/y)dy
alterna intervalos de crecimiento, que son los primeros, y decrecimiento, que son
los restantes, como lo indica la Figura 13.1. Adem as, para cada n > 0, los in-
crementos I(n) I((n 1)), I((n + 1)) I(n), de distinto signo, satisfacen
[I(n) I((n1))[ > [I((n+1)) I(n)[, ya que, por ser sin(y ) = sin(y), se
cumple [I(n) I((n1))[ =
n
(n1)
[ sin(y)[dy/y =
(n+1)
n
[ sin(y )[dy/(y )
>
(n+1)
n
[ sin(y)[dy/y. Estas desigualdades nos muestran, por una parte, que el
maximo de I se alcanza en , y, por otra parte, que existe el lmite lim
x
I(x). Es
bien conocido que este lmite vale /2, como lo indica el Lema 13.10.1, que agregamos
a los efectos de completar los argumentos de esta demostracion.
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
0 2 4 6 8 10 12 14
Figura 13.1: Gr acos de sin(x)/x (lleno) y de I(x)/ (punteado), con I(x) =
x
0
sin(y)dy/y. En abscisas se indica x/.
Como consecuencia de una de las observaciones anteriores, el integrando
1
u(xa)
0
sin(y)
y
dy
+
1
u(bx)
0
sin(y)
y
dy
214
Enrique M. Caba na.
esta acotado en valor absoluto por la constante 2I(), uniformemente en u. Por lo
tanto, por el Teorema de Convergencia Dominada, podemos pasar al lmite cuando
u tiende a innito dentro de la integral respecto de dF
X
. El lmite del integrando es
1 cuando a < x < b, 0 cuando x < a o b < x y 1/2 cuando x = a y cuando x = b.
Por lo tanto, resulta una versi on de la f ormula del enunciado v alida a un en puntos
de discontinuidad de F
X
:
F
X
(b) + F
X
(b
) F
X
(a) F
X
(a
)
2
=
1
2
lim
u
u
u
e
ta
e
tb
t
(t)dt.
2
Una consecuencia importante (e inmediata) del teorema precedente es el
siguiente corolario:
Corolario 13.10.1.1 La funcion caracterstica de una variable aleatoria X
determina a su distribuci on F
X
.
Lema 13.10.1

0
sin(y)
y
dy =

2
.
Demostraci on. Aplicamos el Teorema de Cauchy de integracion de funciones de va-
riable compleja, al c alculo de la integral de e
z
/z en el camino que indica la Figura
13.2.
r r R R
0
Figura 13.2: Camino de integraci on para el c alculo de

e
z
dz/z.
El Teorema mencionado indica que la integral es cero, de modo que podemos escribir:
R
r
e
t
t
dt +

0
e
Ret
dt
R
r
e
t
t
dt

0
e
ret
dt = 0.
De aqu resulta, pasando al lmite con r 0,
2
R
0
sin(t)
t
dt +

0
e
Rcos(t)
e
Rsin(t)
dt = . (13.14)
Puesto que e
Rcos(t)
esta acotado, y lim
R
0
e
Rsin(t)
dt = 0, se obtiene el resultado
indicado en el enunciado al pasar al lmite en 13.14 cuando R .
13.11. Inversi on de la funci on caracterstica en R
d
. 215
13.11 Inversi on de la funci on caracterstica de
una distribuci on de probabilidades en
R
d
.
Teorema 13.11.1 Cuando : R
2
C es la funci on caracterstica (s, t)
= E(e
(sX+tY )
) de la pareja de variables aleatorias (X, Y ) : R
2
, la dis-
tribuci on conjunta F
X,Y
de (X, Y ) se obtiene a partir de mediante la f ormula
de inversi on
F
X,Y
(b, d) F
X,Y
(b, c) F
X,Y
(a, d) + F
X,Y
(a, c)
=
1
(2)
2
lim
u
u
u
u
u
e
sa
e
sb
s
e
tc
e
td
t
(s, t)ds dt
v alida en intervalos de continuidad ((a, b), (c, d)] de F
X,Y
.
Denici on 13.11.1 El intervalo generalizado ((a, b), (c, d)] = (x, y) : a <
x b, c < y d es un intervalo de continuidad de la distribuci on conjunta o
de la funci on de distribuci on conjunta de las variables X, Y , cuando la proba-
bilidad de que (X, Y ) pertenezca al borde de ((a, b), (c, d)] es nula.
Demostraci on: Adaptamos el calculo de la demostracion del teorema de inversi on del
caso unidimensional, a la situaci on presente:
1
(2)
2
u
u
u
u
e
sa
e
sb
s
e
tc
e
td
t
(s, t)ds dt
=
1
(2)
2
u
u
u
u
e
sa
e
sb
s
e
tc
e
td
t

e
(sx+ty)
)dF
X,Y
(x, y)ds dt
=
1
(2)
2

u
u
e
s(x(a+b)/2)
e
s(ba)
e
s(ba)
s
ds
u
u
e
t(y(c+d)/2)
e
t(dc)
e
t(dc)
t
dt
dF
X,Y
(x, y)
=
1
2

u
0
sin(s(x a)) + sin(s(b x))
s
ds
u
0
sin(t(x c)) + sin(t(d x))
t
dt
dF
X,Y
(x, y)
(u)

1
((a,b)(c,d))
+
1
2
1
((a,b)(c,d))
dF
X,Y
(x, y),
donde la notaci on A designa a la frontera del conjunto A.
216
Enrique M. Caba na.
Como en el caso unidimensional, esta f ormula es ligeramente mas general que la del
enunciado, y la implica trivialmente. 2
Tanto el enunciado como la demostracion correspondientes al caso d-dimensional,
para d > 2, son similares, y nos limitamos a escribir el enunciado:
Teorema 13.11.2 Denotamos por X = (X
1
, . . . , X
d
) a una variable aleatoria
con valores en R
d
, y por : R
d
C a su funcion caracterstica (t) =
E(e
t,X
), con t = (t
1
, . . . , t
d
) y 't, X` =

d
h=1
t
h
X
h
.
La distribuci on conjunta F
X
de X se obtiene a partir de mediante la
f ormula de inversi on
F
X
((a, b]) =
1
(2)
d
lim
u
u
u
. . .
u
u
d
h=1
e
t
h
a
h
e
t
h
b
h
t
h
(t)dt
1
. . . dt
d
v alida en intervalos de continuidad (a, b] = x = (x
1
, . . . , x
d
) : a
h
< x
h
b
h
,
h = 1, . . . , d de F
X
.
Resultan de lo anterior los siguientes corolarios:
Corolario 13.11.2.1 La funci on caracterstica de una variable X con valores
en R
d
permite identicar la distribuci on de X.
Corolario 13.11.2.2 Las distribuciones de probabilidad de todas las combina-
ciones lineales 't, X` de una variable aleatoria X con valores en R
d
permiten
identicar (y obtener) la distribuci on conjunta de X.
El primer corolario es una consecuencia inmediata del Teorema de Inversi on
13.11.2, y el segundo se debe a que para construir la funci on caracterstica,
por su propia denici on, basta conocer las distribuciones de las combinaciones
lineales de las componentes de X. 2
13.12 Demostraci on de la Ley Fuerte de los
Grandes N umeros de Kolmogorov.
El Teorema 11.9.2 expresa que si (X
n
)
n=1,2,...
es una sucesion de variables
aleatorias independientes, todas con la misma distribuci on, E[X
1
[ < , y
es el valor esperado com un de todas ellas, entonces
P
lim
n
X
1
+ X
2
+ . . . + X
n
n
=
= 1.
13.12. Demostraci on de la L.G.N. de Kolmogorov. 217
Basta demostrar este resultado para variables no negativas, porque en el
caso general, descomponemos X
n
= X
+
n
X
n
, y aplicamos el Teorema a las
sucesiones (X
+
n
) y (X
n
) por separado. Suponemos en lo que sigue que X
1
0.
Demostraci on para variables no negativas. Recordemos que, cuando una variable
aleatoria V solo toma valores naturales, su esperanza se puede calcular como suma
de las probabilidades asociadas a las semirrectas (j, ), j N:
EV =
j=0
jPV = j =
j=0
j
k=1
PV = j =
k=1
j=k
PV = j =
k=1
PV k.
Denotemos la parte entera, como en captulos anteriores, mediante [ ]. De las de-
sigualdades [X
1
] X
1
< [X
1
] + 1 que acotan la variable X
1
entre dos variables de
valores naturales, deducimos E[X
1
] EX
1
E[X
1
] + 1, es decir,
j=1
PX
1
j EX
1

j=0
PX
1
j.
Para cada n N, introducimos X
n
= X
n
1
{Xnn}
y vericamos que se cumple
X
n
= X
n
para todo n sucientemente grande, con probabilidad 1, es decir:
P(
mn
X
n
= X
n
) = 1.
En efecto, el suceso complementario
mn
X
m
= X
m
c
tiene probabilidad aco-
tada para cada n por
P(
mn
X
m
= X
m
c
)
mn
P(X
m
= X
m
c
) =
mn
PX
m
> m.
Esta suma esta acotada por el resto de la serie convergente
j=1
PX
1
j EX
1
< , que tiende a cero cuando n tiende a innito, y esto implica que la probabilidad
de
mn
X
m
= X
m
c
es cero.
La propiedad que acabamos de vericar implica que, con las notaciones S
n
=
n
j=1
X
j
y S
n
=
n
j=1
X
j
, se cumple, casi seguramente, lim
n
(S
n
S
n
)/n = 0. Nuestra
meta sera entonces vericar que, casi seguramente, lim
n
S
n
/n = EX
1
, para con-
cluir que Plim
n
S
n
/n = EX
1
= 1.
Calculamos
lim
n
n
j=1
X
j
n
EX
1
= lim
n
n
j=1
(X
j
EX
j
)
n
+
n
j=1
(EX
j
EX
1
)
n
= lim
n
n
j=1
(X
j
EX
j
)
n
porque lim
n
EX
n
= lim
n
EX
1
1
{X1n}
= EX
1
por el Teorema de Conver-
gencia Dominada, ya que lim
n
X
1
1
{X1n}
= X
1
, y [X
1
1
{X1n}
[ X
1
, cuya
esperanza es nita.
218
Enrique M. Caba na.
Vamos a vericar
lim
n
n
j=1
(X
j
EX
j
)
n
= 0, (13.15)
es decir que, dado > 0 arbirtrario, para alg un m y para todo n m se cumple
A
n
=
n
j=1
(X
j
EX
j
)
n
<
casi seguramente. Esto puede expresarse en la forma

P(
nm
A
n
) = 1, y equivale a P(
nm
A
n
c
) = 0.
En vez de demostrar directamente (13.15), vamos a comenzar estableciendo
lim
i
ni
j=1
(X
j
EX
j
)
n
i
= 0, (13.16)
para la sucesion n
i
= [(1 + )
i
], > 0, que satisface n
i
, n
i
(1 + )
i
< n
i
+ 1
2n
i
. Para ello, veremos que dado > 0, P
i0
ii0
(A
ni
)
c
= 0 y basta para
establecerlo mostrar que la serie
i
P(A
ni
)
c
es convergente, porque la probabilidad
que queremos mostrar que es nula esta acotada por P
ii0
A
ni
c

ii0
P(A
ni
c
)
para cualquier i
0
.
Acotamos P((A
ni
)
c
) mediante la desigualdad de Chebyshev:
P((A
ni
)
c
) = P
ni
j=1
(X
j
EX
j
)
n
i
ni
j=1
VarX
j
n
2
i
4
(1 + )
2i
2
ni
j=1
j
0
x
2
dF =
4
(1 + )
2i
2
ni
j=1
j
k=1
k
k1
x
2
dF
4
(1 + )
2i
2
ni
j=1
j
k=1
k
k
k1
xdF
4
(1 + )
2i
2
ni
k=1
k
k
k1
xdF(n
i
k + 1)
4
(1 + )
i
2
ni
k=1
k
k
k1
xdF.
Como consecuencia,
i=1
P(A
ni
)
c
i=1
4
(1 + )
i
2
ni
k=1
k
k
k1
xdF
=
4
k=1
k
k
k1
xdF
{i:(1+)
i
k}
1
(1 + )
i

4
EX
1
.
Esto termina de demostrar (13.16), y en consecuencia,
lim
i
S
ni
n
i
= EX
1
casi seguramente.
13.13. TLC para arreglos triangulares. 219
Dado que lim
i
n
i+1
/n
i
= lim
i
(1 + )
i+1
/(1 + )
i
= 1 + < (1 + )
2
, para i
sucientemente grande, n
i+1
(1 + )
2
n
i
, y, por consiguiente, para n
i
< j n
i+1
e
i sucientemente grande,
1
(1 + )
2
S
ni
n
i
S
j
j
(1 + )
2
S
ni+1
n
i+1
.
Pasando al lmite cuando j (y entonces tambien i ) encontramos
1
(1 + )
2
EX
1
liminf
j
S
j
n
j
limsup
j
S
j
n
j
(1 + )
2
EX
1
,
y con 0 se obtiene lim
j
Sj
nj
= EX
1
. 2
13.13 Demostraci on del T.L.C. de Lindeberg,
para arreglos triangulares.
Repetimos el enunciado del Teorema 12.4.1: Si k(n) es una sucesi on creciente
de naturales, para cada n, X
n,1
, X
n,2
, . . ., X
n,k(n)
son variables independientes,
EX
n,j
= 0,

k(n)
j=1
VarX
n,j
= 1, y lim
k(n)
j=1
EX
2
n,j
1
{|X
n,j
|>}
= 0 para cada
> 0, entonces

k(n)
j=1
X
n,j
converge en distribuci on a la normal tpica N(0, 1).
Demostraci on. Los argumentos utilizados en la demostraci on del Teorema 12.3.1
son aplicables a este caso. Los repasamos brevemente:
Paso 1: Si F
n
es la funci on de distribuci on de S
n
=
k(n)
j=1
X
n,j
, (x
m
)
mN
es una
sucesion que enumera a los racionales, y (F
ni
)
iN
es una sucesion parcial de (F
n
)
nN
,
entonces un proceso diagonal muestra que existe una sucesion parcial (F
ni
)
N
de
(F
ni
)
iN
que converge en cada x
m
a una funci on F.
Paso 2: F es una funci on de distribuci on, porque las sumas S
n
tienen esperanza cero
y variancia uno. Por lo tanto, por la Desigualdad de Chebyshev, para cada positivo,
P[S
n
[ ()
1/2
, de modo que F(()
1/2
) 1 y F(()
1/2
) .
Paso 3: Vamos a vericar en el Paso 4, que
n
(t) = Ee
tSn
converge a (t) =
e
1
2
t
2
. El resultado del Ejercicio 12.1.6 implica que esa es la funci on caracterstica
de F, y entonces concluimos que el lmite F de cualquier sucesion parcial de (F
n
) es
necesariamente , la funci on de distribuci on Normal(0,1). Esto implica la conclusi on
que queremos demostrar, ya que si F
n
no convergiera debilmente a , habra una
sucesion parcial con un lmite diferente, y esto contradice lo que acabamos de vericar.
Paso 4 ( ultimo): S olo nos resta vericar que
n
(t) = Ee
tSn
=
k(n)
j=1
Ee
tXn,j
converge
a (t) = e
1
2
t
2
.
Para ello vamos a utilizar el desarrollo de Taylor con resto integral
f(1) =
n
j=0
f
(j)
(0)/j! +
1
0
f
(n+1)
(s)(1 s)
n
ds/n!
220
Enrique M. Caba na.
aplicado a f(t) = e
tz
, con n = 1 y con n = 2, y a f(t) = log(1 tz) con n = 1:
e
z
= 1 + z +
1
0
(e
sz
z
2
)(1 s)ds, z R
e
z
= 1 + z
z
2
2
+
1
0
(e
sz
z
3
)(1 s)
2
ds
2!
, z R
log(1 z) = z +
z
2
2
1
0
1
(1 sz)
2
(1 s)ds, [z[ < 1.
De las acotaciones
1
0
(e
tz
)(1 t)dt
1
0
(1 t)dt = 1/2,
1
0
(e
tz
)(1 t)
2
dt/2
1
0
(1 t)
2
dt/2 = 1/6,
deducimos que para cualquier z R,
e
z
= 1 + z +
2
z
2
/2, e
z
= 1 + z z
2
/2 +
3
[z[
3
/6
donde [
2
[ < 1, [
3
[ < 1. En el desarrollo del logaritmo, para cualquier z con
[z[ < 1/2, se cumple
log(1 z) = z +
2
z
2
con [
2
[ < 1.
Calculamos ahora
Ee
tXn,j
= Ee
tXn,j
1
{|Xn,j|>}
+Ee
tXn,j
1
{|Xn,j|}
= E(1 + tX
n,j
+
2
t
2
X
2
n,j
/2)1
{|Xn,j|>}
+E(1 + tX
n,j
t
2
X
2
n,j
/2 +
3
[t[
3
[X
n,j
[
3
/6)1
{|Xn,j|}
= 1 Et
2
X
2
n,j
/2 +E1
{|Xn,j|>}
(1 +
2
)t
2
X
2
n,j
/2 +E1
{|Xn,j|}
3
[t[
3
[X
n,j
[
3
/6
= 1 t
2
VarX
n,j
/2 + A
n,j
,
con [A
n,j
[ E1
{|Xn,j|>}
t
2
X
2
n,j
+ [t[
3
VarX
n,j
/6, de modo que
limsup
n
k(n)
j=1
[A
n,j
[ [t[
3
/6.
Resulta entonces
log Ee
t
k(n)
j=1
Xn,j
+ t
2
/2
k(n)
j=1
log(1 t
2
VarX
n,j
/2 + A
n,j
) + t
2
/2
13.13. TLC para arreglos triangulares. 221
=
k(n)
j=1
(t
2
VarX
n,j
/2 + A
n,j
+
2
(t
2
VarX
n,j
/2 A
n,j
)
2
) + t
2
/2
k(n)
j=1
A
n,j
+
k(n)
j=1
2
(t
2
VarX
n,j
/2 A
n,j
)
2
)
[t[
3
/6 +
k(n)
j=1
(t
2
VarX
n,j
)
2
/2 + 2
k(n)
j=1
(A
n,j
)
2
.
Dado que VarX
n,j

2
+EX
2
n,j
1
{|Xn,j|>}
, deducimos
max VarX
n,j

2
+
k(n)
j=1
EX
2
n,j
1
{|Xn,j|>}
y entonces
limsup
k(n)
j=1
(VarX
n,j
)
2
/2
2
/2.
Por otra parte, para n grande, [A
n,j
[ < 1, y
limsup 2
k(n)
j=1
(A
n,j
)
2
2 limsup
k(n)
j=1
[A
n,j
[ [t[
3
/3.
Concluimos limsup [ log Ee
t
k(n)
j=1
Xn,j
+t
2
/2[ [t[
3
/6 +t
2
2
/2 +[t[
3
/3, y, por ser
arbitrario, esto signica que, para cada t, limlog Ee
t
k(n)
j=1
Xn,j
= t
2
/2. 2

Cabaña - Probabilidad y Aplicaciones Estadisticas

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cabaña - Probabilidad y Aplicaciones Estadisticas

Transféré par

Droits d'auteur :

Formats disponibles

Probabilidad y aplicaciones estadsticas.

A, incluiremos tambien en nuestro modelo el acontecimiento

de todos los subconjuntos de es una

es la familia de todos los subconjuntos de , y (p

El y Blaise Pascal, en correspondencia intercambiada entre ambos, es-

combinaciones posibles tenga la misma probabilidad.

), P{a < X < b} = F

, lo que implica que todo el tri angulo

trayectorias que unen esos

= 0 cuando h < 0, h > n, y cuando h no es entero. (4.2)

np(1 p). Vamos a eliminar h introduciendo una variable intermedia

n. Dado que los sumandos que intervienen en nuestros c alculos

Ejercicio 4.2.2 Dado un paseo al azar simetrico, simple S

B(h + 3, n = h + 3). Podemos observar ahora que la distribuci on

, entonces existe el lmite de

, si existe, pasando al lmite en la igualdad

k) es la distancia del origen al hiperplano H.

es tambien soluci on para

, resulta que E(|X|) < implica E(X

) < , de modo que la diferencia E(X

) que aparece al nal

(1 Z), y de la misma manera se procede con Y

permite reducir el caso general

1, si la i-esima carta va al i-esimo sobre

), entonces Elog(1 + H) 0, y la igualdad

(1) = E(X(X 1)), . . . , g

(0) = E(X), f(0) = E(X

es el tiempo de llegada al par de barreras {a, b}, se cumple

= 1. Deducir la distribuci on del lmite lim

tienen integral nita respecto de , entonces

a las que se aplica la misma hip otesis

d es una diferencia de dos medidas, y se la llama una medida con

es la funcion de distribuci on conjunta de una pareja con distribuci on P

conguraciones diferentes. Por cada una de ellas,

conguraciones diferentes cor-

conguraciones posibles para ubicar los m

, si este lmite existe.

, y se obtiene el resultado requerido por diferencia. En esta instancia

es un vector la, entonces tambien convenimos en

. El valor de cada componente

= j para 0 < < m, X

se elige de modo que f

son dos clases de equivalencia, i C,

, entonces cualquier estado de C precede a cualquier estado

. En ese caso, diremos que la clase C precede a C

De acuerdo al Teorema 10.2.1, las probabilidades tienen lmite

'x, x` es una norma. La otra, que cuando es una norma, d(x, y) =

tal que para m, n N

denida por |f|

(x) al momento de orden i de

. Es de esperar que el momento emprico T

con la misma dis-

} = 1. Para ello, empecemos

funciones seccionalmente constantes, es posible expresar

(X) liminf Eg(X

(X) est a acotada por

Figura 12.2: Funci on de distribuci on de probabilidades y densidad (lla-

estan uniformemente acotados en valor absoluto por (1).

n converge en distribuci on, la distribuci on lmite

) 1 , es decir, basta tomar b = a

converge a (x) cuando n tiende a innito, y, con B

F(b) F(a) : (a, b] .

F(b) F(a) : (a, b] .