Doscientos Concept Os

200 Conceptos
De
Probabilidad,
Variables Aleatorias
Y
Procesos Estocsticos
En
Redes de Comunicaciones

( ) ( ) ( )
ij ik kj
k
p t s p t p s + =

Marco Aurelio Alzate Monroy

PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com

El azar favorece a la mente preparada.
Louis Pasteur
Introduccin

Considere una sesin ftp (file transfer protocol). Durante la transferencia de un archivo
de cierto tamao (en kbytes) se sufre cierto retardo (en s). La transferencia se hace con
cierta velocidad o caudal (en kbytes/s). ftp ofrece mediciones de estas tres cantidades al
presentar resultados como los siguientes:

150 Opening ASCII mode data connection for file1 (240 bytes)
226 Transfer complete.
local: file1 remote: file1
245 bytes received in 0.47 seconds (0.51 Kbytes/s)

1526 bytes received in 0.37 seconds (4 Kbytes/s)

13197 bytes received in 25 seconds (0.52 Kbytes/s)



8427 bytes received in 1.2 seconds (7 Kbytes/s)

Se puede observar cmo no slo el tamao de los archivos vara sino que el caudal
mismo tambin vara a pesar de tratarse de la misma conexin. Se dira que esta medida
de desempeo es aleatoria. Por supuesto, esto no debe sorprendernos: diferentes
conexiones se establecen con el servidor ftp en instantes de tiempo que no podemos
predeterminar; el nmero de archivos que se transferirn en cada conexin tampoco es
predecible con anterioridad; no se puede conocer de antemano la duracin de cada
archivo; ftp ofrece un servicio confiable, de manera que debe detectar y corregir errores,
los cuales se presentan en los medios de transmisin debido al ruido y a la imperfeccin
de los enlaces; etc.

En este libro estudiaremos algunas herramientas de anlisis de redes de
telecomunicaciones cuando se considera dicha aleatoriedad. Se supone que el lector tiene
un propsito fundamentalmente prctico en cuanto lo motiva el estudio de una disciplina
tan tcnica como las redes de comunicaciones. Sus intereses pueden incluir tcnicas de

modulacin digital, deteccin y correccin de errores, procesamiento de seales,
enrutamiento ptimo, codificacin, control de flujo y congestin, seguridad y privacidad,
integracin de servicios, modelamiento de trfico, etc. Sin embargo, puesto que hay
muchos aspectos fundamentales comunes a todos estos ejemplos, es necesario utilizar una
teora abstracta para extraer estos elementos comunes con el mayor provecho. En efecto,
una teora abstracta es fcil de estudiar porque no requiere el conocimiento de ningn
sistema en particular, no necesita de grandes recursos de laboratorio (slo papel y lpiz,
aunque un computador a veces puede resultar muy til) y puede tener una amplia
aplicabilidad. Por supuesto, para los intereses especficos de los lectores de este libro
(ingeniera de redes de comunicaciones), es importante tener la oportunidad de aplicar la
teora a medida que la vamos aprendiendo, por lo que en este libro encontraremos
muchas oportunidades de "ver la teora en accin" para hacerlo ms motivador.

En particular, dado que el inters comn de nuestros lectores son las redes de
comunicaciones, la mayora de aplicaciones que se consideran en este libro se refieren al
trfico sobre dichas redes. En efecto, si bien podra pensarse que los componentes de la
red (equipos y protocolos) tienen un comportamiento determinstico, ellos existen para
satisfacer las demandas de los usuarios, las cuales se presentan en cantidades aleatorias y
en instantes de tiempo aleatorios. El modelamiento probabilstico de los tiempos entre
llegadas y las intensidades de las demandas de los usuarios de una red, as como sus
efectos sobre los componentes (software y hardware) de la red, es una aplicacin de la
teora abstracta de las probabilidades y los procesos estocsticos que constituye toda una
nueva teora de trfico. Aunque tambin tendremos oportunidad de repasar algunas
aplicaciones de nivel fsico tales como modulacin digital, codificacin de fuente y
codificacin de canal, el nfasis ser en la red como un sistema dinmico sometido a la
aleatoriedad del trfico.

Se espera que, al finalizar el estudio de este libro, el lector encuentre la teora de
probabilidad til para comprender, describir, analizar, disear y controlar redes de
comunicaciones y que, como aplicacin concreta de la teora, conozca modelos prcticos
del trfico sobre redes modernas de comunicaciones y sus efectos sobre los mecanismos
de control de admisin, control de acceso, conmutacin y control de congestin.

Para facilitar el estudio, se han enumerado los conceptos, ejemplos y ejercicios de manera
consecutiva,


Contenido

I. Conceptos bsicos de teora de probabilidad
1. Experimento aleatorio
2. Regularidad estadstica
3. Espacio muestral
4. Evento
5. Conjunto potencia del espacio muestral
6. Campo- de eventos
7. Mnimo Campo-
8. Campo- de Borel, U(R)
9. Medida de probabilidad
10. Frecuencia relativa
11. Espacio de probabilidad
12. Algunos teoremas elementales derivados de los axiomas 9.1 9.3
13. Probabilidad condicional
14. Teorema de la probabilidad total
15. Regla de Bayes
16. Independencia de eventos
17. Modelamiento probabilstico
18. Sobre los conceptos de aleatoriedad y probabilidad
II. Conceptos Bsicos de Variables aleatorias
19. Variable aleatoria
20. Funcin de distribucin acumulativa de probabilidad
21. Propiedades de la funcin de distribucin acumulativa de probabilidad
22. Probabilidad de algunos subconjuntos de R
23. Variables Aleatorias Continuas y Discretas
24. Funcin de distribucin de probabilidad, pmf
25. Funcin de densidad de probabilidad, pdf
26. Propiedades de la pdf y la pmf
27. Valor esperado de una variable aleatoria
28. Funcin de una variable aleatoria
29. pdf de una funcin de una variable aleatoria
30. Valor esperado de una funcin de una variable aleatoria
31. Varianza de una variable aleatoria
32. Propiedades del Valor Esperado y la Varianza de una Variable Aleatoria
33. Momentos de una Variable Aleatoria
34. Algunas variables aleatorias discretas: Rango, Distribucin, valor esperado y
varianza (Bernoulli, geomtrica, binomial, Poisson, uniforme discreta)
35. Algunas variables aleatorias continuas: Rango, Distribucin, valor esperado y
varianza (uniforme continua, exponencial, Erlang, gaussiana, Pareto, gamma,
Weibull, lognormal, beta, Cauchy, Pascal, Laplace, chi-cuadrado, t de
student, Rice, Rayleigh, Pareto)
36. Funcin caracterstica
37. Funcin generadora de momentos

38. Funcin generadora de probabilidad
39. Cola de una distribucin. Cola pesada
40. Desigualdad de Markov
41. Desigualdad de Chebyshev
42. Desigualdad de Chernov. Cotas de Chernov
43. Generacin de muestras pseudos-aleatorias con distintas distribuciones
III. Vectores aleatorios
44. Vector aleatorio bidimensional
45. Funcin de distribucin acumulativa conjunta
46. Propiedades de la funcin de distribucin acumulativa conjunta
47. Funcin de distribucin acumulativa marginal
48. Funcin de densidad de probabilidad conjunta
49. Propiedades de la funcin de densidad de probabilidad conjunta
50. Funcin de densidad de probabilidad marginal
51. Funcin de distribucin de probabilidad conjunta
52. Propiedades de la funcin de distribucin de probabilidad conjunta
53. Funcin de distribucin de probabilidad marginal
54. Funcin de distribucin acumulativa condicional
55. Funcin de densidad de probabilidad condicional
56. Funcin de distribucin de probabilidad condicional
57. Probabilidad total
58. Independencia de dos variables aleatorias
59. Combinacin lineal de dos variables aleatorias
60. Suma de variables aleatorias independientes. La suma y la integral de
convolucin.
61. Funcin de dos variables aleatorias
62. Momentos conjuntos de dos variables aleatorias. Covarianza, coeficiente de
correlacin, correlacin.
63. Ortogonalidad. Interpretacin geomtrica
64. Esperanza condicional
65. Extensiones a ms de dos variables.
66. Principio de ortogonalidad.
67. Prediccin lineal. Ecuaciones normales.
68. Estimacin de mxima verosimilitud
69. Generacin de muestras pseudos-aleatorias de vectores aleatorios
IV. Secuencias de variables aleatorias
70. Secuencia de v.a. independientes e idnticamente distribuidas
71. Sumas de v.a. i.i.d: pdf, media, varianza
72. Sumas de v.a. i.i.d. con un nmero aleatorio de trminos
73. Tiempos de detenimiento y Desigualdades de Wald
74. Ley dbil de los grandes nmeros
75. Ley fuerte de los grandes nmeros
76. Teorema del lmite central
77. Convergencia de secuencias de v.a.
78. Convergencias segura
79. Convergencia casi segura o con probabilidad 1

80. Convergencia en probabilidad
81. Convergencia en media cuadrada
82. Convergencia en distribucin
83. Relaciones entre los distintos modos de convergencia
84. Lemmas de Borel-Cantelli
V. Conceptos Bsicos de Procesos Estocsticos
85. Proceso Estocstico
86. Clasificacin por espacio de estados y parmetro de tiempo
87. CDF y pdf conjuntas
88. Funciones de esperanza, autocovarianza y correlacion
89. Procesos con incrementos independientes
90. Procesos estacionarios
91. Caminata aleatoria
92. Continuidad
93. Derivadas e Integrales estocsticas
94. Ergodicidad en la media
95. Ergodicidad en la autocorrelacin
96. Procesos Gaussianos
97. Proceso de Poisson
98.
()

VI. Procesamiento Estadstico de Seales
99. Espectro de Potencia
100. Ruido Blanco
101. Filtrado de Procesos Estocsticos mediante sistemas lineales e invariantes en
el tiempo
102. Modelamiento de Seales
103. Procesos Autoregresivos de promedios mviles
104. Filtro Wiener
105. Filtro Kalman
106. Estimacin no parmetrica del espectro de potencia
107. Mtodos basados en el periodograma
108. Mtodos basados en la minimizacin de la varianza
109. Mtodos basados en la maximizacin de la entropa
110. Estimacin paramtrica del espectro de potencia
111. Estimacin autoregresiva
112. Estimacin de Promedios mviles
113. Estimacin autoregresiva de promedios mviles
114. Deteccin de tonos en ruido blanco
115. Eigendescomposicin de la matriz de autocorrelacin
116. Mtodo de Pisarenko

117. Mtodo MUSIC
118. Anlisis de componentes principales
VII. Introduccin a la Teora de la Estimacin y la Deteccin
119. Pruebas de Hiptesis
120. Pruebas Bayesianas
121. Pruebas MiniMax
122. Pruebas Neyman-Pearson
123. Pruebas Compuestas
VIII. Cadenas de Markov
IX. Teora de Colas
X. Caracterizacion de Trfico con dependencia de rango corto
XI. Caracterizacion de Trfico con dependencia de rango largo
XII. Garantas de Calidad en Redes Modernas de Comunicaciones
XIII. Introduccin a la Simulacin de Eventos Discretos

200 Conceptos de Probabilidad, Variables Aleatorias y
Procesos Estocsticos en Redes de Comunicaciones
1
I. Conceptos Bsicos de Teora de Probabilidad

1. Experimento aleatorio

Un experimento es un proceso de observacin mediante el cual se selecciona un
elemento de un conjunto de posibles resultados. Un experimento aleatorio es
aquel en el que el resultado no se puede predecir con anterioridad a la
realizacin misma del experimento.

Los ejemplos tpicos de los cursos de probabilidad incluyen lanzar una moneda, que
equivale a seleccionar un elemento del conjunto {cara, sello}, lanzar un dado, que
equivale a seleccionar un elemento del conjunto {1,2,3,4,5,6}, o escoger una carta de la
baraja de naipes, que equivale a seleccionar un elemento del conjunto {(f,n) : f{picas,
trboles, corazones, diamantes}, n{1,2,3,4,5,6,7,8,9,10,J,Q,K}}. Otros ejemplos ms
interesantes para nosotros incluyen medir la tasa de prdida de paquetes en una
conversacin VoIP, que equivale a seleccionar un elemento del conjunto {xR | 0 x
1}, medir el retardo de un paquete de voz en esa misma conversacin, que equivale a
seleccionar un elemento del conjunto R
+
(los reales positivos), o verificar el estado de
ocupacin de un canal de comunicaciones, que equivale a seleccionar un elemento del
conjunto {libre, ocupado}.

En un experimento aleatorio, aunque se mantengan constantes las condiciones bajo las
cuales se realizan diferentes instancias del mismo, el resultado no se puede predecir con
anterioridad a la realizacin del experimento. Por ejemplo, como vimos en la
introduccin, generalmente no es posible predecir el caudal, el tamao del archivo ni el
tiempo de transferencia en una transaccin ftp, lo que indica que transferir un archivo de
un servidor a un cliente mediante ftp constituye un experimento aleatorio. Igualmente, si
desde la ventana de comandos de nuestro PC ejecutamos la instruccin

C:>netstat e 10 > estadisticas.txt

y navegamos por Internet por algunos minutos, generaremos un archivo con algunas
estadsticas de la red, incluyendo el nmero de bytes que se han recibido en perodos de
diez segundos. La figura 1 presenta una grfica del nmero de bytes recibidos durante
varios perodos en una instancia del experimento. Evidentemente, no estamos en
condiciones de predecir cuntos bytes llegarn en el siguiente perodo, an cuando
podemos afirmar que, por ejemplo, sera muy extrao si llegaran ms de 150 kbytes y, en
cambio, s sera de esperar que fueran ms de 10 kbytes. De cualquier manera, queda
claro que observar el nmero de bytes recibidos en 10 segundos mientras se navega por
Internet constituye un experimento aleatorio.
2

Figura 1. Observar el nmero de bytes que llegan de la red en un perodo de 10 segundos
constituye un buen ejemplo de lo que es un experimento aleatorio.

Porqu no podemos predecir el resultado de un experimento aleatorio? En principio, esta
pregunta ha desvelado a muchos cientficos de muchas maneras distintas. Las siguientes
son tres posibles razones: (1) Desconocemos las leyes naturales que rigen el experimento,
(2) conocemos dichas leyes pero son tan complejas que nos es imposible o resulta
indeseable- evaluarlas, (3) existe una indeterminacin bsica en el universo. La tercera
razn es propia de la mecnica cuntica, en la que cada partcula se describe mediante
una funcin de onda que representa la incertidumbre en su posicin y su velocidad en
cada instante. Las primeras dos razones, en cambio, hablan de nuestra ignorancia, lo que
hara de la aleatoriedad un concepto subjetivo. La definicin 19 trata de estos aspectos.
Lo cierto es que, como muestran los experimentos netstat o ftp, ni siquiera el ms
experto ingeniero conocedor de los ms ntimos detalles de la implementacin de cada
protocolo de una red de comunicaciones a todos los niveles de su jerarqua funcional
podra predecir los instantes en que cada usuario de la red generar demandas o la
magnitud de esas demandas. En consecuencia, aunque una mente privilegiada con
infinitos poderes divinos pudiera considerar una red de comunicaciones como un sistema
determinstico, a nosotros, pobres mortales, nos toca aceptar nuestra incertidumbre sobre
el comportamiento de la red y conformarnos con el hecho de que, al observar la red,
estamos llevando a cabo un experimento aleatorio.

2. Frecuencia Relativa

Sea A un subconjunto del conjunto de posibles resultados de un experimento
aleatorio. Si repetimos N veces el experimento y observamos que en N
A
de esas
repeticiones se obtuvo un elemento de A, decimos que f
N
(A) = N
A
/N es la
frecuencia relativa del subconjunto A en esas N repeticiones del experimento.

0 20 40 60 80 100 120 140 160 180 200
0
2
4
6
8
10
12
14
x 10
4
Experimento netstat
Periodos de 10 s
N
u
m
e
r
o

d
e

b
y
t
e
s

/

p
e
r
i
o
d
o
3
Ntese que la notacin es muy imprecisa pues f
N
(A) no es una funcin de A subindicada
por N. En efecto, en una secuencia diferente de N repeticiones del mismo experimento
podramos obtener un valor distinto de f
N
(A). Por ejemplo, considrense las siguientes dos
secuencias de 10 lanzadas de un dado (el listado 1 muestra cmo lanzar dados en matlab):

Secuencia 1 : 2 4 2 2 1 5 3 6 3 3
Secuencia 2 : 6 4 2 5 6 1 5 3 5 4

Si observamos la frecuencia relativa del subconjunto A = {el resultado es menor que
cuatro} = {1, 2, 3} obtenemos que f
10
(A) = 0.7 en la primera secuencia y f
10
(A) = 0.3 en la
segunda secuencia, mientras que, considerando las dos secuencias conjuntamente,
obtenemos f
20
(A) = 0.5. Con respecto al subconjunto B = {el resultado es un nmero par}
= {2, 4, 6}, en cada secuencia individual se obtiene f
10
(B) = 0.5 al igual que en la
secuencia conjunta, f
20
(B) = 0.5.

Afortunadamente, en muchas ocasiones las frecuencias relativas observadas en diferentes
secuencias de experimentos parecen converger a un nmero muy preciso a medida que el
nmero de repeticiones aumenta en cada secuencia, como se menciona a continuacin.

3. Regularidad estadstica

La regularidad estadstica es la propiedad que tienen muchos experimentos
aleatorios segn la cual, al repetir el experimento un gran nmero de veces
bajo condiciones constantes, algunas estadsticas de los resultados obtenidos,
como la frecuencia relativa de algn subconjunto de ellos, parecen tender a
valores precisos a medida que aumenta el nmero de repeticiones.

Aceptar con humildad nuestra incapacidad de predecir el comportamiento de una red de
comunicaciones no quiere decir que debamos considerar imposible el diseo de dichas
redes con estrictos requerimientos de desempeo. Al contrario, lo que debemos hacer (y
lo que han hecho los ingenieros de redes de comunicaciones en los ltimos 150 aos) es
tratar de cuantificar nuestra incertidumbre para as poder usarla como una herramienta a
nuestro favor. Afortunadamente, muchos experimentos aleatorios presentan cierta
regularidad estadstica que facilitan la cuantificacin de nuestra incertidumbre.

Considrese, por ejemplo, el experimento netstat de la figura 1. Supongamos que
despus de haber observado el nmero de bytes recibidos durante n perodos de 10
segundos medimos la fraccin de perodos en los que llegaron ms de 40 kbytes y menos
de 60 kbytes. Esta fraccin es la frecuencia relativa del evento E = {xN : 40000 < x <
60000},
( )
1
1
( )
n
n i
i
f E x E
n
=
=
1
donde x
i
es el nmero de bytes recibidos en el i-simo perodo de 10 s y 1(s) es la funcin
indicadora de la sentencia s, igual a 1 si la sentencia s es cierta e igual a 0 si la sentencia
s es falsa. La figura 2 muestra una grfica de f
n
(E) vs n, en la que se puede apreciar cmo
4
f
n
(E) parece tender a algn valor especfico a medida que aumentamos el nmero de
experimentos, n. (El listado 2 muestra un programa en matlab que genera grficas como
las de las figuras 1 y 2 a partir del archivo estadisticas.txt producido por la
instruccin netstat e 10 >estadisticas.txt).

Es precisamente la regularidad estadstica la que nos permite estudiar con rigurosidad los
experimentos aleatorios que a diario tiene que realizar un ingeniero a cargo de una red de
comunicaciones, pues ella nos permite saber que, a la larga, se pueden esperar
comportamientos claramente predecibles. Por ejemplo, si la persona que estuvo
navegando por la web durante los 33 minutos que dur el experimento netstat de la
figura 1 sigue haciendo el mismo tipo de consultas durante los siguientes 33 minutos,
podramos afirmar con un alto grado de certeza que en cerca del 72% de los perodos de
10 s, se espera que lleguen entre 40 y 60 kbytes.

La teora de la probabilidades pretende estudiar estas tendencias observadas en las
estadsticas que se pueden asociar con un gran nmero de repeticiones de un experimento
aleatorio, pero librndonos de trminos imprecisos como a la larga, se espera que,
cerca de, etc. Por ejemplo, la teora de probabilidades querra que dijramos que con
una confianza del 72%, en el prximo perodo de 10 s llegarn entre 40 y 60 kbytes. As
pues, es la regularidad estadstica de muchos experimentos aleatorios la que le permite a
la teora de la probabilidad convertirse en una herramienta para cuantificar nuestra
incertidumbre.
0 20 40 60 80 100 120 140 160 180 200
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
Experimento netstat
Periodos de 10 s
F
r
a
c
c
i
o
n

d
e

p
e
r
i
o
d
o
s

c
o
n

l
l
e
g
a
d
a
s

e
n
t
r
e

4
0

y

6
0

k
b
y
t
e
s

Figura 2. Aunque no podemos predecir el nmero de bytes que llegarn de la red en el
prximo perodo de 10 segundos, podemos afirmar que cerca del 72% del tiempo se
reciben entre 40 kbytes y 60 kbytes.

4. Espacio Muestral

El espacio muestral de un experimento aleatorio es el conjunto de todos los
posibles resultados que podran observarse en una realizacin del experimento.

5
Cuando definimos un experimento como un proceso de observacin mediante el cual se
selecciona un elemento de un conjunto de posibles resultados, queda claro que, si
queremos especificar adecuadamente un experimento, lo primero que debemos describir
con precisin es ese conjunto de posibles resultados. En este libro, como es costumbre en
la mayora de textos sobre probabilidades, denotaremos el espacio muestral mediante la
letra griega mayscula (mega) y sus elementos, de manera genrica, se denotarn
mediante la correspondiente letra minscula . Algunos ejemplos que ya se mencionaron
en la definicin 1 son
1. Lanzar una moneda y ver qu lado queda hacia arriba: = {cara, sello}.
2. Lanzar un dado y contar los puntos en la cara que queda hacia arriba:
= {1,2,3,4,5,6}.
3. Escoger una carta de la baraja de naipes: = {picas, trboles, corazones,
diamantes}{1,2,3,4,5,6,7,8,9,10,J,Q,K}, donde representa el producto cartesiano
entre los dos conjuntos. (Observe que, aunque existen una diferencia de notacin con
respecto a la utilizada en la definicin 1, sigue siendo el mismo espacio muestral).
4. Medir la fraccin de paquetes perdidos durante una hora en una red IP:
= {xR : 0 x 1}.
5. Medir el retardo experimentado por un paquete de datos mientras transita por una red
IP: = R
+
= { xR : x > 0}.
6. Verificar el estado de ocupacin de un canal de comunicaciones:
= {libre, ocupado}.

Pero podemos pensar en muchos ms:

7. Se cuenta el nmero de canales libres en un enlace E1: = {0,1,2,,32}.
8. Se mira el estado de ocupacin de cada uno de los canales en un enlace E1 : =
{libre, ocupado}
32
. La potencia indica que se deben ejecutar 32 productos cartesianos
del conjunto {libre, ocupado} con sigo mismo, con lo que se construye el conjunto de
todas las cadenas de 32 smbolos en las que cada smbolo puede tomar uno de los
valores libre u ocupado. Ntese que, aunque el experimento parece sencillo, la
cardinalidad del espacio muestral (su nmero de elementos) es mayor a cuatro mil
millones (|| = 4.294967.296).
9. Se determina si un bit, transmitido sobre un canal de comunicaciones, llega
correctamente al otro lado: = {si, no}
10. Se cuenta el nmero de transmisiones que requiere un paquete de datos hasta llegar
correctamente a su destino: = {1,2,3,}
11. Se cuenta el nmero de bits recibidos con error en una trama de L bits que llega a
travs de un canal ruidoso: = {0,1,2,,L}
12. Se mide durante una hora la fraccin de tiempo que un enlace de comunicaciones
permanece ocupado: = {xR : 0 x 1}.
13. Se cuenta el nmero de paquetes que llegan a un enrutador de una red de
comunicaciones durante un perodo de una hora: = {0,1,2,}.
14. Se mide el tiempo que transcurre entre la llegada de dos paquetes consecutivos a un
enrutador de una red de comunicaciones: = R
+
= { xR : x > 0}.

6
Otros pueden ser ms elaborados:

15. Un transmisor enva una seal senoidal a travs de un canal con ruido aditivo y en el
receptor se toman NN muestras de la seal recibida, una cada T
s
R segundos:
( ) ( ) { }
: sin 2 , , {0,1,..., 1}
N N
n s n
y y A f nT A f n N = = + + , , ,
Esto es, las operaciones en el transmisor, el canal y el receptor constituyen un proceso
de observacin mediante el cual seleccionamos uno de todos los vectores N-
dimensionales que corresponden a N muestras de una seal con amplitud, frecuencia
y fase desconocidas, sumergida en ruido aditivo.
16. Se entrena una red neuronal feed-forward con n
1
entradas, n
2
neuronas en la capa
escondida y una neurona en la capa de salida para que detecte un ataque DoS (Denial
of Service) a partir de n
1
caractersticas obtenidas del trfico dirigido a un servidor
web durante la ltima media hora:
( )
2 1
1 1 1 2 2
1 2
1 1
, 1, 1
1 1
: {0,1} : ( ) tanh , , ,
n n
n n n n n
i j i j n i n
i j
f f x w v x v w x v w
+ +
+ +
= =
| | | |

= =
| ` |
|
\ \ )

R R R R R 1
Esto es, el algoritmo de entrenamiento es un proceso de observacin mediante el cual
seleccionamos una de todas las posibles funciones que puede evaluar una red
neuronal con la estructura propuesta.
17. Se corre un algoritmo de enrutamiento para encontrar una ruta adecuada entre una
fuente y un destino conectados mediante una red IP:
Para describir un posible espacio muestral para este experimento, consideremos que
la red est compuesta por un conjunto de N>1 enrutadores, numerados de 1 a N,
donde la fuente est conectada al enrutador 1, el destino est conectado al enrutador N
y una matriz de adyacencias A
NxN
describe la existencia de enlaces entre los
enrutadores, de manera que A
i,j
= 1 si los nodos i y j estn conectados por un enlace o
A
i,j
= 0 si no lo estn.
( ) ( ) ( ) ( ) ( ) { }
1
1 2 3 ,
1 , , ..., : 2 , 1 , 2, 3,..., 1 , 1, 1, 2,..., 1 , ,
i i
k i n n i j
n n n n N k N n N i k A i k n n i j
+
= = = < < = = =
Esto es, la ejecucin del algoritmo de enrutamiento es un proceso de observacin
mediante el cual se escoge una de todas las posibles secuencias de enrutadores
adyacentes que empiezan con el enrutador 1 y terminan con el enrutador N, en las que
no hay enrutadores repetidos.

Ntese que, aunque cada experimento aleatorio puede tener solamente un espacio
muestral, la ignorancia del modelador respecto a detalles particulares del experimento le
puede llevar a considerar espacios muestrales ms grandes, lo cual no est mal mientras
el espacio muestral supuesto por el modelador,
m
, contenga al espacio muestral
verdadero,
v
. En efecto, en ese caso, simplemente los posibles resultados
pertenecientes a
m

v
nunca ocurrirn. Por ejemplo, en el experimento 7, un
modelador con mayor conocimiento a priori podra saber que ese canal E1 hace parte de
una red PCM para telefona, en cuyo caso reducira su espacio muestral a =
{0,1,2,,30} si sabe que el canal 0 siempre est ocupado con bits de sincronizacin y el
canal 16 siempre est ocupado con bits de sealizacin. Igualmente, en el experimento 5,
algn modelador podra saber cul es la mnima longitud de los paquetes, L bits, y la
mxima capacidad de la ruta, C bps, con lo que podra reducir el espacio muestral a =
7
{xR : x L/C}. Cabe anotar que, en muchas ocasiones, un modelador con una gran
cantidad de conocimiento a priori que le permita encontrar un conjunto
m
muy cercano
a
v
, puede decidir escoger un espacio muestral an mayor a
m
con el nico propsito
de simplificar el tratamiento analtico posterior. Por ejemplo, como el nmero de
paquetes que llegan en una hora es un nmero entero, un modelador podra saber que en
el experimento 4 un espacio muestral ms cercano al verdadero est contenido en {m/n
Q
+
: n m, n 3600 C / L}, donde Q
+
son los nmeros racionales no negativos, L es el
mnimo tamao de los paquetes en bits y C es la suma de las capacidades de todos los
enlaces en bps. Sin embargo, parece intuitivamente claro que podra ser ms fcil
considerar el espacio muestral propuesto anteriormente, el intervalo real [0,1].
La figura 3 muestra un diagrama de Venn que incluye el conjunto j jj j compuesto por
todos los posibles resultados de todos los posibles experimentos (cun grande es este
conjunto?) y, en l, algunos campos muestrales asignados a un experimento particular,
v

1

2

3
y
4
. El verdadero espacio muestral,
v
, puede ser un conjunto muy
complejo.
1
es el espacio muestral que podra seleccionar un modelador juicioso con
una gran cantidad de conocimiento a priori.
2
es el espacio muestral que decidira
seleccionar este mismo modelador para facilitar el anlisis posterior.
3
es el espacio
muestral seleccionado por otro modelador igualmente juicioso pero que tiene muy poco
conocimiento a priori. Por ltimo,
4
es el espacio muestral que seleccionara un
modelador poco juicioso y muy desafortunado, pues no podr llegar a ningn destino til
por haber empezado parndose sobre arenas movedizas (a menos, claro est, que l sepa
que su espacio muestral puede no incluir al verdadero y, en cada paso del anlisis,
mantenga presente los posibles efectos de este error. Esto es lo que hace el diseador de
una red neuronal, por ejemplo, cuando busca en el espacio de las funciones calculables
por la red una que reproduzca el procedimiento que genera los datos de entrenamiento).
j jj j

4

3

2

1

v
j jj j

4

3

2

1

v

Figura 3. Algunos espacios muestrales asignados a un mismo experimento

5. Evento

Un evento es un subconjunto del espacio muestral de un experimento aleatorio.

El evento A ocurre al realizar una instancia del experimento si el resultado obtenido
pertenece a A, A.
8
Supongamos, por ejemplo, que medimos la fraccin de paquetes perdidos en una
videoconferencia, de manera que los posibles resultados son = {xR : 0 x 1}. Si
nos interesa satisfacer un requerimiento de calidad de servicio segn el cual no se pueden
perder ms del 0.1% de los paquetes, deberamos buscar que una fraccin importante de
las instancias del experimento correspondieran a elementos del subconjunto A = { x :
x 0.001}.
De la misma manera, en cada uno de los experimentos propuesto en el punto 3 podemos
definir algunos eventos apropiados:
1. Lanzar una moneda y ver qu lado queda hacia arriba: Los posibles eventos de inters
incluyen a los subconjuntos unitarios de , A={cara} y B={sello}. No sobra recordar
que, mientras cara es un posible resultado del experimento, esto es, un elemento de
, {cara} es un subconjunto unitario de . Y es muy importante reconocer la
diferencia! De otro lado, adems de los eventos A y B mencionados antes hay otros
dos posibles eventos : (el evento cierto) y , (vaco o el evento nulo), pues ellos
dos siempre son subconjuntos de .
En el espacio muestral = {1,2,3,4,5,6} estn incluidos conjuntos como A = {hay
ms de tres puntos} = {4,5,6} y B = {hay un nmero par de puntos} = {2,4,6}.
3. Escoger una carta de la baraja de naipes: En el espacio muestral descrito antes estn
contenidos, por ejemplo, los eventos A = {Una figura de pinta roja} = {corazones,
diamantes}{J,Q,K} y B = {Un as negro} = {(picas, 1), (trboles, 1)}.
El espacio muestral es el intervalo [0,1] de la recta real, donde podemos definir un
evento A que disparara una alarma en el centro de gestin de la red, = {x[0,1] :
0.1 x }: En la ltima hora se perdi ms del 10% de los paquetes!
5. Medir el retardo experimentado por un paquete de voz mientras transita por una red
IP dotada con mecanismos VoIP: En este caso, como un paquete que llegue con ms
de 100 ms (p.ej.) de retardo es descartado en el receptor, un evento de gran inters
sera A = {x : x > 0.1} = {El paquete no alcanza a ser reproducido en el
receptor}.
6. Verificar el estado de ocupacin de un canal de comunicaciones: Como en el ejemplo
1, los posibles eventos de inters son los subconjuntos unitarios {libre} y {ocupado},
que son diferentes a los elementos de , libre y ocupado.
7. Se cuenta el nmero de canales libres en un enlace E1: Si una videoconferencia
requiere 384 kbps, un evento de inters podra ser A = {Se puede establecer una
videoconferencia} = {6,7,8,,32}.
8. Se mira el estado de ocupacin de cada uno de los canales en un enlace E1 : =
{Libre, Ocupado}
32
. Si definimos 33 eventos diferentes [X
i
= {Hay i canales libres},
i=0,1,2,,32], estaramos reconstruyendo el experimento 7. Sin embargo, mientras
16 canales libres es un elemento del espacio muestral del experimento 7, en el
experimento 8 se trata de un evento (un subconjunto del espacio muestral) compuesto
por 601080.390 elementos!
correctamente al otro lado: = {si, no}. Como en el experimento 1, no tenemos
muchos ms eventos que los unitarios {si} y {no}, aunque siempre podemos escoger
tambin el evento cierto y el evento Nulo.
9
10. Se cuenta el nmero de transmisiones (a travs de un canal ruidoso) que requiere un
paquete de datos hasta llegar correctamente a su destino: = {1,2,3,}. El evento
{No hay errores de transmisin} corresponde al subconjunto unitario {1}.
11. Se cuenta el nmero de bits con errores en una trama de L bits que se recibe de un
canal ruidoso: = {0,1,2,,L}. El evento {Es necesario retransmitir el paquete}
corresponde al subconjunto {1,2,3,,L} = {0}
C
, donde el superndice C indica
complemento en : Ser necesario retransmitir el paquete si se daa al menos un bit.
12. Se mide durante una hora la fraccin de tiempo que un enlace de comunicaciones
permanece ocupado: = {xR : 0 x 1}. Un posible criterio de gestin de la red
podra llamar al evento {x : x 0.8} como {Es necesario dispersar el trfico que
cursa sobre el enlace}.
13. Se cuenta el nmero de paquetes que llegan a un enrutador de una red de
comunicaciones durante una hora: = {0,1,2,}. Si el enrutador es capaz de
atender hasta paquetes por hora, un evento de sumo inters para el administrador de
la red ser A = {n : n > }, pues la ocurrencia del evento A indica que el enrutador
est experimentando congestin.
14. Se mide el tiempo que transcurre entre la llegada de dos paquetes consecutivos a un
enlace de una red de comunicaciones: = R
+
= { xR : x > 0}. Cul sera el evento
A={Cuando llega el segundo paquete, el primer paquete ya ha sido transmitido}? La
respuesta puede no ser fcil porque depende del estado del enlace (cuntos paquetes
haba en espera de servicio) cuando lleg el primer paquete, cuya observacin
constituye otro experimento aleatorio. Sin embargo, si la longitud mnima de los
paquetes es L bits y la capacidad del enlace es C bps, sabemos con seguridad que el
evento que nos preguntan est contenido en otro evento mayor, A B = {x : x >
L/C}.
15. Un transmisor enva una seal senoidal a travs de un canal con ruido aditivo y en el
receptor se toman NN muestras de la seal recibida, una cada T
s
R segundos:
( ) ( ) { }
: sin 2 , , {0,1,..., 1}
N N
n s n
y A f nT A f n N = = + + , , , y
La deteccin de la seal en el receptor se hace ms difcil entre menor sea la relacin
entre la potencia de la seal, P
s
= A
2
/2, y la potencia del ruido, P
N
=
1
2
0
1
N
n
n
N

, por lo
que un evento de inters para el diseador del receptor sera, por ejemplo, R = {y :
P
s
>P
N
}.
16. Se entrena una red neuronal feed-forward con n
1
entradas, n
2
neuronas en la capa
escondida y una neurona en la capa de salida para que detecte un ataque DoS (Denial
of Service) a partir de n
1
caractersticas obtenidas del trfico dirigido a un servidor
web durante la ltima media hora:
( )
2 1
1 1 1 2 2
1 2
1 1
, 1, 1
1 1
: {0,1} : ( ) tanh , , ,
n n
n n n n n
i j i j n i n
i j
f f x w v x v w x v w
+ +
+ +
= =
| | | |

= =
| ` |
|
\ \ )

R R R R R 1
Si se tomaron N muestras {x
i
R
n1
, i = 0, , N-1}, unas bajo condiciones normales de
operacin, a las cuales asignamos y
i
=0, y otras bajo condiciones de ataque, a las
cuales asignamos y
i
=1, podramos querer obtener un resultado perteneciente al evento
A = {La red se equivoca en menos del 10% de las muestras de prueba} o
10
1
0
1
: ( ) 0.1
N
i i
n
A f f x y
N
=

= <
`
)

Si descubrisemos que este evento es el conjunto vaco, deberamos modificar la
estructura de la red o rebajar nuestra exigencia del 90% de aciertos.

17. Se corre un algoritmo de enrutamiento para encontrar una ruta adecuada entre una
fuente y un destino conectados mediante una red IP. De acuerdo con la nomenclatura
utilizada para este experimento en la definicin anterior, el espacio muestral es:
( ) ( ) ( ) ( ) ( ) { }
1
1 2 3 ,
1 , , ..., : 2 , 1 , 2, 3,..., 1 , 1, 1, 2,..., 1 , ,
i i
k i n n i j
n n n n N k N n N i k A i k n n i j
+
= = = < < = = =

Como uno de los criterios tpicos para los algoritmos de enrutamiento es que el
nmero de saltos en la ruta sea lo ms pequeo posible, un evento de inters sera el
conjunto de rutas con menos de H saltos, A = {R : |R| H}, pues entre los
elementos de ese subconjunto podramos buscar rutas con caractersticas adicionales
en cuanto a mnimo ancho de banda, mxima latencia, etc. (obsrvese que |R| es el
nmero de nodos en la ruta, de manera que |R| H implica que el nmero de saltos es
estrictamente menor que H).

6. Conjunto Potencia de , ,, , {0,1}

El Conjunto Potencia de es el conjunto de todos los posibles eventos, esto es,
la clase de conjuntos conformada por todos los subconjuntos contenidos en
, {0,1}
= {A : A}.

En aquellos experimentos aleatorios en los que el espacio muestral tiene una cardinalidad
finita, es legtimo pensar en enumerar todos los posibles eventos que pueden ocurrir, esto
es, todos los posibles subconjuntos de . Para construir esta clase de conjuntos basta con
considerar todas las secuencias binarias de || bits, donde || es la cardinalidad de , de
manera que a cada posicin en la secuencia le corresponde un elemento de . As, con
cada secuencia construimos un subconjunto conformado por los elementos asociados con
un uno en la posicin correspondiente de la secuencia. Por ejemplo a la secuencia 0,
compuesta por || ceros, le corresponde el conjunto vaco, que siempre es un subconjunto
de cualquier conjunto; a la secuencia 2
i-1
, con i{1,2,, ||}, compuesta por ||-1 ceros
y un uno en la posicin i, le corresponde el evento unitario {
i
}; a la secuencia 2
i-1
+ 2
j-1
,
con i,j{1,2,, ||}, ij, compuesta por ||-2 ceros y dos unos en las posiciones i y j, le
corresponde el evento binario {
i
,
j
}; a la secuencia 2
||
-1, compuesta por || unos, le
corresponde el espacio muestral mismo que, por definicin, es un subconjunto de si
mismo. Debido a esta metodologa de construccin, es razonable que al conjunto potencia
del espacio muestral se le denote como {0,1}
. Ms an, como en {0,1}
hay un
conjunto vaco, || conjuntos unitarios, (
||

2
) conjuntos binarios donde (
m

k
) es el
nmero de combinaciones de k elementos escogidos entre m posibles, (
||

3
) conjuntos
ternarios, etc., la cardinalidad de {0,1}
es
{ }
0
0,1 2
n
n

=
| |
= =
|
\
.
11
En el experimento 6 de la definicin 4, por ejemplo, en el que verificamos el estado de
ocupacin de un canal de comunicaciones, solamente hay dos posibles resultados, por lo
que tenemos solamente cuatro posibles eventos:
Libre Ocupado Evento
0 0
0 1 {Ocupado}
1 0 {Libre}
1 1
Pero si viramos el estado de ocupacin de dos canales, considerando cada uno
individualmente, tendramos 16 posibles eventos:
(libre,
libre)
(libre,
ocupado)
(ocupado,
libre)
(ocupado,
ocupado)
Evento
0 0 0 0
0 0 0 1 {No hay canales libres}
0 0 1 0 {(ocupado, libre)}
0 0 1 1 {El primer canal esta ocupado}
0 1 0 0 {(libre, ocupado)}
0 1 0 1 {El segundo canal est ocupado}
0 1 1 0 {Slo hay un enlace libre}
0 1 1 1 {Al menos un canal est ocupado}
1 0 0 0 {No hay canales ocupados}
1 0 0 1 {Ambos estn libres o ambos estn ocupados}
1 0 1 0 {El segundo canal est libre}
1 0 1 1 {El primero est ocupado o el segundo est libre}
1 1 0 0 {El primer canal est libre}
1 1 0 1 {El primero est libre o el segundo est ocupado}
1 1 1 0 {Al menos un canal est libre}
1 1 1 1
Con tres canales tendramos 256 posibles eventos y con cuatro canales deberamos
considerar 65536 eventos En el experimento ocho, por ejemplo, en el que
inocentemente queremos ver el estado de ocupacin de cada canal en un enlace E1,
tendramos 2
4.294967.296
posibles eventos, ms de 10
1.000000.000
eventos! Un uno seguido
por mil millones de ceros! Para hacernos a una idea de la cardinalidad de este conjunto,
consideremos el tamao del universo: 410
26
metros (la distancia que ha podido recorrer
la luz desde el BigBang, que son 42 mil millones de aos luz, algo ms de los 14 mil
millones de aos que han transcurrido desde entonces debido a que la expansin csmica
ha triplicado las distancias). Si el radio del electrn es 2.810
-15
m, podramos empacar
cerca de 10
41
electrones en el universo, sin dejar ningn espacio entre ellos. Luego, si por
cada posible evento en nuestro experimento sencillo nos regalaran un electrn,
necesitaramos 10
999999.959
universos para almacenarlos! En ese nmero de universos es
altamente probable encontrar uno idntico al nuestro, excepto porque nuestro amable
lector tendra otro color de ojos! Cmo nos pudimos meter en un problema tan grande si
slo queramos monitorear un simple enlace E1?
De hecho, aunque observar los 32 canales de un inofensivo enlace E1 puede generar un
nmero mucho ms que astronmicamente

grande de posibles eventos, todava se trata de
un conjunto describible (tanto que podemos contar cada uno de sus elementos). Pero,
podra el lector imaginarse el conjunto potencia del experimento 14? Es el conjunto de
todos los subconjuntos que se pueden formar con los nmeros reales no negativos! Si los
famlicos 32 canales de un enlace E1 lograrn atemorizarnos de hoy en adelante cada vez
que pasemos cerca de la pequea PBX de la oficina, qu podra hacer el conjunto de los
12
nmeros reales? Grandes matemticos como Bolzano, Cauchy, Weierstrass, Dedekind y
Cantor han estudiado estos monstruos matemticos, algunos de ellos con apreciables
consecuencias en su salud mental. Como nos preocupa la salud mental de nuestros
lectores, resulta conveniente definir el siguiente concepto, campo- de eventos. Esto es,
en vez de pretender que se atemorice la prxima vez que vaya a revisar el PBX de la
oficina, slo queremos motivar al lector a seleccionar un conjunto pequeo de eventos de
inters cada vez que decida modelar un experimento aleatorio.

7. Campo- de Eventos

Un Campo de Eventos, Y , es una clase de subconjuntos de que satisface los
siguientes axiomas: (1) Y es no vaco, (2) si A Y, A
C
Y, (3) si A,B Y, AB
Y. Un campo- de eventos es un campo contablemente aditivo, esto es, que
satisface la condicin adicional (3) si {A
n
Y, n=1,2,},
1 n n
A
=
Y.

La idea es que ms adelante vamos a definir la probabilidad como una funcin que le
asigna una medida real a cada evento de inters. Pero una funcin no queda bien definida
si no especificamos claramente su rango y su dominio. Y, como vimos en la definicin 6,
no podemos especificar como dominio el conjunto de todos los posibles eventos, pues en
muchos casos ese conjunto puede ser monstruoso. Slo cuando el espacio muestral tiene
cardinalidad finita (y pequea!), es posible considerar el conjunto de todos los eventos,
el cual es un campo-, evidentemente. Pero tampoco podemos seleccionar algunos pocos
eventos de inters e ignorar el resto si no le damos una estructura al dominio
correspondiente, con el que evitemos llegar rpidamente a inconsistencias. Si nos interesa
el evento A, cmo no nos podra interesar el evento A
C
= {No sucede A}? O si nos
interesan los eventos A y B , cmo no nos podra interesar el evento AB = {sucede
por lo menos uno de los dos eventos}? Al cerrar el campo de eventos sobre las uniones y
los complementos, estamos incluyendo en l todos los eventos asociados con los eventos
de inters definidos originalmente, con lo cual podemos asignar medidas de probabilidad
a cada evento sin preocuparnos por inconsistencias, como veremos en la definicin 10.
Podemos deducir algunas propiedades adicionales de un campo- de eventos a partir de
los axiomas que lo definen. Por ejemplo,
(1) Y. En efecto, como Y no es vaco, debe contener al menos un evento A y, por el
segundo axioma, tambin debe contener a A
C
. El tercer axioma requiere que la unin
de cualquier par de miembros de Y pertenezca a Y, por lo que AA
C
= Y.
(2) Y. Esta propiedad surge de aplicar el segundo axioma a la propiedad anterior.
(3) Si A Y y B Y, AB Y. En efecto, por el segundo axioma A
C
Y y B
C
Y, por lo
que el segundo axioma asegura que A
C
B
C
Y y, aplicando nuevamente el segundo
axioma, (A
C
B
C
)
C
= AB Y.
(4) Similarmente, usando los axiomas 2 y 3, podemos decir que si {A
n
Y, n=1,2,},
1 n n
A
=
Y.
As pues, el campo- contiene todos los complementos, intersecciones numerables y
uniones numerables de cada uno de los conjuntos que lo componen. La virtud de esta
13
construccin es que, con ella, podemos desarrollar todas las funciones lgicas Booleanas
sobre los eventos de inters, lo cual nos da la coherencia que necesitamos para
expresarnos de manera lgica respecto a los eventos sin salirnos de nuestro campo de
eventos, pues estos constituyen un lgebra booleana cerrada para la negacin, la
conjuncin y la disyuncin.
Antes de mostrar algunos ejemplos, es conveniente incluir una definicin adicional.

8. Mnimo Campo- de Eventos

Dada una clase de eventos V {0,1}
, el mnimo campo- de eventos que

contiene a V, (V), es el campo- de menor cardinalidad entre todos los
campos- que lo contienen.

Como sugeramos al concluir la definicin 6, una vez escogidos el experimento aleatorio
y su espacio muestral , lo siguiente por hacer es seleccionar una clase de eventos de
inters, V, y, con esta clase, construir el mnimo campo- que contiene a todos los
eventos en V. Este mnimo campo- se representa mediante (V) y se puede construir
as: Si denotamos f como el conjunto de campos- que contienen a V, podemos saber
que f no es vaco pues por lo menos {0,1}
es un campo- de subconjuntos de que

contiene a V. Definiendo (V) como la interseccin de todos los campos- en f,
sabremos que (V) es el mnimo campo- que contiene a V. En efecto, si Y
1
y Y
2
son
dos campos- que contienen a V, Y
1
Y
2
= {A Y
1
: A Y
2
} es una clase de eventos
que tambin contiene a V (pues cada evento en V est tanto en Y
1
como en Y
2
) y que
forma un campo- porque no es vaco (al menos y pertenece a ambos), si el evento
A pertenece a ambos campos, el evento A
C
tambin pertenece a ambos campos, y si los
eventos A y B pertenecen a ambos campos, el evento AB tambin pertenece a ambos
campos. Por supuesto, | Y
1
Y
2
| min(|Y
1
|, | Y
2
|), por lo que la interseccin de todos
los campos en f nos da el mnimo campo-, (V). Siendo as, si { Y
n
, n=1,2,} es el
conjunto de todos los campos- que contienen a V, (V) se puede definir como
( )
1
n
n

=
=
V Y .
(ojo: teora de conjuntos, secuencias de conjuntos montonamente
crecientes o decrecientes, nfimos y supremos, lmites, etc Valdr la
pena mencionar estos conceptos? Despus de todo van a ser muy tiles
cuando hablemos de convergencia de secuencias de v.a. Tal vez un
apndice?)
Como ejemplo, consideremos algunos posibles campos- definidos en los 10 primeros
experimentos propuestos anteriormente.
1. Lanzar una moneda y ver qu lado queda hacia arriba: La sencillez del espacio
muestral sugiere que un campo sigma apropiado es el conjunto potencia. Despus de
todo, la cardinalidad de dicho campo- es solamente 4.
2. En el experimento de lanzar un dado y contar los puntos en la cara que queda hacia
arriba incluimos los conjuntos A = {hay ms de tres puntos} = {4,5,6} y B = {hay un
14
nmero par de puntos} = {2,4,6}, con los cuales se puede construir el siguiente
campo- en = {1,2,3,4,5,6}:
Y = {, {5}, {4,6}, {4,5,6}, {2}, {2,5}, {2,4,6}, {2,4,5,6}, {1,3}, {1,3,5}, {1,3,4,6},
{1,3,4,5,6}, {1,2,3}, {1,2,3,5}, {1,2,3,4,6}, }
La cardinalidad de este campo- es 16, menor a los 64 eventos del conjunto potencia.
Obsrvese que otro campo- que tambin contiene a la clase de eventos V ={A,B} es
el siguiente:
Z = {, {6}, {5}, {5,6}, {4}, {4,6}, {4,5}, {4,5,6}, {2}, {2,6}, {2,5}, {2,5,6}, {2,4},
{2,4,6}, {2,4,5}, {2,4,5,6}, {1,3}, {1,3,6}, {1,3,5}, {1,3,5,6}, {1,3,4},
{1,3,4,6}, {1,3,4,5}, {1,3,4,5,6}, {1,2,3}, {1,2,3,6}, {1,2,3,5}, {1,2,3,5,6},
{1,2,3,4}, {1,2,3,4,6}, {1,2,3,4,5}, }
Cuya cardinalidad, 32, sigue siendo menor a |{0,1}
|=64. Sin embargo Y = (V) es el

mnimo campo- que incluye a los eventos de V. De hecho, ntese que Y = Y Z.
Para construir un modelo probabilstico de este experimento en donde slo interesen
los eventos en V, es suficiente con asignar medidas de probabilidad a cada uno de los
eventos de Y y no hace falta asignarle probabilidades a cada evento en Z ni, mucho
menos, a cada evento en {0,1}
.
3. En el experimento de escoger una carta de la baraja de naipes definimos los eventos A
= {Una figura de pinta roja} = {corazones, diamantes}{J,Q,K} y B = {Un as
negro} = {(picas,1), (trboles,1)}. En este caso, como los eventos son excluyentes
(no pueden suceder simultneamente), el mnimo campo- de eventos que incluye a
A y B es bastante pequeo: Y = {, A, B, AB, A
C
, B
C
, (AB)
C
, }. Por supuesto, el
conjunto potencia tiene 2
52
eventos, ms de cuatro mil billones (cuatro mil millones
de millones)!
4. En el experimento de medir la fraccin de paquetes perdidos durante una hora en una
red IP tenamos como espacio muestral el intervalo [0,1] de la recta real, donde
resulta imposible definir el conjunto potencia. Si definimos una familia de eventos f
compuesto por los intervalos cerrados {[0, x], x1}, podramos considerar el mnimo
campo- que contiene a f, (f). Este conjunto se llama el campo de Borel del
intervalo [0,1], U([0,1] ver enseguida la definicin 9-), y, aunque es difcil de
describir, sabemos que tambin contiene todos los intervalos abiertos, semiabiertos,
cerrados, puntos aislados y uniones contables de dichos eventos Todo lo que nos
pueda interesar! Claro, hay muchos subconjuntos de [0,1] que no estn en U([0,1])
la mayora!- pero son tan raros para nuestros propsitos de modelar la fraccin de
paquetes perdidos, que no nos interesa incluirlos en nuestro campo- de eventos
(afortunadamente!).
5. Medir el retardo experimentado por un paquete de voz mientras transita por una red
VoIP: Si slo nos interesa el evento A = {x : x > 0.1} = {El paquete no alcanza a
ser reproducido en el receptor}, el campo- de eventos sera elemental: Y = {, A,
A
C
, }, a pesar de que el espacio muestral est compuesto por los reales no
negativos.
6. Verificar el estado de ocupacin de un canal de comunicaciones: Como los posibles
eventos de inters son los subconjuntos unitarios {libre} y {ocupado}, el conjunto
15
potencia resulta un perfecto campo- para trabajar: {0,1}
= {, {libre}, {ocupado},
}
7. Se cuenta el nmero de canales libres en un enlace E1. Definamos dos eventos de
inters, A = {Se puede establecer una videoconferencia} = {6,7,8,,32} y B = {Se
puede transmitir video MPEG-4 a por lo menos 768 kbps} = {12,13,14,, 32}. En
este caso, como el evento A incluye al evento B, ({,}) = {, A, B, A
C
, B
C
, A
C
B,
AB
C
, }.
8. Se mira el estado de ocupacin de cada uno de los canales en un enlace E1. Si
definimos 33 eventos [X
i
= {Hay i canales libres}, i=0,1,2,,32], como se trata de
eventos mutuamente excluyentes, el mnimo campo- tendra slo 2
33
eventos de
inters. Los eventos de este mnimo campo- se podran asociar en una
correspondiencia uno-a-uno con los eventos del conjunto potencia del experimento
anterior.
correctamente al otro lado. En este experimento, como en los experimentos 1 y 6, el
conjunto potencia es un campo- apropiado.
10. Se cuenta el nmero de transmisiones (a travs de un canal ruidoso) que requiere un
paquete de datos hasta llegar correctamente a su destino: = {1,2,3,}. Con Los
eventos A={No hay errores de transmisin} = {1} y B={Mejor desistir de seguir
intentndolo} = {16,17,18,} se puede construir un pequeo campo- con slo ocho
eventos: Y = {, A, B, AB, A
C
, B
C
, (AB)
C
, }.

9. Campo- de Borel, U UU U(R RR R)

El campo- de Borel de los nmeros reales, U(R), es el mnimo campo- que
contiene a todos los intervalos semi-infinitos de la forma A
x
= {R : - <
x}, xR. Los subconjuntos de R que pertenecen a U(R) se denominan
conjuntos de Borel.

En muchas ocasiones el espacio muestral de nuestros experimentos ser el conjunto de
los nmeros reales, por lo que se hace muy importante definir un campo sigma de eventos
sencillo que involucre todos los eventos razonables que nos puedan interesar. Como
veremos enseguida, el campo de Borel de los nmeros reales incluye a todos los
intervalos cerrados, abiertos, semiabiertos, finitos semi-infinitos, incluyendo todos los
puntos aislados. Cuando nos limitamos a uniones numerables de este tipo de eventos en
R, podemos construir un espacio de probabilidad coherente sobre el cual podremos
aplicar toda la lgica booleana sin llegar a inconsistencias.
Veamos qu tipos de eventos se incluyen en U(R):
(1) (-,x] U(R) xR, por definicin
(2) Aplicando el segundo axioma a los eventos anteriores,
(x,) U(R) xR
(3) Como (-,b] y (a,) pertenecen a U(R),
(-,b](a,) = (a,b] U(R) aR, bR, a<b.
16
(4) De acuerdo con el punto anterior, (a - 1/n, a] U(R) y, como un campo- es
cerrado para las intersecciones contables,
1
1
, [ ]
n
a a a
n
=
| (
=
(
\
U(R) aR
(5) De los puntos (3) y (4), [a] (a,b] = [a,b] U(R) aR, bR, a<b.
(6) [b]
C
(a,b] = (a,b) U(R) aR, bR, a<b.
(7) [a] (a,b) = [a,b) U(R) aR, bR, a<b.
Si todos los intervalos (abiertos, cerrados, semiabiertos, semi-infinitos) y todos los puntos
aislados son conjuntos de Borel, al igual que las uniones e intersecciones numerables de
dichos subconjuntos, Puede haber algn subconjunto de R que no sea un conjunto de
Borel? S, y no pocos. De hecho, la mayora de subconjuntos de R no pertenecen al
campo de Borel de los reales! Sin embargo nuestra forma particular de pensamiento nos
dificulta si quiera imaginarlos. Consideremos, por ejemplo, el conjunto de Cantor.
Comenzando con el intervalo cerrado [0,1], extraemos de l el segmento central
correspondiente al intervalo abierto (1/3, 2/3), dejando los dos intervalos cerrados [0,1/3]
y [2/3,1]. A cada uno de estos intervalos le extraemos los respectivos segmentos centrales
(1/9, 2/9) y (7/9, 8/9), dejando cuatro intervalos cerrados [0,1/9], [2/9, 3/9], [6/9, 7/9] y
[8/9,1]. As seguimos repitiendo el proceso de extraccin con cada intervalo cerrado que
nos vaya quedando, Ad Infinitum, como sugiere la figura 4. El conjunto que nos queda
cuando repetimos la iteracin un nmero infinito de veces es el conjunto de Cantor, V.

0 3/9 2/9 5/9 4/9 7/9 6/9 1 8/9 1/9 0 3/9 2/9 5/9 4/9 7/9 6/9 1 8/9 1/9

Figura 4. Primeras cuatro iteraciones en la construccin del conjunto de Cantor

Porqu V no es un conjunto de Borel? Despus de todo, en cada iteracin obtenemos un
conjunto de intervalos cerrados numerables, de manera que despus de cada iteracin
seguimos teniendo un conjunto de Borel; pero Qu pasa despus de un nmero infinito
de iteraciones? Que ya no existe ningn intervalo! En efecto, en la iteracin n, para n =
1,2,3,, estamos retirando 2
n-1
intervalos, cada uno de longitud 3
-n
, de manera que la
longitud total de los intervalos que extraemos es
2
0 3
1 2 1 1
1
3 3 3 1
n
n
=
| | | |
= =
| |
\ \
. El conjunto de
Cantor es una nube de polvo que no contiene ningn intervalo, slo puntos aislados.
Pero si cada punto individual de R es un conjunto de Borel, porqu la unin de todos los
puntos que pertenecen a V no habra de pertenecer a U(R)? Porqu la propiedad (3) de
la definicin 7 exige que los eventos sean numerables y no es posible numerar los puntos
en el conjunto de Cantor. En efecto, ntese que si miramos con una lupa el conjunto de
Cantor en el intervalo [0, 3
-n
], basta con la lupa aumente 3
n
veces para reconstruir el
17
conjunto de Cantor completo. Por eso el conjunto de Cantor constituye un objeto
autosemejante (es idntico a s mismo en un nmero infinito de escalas) con dimensin
fractal ln(2)/ln(3) 0.6, a pesar de tener una dimensin topolgica 0. De hecho, ni
siquiera se puede describir V como el conjunto de los puntos extremos de los intervalos
cerrados que van quedando en cada iteracin pues existe otra cantidad no numerable de
puntos que, sin ser el extremo de ninguno de esos intervalos, jams se eliminan del
conjunto de Cantor, como se puede apreciar para el punto en la figura 5.
1/4 1/3 0 2/3 1
1/4 1/9 0 2/9 1/3
1/4 7/27 2/9 8/27 1/3
1/4 19/81 2/9 20/81 7/27
1/4 61/243 20/81 62/243 7/27
1/4 1/3 0 2/3 1
1/4 1/9 0 2/9 1/3
1/4 7/27 2/9 8/27 1/3
1/4 19/81 2/9 20/81 7/27
1/4 61/243 20/81 62/243 7/27

Figura 5. El punto [1/4] pertenece al conjunto de Cantor
Para terminar, vale la pena mencionar que aunque el conjunto de Cantor parece ser una
curiosidad matemtica diseada para mostrar extraos subconjuntos de R que no
pertenecen a U(R), mediante procedimientos de construccin generalizados semejantes
al algoritmo de Cantor, se han desarrollado importantsimos modelos de trfico en redes
de comunicaciones, tales como el modelo wavelet multifractal (MWM), que ha
demostrado ser de gran utilidad en el modelamiento de redes modernas de
comunicaciones.

10. Medida de Probabilidad

Una medida de probabilidad P asociada a un experimento aleatorio (,Y ) es
una funcin P:Y R que asigna a cada evento en Y un nmero real que
satisface los siguientes axiomas: (1) P() = 1, (2) Si AY , P(A) 0, (3) Si
A,BY son mutuamente excluyentes (AB=), P(AB) = P(A) + P(B). Si Y
es un campo- infinitamente aditivo, tambin debe satisfacerse el siguiente
axioma adicional: (3) Si {A
n
Y , n=1,2,3,} es una coleccin de eventos tal
que A
i
A
j
= para ij, entonces ( )
1
1
n n
n
n
A A
=
=
| |
=
|
\

P P .

Esta definicin axiomtica es, de muchas maneras, la ms correcta, a pesar de que deja
de lado el problema de darle un significado al nmero que se asigna a cada evento. Lo
cierto es que si Kolmogorov estableci esta definicin en 1933, en respuesta al reto
lanzado por Hilbert en 1900 sobre determinar unas bases formales para la teora de la
18
probabilidad, fue inspirado en propiedades fundamentales de los conceptos tpicos de
probabilidad que haban hasta entonces: (1) Que si repito un experimento un gran nmero
de veces y mido la fraccin de experimentos en que sucede el evento A (ver definiciones
2 y 10), la fraccin obtenida tiende a la P(A) a medida que hago ms y ms repeticiones.
(2) Que si logro describir el espacio muestral como un conjunto de cardinalidad finita en
el que ninguno de los eventos unitarios ocurre preferencialmente sobre los otros, la
probabilidad de un evento est dada por la cardinalidad del evento sobre la cardinalidad
del espacio muestral. (3) Que si consulto a un experto sobre la ocurrencia de un evento en
una hipottica realizacin de un experimento, la probabilidad del evento es el grado de
certeza que el experto tiene en que dicho evento ocurra. (4) Que si he acumulado cierta
evidencia a favor o en contra de una hiptesis, la probabilidad del evento en el que dicha
hiptesis es cierta est dada por el grado de implicacin lgica que existe de la evidencia
a la hiptesis. (5) etc. Resulta muy afortunado saber que siempre es posible asociar los
axiomas propuestos por Kolmogorov a propiedades particulares de la probabilidad en
cada una de sus interpretaciones.
Para nosotros, como ingenieros preocupados por problemas tcnicos muy precisos,
resulta muy cmodo escoger eclcticamente entre cada una de las interpretaciones la que
ms nos favorezca o la que mejor nos gue en el proceso de desarrollar un modelo
probabilstico para nuestro problema. Por ejemplo, no hemos sabido de ningn ingeniero
de comunicaciones al que le quite el sueo el problema filosfico que implica utilizar un
medidor de BER (Bit-Error-Rate) para estimar la probabilidad de que un bit se dae
durante su transmisin por un canal de comunicaciones (como en el experimento 9) y
despus utilizar esa medida como su nivel de confianza en que el prximo bit que
transmita se dae en el canal, aunque as est mezclando las interpretaciones (1) y (3).

Dada la facilidad que tenemos los ingenieros de comunicaciones para tomar mediciones,
an prevalece entre nosotros la interpretacin frecuentista (1), a la luz de la cual podemos
interpretar los axiomas de Kolmogorov, como se describe en el siguiente numeral.

11. Medida de Probabilidad Interpretada como el Lmite de la
Frecuencia Relativa

Sea un experimento aleatorio (,Y ) y un evento AY . Una forma de
interpretar la probabilidad del evento A es mediante la relacin
P(A) = lim ( )
N
N
f A
, donde f
N
(A) es la frecuencia relativa del evento A en N
repeticiones del experimento.

Como mencionamos en la definicin 2 sobre la regularidad estadstica de un experimento
aleatorio, si repetimos N veces un experimento con espacio muestral y contamos en
cuntas repeticiones ocurri el evento A , N
A
, definimos la frecuencia relativa del
evento A en esas N repeticiones como f
N
(A) = N
A
/N. Obsrvese que el proceso de
observacin de N
A
es, en s mismo, otro experimento aleatorio, de manera que en
diferentes conjuntos de N repeticiones podemos obtener diferentes valores de f
N
(A). Sin
embargo, la regularidad estadstica sugiere que, entre ms repeticiones hagamos, el valor
19
de f
N
(A) tiende a un valor fijo, independientemente del conjunto particular de N
repeticiones que seleccionemos.

Por ejemplo, supongamos que deseamos saber cul es la probabilidad del evento A = {a
un enrutador llegan ms de 1000 bytes en un perodo de 100 ms}. Para esto medimos la
frecuencia relativa de dicho evento en 200 perodos consecutivos y la graficamos en
funcin del nmero de perodos observados. Si hacemos mediciones durante un minuto,
obtendremos tres conjuntos distintos, como muestra la figura 6, en cada uno de los cuales
la frecuencia parece tender a un nmero cercano a 0.4. Si las condiciones del trfico
permanecen estables durante el minuto de observacin y son iguales a las condiciones en
el perodo de 100 ms por cuya probabilidad nos interesamos (que podra ser, por ejemplo,
el siguiente perodo que an no hemos observado), diramos que la probabilidad de que
lleguen ms de 1000 bytes es cercana a 0.4
1
. Pues bien, es fcil ver que los axiomas
que definen la probabilidad como una medida de los subconjuntos de contenidos en Y
estn inspirados en propiedades elementales de la frecuencia relativa. En efecto,
0 2 4 6 8 10 12 14 16 18 20
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Tiempo en segundos
Fraccion de periodos de 100 ms con mas de 80 kbps
Primera prueba
Segunda prueba
Tercera prueba

Figura 6. f
N
(A) vs N para tres conjuntos distintos de pruebas.

(1) f
N
() = N / N = 1
(2) como N
A
0, f
N
(A) 0
(3) Si AB = , N
AB
= N
A
+ N
B
, de manera que f
N
(AB) = f
N
(A) + f
N
(B).

Permtaseme insistir, porque debemos ser cuidadosos con esto, que el lmite de la
frecuencia relativa es apenas una interpretacin de la probabilidad que puede ser til para
los ingenieros de redes de comunicaciones ya que a nosotros nos es posible tomar muchas
mediciones con facilidad y en tiempos razonables (medir el retardo de 10000 paquetes,

1
De hecho, en la definicin 40 (cotas de Chernoff) veremos que, bajo ciertas condiciones, la frecuencia
relativa se acerca a la probabilidad exponencialmente rpido a medida que hacemos ms y ms
observaciones, en el sentido de que el evento B = {|f
N
(A) - P(A)| < } ocurre con probabilidad mayor o igual
a 1 , con = 2exp(-2N
2
). Si, por ejemplo, queremos encontrar un intervalo de longitud 0.05 ( = 0.025)
en el cual se encuentre P(A) con probabilidad mayor o igual a 0.95 ( = 0.05), deberamos hacer N = 2951
observaciones.
20
medir el nmero de errores en 10000 bits transmitidos, medir la condicin de spam en
10000 mensajes de correo electrnico, etc.). Sin embargo, en muchos casos, el
experimento mismo que queremos modelar ni siquiera es repetible, de manera que no
tiene sentido considerar esta interpretacin. J. M. Keynes, por ejemplo, era economista y
cada uno de sus experimentos poda durar dcadas; por esa razn, la interpretacin
frecuentista, que parece objetiva en cuanto a que muestra resultados verificables a la
larga, lo conduce a expresar su famosa frase: A la larga, todos estamos muertos. En
estas condiciones, lo mejor es considerar la probabilidad como expresin de simetra o
como nivel de confianza.

De todas maneras, desde un punto de vista puramente matemtico, la interpretacin
misma pierde relevancia pues la definicin es precisa e implacable: la probabilidad es una
funcin que asigna a cada subconjunto de en Y una medida en R que satisface tres
axiomas bsicos. Lo cierto es que, cuando uno est inmerso en un problema de
modelamiento probabilstico, a veces resulta muy til preguntarse si yo pudiera repetir
este experimento muchas veces, qu esperara que sucediera a la larga?, pues la
respuesta puede sugerirnos el siguiente paso en el proceso o puede explicarnos un
resultado poco intuitivo. De hecho, en este libro echaremos mano de la interpretacin
frecuentista liberalmente para justificar muchas definiciones o para interpretar muchos
resultados.

12. Espacio de Probabilidad

Un espacio de probabilidad es la tripleta (, Y , P) asociada con un
experimento aleatorio, donde es el espacio muestral o el conjunto de todos
los posibles resultados del experimento, Y es un campo- de subconjuntos de
construido a partir de una clase de eventos de inters y P es una funcin de Y
en R que satisface los axiomas en la definicin 10.
Como solamente se les puede asignar una medida de probabilidad a los
subconjuntos de que pertenecen a Y , a dichos subconjuntos se les denomina
subconjuntos medibles.

En cualquier caso en que queramos trabajar sobre modelos probabilsticos de una realidad
particular, deberemos partir de la descripcin explcita del espacio de probabilidad (, Y,
P) pues, de otra manera, estaremos perdidos: ni siquiera sabremos dnde estamos
parados! En efecto, una vez descrito el problema en trminos de un espacio de
probabilidad, podremos movernos con confianza sobre todos los resultados de la teora de
las probabilidades sabiendo que, mientras seamos consecuentes y rigurosos con ellas,
llegaremos a resultados significativos, pues es sobre los axiomas que definen a Y y P que
se construye TODA la teora de probabilidades.

Hasta este punto, la teora de probabilidades sera simplemente una rama de la teora de
las mediciones, que es el rea de la matemticas que estudia las funciones : X R
que asignan una medida real (E) a cada conjunto E de una coleccin de conjuntos X. En
teora de mediciones se estudia formalmente la conveniencia de que X forme un campo-
21
, en cuyo caso () es una medida aditivamente contable, como es el caso de las medidas
de probabilidad asignadas a los subconjuntos medibles del espacio muestral de un
experimento aleatorio. Sin embargo, la definicin 17 (independencia) le dar a la teora
de probabilidades una identidad propia que le permitir distinguirse de la teora general
de las mediciones.

13. Algunos Resultados Bsicos Derivados de los Axiomas de la
Probabilidad

Sea (,Y, P) un espacio de probabilidad en el que hay dos eventos medibles A y
B Y. Entonces (1) P(A
C
) = 1 P(A), (2) P() = 0, (3) P(A) 1, (4) P(AB) =
P(A) + P(B) - P(AB), (5) Si A B, P(A) P(B).

Los anteriores cinco resultados son apenas una muestra mnima de todas las conclusiones
que se pueden sacar de la definicin 10 pues, como ya se dijo, de los tres axiomas se
deriva TODA la teora de las probabilidades. Sin embargo, como estos cinco resultados
se usan cotidianamente cuando se estudian modelos probabilsticos de cualquier sistema,
vale la pena tenerlos tan presentes como los mismos axiomas de los que se derivan:

(1) P(A
C
) = 1 P(A)
En efecto, como AA
C
= y AA
C
=, los axiomas 1 y 3 conducen a P() = P(A
C
)
+ P(A) = 1. Restando P(A) a ambos lados obtenemos el resultado deseado.
(2) P() = 0
En efecto, A=A, que son eventos mutuamente excluyentes, por lo que podemos
aplicar el tercer axioma: P(A) = P(A) + P(). Restando P(A) a ambos lados
obtenemos el resultado deseado.
(3) P(A) 1
En efecto, como ya demostramos que P(A) = 1 P(A
C
), basta con aplicar el segundo
axioma en A
C
, P(A
C
)0, para obtener el resultado deseado.
(4) P(AB) = P(A) + P(B) - P(AB)
En efecto, podemos expresar AB como la unin de dos eventos mutuamente
excluyentes, AB = A(BA
C
), de manera que P(AB) = P(A) + P(BA
C
). Por otro
lado, B tambin se puede expresar como la unin de dos eventos mutuamente
excluyentes, B = (AB)(BA
C
), de manera que P(BA
C
) = P(B) - P(AB).
Remplazando esta expresin de P(BA
C
) en la primera expresin de P(AB)
obtenemos el resultado deseado. Los diagramas de Venn de la figura 7 representan
esta derivacin.

A B

AB = A(BA
C
)
A BA
C
BA
C
AB
B = (AB)(BA
C
)

A B

AB = A(BA
C
)
A BA
C
BA
C
AB
B = (AB)(BA
C
)

Figura 7. Construcciones para derivar la expresin P(AB) = P(A) + P(B) - P(AB)

22
(5) Si A B, P(A) P(B)
En efecto, podemos expresar B como la unin de dos eventos mutuamente
excluyentes, B = A(BA
C
), de manera que P(B) = P(A) + P(BA
C
). Y, como
P(BA
C
) 0, P(B) P(A).

14. Probabilidad condicional

Sea (,Y , P) un espacio de probabilidad en el que hay dos eventos A y B
Y . La probabilidad condicional del evento A dado que se sabe de la
ocurrencia del evento B es
0 ( ) 0
( | ) ( )
( ) 0
( )
B
A B A B
B
B
=
>
P
P P
P
P

Esta definicin, como tan sacada de la manga, en realidad obedece a un concepto muy
simple si se le mira desde la interpretacin frecuentista de la probabilidad. Supongamos
que repetimos N veces el experimento en cuestin y contamos cuntas veces sucedi el
evento A, N
A
, cuntas veces el evento B, N
B
y cuntas veces sucedieron simultneamente,
N
AB
. Ahora nos fijamos solamente en aquellas N
B
repeticiones en las que ocurri el
evento B e ignoramos todas las dems. Si contamos entre las N
B
repeticiones en que
ocurri B en cuntas de ellas tambin ocurri A, tendramos la frecuencia relativa del
evento A entre aquellas repeticiones del experimento en que ocurri B: f
N
(A|B) = N
AB
/
N
B
. Dividiendo el numerador y el denominador por N, obtenemos f
N
(A|B) = f
N
(AB)/
f
N
(B), que es una expresin MUY parecida a la definicin de probabilidad condicional.
De acuerdo con el anterior resultado, si pudisemos definir la probabilidad de un evento
como el lmite de su frecuencia relativa cuando el nmero de repeticiones tiende a
infinito, tendramos que el condicionamiento sera simplemente una propiedad ms de la
probabilidad. Pero como la probabilidad es un concepto ms abstracto (una funcin de Y
en R que satisface 3 axiomas), este resultado frecuentista es apenas un motivo de
inspiracin para la definicin propuesta. De todas formas, la definicin no nos debe
sorprender porque la teora de probabilidades quiere modelar, precisamente, el
comportamiento de ese lmite sin obligarnos a gastar un tiempo infinito en hacer un
nmero infinito de repeticiones del experimento.
Por supuesto, volviendo a nuestra definicin axiomtica, es legtimo preguntarnos por un
nuevo espacio de probabilidad en el que la probabilidad condicional sea una medida de
probabilidad vlida. Lo primero que notamos, por ejemplo, es que en el nuevo espacio de
probabilidades el espacio muestral debe ser B, pues nos estamos limitando a estudiar los
casos en que tenemos certeza absoluta de que el evento B ocurri. Pero, cul sera un
nuevo campo de eventos apropiado? Como todos los eventos de inters contenidos en Y
se ven reducidos a su interseccin con B, es razonable pensar en un campo de eventos
como Z= {AB : AY }. Es ste un campo- de subconjuntos de B? Veamos
(1) Z es no vaco porque por lo menos Y B= Z:
Z es no vaco
(2) Si A Y, entonces A
C
=-A Y, de manera que AB Y y A
C
B=B-(AB) Y,
donde B-(AB) es el complemento de AB en B:
23
Si X Z, entonces X
C
=-X Z
(3) Si A
1
Y, A
2
Y, entonces A
1
B Y, A
2
B Y y, por consiguiente, A
1
B Z,
A
2
B Z, entonces A
1
B Z, A
2
B Z, (A
1
A
2
)B=(A
1
B)(A
2
B) Z:
Si X Z, Y Z, entonces XY Z
(4) Lo mismo se puede verificar para la uniones contables

Y ser la probabilidad condicional P(|B) una medida vlida en (B, Z)? Veamos:
(1) P(B|B)=P(B)/P(B) = 1
(2) P(A|B)0
(3) Si (A
1
B) (A
2
B)=, (en realidad no necesitamos que A
1
y A
2
sean
excluyentes, pues basta con que no puedan ocurrir simultneamente con B),
entonces P((A
1
A
2
) | B) = P((A
1
A
2
) B)/P(B) = P((A
1
B) (A
2
B))/P(B) =
(P(A
1
B) + P(A
2
B))/P(B) = P(A
1
|B) + P(A
2
|B)
(4) Lo mismo se puede verificar para uniones contables.

En conclusin, dado el espacio de probabilidad (,Y, P()), podemos construir un nuevo
espacio de probabilidad (B, Z, P(|B)) condicionando todos los eventos de Y a la
ocurrencia del evento B, donde B Y y P(B)>0. Esto es, hemos reducido el espacio
original a uno ms pequeo.
Considrese, por ejemplo, el experimento nueve, en el que transmitimos un bit y vemos si
lleg correctamente a su destino en el otro extremo del canal binario. Si consideramos
como parte del experimento observar el bit transmitido, nuestro nuevo espacio muestral
ser = {(0,0), (0,1), (1,0), (1,1)}, donde el resultado (i, j) corresponde a la transmisin
del bit i y la recepcin del bit j. La probabilidad de que se produzca un error en ese canal
es P({(0,1),(1,0)}), que es la probabilidad del evento ERROR = {se recibe un bit distinto
al bit transmitido}. Condicionando en el bit transmitido, tenemos dos tipos de error con
las siguientes probabilidades
P({Recibir 0} | {se transmiti 1}) = P({(1,0}) / P({(1,0), (1,1)})
P({Recibir 1} | {se transmiti 0}) = P({(0,1}) / P({(0,0), (0,1)})
Dada la simetra que existe en las tcnicas de modulacin digital, es de esperar que los
dos tipos de error tengan la misma probabilidad, en cuyo caso nos encontramos ante un
espacio de probabilidad que modela un Canal Binario Simtrico (BSC, binary symmetric
channel). Claramente, al utilizar un medidor de BER sobre un canal BSC, estamos
tratando de estimar las probabilidades condicionales descritas anteriormente, por lo que el
modelo se puede representar de la siguiente manera:
1 con prob. p
0 con prob. 1-p
1 - BER
1 - BER
BER BER
1 con prob. p
0 con prob. 1-p
1 - BER
1 - BER
BER BER

Figura 8. Modelo probabilstico de un canal binario simtrico

24
donde el espacio de probabilidad que modela el canal es ( = {(0,0), (0,1), (1,0), (1,1)},
Y = {0,1}
, P). El conocimiento inicial que tenemos sobre la medida de probabilidad P

en este modelo probabilstico de un canal de comunicaciones es el siguiente:
P[{(1,0),(1,1)}] = 1 P[{(0,0),(0,1)}] = p
P[{(0,0),(1,0)} | {(1,0),(1,1)}] = 1 - P[{(0,1),(1,1)} | {(1,0),(1,1)}] =
P[{(0,1),(1,1)} | {(0,0),(0,1)}] = 1 - P[{(0,0),(1,0)} | {(0,0),(0,1)}] = BER
Obsrvese en este ejemplo cmo resulta de fcil medir la probabilidad condicional
BER. En general, sta es la gran utilidad de la probabilidad condicional: encontrar la
probabilidad de un evento A puede ser muy difcil, pero una vez condicionamos el evento
de inters a otro evento B (juiciosamente seleccionado), puede resultar muy fcil
encontrar la probabilidad condicional de A dado B. Este truco se repite una y otra vez en
el modelamiento probabilstico de redes de comunicaciones, como tendremos
oportunidad de ver en breve. Pero, de qu nos sirve la probabilidad condicional de A
dado B si lo que queramos encontrar era la probabilidad de A? El siguiente teorema
explica dnde reside la utilidad del truco.

15. Teorema de la probabilidad total

Sea (,Y, P) un espacio de probabilidad en el que hay un evento A Y y
una secuencia de eventos {B
k
}, k=1,2, que forman una particin de
(esto es,
k
k
B =
y
,
i j
B B i j =
), que tambin pertenecen a Y . Entonces
( ) ( ) ( | )
k k
k
A B A B =
P P P
Esto es ms fcil de ver si consideramos la particin ms pequea, constituida por B y B
C
.
En efecto, con ella podemos expresar el evento A como la unin de dos eventos
mutuamente excluyentes, A = (AB)(AB
C
), de manera que P(A) = P(AB) +
P(AB
C
). Pero, por la definicin misma de la probabilidad condicional, P(AB) =
P(B)P(A|B) y P(AB
C
)=P(B
C
)P(A|B
C
), de manera que P(A) = P(B)P(A|B) +
P(B
C
)P(A|B
C
). La generalizacin a particiones ms numerosas (incluyendo aquellas
contablemente infinitas) es inmediata.

En el modelo del canal simtrico binario de la figura 8, por ejemplo, cul ser la
probabilidad de recibir un cero? Podemos condicionar en el bit transmitido, ya que las
probabilidades condicionadas en el bit transmitido son conocidas:

P({Rx 0}) = P({Tx 0})P({Rx 0} | {Tx 0}) + P({Tx 1})P({Rx 0} | {Tx 1})
= (1 p) (1 BER) + p BER = 1 BER p + 2pBER

Claro, la probabilidad de recibir un uno debe ser uno menos la probabilidad de recibir un
cero, lo cual puede ser verificado mediante la probabilidad total:

P({Rx 1}) = P({Tx 0})P({Rx 1} | {Tx 0}) + P({Tx 1})P({Rx 1} | {Tx 1})
= (1 p) BER + p (1 BER) = BER + p - 2pBER

25
Obsrvese que si BER=0 si BER=1, no existira ninguna duda en el receptor sobre el bit
transmitido, pues el bit recibido tendr toda la informacin necesaria para identificar el
primero sin equivocaciones. Cualquier otro valor de BER genera incertidumbre en el
receptor, especialmente en el caso extremo en que BER = 0.5, pues en este caso
obtenemos que P({Rx 1}) = P({Rx 0}) = 0.5, independientemente de p, de manera que
podemos ahorrarnos el canal y hacer que en el receptor se lance una moneda equilibrada
por cada bit transmitido.

Una pregunta de mucho inters para el mdem receptor es la siguiente: Dado que recib
cierto smbolo a la salida del canal, cules son las probabilidades del respectivo smbolo
a la entrada del canal? La siguiente regla es muy til para este tipo de preguntas.

16. Regla de Bayes

Sea (,Y, P) un espacio de probabilidad en el que hay un evento A Y y
una secuencia de eventos {B
k
}, k=1,2, que forman una particin de y
que tambin pertenece a Y. Entonces
( ) ( | )
( | )
( ) ( | )
k k
k
j j
j
B A B
B A
B A B
=
P P
P
P P

Esta regla surge directamente de la definicin de la probabilidad condicional, pues
P(AB
k
) = P(B
k
) P(A | B
k
) y P(A) = ( ) ( | )
j j
j
B A B
P P , de manera que la regla de bayes

slo es una forma de expresar la definicin P(B
k
| A) = P(AB
k
) / P(A).

Considrese nuevamente el canal binario simtrico (BSC) donde el transmisor se
caracteriza por transmitir 1 con probabilidad p y transmitir 0 con probabilidad 1 p y el
canal se caracteriza por una tasa de error por bit BER, como muestra la figura 8. Si el
destino recibe 0, cul es la probabilidad de que la fuente haya enviado 1?

{ } { } ( )
{ } ( ) { } { } ( )
{ } ( ) { } { } ( ) { } ( ) { } { } ( )
1 0 1
1 0
1 0 1 0 0 0
P Tx P Rx Tx
P Tx Rx
P Tx P Rx Tx P Tx P Rx Tx
=
+

(1 )(1 )
p BER
p BER p BER
=
+
.

17. Independencia de eventos

Sea (,Y , P) un espacio de probabilidad en el que hay dos eventos A y B
Y . A y B son independientes si y slo si P(AB) = P(A)P(B) o,
equivalentemente, si P(A|B) = P(A) y P(B|A) = P(B).

Tres eventos medibles A, B y C son independientes si se cumplen las
siguientes cuatro condiciones: (1) P(AB) = P(A)P(B), (2) P(AC) =
P(A)P(C), (3) P(BC) = P(B)P(C), y (4) P(ABC) = P(A)P(B)P(C).
26

En general, los eventos medibles {A
n
, n=1,2,} forman una secuencia de
eventos independientes si { } ( ) 1, 2,...
i i
i I i I
A A I

| |
=
|
\

P P

Nuevamente, sta es simplemente una definicin. Pero es una definicin muy poderosa,
pues nos dice que si A y B son independientes, nuestra incertidumbre respecto a la
ocurrencia de A no cambia cuando nos informan que B ocurri. En trminos de nuestra
interpretacin frecuentista, supongamos que hacemos N repeticiones del experimento en
las que observamos que A ocurri N
A
veces, B ocurri N
B
veces, y ambos ocurrieron
simultneamente N
AB
veces. Supongamos que la frecuencia relativa del evento A en N
repeticiones del experimento, N
A
/N, tiende al mismo valor al que tiende la frecuencia
relativa del evento A en las N
B
veces que ocurri el evento B, N
AB
/N
B
, a medida que N
tiende a infinito. Siendo as, para estimar P(A) como el lmite de la frecuencia relativa,
nos dara igual si nos fijamos en todas las N repeticiones o slo en aquellas N
B

repeticiones en que ocurri B, pues la restriccin del espacio muestral de a B no altera
la frecuencia relativa de A.

A veces puede ser fcil identificar si dos eventos son o no son independientes. Por
ejemplo sean A = {me va a ir bien en mi matrimonio} y B = {Mi prometida y yo tenemos
el mismo nivel de educacin}. Nadie duda que P(A|B) > P(A) y que P(A|B
C
) < P(A), de
manera que A y B no son independientes. Sin embargo, si definimos C como el evento
{Yo soy Tauro y mi novia es Libra}, resulta sorprendente la cantidad de personas que
creen que P(A|C) {0,1} independientemente de B. Yo, personalmente, creo que A y C
son eventos independientes, de manera que P(A|C) = P(A)
2
.

En nuestro mundo de las redes de telecomunicaciones, en muchas ocasiones debemos
admitir que ciertos eventos no son independientes, aunque preferimos suponer
independencia para mantener el anlisis matemtico tratable. Por ejemplo, muchos
resultados tiles suponen que la presencia de errores de transmisin en una trama es
independiente de la presencia de errores en la trama inmediatamente anterior. Tal vez en
enlaces satelitales o de fibra ptica se pueda argumentar la validez de esa suposicin,
pero no en enlaces terrestres de radio o de cobre donde los errores se pueden deber, por
ejemplo, a la ignicin elctrica de un motor de combustin o a la operacin cercana de un
horno de microondas. Igualmente, al modelar el trfico sobre una red, muchas veces
preferimos suponer que el tiempo entre la llegada del paquete n-1 y la del paquete n es
independiente del tiempo entre la llegada del paquete n y la del paquete n+1.
Seguramente, si se trata del punto de acceso a la red de un gran nmero de usuarios, esta
suposicin de independencia se pueda justificar. Pero si se trata de paquetes de un mismo

2
Ante sistemas dinmicos caticos, sin embargo, uno debe aceptar la dependencia de eventos
aparentemente independientes, segn sugiere el ttulo de una conferencia dictada por Lorenz ante la
Academia Americana para el Avance de la Ciencia en diciembre de 1972: El aleteo de una mariposa en
Brasil puede causar un tornado en Texas. Por supuesto, sta es slo una forma potica de describir la
hipersensibilidad de los sistemas caticos a las condiciones iniciales (especialmente si se considera la
forma de mariposa del atractor extrao de Lorenz), pero no deja de ser una afirmacin muy sugestiva a la
hora de argumentar si dos eventos son o no son independientes.
27
flujo o si los paquetes ya han sido sometidos a interacciones debidas a los protocolos de
la red, es muy difcil aceptar que sus tiempos entre llegadas puedan ser independientes.
Sin embargo, tan poderoso es el concepto de independencia que, an en estos casos,
preferimos suponer independencia con la esperanza de que los resultados obtenidos al
final del anlisis no estn muy alejados de la realidad.

Por alguna razn muy comn (que no he logrado detectar!), muchos estudiantes nefitos
de teora de probabilidad suelen equiparar la independencia de dos eventos con la
exclusin mutua entre ellos. Si A y B son mutuamente excluyentes y por lo menos uno de
ellos tiene probabilidad mayor que cero, resulta imposible que sean independientes
porque P(A|B) = 0 y P(B|A) = 0, de manera que slo podran ser independientes si ambos
eventos son nulos. De la misma manera, si dos eventos son independientes, resulta
imposible que sean mutuamente excluyentes, a menos que ambos sean eventos nulos.
Considrese, por ejemplo, el experimento de seleccionar un punto de un rectngulo
unitario como el de la figura 9, descrito mediante el siguiente espacio de probabilidad

( = {(x, y)R
2
: 0 x, y 1}, Y = U (R
2
), P(A) = Area(A) AY )
3
.

Sean A = {(x,y) : x <0.5} y B = {(x,y) : y <0.5}. Claramente P(A) = P(B) =
P(A
C
) = P(B
C
) = . A y B no son mutuamente excluyentes porque AB = {(x,y) : x
<0.5, y < 0.5}. Pero A y B s son independientes porque el rea de AB es , que es la
mitad del rea de B, de manera que P(A|B) = = P(A) o, mejor an, P(AB) = P(A)P(B)
= . De manera semejante, A y A
C
son mutuamente excluyentes, por lo que P(A|A
C
) = 0 <
P(A) = 0.5: A y A
C
no pueden ser independientes.
AB B
A
0 1 0.5 0 1 0.5 0 1 0.5
0
1
0.5
0
1
0.5
0
1
0.5
x x x
y y y
AB B
A
0 1 0.5 0 1 0.5 0 1 0.5
0
1
0.5
0
1
0.5
0
1
0.5
x x x
y y y

Figura 9. Distincin entre independencia y exclusin mutua

Es importante notar que, si A y B son independientes, tambin los son A
C
y B. En efecto,
como B es la unin de dos eventos mutuamente excluyentes, (AB) (A
C
B),
encontramos que P(A
C
B) = P(B) P(AB) = P(B) P(A)P(B) = (1 P(A))P(B) =
P(A
C
)P(B). Por la misma razn, si A y B son independientes, tambin los son A y B
C
, as
como A
C
y B
C
.

Tres eventos pueden ser independientes por pares, sin necesidad de que sean tres eventos
independientes. Considere, por ejemplo, una fuente de informacin que es capaz de

3
Por definicin, la interseccin entre un conjunto y una clase de conjuntos, A[, se refiere a la
restriccin de la clase [ al evento A, esto es, A[ = { AH : H [ } es una nueva clase (reducida) de
eventos.
28
generar tres smbolos {a, b, c} con los cuales puede construir nueve mensajes = {abc,
acb, bac, bca, cab, cba, aaa, bbb, ccc}, cada uno con probabilidad 1/9. Sea A
k
= {el k-
simo smbolo del mensaje es a}, k=1,2,3, de manera que P(A
1
) = P({abc, acb, aaa}) =
1/3, P(A
2
) = P({bac, cab, aaa}) = 1/3 y P(A
3
) = P({bca, cba, aaa}) = 1/3. Claramente,
A
1
, A
2
y A
3
son independientes por pares porque P(A
i
A
j
) = P({aaa}) = 1/9 = P(A
i
)P(A
j
)
si ij. Sin embargo no son tres eventos independientes porque P(A
1
A
2
A
3
) = P({aaa})
= 1/9 P(A
1
)P(A
2
)P(A
3
) = 1/27.

El caso contrario tambin puede ocurrir: P(ABC) = P(A)P(B)P(C) pero P(AB)
P(A)P(B). Un ejemplo trivial pero definitivo puede ser el siguiente: Se mide el tiempo de
transferencia ftp de un archivo de 100 kbytes y se definen los siguientes eventos A =
{menos de 1 segundo}, B = {menos de 100 ms} y C = {0 segundos}. Claramente, C B
A de manera que 0 = P(C) < P(B) < P(A) < 1, por lo que P(AB) = P(B) > P(A) P(B),
por lo cual A y B no son independientes, pero P(ABC) = P(C) = P(A)P(B)P(C) = 0, de
manera que la probabilidad de la interseccin de los tres eventos es igual al producto de
las tres probabilidades individuales.

Como ejemplo del poder del concepto de independencia considere la red de la figura 10
en la que cada enlace falla con probabilidad p, independientemente de los otros enlaces.
Cul es la probabilidad de que exista una ruta desde A hasta C? Sean E
i
= {El enlace e
i

est bueno}, i=1,2,3,4,5, y R = {Existe una ruta entre A y C}. Particionando el espacio
muestral en E
5
y E
5
C
, podemos aplicar el teorema de la probabilidad total as:
P(R) = P(E
5
)P(R | E
5
) + P(E
5
C
) P(R | E
5
C
)
Donde P(E
5
) = 1 p, P(R | E
5
) = 1, y P(E
5
C
) = p, de manera que
P(R) = 1 p + p P(R | E
5
C
)

e
1
e
2
e
3
e
4
e
5
A B C
e
1
e
2
e
3
e
4
e
5
A B C

Figura 10. Red para anlisis de confiabilidad

Si e
5
est daado, A y C slo se podrn comunicar a travs de B, para lo cual se requiere
que de A se pueda llegar a B (E
1
E
3
) y que de B se pueda llegar a C (E
2
E
4
):
P(R | E
5
C
) = P((E
1
E
3
) (E
2
E
4
))
Aqu es cuando la suposicin de independencia facilita enormemente el problema pues,
si E
1
y E
3
son independientes de E
2
y E
4
, P(R | E
5
C
) ser el producto de las dos
probabilidades que, por simetra, son idnticas:
P(R | E
5
C
) = P(E
1
E
3
)
2

Pero E
1
E
3
= (E
1
C
E
3
C
)
C
, por lo que podemos aplicar nuevamente la independencia
de E
1
y E
3
: P(E
1
E
3
) = 1 P(E
1
C
E
3
C
) = 1 P(E
1
C
)P(E
3
C
) = 1 p
2
. Reemplazando,
29
P(R) = 1 p + p(1 p
2
)
2

Si los enlaces no fallaran independientemente unos de otros, la solucin del problema
sera enormemente compleja.

Dos eventos pueden no ser independientes, a menos que se condicionen a un tercer
evento: P(AB) P(A)P(B) pero P(AB|C) = P(A|C)P(B|C), en cuyo caso se dice que A
y B son condicionalmente independientes. Considrese, por ejemplo, un enlace en tiempo
discreto donde la unidad de tiempo es el tiempo de transmisin de un paquete. Sea X[n] =
Nmero de paquetes transmitidos hasta el instante n, con X[0] = 0. Definamos los
siguientes eventos:
A
2
= {X[2] = 1} = {01, 10}, donde 01 indica 0 paquetes transmitidos en el primer slot y
1 paquete transmitido en el segundo slot.
A
3
= {X[3] = 2} = {011, 101, 110}
A
4
= {X[4] = 2} = {0011, 0101, 0110, 1001, 1010, 1100}.

Si en cada slot se transmite un paquete con probabilidad p independientemente de los
slots vecinos, tenemos
P(A
2
) = 2p(1-p), P(A
3
) = 3p
2
(1-p), P(A
4
) = 6p
2
(1-p)
2

Obsrvese que P(A
2
A
4
) = P({0101, 0110, 1001, 1010}) = 4p
2
(1-p)
2
P(A
2
)P(A
4
) =
12p
3
(1-p)
3
, de manera que A
2
y A
4
no son independientes. Sin embargo consideremos las
siguientes probabilidades:
P(A
2
| A
3
) = P({011, 101}) / P({011, 101, 110}) = 2p
2
(1-p) / 3p
2
(1- p) = 2/3
P(A
4
| A
3
) = P({0110, 1010, 110}) / P({011, 101, 110}) = 3p
2
(1-p)
2
/ 3p
2
(1- p) = 1 - p
P(A
2
A
4
| A
3
) = P({0110, 1010}) / P({011, 101, 110}) = 2p
2
(1-p)
2
/ 3p
2
(1- p) = 2(1 - p)/3

Claramente, P(A
2
A
4
| A
3
) = P(A
2
| A
3
) P(A
4
| A
3
), de manera que A
2
y A
4
son
condicionalmente independientes dado A
3
.

El anterior ejemplo es una Cadena de Markov (ver definicin 122), cuya principal
caractersticas es que, aunque el futuro depende del pasado, el futuro resulta
condicionalmente independiente del pasado cuando se conoce el presente. Esta propiedad
me parece un principio importante para aplicar a una vida positiva: Todo mi futuro
depende solamente de quin soy yo en este momento, independientemente de cmo
llegu a ser lo que soy. Mi futuro slo depender de mi pasado si yo no s quin soy en
este momento.

El concepto de independencia es tan fundamental que l solo justifica el desarrollo
matemtico de las probabilidades como una disciplina independiente y no como un tema
especial de la teora de las mediciones. En efecto, como veremos en un siguiente captulo,
los intentos repetidos de un experimento generarn nuevos espacios de probabilidad en
los que
a. el espacio muestral para n repeticiones es el n-simo producto cartesiano del espacio
muestral del experimento individual,
(n)
= ;
b. el campo de eventos medibles ser el mnimo campo- que incluya los n-simos
productos cartesianos del campo de eventos del experimento individual, Y
(n)
= (Y
Y Y );
30
c. la medida de probabilidad de un evento medible en el nuevo espacio ser el producto
de las medidas de probabilidad de los eventos respectivos de cada repeticin
individual.
La tercera caracterstica del nuevo espacio de probabilidad es la razn por la que en teora
de probabilidades se le da tanto nfasis y tanta importancia al concepto de independencia
pues, si las repeticiones del experimento no fueran independientes, sera muy difcil
determinar la medida de probabilidad en el nuevo espacio. Por eso, en cursos avanzados
de teora de probabilidades, se estudia con detenimiento algunos conceptos adicionales
tales como conjuntos de eventos independientes y espacios en forma de producto que,
desafortunadamente, omitiremos en este libro (al menos de manera explcita).

18. Modelo Probabilstico

Cuando representamos el comportamiento de un sistema fsico mediante un
experimento aleatorio, al espacio de probabilidad correspondiente se le
denomina Modelo Probabilstico.

Como ingenieros de redes de telecomunicaciones, diariamente nos enfrentamos a
problemas tecnolgicos particulares caracterizados por nuestra incertidumbre sobre los
resultados de las mediciones que no nos es posible observar, ya sea porque son
mediciones en el futuro (Disee una red en el que el mximo retardo de un paquete sea
menor a 100 ms) o porque no tenemos acceso directo a ellas (Determine el ancho de
banda disponible a lo largo de una ruta para el flujo entre dos usuarios dados). Esta
situacin se presenta de manera mucho ms explcita cuando nuestra actividad
profesional est asociada con la investigacin y el desarrollo, como se espera que suceda
con los estudiantes de postgrado que estudian este libro. En estos casos, se har necesario
especificar el problema en trminos de un experimento aleatorio al que se le debe asociar
un espacio de probabilidad (, Y , P) adecuadamente seleccionado. Como este espacio de
probabilidad, aunque descrito con toda la formalidad de la teora de probabilidades, ya no
se refiere a un concepto completamente abstracto e inmaterial del mundo de las
matemticas tericas sino a un modelo matemtico de un sistema real, cuyos resultados
deben ser aplicables nuevamente a la realidad de donde provino, se le denomina Modelo
Probabilstico.

El objetivo del modelamiento de sistemas, en general, es representar una realidad
altamente compleja mediante un modelo que sea lo ms sencillo posible pero que capture
los aspectos ms relevantes que afectan el desempeo del sistema en estudio, de manera
que la complejidad no imposibilite el anlisis del modelo y que dicho anlisis nos permita
comprender mejor el comportamiento del sistema real. En el caso del modelamiento
probabilstico, se trata de reformular la pregunta que nos queremos responder sobre el
sistema real en trminos de algunas caractersticas de un experimento aleatorio. Una vez
se ha hecho explcito el experimento, debemos especificar un espacio de probabilidad
correspondiente, que se convertir en un Modelo Probabilstico del Sistema Real.

Ya discutimos en qu consiste el proceso de determinar el espacio muestral y el conjunto
de eventos de inters con los que debemos construir el campo- de eventos medibles. Sin
31
embargo especificar la medida de probabilidad es un proceso algo ms elaborado. El
espacio de probabilidad exige que determinemos P(A) para todo AY , lo cual no siempre
es posible. Lo que s podemos hacer es determinar la probabilidad de algunos eventos en
Y y, a partir de ellos, calcular las probabilidades de los dems. El segundo paso se
consigue mediante el uso juicioso de las herramientas con que dotamos al lector en este
libro. El primer paso se consigue mediante mediciones de la frecuencia relativa de los
eventos seleccionados (en cuyo caso debemos ser muy juiciosos con el diseo estadstico
de los experimentos) o mediante la formulacin de hiptesis y la verificacin estadstica
de su validez o, en el peor de los casos, mediante la elucubracin argumentada
razonablemente, de acuerdo con el conocimiento inicial que tengamos de la naturaleza
del experimento.

Desafortunadamente, este libro no es sobre modelamiento probabilstico de redes de
telecomunicaciones (cmo seleccionar un modelo para una realidad tecnolgica compleja
dada) sino sobre cmo analizar un modelo probabilstico dado. De hecho, obsrvese que
a partir de la definicin 12 (espacio de probabilidad) todas las definiciones subsecuentes
(con la excepcin de sta definicin 18) siempre empiezan diciendo Sea (, Y, P) un
espacio de probabilidad en el que . Para nosotros, en este libro, el modelo siempre va
a estar dado! Ms an, para ahorrarnos tener que reescribir esa frase en todas las 200
definiciones que siguen, en el siguiente captulo definiremos la variable aleatoria con el
nico propsito de dejar explcito un modelo particular (R, U(R), F()) que ser el que
usemos casi siempre de ah en adelante. En este libro apenas vamos a llenar la caja de
herramientas del lector con un buen conjunto de aparatos tiles, entre los cuales hemos
puesto ya los tres axiomas, cinco de las innumerables conclusiones que se pueden sacar
de ellos, el teorema de la probabilidad total y la regla de Bayes: diramos que ya pusimos
en la caja el serrucho y el martillo. En los siguientes captulos colocaremos en ella
algunas herramientas ms sofisticadas. Sin embargo, slo la experiencia le permitir al
lector aprender a construir muebles con las herramientas de su caja a partir de la
madera proporcionada por las redes de comunicaciones. Lo ms que podemos hacer (y
esa es la razn de este libro) es escoger ejemplos del mundo de las redes de
comunicaciones, pues pienso que el aprendizaje de las tcnicas de modelamiento slo es
posible mediante el estudio de ejemplos y la sorprendente capacidad de generalizacin
que exhibe la inteligencia humana. Claro, como nuestros ejemplos son puramente
pedaggicos, invitamos al lector a que se afilie a IEEE, ACM y tantas otras sociedades
tcnicas que publican excelentes revistas y que organizan excelentes conferencias en las
que cada artculo es un ejemplo realista de un proceso de modelamiento probabilstico
llevado a cabo por uno o varios expertos.

19. Sobre los conceptos de aleatoriedad y probabilidad

Todos los seres humanos se encuentran con el azar en cada momento de sus vidas: en el
noticiero recibimos estadsticas econmicas, encuestas polticas y predicciones del clima;
desde nios jugamos con dados, cartas y monedas; hacemos filas en los bancos y
supermercados; padecemos trancones en las avenidas; al decidir dnde invertir nuestros
ahorros debemos evaluar el riesgo y ponderarlo respecto a los posibles rendimientos de
cada una de las opciones; como usuarios de las redes modernas de comunicaciones
32
sufrimos tiempos excesivos de respuesta, falta de disponibilidad en los recursos de la red,
ruidos y recortes en las seales que recibimos, etc. Sin embargo, a pesar de nuestra basta
experiencia con el azar, el concepto de aleatoriedad sigue estando muy alejado del comn
de la gente e, inclusive, de muchas personas muy bien preparadas en distintas profesiones
(incluyendo las ciencias y la ingeniera: Me consta!).

Y es que el concepto de aleatoriedad se va alcanzando gradual y muy lentamente. Por
ejemplo, cuando mi hija de cinco aos y mi hijo de cuatro aos desean resolver alguna
disputa justamente, recurren a un juego infantil muy tradicional en Colombia: Uno de
ellos canta Pi NU no, pin DOS, pin TRES, pin CUA tro, pin CIN co, pin SEIS, pin SIE
te, PIno, CHIto, SEras, TU mientras que con el dedo ndice se seala a s mismo o al
hermanito, alternando la direccin con cada slaba en maysculas. Mara Alejandra inicia
sealndose ella misma, mientras que Juan Diego parece escoger al azar si inicia
sealndose l o sealando a la hermanita. Aunque Mara Alejandra sigue siendo una
fervorosa defensora del mtodo de conciliacin, Juan Diego est empezando a perder la
confianza en l porque, extraamente, slo gana la mitad de las veces en que l mismo
cuenta.

La humanidad misma parece haber seguido ese mismo proceso gradual y lento que sigue
cada ser humano individualmente, pues slo hasta el siglo XVI se empez a formalizar
un concepto que, hasta entonces, era slo el mecanismo de expresin de las voluntades
divinas. Y qu til resultaba ser el vocero de los dioses cuando se usaban dados no
balanceados! Lo cierto es que los seres humanos (y la humanidad entera en su conjunto)
primero aprendemos mediante la intuicin y, despus, sobre esa base, empezamos a
formalizar conceptos. Cuando la intuicin es correcta, ese proceso es formidable porque
ayuda profundamente en la comprensin de temas difciles. Yo mismo, como profesor de
Procesamiento Digital de Seales, Sistemas de Comunicacin y Redes de
Comunicaciones, me preocupo por presentar los conceptos de manera que los estudiantes
primero los capturen de manera intuitiva antes de aprenderlos desde las formalidades
matemticas o tecnolgicas. Pero jams intento hacer eso como profesor de
Probabilidades, Variables Aleatorias y Procesos estocsticos porque, en los problemas
asociados a estos temas, la intuicin suele fallar miserablemente! Por eso he dejado esta
discusin para el final de este captulo, cuando ya hemos visto la formulacin axiomtica
de Kolmogorov, pues en este caso es mucho mejor presentar la formalidad antes que la
intuicin. Ya en el siglo XVIII DeMoivre lo mencion: Los problemas que tienen que ver
con el azar suelen parecer fcilmente solucionables mediante el sentido comn, cuando
en realidad casi nunca es as.

Veamos algunos ejemplos:

(1) Un presentador de un concurso de televisin le ofrece que escoja una de tres puertas
sabiendo que slo una de ellas conduce a un gran premio mientras que las otras dos slo
llevan a pequeos premios de consolacin. Llamemos a a la puerta que usted escoge. Una
vez usted escogi su puerta, el presentador le revela una de las otras dos puertas que
conduca a un premio de consolacin. Llamemos b a la puerta revelada por el presentador
y c a la otra puerta. Ahora el presentador le pregunta: Desea quedarse con a o prefiere
33
cambiarse a c?. Cul sera la mejor estrategia en este juego? He aqu el razonamiento
que hace la gran mayora de personas:

d. Al principio cada puerta tena una probabilidad 1/3 de conducir al premio mayor,
independientemente de la que yo escogiera. Sin embargo, una vez el presentador me
revela que b no tiene el premio, me quedan slo dos puertas, a y c. Como slo una de
las dos conduce al premio, la probabilidad de que cada una de ellas conduzca al
premio es . El hecho de que yo haya escogido antes la puerta a no cambia el nuevo
hecho de que ahora tengo dos puertas, una de las cuales conduce al premio grande y
otra al premio de consolacin. Luego da igual si me quedo con a o si me cambio a c,
pues en ambos casos ganar o perder con probabilidad .

Detngase usted, seor lector, a pensar un poco en el anlisis anterior antes de seguir
leyendo. Ahora s, he aqu el anlisis (correcto) que hacen muy pocas personas y que,
seguramente, fue el que usted hizo:

e. Sean los eventos A = {a tiene el premio}, B = {b tiene el premio} y C = {c tiene el
premio}. En un principio, P(A) = P(B) = P(C) = 1/3. Si el presentador me hubiera
informado de la ocurrencia del evento B
C
antes de que yo escogiera la puerta a,
tendra el caso del anlisis anterior, P(A|B
C
antes
) = P(C|B
C
antes
) = . Sin embargo el
protocolo del juego me permiti escoger primero, cuando todava P(A) era un tercio.
Un hecho cierto en ese momento era que al menos una de las otras dos puertas deba
conducir a un premio de consolacin, de manera que cuando el presentador me revela
que era b la que conduca al premio de consolacin no me dio ninguna informacin
nueva: La probabilidad de A cuando yo la escog era de 1/3, independientemente de
que se me revelara B
C
despus de mi escogencia, P(A|B
C
despus
) = P(A) = 1/3. Una vez
informado de la ocurrencia del evento B
C
, la nica alternativa al evento A es el evento
C, de manera que P(C|B
C
despus
) = 1 P(A|B
C
despus
) = 1 P(A) = 2/3. Es mejor
estrategia cambiarse a la puerta c.

Ntese que la solucin correcta no concuerda con la solucin intuitiva porque hay un
asunto de protocolo que pasa inadvertido. Si el presentador le hubiera revelado una puerta
mala antes de que usted hubiera escogido la puerta a, l tendra dos posibles puertas para
escoger. Cuando l lo deja escoger primero, usted le reduce sus posibilidades de dos a
una, con probabilidad 1/3. Un gran amigo mo lo pone de la siguiente manera para ver la
bondad intuitiva de la solucin correcta: Suponga que no son tres sino mil puertas, de las
cuales una sola conduce al premio. Usted escoge una, el presentador le revela 998 que no
tenan premio Se quedara con la que escogi primero? Es casi seguro que el premio
est en la otra puerta!

(2) Supongamos que cada nuevo beb que llega al mundo es nio o nia con probabilidad
, independientemente del resto de la humanidad y, en particular, independientemente de
sus hermanitos y hermanitas. Bajo esta suposicin consideremos los siguientes
problemas:
Se encuentra con una amiga a quien no vea desde haca diez aos y sostienen la siguiente
conversacin:
34
Usted: Hola! tienes hijos?
Amiga: S. Tengo dos
Usted: alguna nia?
Amiga: S
Cul es la probabilidad de que su amiga tenga dos nias?

Al otro da se encuentra otra vez con su amiga y ve que lleva a una nia de la mano:
Usted: Hola! Esta nia tan preciosa es hija tuya?
Amiga: S
Cul es la probabilidad de que su amiga tenga dos nias?

A diferencia del ejemplo anterior, en este caso distintas personas hacen diferentes
razonamientos. Sin embargo casi todo el mundo da por hecho que la pregunta es la
misma y, por lo tanto, exige la misma respuesta. Despus de todo, dicen, desde el primer
da yo ya saba que mi amiga tena por lo menos una nia, as que en el segundo da no
obtengo ninguna informacin nueva al ver exactamente eso: una nia hija de mi amiga,
que yo ya saba que exista! Como verla o no verla no hace ninguna diferencia, la
pregunta (y la respuesta) no cambia de un da para otro.

Detngase usted, seos lector, a pensar un poco en el anlisis anterior antes de seguir
leyendo. Ahora s, he aqu el anlisis (correcto) que hacen muy pocas personas y que,
seguramente, fue el que usted hizo:

Cada hijo de mi amiga puede ser una nia (f) o un nio (m). El primer da supe que mi
amiga tena dos hijos, de manera que el espacio muestral del experimento consistente en
observar el gnero de cada uno de los hijos de mi amiga es = {(f,f),(f,m),(m,f),(m,m)},
donde cada evento unitario tiene probabilidad . Pero tambin supe que el evento
{(m,m)} no ocurri. Luego la pregunta que me hago el primer da es P({(f,f)} |
{(f,f),(f,m),(m,f)}) = P({(f,f)}) / (1 P({(m,m)}) = 1/3.
4
Sin embargo el segundo da me
estoy preguntando por la probabilidad de que el otro hijo (el que no estoy viendo) sea una
nia, lo cual ocurre con probabilidad 1/2. La probabilidad de que mi amiga tenga dos
nias aument de 1/3 a 1/2 solamente porque pude observar a una nia de mi amiga,
siendo que yo ya saba que tena por lo menos una nia? No. Es solamente que la
pregunta que me estoy haciendo es distinta a pesar de que la formulacin parece idntica!

Los dos ejemplos anteriores son paradojas que confunden inclusive a algunos expertos en
probabilidades (tal vez usted mismo haya reledo cada caso varias veces y haya tomado
papel y lpiz para ver con detalle qu es lo que est pasando). Hay otros muchos
ejemplos que, aunque no confundan a los expertos, si resultan paradjicos para el comn
de la gente, como el siguiente:

(3) Ante un juez presentan a una persona muy honorable, x, acusada de haber cometido
un crimen. La reputacin de x la precede, de manera que el evento X = {x cometi el

4
En ocasiones he visto que mis estudiantes prefieren el siguiente planteamiento: El espacio muestral del
experimento consistente en contar el nmero de nias entre los hijos de mi amiga es = {0,1,2}, con
P({0}) = P({2}) = y P({1}) = . Me pregunto por P({2}|{1,2}) = P({2}) / P({1,2}) = 1/3.
35
crimen} tiene una probabilidad muy bajita: P(X) = 0.001. La fiscala presenta dos testigos
muy confiables, y y z, cada uno de los cuales dice la verdad con probabilidad 0.9. Ms
an, estos testigos son independientes pues no se conocen entre s y observaron los
hechos desde sitios distintos. Durante el juicio se presentan los eventos Y = {y dice que x
cometi el crimen} y Z = {z dice que x cometi el crimen}. Segn la ms antigua
tradicin legislativa y judicial (Moiss, Hamurabi, Nemqueteba) y la opinin de la
mayora de personas, x es condenado porque el testimonio de dos testigos independientes
es evidencia suficiente. Se hizo justicia?

Veamos cmo se afecta la probabilidad de X cuando la condicionamos a los eventos Y y
Z:
( )
( )
( ) ( | ) ( ) ( | ) ( | )
|
( ) ( | ) ( ) ( | ) ( ) ( | ) ( | ) ( ) ( | ) ( | )
(0.001)(0.9)(0.9) 3
|
(0.001)(0.9)(0.9) (0.999)(0.1)(0.1) 40
C C C C C
P X P Y Z X P X P Y X P Z X
P X Y Z
P X P Y Z X P X P Y Z X P X P Y X P Z X P X P Y X P Z X
P X Y Z
= =
+ +
= =
+
Ciertamente los testigos aumentan la probabilidad de X 75 veces (desde 0.001 hasta
0.075), pero condenar a alguien cuando la probabilidad de que haya cometido el crimen
es menos de 0.1 me parece muy injusto!

Lo que pasa, como lo anunci DeMoivre, es que la intuicin suele fallar estrepitosamente
en asuntos de aleatoriedad. Cuntas veces lo ha abordado un voceador de lotera en la
calle anuncindole un dato valiossimo : Hace cinco semanas que el nmero 3 no sale en
la lotera y aqu le tengo un billetico terminado en 3. El espera convencerlo de que
compre el billete porque el hecho de que el 3 no haya salido cinco veces seguidas
aumenta la probabilidad de que salga la prxima vez. De hecho haga una encuesta entre
sus amigos no ingenieros ni cientficos y observar que muchos de ellos creen que, si se
ha lanzado cinco veces una moneda bien equilibrada y en las cinco ocasiones se ha
obtenido cara, aumentan las probabilidades de que en la prxima lanzada se obtenga sello
pues, despus de todo, el sello debera aparecer en la mitad de las lanzadas
5
.

Las paradojas y las concepciones populares y errneas slo indican que el concepto de
aleatoriedad parece obvio, cuando en realidad no lo es. De hecho, su misma
interpretacin ha enfrentado a importantes cientficos. Ya 500 aos antes de Cristo
Leucipo haba manifestado que nada ocurre por azar sino que todo obedece a la razn y a
la necesidad. As pues, lo que denominamos azar se refiere a los efectos de causas
escondidas que estn fuera de nuestro conocimiento o fuera de nuestro control, como
sostuvo Demcrito, discpulo de Leucipo. Los sofistas reafirmaron este concepto en

5
Existe un muy reconocido locutor y comentarista deportivo en Colombia que debe ser muy bien formado
porque le dicen doctor. A l le escuch decir en una ocasin lo siguiente: La historia muestra que el
equipo A le ha ganado al equipo B en el 70% de los encuentros que han disputado. Sin embargo, en los
ltimos tres meses se han enfrentado cinco veces y en todas ellas ha ganado B. Luego, si las probabilidades
no fallan, A debera ganar en el prximo partido. Claro, A perdi el partido de esa tarde contra B y no por
una falla de las probabilidades sino porque, al menos desde haca tres meses, A pareca ser un equipo de
troncos. Si el locutor doctor quiso ser optimista, debi suponer que cada partido es independiente de los
dems, en cuyo caso la probabilidad de que A ganara esa tarde sera 0.7. Sin embargo, parece mucho ms
correcto pensar que la probabilidad de que A le ganara esa tarde a B dado que A llevaba cinco partidos
seguidos perdiendo contra B era un nmero muy cercano a cero.
36
contra de Epicuro, quien sostena que si todos los eventos tenan una causa conocible, el
hombre carecera de libre albedro El cristianismo ayud a afianzar el concepto sofista,
pues el resultado final de todos los experimentos deba obedecer, necesariamente, a la
voluntad de Dios: En un universo en el que todo est sometido a la voluntad de Dios (y a
su plan de salvacin) slo nuestra ignorancia puede abrirle espacios al azar. Con la
aparicin de la mecnica Newtoniana pocos aos despus, se termin de consolidar la
visin determinista: La voluntad de Dios se manifestaba en leyes del movimiento que
eran asequibles para el hombre a travs de las matemticas. Segn Laplace, slo
necesitamos conocer la posicin y la velocidad de cada partcula del Universo en un
instante dado para predecir con precisin su destino ltimo y su pasado ms remoto.
Siendo el comportamiento del universo tan determinstico y predecible, cmo pudo,
entonces, desarrollarse tan profunda y aceleradamente la teora de la probabilidades
durante este perodo? Porque si bien el mundo estaba sometido al determinismo de la
voluntad inmutable de Dios, nuestra capacidad de observacin era limitada: El hombre
comete errores y la probabilidad nos permite cuantificar el error. Ya Galileo y Tycho
Brae formularon proposiciones fascinantes sobre el error en las mediciones astronmicas:
es inevitable, es simtrico y entre ms pequeo sea ms probable es. Estas ideas sugieren
tomar muchas mediciones y promediarlas, de donde surgen las leyes de los grandes
nmeros. Thomas Simpson fue el primero en introducir la teora de los juegos de azar,
cuando en 1756 dijo que si cada fuente de error se comportaba como un dado, el error
total se debe comportar como la suma de muchos dados. En 1808 Gauss us la famosa
campana exp(-x
2
/2)/(2), justificado por el teorema del lmite central, propuesto por
Laplace 2 aos despus. Tendremos oportunidad en este libro de divertirnos un buen rato
con los tres conceptos: la campana gaussiana, la ley de los grandes nmeros y el teorema
del lmite central.

Si bien el determinismo se remonta a los atomistas como Leucipo y Demcrito, es
precisamente el estudio de las partculas subatmicas el que reivindica a Epicuro: La
naturaleza puede ser inherentemente aleatoria, puede ser que haya una indeterminacin
bsica en el universo! En 1900 Max Planck explic (exitosamente) porqu los cuerpos
calientes no irradiaban en todas las posibles frecuencias, diciendo que la radiacin se
daba en cuantos de energa. Lo que sorprendi a Planck es que esta idea result ms
que un truco matemtico cuando muchos fsicos empezaron a encontrar ms
comportamientos cunticos en las partculas subatmicas. En 1926 Heisenberg fue el
primero en advertir que, siendo as, jams nos sera dado conocer el estado del universo
como lo propona Laplace, pues para observar una pequea partcula debemos iluminarla
con, por lo menos, un cuanto de luz, alterando irremediablemente el estado que
queramos observar. Esto conduce al principio de incertidumbre como una de las leyes
bsicas de la naturaleza: si conocemos la posicin exacta de una partcula no podemos
saber nada sobre su velocidad y viceversa. Schroedinger, de hecho, describe las partculas
mediante una ecuacin de onda con la que evala la probabilidad de que una partcula se
encuentre en un punto dado del espacio! Albert Einstein, quien contribuy notablemente
al desarrollo de la mecnica cuntica con su estudio de la radiacin de cuerpo negro,
nunca se sinti cmodo con esta idea pues l era abiertamente determinista. Una
conversacin entre Einstein y Planck pudo haber ocurrido hace 2500 aos entre
37
Demcrito y Epicuro: Einstein (o Demcrito): Dios no juega a los dados. Planck (o
Epicuro): Y quines somos nosotros para decidir a qu puede o no puede jugar Dios?

Dnde est, pues, la aleatoriedad de una secuencia de resultados obtenidos al repetir
muchas veces un experimento? Si creemos que la naturaleza sufre de una
indeterminacin bsica, la aleatoriedad de la secuencia est en el experimento mismo que
la gener; si creemos que las leyes que rigen el experimento son conocidas pero muy
complejas y difciles de evaluar, la aleatoriedad de la secuencia est en nuestra
incapacidad computacional para calcular el siguiente resultado; y si creemos que las leyes
existen pero no las conocemos, la aleatoriedad de la secuencia est en nuestra ignorancia.
En cualquiera de los tres casos, la aleatoriedad se caracteriza por nuestra incapacidad para
predecir el resultado del siguiente experimento, como propusimos en la primera
definicin. En los dos ltimos casos, sin embargo, la aleatoriedad se vuelve un asunto
subjetivo: alguien que est mejor capacitado que nosotros para predecir el resultado del
siguiente experimento encontrar que la secuencia es menos aleatoria de lo que nosotros
creemos. Consideremos, por ejemplo, las siguientes secuencias de nmeros:

1 2 3 4 5 6 7 8 9 10
2 4 6 8 10 12 14 16 18 20
4 7 2 6 4 7 2 6 4 7
3 1 4 1 5 9 2 6 5 3

En cada una de ellas es fcil predecir el siguiente nmero, cierto? 11 para la primera
secuencia, porque los nmeros parecen ir de uno en uno; 22 para la segunda secuencia
porque los nmeros parecen ir de dos en dos; 2 para la tercera secuencia porque los
nmeros parecen tener un perodo de longitud 4; identifica usted fcilmente el siguiente
nmero de la cuarta secuencia? Parece una secuencia aleatoria, hasta que reconocemos en
ella la expansin decimal de : el siguiente nmero es 5. Se dira que las cuatro
secuencias anteriores son completamente determinsticas, aunque un estudiante de
primaria que no haya visto trigonometra podra considerar que la cuarta secuencia es
aleatoria Qu tal la siguiente secuencia?

7 5 7 9 6 3 9 2
7 0

Difcil adivinar el siguiente nmero, cierto? Pero se trata de una
secuencia completamente determinstica! Iniciando con Z
0
= 7182,
hago Z
i+1
= [floor(Z
i
2
/100)]
4
, donde floor(x) es la parte entera de x,
y [x]
4
es el nmero compuesto por los cuatro dgitos menos
significativos de x (las unidades, decenas, centenas y unidades de
mil en x). El i-simo nmero de la secuencia corresponde a las
unidades de mil en Z
i
. La tabla de la izquierda muestra cmo se
contruye la secuencia completa. Ntese que a partir del ltimo cero
en la secuencia mostrada, contina una cadena infinita de ceros.
Sin embargo, hasta donde se mostr, pareca una secuencia
i Z
i
Z
i
2

0 7182 51581124
1 5811 33767721
2 7677 58936329
3 9363 87665769
4 6657 44315649
5 3156 09960336
6 9603 92217609
7 2176 04734976
8 7349 54007801
9 0078 00006084
10 0060 00003600
11 0036 00001296
12 0012 00000144
13 0001 00000001
14 0000 00000000
38
completamente aleatoria, aunque no lo sera para quien conozca el algoritmo y el valor
de Z
0
. Dnde est, entonces, la aleatoriedad?

Nadie duda que las lanzadas consecutivas de un dado generan una secuencia aleatoria
porque la nica manera de conocer el siguiente nmero de la secuencia es lanzando el
dado una vez ms. Pero, si no conociramos un algoritmo para calcular con cualquier
precisin deseada y nos muestran su expansin decimal a partir del dgito 100, no
consideraramos la secuencia como aleatoria? En 1888, Venn verific que los primeros
707 dgitos de la expansin decimal de satisfacen criterios importantes de aleatoriedad:
cada dgito aparece en la secuencia aproximadamente el mismo nmero de veces que los
dems dgitos, sin ninguna estructura aparente. 101 aos despus, Gregory y David
Chudnovsky verificaron el mismo comportamiento para ms de mil millones de dgitos
en la expansin de . Qu ms podra uno esperar de una secuencia aleatoria? Pero, por
supuesto, la expansin decimal de es completamente determinstica!

Como la teora de la probabilidad no se puede construir sobre la subjetividad que da la
ignorancia, Kolmogorov mismo, en su esfuerzo por formalizar la teora, lleg a un
concepto muy interesante de aleatoriedad: Si la complejidad de una secuencia est dada
por la longitud del programa de computador ms pequeo capaz de generarla (en un
modelo computacional particular, tal como una mquina de Turing), una secuencia es
aleatoria cuando su complejidad es mxima, esto es, cuando el nico algoritmo que la
puede generar es el algoritmo que la menciona, elemento por elemento. Por supuesto,
resulta poco complejo, pues el algoritmo es sencillo: basta contar cuntos dimetros
caben en una circunferencia, para lo cual el computador puede evaluar iterativamente una
serie de potencias. Pero una secuencia de lanzadas de un dado es aleatoria, porque
necesitamos lanzar los dados para poder especificar la secuencia. Esta definicin pone el
concepto de aleatoriedad en trminos formales, muy al estilo de Kolmogorov, pues la
aleatoriedad de una secuencia ya no depende de la apreciacin del observador sino que es
una medida objetivamente cuantificable (ms adelante tendremos oportunidad de
introducirnos brevemente en la teora de la complejidad y la teora de la informacin que
sustentan este concepto).

Pero, igualmente, queda casi sin resolver la pregunta de cmo asignar las probabilidades
a los eventos del campo- escogido para analizar un modelo probabilstico de una
realidad compleja. Fundamentalmente, se trata de evaluar nuestra confianza en que el
evento suceda cuando realicemos el experimento, para lo cual podemos valernos de la
frecuencia relativa observada en experimentos anteriores o en razonamientos plausibles
sobre la naturaleza del experimento, tales como las simetras proporcionadas por eventos
equiprobables (ver definicin 18). En los captulos siguientes formularemos diferentes
modelos para muchos casos tpicos de experimentos que surgen una y otra vez
(particularizados al mundo de las redes de comunicaciones), los cuales podremos usar
para generar hiptesis sobre las probabilidades de algunos eventos y, con nuestras
herramientas, encontrar las probabilidades de otros eventos o algunas estadsticas de
inters.

39
Por ltimo, vale la pena mencionar la teora de las posibilidades como una formalidad
reciente para tratar con cantidades inciertas, alternativa (y a veces complementaria) a la
teora de las probabilidades. Sobre los eventos pertenecientes a un campo aditivo Y de
subconjuntos de un espacio muestral , se define la posibilidad del evento AY como
una funcin Po : Y R que satisface los siguientes postulados: Po()=0, Po()=1,
Po(AB) = max(Po(A), Po(B)) si A y B son conjuntos disyuntos en Y . Este ltimo
postulado se puede extender igualmente a campos- infinitamente aditivos, como en la
definicin 10. Esta medida de posibilidad est ms asociada con la funcin de membresa
de un elemento en un conjunto difuso, esto es, un conjunto al que se puede pertenecer con
cierto grado de pertenencia en el rango [0, 1], en cuyo caso la posibilidad de un evento es
el mximo entre las funciones de membresa de sus miembros. Como un ejemplo
revelador de la diferencia entre los dos conceptos, considere que lleva muchos das
perdido en el desierto y encuentra dos botellas llenas de un lquido de apariencia
deliciosa. La etiqueta en una botella dice que la probabilidad de que su contenido sea
potable es 0.9, mientras la etiqueta en la otra botella dice que la posibilidad de que sea
potable es 0.9. Cul lquido consumira usted? Es muy probable que el contenido de la
primera botella sea agua pura, aunque, en el peor de los casos, la primera botella podra
contener cido sulfrico o cianuro. En cambio puede estar seguro que la segunda botella
no contiene ni agua pura (porque su grado de membresa en el conjunto de los lquidos
potables sera 1) ni cido sulfrico (porque su grado de membresa en el conjunto de los
lquidos potables sera cero) sino, talvez, gaseosa, en cuyo caso su consumo podra tener
algn efecto negativo en su salud, aunque insignificante ante la alternativa de morir de
sed.

Resumen

1. Un experimento es un proceso de observacin mediante el cual se selecciona un
elemento de un conjunto de posibles resultados. Un experimento aleatorio es aquel en
el que el resultado no se puede predecir con anterioridad a la realizacin misma del
experimento.
2. Sea A un subconjunto del conjunto de posibles resultados de un experimento
aleatorio. Si repetimos N veces el experimento y observamos que en N
A
de esas
repeticiones se obtuvo un elemento de A, decimos que f
N
(A) = N
A
/N es la frecuencia
relativa del subconjunto A en esas N repeticiones del experimento.
3. La regularidad estadstica es la propiedad que tienen muchos experimentos aleatorios
segn la cual, al repetir el experimento un gran nmero de veces bajo condiciones
constantes, algunas estadsticas de los resultados obtenidos, como la frecuencia
relativa de algn subconjunto de ellos, parecen tender a valores precisos a medida que
aumenta el nmero de repeticiones.
4. El espacio muestral de un experimento aleatorio es el conjunto de todos los posibles
resultados que podran observarse en una realizacin del experimento.
5. Un evento es un subconjunto del espacio muestral de un experimento aleatorio.
6. El Conjunto Potencia de un espacio muestral es el conjunto de todos los posibles
eventos, esto es, la clase de conjuntos conformada por todos los subconjuntos
contenidos en , {0,1}
= {A : A}.
40
7. Un Campo de Eventos, Y , es una clase de subconjuntos de que satisface los
siguientes axiomas: (1) Y es no vaco, (2) si A Y, A
C
Y, (3) si A,B Y, AB Y.
Un campo- de eventos es un campo contablemente aditivo, esto es, que satisface la
condicin adicional (3) si {A
n
Y, n=1,2,},
1 n n
A
=
Y.
8. Dada una clase de eventos V {0,1}
, el mnimo campo- de eventos que contiene a

V, (V), es el campo- de menor cardinalidad entre todos los campos- que lo
contienen.
9. El campo- de Borel de los nmeros reales, U(R), es el mnimo campo- que
contiene a todos los intervalos semi-infinitos de la forma A
x
= {R : - < x},
xR. Los subconjuntos de R que pertenecen a U(R) se denominan conjuntos de
Borel.
10. Una medida de probabilidad P asociada a un experimento aleatorio (,Y ) es una
funcin P:Y R que asigna a cada evento en Y un nmero real que satisface los
siguientes axiomas: (1) P() = 1, (2) Si AY , P(A) 0, (3) Si A,BY son
mutuamente excluyentes (AB=), P(AB) = P(A) + P(B). Si Y es un campo-
infinitamente aditivo, tambin debe satisfacerse el siguiente axioma adicional: (3) Si
{A
n
Y , n=1,2,3,} es una coleccin de eventos tal que A
i
A
j
= para ij,
entonces ( )
1
1
n n
n
n
A A
=
=
| |
=
|
\

P P .
11. Sea un experimento aleatorio (,Y ) y un evento AY . Una forma de interpretar la
probabilidad del evento A es mediante la relacin P(A) = lim ( )
N
N
f A
, donde f
N
(A) es
la frecuencia relativa del evento A en N repeticiones del experimento.
12. Un espacio de probabilidad es la tripleta (, Y, P) asociada con un experimento
aleatorio, donde es el espacio muestral o el conjunto de todos los posibles
resultados del experimento, Y es un campo- de subconjuntos de construido a
partir de una clase de eventos de inters y P es una funcin de Y en R que satisface
los axiomas en la definicin 10. Como solamente se les puede asignar una medida de
probabilidad a los subconjuntos de que pertenecen a Y , a dichos subconjuntos se
les denomina subconjuntos medibles.
13. Sea (,Y, P) un espacio de probabilidad en el que hay dos eventos medibles A y B
Y. Las siguientes son algunas propiedades derivadas de los axiomas de la
probabilidad: (1) P(A
C
) = 1 P(A), (2) P() = 0, (3) P(A) 1, (4) P(AB) = P(A) +
P(B) - P(AB), (5) Si A B, P(A) P(B).
14. Sea (,Y, P) un espacio de probabilidad en el que hay dos eventos A y B Y. La
probabilidad condicional del evento A dado que se sabe de la ocurrencia del evento B
es
0 ( ) 0
( | ) ( )
( ) 0
( )
B
A B A B
B
B
=
>
P
P P
P
P

41
15. Sea (,Y, P) un espacio de probabilidad en el que hay un evento A Y y una
secuencia de eventos {B
k
}, k=1,2, que forman una particin de (esto es,
k
k
B =

y
,
i j
B B i j =
), que tambin pertenecen a Y . Entonces la probabilidad total de A
es ( ) ( ) ( | )
k k
k
A B A B =
P P P .
16. Sea (,Y, P) un espacio de probabilidad en el que hay un evento A Y y una
secuencia de eventos {B
k
}, k=1,2, que forman una particin de y que tambin
pertenece a Y. Entonces la regla de Bayes establece que
( ) ( | )
( | )
( ) ( | )
k k
k
j j
j
B A B
B A
B A B
=
P P
P
P P

17. Sea (,Y, P) un espacio de probabilidad en el que hay dos eventos A y B Y . A y B
son independientes si y slo si P(AB) = P(A)P(B) o, equivalentemente, si P(A|B) =
P(A) y P(B|A) = P(B).
Tres eventos medibles A, B y C son independientes si se cumplen las siguientes cuatro
condiciones: (1) P(AB) = P(A)P(B), (2) P(AC) = P(A)P(C), (3) P(BC) =
P(B)P(C), y (4) P(ABC) = P(A)P(B)P(C).
En general, los eventos medibles {A
n
, n=1,2,} forman una secuencia de eventos
independientes si { } ( ) 1, 2,...
i i
i I i I
A A I

| |
=
|
\

P P

18. Cuando representamos el comportamiento de un sistema fsico mediante un
experimento aleatorio, al espacio de probabilidad correspondiente se le denomina
Modelo Probabilstico.
19. El concepto de aleatoriedad presenta muchas dificultades intuitivas, que an son
materia de controversia entre filsofos y matemticos. En el anlisis de modelos
probabilsticos debemos usar con precaucin la intuicin, slo como una gua que
siempre debe ser corroborada por el formalismo axiomtico de Kolmogorov, pues en
muchas ocasiones la intuicin falla drsticamente. De todas maneras, dada la
naturaleza de la mayora de experimentos que se refieren a redes de comunicaciones,
en los que casi siempre estn involucrados o un gran nmero de usuarios, o un gran
nmero de paquetes, o un gran nmero de bits, etc., la intuicin basada en la
interpretacin de la probabilidad como frecuencia relativa suele sugerir caminos
acertados en el proceso hacia el objetivo del modelamiento probabilstico.

EJERCICIOS

1. Transmitimos una trama a travs de un enlace inalmbrico de acceso mltiple. En cada
intento la trama puede ser transmitida exitosamente, puede perderse por errores de
transmisin o puede perderse por colisiones, que corresponde a los eventos unitarios A, B
y C, que se dan con probabilidad p
A
, p
B
y p
C
= 1 (p
A
+ p
B
) respectivamente,
independientemente en cada nuevo intento. El experimento se repite cuantas veces sea
42
necesario hasta que la trama se transmita exitosamente. Cul es la probabilidad de que el
evento A se d antes que el evento B?

Solucin al ejercicio 1.
D = {A antes que B} =
1
{ en los intentos 1,2,..., -1, en el intento }
n
C n A n

Como D es la unin de una secuencia infinita de eventos mutuamente excluyentes, aplica
la versin infinitamente contable del tercer axioma en la definicin 10, donde la
probabilidad de cada evento en la unin es el producto de las probabilidades de cada
evento individual, gracias a la independencia entre transmisiones consecutivas:
[ ]
1
1 0
1
n n A A
C A A C
n n C A B
p p
P D p p p p
p p p

= =
= = = =
+

2. Se entrena una red neuronal para detectar cundo un mensaje de correo trae un virus o
no. La red result tan bien entrenada que en 99 de cada 100 mensajes con virus, la red
detecta el virus y en 199 de cada 200 mensajes sin virus, la red detecta que no tiene virus.
Se sabe que, despus de atravesar el firewall, uno de cada cien mensajes que llegan al
servidor de correo trae un virus. Cul es la probabilidad de que un mensaje de correo
traiga virus si la red neuronal dice que trae virus?

Solucin al ejercicio 2.

Sean los eventos A={El mensaje trae virus} y B={La red dice que el mensaje trae virus}.
Sabemos que
P(A)=0.01, P(A
C
)=0.99, P(B|A)=0.99, P(B|A
C
)=0.005,
de donde, por la regla de Bayes,
P(A|B) = P(A)P(B|A)/(P(A)P(B|A)+P(A
C
)P(B|A
C
)) = 2/3
Parece muy poco para una red con tan alta tasa de aciertos pero, ciertamente, parece ms
saludable procesar ese mensaje antes que el usuario lo abra.

3. Sea el espacio muestral de un experimento aleatorio al que se asocia un campo- de
eventos, F. Si A y B son subconjuntos de que pertenecen a F, demuestre que la
diferencia A\B (los elementos de A que no pertenecen a B) y la diferencia simtrica
AB (los elementos que pertenecen a A o a B pero no a ambos) son subconjuntos de
que tambin pertenecen a F.
4. En una conversacin VoIP los paquetes de voz se generan a una tasa constante de 25
paquetes por segundo. En su paso por la red, cada paquete experimenta un retardo
aleatorio. Un paquete que se gener en el instante t=0 llega al destino en el instante
t=x, mientras que el siguiente paquete llega a su destino en el instante t=y. El
resultado de este experimento es el punto (x,y) del plano cartesiano.
(a) Describa un espacio muestral adecuado para este experimento y dibjelo en el
plano cartesiano.
(b) Dibuje en el plano cartesiano los siguientes eventos
A = {El primer paquete llega en el intervalo [t1, t2] }
B = {El segundo paquete llega en el intervalo [t3, t4] }
43
C = {El primer paquete tarda en llegar el doble del tiempo de lo que tarda el
segundo paquete }
D = AB
(c) Dibuje el evento E = { y<x } que indica el caso en el que el segundo paquete llega
antes que el primer paquete. Puede ocurrir este evento?
(d) Describa el mnimo campo- de eventos que incluye a A, B, C, D y E.
5. Considere un espacio de probabilidad (, F, P) y dos eventos A y B en F. En el
punto 1 demostr que la frase "slo uno de los eventos A B ocurre" define otro
evento C F. Demuestre que P[C] = P[A] + P[B] - 2P[AB].
6. El nmero de transmisiones que deben hacerse para que un paquete llegue
correctamente desde una fuente hasta un destino conectados a travs de un enlace
punto-a-punto no confiable es un nmero entero k N ={1,2,...}. Algunas mediciones
sugieren que la probabilidad p
k
del evento elemental {k} es proporcional a
k
,
k=1,2,..., donde 0<<1.
(a) Basado en esta informacin, verifique que sta es una medida de probabilidad
vlida si se usa un factor de proporcionalidad adecuado.
(b) Cul es la probabilidad de que tengan que hacerse ms de n transmisiones?
(c) Dado que llevamos k transmisiones infructuosas, Cul es la probabilidad de que
tengan que hacerse ms de n transmisiones adicionales?
(d) Compare las respuestas (b) y (c) y discuta brevemente sus implicaciones.
7. Encuentre P[A|B] cuando (a) AB=, (b) AB=A y (c) AB=B.
8. Si P[A|B]>P[A], es P[B|A]>P[B]?
9. Considere la red de rea local en anillo unidireccional de la figura 1. Los
computadores 1,2,...,7 reciben archivos del servidor de archivos FS. El enlace i falla
con probabilidad p
i
, i=1, ... 8, independientemente de los otros enlaces.
(a) Calcule la probabilidad de que el computador n pueda recibir archivos desde FS,
n=1,2,...,7.
(b) Cmo se mejoraran las probabilidades anteriores si se usa un anillo dual en el
que, cuando un enlace falla, los computadores adyacentes devuelven el paquete
por el segundo enlace cerrando as el anillo nuevamente (figura 2)?
OJO: Observe bien la figura: Solamente cambiamos de enlaces smplex a enlaces full dplex, por
lo que una falla en un enlace implica una falla en los dos canales de ese enlace, evento que se
sigue dando con probabilidad p
i
para el enlace i, con i=1, ... 8, independientemente de los otros
enlaces.
(c) Grafique para cada computador la probabilidad de recibir archivos desde FS en
funcin de p si p
n
=p para n=1,2,...,7.
44

10. Considere dos computadores en una red que quieren conectarse con el servidor de
archivos. La probabilidad de que el primer computador se pueda conectar es 2/5
mientras que la probabilidad de que al menos uno de ellos se pueda conectar es 7/10.
Cul es la probabilidad de que el segundo computador se pueda conectar si (a) El
servidor no les permite conectarse simultneamente? (b) Las conexiones no
comparten ningn recurso?
11. De acuerdo con la topologa mostrada en la figura 3, determine la probabilidad de que
los computadores se puedan comunicar si cada enlace falla con probabilidad p
independientemente de los dems enlaces.

Figura 3

12.
13.
14

45
II. Conceptos Bsicos de Variables Aleatorias

19. Variable aleatoria, va.

Dado un espacio de probabilidad (,Y , P), una variable aleatoria (va) es
una funcin X: R tal que, xR, el evento A(x) definido como
{ : X() x} es un evento medible (A(x) Y )

La variable aleatoria le asigna a cada elemento del espacio muestral un nmero real, de
manera tal que las imgenes de los eventos en Y resultan ser conjuntos de Borel en R,
como sugiere la figura 2.1.

A Y YY Y
x=X()R
R
[Imagen de A] = X(A)U (R)

A Y YY Y
x=X()R
R
[Imagen de A] = X(A)U (R)

Figura 2.1. Concepto de Variable Aleatoria

Lo primero que podemos ver es que una variable aleatoria no es una variable sino una
funcin; y no es aleatoria sino completamente determinstica: a cada le
corresponde uno y slo un valor real, X(). El nombre (completamente inapropiado) de
variable aleatoria se debe a razones histricas, pero se convierte en un buen truco
mnemotcnico: una variable aleatoria no es una variable sino una funcin y no es
aleatoria sino determinstica.

Claro, no cualquier funcin X: R es una va. Por ejemplo, consideremos el espacio de
probabilidad ( = {a
1
, a
2
, a
3
, a
4
}, Y = {, , {a
1
}, {a
2
, a
3
, a
4
}}, P(Y ) = {0, 1, p, 1-p}) y
la funcin X(a
i
) = i, i=1,2,3,4. Es X una va? No! Porque, aunque A(x) es un evento
medible para x(-,2) y x[4, ), A(x) no es medible para x[2, 4). En efecto, para x<1,
A(x) = Y , P(A(x)) = 0; para 1x<2, A(x) = {a
1
}Y , P(A(x)) = p; para x4, A(x) =
Y , P(A(x)) = 1; pero para 2x<3, A(x) = {a
1
, a
2
}Y y para 3x<4, A(x) = {a
1
, a
2
,
a
2
}Y Y la definicin de va exige que A(x) debe ser medible para todo xR.

En general, si || es finita y Y = {0,1}
, cualquier
6
funcin de en R es una va. Pero si
|| es infinita, podemos convertir cualquier funcin X: R en una va si construimos un
espacio de probabilidad para ella con el mnimo campo- que contiene los eventos A(x) =

6
Bueno, casi cualquier funcin, pero aqu preferimos omitir detalles tcnicos irrelevantes para nuestro
propsito.
46
{ : X() x}, xR, y asignamos alguna medida de probabilidad a dichos eventos.
De esta manera nos aseguramos que la imagen de los eventos en el espacio de
probabilidad sean conjuntos de Borel en R.

Observe que en muchos casos el espacio muestral mismo est contenido en (o es igual a)
el conjunto de los nmeros reales, de manera que X()= es una va perfectamente vlida,
como lo podra ser cualquier otra funcin de R en R. Este es el caso de los ejemplos
2,4,5,7,10,11,12,13 y 14 de la definicin 3. En el caso del ejemplo 6, en el que se
verificaba el estado de ocupacin de un canal de comunicaciones de manera que el
espacio muestral era = {libre, ocupado}, podramos definir la va bivaluada X(libre)=0,
X(ocupado)=1. Si las respectivas medidas de probabilidad fueran P({ocupado}) = p y
P({libre}) = 1-p, tendramos que P(A(x)) est definida para todo xR como
P(A(x))=P()=0 para x<0, P(A(x))=P({libre})=1-p para 0x<1 y P(A(x))=P()=1 para
x1. Claramente, X es una va vlida porque A(x) es un evento medible para todo x real.
En el experimento 9, ver si un bit se recibe con error o no, la va dada por X(si)=1,
X(no)=0, tiene un comportamiento muy parecido al caso del ejemplo 6.

En el caso del ejemplo 8 (verificar el estado de ocupacin de cada canal de una trama E1)
podramos definir una va en ese experimento asociando cada uno de los elementos del
espacio muestral con el nmero binario de 32 bits conformado de la siguiente manera:
asignamos un cero a cada canal libre y un uno a cada canal ocupado y decimos que cada
dgito representa la potencia de dos asociada con la posicin del canal en la trama,
( )
31
0
( ) 2
i
n
X el i - simo canal en est ocupado
=
=
1
7
. Siendo as, el rango de la va ser el
conjunto de lo nmeros enteros desde 0 hasta 2
32
-1 = 4.294967.295. Entre muchas otras
variables aleatorias que podramos imaginar en este mismo experimento se puede
mencionar el ancho de banda libre en la trama, que es un mltiplo de 64 kbps:
( )
31
0
( ) 64000
n
Y el i - simo canal en est libre
=
=

1 .

En el ejemplo 15, en el que se tomaban N muestras de una seal senoidal transmitida a
travs de una canal ruidoso, una va de inters podra ser la energa del vector de muestras,
X(y) = E
y
=
1 2
0
N
n
n
y
. En este caso, dependiendo de cmo se haya definido el espacio

de probabilidad correspondiente, la energa puede ser o no una va vlida. Si, como se
hace tpicamente cuando los espacios muestrales son subconjuntos de R
N
, se asignan
probabilidades a los eventos en U(R
N
), la energa es una va vlida si se limita a valores
menores que infinito (seales de energa o seales L
2
(Z)).

En el ejemplo 16, en el que se escoge una de todas las funciones computables por una red
neuronal con una estructura dada, una va podra asociarse con el conjunto de N muestras
de entrenamiento, definindola como el error promedio de la funcin sobre esas N

7
Recordemos que 1(s) es la funcin indicadora de la sentencia s, igual a 1 si la sentencia s es cierta e igual
a 0 si la sentencia s es falsa, como se dijo en la definicin 2.
47
muestras, X(f) = ( )
1
1
0
( )
N
i i N
i
f x y
1 . Por ltimo, en el ejemplo 17, algunas variables

aleatorias de inters podran ser el nmero de saltos en la ruta, la capacidad de
transmisin del enlace angosto en la ruta (el enlace con mnima capacidad de
transmisin), el ancho de banda disponible en el enlace apretado de la ruta (el enlace con
mnimo ancho de banda disponible), la suma de los retardos de propagacin en cada
enlace de la ruta, o la probabilidad de descarte de un paquete en la ruta. En cualquier
caso, ser necesario verificar si el espacio de probabilidad permite medir los eventos A(x)
para todo xR.

20. Funcin acumulativa de distribucin de probabilidad, CDF

Sea (, Y , P) un espacio de probabilidad sobre el cual se define una variable
aleatoria X: R. La Funcin acumulativa de distribucin de probabilidad de
X es la funcin F
X
: RR definida como F
X
(x) = P({ : X() x}), xR.
Le diremos la CDF por la sigla en ingls de Cumulative Distribution Function.

Obsrvese de dnde surge la importancia de que los eventos A(x) = { : X() x}
sean medibles en el espacio de probabilidad en que se define la funcin (va) X: Si no
fuera as no se podra definir la CDF de X (al menos no con dominio en todos los reales).

No hay manera de destacar suficientemente la importancia de esta funcin en lo que resta
de nuestro estudio en este libro. Para empezar, obsrvese que, mientras P() es una
medida de conjuntos (una funcin de Y en R) y X() es una funcin de , F
X
() es, por
primera vez en este libro, un funcin de los reales en los reales. Con teora de conjuntos
fueron pocas las herramientas que pudimos guardar en nuestra caja de herramientas: tres
axiomas, algunas propiedades derivadas de ellos, probabilidad total y regla de Bayes.
Pero ahora, con funciones de R en R, podemos echar mano del anlisis real para atiborrar
nuestra caja de herramientas.

Considere el ejemplo 6 en el que medimos la ocupacin de un canal de comunicaciones.
El espacio de probabilidad del experimento est dado por la siguiente tripleta:
{ } ( ) ( )
, , {0,1} , ({ }) , ({ }) 1 libre ocupado ocupado p libre p
= = = = P P Y , sobre la cual
podemos definir la va dada por los valores X(libre)=0 y X(ocupado)=1. Como
mencionamos en la definicin 19, si x<0, P(A(x)) = P() = 0; si 0x<1, P(A(x)) =
P({libre}) = 1-p; y si x1, P(A(x))=P()=1. Luego la CDF de X, F
X
(x), toma la forma
mostrada en la figura 2.2, donde los crculos rellenos indican el valor que toma la CDF en
los puntos de discontinuidad.
48
-1 -0.5 0 0.5 1 1.5 2
-0.2
0
0.2
0.4
0.6
0.8
1
x
F
X
(
x
)
CDF para la ocupacion de un canal

Figura 2.2. CDF para la ocupacin de un canal, cuando P({ocupado})=0.6

En el ejemplo 15, la energa de la seal observada puede tomar cualquier valor no
negativo y menor que infinito, de manera que una posible CDF (de hecho, una CDF
tpica en estos casos) es la que se muestra en la figura 2.3.

0 1 2 3 4 5 6 7 8 9 10
-0.2
0
0.2
0.4
0.6
0.8
1
x
F
X
(
x
)
CDF para la energa de una senal muestreada

Figura 2.3. CDF para la energa de una seal senoidal sobre un canal ruidoso

21. Propiedades de la CDF

Sea (, Y , P) un espacio de probabilidad sobre el cual se define una variable
aleatoria X: R con CDF F
X
(). Entonces,
(a) La CDF es no-negativa: F
X
(x)0 xR
(b) La CDF es no-decreciente: si x
1
< x
2
entonces F
X
(x
1
) F
X
(x
2
)
(c) La CDF es acotada: F
X
(-) = 0, F
X
()=1.
(d) La CDF es continua por la derecha: F
X
(x
+
) = F
X
(x).

En efecto, como la CDF F
X
(x) es una medida de probabilidad de un evento indicado por
el nmero real x, las propiedades anteriores son las formas que toman algunas
propiedades de la medida de probabilidad. Para cada nmero real x definamos A(x) como
el evento { : X() x}, medible en el espacio de probabilidad (, Y , P).
49
(a) El segundo axioma de la definicin 9 exige que P(A(x)) 0, de donde surge la no-
negatividad de F
X
(x).
(b) Si x
1
< x
2
, A(x
2
) = A(x
1
){ : x
1
<X() x
2
}, de manera que A(x
1
) A(x
2
) y, de
acuerdo con el quinto resultado de la definicin 12, P(A(x
1
)) P(A(x
2
)), por lo que
F
X
(x) debe ser no-decreciente.
(c) Como A(-) = , el segundo resultado de la definicin 12 exige que F
X
(-) = 0. Y
como A() = , el primer axioma de las probabilidades exige que F
X
() = 1. Dada
que F
X
(x) es no decreciente, estos resultados implican que F
X
(x) est acotada en el
rango [0, 1].
(d) Para cualquier nN, A(x+1/n) = A(x){ : x<X() x+1/n}=A(x)B
n
(x), donde
definimos B
n
(x) como { : x<X() x+1/n}. Como A(x) y B
n
(x) son mutuamente
excluyentes, aplica el tercer axioma de la definicin 9, P(A(x+1/n)) = P(A(x)) +
P(B
n
(x)), de donde P(B
n
(x)) = F
X
(x+1/n) F
X
(x). A medida que n tiende a infinito, la
cota superior en el intervalo que define a B
n
(x) tiende a x, pero x est por fuera del
intervalo por la cota inferior, que es abierta en x, por lo que B
n
(x) tiende a .
Formalmente, { }
1
1
lim ( ) : ( )
n k
n
k
B x x X x
=
= < + =
, de manera que
( ) lim ( ) ( ) 0
n
n
B x
= = P P . En consecuencia,
1
lim ( ) ( )
X X n
n
F x F x
+ = , que es la
definicin de continuidad por la derecha, F
X
(x
+
) = F
X
(x).

Obsrvese que las funciones de las figuras 2.2 y 2.3 satisfacen las cuatro propiedades
anteriores. De hecho (y he aqu otra de las razones por las que la CDF es un concepto tan
fundamentalmente importante), cualquier funcin de R en R que satisfaga las anteriores
cuatro propiedades es una CDF vlida en el espacio de probabilidad (R, U(R), F
X
()).
Esto es, no es estrictamente necesario considerar un espacio de probabilidad sobre el cual
podamos definir una va para la cual construiramos la respectiva CDF de acuerdo con las
probabilidades de los eventos medibles en el espacio original. Podemos tomar el camino
inverso: Considerar una CDF y definir con ella una va apropiada en el espacio (R, U(R),
F
X
()). Siendo as, para especificar completamente una variable aleatoria basta con
describir su CDF: Decir qu valores toma y cmo se distribuye la probabilidad sobre esos
valores. No hace falta definir ningn otro espacio de probabilidad subyacente!

Por ejemplo, considere la funcin g(x) = (1 e
-x
)u(x), donde u(x) es el escaln unitario
que vale 1 si x0 y vale 0 en otro caso, y es un nmero real positivo. Esta es una
funcin no-negativa, no-decreciente, acotada y continua. Por lo tanto, podemos suponer
la existencia de una va X que toma valores en los reales no negativos y asignarle la CDF
F
X
(x) = g(x), con lo que construiramos un espacio de probabilidad formalmente definido.
Si establecemos la hiptesis de que dicho espacio modela el tiempo de vida til de los
componentes de una red, por ejemplo, podramos construir y evaluar as un modelo
probabilstico de confiabilidad. A las variables aleatorias con F
X
(x) = 1 e
-x
, x0, >0,
se les conoce como variables aleatorias exponenciales, como se describe en 34(b).

Como de ahora en adelante vamos a trabajar casi exclusivamente con variables aleatorias,
vamos a despreocuparnos desde ahora por la definicin explcita de un espacio de
50
probabilidad, pues tcitamente dejaremos que dicho espacio sea (R, U(R), F
X
()). Tanto
es as, que de ahora en adelante nos tomaremos muchas libertades en la notacin. Por
ejemplo, en vez de hablar de P({ : X()B}), donde B es un conjunto de Borel,
diremos solamente P(XB). Por supuesto, formalmente este es un error gramatical que
podra confundirse con un garrafal error conceptual porque las probabilidades no se
asignan a sentencias lgicas sino a subconjuntos medibles de . Pero como ya no
necesitamos hacer referencia a un espacio muestral subyacente, es simplemente nuestra
convencin para referirnos a la probabilidad del evento medible B en el espacio muestral
R
8
. Es importante insistir en lo que decamos en el primer captulo: Si no tenemos
perfectamente definido un espacio de probabilidad para nuestro modelo, no sabremos
dnde estamos parados. Slo estamos diciendo que, mientras nuestro modelo
probabilstico se base en una variable aleatoria, el correspondiente espacio de
probabilidad puede dejarse implcitamente definido. Por esta razn, otra libertad en la
notacin ser la de cambiar la frase Sea (, Y , P) un espacio de probabilidad sobre el
cual se define una va X: R con CDF F
X
(x) por la frase Sea F
X
(x) la CDF de alguna
va X (a menos, claro, que necesitamos referirnos explcitamente al espacio de
probabilidad subyacente).

22. Probabilidad de algunos subconjuntos de R

Sea F
X
() la CDF de alguna va X. Por simplicidad, denotemos P(XB) como
P(B) para cualquier BU (R). Entonces
(a) P((-,a]) = F
X
(a) aR
(b) P((a,)) = 1 F
X
(a) aR
(c) P((a,b]) = F
X
(b) F
X
(a) a,bR, a<b
(d) P([a]) = F
X
(a
+
) F
X
(a
-
) a R
(e) P((-,a)) = F
X
(a) P([a]) aR
(f) P([a, )) = 1 F
X
(a) + P([a]) aR
(g) P((a,b)) = F
X
(b) F
X
(a) P([b]) a,bR, a<b
(h) P([a,b]) = F
X
(b) F
X
(a) + P([a]) a,bR, a<b
(i) P([a,b)) = (F
X
(b) P([b]) (F
X
(a) P([a])) a,bR, a<b

Como de costumbre, estas propiedades surgen de los tres axiomas de la
probabilidad, como mostraremos a continuacin:
(a) Esta es la definicin 20
(b) Este es el resultado 1 de la definicin 12, aplicado a (a)
(c) (-,b] = (a,b](-,a] son dos eventos disyuntos, por lo que aplica el tercer
axioma: F
X
(b) = P((a,b]) + F
X
(a). Restando F
X
(a) a ambos lados se obtiene el
resultado.
(d) De acuerdo con el resultado anterior, P((a-1/n,a]) = F
X
(a) F
X
(a 1/n) para
todo entero n mayor o igual a 1. En el lmite cuando n tiende a infinito, el

8
Ahora un evento medible es, simplemente, un conjunto de Borel en los reales, BU (R).
51
evento (a-1/n,a] tiende a
1 1
1
lim( , ] ( , ] [ ]
n j
j
n
a a a a a
= =
, mientras que
F
X
(a-1/n) tiende a F
X
(a
-
). Por la propiedad (d) de la definicin 21, F
X
(a)=F
X
(a
+
).
Poniendo los tres resultados juntos obtenemos P([a]) = F
X
(a
+
) F
X
(a
-
) a R.
(e) (-,a] = (-,a)[a] son dos subconjuntos mutuamente excluyentes, por lo que
aplica el segundo axioma de la definicin 9: F
X
(a)= P([a])+P((-,a)). Restando
P([a]) a ambos lados obtenemos el resultado.
(f) [a, ) = (-,a)
C
, donde el superndice C se refiere al complemento respecto al
conjunto de los reales. Aplicando el primer resultado de la definicin 12 al
resultado (e) anterior, P([a, )) = 1 F
X
(a) + P([a]) aR.
(g) Como (a,b] = (a,b)[b], F
X
(b) F
X
(a) = P((a,b)) + P([b]). Restando P([b]) a
ambos lados se obtiene el resultado.
(h) Como [a,b] = (a,b][a], P([a,b]) = F
X
(b) F
X
(a) + P([a]).
(i) Como [a,b] = [a,b)[b], podemos aplicar el tercer axioma y el resultado (h)
anterior, P([a,b]) = F
X
(b) F
X
(a) + P([a]) = P([a,b)] + P([b]). Restando P([b])
obtenemos P([a,b)) = (F
X
(b) P([b]) (F
X
(a) P([a]))

Cada uno de estos resultados tiene interpretaciones importantes. En particular, quisiera
referirmel punto (d): Si un punto individual x
0
de R tiene una probabilidad diferente de
cero, la CDF de la correspondiente va debe tener una discontinuidad en ese punto, de
manera que F
X
(x
0
) = F
X
(x
0
-
) + P([x
0
]). Por otro lado, si la CDF de una variable aleatoria X
es una funcin continua, la probabilidad de cada punto individual es cero, pues la
continuidad significa que F
X
(x
+
) = F
X
(x
-
) para todo x. Este efecto lo podemos ver con
claridad en la figura 2.4, donde graficamos una CDF con dos puntos de discontinuidad y
seleccionamos cuatro subconjuntos en el eje horizontal para los cuales graficamos sus
respectivas probabilidades en el eje vertical.
[x
0
] [x
1
] (x
2
x
3
] (x
4
x
5
]
P([x
0
])=0
P([x
1
])
P((x
2
, x
3
])
P((x
4
, x
5
])
x
F
X
(x)
[x
0
] [x
1
] (x
2
x
3
] (x
4
x
5
]
P([x
0
])=0
P([x
1
])
P((x
2
, x
3
])
P((x
4
, x
5
])
x
F
X
(x)

Figura 2.4. Probabilidad de algunos intervalos

Claramente, x
0
es un punto en el que F
X
() es continua y, por lo tanto, como subconjunto
unitario de R, tiene una probabilidad igual a cero. A diferencia de x
0
, x
1
es un punto de
discontinuidad, donde la discontinuidad corresponde a un salto de longitud P([x
1
]): el
52
evento unitario [x
1
] puede suceder con probabilidad mayor que cero. Obsrvese que x
0

tambin puede suceder, a pesar de que su probabilidad es cero! De hecho, todos los
valores en el rango mostrado en la figura pueden suceder, aunque slo dos de ellos con
probabilidad diferente de cero. De muchas maneras, nuestra vida est construida a partir
de eventos que, aunque tenan probabilidad cero, ocurrieron para hacer de nosotros lo que
somos hoy: casi todo lo que ocurre a nuestro alrededor ocurre a pesar de tener
probabilidad cero. Se dira que cada uno de nosotros es un milagro! Este es un aspecto
importante por considerar con las regiones en que la CDF de una va es continua.
Consideremos, por ejemplo, el intervalo (x
2
, x
3
]: Cada punto individual de ese intervalo
tiene probabilidad cero, aunque la probabilidad de que la va tome algn valor dentro de
ese intervalo es P((x
2
, x
3
]) = F
X
(x
3
)-F
X
(x
2
) > 0. De acuerdo con la figura, esta
probabilidad es pequea comparada con la probabilidad de que la va tome un valor en el
intervalo (x
4
, x
5
], el cual contiene un punto de discontinuidad (llammosle x
a
), de manera
que P((x
4
, x
5
]) = P((x
4
, x
a
)) + P((x
a
, x
5
])+P([x
a
]). Todos los dems puntos del intervalo
tienen probabilidad cero aunque, en conjunto, tienen una probabilidad mayor que la de
[x
a
]. El hecho de que pueda haber puntos de discontinuidad con probabilidad mayor que
cero y puntos de continuidad con probabilidad igual a cero motiva la siguiente definicin
aunque, estrictamente, no es una definicin necesaria.

23. Variables aleatorias discretas y continuas

Sea (, Y , P) un espacio de probabilidad en el que definimos una variable
aleatoria X con CDF F
X
(). Se dice que X es una variable aleatoria continua si
F
X
(x) es una funcin continua para todo xR. Se dice que X es una variable
aleatoria discreta si la imagen de es un subconjunto contable de R. En otro
caso, se dice que X es una variable aleatoria mixta.

En general, una CDF puede tener puntos de discontinuidad y regiones con crecimiento
montono, como se ilustra en la figura 2.4. Sin embargo, a veces resulta conveniente
describir estas CDF como la combinacin convexa de dos CDFs, una continua en todo el
rango R y otra que es constante en intervalos delimitados por un nmero contable de
discontinuidades. Por ejemplo, si F
1
(x) toma una forma semejante a la de la figura 2.3 y
F
2
(x) toma una forma semejante a la de la figura 2.2, la combinacin convexa F
X
(x) =
F
1
(x) + (1-)F
2
(x), 0 1, tomara una forma semejante a la de la figura 2.4.

Volvamos a los primeros seis ejemplos de la definicin 3:

18. Lanzar una moneda y ver qu lado queda hacia arriba. El espacio de probabilidad de
este experimento es ( = {cara, sello}. Y = {0,1}
, P({cara})=P({sello})=0.5}), de
donde podemos definir la variable aleatoria discreta X dada por X(cara)=0 y
X(sello)=1, cuya CDF se grafica en la figura 2.5(a).
= {1,2,3,4,5,6}. En este caso X()= es una variable aleatoria discreta en el que
cada posible valor ocurre con probabilidad 1/6, como se muestra en la figura 2.5(b).
53
20. Escoger una carta de la baraja de naipes: El espacio muestral de este experimento es
= {(f,n) : f{picas, trboles, corazones, diamantes}, n{1, 2, 3, 4, 5, 6, 7, 8, 9, 10,
J, Q, K}}. Sea Y una va que asigna a cada palo un nmero entero as: Y(picas) = 0,
Y(trboles)=1, Y(corazones)=2, Y(diamantes)=3. Esta es una variable aleatoria
discreta en la que cada posible valor ocurre con probabilidad . Sea Z otra va que
asigna a cada figura un nmero entero as: Z(n) = n-1 si n{1, 2, 3, 4, 5, 6, 7, 8, 9,
10}, Z(J)=10, Z(Q)=11 y Z(K)=12. Esta es otra variable aleatoria discreta en la que
cada posible valor ocurre con probabilidad 1/13. La variable aleatoria X(f,n) = 13Y(f)
+ Z(n) toma valores en el rango de nmeros enteros [0, 51], donde 0 le corresponde al
as de picas y 51 le corresponde al rey de diamantes. Cada posible valor en el rango de
X ocurre con probabilidad 1/52, de manera que X es una variable aleatoria discreta
cuya CDF es como se muestra en la figura 2.5(c).
= {R : 0 1}. Nuevamente, X()= es una va adecuada para la cual
quisiramos que el valor X=0 ocurriera con una probabilidad significativa. Por
consiguiente se trata de una va mixta cuya CDF tiene un punto de discontinuidad en
el origen, como muestra la figura 2.5(d). La forma particular de esta CDF puede ser
diferente, dependiendo de las condiciones particulares de la red. En el caso que se
muestra, se trata de la fraccin de prdidas en un simple enrutador que conecta una
pequea red local con Internet. La probabilidad de que no hayan prdidas durante una
hora es 0.8 y la probabilidad de que se pierdan menos de un cuarto de los paquetes es,
para efectos prcticos, uno.
22. Medir el retardo experimentado por un paquete de datos mientras transita por una red
IP. Como el espacio es = R
+
= { xR : x > 0}, una va perfectamente vlida es
X()=. El quinto captulo desarrollaremos varios modelos probabilsticos para este
experimento, uno de los cuales conduce a la CDF mostrada en la figura 2.5(e). Se
trata de una variable continua cuya distribucin muestra que el 50% de los paquetes
tardan menos de 100 ms y el otro 50% tarda entre 100 y 200 ms.
23. Verificar el estado de ocupacin de un canal de comunicaciones:
= {libre, ocupado}. Aqu, la variable definida en el ejemplo 1 resulta vlida. La
figura 2.5(f) muestra la CDF cuando la probabilidad de ocupacin es 0.8.
54
-0.5 0 0.5 1 1.5
0
0.5
1
F
X
(
x
)
x
(a)
0 2 4 6 8
0
0.5
1
F
X
(
x
)
x
(b)
-20 0 20 40 60
0
0.5
1
F
X
(
x
)
x
(c)
-1 0 1 2
0
0.5
1
(d)
F
X
(
x
)
x
-0.1 0 0.1 0.2 0.3
0
0.5
1
(e)
F
X
(
x
)
x
-0.5 0 0.5 1 1.5
0
0.5
1
F
X
(
x
)
x
(f)

Figura 2.5. Funcin de Distribucin Acumulativa (CDF) de las variables aleatorias
definidos en los primeros seis ejemplos de la definicin 3

24. Funcin de distribucin de probabilidad, pmf

Sea F
X
() la CDF de alguna va discreta X que toma sus posibles valores en el
conjunto contable {x
1
, x
2
, }. Entonces F
X
(x) se puede describir mediante el
tamao de los pasos en cada punto de discontinuidad, p
k
= P(X = x
k
) = F
X
(x
k
+
)-
F
X
(x
k
-
) porque
:
( )
k
X k
k x x
F x p
=

. La secuencia p
k
se denominada funcin de
distribucin de probabilidad (pmf por la sigla en ingls para probability mass
function).

Por ejemplo, cuando verificbamos el estado de ocupacin de un canal de
comunicaciones y definamos X(libre)=0 y X(ocupado)=1, obtenamos la CDF mostrada
en la figura 2.5(f) si la probabilidad del evento {ocupado} fuese 0.8. Evidentemente, se
trata de una va discreta con la pmf mostrada en la figura 2.6.

55
x
0 1
P(X=x)
0.8
0.2
x
0 1
P(X=x)
0.8
0.2

Figura 2.6 pmf de la va generada por la ocupacin de un canal,
cuya CDF aparece en la figura 2.5(f).

Enseguida definiremos la funcin de densidad de probabilidad, pdf, que aplica tanto a
variables continuas como discretas y mixtas. Por eso dejaremos el estudio de las
caractersticas de la pmf como particularizaciones de las caractersticas de la pdf.

25. Funcin de densidad de probabilidad, pdf

Sea F
X
() la CDF de alguna va X. La funcin de densidad de probabilidad
(pdf) de X, f
X
(x), se define como la derivada de F
X
(x), esto es,
( ) ( ),
X X
d
f x F x x
dx
=

Recordemos que para los puntos xR en los que la CDF F
X
(x) es continua, la
probabilidad P(X=x) era cero. Sin embargo, sabemos por la definicin 22(c) que la
probabilidad de que X caiga en un pequeo intervalo (x, x+x] es P(x < X x+x) =
F
X
(x+x) F
X
(x). As pues, la pdf se puede considerar como el lmite de P(x < X x+x)
/ x cuando x tiende a cero, lo cual justifica su nombre como densidad de probabilidad:
f
X
(x)x P(x < X x+x)
Esto es, si bien la va X toma el valor x con probabilidad cero, f
X
(x)x nos dice cul es la
probabilidad de un intervalo muy pequeo cercano a x, que resulta un valor proporcional
a la longitud del intervalo (si x es suficientemente pequeo), con f
X
(x) como factor de
proporcionalidad, segn muestra la figura 2.7.
f
X
(x)
f
X
(x
o
)
x
o
x
o
+x
x
f
X
(x
o
)x P(x
o
< X x
o
+x)
f
X
(x)
f
X
(x
o
)
x
o
x
o
+x
x
f
X
(x
o
)x P(x
o
< X x
o
+x)

Figura 2.7 Interpretacin de la pdf

Es de anotar que la interpretacin anterior tambin tiene una aplicacin prctica, pues
sugiere una tcnica de estimacin de la pdf de una variable aleatoria mediante el clculo
56
de la frecuencia relativa de intervalos pequeos en una larga secuencia de muestras de la
va.

Por ejemplo, la pdf de una variable aleatoria exponencial, como la definida en el ejemplo
de la definicin 21, es
( )
( ) ( ) 1 , 0
x x
X X
d d
f x F x e e x
dx dx

= = = .

La definicin de la pdf como la derivada de la CDF puede ser muy general en cuanto
puede aplicarse a cualquier tipo de variable aleatoria (continua, discreta o mixta), si
aceptamos que la pdf puede tener discontinuidades (cuando la CDF es continua pero no
derivable) y singularidades (cuando la CDF F
X
(x) tiene discontinuidades). En particular,
si X es una va discreta que toma sus valores en el conjunto contable {x
1
, x
2
, x
3
,}, su
derivada ser cero en todo punto excepto en los de discontinuidad, en los cuales la
derivada se hace singular. En consecuencia, la pdf de una va discreta es un tren de
impulsos de Dirac
9
,
1
( ) ( ) ( )
X k k
k
f x X x x x
=
= =
P
en el que el rea debajo de cada impulso corresponde a la respectiva funcin de
distribucin de probabilidad, pmf. Por eso, en este libro hablaremos en general de la pdf
y, slo cuando sea estrictamente necesario, particularizaremos para la pmf.

26. Propiedades de la pdf y la pmf

Sea f
X
() la pdf de alguna va X. Entonces

(a) f
X
(x)0 xR
(b) ( ) ( )
x
X X
F x f a da

(c) ( ) 1
X
f a da

Si X es una va discreta con posibles valores {x
1
, x
2
, x
3
,}, su pdf toma la forma
1
( ) ( )
X k k
k
f x p x x
=
=
, donde p
k
= P(X = x
k
) es la pmf de X y (x) es el impulso
de Dirac, de manera que, para variables discretas, las anteriores propiedades se
pueden reescribir en trminos de la pmf as:

(a) p
k
0
(b)
:
( )
k
X k
k x x
F x p
=

9
Recordemos que el impulso de Dirac (x) vale cero en cualquier valor xR, excepto en x=0, y que
( ) 1 x dx
.
57
(c) 1
k
k
p =

La primera propiedad surge de la no negatividad de la CDF. La segunda propiedad es,
simplemente, el teorema fundamental del clculo. Y la tercera propiedad, que surge de
evaluar la segunda en el punto x=, es simplemente el primer axioma de las
probabilidades definido en 9(a). La propiedad (a) es el segundo axioma de las
probabilidades, y las propiedades (b) y (c) surgen de (b) y (c) evaluando la integral
( ) ( )
:
( )
k
b b b
X k k k k k
a a a
k k k a x b
f x dx p x x dx p x x dx p
<
= = =

Obsrvese que, a la luz de las anteriores propiedades y la interpretacin sugerida por la
figura 2.6, podemos evaluar varias probabilidades en trminos de la pdf (o la pmf) as:

(1) ( ) ( )
b
X
a
P a X b f x dx
+
+
< =
( )
:
k
k
k a x b
P a X b p
<
| |
< =
|
\

(2) ( ) ( )
b
X
a
P a X b f x dx
+
( )
:
k
k
k a x b
P a X b p

| |
=
|
\

(3) ( ) ( )
b
X
a
P a X b f x dx
< =
( )
:
k
k
k a x b
P a X b p
<
| |
< =
|
\

(4) ( ) ( )
b
X
a
P a X b f x dx
+
< < =
( )
:
k
k
k a x b
P a X b p
< <
| |
< < =
|
\

Donde las diferencias sutiles en los lmites de la integral se refieren a la necesidad de
incluir o excluir posibles impulsos de Dirac. Por supuesto, si X es una va continua, las
expresiones de la derecha carecen de sentido y los cuatro intervalos contemplados en la
columna izquierda tienen la misma probabilidad, pues en ese caso la probabilidad de cada
punto individual es cero.

Como se nota en las expresiones anteriores, por brevedad basta con referirse solamente la
pdf, pues todo lo que digamos de ella se extiende inmediatamente a la pmf en el caso de
variables discretas, a travs de la expresin
:
( )
k
b
X k
a
k a x b
f x dx p
<
=

. Ms an, como la
necesidad de distinguir entre las propiedades (a) y (a), (b) y (b), y (c) y (c) obedecen al
uso de la integral de Riemann en las expresiones de probabilidad basadas en la pdf,
simplificaremos la terminologa y la notacin si usamos la integral de Lebesgue para
evitar referirnos separadamente a la pdf o a la pmf. En efecto, usando la integral de
Lebesgue, la probabilidad del evento XA para algn conjunto de Borel A se expresa
como ( )
X
A
dF x
, tanto para variables continuas como para variables discretas o mixtas,

donde
( )
:
( ) si es continua
( )
si es discreta
k
X
A
X
A
k
k x A
f x dx X
X A dF x
p X
= =

P
58
Para los lectores poco familiarizados con la teora de mediciones o con el anlisis real,
baste pensar que el trmino ( ) ( )
X
A
X A dF x =
P es, simplemente, una notacin

sencilla para referirse indistintamente a cualquiera de las dos expresiones ( )
X
A
f x dx
o
:
k
k
k x A
p
, segn corresponda. Por supuesto, en muchas ocasiones ser necesario hacer la

distincin correspondiente, en cuyo caso volveremos a la sumatoria basada en la pmf o a
la integral de Riemann basada en la pdf, que corresponden a la respectiva integral de
Lebesgue en cada caso.

27. Valor Esperado de una Variable Aleatoria

Sea F
X
() la CDF de alguna va X. El Valor esperado de X se define como
[ ] ( )
X
E X xdF x =
. Al valor esperado tambin se le conoce como media,

esperanza o primer momento de X.

Supongamos que obtenemos N calificaciones parciales en un curso de procesos
estocsticos, {X
1
, X
2
, , X
N
}, cada una de ellas en el rango {0.0, 0.5, 1.0, 1.5, 2.0, 2.5,
3.0, 3.5, 4.0, 4.5, 5.0}. Como cada calificacin parcial puede tener, de alguna manera,
algn componente aleatorio, el profesor querra tomar muchas muestras. Pero como, de
todas maneras, al final del semestre el departamento le exige un solo nmero, el profesor
entrega el promedio,
1
1
N
i
i
X X
N
=
=

. Esto puede ser injusto, porque debe haber
circunstancias distintas entre alguien que obtiene tres en todas las notas parciales y
alguien que obtiene cinco en el 60% de ellas y cero en el 40% restante, aunque ambos
obtienen un mismo promedio de 3.0. Sin embargo, como toca representar toda la
secuencia {X
1
, X
2
, , X
N
} mediante un solo nmero, casi nadie duda que el promedio X
es la mejor seleccin posible, especialmente si N es un nmero grande. Lo ideal sera
presentar la calificacin final como un histograma que presente, por ejemplo, la
frecuencia relativa de cada posible valor de las calificaciones parciales, pero sera muy
costosa para el departamento la administracin de semejante proceso de calificacin.
Cmo se relaciona ese nmero mgico X , el promedio, con la distribucin de la va X?
Consideremos la suma que se usa para el promedio y recalculmosla usando la
asociatividad de la suma, as
11 11
1 1 1
1 1
N
k
i k k k
i k k
N
X X N x x
N N N
= = =
= = =

donde x
k
es el k-simo posible valor de X (en este caso x
k
= (k-1)/2 para k=1,2,...11), y N
k

es el nmero de veces que se obtuvo la calificacin x
k
entre las N calificaciones parciales.
La mxima justicia de esa calificacin final se obtendra cuando el nmero de
calificaciones parciales tendiera a infinito, en cuyo caso, de acuerdo con la definicin 10,
11 11 11 11
1 1 1 1
lim lim ( ) ( )
k k
k k k k k k X
N N
k k k k
N N
X x x x X x x p xdF x
N N

= = = =
| |
= = = = =
|
\

P

59
Si X fuese una variable aleatoria continua de la que tomamos N muestras, bastara con
discretizar el rango de posibles valores en M subintervalos de longitud x, de manera que
1 1 1
1 1
N M M
k
i k k k
i k k
N
X X N x x
N N N
= = =
= = =

donde N
k
es el nmero de muestras X
i
que caen en el k-simo intervalo y x
k
es algn
punto dentro del k-simo intervalo que satisface la igualdad de la suma (el cual existe por
el teorema del valor medio). Si hacemos que el nmero de muestras N tienda a infinito, la
relacin N
k
/N tiende a la probabilidad de que X caiga en el k-simo intervalo (segn
nuestra pragmtica interpretacin frecuentista de la definicin 10) que, de acuerdo con la
definicin 25, equivale aproximadamente a f
X
(x
k
)x, si x es suficientemente pequeo:
1 1
lim lim ( )
M M
k
k k X k
N N
k k
N
X x x f x x
N

= =
=

Ahora slo basta con considerar el lmite en el que x tiende a cero (en cuyo caso M debe
tender a infinito) para que la aproximacin sea exacta:
0
lim lim ( ) ( )
X X
M N
x
X xf x dx xdF x
=

As pues, el valor esperado no es ms que una generalizacin del promedio numrico
cuando consideramos un nmero infinito de muestras de la variable aleatoria. Ms an,
de acuerdo con el ejemplo de las calificaciones, si el promedio es la estadstica ms
sencilla que mejor resume la secuencia total de calificaciones, el valor esperado es la
estadstica ms sencilla que mejor resume la distribucin de una variable aleatoria.
Obsrvese tambin, en la interpretacin anterior, las formas particulares que toma la
integral de Lebesgue cuando se aplica a variables continuas y discretas separadamente, en
cuyo caso utilizamos explcitamente la pmf o la pdf en vez de un diferencial general de la
CDF:
si es discreta
[ ] ( )
( ) si es continua
k k
k
X
X
x p X
E X xdF x
xf x dx X

Una segunda estadstica importante para resumir la distribucin de una va es la varianza
pero, para definirla, debemos conocer el valor esperado de una funcin de una variable
aleatoria, lo cual requiere tres definiciones previas.

28. Funcin de una Variable Aleatoria

Sea (, Y , P) un espacio de probabilidad sobre el cual se define una
variable aleatoria X: R. Sea g:RR una funcin de los reales en los
reales. Sea Y:R una funcin del espacio muestral en los reales tal que
a cada le asigna la cantidad real Y()=g(X()). Si yR, el
evento B(y) definido como { : Y() y} es un evento medible (B(y)
Y ), entonces Y es una nueva variable aleatoria.

La relacin entre las funciones X() y Y()=g(X()) se muestran en la figura 2.8, donde
tambin se muestra cmo las imgenes de cualquier evento medible A deben
60
corresponder a conjuntos de Borel en los reales bajo ambas transformaciones, X y Y. Por
supuesto, si X est definida en el espacio de probabilidad (R, U(R), F
X
()), cualquier
funcin g() generar una variable aleatoria vlida Y=g(X). Por ejemplo, si L es una
variable aleatoria que representa la longitud en bits de un paquete de datos que se
transmite por un enlace de capacidad C bps, el tiempo de transmisin del paquete ser
una nueva variable aleatoria dada por T = (L+h)/C, donde h es la longitud de los
encabezados que se le aaden al paquete en capas inferiores de la pila de protocolos.

0

A Y YY Y
x
0
=X(
0
)
x
g(x)
y
0
=Y(
0
)=g(X(
0
))

0

A Y YY Y
x
0
=X(
0
)
x
g(x)
y
0
=Y(
0
)=g(X(
0
))

Figura 2.8 Concepto de Funcin de una Variable Aleatoria

29. pdf de una Funcin de una Variable Aleatoria

Sea F
X
() la CDF de alguna va X y sea Y otra va definida mediante Y=g(X),
donde g es una funcin de los reales en los reales. Entonces la CDF de Y, F
Y
(y),
satisface
1
( ) ( )
n
Y X i
i
dF y dF x
=
=

donde {x
1
, x
2
, , x
n
} son las races de la ecuacin y=g(x).

Si X ex continua con pdf f
X
() y g es una funcin diferenciable en todo punto, la
pdf de Y est dada por
1
1
( ) ( )
'( )
n
Y X i
i i
f y f x
g x
=
=

donde g(x) es la derivada de g(x). Si X es una va discreta, la pmf de Y est
dada por
: ( )
( ) ( )
j i
j i
i y g x
Y y X x
=
= = =
P P

En efecto, considrese el ejemplo mostrado en la figura 2.9 en la que, para el punto y
seleccionado, existen tres races de la ecuacin y=g(x), pues g(x
1
)=g(x
2
)=g(x
3
)=y. Por el
tercer axioma de la definicin 9,
61
P(y<Yy+y) = P(x
1
<Xx
1
+x
1
) + P(x
2
+x
2
<Xx
2
) + P(x
3
<Xx
3
+x
3
)
donde todos los incrementos son positivos con la excepcin de x
2
, que es menor que
cero. A medida que y se hace ms y ms pequea, obtenemos la expresin original de la
definicin,
1..3
( ) ( )
Y X i
i
dF y dF x
=
=
. Si X es discreta, esta suma se interpreta como

P(Y=y) = P(X=x
1
) + P(X=x
2
) + P(X=x
3
). Ahora veamos la interpretacin de la suma si X
es continua.

De acuerdo con 24, si y es suficientemente pequeo,
1..3
( ) ( )
Y X i
i
dF y dF x
=
=

se puede
reescribir de la siguiente manera:
f
Y
(y)y f
X
(x
1
)x
1
+ f
X
(x
2
)|x
2
| + f
X
(x
3
)x
3

donde la aproximacin se hace exacta a medida que y tiende a cero. En trminos
generales, si existen n races, tenemos
1 1
( ) 1
( ) ( )
n n
X i
Y X i i
i i i
f x
f y f x x
y y x

= =
=

donde, en el lmite cuando y tiende a cero, obtenemos exactitud en la igualdad:
0
1 1
( ) 1
( ) lim ( )
'( )
n n
X i
Y X i
y
i i i i
f x
f y f x
y x g x
= =
= =

Ntese que si la ecuacin y=g(x) no tiene races, dF
Y
(y)=0, como muestra la figura
2.10(a). Igualmente, si las races forman un continuo, la va Y puede tener un componente
discreto aunque X sea continua, como muestra la figura 2.10(b).
y
y+y
x
1
x
1
+x
1
x
2
+x
2
x
2
x
3
x
3
+x
3
x
y=g(x)
y
y+y
x
1
x
1
+x
1
x
2
+x
2
x
2
x
3
x
3
+x
3
x
y=g(x)

Figura 2.9 Construccin para encontrar f
Y
(y) cuando Y=g(X)

62
X
Y=g(X)
x
a
x
b
y
( ) ( )
b
a
x
X
x
Y y dF x = =
P
X
Y=g(X)
y
dF
Y
(y)=0
X
Y=g(X)
x
a
x
b
y
( ) ( )
b
a
x
X
x
Y y dF x = =
P
X
Y=g(X)
y
dF
Y
(y)=0

Figura 2.10 Casos en que y=g(x) no tiene races (a) y en que las races de
y=g(x) forman un continuo (b).

A manera de ejemplo, considrese la transmisin de un archivo desde un servidor ftp a
travs de un enlace de C bps. Si la longitud del archivo, L, tiene una pdf f
L
(l), cul ser la
pdf f
T
(t) del tiempo de transferencia, T? Claramente, T = L/C + t
0
, donde t
0
es el tiempo de
establecimiento de la conexin ftp. Si definimos g(l) l/C + t
0
obtenemos que la nica
raz de t=g(l) es l = C (t t
0
). En este caso la derivada de g(l) es constante, g(l) = 1/C.
Consecuentemente, f
T
(t) = C f
L
(C (t t
0
)).

Como un segundo ejemplo, considrese la eficiencia en la transmisin de un paquete
cuya longitud es una variable aleatoria L con pdf f
L
(l), cuando se le aade un encabezado
de h bits: E = g(L) = L/(L+h). La nica raz de e=g(l) es l = h e/(1-e) y la derivada de g(l)
es g(l) = h/(h+l)
2
. En consecuencia,
2
( )
(1 ) 1
E L
h e
f e f h
e e
| |
=
|

\
. La figura 2.11 muestra
las respectivas distribuciones de L y E cuando h = 192 bits y L tiene una distribucin
exponencial f
L
(l) = exp(-l/1024)/1024.
0 1000 2000 3000 4000 5000
0
0.2
0.4
0.6
0.8
1
x 10
-3
f
L
(

l
p

)
l
p
0 0.2 0.4 0.6 0.8 1
0
0.5
1
1.5
2
2.5
3
3.5
f
E
(

e
f

)
e
f

Figure 2.11 Funciones de densidad de probabilidad de la longitud de un paquete (a) y de
la eficiencia en la transmisin cuando se aaden 192 bits de encabezado (b)
63

30. Valor Esperado de una Funcin de una Variable Aleatoria

Sea F
X
donde g es una funcin de los reales en los reales. Entonces el valor esperado
de Y est dado por
[ ] ( ) ( )
X
E Y g x dF x =

En efecto, si por simplicidad suponemos que g() es una funcin montonamente
creciente, de la definicin 29 sabemos que dF
X
(x) = dF
Y
(g(x)), por lo que
( ) ( ) si es continua
[ ] ( ) ( ) ( )
( ) si es discreta
X
Y X
k k
k
g x f x dx X
E Y ydF y g x dF x
g x p X
= = =

Para los valores de y en los que y=g(x) tenga varias races, la expresin es la misma por
asociatividad.
En el ejemplo de la transmisin de un archivo desde un servidor ftp a travs de un enlace
de C bps cuando la longitud del archivo, L, tiene una pdf f
L
(l), cul ser el valor
esperado del tiempo de transferencia T = L/C + t
0
? Acabamos de ver que f
T
(t) = C f
L
(C (t
t
0
)), de donde podemos verificar que
0 0
0
[ ] ( / ) ( ) [ ] /
L
E T t l C f l dl t E L C
= + = +
.

31. Varianza de una Variable Aleatoria

Sea X una va con valor esperado E[X]. La varianza de X, V[X], se define como
V[X] = E[(X E[X])
2
]. La desviacin estndar de X,
X
, se define mediante la
relacin V[X] =
X
2
.

Supongamos que mandamos medir a uno de nuestros tcnicos ms brillantes una variable
aleatoria X. El tcnico es brillante pero perezoso y tramposo, por lo que decide inventarse
algn nmero a y decir que se fue el valor que midi. Como la equivocacin ser X-a, l
quisiera escoger a de manera que la diferencia X-a sea lo ms cercana a cero posible.
Para conseguir esto, el brillante tcnico querra minimizar (X-a)
2
pero, como sta es una
funcin de una variable aleatoria, decide escoger el valor de a que minimiza E[(X-a)
2
].
Por supuesto, la manera simple de encontrar el valor apropiado de a es observando la
derivada de E[(X-a)
2
] respecto a a:
( ) ( ) [ ]
2 2
2( ) 2 ( ) ( )
2 ( ) 2 ( ) 2( [ ])
X
X
d d
E X a E X a E a X a x dF x
da da
a dFX x xdF x a E X
(
(
= = =
(

= =

Debido a la convexidad de la funcin g(a)=E[(X-a)
2
], el nico valor extremo corresponde
a un mnimo, as que basta con igualar la anterior derivada a cero para obtener el valor de
a que minimiza el error cuadrado promedio (MSE Mean Square Error), a=E[X]. As
pues, cuando remplazamos una variable aleatoria por su valor esperado minimizamos el
MSE, el cual es, precisamente, la varianza de X, V[X] = E[(X E[X])
2
].
64
Correspondientemente, la desviacin estndar
X
es una medida de qu tan dispersos
estn los valores observados de X respecto a su valor medio, E[X].

32. Propiedades del Valor Esperado y la Varianza de una Variable
Aleatoria

Sea X una variable aleatoria con valor esperado E[X] y varianza V[X] y c una
constante entre los reales. Entonces,
(a) E[X+c] = E[X]+c
(b) E[c X] = c E[X]
(c) V[X+c] = V[X]
(d) V[c X] = c
2
V[X]
(e) V[X] = E[X
2
] E[X]
2

Estas propiedades son muy fciles de verificar:

(a) [ ] ( ) ( ) ( ) ( ) [ ]
X X X
E X c x c dF x xdF x c dF x E X c + = + = + = +

(b) [ ] ( ) ( ) [ ]
X X
E cX cxdF x c xdF x cE X = = =

(c) V[X+c] = E[((X+c) (E[X]+c))
2
] = E[(X E[X])
2
] = V[X]
(d) V[cX] = E[(cX cE[X])
2
] = E[c
2
(X E[X])
2
] = c
2
E[(X E[X])
2
] = c
2
V[X]
(e) V[X] = E[(X E[X])
2
] = E[X
2
2XE[X] + E[X]
2
] = E[X
2
] E[X]
2

donde la demostracin de la propiedad (c) hace uso de la propiedad (a), la demostracin
de la propiedad (d) hace uso de la propiedad (b) y la demostracin de la propiedad (e)
hace uso de las propiedades (a) y (b). Estas propiedades se usarn con tanta cotidianidad
que, finalmente, debern ser recordadas como conceptos fundamentales de las variables
aleatorias.

33. Momentos de una Variable Aleatoria

El n-simo momento de una variable aleatoria X es E[X
n
]. El n-simo momento
central es E[(X-E[X])
n
].

De acuerdo con lo anterior, el valor esperado es el primer momento y la varianza es el
segundo momento central. El skewness es una cantidad muy til relacionada con el tercer
momento central, S[X] = E[(X-E[X])
3
]/V[X]
3/2
, que mide la simetra de la pdf de X
alrededor de su valor medio (si S[X]=0, la pdf de X es simtrica alrededor de E[X]; si
S[X]<0, la pdf se recuesta hacia la izquierda; y si S[X]>0, la pdf se recuesta hacia la
derecha). El kurtosis es otra cantidad relacionada con el cuarto momento central, K[X] =
E[(X-E[X])
4
]/V[X]
2
3, que mide qu tan plana o puntuda es la pdf de X (entre ms
negativo es K[X], la pdf de X tiende a ser ms plana; entre ms positivo, la pdf tiende a
ser ms puntuda. La referencia K[X]=0 corresponde a la distribucin gaussiana, descrita
en 34). La figura 2.12 muestra las caractersticas de la pdf de X representadas por los
cuatro primeros momentos de X. En la parte superior izquierda, E[X
1
] < E[X
2
]. En la parte
65
superior derecha, V[X
1
] < V[X
2
]. En la parte inferior izquierda, S[X
1
] < S[X
2
]=0 < S[X
3
].
Y en la parte inferior derecha, K[X
1
] > K[X
2
]=0 > K[X
3
].
f
X
(x)
1
f
X
(x)
1
f
X
(x)
1
f
X
(x)
1
f
X
(x)
2
f
X
(x)
2
f
X
(x)
2
f
X
(x)
2
f
X
(x)
3
f
X
(x)
3
f
X
(x)
1
f
X
(x)
1
f
X
(x)
1
f
X
(x)
1
f
X
(x)
2
f
X
(x)
2
f
X
(x)
2
f
X
(x)
2
f
X
(x)
3
f
X
(x)
3

Figura 2.12 Efecto de los cuatro primeros momentos en la pdf de una va

34. Algunas Variables Aleatorias Discretas

(a) Una variable aleatoria de Bernoulli con parmetro p[0,1] toma dos
posibles valores, X{0,1}, con P[X=1]=1-P[X=0]=p. Su valor esperado es p
y su varianza es p(1-p).
(b) Una variable aleatoria geomtrica con parmetro p[0,1] toma valores
enteros positivos, X{1,2,3,}, de manera que P[X=k]=p
k-1
(1-p). Su valor
esperado es 1/(1-p) y su varianza es p/(1-p)
2
.
(c) Una variable aleatoria binomial con parmetros (n,p), donde n es un entero
positivo y p un real en el intervalo [0,1], toma valores enteros no negativos
en el rango {0,1,2,,n}, de manera que [ ] (1 )
k n k
n
k
X k p p
| |
= =
|
\
P . Su
valor esperado es np y su varianza es np(1-p).
(d) Una variable aleatoria de Poisson con parmetro >0 toma valores enteros
no negativos, X{0,1,2,}, de manera que [ ]
!
k
X k e
k

= = P . Tanto su
valor esperado como su varianza son iguales a .
(e) Una variable aleatoria uniforme discreta con parmetros (m,n), donde m y
n son enteros tales que m n, toma valores en el rango de nmeros enteros
{m, m+1, m+2,, n-1, n}, de manera que P[X=k] = 1/(n-m+1) si k est en el
rango mencionado. Su valor esperado es (m+n)/2 y su varianza es (n-m)(n-
m+2)/12.

A continuacin damos algunos ejemplos de modelos probabilsticos en redes de
comunicaciones basados en las anteriores variables aleatorias, y demostramos los
resultados obtenidos respecto a la media y la varianza de cada una de ellas. Como todos
ellos son de gran importancia prctica, en especial los cuatro primeros y muy
66
especialmente el modelo de trfico Poisson, recomendamos al lector que los estudie
cuidadosamente y los aprenda.

(a) Muchos fenmenos aleatorios en el estudio de redes de comunicaciones pueden
modelarse mediante variables aleatorias de Bernoulli, como ya se ha mencionado
previamente.
Sea X=1 si un enlace se encuentra ocupado y X=0 si el mismo enlace se encuentra
desocupado. Entonces X es una variable aleatoria de Bernoulli, donde el parmetro p
es la utilizacin del enlace.
Sea X=1 si un bit transmitido sobre un enlace de radio punto-a-punto llega con error
al otro extremo del enlace, y X=0 si el bit llega correctamente. Entonces X es una
variable aleatoria de Bernoulli, donde el parmetro p es la tasa de error del canal,
BER (Bit Error Rate).
El siguiente es el primero de una serie de modelos de trfico que estudiaremos en este
libro. Hay un enlace por el que se transmiten celdas ATM (Asynchronous Transfer
Mode), donde el tiempo se discretiza en unidades correspondientes al tiempo de
transmisin de una celda. En cada unidad de tiempo puede llegar una celda con
probabilidad p o no llegar ninguna celda con probabilidad 1-p. Dada una unidad
particular de tiempo, sea X=1 si llega una celda en esa unidad y X=0 si no llega
ninguna celda. Entonces X es una variable aleatoria de Bernoulli, donde p es la tasa
de llegadas, en celdas/unidad de tiempo.
En cualquiera de los tres casos tenemos que E[X] = 1p + 0 (1-p) = p, E[X
2
] = 1p + 0
(1-p) = p y V[X]= E[X
2
] - E[X]
2
= p p
2
= p(1 p), lo cual cobra mucho sentido a la
luz de los ejemplos propuestos. En el modelo de trfico, por ejemplo, si p=0, el
promedio es 0 con varianza 0 pues en ninguna unidad de tiempo llegan paquetes; si
p=1, el promedio es 1 con varianza 0 pues cada unidad de tiempo trae un paquete. La
mxima varianza se da con p = , que corresponde a la mxima incertidumbre sobre
la llegada de paquetes: si p es menor que , tenemos mayor certeza de que no llegar
un paquete y, si p es mayor que , tenemos mayor certeza de que llegar un paquete.
La figura 2.13 muestra la distribucin, el promedio y la varianza del nmero de celdas
que llegan por unidad de tiempo en funcin de la tasa de llegadas, p.
-0.2 0 0.2 0.4 0.6 0.8 1 1.2
0
0.5
1
Numero de celdas por unidad de tiempo
P
[
X
=
x
]
p=0.2
-0.2 0 0.2 0.4 0.6 0.8 1 1.2
0
0.5
1
P
[
X
=
x
]
p=0.5
-0.2 0 0.2 0.4 0.6 0.8 1 1.2
0
0.5
1
P
[
X
=
x
]
x
p=0.8
0 0.2 0.4 0.6 0.8 1
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Tasa de llegadas, p
Numero de celdas por unidad de tiempo
Promedio = p
Varianza = p(1-p)

Figura 2.13 Distribucin, promedio y varianza del nmero de celdas que llegan por
unidad de tiempo bajo un modelo de Trfico de Bernoulli
67

(b) La variable aleatoria geomtrica surge de repetir un experimento de Bernoulli hasta
que se obtenga uno de los resultados deseados, asegurando que cada experimento sea
independiente de los dems. De hecho, existen cuatro formas posibles de definir una
distribucin geomtrica, dependiendo si el experimento se repite hasta obtener un
cero o hasta obtener un uno y, en cada caso, si el experimento exitoso se cuenta o no:
- Repetir hasta obtener 1 y no contar el exitoso: P[X=k]=p(1-p)
k
, k=0,1,2,
- Repetir hasta obtener 1 y contar el exitoso: P[X=k]=p(1-p)
k-1
, k=1,2,3,
- Repetir hasta obtener 0 y no contar el exitoso: P[X=k]=p
k
(1-p), k=0,1,2,
- Repetir hasta obtener 0 y contar el exitoso: P[X=k]=p
k-1
(1-p), k=1,2,3,
En la definicin se escogi el cuarto caso, que puede corresponder al siguiente
ejemplo:
Al transmitir un paquete por un enlace no-confiable se produce un error detectable
con probabilidad p. El paquete se retransmite cuantas veces sea necesario hasta que
llegue sin errores detectables al otro extremo del enlace, y se cuenta el nmero de
transmisiones que se requieren, X. La probabilidad de tener que hacer una sola
transmisin es la misma probabilidad de que el paquete llegue sin errores, P[X=1] =
P[Primera transmisin exitosa] = 1-p. Ser necesario hacer dos transmisiones si hay
un error en la primera transmisin y la segunda resulta exitosa, lo cual ocurre con
probabilidad P[X=2] = P[Primera transmisin con error]P[Segunda transmisin
exitosa | Primera con error]. Si la presencia de errores es independiente de una
transmisin a otra, la anterior probabilidad condicional es igual a la correspondiente
probabilidad incondicional, P[X=2] = P[Primera transmisin con error]P[Segunda
transmisin exitosa] = p(1-p). En general, ser necesario hacer k transmisiones si las
primeras k-1 transmisiones sufren algn error y la k-sima llega sin errores
detectables. Dada la suposicin de independencia, esta evento sucede con
probabilidad P[X=k] = p
k-1
(1-p). El nmero promedio de transmisiones ser
1
1 0 0
0
[ ] (1 ) (1 )
1 1
(1 ) (1 )
1 1
k k
k
k k k
k
k
d
E X kp p kp p p
dp
d d
p p p
dp dp p p

= = =
=
= = =
= = =

El segundo momento se puede calcular igualmente fcil
( ) ( )
2 2
2 2 2 2 2
2 2
1 0 0 0
2
2 2 2
[ ] (1 ) (1 ) (1 ) [ ]
1 1 2 1 1
(1 )
1 1 1
1 1
k k k k
k
k k k k
d d
E X k p p p k p p p p kp p p p E X
dp dp
d p p
p p
dp p p p
p p

= = = =
| |
= = = + = +
|
\
+
= + = + =

de donde V[X] = E[X
2
] E[X]
2
= p/(1-p)
2
.

En efecto, si la probabilidad de error es cero, el nmero promedio de transmisiones es
uno y la varianza es cero, pues con probabilidad uno slo se necesita una transmisin.
A medida que aumenta p, tanto el promedio como la varianza aumentan, aunque la
varianza aumenta ms rpidamente. Si p es uno, se requerir un nmero infinito de
68
transmisiones o, lo que es lo mismo, el paquete nunca llegar bien si el enlace es un
lazo de cabuya.

Un segundo modelo de trfico basado en la va geomtrica puede construirse a partir
del modelo anterior (basado en la va de Bernoulli) si contamos el nmero de unidades
de tiempo (o slots) que debemos esperar hasta ver la llegada de la siguiente celda. Si
en el primer slot que observamos lleg una celda, lo cual ocurre con probabilidad p,
debimos esperar cero unidades. Para esperar una unidad de tiempo ser necesario que
en el primer slot no venga ninguna celda y en el segundo venga una celda, lo cual
ocurre con probabilidad p(1-p) si cada unidad de tiempo es independiente de las
dems. En general, si en los primeros k slots no llegaron celdas y la primera celda
lleg en el slot k+1, debimos esperar k unidades, lo cual ocurre con probabilidad
P[X=k] = p(1-p)
k
, k=0,1,2 Ntese que sta es otra de las cuatro maneras de definir
una distribucin geomtrica. Haciendo Y = X+1 y q=1-p, notamos que P[Y=k] = q
k-
1
(1-q), k=1,2,3, como en el ejemplo anterior, de manera que E[Y] = 1/(1-q) y, por
consiguiente, usando la definicin 32(a), E[X] = 1/p 1 = (1-p)/p. Similarmente, por
la definicin 32(c), como V[Y] = q/(1-q)
2
, entonces V[X] =(1-p)/p
2
. La figura 2.14
muestra estas cantidades.
0 2 4 6 8 10
0
0.05
0.1
0.15
0.2
0.25
Numero de slots desocupados entre llegadas
P
[
X
=
k
]
p=0.2
0 2 4 6 8 10
0
0.2
0.4
0.6
0.8
P
[
X
=
k
]
k
p=0.6
0 0.2 0.4 0.6 0.8 1
0
5
10
15
20
25
30
35
40
45
50
Tasa de llegadas, p
Numero de slots desocupados entre llegadas
Promedio = (1-p)/p
Varianza = (1-p)/p
2

Figure 2.14 Distribucin, promedio y varianza del nmero de slots desocupados entre
llegadas bajo un modelo de trfico geomtrico

Ntese que en estos modelos geomtricos es absolutamente necesario que los
distintos experimentos de Bernoulli se realicen de manera independiente entre ellos.
En el modelo de errores de transmisin, ser posible que la presencia de errores en la
transmisin de una trama sea independiente de las tramas anteriores o siguientes? Si
la transmisin se hace por un par trenzado no blindado de baja categora y los errores
se deben a la ignicin de un motor elctrico, los errores NO son independientes. Pero
si la transmisin se hace a travs de un satlite en horas nocturnas y los errores se
deben al ruido galctico, los errores SI pueden ser independientes: El modelo exige
independencia y el analista deber determinar si el modelo es aplicable o no.
Igualmente, en el modelo de trfico, si las celdas vienen de un gran nmero de
fuentes independientes en las que cada una participa con una fraccin muy pequea
del trfico de manera que ninguna de ellas pueda generar celdas en unidades de
tiempo cercanas entre s, la suposicin de independencia puede tener sentido. Pero si
69
es un nmero pequeo de fuentes, cada una de las cuales puede generar rfagas de
celdas en breves instantes de tiempo, ser necesario revisar cuidadosamente la validez
de la suposicin de independencia.

(c) La variable aleatoria binomial surge de hacer n repeticiones independientes de un
experimento de Bernoulli y contar cuntas veces sucedi el resultado 1. Supongamos,
por ejemplo, que se transmite una trama de n bits sobre un enlace no confiable y se
cuenta el nmero de bits que llegan con error cuando los errores se dan en cada bit
independientemente con probabilidad p. La probabilidad de que no haya ningn error
es, claramente, P[X=0] = (1-p)
n
. La probabilidad de que solamente se dae el i-simo
bit es p(1-p)
n-1
, de manera que la probabilidad de que se dae un solo bit es
1 1
1 1
[ 1] [error slo en el bit ] (1 ) (1 )
n n
n n
i i
X P P i p p np p

= =
(
= = = =
(

P

donde la segunda igualdad obedece al tercer axioma de las probabilidades. De la
misma manera, la probabilidad de que slo se daen los bits i y j es p
2
(1-p)
n-2
, por lo
que la probabilidad de que se daen exactamente dos bits es
1 1
2 2 2 2
1 1 1 1
( 1)
[ 2] [error slo en los bits ( , )] (1 ) (1 )
2
n n n n
n n
i j i i j i
n n
X P i j p p p p

= = + = = +
(

= = = =
(

P P

En general, una combinacin particular de slo k errores se da con probabilidad p
k
(1-
p)
n-k
, que es la misma probabilidad de que se daen los k primeros bits o los k ltimos,
o los k de la mitad, o k de ellos tomados de dos en dos, etc. Como hay (
n
k
)=n!/(k!(n-
k)!) formas posibles de combinar k bits con errores entre n bits trasmitidos,
[ ] (1 )
k n k
n
k
X k p p
| |
= =
|
\
P .
El nmero promedio de bits recibidos con error es
1 ( 1) ( 1)
0 1 1 1
1 1
[ ] (1 ) (1 ) (1 )
1 1
n n n n
k n k k n k k n k
k
k k k k
n n n
E X kp k p p n p p np p p np
k k k

= = = =
| | | | | |
= = = = =
| | |

\ \ \

De manera semejante podemos calcular el segundo momento,
2 2 1 ( 1) ( 1)
1
1 1 0
1
1
[ ] (1 ) (1 ) ( 1) (1 ) (( 1) 1)
1
n n m
k n k k n k j m j
j k
k k j
m n
n n m
E X k p p np k p p np j p p np n p
k k j

=
= = =
=
| | | | | |
= = = + = +
| | |
\ \ \

de donde la varianza del nmero de bits equivocados es
V[X] = [(np)
2
+ np(1-p)] (np)
2
= np(1-p)

Ntese que la variable aleatoria binomial es la suma de n variables aleatorias de
Bernoulli independientes. Como veremos en el prximo captulo, eso justifica el
hecho de que la media y la varianza de la distribucin binomial sean n veces la suma
y la varianza de la distribucin de Bernoulli, respectivamente.

Siguiendo con la serie de modelos de trfico, podemos considerar una trama TDM
(Time Division Multiplexing) de n slots, donde cada slot se comporta segn los
modelos de trfico descritos en los modelos Bernoulli y geomtrico. Entonces la
variable aleatoria X=Nmero de celdas en una trama, est binomialmente distribuida
con parmetros (n,p). Igualmente, si consideramos un multiplexor que concentra n
enlaces ATM como los descritos antes, donde el trfico en cada enlace es
70
independiente de los dems enlaces, el nmero de celdas que llegan por unidad de
tiempo tiene una distribucin binomial con los mismos parmetros. La figura 2.15
muestra la distribucin, el promedio y la varianza del nmero de celdas que llegan en
una trama de 32 slots.
0 5 10 15 20 25 30
0
0.1
0.2
Numero de llegadas por trama
P
[
X
=
k
]
p=0.2
0 5 10 15 20 25 30
0
0.1
0.2
P
[
X
=
k
]
p=0.5
0 5 10 15 20 25 30
0
0.1
0.2
P
[
X
=
k
]
k
p=0.8
0 0.2 0.4 0.6 0.8 1
0
5
10
15
20
25
30
Tasa de llegadas, p
Numero de llegadas por trama
Promedio = 32p
Varianza = 32p(1-p)

Figura 2.15 Distribucin, promedio y varianza del nmero de celdas que llegan en una
trama de 32 slots bajo un modelo de trfico binomial

Como en el caso de la variable aleatoria geomtrica, cada vez que se quiera aplicar el
modelo de la variable aleatoria binomial debemos justificar la suposicin de
independencia de los experimentos de Bernoulli subyacentes.

(d) Considrese un multiplexor que concentra un gran nmero de usuarios, de manera
que los paquetes de datos pueden llegar en cualquier instante (modelo de tiempo
continuo). Definamos la va X como el nmero de llegadas que hay en un perodo de t
segundos. Para caracterizar la va X, dividimos el intervalo de t segundos en n
subintervalos contiguos y no sobrelapados de longitud t, donde t = nt, y hacemos
dos suposiciones bsicas:
- a medida que la longitud del subintervalo t se hace ms y ms pequea, la
probabilidad de ms de una llegada en un subintervalo tiende a cero y la
probabilidad de una sola llegada en un subintervalo se hace proporcional a la
longitud del intervalo, con factor de proporcionalidad :
[ ]
( ) 1
llegadas en 1 ( ) 0
( ) 1
t o t k
k t t o t k
o t k
+ =
= + =
>
P
donde o(t) -micron de t - es cualquier funcin que tienda a cero ms
rpidamente que t:
0
( )
lim 0
t
o t
t

de manera que o(t) o(t) = o(t), o(t) o(t) = o(t), t o(t) = o(t), etc. La
distribucin anterior indica que las llegadas simultneas son improbables y que en
cada subintervalo infinitesimal tenemos un experimento de Bernoulli en el que
71
puede haber una llegada con probabilidad t o ninguna llegada con probabilidad 1
t.
- El nmero de llegadas en un intervalo de tiempo dado es independiente del nmero
de llegadas en cualquier otro intervalo de tiempo no sobrelapado con el primero. En
particular, el nmero de llegadas en cualquiera de los subintervalos de longitud t
en que dividimos el tiempo es independiente del nmero de llegadas en cualquier
otro intervalo anterior o posterior.

Para que X tome el valor k puede ocurrir que en k de los n subintervalos haya habido
una sola llegada y en los restantes n-k subintervalos no hayan habido llegadas, o que
las k llegadas hayan sucedido en menos de k subintervalos. En este ltimo caso, hubo
ms de una llegada en por lo menos un subintervalo, lo cual sucede con alguna
probabilidad que tiende a cero ms rpidamente que t, o(t):
{1,2,..., },| |
una llegada en c/u de los subintervalos de ,
[ ] ( )
cero llegadas en los restantes - subintervalos
I n I k
I
X k o t
n k
=
(

= = +
` (
)
P P

Dada la suposicin de independencia en intervalos no sobrelapados, as se trate de
intervalos infinitesimales, la anterior expresin toma la siguiente forma:
( ) ( ) [ ] ( ) ( ) 1 ( )
k n k
n
X k o t t o t t o t
k

| |
= = + + +
|
\
P
Expandiendo las potencias en el segundo trmino de la derecha y agrupando todas las
funciones o(t) en una sola,
( ) ( )
( ) ( )
!
[ ] ( ) 1 1
!( )!
! ( ) 1 1 2 1 ( ) 1
1 1
( )! ! !
1 1
k n k
k n k
n n
k k
k k k
n t n t t
X k o t t t o
k n k n k n n
t n t t t n n n n k t t
o o
n n n k k n n n n n n k n
t t
n n

| | | | | | | |
= = + = +
| | | |
\ \ \ \
+ | | | | | | | | | |
= + = +
| | | | |
\ \ \ \ \

P

Tomando el lmite cuando n tiende a infinito (y t tiende a cero de manera que t=nt
siga constante), obtenemos o(t/n)0, (n-i)/n1, (1-t/n)
k
1 y (1-t/n)
n
e
-t
, de
manera que
( )
[ ]
!
k
t
t
X k e
k

= = P
Esto es, bajo las suposiciones anteriores, el nmero de llegadas en t segundos tiene
una distribucin Poisson con parmetro = t. Durante cerca de un siglo ste ha sido
el modelo de trfico por excelencia en el diseo y anlisis de redes de
comunicaciones, aunque en las ltimas dos dcadas se ha acumulado una gran
cantidad de evidencia que muestra que, en redes modernas de comunicaciones
conmutadas por paquetes, la suposicin de independencia en intervalos no
sobrelapados no es vlida cuando se habla de la llegada de paquetes (aunque an
puede serlo cuando se habla del establecimiento de flujos o sesiones). Ms an, en
muchos casos hay evidencia emprica que muestra cierta dependencia an entre
intervalos muy separados en el tiempo, fenmeno conocido como dependencia de
largo rango, LRD long range dependence-. Sin embargo, como veremos ms
adelante, la simplicidad del modelo Poisson (que supone independencia an a nivel
infinitesimal) permite obtener expresiones cerradas para muchas medidas de
72
desempeo, gracias a lo cual sigue siendo utilizado como una primera aproximacin
en el dimensionamiento de la capacidad de las redes de comunicaciones y en el
diseo de algoritmos de control para las mismas.

El valor esperado del nmero de paquetes que llegan en t segundos es
1
0 1 1
[ ]
! ( 1)!
k k
k
k k k
E X kp k e e
k k

= = =
= = = =

que, con definido como t, indica que es el nmero promedio de llegadas por
segundo o la tasa promedio de llegadas, que es uno de los parmetros ms
importantes en la caracterizacin de trfico (el nico parmetro en el caso de modelos
de Poisson). El segundo momento es
( ) ( )
( )
1
2 2
0 1 1
1 1
2
1 1
[ ] ( 1) 1 ( 1) 1
! ! ( 1)!
1 [ ]
( 1)! ( 1)!
k k k
k k k
k k
k k
E X k e k k e k e
k k k
k e e E X
k k

= = =

= =
= = + = +
= + = + = +

de donde V[X] = E[X
2
]-E[X]
2
= : La varianza de una variable aleatorio de Poisson es
igual a su valor medio.
La figura 2.16 muestra la distribucin del nmero de llegadas en un segundo cuando
el trfico obedece a un modelo de Poisson. La grfica de la media y la varianza
respecto a son slo dos lneas a 45.
0 5 10 15 20 25
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.5
Numero de llegadas por segundo
P
[
X
=
x
]
x
ro = 0.8
0 5 10 15 20 25
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0.16
0.18
0.2
P
[
X
=
x
]
x
ro = 5
0 5 10 15 20 25
0
0.05
0.1
P
[
X
=
x
]
x
ro = 12

Figura 2.16 Distribucin del nmero de llegadas en un segundo bajo un modelo de trfico
Poisson

(e) Una trama TDM tiene n slots, numerados de 0 a n-1. Los paquetes llegan al
multiplexor TDM en instantes completamente aleatorios, independientemente de la
sincronizacin de la trama. Sea la va X el slot que se est transmitiendo de la trama
que se est transmitiendo en el instante en que llega un paquete. Como no hay
ninguna razn que permita imaginar que un paquete tenga alguna preferencia por un
73
slot o un grupo de slots particular
10
, parece razonable suponer que P[X=k] = 1/n,
k=0,1,,n-1.
Su valor promedio es
1
0
1 1 ( 1) 1
[ ]
2 2
n
k
n n n
E X k
n n
=

= = =
y su segundo momento es
1
2 2
0
1 (2 1)( 1)
[ ]
6
n
k
n n
E X k
n
=

= =
, de manera que su varianza es V[X] = E[X

2
]-E[X]
2
=
(n
2
-1)/12.

Ntese la naturaleza de los ejemplos anteriores en los que cada va se convierte en un
modelo probabilstico adecuado. Los experimentos de Bernoulli consisten en observar
uno de dos posibles resultados, a cada uno de los cuales se les asocia el valor 0 1 (error
o no-error en un bit, ocupacin o desocupacin de un enlace, falla u operatividad de un
dispositivo, etc.). Las variables binomial, geomtrica y de Poisson modelan repeticiones
independientes de un experimento de Bernoulli. En el modelo geomtrico, se repite el
experimento independientemente hasta obtener alguno de los dos resultados. En el
modelo binomial el experimento se repite independientemente n veces y se cuenta el
nmero de ocasiones en que ocurri el resultado favorable. El modelo de Poisson es el
lmite consistente en un nmero infinito de repeticiones independientes durante un
perodo finito de tiempo. El modelo uniforme obedece al principio de la mxima
incertidumbre: Si tenemos un conjunto de proposiciones excluyentes a las cuales
queremos asignar una distribucin de probabilidad, debemos tener en cuenta qu sabemos
de ellas. Si conocemos cul es la cierta, le debemos asignar un valor de probabilidad
igual a uno y las dems proposiciones tendrn probabilidad cero, pues no tenemos
ninguna incertidumbre. Si algn conocimiento previo nos permite favorecer algunas
proposiciones ms que otras, podremos asignarles mayor probabilidad. Pero si no
tenemos ninguna informacin que nos permita favorecer a ninguna de las proposiciones
sobre las dems, nuestra incertidumbre ser mxima y lo ms conveniente ser asignar las
probabilidades uniformemente. Si lo hicisemos de otra manera, estaramos suponiendo
una informacin que no poseemos.

35. Algunas Variables Aleatorias Continuas

(a) Una variable aleatoria X uniformemente distribuida tiene parmetros reales
(a,b), toma valores en el intervalo [a,b], y su pdf es f
X
(x) = 1/(b-a), x[a,b].
Su valor esperado es (a+b)/2 y su varianza es (b-a)
2
/12.
(b) Una variable aleatoria X exponencialmente distribuida tiene un parmetro
real positivo, >0, toma valores entre los reales no negativos, y su pdf es
f
X
(x)= e
-x
, x0. Su valor esperado es 1/ y su varianza es 1/
2
.
(c) Una variable aleatoria X Normalmente (o Gaussianamente) distribuida
tiene parmetros (,
2
), donde es un nmero real y
2
es un nmero real
no negativo, toma valores en los reales, y su pdf es

10
Consideramos cada paquete independientemente de los dems. Dado un proceso de llegadas particular,
puede haber alguna preferencia si condicionamos en el slot que le correspondi al paquete anterior.
74
2
1 1
( ) exp
2 2
X
x
f x

| |
| |
| =
|
|
\
\
, xR
Su valor esperado es y su varianza es
2
.
(d) Una variable aleatoria X con distribucin de Pareto tiene parmetros
positivos (a,b), toma valores en los reales mayores o iguales a b, y su pdf es
1
( )
X
a
a b
f x
b x
+
| |
=
|
\
, xb
Si a>1, su valor esperado es ab/(a-1); si no, su valor esperado es infinito. Si
a>2, su varianza es ab
2
/((a-2)(a-1)
2
); si no, su varianza es infinita.
(e) Una variable aleatoria X con distribucin de Cauchy tiene parmetros
reales (a,b), b>0, toma valores reales, y su pdf es
2 2
1
( )
( )
X
b
f x
x a b
=
+
, xR
Ni la media ni la varianza de la distribucin de Cauchy estn definidas.
(f) Una variable aleatoria X con distribucin de Laplace tiene un parmetro
real positivo a, toma valores reales, y su pdf es
| |
( )
2
a x
X
a
f x e
= , xR
Su valor esperado es cero y su varianza es 2a
-2
.
(g) Una variable aleatoria X con distribucin Gamma tiene parmetros reales
positivos (a,), toma valores reales no negativos y su pdf es
( )
1
1
0
( ) , 0 ( ) ( )
( )
a
x
a s
X
x e
f x x donde a s e ds funcin Gamma
a

= =

Su valor esperado es a/ y su varianza es a/
2
.
(h) Una variable aleatoria X con distribucin de Erlang tiene parmetros (n,),
donde n es un entero positivo y es un real positivo (es la particularizacin
de una variable aleatoria Gamma con parmetro a entero (a=n)). Toma
valores reales no negativos y su pdf es
1
( )
( )
( 1)!
n x
X
x e
f x
n
, x0
Su valor esperado es n/ y su varianza es n/
2
.
(i) Una variable aleatoria X con distribucin de Weibull tiene dos parmetros
(a,), ambos reales positivos,toma valores reales no negativos y su pdf es
1
( ) exp( ( ) )
a a a
X
f x a x x
= , x0
Su valor esperado es ((a+1)/a)/ y su varianza es ((((a+2)/a) -
((a+1)/a))
2
/
2
.
(j) Una variable aleatoria X con distribucin Chi-cuadrado (
2
) tiene un
parmetro real positivo, a, toma valores reales no negativos y su pdf es
( )
/ 2 1
/ 2
exp / 2
( )
2 ( / 2)
a
X a
x x
f x
a
, x0
Su valor esperado es a y su varianza es 2a.
75
(k) Una variable aleatoria X con distribucin de t de Student tiene un
parmetro real positivo a, toma valores reales y su pdf es
2
1
2
1
2
( ) 1
2
X
a
a
x
f x
a a
a
+
+ | |
|
| |
\
= +
|
| |
\
|
\
, xR
Su valor esperado es 0 y su varianza es a/(a-2) para a>2.
(l) Una variable aleatoria X con distribucin de Rayleigh tiene un parmetro
real positivo, a, toma valores no negativos y su pdf es
2
2
1
( ) exp
2
X
x x
f x
a a
| |
| |
| =
|
|
\
\
, x0
Su valor esperado es a(/2)
y su varianza es (2 /2)a
2
.

Las anteriores distribuciones son la base de algunos de los modelos ms
ampliamente usados y, por tal motivo, es importante que el lector aprenda a usar
estos modelos en los contextos adecuados en los que se pueden utilizar. A
continuacin damos algunos ejemplos de los cuatro primeros modelos
probabilsticos en redes de comunicaciones y demostramos los resultados obtenidos
respecto a la media y la varianza.

(a) A un multiplexor estadstico llegan paquetes de longitud fija en instantes
aleatorios e independientes de tiempo. En el instante de su llegada, el paquete b
encuentra el enlace de salida ocupado transmitiendo el paquete a, y una larga
cola de paquetes delante de l esperando ser transmitidos. Se mide el tiempo
que transcurre desde la llegada de b hasta que a termina de ser transmitido, X, o
tiempo residual de servicio de a. Como a y b no son paquetes consecutivos
(hubo un gran nmero de llegadas entre ellos) y como lo nico que conocemos
respecto al proceso de llegadas es que los tiempos entre llegadas son aleatorios e
independientes, parece razonable suponer que b no tiene ninguna preferencia
por llegar hacia el comienzo, el final o la mitad del tiempo de servicio de a. Y,
como el rango de posibles valores de X es el intervalo [0,T], donde T es el
tiempo de transmisin de un paquete, el principio de mxima incertidumbre
sugiere escoger la distribucin uniforme para X, f
X
(x) = 1/T para 0 x X. El
valor medio de esta distribucin es
2
0
0
1
2 2
T
T
t T
tdt
T T
= =
y el segundo momento
es
3 2
2
0
0
1
3 3
T
T
t T
t dt
T T
= =
, de manera que su varianza es (T

2
/3) (T
2
/4) = T
2
/12.
La figura 2.17 muestra la pdf, la media y la varianza del tiempo residual de
servicio de un paquete.
76
0 0.2 0.4 0.6 0.8 1
10
-1
10
0
10
1
10
2
Tiempo residual de Servicio
f
X
(
x
)
x
T = 0.01
T = 0.10
T = 1.00
0 2 4 6 8 10
0
1
2
3
4
5
6
7
8
9
Tiempo residual de Servicio
T
Promedio
Varianza

Figura 2.17 Funcin de densidad de probabilidad, promedio y varianza del tiempo
residual de servicio segn un modelo uniforme

(b) A un multiplexor llegan paquetes segn un proceso de Poisson como el descrito
en 33(d), es decir, la probabilidad de que hayan k llegadas en t segundos es
( )
[ ]
!
k
t
t
X k e
k

= = P . Sea T la variable aleatoria tiempo que toca esperar hasta
ver la prxima llegada. Consideremos el evento T>t, que corresponde al caso
en el que, desde que empezamos a ver, han transcurrido t segundos sin que haya
llegado an ningn paquete. La probabilidad de dicho evento es la misma
probabilidad de que en t segundos haya habido cero llegadas que, de acuerdo
con la suposicin de llegadas tipo Poisson, corresponde a P[T>t] = e
-t
. La
probabilidad del evento complementario es F
T
(t) = P[T t] = 1 - e
-t
. La
derivada de esta CDF es f
T
(t) =

e
-t
, que es la pdf de una variable aleatoria
exponencial. Su valor esperado es
2
0
0
1 1
[ ]
t t
t
E T te dt e

+ (
= = =
(

y su
2
do
momento es
( )
2 2 2 2
2
0 0
2
[ ] (2 / ) (2 / )
t t
E T t e dt t t e

(
= = + + =

, de
manera que su varianza es 1/
2
. Estos resultados refuerzan la idea de que el
parmetro es la tasa promedio de llegada de paquetes.
Obsrvese que esta variable aleatoria es el modelo probabilstico de los tiempos
entre llegadas cuando el trfico obedece a un proceso de Poisson que, como
dijimos, es el modelo de trfico preferencialmente utilizado en redes de
comunicaciones. Por consiguiente, la variable aleatoria exponencial es uno de lo
modelos probabilsticos ms usados en redes de comunicaciones. La razn de su
amplio uso es fcil de ver en la misma derivacin que acabamos de hacer:
ntese que medimos el tiempo que tardamos en ver la llegada del prximo
paquete sin tener en cuanto hace cunto tiempo lleg el paquete anterior! La
variable aleatoria exponencial es la nica variable continua que no tiene
memoria: la distribucin del tiempo que falta para ver la llegada del siguiente
paquete es la misma independientemente del tiempo que ha transcurrido desde
la llegada del paquete anterior. Esto es, la distribucin de T sigue siendo
77
f
T
(t)=e
-t
as hayamos empezado a medir desde que lleg el paquete anterior o
desde media hora despus de que lleg el paquete anterior (dado que en esa
media hora no ha llegado ningn paquete, por supuesto). Esta falta de memoria,
que demostraremos formalmente en los ejemplos al final de este captulo,
facilita enormemente el anlisis de redes de comunicacin, como veremos en el
captulo de teora de colas.
La figura 2.18 muestra la pdf, la media y la varianza del tiempo entre llegada de
paquetes cuando el nmero de llegadas en cierto perodo de tiempo se modela
mediante una distribucin de Poisson.
0 0.2 0.4 0.6 0.8 1
0
1
2
3
4
5
6
7
8
9
10
Tiempo Entre Llegadas
f
X
(
x
)
x
Lambda = 2
Lambda = 6
Lambda = 10
0 2 4 6 8 10
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
Tiempo Entre Llegadas
Lambda
Promedio
Varianza

Figura 2.18 Funcin de densidad de probabilidad, promedio y varianza del tiempo
entre llegada de paquetes segn un modelo uniforme

(c) Cuando una resistencia metlica se encuentra a una temperatura de T kelvins,
sus electrones se mueven de manera aleatoria generando un voltaje de ruido
trmico con nivel DC (media) cero y potencia (varianza) 2(kT)
2
/3h W, donde k
es la constante de Boltzmann y h es la constante de Planck (sugiriendo la
presencia de fenmenos termodinmicos cunticos). Supongamos, de una
manera muy simplificada, que el movimiento de cada electrn en una
resistencia R de 6.37 megohmios a 290 kelvins produce una cada de + voltios
con probabilidad 0.5 y - voltios con probabilidad 0.5 y que cada electrn se
mueve independientemente de los dems. Si existen n electrones libres en la
resistencia, el voltaje producido ser V = (2X n), donde X es una variable
aleatoria binomial con parmetros (n, ), correspondiente al nmero de
electrones que producen + voltios. Aplicando los resultados 32 y 34(c), el
valor medio del ruido trmico es cero y la varianza es n
2
. Si hacemos que n
crezca y disminuya de manera que n
2
= 2R(kT)
2
/3h = 1 V
2
, como predice la
fsica, la probabilidad de obtener un voltaje de (2k-n) voltios, con 0 k n, es
(
n
k
)2
-n
. Dividiendo esta probabilidad por 2 = 2/n, que es el mnimo cambio en
el voltaje, obtenemos la densidad de probabilidad que se muestra en la figura
2.19 (barras) y que se compara con la expresin
( )
2
1
( ) exp / 2
2
V
f v v
=
(lnea continua), conocida como Campana de Gauss, que es la pdf de una
variable Gaussiana con media 0 y varianza 1.
78
-4 -2 0 2 4
0
0.1
0.2
0.3
0.4
n = 2
-2 -1 0 1 2
0
0.1
0.2
0.3
0.4
n = 4
-4 -2 0 2 4
0
0.1
0.2
0.3
0.4
n = 6
-4 -2 0 2 4
0
0.1
0.2
0.3
0.4
n = 8
-4 -2 0 2 4
0
0.1
0.2
0.3
0.4
n = 10
-4 -2 0 2 4
0
0.1
0.2
0.3
0.4
n = 60

Figura 2.19 Funcin de densidad de probabilidad del ruido trmico producido por n
partculas, donde cada partcula genera +1/n voltios con probabilidad
o -1/n voltios con probabilidad . Se compara con la funcin de
densidad de probabilidad Gaussiana.

Claramente, a medida que consideramos ms y ms electrones, la pdf del ruido
trmico se hace ms cercana a la distribucin Gaussiana. Por supuesto, lo ms
razonable es considerar un nmero infinito de electrones, cada uno participando con
un infinitsimo del voltaje de ruido, de manera que el modelo Gaussiano resulta
apenas natural para modelar el ruido trmico en una resistencia metlica, tal como la
impedancia de entrada del amplificador de radiofrecuencia en un sistema de
comunicaciones.

Como en el ejemplo anterior, si X representa la suma de N componentes aleatorios
independientes en la que cada componente contribuye con una pequea fraccin de la
suma, la pdf de X se aproxima a la distribucin Gaussiana a medida que N aumenta,
independientemente de la distribucin de los componentes individuales! Este es el
teorema del lmite central propuesto por Laplace en 1810, que estudiaremos con
cuidado en 74. De hecho, dado el determinismo que imperaba en esa poca, la
aleatoriedad slo se usaba para modelar los errores experimentales de medicin que,
en trminos de observaciones astronmicas, Gauss asoci con su famosa campana
pues, evidentemente, se trataba de la suma de muchos errores debidos a la dispersin
y la difraccin de la luz con cada partcula de la atmsfera. Debido a la naturaleza de
estos modelos de error, la distribucin Gaussiana result la ms normal de las
distribuciones y, por esa razn, tambin se le conoce como distribucin normal,
N(,
2
).

El valor medio de una variable X~ N(,
2
) (que se lee normalmente distribuida con
parmetros y
2
) es
79
( )
2
2
1
2
1 1
[ ] exp exp( / 2)
2 2
x
y
x
E X x dx y y dy

| |
| |
|
= = +
|
|
\
\

2 2
/ 2 / 2
1
e e
2 2
y y
y dy dy

| |
= + =
|
\

Pues, en la ltima expresin, la primera integral es cero por tratarse de un funcin con
simetra impar y la expresin entre parntesis del segundo trmino es la probabilidad
total de una variable N(0,1). Para hallar la varianza de X partamos de la probabilidad
total:
2
1 1
exp 1
2 2
x
dx
| |
| |
|
=
|
|
\
\

Multipliquemos ambos lados por (2) y derivemos respecto a :
2
3
2
1
2
( )
exp 2
x x
dx
| |
| |
|
=
|
|
\
\

Y, finalmente, multipliquemos a ambos lados por
2
/(2) para obtener
( )
2
2 2
2
1 1
[ ] ( ) exp
2 2
x
V X E X x dx
| |
| |
| ( = = =
|

|
\
\

De donde los parmetros de una variable normal son su media y su varianza. La
figura 2.20 muestra algunas pdfs Gaussianas, donde se nota el efecto del valor
esperado como un parmetro de posicin y el efecto de la varianza
2
como un
parmetro de forma.
-10 -5 0 5 10 15
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
x
f
X
(
x
)
= 0,
2
= 1
= 0,
2
= 0.2
= 3,
2
= 3
= 3,
2
= 12
-10 -5 0 5 10 15
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
x
f
X
(
x
)
= 0,
2
= 1
= 0,
2
= 0.2
= 3,
2
= 3
= 3,
2
= 12

Figura 2.20 Funciones de densidad de probabilidad Gaussianas

(d) Las distribuciones que hemos visto hasta ahora se caracterizan porque la probabilidad
de que las variables aleatorias tomen valores muy grandes es muy pequea, de
manera que el efecto total de dichos valores es despreciable. Sin embargo, en redes
modernas de comunicaciones (como en todos los sistemas que recientemente se han
80
caracterizado como complejos), se hacen cada vez ms comunes algunas variables
aleatorias que pueden tomar valores muy grandes con probabilidad no despreciable,
de manera que, cuando finalmente se presentan estos valores, su efecto puede ser muy
significativo. Este es el caso del tamao de los archivos que se intercambian por la
red (la gran mayora son muy pequeos pero la pequea fraccin de archivos grandes
son los que consumen la mayora de recursos en la red), la duracin de una conexin
http (la gran mayora de conexiones son breves, pero las pocas conexiones duraderas
son las que ms ocupan a los servidores web), etc. De estas cantidades se dice que
tienen cola pesada (ver definicin 39 ms adelante), y una de las distribuciones ms
utilizadas para modelarlas probabilsticamente es la distribucin de Pareto, la cual se
us originalmente para describir la concentracin de riquezas (la gran mayora de
personas son pobres, pero las pocas personas ricas que existen poseen la gran mayora
de la riqueza del mundo)
11
. En efecto, la figura 2.21 compara una distribucin
exponencial con parmetro = 1/3 y una distribucin de pareto con parmetros a=1.5
y b=1, de manera que ambas tienen el mismo valor promedio =3, aunque la segunda
tiene varianza infinita. Un clculo muy simple muestra que la probabilidad de que la
variable de Pareto sea superior a n veces su valor esperado es [(a-1)/(na)]
a
= (3n)
-3/2
,
mientras que la probabilidad de que la variable exponencial sea superior a n veces su
valor esperado es exp(-n). Esto es, aunque la probabilidad de que la variable
exponencial supere la media es casi el doble de que la variable Pareto tambin lo
haga, la probabilidad de que la variable exponencial supera 9 veces la media es
menos de una millonsima de la probabilidad de que la variable Pareto tambin lo
haga!
0 10 20 30 40 50 60 70 80 90 100
10
-8
10
-6
10
-4
10
-2
10
0
p
d
f
,

f
X
(
x
)
x
Funciones de densidad de probabilidad Exponencial y Pareto
Exponencial
Pareto

Figura 2.21. Funciones de densidad de probabilidad Exponencial y de Pareto

El valor medio de una variable X~ Pareto(a,b) es
1
1
1
[ ] ( ) 1
1
1
a
a a a
b b
b
a
ab
a a b ab
E X x dx ab x dx x a
b x a
a

+
+
>
| |
= = = =
|

\

11
Este fenmeno de cola pesada (o ley-de-potencia en la cola de la distribucin) ha resultado tan ubicuo,
que muchos cientficos empiezan a considerar una explicacin general basada en la auto-organizacin en
puntos crticos al borde del caos o basada en la tolerancia altamente optimizada,
81
Y su segundo momento es
2
2 2 2
1
2
[ ] ( )
2
2
2
a
a
b
b
a ab
a a b ab
E X x dx x
a
b x a
a
+
+
> | |
= = =
|

\

De manera que la varianza es
2
2 2 2
2
[ ] [ ] [ ] ( 2)( 1)
2
ab
a
V X E X E X a a
a
>
= =

Obsrvese que, en el rango 1 < a 2, una v.a. de Pareto tiene media finita y varianza
infinita, de donde surgen las caractersticas de ley de potencia que hacen tan
interesante esta distribucin para representar los fenmenos de complejidad
observados recientemente en redes de comunicaciones.
(e) La distribucin de Cauchy (o de Lorentz, como se le conoce en fsica) resuelve la
ecuacin diferencial que describe algunos sistemas de resonancia forzada, tales como
el ensanchamiento de las lneas espectroscpicas debido a fenmenos de resonancia.
En redes de telecomunicaciones el inters en la distribucin de Cauchy es de tipo
estadstico porque, al ser semejante a la distribucin normal cerca al mximo de la
distribucin (el modo), como muestra la figura 2.22, la robustez de las pruebas de
hiptesis que asumen normalidad se puede probar con datos tomados de una
distribucin Cauchy. Adems, la razn X/Y de dos v.a. gaussianas independientes X y
Y tiene una distribucin Cauchy.
-10 -8 -6 -4 -2 0 2 4 6 8 10
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
x
f
X
(
x
)
Cauchy
Normal

Figura 2.22 La distribucin de Cauchy es la versin con cola pesada de la distribucin
Gaussiana

(f) Considere dos paquetes de longitud exponencialmente distribuida con promedio L
bits, independientes entre ellos, que empiezan a transmitirse simultneamente en dos
canales de C bps. Sea T
1
el tiempo de transmisin del primer paquete y T
2
el tiempo
de transmisin del segundo paquete. La diferencia entre los tiempos de transmisin, T
= T
1
T
2
, tiene la siguiente distribucin:
82
1 2
2 2 2 max(0, )
max(0, ) max(0, )
( ) ( ) ( )
2 2
t t s t t
T T T
t t
f t f t s f s ds e e ds e e e

= + = = =

Donde 1/ = L/C es el tiempo promedio de transmisin de un paquete. En efecto, ms
adelante veremos cmo la independencia de los eventos asociados con cada variable
hace que la pdf conjunta f
T1,T2
(t
1
,t
2
) sea el producto de las pdf marginales f
T1
(t
1
)f
T2
(t
2
),
de manera que la expresin anterior es, sencillamente, la evaluacin de la
probabilidad total (definicin 14). El valor medio de una variable Laplaciana es
[ ]
2
t
E T te dt
= =

(g)

36. Funcin caracterstica
37. Funcin generadora de momentos
38. Funcin generadora de probabilidad
39. Cola de una distribucin. Cola pesada
40. Desigualdad de Markov
41. Desigualdad de Chebyshev
42. Desigualdad de Chernov. Cotas de Chernov
43. Generacin de muestras pseudos-aleatorias con distintas distribuciones

Resumen

19. Dado un espacio de probabilidad (,Y , P), una variable aleatoria (va) es
una funcin X: R tal que, xR, el evento A(x) definido como { :
X() x} es un evento medible (A(x) Y )

20. Sea (, Y , P) un espacio de probabilidad sobre el cual se define una variable
aleatoria X: R. La Funcin Acumulativa de Distribucin de Probabilidad
de X es la funcin F
X
: RR definida como F
X
(x) = P({ : X() x}),
xR. Le diremos la CDF por la sigla en ingls de Cumulative Distribution
Function.

aleatoria X: R con CDF F
X
(). Entonces,
(a) La CDF es no-negativa: F
X
(x)0 xR
(b) La CDF es no-decreciente: si x
1
< x
2
entonces F
X
(x
1
) F
X
(x
2
)
(c) La CDF es acotada: F
X
(-) = 0, F
X
()=1.
(d) La CDF es continua por la derecha: F
X
(x
+
) = F
X
(x).

22. Sea F
X
() la CDF de alguna va X. Por simplicidad, denotemos P(XB) como P(B)
para cualquier BU (R). Entonces
83
(a) P((-,a]) = F
X
(a) aR
(b) P((a,)) = 1 F
X
(a) aR
(c) P((a,b]) = F
X
(b) F
X
(a) a,bR, a<b
(d) P([a]) = F
X
(a
+
) F
X
(a
-
) a R
(e) P((-,a)) = F
X
(a) P([a]) aR
(f) P([a, )) = 1 F
X
(a) + P([a]) aR
(g) P((a,b)) = F
X
(b) F
X
(a) P([b]) a,bR, a<b
(h) P([a,b]) = F
X
(b) F
X
(a) + P([a]) a,bR, a<b
(i) P([a,b)) = (F
X
(b) P([b]) (F
X
(a) P([a])) a,bR, a<b

23. Sea (, Y , P) un espacio de probabilidad en el que definimos una variable
aleatoria X con CDF F
X
(). Se dice que X es una variable aleatoria continua si
F
X
(x) es una funcin continua para todo xR. Se dice que X es una variable
aleatoria discreta si la imagen de es un subconjunto contable de R. En otro
caso, se dice que X es una variable aleatoria mixta.

24. Sea F
X
() la CDF de alguna va discreta X que toma sus posibles valores en el
conjunto contable {x
1
, x
2
, }. Entonces F
X
(x) se puede describir mediante el
tamao de los pasos en cada punto de discontinuidad, p
k
= P(X = x
k
) = F
X
(x
k
+
)-
F
X
(x
k
-
) porque
:
( )
k
X k
k x x
F x p
=

. La secuencia p
k
se denominada funcin de
distribucin de probabilidad (pmf por la sigla en ingls para probability mass
function).

25. Sea F
X
() la CDF de alguna va X. La funcin de densidad de probabilidad (pdf)
de X, f
X
(x), se define como la derivada de F
X
(x), esto es,
( ) ( ),
X X
d
f x F x x
dx
=

26. Sea f
X
() la pdf de alguna va X. Entonces

(a) f
X
(x)0 xR
(b) ( ) ( )
x
X X
F x f a da

(c) ( ) 1
X
f a da

Si X es una va discreta con posibles valores {x
1
, x
2
, x
3
,}, su pdf toma la forma
1
( ) ( )
X k k
k
f x p x x
=
=
, donde p
k
= P(X = x
k
) es la pmf de X y (x) es el impulso
de Dirac, de manera que, para variables discretas, las anteriores propiedades se
pueden reescribir en trminos de la pmf as:

(a) p
k
0
84
(b)
:
( )
k
X k
k x x
F x p
=

(c) 1
k
k
p =

27. Sea F
X
() la CDF de alguna va X. El Valor esperado de X se define como
[ ] ( )
X
E X xdF x =
. Al valor esperado tambin se le conoce como media,

esperanza o primer momento de X.

aleatoria X: R. Sea g:RR una funcin de los reales en los reales. Sea
Y:R una funcin del espacio muestral en los reales tal que a cada
le asigna la cantidad real Y()=g(X()). Si yR, el evento B(y)
definido como { : Y() y} es un evento medible (B(y) Y ), entonces
Y es una nueva variable aleatoria, funcin de la variable aleatoria X..

29. Sea F
X
donde g es una funcin de los reales en los reales. Entonces la CDF de Y, F
Y
(y),
satisface
1
( ) ( )
n
Y X i
i
dF y dF x
=
=

donde {x
1
, x
2
, , x
n
} son las races de la ecuacin y=g(x).

Si X ex continua con pdf f
X
() y g es una funcin diferenciable en todo punto, la
pdf de Y est dada por
1
1
( ) ( )
'( )
n
Y X i
i i
f y f x
g x
=
=

donde g(x) es la derivada de g(x). Si X es una va discreta, la pmf de Y est
dada por
: ( )
( ) ( )
j i
j i
i y g x
Y y X x
=
= = =
P P

30. Sea F
X
donde g es una funcin de los reales en los reales. Entonces el valor esperado
de Y est dado por
[ ] ( ) ( )
X
E Y g x dF x =

31. Sea X una va con valor esperado E[X]. La varianza de X, V[X], se define como
V[X] = E[(X E[X])
2
]. La desviacin estndar de X,
X
, se define mediante la
relacin V[X] =
X
2
.

85
32. Propiedades del Valor Esperado y la Varianza de una Variable
Aleatoria

32. Sea X una variable aleatoria con valor esperado E[X] y varianza V[X] y c una
constante entre los reales. Entonces,
(a) E[X+c] = E[X]+c
(b) E[c X] = c E[X]
(c) V[X+c] = V[X]
(d) V[c X] = c
2
V[X]
(e) V[X] = E[X
2
] E[X]
2

33. El n-simo momento de una variable aleatoria X es E[X
n
]. El n-simo momento
central es E[(X-E[X])
n
].

34. Las siguientes son algunas variables aleatorias discretas.
(a) Una variable aleatoria de Bernoulli con parmetro p[0,1] toma dos
posibles valores, X{0,1}, con P[X=1]=1-P[X=0]=p. Su valor esperado es p
y su varianza es p(1-p).
(b) Una variable aleatoria geomtrica con parmetro p[0,1] toma valores
enteros positivos, X{1,2,3,}, de manera que P[X=k]=p
k-1
(1-p). Su valor
esperado es 1/(1-p) y su varianza es p/(1-p)
2
.
(c) Una variable aleatoria binomial con parmetros (n,p), donde n es un entero
positivo y p un real en el intervalo [0,1], toma valores enteros no negativos
en el rango {0,1,2,,n}, de manera que [ ] (1 )
k n k
n
k
X k p p
| |
= =
|
\
P . Su
valor esperado es np y su varianza es np(1-p).
(d) Una variable aleatoria de Poisson con parmetro >0 toma valores enteros
no negativos, X{0,1,2,}, de manera que [ ]
!
k
X k e
k

= = P . Tanto su
valor esperado como su varianza son iguales a .
(e) Una variable aleatoria uniforme discreta con parmetros (m,n), donde m y
n son enteros tales que m n, toma valores en el rango de nmeros enteros
{m, m+1, m+2,, n-1, n}, de manera que P[X=k] = 1/(n-m+1) si k est en el
rango mencionado. Su valor esperado es (m+n)/2 y su varianza es (n-m)(n-
m+2)/12.

35. Las siguientes son algunas variables aleatorias continuas.
1. Una variable aleatoria X uniformemente distribuida tiene parmetros reales
(a,b), toma valores en el intervalo [a,b], y su pdf es f
X
(x) = 1/(b-a), x[a,b].
Su valor esperado es (a+b)/2 y su varianza es (b-a)
2
/12.
2. Una variable aleatoria X exponencialmente distribuida tiene un parmetro
real positivo, >0, toma valores entre los reales no negativos, y su pdf es
f
X
(x)= e
-x
, x0. Su valor esperado es 1/ y su varianza es 1/
2
.
86
3. Una variable aleatoria X Normalmente (o Gaussianamente) distribuida
tiene parmetros (,
2
), donde es un nmero real y
2
es un nmero real
no negativo, toma valores en los reales, y su pdf es
2
1 1
( ) exp
2 2
X
x
f x

| |
| |
| =
|
|
\
\
, xR
Su valor esperado es y su varianza es
2
.
4. Una variable aleatoria X con distribucin de Pareto tiene parmetros
positivos (a,b), toma valores en los reales mayores o iguales a b, y su pdf es
1
( )
X
a
a b
f x
b x
+
| |
=
|
\
, xb
Si a>1, su valor esperado es ab/(a-1); si no, su valor esperado es infinito. Si
a>2, su varianza es ab
2
/((a-2)(a-1)
2
); si no, su varianza es infinita.
5. Una variable aleatoria X con distribucin de Cauchy tiene parmetros
reales (a,b), b>0, toma valores reales, y su pdf es
2 2
1
( )
( )
X
b
f x
x a b
=
+
, xR
Ni la media ni la varianza de la distribucin de Cauchy estn definidas.
6. Una variable aleatoria X con distribucin de Laplace tiene un parmetro
real positivo a, toma valores reales, y su pdf es
| |
( )
2
a x
X
a
f x e
= , xR
Su valor esperado es cero y su varianza es 2a
-2
.
7. Una variable aleatoria X con distribucin Gamma tiene parmetros reales
positivos (a,), toma valores reales no negativos y su pdf es
( )
1
1
0
( ) , 0 ( ) ( )
( )
a
x
a s
X
x e
f x x donde a s e ds funcin Gamma
a

= =

Su valor esperado es a/ y su varianza es a/
2
.
8. Una variable aleatoria X con distribucin de Erlang tiene parmetros (n,),
donde n es un entero positivo y es un real positivo (es la particularizacin
de una variable aleatoria Gamma con parmetro a entero (a=n)). Toma
valores reales no negativos y su pdf es
1
( )
( )
( 1)!
n x
X
x e
f x
n
, x0
Su valor esperado es n/ y su varianza es n/
2
.
9. Una variable aleatoria X con distribucin de Weibull tiene dos parmetros
(a,), ambos reales positivos,toma valores reales no negativos y su pdf es
1
( ) exp( ( ) )
a a a
X
f x a x x
= , x0
Su valor esperado es ((a+1)/a)/ y su varianza es ((((a+2)/a) -
((a+1)/a))
2
/
2
.
10. Una variable aleatoria X con distribucin Chi-cuadrado (
2
) tiene un
parmetro real positivo, a, toma valores reales no negativos y su pdf es
87
( )
/ 2 1
/ 2
exp / 2
( )
2 ( / 2)
a
X a
x x
f x
a
, x0
Su valor esperado es a y su varianza es 2a.
11. Una variable aleatoria X con distribucin de t de Student tiene un
parmetro real positivo a, toma valores reales y su pdf es
2
1
2
1
2
( ) 1
2
X
a
a
x
f x
a a
a
+
+ | |
|
| |
\
= +
|
| |
\
|
\
, xR
Su valor esperado es 0 y su varianza es a/(a-2) para a>2.
12. Una variable aleatoria X con distribucin de Rayleigh tiene un parmetro
real positivo, a, toma valores no negativos y su pdf es
2
2
1
( ) exp
2
X
x x
f x
a a
| |
| |
| =
|
|
\
\
, x0
Su valor esperado es a(/2)
y su varianza es (2 /2)a
2
.

88
III. Vectores Aleatorios

44. Vector aleatorio bidimensional

Sea (, Y , P) un espacio de probabilidad sobre el cual se definen dos
funciones X:R y Y:R. [X() Y()]
T
es un vector aleatorio
bidimensional si (x, y)R
2
, el evento { : X() x}{ : Y() y} =
{ : X() x, Y() y} es un evento medible

45. Funcin de distribucin acumulativa conjunta
46. Propiedades de la funcin de distribucin acumulativa conjunta
47. Funcin de distribucin acumulativa marginal
48. Funcin de densidad de probabilidad conjunta
49. Propiedades de la funcin de densidad de probabilidad conjunta
50. Funcin de densidad de probabilidad marginal
51. Funcin de distribucin de probabilidad conjunta
52. Propiedades de la funcin de distribucin de probabilidad conjunta
53. Funcin de distribucin de probabilidad marginal
54. Funcin de distribucin acumulativa condicional
55. Funcin de densidad de probabilidad condicional
56. Funcin de distribucin de probabilidad condicional
57. Probabilidad total
58. Independencia de dos variables aleatorias
59. Combinacin lineal de dos variables aleatorias
60. Suma de variables aleatorias independientes. La suma y la integral de convolucin.
61. Funcin de dos variables aleatorias
62. Momentos conjuntos de dos variables aleatorias. Covarianza, coeficiente de
correlacin, correlacin.
63. Ortogonalidad. Interpretacin geomtrica
64. Esperanza condicional
65. Extensiones a ms de dos variables.
66. Principio de ortogonalidad.
67. Prediccin lineal. Ecuaciones normales.
68. Estimacin de mxima verosimilitud
69. Generacin de muestras pseudos-aleatorias de vectores aleatorios

89

IV. Secuencias de Variables Aleatorias


Doscientos Concept Os

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Doscientos Concept Os

Transféré par

Droits d'auteur :

Formats disponibles

200 Conceptos

. Ms an, como en {0,1}

, el mnimo campo- de eventos que

es un campo- de subconjuntos de que

|=64. Sin embargo Y = (V) es el

, P). El conocimiento inicial que tenemos sobre la medida de probabilidad P

P P , de manera que la regla de bayes

, el mnimo campo- de eventos que contiene a

. En este caso, dependiendo de cmo se haya definido el espacio

1 . Por ltimo, en el ejemplo 17, algunas variables

, tanto para variables continuas como para variables discretas o mixtas,

P es, simplemente, una notacin

, segn corresponda. Por supuesto, en muchas ocasiones ser necesario hacer la

. Al valor esperado tambin se le conoce como media,

. Si X es discreta, esta suma se interpreta como

, de manera que su varianza es V[X] = E[X

, de manera que su varianza es (T

. Al valor esperado tambin se le conoce como media,

Vous aimerez peut-être aussi