Completo Combinatoria

UNQ/Dip.CyT/Probabilidades y Estadstica/Primer Cuatrimestre de 2007 p ag.
1
Combinatoria
1 Principios basicos
La combinatoria es una disciplina que se ocupa de estudiar tecnicas de conteo y enumeracion de
conjuntos, en especial cuando la cantidad de elementos que poseen es muy grande (de modo que una
lista extensiva sera imposible o impractica). Aplicada a la teora de probabilidades permite en muchos
casos determinar la cantidad de elementos de un espacio muestral nito y la cantidad de elementos de
alg un evento de interes.
Presentamos dos reglas basicas de la combinatoria:
Principio de la multiplicaci on
Supongamos que un experimento consta de dos etapas. Si como resultado de la primera etapa pueden
darse n resultados posibles y si, independientemente del resultado particular de la primera etapa, la
segunda etapa puede dar lugar a m resultados posibles, entonces la cantidad de posibles resultados
del experimento es n m
El principio se extiende de manera natural a un experimento en r etapas, donde la i-esima etapa
tiene una cantidad n
i
de posibles resultados (independientemente de los resultados particulares
de las etapas anteriores), donde i = 1, 2, , r. Entonces la cantidad de posibles resultados del
experimento es
r
i=1
n
i
Ejemplo: Una caja contiene 5 cartas distintas de una baraja espa nola. Se extraen dos cartas al azar.
Si se realiza la extraccion con reposicion De cuantas maneras distintas es posible realizarlo? Rta: 5
5 = 25 maneras distintas.
Si se realiza la extraccion sin reposicion De cuantas maneras distintas es posible realizarlo? Rta: 5
Principio de la adici on
Un experimento puede llevarse a cabo de dos formas. Cuando se lo realiza de una forma conduce
a n resultados posibles. Cuando se lo realiza de la otra forma conduce a m resultados posibles.
Entonces eligiendo una u otra forma para realizarlo, el experimento da lugar a n + m resultados
posibles.
El principio de la adicion tambien se generaliza a un experimento que se realiza de una entre r maneras
posibles, siendo n
i
la cantidad de posibles resultados cuando se lo realiza de la i-esima forma, donde
i = 1, 2, , r. Entonces la cantidad de posibles resultados del experimento es
r
i=1
n
i
Ejemplo: Para viajar de Buenos Aires a San Pablo se puede optar por tres compa nas aereas o por
cinco empresas de omnibus Cuantas maneras diferentes existen para contratar el viaje? Rta: 3 +
2 Variaciones
Se tienen n objetos diferentes y se quiere ordenar k de ellos en la, siendo k n. Cada posible
ordenamiento se denomina una variacion de los n objetos tomados de a k. Para calcular la cantidad
total de variaciones utilizamos el principio de la multiplicacion: Para el primer lugar de la la hay
n posibles maneras de llenarlo con un objeto. Independientemente de cual sea el objeto que ocupe
el primero lugar, para llenar el segundo lugar de la la disponemos ahora de n 1 objetos dado que
uno de los objetos ya fue utilizado para cubrir el primer lugar. Independientemente de cuales hayan
sido los objetos que llenan los dos primeros lugares de la la, para cubrir el tercer lugar disponemos de
n 2 objetos pues dos ya han sido utilizados. As sicesivamente de modo que aplicando el principio
Prof.J.Gast on Argeri 1
UNQ/Dip.CyT/Probabilidades y Estadstica/Primer Cuatrimestre de 2007 p ag. 2
de la multiplicacion, la cantidad total de posibles variaciones de n tomados de a k resulta ser:
(n)
k
= n (n 1) (n 2) [n (k 1)] =
n!
(n k)!
Ejemplo: En un club se postulan cinco miembros, digamos A,B,C,D y E, para ocupar las posiciones de
presidente y secretario. Para identicar todas las posibles maneras de elegir entre ellos un presidente
y un secretario, formamos las variaciones de 5 tomadas de a 2. En este caso la la tiene en primer
lugar al presidente y en segundo lugar al secretario. El listado de las 5 4 = 20 variaciones es el
siguiente:
AB AC AD AE
BA BC BD BE
CA CB CD CE
DA DB DC DE
EA EB EC ED
3 Permutaciones
Un caso particular de variaciones de n objetos tomados de a k se presenta cuando k = n. En tal
caso las variaciones reciben el nombre de permutaciones de n objetos y corresponden a las diferentes
maneras de ordenar en la n objetos diferentes. La cantidad de permutaciones de n objetos resulta
entonces ser:
n (n 1) (n 2) [n (n 1)] = n!
Ejemplo: La cantidad de n umeros de cuatro cifras que pueden formarse a partir de los dgitos
3, 5, 6, 8 sin repetir ninguno de ellos resulta ser 4! = 24. Damos un listado de dichos n umeros:
3568 5368 5638 5683
3586 5386 5836 5863
3658 6358 6538 6583
3685 6385 6835 6853
3856 8356 8536 8563
3865 8365 8635 8653
4 Combinaciones
Dados n objetos diferentes, cada conjunto formado por k de los n elementos se dice una combinacion
de los n elementos tomados de a k. La diferencia entre variaciones y combinaciones reside en el hecho
que las combinaciones no tienen en cuenta el orden relativo entre los elementos (ya no podemos pensar
en un la). Por ejemplo, si se tienen cuatro objetos A,B,C y D las posibles combinaciones de a 2
son:
AB AC AD
BC BD
CD
Comparese esto con las posibles variaciones de 4 tomados de a 2:
AB BA AC CA AD DA
BC CB BD DB
CD DC
Para determinar la cantidad de combinaciones de n tomados de a k procedemos de modo indirecto del
modo siguiente: Anotemos provisoriamente x a dicha cantidad. Para una dada combinacion existen
k! maneras diferentes de ordenar sus elementos en una la. Ademas, combinaciones diferentes daran
lugar a las con diferentes conguraciones, dado que diferiran en al menos uno de los objetos presentes.
De esta manera, tomando todas las posibles combinaciones y ordenando en la los k objetos en cada
una de ellas, obtendremos la totalidad de posibles ordenamientos en la de k de los n objetos, es
decir la totalidad de variaciones de n tomados de a k. Por lo tanto: x k! =
n!
(nk)!
Despejando x resulta que la cantidad de posibles combinaciones de n objetos tomados de a k,
n umero que representaremos con el smbolo
_
n
k
_
es:
_
n
k
_
=
n!
k!(n k)!
Este n umero se denomina n umero combinatorio n sobre k.
En el ejemplo precedente n = 4 , k = 2 de modo que la cantidad de posibles combinaciones es
_
4
2
_
=
4!
2!2!
=
4!
4
= 3! = 6
Propiedad 1
_
n
k
_
=
_
n
n k
_
Dem:
La demostracion queda a cargo del lector.
Propiedad 2
_
n
j 1
_
+
_
n
j
_
=
_
n + 1
j
_
Dem:
_
n
j1
_
+
_
n
j
_
=
n!
(j1)!(nj+1)!
+
n!
j!(nj)!
=
=
n!
(j1)!(nj)!(nj+1)
+
n!
(j1)!j(nj)!
=
=
n!
(j1)!(nj)!
_
1
nj+1
+
1
j
_
=
=
n!
(j1)!(nj)!
j+nj+1
j(nj+1)
=
=
n!(n+1)
(j1)!j(nj)!(n+1j)
=
(n+1)!
j!(n+1j)!
=
_
n+1
j
_
5 Binomio de Newton
Dados n umeros a, b R sabemos que el desarrollo del cuadrado del binomio a +b viene dado por:
(a +b)
2
= a
2
+ 2ab +b
2
Podemos reescribir este desarrollo como:
(a +b)
2
=
_
2
0
_
a
0
b
2
+
_
2
1
_
a
1
b
1
+
_
2
2
_
a
2
b
0
=
2
k=0
_
2
k
_
a
k
b
2k
Analogamente para el desarrollo del cubo de un binomio:
(a +b)
3
= a
3
+ 3a
2
b + 3ab
2
+b
3
que tambien puede reescribirse como:
(a +b)
3
=
_
3
0
_
a
0
b
3
+
_
3
1
_
a
1
b
2
+
_
3
2
_
a
2
b
1
+
_
3
3
_
a
3
b
0
=
3
k=0
_
3
k
_
a
k
b
3k
La formula del binomio de Newton generaliza lo anterior al desarrollo de cualquier potencia natural
de un binomio y se expresa de la siguiente manera.
Teorema 1 (F ormula del binomio de Newton)
Para cualesquiera n umeros a, b R y cualquier n umero n N se verica:
(a +b)
n
=
n
k=0
_
n
k
_
a
k
b
nk
Dem:
Por induccion respecto de n demostraremos que la proposicion
p(n) : a, b R, (a +b)
n
=
n
k=0
_
n
k
_
a
k
b
nk
es verdadera para todo n umero natural n.
Paso base: Probemos que p(1) es V.
p(1) : a, b R, (a +b)
1
=
1
k=0
_
1
k
_
a
k
b
1k
El miembro izquierdo de la igualdad es simplemente a +b. El miembro derecho es:
_
1
0
_
a
0
b
1
+
_
1
1
_
a
1
b
0
= b +a
de modo que p(1) es verdadera.
(HI)Hipotesis inductiva: Supongamos que p(n) es verdadera.
Ahora probaremos que necesariamente p(n + 1) es verdadera, bajo el supuesto (HI). Para ello
procedemos as:
(a +b)
n+1
= (a +b)(a +b)
n
= (a +b)
n
k=0
_
n
k
_
a
k
b
nk
=
= a
n
k=0
_
n
k
_
a
k
b
nk
+b
n
k=0
_
n
k
_
a
k
b
nk
=
=
n
k=0
_
n
k
_
a
k+1
b
nk
+
n
k=0
_
n
k
_
a
k
b
nk+1
=
=
n+1
j=1
_
n
j1
_
a
j
b
nj+1
+
n
j=0
_
n
j
_
a
j
b
nj+1
=
=
_
n
n
_
a
n+1
+
n
j=1
_
n
j1
_
a
j
b
nj+1
+
_
n
0
_
b
n+1
+
n
j=1
_
n
j
_
a
j
b
nj+1
=
=
_
n
0
_
b
n+1
+
_
n
j=1
_
_
n
j1
_
+
_
n
j
_
_
a
j
b
nj+1
_
+
_
n
n
_
a
n+1
=
=
_
n
0
_
b
n+1
+
n
j=1
_
n+1
j
_
a
j
b
nj+1
+
_
n
n
_
a
n+1
=
=
_
n+1
0
_
a
0
b
n+1
+
n
j=1
_
n+1
j
_
a
j
b
nj+1
+
_
n+1
n+1
_
a
n+1
b
0
=
=
n+1
j=0
_
n+1
j
_
a
j
b
n+1j
que muestra que p(n + 1) es verdadera. Luego, por induccion completa p(n) es verdadera para
todo n N
6 Permutaciones con repetici on
Supongamos que queremos determinar cuantas palabras de cuatro letras pueden formarse con las le-
tras de la palabra AZAR. Aqu entendemos por palabra cualquier secuencia que utilice las cuatro
letras de AZAR, tenga o no signicado en alg un lenguaje. Para averiguar cuantas pueden formarse,
digamos x (a determinar), consideremos el siguiente razonamiento: Si bien la palabra AZAR posee
solo tres letras diferentes, a saber A,Z,R, momentaneamente distingamos las dos apariciones de la
letra A, por ejemplo podramos pintar de dos colores diferentes las dos letras A. En tal caso ya
sabemos que la cantidad de posibles ordenamientos de las cuatro letras distintas es 4!. Ahora bien,
cada ordenamiento de los x (que no distinguen entre ambas A) da lugar de manera natural a 2!
ordenamientos (que s distinguen entre ambas A), por simple permutacion de las dos letras A entre
s. Por lo tanto podemos armar que: x 2! = 4! Se deduce que: x =
4!
2!
El mismo tipo de razonamiento se generaliza cuando hay varias letras (objetos) repetidas. For-
malmente: Si se tienen r objetos diferentes de los cuales se va a repetir el primero n
1
veces,
el segundo n
2
veces, , el r-esimo n
r
veces, la cantidad total de conguraciones en la de
n = n
1
+ +n
r
objetos con las repeticiones especicadas anteriormente es:
(n
1
+n
2
+ +n
r
)!
n
1
! n
2
! n
r
!
El n umero anterior se denomina coeciente multinomial y suele anotarse tambien como
_
n
n
1
, n
2
, , n
r
_
=
(n
1
+n
2
+ +n
r
)!
n
1
! n
2
! n
r
!
Por ejemplo, con las letras de la palabra AZAR pueden formarse
4!
2!
= 12 palabras diferentes. Para
convencernos las listamos todas:
AZAR AZRA AAZR
AARZ ARZA ARAZ
ZAAR ZARA ZRAA
RAAZ RAZA RZAA
Teorema 2 (Teorema multinomial) Para cualesquiera n umeros x
1
, x
2
, , x
r
R y cualquier
n umero n N se verica
(x
1
+x
2
+ +x
r
)
n
=
0k
1
, ,k
r
n
k
1
++k
r
=n
_
n
k
1
, , k
r
_
x
k
1
1
x
k
r
r
7 Distribuci on de bolillas en urnas
Diversos problemas de ndole combinatorio pueden representarse mediante problemas modelo basa-
dos en disposiciones de bolillas en urnas.
7.1 Disposiciones de n bolillas distintas en r urnas distintas
7.1.1 Mas de una bolilla es admisible por urna
En este caso simplemente se trata de un experimento en n etapas: La primera etapa consiste en
ubicar la primera bolilla en alguna de las r posibles urnas. La segunda etapa consiste en colocar la
segunda bolilla en alguna de las r urnas a un disponibles, etc. De manera que la cantidad de posibles
disposiciones es en total
r r r
. .
n
= r
n
7.1.2 A lo sumo una bolilla es admisible por urna
Este caso exige que n r. Para la primera bolilla hay r posibles urnas donde ubicarla, para la
segunda bolilla hay solo r 1 urnas vacas para ubicarla, para la tercer bolilla hay solo r 2 urnas
vacas disponibles, etc. De modo que la cantidad total de posibles disposiciones es r (r 1) (r
2) [r (n 1)] es decir igual al n umero de variaciones de r tomados de a n.
7.2 Disposiciones de n bolillas identicas en r urnas distintas
7.2.1 No pueden quedar urnas vacas
En este caso debe ser n r pues de lo contrario necesariamente quedaran urnas vacas. Podemos
asimilar este problema de combinatoria representando las bolillas indistinguibles por asteriscos y
las separaciones entre urnas mediante barras | As por ejemplo una conguracion con tres urnas y
cinco bolillas podra representarse por: | | Esto quiere simbolizar de alg un modo que en la
primera urna hay exactamente dos bolillas, en la segunda urna exactamente una bolilla y en la tercera
urna exactamente dos bolillas.
Si disponemos las bolillas en una hilera, ubicar las n bolillas identicas en las r urnas diferentes
equivale a ubicar r 1 separadores | en los n 1 espacios entre bolillas consecutivas. Esto
puede realizarse de
_
n1
r1
_
maneras distintas.
Ejemplo: Distribuir seis bolillas identicas en tres urnas diferentes, sin permitir urnas vacas. Listamos
las posibilidades:
| | | | | | | | | |
| | | | | | | | | |
Ejemplo: Hallar todas las descomposiciones del n umero 8 como suma de tres n umeros naturales.
Considerar que el orden relativo de los tres terminos en la descomposicion es relevante.
Se tendran las siguientes posibles descomposiciones:
1|1|111111 1|11|11111 1|111|1111 1|1111|111 1|11111|11 1|111111|1 11|1|11111
1 + 1 + 6 1 + 2 + 5 1 + 3 + 4 1 + 4 + 3 1 + 5 + 2 1 + 6 + 1 2 + 1 + 5
11|11|1111 11|111|111 11|1111|11 11|11111|1 111|1|1111 111|11|111 111|111|11
2 + 2 + 4 2 + 3 + 3 2 + 4 + 2 2 + 5 + 1 3 + 1 + 4 3 + 2 + 3 3 + 3 + 2
111|1111|1 1111|1|111 1111|11|11 1111|111|1 11111|1|11 11111|11|1 111111|1|1
3 + 4 + 1 4 + 1 + 3 4 + 2 + 2 4 + 3 + 1 5 + 1 + 2 5 + 2 + 1 6 + 1 + 1
Es decir un total de
_
81
31
_
=
_
7
2
_
=
7!
2!5!
= 21 descomposiciones.
7.2.2 Pueden quedar urnas vacas
Tambien aqu podemos pensar en bolillas y separadores entre urnas |, pero a diferencia de la
situacion previa, en este caso los separadores pueden quedar contiguos, como por ejemplo en la con-
guracion siguiente: || | | que corresponde a n = 6 bolillas identicas en r = 5 urnas
distintas, donde hay 2 bolillas en la primer urna, la segunda urna esta vaca, 1 bolilla en la tercer
urna, 3 bolillas en la cuarta urna y la quinta urna esta vaca.
Se trata pues de disponer en la n smbolos y r 1 smbolos | Es decir en un total de
n + r 1 lugares. Luego, la cantidad de posibles disposiciones es
_
n+r1
n
_
=
_
n+r1
r1
_
puesto
que basta con elegir los lugares que seran ocupados por (o equivalentemente elegir los lugares a ser
ocupados por |).
Ejemplo: Se desea invertir un capital de $20.000 en cuatro posibilidades de inversion (negocios). Se
desea ademas que las inversion se realice en m ultiplos de $1.000
a) Si se quiere invertir la totalidad del capital, de cuantas formas diferentes puede realizarse?
Si representa una inversion de $1.000 el problema se asimila al de n = 20 bolillas y
r = 4 urnas y donde pueden quedar urnas vacas (negocios en los cuales se decide no invertir
ningun monto). Entonces la cantidad total de maneras posibles de invertir el capital de $20.000 es
_
20+41
20
_
=
_
23
20
_
= 1.771
b) Si se quiere invertir la totalidad o parte del capital, de cuantas formas diferentes puede realizarse?
El analisis es similar al anterior solo que ahora no es obligatorio invertir todo el capital disponible.
Podemos entonces pensar que la parte del capital que se decida no invertir es un quinto negocio
posible. De este modo se trata de un problema de disposicion de n = 20 bolillas en r = 5 urnas y
donde no pueden quedar urnas vacas. Hay un total de
_
20+51
20
_
=
_
24
20
_
= 10.626 posibles maneras
de invertir el capital (Una de dichas maneras consiste en no invertirlo en absoluto).
Teora axiomatica de probabilidades
8 Experimentos aleatorios - Espacio muestral - Eventos
Denominaremos experimento aleatorio a todo proceso (procedimiento, experimento, etc.) que con-
duzca a un resultado que cumpla con las siguientes caractersticas:
El proceso es repetible en identicas condiciones una cantidad ilimitada de veces. Cada realizacion
particular del proceso conduce a un unico resultado.
Se conoce a priori (es decir previamente a cualquier realizacion particular) todos los posibles
resultados del experimento.
El resultado del experimento esta sujeto al azar. Es decir que es imposible determinar a priori
(es decir previamente a cualquier realizacion particular) cual de todos los resultados posibles del
experimento ocurrira.
Denici on 1 Llamaremos espacio muestral asociado a un experimento aleatorio a cualquier conjunto
que caracterice todos los posibles resultados de dicho experimento. El espacio muestral frecuentemente
se anota mediante la letra griega omega may uscula .
En este contexto caracterizar signica que cada elemento del espacio muestral se corresponde con uno
y solo un posible resultado del experimento y a todo posible resultado del experimento le corresponde
uno y solo un elemento del espacio muestral. En este sentido podramos decir que un espacio muestral
es una forma de codicar los posibles resultados del experimento.
Ejemplo:
1) Se arroja un dado una vez y se observa el n umero que sale. Claramente es un experimento
aleatorio pues cada realizacion particular conduce a un unico n umero saliente (es imposible que
arrojemos el dado y salgan simultaneamente dos o mas n umeros) y ademas:
El experimento es reproducible en identicas condiciones una cantidad arbitraria de veces
(Al menos una version idealizada del experimento, por ejemplo con un dado imaginario que
nunca se desgasta o deforma).
Antes de arrojar el dado se sabe de antemano que los posibles resultados son los n umeros
1, 2, 3, 4, 5, 6.
El resultado del lanzamiento es al azar puesto que es imposible determinar el n umero que
saldra, con anterioridad al lanzamiento.
Un espacio muestral asociado a este experimento puede ser = {1, 2, 3, 4, 5, 6}
2) Se arroja un dado dos veces y se anota el puntaje total (suma de los n umeros obtenidos en ambos
lanzamientos). En este caso un espacio muestral es = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}
3) Se arroja un dado hasta obtener por primera vez un 1 y se registra la cantidad de lanzamientos
necesarios. En este ejemplo un espacio muestral es = N
4) Desde una distancia de 3 metros se arroja un dardo a un blanco circular de radio 0, 25 metros.
Suponiendo que el dardo da en el blanco, se registra la distancia desde el punto de impacto hasta
el centro del blanco. En este caso un espacio muestral es = [0 ; 0, 25]
Un conjunto innito A se dice numerable si sus elementos pueden ponerse en correspondencia 1-1
con los n umeros naturales, es decir si existe alguna funcion N
f
A con las propiedades siguientes:
i) a A, n N tal que a = f(n)
ii) m, n N m = n f(m) = f(n)
En tal caso la funcion f determina una enumeracion de A. Si en lugar de f(n) anotamos
a
n
entonces los elementos de A son precisamente los de la secuencia innita a
1
, a
2
, a
3
, . Es
decir A = {a
1
, a
2
, a
3
, }. Un conjunto que o bien sea nito o bien sea innito numerable se dice
un conjuto a lo sumo numerable. Si se omite la condicion ii) pero conservando la i), se dice que f es
una funcion suryectiva o sobre A. Se puede demostrar que A es a lo sumo numerable sii existe alguna
funcion de N sobre A.
Ejemplo: Mostremos que los siguientes conjuntos innitos son numerables: N, Z, 2N, Q
Basta considerarla funcion identidad N
f
N
Por ejemplo tomando la funcion N
f
Z dada por f(n) = (1)
n
_
n
2
Tomando N
f
2N dada por f(n) = 2n
En este caso es mas engorroso encontrar una formula expltica para una fucion de N sobre Q.
Es mas secillo presentar un graco ilustrativo de tal funcion:
0
1/1
//
1/2
||z
z
z
z
z
z
z
z
1/3
//
1/4
||z
z
z
z
z
z
z
z
1/5
//

}}{
{
{
{
{
{
{
{
{
2/1
//
2/2
<<
z
z
z
z
z
z
z
z
2/3
||z
z
z
z
z
z
z
z
2/4
<<
z
z
z
z
z
z
z
z
2/5
||z
z
z
z
z
z
z
z

3/1
3/2
oo
3/3
<<
z
z
z
z
z
z
z
z
3/4
||z
z
z
z
z
z
z
z
3/5
==
{
{
{
{
{
{
{
{
{

}}{
{
{
{
{
{
{
{
{
4/1
//
4/2
<<
z
z
z
z
z
z
z
z
4/3
||z
z
z
z
z
z
z
z
4/4
<<
z
z
z
z
z
z
z
z
4/5
||z
z
z
z
z
z
z
z

5/1
5/2
oo
5/3
<<
z
z
z
z
z
z
z
z
5/4
}}{
{
{
{
{
{
{
{
{
{
5/5
==
{
{
{
{
{
{
{
{
{

~~|
|
|
|
|
|
|
|
|
|
.
.
.
// .
.
.
==
{
{
{
{
{
{
{
{
{
{
.
.
.
.
.
.
==
{
{
{
{
{
{
{
{
{
{
.
.
.
Vamos a distinguir dos tipos de espacios muestrales de acuerdo a su cardinalidad (es decir su cantidad
de elementos):
_
_
_
Finito o innito numerable
Innito no numerable
En los ejemplos 1) y 2) los espacios muestrales considerados son nitos. En el ejemplo 3) el espacio
muestral es innito numerable. En el ejemplo 4) el espacio muestral es innito no numerable.
Momentaneamente llamaremos evento o suceso a cualquier subconjunto del espacio muestral . Mas
adelante precisaremos este concepto. Dos eventos de particular interes son el evento (denominado
evento seguro o cierto) y el evento (denominado evento vaco o imposible). Los elementos del
espacio muestral dan lugar a los denominados eventos simples, que son los eventos de la forma {}.
Todo evento no simple se dice compuesto. Los eventos suelen anotarse empleando las primeras letras
del alfabeto en may usculas: A, B, C, D, etc.
Ejemplo:
1) Lanzamiento de un dado. Podemos considerar los siguientes eventos:
A = sale n umero par = {2, 4, 6}
B = sale m ultiplo de tres = {3, 6}
C = sale 3 = {3} (suceso elemental)
2) Lanzamiento de dos dados. Podemos considerar los siguientes eventos:
A = el puntaje total excede 8 = {9, 10, 11, 12}
B = sale un par y un impar = {3, 5, 7, 9, 11}
3) Arrojar una moneda hasta obtener cara por primera vez y registrar la cantidad de lanzamientos
que fueron necesarios. Eventos que podran interesarnos:
A = se requiere a lo sumo 5 lanzamientos = {1, 2, 3, 4, 5}
B = se requiere una cantidad impar de lanzamientos = {3, 5, 7, 9, 11, 13, }
3) Lanzamiento del dardo descrito anteriormente. Un evento en el que podemos estar interesados
es A = {x : x 0, 2}
Consideremos un evento A en el contexto de un experimento aleatorio. Supongamos que la realizacion
del experimento conduce a un resultado . Cuando A se dice que el resultado del
experimento es favorable a A o que ha ocurrido A en dicha realizacion. Caso contrario se dice
que el resultado es desfavorable a A o que no ha ocurrido A en dicha realizacion. Notemos
que el hecho de que ocurra cierto evento no quita la posibilidad que ocurran tambien, en la misma
realizacion, otros eventos.
Ejemplo: Un experimento consiste en lanzar una moneda dos veces de modo que
= {(C, C), (C, S), (S, C), (S, S)}
donde C = sale cara , S = sale ceca, entonces si en determinada realizacion es = (C, C) y si
A = la primera moneda sale cara = {(C, C), (C, S)} y B = la segunda moneda sale ceca =
{(C, C), (S, C)}, entonces han ocurrido tanto el evento A como el evento B. Es decir que el
resultado del experimento ha sido favorable tanto al evento A como al evento B.
9

Algebra de eventos
Sean A, B eventos. A partir de ellos construimos nuevos eventos del modo siguiente:
El complemento de A es el evento A
c
= { : A}. Es el evento que ocurre cada vez
que no ocurre A. Los resultados favorables a A
c
son los desfavorables al A y viceversa. El
complemento de A tambien suele anotarse A
.
La union de A con B es el evento A B = { : A B}. Es el evento
que ocurre cuando al menos uno de los dos sucesos A, B ocurre. Es decir que A B ocurre
sii o bien ocurre A pero no ocurre B, o bien ocurre B pero no ocurre A, o bien ocurren
simultaneamente tanto A como B.
La interseccion de A con B es el evento A B = { : A B}. Es
el evento que ocurre cuando A y B ocurren simultaneamente. La interseccion de A con
B tambien suele anotarse AB
La diferencia de A con B es el evento A \ B = { : A B}. Es el
evento que ocurre cuando ocurre A y simultaneamente no ocurre B.
Ejemplo: En el ultimo ejemplo se tiene:
A
c
= {(S, C), (S, S)}
A B = {(C, C), (C, S), (S, S)}
A B = {(C, S)}
A\ B = {(C, S)} y B \ A = {(S, C)}
Mas generalmente, sean A
1
, A
2
, , A
n
eventos.
La union de tales eventos es el evento
n
_
i=1
A
i
= A
1
A
n
= { : A
1
A
n
}
La interseccion de tales eventos es el evento
n
i=1
A
i
= A
1
A
n
= { : A
1
A
n
}
Dicha interseccion tambien se anota A
1
A
2
A
n
Mas generalmente a un necesitaremos denir uniones e intersecciones de una cantidad numerable de
eventos: Sea {A
n
} una sucesion de eventos.
La union de dichos eventos es el evento que ocurre cuando ocurre al menos uno de los eventos
de la sucesion:
_
n=1
A
n
= { : n N, A
n
}
La interseccion de dichos eventos es el evento que ocurre cuando ocurren simultaneamente todos
y cada uno de los eventos de la sucesion:
n=1
A
n
= { : n N, A
n
}
Ejemplo: Un experimento aleatorio consistente en arrojar una moneda tantas veces como sea necesario
hasta obtener por primera vez cara. Podemos considerar:
= {C, SC, SSC, SSSC, SSSSC, }
Consideremos los siguientes eventos: A
n
= sale C en el lanzamiento 2n-esimo
En este caso:
_
n=1
A
n
= sale C en una cantidad par de lanzamientos
Denici on 2 Los eventos A y B se dicen incompatibles o (mutuamente) excluyentes o disjuntos
si es imposible que ocurran simult aneamente. Es decir que cada vez que ocurre A no ocurre B y
cada vez que ocurre B no ocurre A. Para destacar tal situaci on nosotros anotaremos el evento uni on
A B como A
B.
M as generalmente dada una sucesi on {A
n
} de eventos, se dice que dichos eventos son dos a dos
incompatibles o (mutuamente) excluyentes o disjuntos dos a dos sii se verica:
m, n N, m = n A
m
A
n
=
Para destacar tal situacion anotaremos la union
n=1
A
n
como
n=1
A
n
Dados eventos A, B se dice que A esta contenido o incluido en B o tambien que B contiene o
incluye a A sii cada vez que ocurre A tambien ocurre B (pero no necesariamente a la inversa). Tal
relacion entre eventos se simboliza A B o tambien B A. En otras palabras: A B sii todo
resultado favorable a A es tambien favorable a B. En la practica para demostrar que A B es
frecuente tomar un elemento generico (es decir, no un elemento particular) de A y demostrar que
necesariamente tambien pertenece a B. Naturalmente, dos eventos son iguales sii A B y B A.
Por lo tanto una manera de probar la igualdad entre dos eventos consiste en probar que cada uno de
ellos esta contenido en el otro.
Damos a continuacion un listado de propiedades muy sencillas cuyas demostraciones formales omiti-
mos:
A A
A B B C A C
A A = A ; A A = A
A B = B A ; A B = B A
A (B C) = (A B) C ; A (B C) = (A B) C
A
A B A A B
A = ; A = A
A = A ; A =
(A
c
)
c
= A
(A B)
c
= A
c
B
c
; (A B)
c
= A
c
B
c
A B = A (B \ A)
B = (B A) (B \ A)
A (B C) = (A B) (A C) ; A (B C) = (A B) (A C)
n
i=1
A
i
= A
1
_
n
i=2
A
c
1
A
c
n1
A
n
_
_

n=1
A
n
_
c
=
n=1
A
c
n
;
_

n=1
A
n
_
c
=
n=1
A
c
n
10 Algebras y -algebras de subconjuntos de - Espacio de prob-
abilidad
Todos hemos en alg un momento realizado mediciones. Como ejemplo concreto supongamos que de-
seamos medir areas de rectangulos. Como se sabe, el area de un rectangulo es un n umero positivo
igual al producto base altura. Supongamos ahora que construimos guras planas a partir de una
cantidad nita de rectangulos. Podemos asignar un area a cada una de tales guras del modo sigu-
iente: Primero descomponemos la gura en una union nita de rectangulos disjuntos dos a dos y
luego sumamos las areas de tales rectangulos. Finalmente, supongamos que todos los rectangulos
que consideramos estan contenidos dentro de un gran rectangulo que llamamos . Cada vez que
podamos medir el area de cierta gura contenida en tambien podremos medir el area de la gura
complementaria, es decir la gura que se obtiene a partir de todos los puntos de que no pertenecen
a la gura original. En otros terminos, si podemos medir el area de una gura tambien podemos medir
el area de su complemento. Queda tambien claro que si hemos podido asignar un area A(F) a la
gura F entonces tendremos A(F
c
) = A() A(F). Es decir que hay una cantidad de
propiedades basicas que esperamos de todo n umero que represente una manera de medir. Para reejar
estas propiedades elementales es necesario determinar una cierta clase de conjuntos, que podramos
denominar medibles que seran precisamente aquellos a los cuales asignaremos una medida. En
nuestro ejemplo precedente, no queda claro en absoluto como podramos medir el area de un crculo
contenido en , pero s podremos asignar areas de modo sencillo tomando como conjuntos medibles la
clase de todos los subconjuntos de que sean o bien rectangulos, o bien uniones nitas de rectangulos
o bien sus complementos sean uniones nitas de rectangulos. Una clase de subconjuntos de con
estas caractersticas es lo que denominaremos un algebra de subconjuntos de .
Denici on 3 Dados un conjunto no vaco y una clase A de subconjuntos de , diremos que
A es un algebra de subconjuntos de sii satisface las siguiente condiciones:
i) A
ii) A A, A
c
A
iii) n N, A
1
, , A
n
A,
n
i=1
A
i
A
Ejemplo: Sea cualquier rectangulo no vaco. Denamos, como vimos anteriormente, la siguiente
clase de subconjuntos de :
A = {A : A es union nita de rectangulos}
Veamos que A tiene las propiedades de un algebra de subconjuntos de :
i) A pues es union nita de rectangulos ya que es un rectangulo.
ii) Supongamos que A A. Queremos ver que A
c
es tambien union nita de rectangulos.
En primer lugar notemos que si R es un rectangulo entonces R
c
= \ R es union nita
de rectangulos (Esto le resultara evidente cuando dibuje el gran rectangulo y un rectangulo
arbitrario R contenido en el).
Ademas, si B =
n
i=1
R
i
y C =
m
j=1
R
j
son uniones nitas de rectangulos entonces:
B C =
_
1in
1jm
_
R
i
R
j
_
de modo que B C es union nita de rectangulos (notar que R
i
R
j
es un rectangulo).
Esto se extiende a la interseccion de un n umero nito de uniones nitas de rectangulos. Por lo
tanto podemos armar que la interseccion de un n umero nito de miembros de A es tambien
miembro de A.
Como A A podemos escribir A =
n
i=1
R
i
donde los R
i
son ciertos subrectangulos de .
Entonces:
A
c
=
_
n
_
i=1
R
i
_
c
=
n
i=1
R
c
i
y dado que los R
c
i
son uniones nitas de rectangulos, la interseccion de ellos tambien lo es. Por
lo tanto A
c
es union nita de rectangulos de modo que A
c
A.
iii) Fijemos n N y sean A
1
, , A
n
A. Sabemos que cada A
i
es union nita de rectangulos.
Pero entonces evidentemente A =
n
i=1
A
i
tambien es union nita de rectangulos, de donde re-
sulta que A A.
Consideremos ahora un ejemplo que nos servira para generalizar la denicion de algebra de subcon-
juntos de .
Ejemplo: Supongamos que se tiene una secuencia {R
n
} de rectangulos contenidos en el gran
rectangulo . Mas a un, supongamos que los R
n
son disjuntos dos a dos. Parece intuitivamente
claro que tambien se le puede asignar un area al conjunto
n=1
R
n
, de la manera siguiente:
Cada R
n
tiene asignada un area A(R
n
)
Podemos asignar area al conjunto R
1
R
2
como A(R
1
R
2
) = A(R
1
) +A(R
2
)
Podemos asignar area al conjunto R
1
R
2
R
3
como A(R
1
R
2
R
3
) = A(R
1
)+A(R
2
)+
A(R
3
)
etc. En genral: A
_
n
i=1
R
i
_
=
n
i=1
A(R
i
)
De este modo vemos como asignar un area al conjunto S
n
=
n
i=1
R
i
, cualquiera sea n N. Natu-
ralmente los n umeros A(S
1
), A(S
2
), A(S
3
), forman una sucesion creciente de n umeros reales
positivos. Ademas, dado que todos los S
n
resulta A(S
n
) A(). Un resultado matematico
asegura que toda sucesion de n umeros reales que sea creciente y acotada superiormente, posee un
lmite nito. Por lo tanto existe y es nito el n umero:
lim
n
A(S
n
)
Resulta entonces natural denir
A
_

n=1
R
n
_
= lim
n
A
_
n
i=1
R
i
_
= lim
n
A(S
n
) =
= lim
n
n
i=1
A(R
i
) =
n=1
A(R
n
)
Este ejemplo muestra que podemos ampliar la denicion de algebra de conjuntos para permitir que
no solo las uniones nitas de conjuntos medibles sean medibles, sino tambien las uniones innitas
numerables. Esto conduce a la denicion siguiente.
Denici on 4 Una clase de subconjuntos de un conjunto no vaco se dice una - algebra de
subconjuntos de sii verica las siguientes condiciones:
i)
ii) A , A
c

iii) {A
n
} sucesi on en ,
n=1
A
n

Ejemplo: Consideremos un conjunto no vaco . La clase que consta de todos los subconjuntos de
se denomina el conjunto de partes de y se suele anotar P(). Claramente es una -algebra
de subconjuntos de . De hecho es la mas grande de todas.
Propiedad 3 Sea una - algebra de subconjuntos de . Entonces
Dem:
Puesto que resulta =
c

Propiedad 4 Sea una - algebra de subconjuntos de . Supongamos que es nito o innito
numerable. Se verica:
, {} = P()
Dem:
Sea A . Puesto que es nito o innito numerable, lo mismo es cierto de A. Dado que:
A =
A
{} resulta inmediatamente que A puesto que la union anterior es a lo sumo
numerable y cada {} pertenece a
Propiedad 5 Sea una - algebra de subconjuntos de y sean A
1
, , A
n
. Entonces
n
i=1
A
i

Dem:
Denamos A
n+1
= A
n+2
= = . Entonces la secesion {A
i
} esta en . Se tiene pues:
n
_
i=1
A
i
=
_
i=1
A
i

Propiedad 6 Sea una - algebra de subconjuntos de y sea {A
n
} una sucesi on en .
Entonces
n=1
A
n

Dem:
n=1
A
n
=
_

_
n=1
A
c
n
_
c
dado que cada A
c
n

Propiedad 7 Sea una - algebra de subconjuntos de y sean A
1
, , A
n
.
Entonces
n
i=1
A
i

Dem:
Denamos A
n+1
= A
n+2
= = . Tenemos as una sucesion {A
n
} en . Por la propiedad
anterior resulta:
n
i=1
A
i
=
i=1
A
i

Propiedad 8 Sean un conjunto no vaco y {
i
}
iI
una familia no vaca, donde cada
i
es
una - algebra de subconjuntos de . Entonces
iI
i
es una - algebra de subconjuntos de .
Dem: Anotemos =
iI
i
. Debemos probar que satisface los axiomas de -algebra de
subconjuntos de . Sabiendo que cada
i
satisface dichos axiomas, se deduce que:
pues i I ,
i
Si A entonces i I , A
i
. Luego: i I , A
c

i
. Entonces A
c

Sea {A
n
} sucesion en . Entonces i I , {A
n
} es una sucesion en
i
. Por lo tanto
i I ,
n=1
A
n

i
. Luego:
n=1
A
n

Propiedad 9 Dados un conjunto no vaco y un subconjunto G de P(), existe una mnima
- algebra de subconjuntos de que contiene a G
Dem: Basta considerar la familia de todas las -algebras de subconjuntos de que contienen a
G (una de ellas es P()) y aplicarle la propiedad anterior
Estamos ahora en condiciones de denir la nocion axiomatica de probabilidad.
Denici on 5 Sean un conjunto no vaco y una - algebra de subconjuntos de . Una medida
de probabilidad o funci on de probabilidad o simplemente una probabilidad sobre es una funci on
P : R que verica los siguientes axiomas:
i) A , P(A) 0
ii) P() = 1
iii) Para toda sucesi on {A
n
} de elementos de disjuntos dos a dos se cumple:
P
_

n=1
A
n
_
=
n=1
P(A
n
)
Nota: Parte del supuesto en esta igualdad es que la serie en el miembro de la derecha sea
convergente.
Un espacio de probabilidad es una terna ordenada (, , P) donde P es una probabilidad sobre .
Ejemplo: Sea un conjunto no vaco a lo sumo numerable, que podemos anotar = {
n
}. Sea
una -algebra de subconjuntos de tal que n, {
n
} . Como vimos antes esto implica que
= P(). Si P es una probabilidad sobre notemos que:
Las probabilidades p
n
= P({
n
}) determinan la probabilidad de cualquier evento aleatorio.
En efecto: Sea A . Entonces A =
n
A
{
n
}. Por lo tanto:
P(A) = P
_

n
A
{
n
}
_
=
n
A
P({
n
}) =
n
A
p
n
Dada una sucesion {p
n
} de n umeros reales tal que:
a) n, p
n
0
b)
n=1
p
n
= 1
existe una unica probabilidad P sobre tal que P ({
n
}) = p
n
11 Espacios de equiprobabilidad
Si = {
1
, ,
N
} es nito y si denimos n {1, , N} , p
n
=
1
N
entonces se cumplen
las condiciones a) y b) del item anterior, de manera que queda denida una unica probabilidad sobre
= P() tal que n {1, , N} , P {
n
} =
1
N
=
1
#()
. Esta manera de asignar probabili-
dades sobre un espacio muestral nito es lo que se conoce como espacio de equiprobabilidad. En
un espacio de equiprobabilidad se tiene para cuanlquier evento A
P(A) = P
_

A
{}
_
=
A
P ({}) =
A
1
#()
=
#(A)
#()
Esta manera de asignar probabilidades en un espacio muestral nito suele resumirse del modo siguiente:
P(A) =
# {resultados favorables al evento A}
# {resultados posibles del experimento}
En la practica cuando asociamos determinado espacio muestral a un experimento aleatorio con una
cantidad nita de resultados posibles, la asignacion de probabilidades a dichos eventos elementales no
siempre se reduce a considerar resultados equiprobables. Volviendo a uno de nuestros primeros ejem-
plos: Se lanzan dos dados normales y se anota el puntaje total obtenido. En este caso podramos
tomar como espacio muestral = {2, 3, 4, , 12}. Sin embargo no es correcto asignar probabili-
dades del modo siguiente:
n {2, , 12} , P ({n}) =
1
11
Que inconvenientes observa acerca de esta asignacion de probabilidad?
El mismo experimento aleatorio podra modelizarse mediante el siguiente espacio muestral:
= {(i, j) : 1 i, j 6}
Con este espacio muestral s es adecuada la asignacion de probabilidad en forma equiprobable:
(i, j) tal que 1 i, j 6 , P ({(i, j)}) =
1
36
Calculemos en este ejemplo la probabilidad de que el puntaje total obtenido sea 7. En este caso
A = {(i, j) : 1 i, j 6 ; i +j = 7} = {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}. Por lo
tanto P(A) =
#(A)
#()
=
6
36
=
1
6
Ejemplo: Una urna contiene 3 bolillas blancas y 2 bolillas negras. Se extraen al azar dos bolillas sin
reposicion. Calculemos P(A) y P(C) siendo:
A = ambas bolillas son blancas y C = ambas bolillas son negras
Una posible representacion del espacio muestral asociado a este experimento aleatorio podra ser =
{BB, BN, NB, NN}. Sin embargo, dada esta representacion es evidente que no resulta natural
considerar los cuatro posibles resultados como equiprobables puesto que hay mas bolillas blancas que
negras. De hecho, si utilizaramos el articio de numerar las bolillas blancas como B
1
, B
2
, B
3
y
numerar las bolillas negras como N
1
, N
2
resulta claro que el resultado A se da en mas casos que el
resultado C. De hecho:
A = {(B
1
, B
2
), (B
1
, B
3
), (B
2
, B
1
), (B
2
, B
3
), (B
3
, B
1
), (B
3
, B
2
)} tiene 6 elementos
C = {(N
1
, N
2
), (N
2
, N
1
)} tiene 2 elementos
Lo natural entonces es elegir una representacion del espacio muestral en la que resulte natural la
equiprobabilidad. Tal representacion podra ser la siguiente:
= {(x, y) : x, y {B
1
, B
2
, B
3
, N
1
, N
2
} , x = y}
Con este espacio muestral es natural plantear equiprobabilidad. Se tiene:
P(A) =
#(A)
#()
=
32
54
=
3
10
= 0, 3
P(C) =
#(C)
#()
=
21
54
=
1
10
= 0, 1
Otra posible representacion del espacio muestral es la siguiente, que prescinde del orden en que se
extraen las bolillas:
= {{x, y} : x, y {B
1
, B
2
, B
3
, N
1
, N
2
} , x = y}
Tambien en este caso es natural la equiprobabilidad. Se tiene:
P(A) =
#(A)
#()
=
(
3
2
)
(
5
2
)
=
3
10
= 0, 3
P(C) =
#(C)
#()
=
(
2
2
)
(
5
2
)
=
1
10
= 0, 1
Como era de esperar, se obtienen las mismas probabilidades que cuando se tiene en cuenta el orden de
extraccion. Ejemplo: Nuevamente consideremos una urna con 3 bolillas blancas y dos bolillas negras.
Se extraen al azar dos bolillas, pero esta vez con reposicion. Calculemos las probabilidades de los
mismos eventos A y C del ejemplo anterior.
En este caso conviene representar el espacio muestral como:
= {(x, y) : x, y {B
1
, B
2
, B
3
, N
1
, N
2
}}
Entonces:
P(A) =
#(A)
#()
=
33
55
=
9
25
= 0, 36
P(C) =
#(C)
#()
=
22
55
=
4
25
= 0, 16
12 Propiedades de una probabilidad
Una cantidad de resultados utiles se desprenden de la denicion axiomatica de probabilidad dada en
el paragrafo anterior.
Propiedad 10 P() = 0
Dem:
Denamos n , A
n
= . Claramente estos eventos son dos a dos disjuntos, de manera que:
P() = P
_

n=1
A
n
_
=
n=1
P(A
n
) =
n=1
P()
Puesto que la serie a la derecha de la ultima igualdad es convergente, necesariamente su termino
general debe tender a 0. Pero dicho termino general, siendo constantemente igual a P(), tiende a
P(). Por lo tanto: P() = 0
Propiedad 11 Sean A
1
, , A
n
dos a dos disjuntos. Entonces:
P
_
n
i=1
A
i
_
=
n
i=1
P(A
i
)
Dem:
Denamos A
n+1
= A
n+2
= = . Se tiene:
P
_
n
i=1
A
i
_
= P
_
i=1
A
i
_
=
i=1
P(A
i
) =
n
i=1
P(A
i
)
Propiedad 12 Sean A, B tales que A B. Se verica:
P (B \ A) = P(B) P(A)
Dem:
Podemos escribir B = A(B \ A) siendo la union disjunta. Por lo tanto: P(B) = P (A (B \ A)) =
P(A) +P (B \ A). Despejando se tiene: P(B \ A) = P(B) P(A)
Propiedad 13 Sean A, B (no necesariamente disjuntos). Se verica:
P(A B) = P(A) +P(B) P(AB)
Dem:
Primeramente notemos que BA
c
= B \ AB. Ahora bien, por la propiedad anterior y teniendo en
cuenta que AB B se tiene:
P(BA
c
) = P(B \ AB) = P(B) P(AB). Luego:
P(A B) = P(A BA
c
) = P(A) +P(BA
c
) = P(A) +P(B) P(AB)
Corolario 1 Para cualesquiera eventos A, B se verica la siguiente desigualdad:
P(A B) P(A) +P(B)
Dem: P(A B) = P(A) +P(B) P(AB) P(A) +P(B) pues P(AB) 0
Propiedad 14 Dados A, B, C se verica:
P(A B C) = P(A) +P(B) +P(C) P(AB) P(AC) P(BC) +P(ABC)
Dem:
P(A B C) = P(A B) +P(C) P((A B) C) =
= P(A) +P(B) P(AB) +P(C) P(AC BC) =
= P(A) +P(B) +P(C) P(AB) (P(AC) +P(BC) P(ACBC)) =
= P(A) +P(B) +P(C) P(AB) (P(AC) +P(BC) P(ABC)) =
= P(A) +P(B) +P(C) P(AB) P(AC) P(BC) +P(ABC)
Propiedad 15 Sea (, , P) un espacio de probabilidad. Dados A
1
, , A
n
se cumple:
P(A
1
A
n
) =
n
i=1
P(A
i
)

1i
1
<i
2
n
P(A
i
1
A
i
2
) +
+ (1)
r+1

1i
1
<i
2
<<i
r
n
P(A
i
1
A
i
2
A
i
r
) + +
+ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . +
+ (1)
n+1
P(A
1
A
2
A
n
)
(1)
Dem:
Por inducci on sobre n.
Paso base: n = 2 ya fue demostrada.
Hip otesis inductiva (HI): Suponemos v alida (1) para n.
Supongamos A
1
, , A
n+1
.
P(A
1
A
n+1
) = P(A
1
A
n
) +P(A
n+1
) P((A
1
A
n
)A
n+1
) =
=
n
i=1
P(A
i
)

1i
1
<i
2
n
P(A
i
1
A
i
2
) +
+ (1)
r+1

1i
1
<i
2
<<i
r
n
P(A
i
1
A
i
2
A
i
r
) + +
+ (1)
n+1
P(A
1
A
2
A
n
) +P(A
n+1
) P(A
1
A
n+1
A
n
A
n+1
) =
=
n+1
i=1
P(A
i
)

1i
1
<i
2
n
P(A
i
1
A
i
2
) +
+ (1)
r+1

1i
1
<i
2
<<i
r
n
P(A
i
1
A
i
2
A
i
r
) + +
+ (1)
n+1
P(A
1
A
2
A
n
) {
n
i=1
P(A
i
A
n+1
)

1i
1
<i
2
n
P(A
i
1
A
i
2
A
n+1
) +
+ (1)
n+1
P(A
1
A
2
A
n
A
n+1
)}
=
n+1
i=1
P(A
i
)

1i
1
<i
2
n+1
P(A
i
1
A
i
2
) +
+ (1)
r+1

1i
1
<i
2
<<i
r
n+1
P(A
i
1
A
i
2
A
i
r
) + +
+ (1)
n+2
P(A
1
A
2
A
n+1
)
Propiedad 16 Dados A, B con A B se tiene P(A) P(B)
Dem:
Como A B resulta B = A BA
c
. Luego: P(B) = P(A) +P(BA
c
) P(A)
Corolario 2 Para todo A es P(A) 1
Dem:
Como A y dado que P() = 1 resulta P(A) P() = 1
Propiedad 17 Para cualquier A se verica:
P(A
c
) = 1 P(A) ; P(A) = 1 P(A
c
)
Dem:
Puesto que = A A
c
resulta 1 = P() = P(A) +P(A
c
)
13 Propiedades de continuidad
Propiedad 18 Sea {A
n
} una sucesi on en . Supongamos dicha sucesi on de eventos es creciente,
es decir: A
1
A
2
A
3
. Se verica:
P
_

_
n=1
A
n
_
= lim
n
P(A
n
)
Dem:
Denamos los siguientes eventos:
B
1
= A
1
B
2
= A
2
\ A
1
B
3
= A
3
\ A
2

B
n
= A
n
\ A
n1

Se tiene as una sucesion {B
n
} en tal que:
n
i=1
A
i
=
n
i=1
B
i
y
i=1
A
i
=
i=1
B
i
Por conveniencia denamos tambien A
o
= . Entonces:
P
_
n
i=1
A
i
_
= P
_
n
i=1
B
i
_
=
n
i=1
P(B
i
) =
=
n
i=1
P(A
i
\ A
i1
) =
n
i=1
(P(A
i
) P(A
i1
)) =
= P(A
n
) P(A
o
) = P(A
n
) P() = P(A
n
)
Luego:
lim
n
P(A
n
) = lim
n
n
i=1
P(B
i
) =
i=1
P(B
i
) =
= P
_
i=1
B
i
_
= P
_
i=1
A
i
_
Propiedad 19 Sea {A
n
} una sucesi on en . Supongamos dicha sucesi on de eventos es decreciente,
es decir: A
1
A
2
A
3
. Se verica:
P
_

n=1
A
n
_
= lim
n
P(A
n
)
Dem:
Notemos que dado que los A
n
decrecen entonces los A
c
n
crecen.
P
_

n=1
A
n
_
= 1 P
__

n=1
A
n
_
c
_
=
= 1 P
_

n=1
A
c
n
_
= 1 lim
n
P(A
c
n
) =
= lim
n
_
1 P(A
c
n
)
_
= lim
n
P(A
n
)
Probabilidad condicional - Sucesos independientes
14 Probabilidad condicional
Seguramente al lector no se le habra pasado por alto, cuando denimos los axiomas de una probabili-
dad, la relacion intuitiva que existe entre estos y lo que se conoce como el enfoque frecuentista de
las probabilidades, que pasamos a explicar someramente.
Supongamos, en el contexto de un experimento aleatorio concreto, que se desea asignar probabilidad a
cierto evento A. El enfoque frecuentista consiste en repetir el experimento un n umero nito y grande
de veces, digamos N veces. A continuacion determina lo que se conoce como frecuencia relativa del
evento A en esas N realizaciones del experimento. Dicha frecuencia relativa, que anotaremos f
A
,
se dene por:
f
A
=
n umero de veces que ha ocurrido A en las N realizaciones
n umero total N de realizaciones
Intuitivamente f
A
es un reejo de la chance de ocurrencia de A en dichas repeticiones del
experimento. En otro captulo formalizaremos esta idea intuitiva. Por el momento nos conformamos
con admitirla como natural y motivadora. Esta frecuencia relativa posee las siguientes propiedades:
Dados eventos A, B se verica
i) f
A
0
ii) f
= 1
iii) Si A y B son disjuntos entonces f
AB
= f
A
+f
B
Las propiedades anteriores nos hacen recordar propiedades analogas a las de la denicion axiomatica
de probabilidad.
Basados intuitivamente en esta idea frecuentista vamos a introducir el concepto de probabilidad condi-
cional. La importancia de este concepto se debe a dos motivos principales:
Frecuentemente estamos interesados en calcular probabilidades cuando disponemos de alguna
informacion parcial adicional acerca del resultado del experimento. En tal caso dichas probabil-
idades se dicen condicionales (a la informacion adicional).
A un en situaciones en las cuales no disponemos de tal informacion parcial adicional, es frecuente
el uso de la probabilidad condicional como herramienta que permite calcular las probabilidades
deseadas de un modo mas sencillo.
Para jar ideas consideremos el ejemplo que sigue.
Ejemplo: Se arrojan dos dados normales, de manera que cada uno de los 36 resultados posibles son
equiprobables. Supongamos que se observa ademas que el primer dado es un 3. Con esta informacion
adicional, cual es la probabilidad de que el puntaje total obtenido sea 8 ?
Primeramente observemos que el primer dado es un 3 es un evento, que podemos anotar H. Dado
que ha ocurrido H, el experimento se limita a arrojar el segundo dado y determinar el n umero que
sale. Sabemos que los posibles resultados de este experimento parcial seran solo seis y deniran un
espacio muestral parcial:
H
= {(3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6)}. Es natural considerar
estos seis resultados como equiprobables, es decir que podemos denir una probabilidad P
H
de modo
que j {1, , 6} , P
H
({(3, j)}) = 1/6. Esta probabilidad sobre el espacio muestral
puede
pensarse como una probabilidad condicional a H en el espacio muestral asociado al experimento
original, deniendo:
La probabilidad condicional de {(3, j)} como 1/6. Anotamos P ({(3, j)} |H) = 1/6
La probabilidad condicional de {(i, j)} como 0 si i = 3. Anotamos P ({(i, j)} |H) = 0 si
i = 3
Por lo tanto, la probabilidad condicional de obtener puntaje total 8 sera
P (se obtiene puntaje 8|H) = P ({(3, 5)} |H) = 1/6
Ejemplo: Mas generalmente consideremos dos eventos E y H en el contexto de un experimento
aleatorio. Queremos asignar una probabilidad al evento E bajo el supuesto o condicion que haya
ocurrido H. Intuitivamente lo que podramos hacer es repetir el experimento un gran n umero N de
veces y contar en cuantas de ellas ha ocurrido H, digamos N
H
veces, y luego contar en cuantas de
estas N
H
ha ocurrido tambien E, digamos N
EH
veces. Entonces podramos considerar el n umero:
N
EH
N
H
Equivalentemente, dividiendo numerador y denominador por N se obtiene:
N
EH
/N
N
H
/N
=
f
EH
f
H
Dado que las frecuencias relativas son base intuitiva para las probabilidades, este cociente motiva la
denicion siguiente.
Denici on 6 Sean (, , P) un espacio de probabilidad y H tal que P(H) > 0. Dado un
evento E se dene la probabilidad de E condicional a F como:
P(E|F) =
P(EF)
P(F)
Ejemplo: Se lanza dos veces una moneda normal. Calculemos:
a) La probabilidad de que ambas salgan cara.
b) La probabilidad condicional de que ambas salgan cara dado que la primera sale cara.
Para responder a) consideramos el espacio muestral = {CC, CS, SC, SS} y naturalmente
asignamos probabilidades uniformemente, de modo que cada uno de los cuatro resultados elementales
tiene probabilidad 1/4. Luego:
P(ambas salen cara) = P({CC}) =
1
4
Para responder a b) utilizamos la denicion de probabilidad condicional. Sean E = ambas salen cara y
H = la primera sale cara. Entonces:
P (E|H) =
P(EF)
P(F)
=
P ({CC})
P ({CC, CS})
=
1/4
1/2
=
1
2
Propiedad 20 Sean (, , P) un espacio de probabilidad y H tal que P(H) > 0.
Sea
P(|H)
R la funci on que asigna a cada E el n umero real P(E|H). Entonces
(, , P(|H)) es un espacio de probabilidad.
Dem:
La demostracion se propone como ejercicio al nal del captulo
Propiedad 21 Sean una - algebra de subconjuntos de y H . Sea
H
la siguiente clase
de subconjuntos de H:
H
= {EH : E }
Entonces
H
es una - algebra de subconjuntos de H.
Dem:
i) Dado que H y H = HH resulta H
H
ii) Supongamos que B
H
. Luego, existe cierto E tal que B = EH. Dado que tanto
E como H son miembros de tambien lo es B. Luego, tambien B
c
. Entonces el
complemento de B relativo a H es H \ B = B
c
H. Por ende este complemento pertenece a
H
, siendo este complemento la interseccion entre H y un miembro de .
iii) Sea {B
n
} una sucesion en
H
. Luego, existe una sucesion {E
n
} en tal que n, B
n
=
E
n
H. Luego:
_
n=1
B
n
=
_
n=1
E
n
H =
_

_
n=1
E
n
_
H
Sea E =
n=1
E
n
. Dado que los E
n
son miembros de resulta E . Pero como
n=1
B
n
= EH resulta que
n=1
B
n

H

Denici on 7 La - algebra
H
denida arriba se denomina la relativizaci on de a H o la
reducci on de a H.
Propiedad 22 Dados (, , P) espacio de probabilidad y H tal que P(H) > 0, la funci on
h
P
H
R denida por
P
H
(B) =
P(B)
P(H)
es una probabilidad sobre (H,
H
). M as a un, se verica: E , P
H
(EH) = P(E|H)
Dem:
La demostracion se propone como ejercicio al nal del captulo
Denici on 8 Se dice que el espacio de probabilidad (H,
H
, P
H
) se ha obtenido reduciendo a H el
espacio de probabilidad (, , P).
La idea es la siguiente: Calcular en probabilidades condicionalmente a H equivale a calcular en
H
probabilidades sin condicionar. En determinados ejemplos es mas sencillo calcular probabilidades
condicionales por denicion mientras que en otros es mas facil calcularlas trabajando directamente
sobre el espacio muestral reducido.
Teorema 3 (Regla del producto)
Sea (, , P) espacio de probabilidad.
i) Si A, B con P(B) > 0 entonces P(AB) = P(A|B) P(B)
ii) M as generalmente, dados A
1
, , A
n+1
con P(A
1
A
n
) > 0 se verica:
P(A
1
A
n+1
) = P(A
1
) P(A
2
|A
1
) P(A
3
|A
1
A
2
) P(A
n+1
|A
1
A
2
A
n
)
Dem:
Por induccion sobre n.
Paso base: n = 1
Este caso corresponde a demostrar i). Sean A
1
, A
2
con P(A) > 0. Se tiene:
Como P(A
2
|A
1
) =
P(A
1
A
2
)
P(A
1
)
se deduce P(A
1
A
2
) = P(A
1
)P(A
2
|A
1
)
Hipotesis inductiva: Suponemos la propiedad valida para n
Ahora queremos demostrar que vale para n + 1. Sean A
1
, , A
n+2
. Se tiene:
P(A
1
A
2
A
n+1
. .
A
A
n+2
. .
B
) = P(A
1
A
n+1
. .
A
)P(A
n+2
. .
B
| A
1
A
n+1
. .
A
)
HI
=
HI
= P(A
1
)P(A
2
|A
1
) P(A
n+1
|A
1
A
n
)P(A
n+2
|A
1
A
n+1
)
Esto demuestra que la propiedad es verdadera para n + 1 bajo el supuesto que sea verdadera para
n. Luego, por induccion es valida para todo n N
Ejemplo: Una urna contiene inicialmente r bolillas rojas y b bolillas blancas. Se realiza el siguiente
experimento aleatorio: Se extrae una bolilla al azar y se completa la urna con c bolillas de ese mismo
color. Se extrae nuevamente una bolilla al azar y se completa la urna con c bolillas del mismo
color, etc. Se quiere calcular la probabilidad de que las tres primeras extracciones resulten en bolillas
rojas. Para resolverlo, dado que el experimento se lleva a cabo en tres etapas y cada etapa afecta la
composicion de la urna de extraccion, es adecuado condicionar una extraccion a los resultados de las
extracciones previas.
Denamos R
i
= la i-esima extraccion resulta bolilla roja (i = 1, 2, 3). Entonces lo que pretende-
mos calcular es precisamente P(R
1
R
2
R
3
). Planteamos la regla del producto:
P(R
1
R
2
R
3
) = P(R
1
)P(R
2
|R
1
)P(R
3
|R
1
R
2
)
Por la composicion inicial de la urna es claro que
P(R
1
) =
r
r +b
Por la composicion de la urna inmediatamente luego que ha ocurrido R
1
es claro que
P(R
2
|R
1
) =
r +c
r +c +b
Por la composicion de la urna inmediatamente luego que han ocurrido R
1
, R
2
se tiene analogamente
P(R
3
|R
1
R
2
) =
r + 2c
r + 2c +b
Por lo tanto:
P(R
1
R
2
R
3
) =
r
r +b
r +c
r +c +b
r + 2c
r + 2c +b
Denici on 9 Sea (, , P) un espacio de probabilidad. Una sucesi on {A
n
} en se dice una
partici on de sii se verican:
i) n N, P(A
n
) > 0
ii) =
n=1
A
n
iii) n, n N, n = m A
n
A
m
=
Ejemplo: Consideremos un espacio de equiprobabilidad = {1, 2, , 12}. Es decir: i
, P ({i}) = 1/n > 0. Una posible particion de es {A
1
, A
2
, A
3
} donde
A
1
= {1, 3, 5, 7, 9, 11} ; A
2
= {6, 12} ; A
3
= {2, 4, 8, 10}
Teorema 4 (Teorema de la probabilidad total)
Sean (, , P) un espacio de probabilidad y {H
n
} una partici on de . Entonces para cualquier
B se verica:
P(B) =
n=1
P(B|H
n
)P(H
n
)
Dem:
Dado que {H
n
} es una particion de , sabemos que
n=1
A
n
= . Por lo tanto
B = B = B
_

_
n=1
H
n
_
=
_
n=1
BH
n
Ademas esta union es disjunta dos a dos:
n = m (BH
n
)(BH
m
) = BH
n
H
m
= B =
Luego:
P(B) =
n=1
P(BH
n
)
Pero como n N, P(H
n
) > 0 podemos escribir P(BH
n
) = P(B|H
n
)P(H
n
). Entonces:
P(B) =
n=1
P(BH
n
) =
n=1
P(B|H
n
)P(H
n
)
Nota: El teorema de la probabilidad total es tambien valido para particiones nitas.
Ejemplo: Una caja C
1
contiene n
1
chas marcadas con un 1 y n
2
chas marcadas con un 2.
Se extrae una cha al azar. Si sale 1 se extrae una bolilla al azar de una urna U
1
que contiene
r
1
bolillas rojas y b
1
bolillas blancas. En cambio, si sale 2 se extrae una bolilla al azar de una urna
U
2
que contiene r
2
bolillas rojas y b
2
bolillas blancas. Calcular la probabilidad de extraer una
bolilla roja.
La composicion de la urna de la que se extrae la bolilla depende de la primera etapa del experimento
(extraccion de cha). Por lo tanto es de esperar que necesitemos condicionar al resultado de la primera
etapa. Denamos F
1
= sale cha 1 y F
2
= sale cha 2. Entonces {F
1
, F
2
} es claramente una
particion de . Denamos tambien R = sale bolilla roja. Por lo tanto:
P(R) =
2
n=1
P(R|F
n
)P(F
n
) = P(R|F
1
)P(F
1
) +P(R|F
2
)P(F
2
)
Es claro que
P(F
1
) =
n
1
n
1
+n
2
; P(F
2
) =
n
2
n
1
+n
2
Tambien es claro que:
P(R|F
1
) =
r
1
r
1
+b
1
; P(R|F
2
) =
r
2
r
2
+b
2
Por lo tanto:
P(R) =
r
1
r
1
+b
1
n
1
n
1
+n
2
+
r
2
r
2
+b
2
n
2
n
1
+n
2
Teorema 5 (Regla de Bayes)
Sean (, , P) un espacio de probabilidad y {H
n
} una partici on de . Para cualquier B tal
que P(B) > 0 y para cualquier j N se verica:
P(H
j
|B) =
P(B|H
j
)P(H
j
)
n=1
P(B|H
n
)P(H
n
)
Dem:
Se tiene:
P(H
j
|B) =
P(BH
j
)
P(B)
=
P(B|H
j
)P(H
j
)
n=1
P(B|H
n
)P(H
n
)
Nota: La regla de Bayes tambien es valida para particiones nitas.

Ejemplo: Una caja contiene N = n
1
+ n
2
+ n
3
chas, de las cuales n
1
estan numeradas con
1, n
2
estan numeradas con 2 y n
3
estan numeradas con 3. Se dispone ademas de tres urnas
U
1
, U
2
, U
3
. La urna U
i
contiene r
i
bolillas rojas y b
i
bolillas blancas (i = 1, 2, 3). Se extrae al
azar una cha de la caja. Acto seguido se elige al azar una bolilla de la urna rotulada con el mismo
n umero que la cha extraida. Sabiendo que la bolilla extraida fue roja, cual es la probabilidad de
que haya provenido de la urna U
2
?
Sean
F
i
= sale cha i ; i = 1, 2, 3
R = sale bolilla roja y B = sale bolilla blanca
Se pretende calcular P(F
2
|R). Aca se quiere averiguar la probabilidad de un evento que ocurrio
en una etapa previa del experimento basados en infromacion de una etapa posterior. Es natural
entonces revertir este condicionamiento, para lo cual utilizamos el teorema de Bayes. Notemos que
{F
1
, F
2
, F
3
} es una particion de . Entonces:
P(F
2
|R) =
P(R|F
2
)P(F
2
)
P(R|F
1
)P(F
1
)+P(R|F
2
)P(F
2
)+P(R|F
3
)P(F
3
)
=
=
r
2
r
2
+b
2
n
2
n
1
+n
2
+n
3
r
1
r
1
+b
1
n
1
n
1
+n
2
+n
3
+
r
2
r
2
+b
2
n
2
n
1
+n
2
+n
3
+
r
3
r
3
+b
3
n
3
n
1
+n
2
+n
3
=
=
r
2
n
2
r
2
+b
2
r
1
n
1
r
1
+b
1
+
r
2
n
2
r
2
+b
2
+
r
3
n
3
r
3
+b
3
Ejemplo: Un procedimiento llamado uoroscopa cardaca (FC) se utiliza para determinar si existe
calcicacion en las arterias coronarias. El test permite detectar si hay 0,1,2,o 3 arterias coronarias
calcicadas. Anotemos:
T
+
i
: la FC detecta i arterias calcicadas (i = 0, 1, 2, 3)
D
+
: hay enfermedad coronaria ; D
: no hay enfermedad coronaria

Supongamos que se conocen los datos de la siguiente tabla
i P(T
+
i
|D
+
) P(T
+
i
|D
)
0 0.41 0.96
1 0.24 0.02
2 0.20 0.02
3 0.15 0.00
a) Si P(D
+
) = 0.05 calcular P(D
+
|T
+
i
) para i = 0, 1, 2, 3
b) Si P(D
+
) = 0.92 calcular P(D
+
|T
+
i
) para i = 0, 1, 2, 3
En ambos casos el calculo se reduce a utilizar la regla de Bayes:
P(D
+
|T
+
i
) =
P(T
+
i
|D
+
)P(D
+
)
P(T
+
i
|D
+
)P(D
+
) +P(T
+
i
|D
)P(D
)
donde P(D
) = 1 P(D
+
)
Se obtienen los resultados siguientes:
i P(D
+
|T
+
i
) cuando P(D
+
) = 0.05 P(D
+
|T
+
i
) cuando P(D
+
) = 0.92
0 0.022 0.831
1 0.387 0.993
2 0.345 0.991
3 1.000 1.000
15 Independencia estocastica
Sean A, B eventos con P(A) > 0 y P(B) > 0. Intuitivamente podemos decir que dichos eventos
son independientes (entre s) si el hecho que ocurra A no inuye sobre la chance de ocurrir B y
recprocamente, el hecho que ocurra B no inuye sobre la chance de ocurrir A. Es decir si la
ocurrencia de A ni afecta ni es afectada por la ocurrencia de B. Podemos expresar esta idea intuitiva
diciendo que A y B son independientes sii P(B|A) = P(B) y P(A|B) = P(A). Expresando
mediante intersecciones podemos reducir estas dos condiciones a una sola, con la ventaja adicional
de no requerir que los eventos tengan probabilidades positivas. Esta idea es la base de la siguiente
denicion.
Denici on 10 Los eventos A y B se dicen independientes sii P(AB) = P(A) P(B)
Nota: No debe confundirse la nocion de independencia con la de eventos excluyentes. De hecho, si
A y B son mutuamente excluyentes y si P(A) > 0 y P(B) > 0, entonces A y B distan mucho
de ser independientes pues P(AB) = P() = 0 = P(A)P(B)
Ejemplo: Se elige al azar una carta de un mazo de 52 cartas francesas. Consideremos los eventos
A : sale un as ; C : sale una carta de corazones
Analicemos la independencia entre ellos:
P(A) =
4
52
P(C) =
13
52
P(AC) =
1
52
P(AC) =
1
52
=
4
52

13
52
= P(A)P(C)
Por lo tanto A y C son independientes.
Ejemplo: Se arrojan dos dados equilibrados, uno blanco y otro rojo. Consideremos los eventos
A : puntaje total 6 ; B : el dado rojo sale 4
Analicemos la independencia entre ellos:
P(A) =
5
36
P(B) =
1
6
P(AB) =
1
36
P(AB) =
1
36
=
5
36

1
36
= P(A)P(B)
Por lo tanto A y C no son independientes.
Propiedad 23 Los eventos A y B son independientes sii los eventos A y B
son independientes
Dem:
) Supongamos A y B independientes. Luego: P(AB) = P(A)P(B). Entonces:
P(AB
) = P(A\B) = P(A)P(AB) = P(A)P(A)P(B) = P(A)(1P(B)) = P(A)P(B
)
Luego, A y B
son independientes.
) Si ahora suponemos A y B
independientes, podemos aplicarles la parte ) ya demostrada.

Se deduce que A y (B
= B son independientes
Corolario 3 Los eventos A y B son independientes sii A
y B
son independientes
Generalicemos la nocion de independencia a tres eventos A, B, C. Imaginemos que C represente la
presencia de cierta enfermedad y que A y B representen la presencia de dos sntomas clnicos.
Supongamos que dichos sntomas se presentan independientemente (que un paciente presente un
sntoma no lo hace mas ni menos proclive a presentar el otro sntoma). Supongamos tambien que
A y C sean independientes y que B y C sean independientes. Podra sin embargo ocurrir
que la presencia simultanea de ambos sntomas s aumentara (o disminuyera) la chance de tener la
enfermedad. En tal caso los eventos AB y C no seran independientes. Esto motiva la siguientes
denicion.
Denici on 11 Los eventos A, B, C se dicen independientes sii se verican
P(AB) = P(A)P(B) , P(AC) = P(A)P(C) , P(BC) = P(B)P(C)
P(ABC) = P(A)P(B)P(C)
Ejemplo: Sea = {1, 2, 3, 4} un espacio de equiprobabilidad. Denamos los eventos:
A = {1, 4} , B = {2, 4} , C = {3, 4}
Entonces:
P(A) =
1
2
, P(B) =
1
2
, P(C) =
1
2
P(AB) =
1
4
= P(A)P(B) , P(AC) =
1
4
= P(A)P(C) , P(BC) =
1
4
= P(B)P(C)
P(ABC) =
1
4
=
1
8
= P(A)P(B)P(C)
Luego A, B, C no son independientes.
Ejemplo: Sea = {1, 2, 3, 4, 5, 6, 7, 8} un espacio de equiprobabilidad. Denamos los eventos:
A = {1, 2, 3, 4} , B = {1, 2, 7, 8} , C = {1, 5, 6, 7}
Entonces:
P(A) =
1
2
, P(B) =
1
2
, P(C) =
1
2
P(AB) =
1
4
= P(A)P(B) , P(BC) =
1
4
= P(B)P(C) , P(AC) =
1
8
=
1
4
= P(A)P(C)
P(ABC) =
1
8
= P(A)P(B)P(C)
Luego A, B, C no son independientes.
Denici on 12 Se dice que los eventos A
1
, , A
n
son independientes sii para cualquier secuencia
estrictamente creciente 1 i
1
< < i
r
n de enteros, se verica
P (A
i
1
A
i
r
) =
r
j=1
P(A
i
j
)
Nota: Vemos que en general es necesario vericar
_
n
2
_
+
_
n
3
_
+ +
_
n
n
_
= 2
n
(n+1) condiciones
para asegurar la independencia de n eventos.
Propiedad 24 Supongamos que A
1
, , A
n
son independientes. Sean B
1
, , B
n
eventos tales
que
B
i
= A
i
o B
i
= A
i
(i = 1, , n)
Entonces B
1
, , B
n
son independientes.
Variables aleatorias - Distribuciones de probabilidad
16 Funciones
Sea
X
C una funcion. Recordemos que esto signica que X establece una correspondencia entre
elementos de y elementos de C con la caracterstica que a cada elemento de le asigna uno y solo
un elemento de C. Si dicha correspondencia asigna al elemento el elemento c C decimos
que c es el valor de X en o la imagen de por X, situacion que se anota X() = c.
El conjunto se denomina dominio de la funcion y suele anotarse Dom(X). La imagen o rango (o
a veces el recorrido) de X es el conjunto de todos los valores de X, es decir el conjunto formado por
todos los valores X() cuando recorre . Anotaremos la imagen de X como R
X
. Es decir:
R
X
= {X() : } = {c C : , c = X()}
Dado B C denimos la imagen inversa de B por X como el conjunto de todos los elementos de
cuyas imagenes por X pertenecen a B. Si anotamos X
1
(B) a la imagen inversa de B por
X esta denicion establece que
X
1
(B) = { : X() B}
Ejemplo: Sea R
X
R dada por X(t) = t
2
. En este caso la imagen o rango de X es R
X
= [0, ).
Por otra parte:
X
1
({4}) = {2, 2} , X
1
([4, )) = (, 2] [2, )
X
1
({0}) = {0} , X
1
({0, 2, 4, 7}) =
_
0,
2, 2,
7
_
X
1
((, 0)) = , X
1
(R) = R
Ejemplo: Sea {
1
,
2
,
3
,
4
}
X
R dada mediante la siguiente tabla de valores:
X()
1
2
2
1
3
1
4
0
Entonces por ejemplo:
X
1
({2}) = {
1
} X
1
({1}) = {
2
,
3
}
X
1
({0}) = {
4
} X
1
((, 0]) = {
4
}
X
1
((, 1]) = {
2
,
3
,
4
} X
1
((, 1]) =
Dado A R se denomina funcion indicadora o funcion caracterstica de A a la funcion I
A
: R
R dada por
I
A
(x) =
_
_
_
1 si x A
0 si x A
17 Variables aleatorias y funciones de distribuci
on
Cuando se realiza un experimento aleatorio existen diversas caractersticas observables o medibles. No
obstante ello, generalmente el experimentador centra su interes en algunas de estas caractersticas. Por
ejemplo, si el experimento consiste en lanzar un dado N = 10 veces, podramos interesarnos en las
siguientes caractersticas: cantidad de dados que salen 3, puntaje total obtenido, mnimo n umero
obtenido,etc. Cada una de estas caractersticas relaciona cada posible resultado del experimento
con un n umero real. As por ejemplo podemos considerar que puntaje total obtenido relaciona el
resultado = (1, 5, 4, 3, 4, 6, 5, 1, 2, 2) con el n umero real 1+5+4+3+4+6+5+1+2+2 = 33.
Esto motiva la siguiente denicion.
Denici on 13 Se denomina variable aleatoria (va) sobre un espacio de probabilidad (, , P) a
toda funci on X : R con la siguiente propiedad:
a R, X
1
((, a]) (2)
Las variables aleatorias suelen designarse mediante las ultimas letras del abecedario y en may usculas:
, P, , X, Y, Z. Tambien se las designa mediante alguna de estas letras junto con uno o m as
subndices, por ejemplo: X
1
, X
2
, S
12
Nota: Dados un n umero real a y una variables aleatoria X, puesto que seg un la denicion X es
una funcion de en R, tiene sentido calcular la imagen inversa de B = (, a] por X, que es
precisamente:
X
1
((, a]) = { : X() (, a]} = { : X() a}
En el contexto de variables aleatorias es frecuente una notacion alternativa y mucho mas frecuente
para las imagenes inversas por X. En general, para B R la imagen inversa de B por X se anota
tambien {X B}. Es decir:
{X B} = { : X() B} = X
1
(B)
Por lo tanto la denicion establece que una funcion X : R es una variable aleatoria sobre
(, , P) sii se cumple
x R, {X x}
Tengamos presente que cuando el espacio de probabilidad es nito (es decir cuando #() es nito)
y = P() es la -algebra de todos los subconjuntos de , entonces la condicion (2) es superua
puesto que se satisface automaticamente. Lo mismo ocurre cuando = {
1
,
2
, } es innito
numerable y cada {
n
} puesto que:
{X x} = {
n
: X(
n
) x} =
_
n=1
X(
n
)x
{
n
}
Siendo la union a lo sumo numerable y cada {} se deduce que {X x} .
Luego, en los casos donde el espacio de probabilidad es discreto, la nocion de variable aleatoria coincide
con la de funcion X : R.
Denici on 14 Sea X v.a. denida sobre un espacio de probabilidad (, , P). Se dice que X es
discreta sii existe A , A a lo sumo numerable y tal que P(X A) = 1.
Observemos que cuando el espacio muestral es nito cualquier variable aleatoria es discreta, pues basta
tomar A = .
Propiedad 25 Dada una v.a. discreta X existe un mnimo A con la propiedad que P(X
A) = 1
Dem:
Siendo X discreta, sea A tal que A es a lo sumo numerable y P(X A) = 1. Denamos
S
X
= {x R : P(X = x) > 0}. Entonces:
A = S
X
(A\ S
X
)
de manera que 1 = P
X
(A) = P
X
(S
X
) + P
X
(A \ S
X
). Mostraremos que P
X
(A \ S
X
) = 0. En
efecto: Anotemos B = A\ S
X
. En primer lugar, como B S
c
X
resulta x B, P
X
({x}) = 0.
Dado que A es a lo sumo numerable resulta B a lo sumo numerable. Luego:
P
X
(B) = P
X
_

xB
{x}
_
=
xB
P
X
({x}) = 0
Es decir que hemos demostrado que si A es a lo sumo numerable y P(X A) = 1 entonces
P(A\ S
X
) = 0
En particular: P
X
(S
X
) = 1. Es decir P(X S
X
) = 1.
Supongamos ahora que S
X
A. Entonces existira x
o
S
X
con x
o
A. Luego: P(X = x
o
) >
0. Entonces P
X
(X A {x
o
}) = P
X
(A) + P(X = x
o
) > P
X
(A) = 1. Absurdo. Entonces
necesariamente es S
X
A. Esto demuestra que:
P(X S
X
) = 1
Si A es a lo sumo numerable y P(X A) = 1 entonces S
X
A
Por lo tanto S
X
es el mnimo conjunto buscado
Denici on 15 Dada una variable aleatoria discreta X se denomina soporte (o rango esencial o
simplemente rango) de X al mnimo A tal que P(X A) = 1. Anotaremos R
X
al rango de X.
Cuando un experimento conduce a medir cantidades como peso, altura, temperatura, du-
racion, etc, es de esperar que dichas variables aleatorias no esten restringidas a un rango a lo sumo
numerable. Una posible clasicacion de las variables aleatorias es la siguiente:
variables aleatorias
_
_
_
discretas
continuas
mixtas
Son discretas aquellas variables aleatorias cuyo rango es a lo sumo numerable. Son continuas aquellas
que poseen una densidad (concepto que precisaremos mas adelante). Las mixtas son aquellas que
ni son discretas ni son continuas.
Ejemplo: Se lanza una moneda tantas veces como sea necesario hasta que sale cara. En este caso
= {C, SC, SSC, SSSC, } y consideramos = P().
Sea X = lanzamientos necesarios hasta obtener cara. Esta va. discreta tiene rango R
X
= N. Para
familiarizarnos con la notacion de imagen inversa vemos como ejemplo que:
{X 0} = , {X 5} = {C, SC, SSC, SSSC, SSSSC}
Ejemplo: Se lanza una moneda. Se tiene = {C, S}. Consideramos = P(). Sea X =
cantidad de caras obtenidas. Entonces R
X
= {0, 1}. En este caso:
{X x} =
_
_
_
si x < 0
{S} si 0 x < 1
{C, S} si x 1
Recordemos que una bola abierta en R
n
es el conjunto de todos los puntos de R
n
que distan de un
punto jo x
o
R
n
(llamado el centro de dicha bola) en menos que una cantidad > 0 (el radio de
la bola). Es decir
B
(x
o
) = {x R
n
: x x
o
< }
Un subconjunto A R
n
se dice abierto sii para cada x = (x
1
, , x
n
) A existe al menos una
nbola abierta en R
n
centrada en x y completamente contenida en A. Formalmente: A R
n
es
abierto sii se verica
x A, > 0 , y R
n
, y x < y A
Denici on 16 Se denomina - algebra de Borel en R a la mnima - algebra de subconjuntos de
R que contiene a todos los conjuntos de la forma (, x] con x R. Anotaremos B a esta
- algebra de subconjuntos de R.
Propiedad 26 Dada una variable aleatoria discreta X, se verica:
B B, P(X B) =
xBR
X
P(X = x)
Dem:
Como B = (B R
X
)
_
B R
c
X
_
se deduce que:
P
X
(B) = P
X
(B R
X
) +P
X
(B R
c
X
)
Pero como P
X
(R
X
) = 1 entonces P
X
(R
c
X
) = 0. Luego: P
X
(B R
c
X
) = 0, de manera que
P
X
(B) = P
X
(B R
X
) =
xBR
X
P(X = x)
Denici on 17 Sea (, , P) un espacio de probabilidad. Consideremos una variable aleatoria
X : R. La funci on P
X
: B R dada por E P(X E) se denomina funci on de
distribuci on de X.
Propiedad 27 La funci on de distribuci on P
X
de una variable aleatoria X es una funci on de
probabilidad sobre (R, B).
Dem: En lo que sigue B, B
n
B
P
X
(R) = P(X R) = P() = 1
P
X
(B) = P(X B) 0 pues P es una probabilidad y {X B}
Supongamos {B
n
} sucesion en B, tal que n = m B
n
B
m
= . Entonces:
P
X
_

n=1
B
n
_
= P
_
X
n=1
B
n
_
= P
_
X
1
_

n=1
B
n
__
=
= P
_

n=1
X
1
(B
n
)
_
=
n=1
P
_
X
1
(B
n
)
_
=
n=1
P (X B
n
)
puesto que los eventos {X B
n
} son disjuntos dos a dos.
Denici on 18 Sean X e Y variables aleatorias denidas sobre un mismo espacio de probabilidad.
Se dice que X e Y son equidistribuidas o identicamente distribuidas sii ambas poseen la misma
funci on de distribuci on, i.e. B B, P
X
(B) = P
Y
(B)
Nota: El hecho de ser X e Y equidistribuidas no signica que sean iguales. Esto se vera mas
adelante. Ejemplo: Un fabricante produce un artculo en dos variedades A y B. Desea recabar
informacion acerca de la preferencia de los consumidores. Para ello seleccionara al azar 30 clientes a
quienes se les preguntara si preeren A o B. Se trata de un experimento aleatorio en el cual el espacio
muestral puede denirse como el conjunto de todas las 30-uplas de 1s y/o 0s, donde un 1 en la
i-esima coordenada de la 30-upla indica que el i-esimo cliente encuestado preere la variedad A sobre
la B. Supongamos que estos 2
30
posibles resultados de la encuesta sean equiprobables. Consideremos
X = cantidad de consumidores que preeren A. Se tiene R
X
= {0, 1, , 30}. Calculemos para
cada 0 k 30, las probabilidades siguientes:
P (X = k) =
#{X=k}
#()
=
(
30
k
)
2
30
(k = 0, 1, , 30)
P (X k) =
k
j=0
P(X = j)
Graquemos los valores de X sobre el eje de abscisas y las probabilidades halladas anteriormente
sobre el eje de ordenadas:
k
P
(
X
=
k
)
0 5 10 15 20 25 30
0
.
0
0
.
0
2
0
.
0
4
0
.
0
6
0
.
0
8
0
.
1
0
0
.
1
2
0
.
1
4
k
P
(
X
<
=
k
)
0 5 10 15 20 25 30
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Denici on 19 Dada una variable aleatoria X : R se denomina funci on de distribuci on
acumulada (fda) de X a la funci on designada F
X
y denida por:
F
X
: R R dada por F
X
(x) = P (X x)
Nota: Para indicar que la variable aleatoria posee fda F anotamos X F.
Ejemplo: Se arroja tres veces una moneda normal. Sea X = cantidad de caras obtenidas. Entonces
R
X
= {0, 1, 2, 3}. La funcion de distribucion acumulada de X es
F
X
(x) =
_
_
0 si x < 0
1/8 si 0 x < 1
1/2 si 1 x < 2
7/8 si 2 x < 3
1 si x 3
Distribucion binomial acumulada
x
F
(
x
)
-1 0 1 2 3 4
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
)
)
)
)
Ejemplo: Se arroja una moneda normal hasta que sale cara.
Sea X = cantidad de lanzamientos antes que salga cara. Se tiene R
X
= {0, 1, 2, 3, }. La fda
de X es:
F
X
(x) =
_
_
0 si x < 0
1/2 si 0 x < 1
1/2 + 1/4 si 1 x < 2
1/2 + 1/4 + 1/8 si 2 x < 3
.
.
.
.
.
.
.
.
.
k+1
i=1
_
1
2
_
i
si k x < k + 1
.
.
.
.
.
.
.
.
.
Propiedad 28 Sea X una variable aleatoria con funci on de distribuci on acumulada F
X
. Se cumple:
i) x R, 0 F
X
(x) 1
ii) F
X
es no decreciente, es decir: x, y R, x < y F
X
(x) F
X
(y)
iii) F
X
es continua por la derecha, es decir: x R, lim
t x
+
F
X
(t) = F
X
(x)
iv) lim
x
F
X
(x) = 0 y lim
x
F
X
(x) = 1
Dem:
i) Evidente pues F
X
(x) = P(X x) es una probabilidad.
ii) Sean x, y R con x < y. Entonces {X x} {X y}. Por lo tanto F
X
(x) =
P (X x) P (X y) = F
X
(y)
iii) Siendo F
X
no decreciente sabemos que para todo x R, lim
t x
+
F
X
(t) existe (es nito). Como
_
x +
1
n
_
es una sucesion de terminos a la derecha de x y tal que lim
n
_
x +
1
n
_
= x, en-
tonces lim
t x
+
F
X
(t) = lim
n
F
X
_
x +
1
n
_
. Pero: {X x} =
n=1
_
X x +
1
n
_
. Como esta
interseccion es decreciente, pues
_
X x +
1
n+1
_

_
X x +
1
n
_
, entonces por propiedad
de una funcion de probabilidad es P (X x) = lim
n
P
_
X x +
1
n
_
. Luego:
F
X
(x) = P(X x) = lim
n
P
_
X x +
1
n
_
= lim
n
F
X
_
x +
1
n
_
= lim
t x
+
F
X
(t)
iv) Dado que = {X R} =
n=1
{X n} y siendo la union creciente, por propiedad de una
funcion de probabilidad se tiene lim
n
F
X
(n) = lim
n
P(X n) = P() = 1. Pero siendo
F
X
no decreciente y acotada resulta lim
x
F
X
(x) = lim
n
F
X
(n). Entonces:
lim
x
F
X
(x) = lim
n
F
X
(n) = 1
La demostracion del otro lmite es analoga y queda a cargo de ustedes.
Teorema 6 Sea F : R R una funci on. Se cumple:
F satisface las propiedades siguientes:
i) F es no decreciente en R.
ii) F es continua a derecha en R
iii) lim
x
F(x) = 0 y lim
x
F(x) = 1
si y s olo si F es la funci on de distribuci on de probabilidad acumulada de cierta variable aleatoria.
Dem: ) Ya se demostro (Prop. anterior)
) La demostracion excede el alcance y los objetivos de este curso de modo que la omitimos. Solo
comentare que es necesario demostrar que existe cierto espacio de probabilidad (, , P) y cierta
variable aleatoria X en dicho espacio, tal que F
X
= F
Ejemplo: Consideremos la funcion
F(x) =
_
1 e
x
si x 0
0 si x < 0
El teorema anterior permite demostrar la existencia de una variable aleatoria X (denida en cierto
espacio de probabilidad) tal que F = F
X
. En efecto:
F es no decreciente.
F es continua a derecha en R. De hecho F continua en R
Se tiene
lim
x
F(x) = lim
x
0 = 0 y lim
x
F(x) = lim
x
_
1 e
x
_
= 1
La graca de F tiene el siguiente aspecto:
x
F
(
x
)
-2 0 2 4 6 8 10
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Propiedad 29 Sean X una variable aleatoria, x
o
R. Se cumple:
i) F
X
(x
o
) F
X
(x
o
) = P(X = x
o
)
ii) F
X
es continua a izquierda en x
o
sii P(X = x
o
) = 0
iii) F
X
posee una cantidad a lo sumo numerable de discontinuidades.
Dem:
i) Utilizando las propiedades de continuidad de una probabilidad resulta:
F
X
(x
o
) = lim
xx
o
F
X
(x) = lim
xx
o
P(X x) = lim
n
P(X x
o
1/n) =
= P
_

n=1
{X x
o
1/n}
_
= P(X < x
o
)
Por lo tanto: P(X = x
o
) = P(X x
o
) P(X < x
o
) = F
X
(x
o
) F
X
(x
o
)
ii) Evidente a partir de i).
iii) Si F
X
es discontinua en x
o
entonces P(X = x
o
) > 0. Anotemos A = {x
0
R : P(X = x
o
) > 0}.
Queremos ver que A es a lo sumo numerable. Pero:
A =
_
k=1
A
k
donde A
k
= {x
0
R : P(X = x
o
) > 1/k}
Bastara entonces mostrar que los A
k
son nitos. Supongamos por el absurdo que existiera k tal
que A
k
fuera innito. Entonces existira una sucesion de terminos todos distintos {x
n
} tal que
n, x
n
A
k
. Luego:
P(A) P
_

n=1
{x
n
}
_
=
n=1
P ({x
n
}) =
dado que la serie posee termino general que no tiende a cero. Absurdo. Luego los A
k
son todos
nitos, con lo cual A es a lo sumo numerable
Propiedad 30 Sea X una variable aleatoria y sea F
X
su fda. Dados a, b R, a b, se cumple:
i) P(a < X b) = F
X
(b) F
X
(a)
ii) P(a X b) = F
X
(b) F
X
(a)
iii) P(a < X < b) = F
X
(b) F
X
(a)
iv) P(a X < b) = F
X
(b) F
X
(a)
Dem:
Demostremos i):
{a < X b} = {X b} \ {X a}
Entonces
P (a < X b) = P(X b) P(X a) = F
X
(b) F
X
(a)
Denici on 20 Para n N, se denomina sucesi on de n ensayos de Bernoulli a todo experimento
aleatorio que consiste en repetir n veces un ensayo sujeto a las siguientes condiciones:
Las n repeticiones son independientes entre s.
Cada ensayo tiene s olo dos posibles resultados, digamos E (exito) y F (fracaso).
La probabilidad de E es la misma en cada uno de los n ensayos.
Es frecuente denotar la probabilidad de fracaso en cada ensayo individual por q. De modo que
p+q = 1, es decir q = 1p. El espacio muestral asociado a una sucesion de n ensayos de Bernoulli
es = {(
1
, ,
n
) :
i
{E, F} , 1 i n}. As, el experimento consta de 2
n
posibles
resultados. Notemos que, salvo cuando p = 1/2, los eventos elementales no son equiprobables. De
hecho:
P ({}) = p
r
q
nr
sii posee exactamente r exitos
Ejemplo: Se arroja 5 veces un dado normal. En cada lanzamiento llamemos E = sale 3, de modo
que F = no sale 3. Se trata de una sucesion de n = 5 ensayos de Bernoulli con probabilidad de
exito p = 1/6 en cada ensayo. Entonces, por ejemplo:
P ({(3, 1, 1, 3, 6)}) =
_
1
6
_
2
_
5
6
_
3
Ejemplo: Se arroja 5 veces un dado normal. En cada lanzamiento llamemos E = sale m ultiplo de 3,
de modo que F = no sale m ultiplo de 3. Se trata de una sucesion de n = 5 ensayos de Bernoulli
con probabilidad de exito p = 1/3 en cada ensayo. Entonces, por ejemplo:
P ({(3, 1, 1, 3, 6)}) =
_
1
3
_
3
_
2
3
_
2
Ejemplo: Dada un sucesion de n ensayos de Bernoulli, con probabilidad de exito p en cada ensayo,
sea X = cantidad de exitos en los n ensayos. Esta variable aleatoria tiene R
X
= {0, 1, 2, , n}.
El evento {X = k} estara formado por todos aquellos resultados elementales que consten exac-
tamente de k exitos y n k fracasos. Dado que cada uno de ellos tiene probabilidad
individual p
k
(1 p)
nk
, para calcular la probabilidad de {X = k} bastara multiplicar dicha
probabilidad individual por la cantidad total de resultados elementales que consten de exactamente
k exitos y n k fracasos, es decir
_
n
k
_
. Entonces se tiene: P(X = k) =
_
n
k
_
p
k
(1 p)
nk
(k = 0, 1, , n)
Ejemplo: Consideremos un ensayo aleatorio con dos resultados posibles exito y fracaso, donde la
probabilidad de exito es 0 < p < 1. Nuestro experimento aleatorio consiste en repetir el ensayo en
forma independiente hasta obtener el primer exito. El espacio muestral puede representarse como
= {E, FE, FFE, FFFE, }. Los resultados elementales no son equiprobables. De hecho:
P
_
_
_
_
_
F F
. .
k
E
_
_
_
_
_
= (1 p)
k
p
Sea X = cantidad de ensayos hasta obtener exito, de modo que R
X
= N. Se tiene: P(X = k) =
(1 p)
k1
p , k = 1, 2, Hallemos la fda de la variable aleatoria X. Para x 0 se tiene:
F
X
(x) = P(X x) =
[x]
k=1
(1 p)
k1
p = p
1 q
[x]
1 q
= 1 q
[x]
donde [x] simboliza la parte entera de x, es decir el mayor entero que es menor o igual que x. Por
ejemplo: [4] = 4 , [4, 1] = 4 , [3, 9] = 3. Entonces:
F
X
(x) =
_
0 si x < 1
1 q
[x]
si x 1
Denici on 21 Dada una variable aleatoria X se denomina funci on de probabilidad puntual o funci on
de masa de probabilidad (fmp) de X a la funci on
p
X
: R R dada por p
X
(x) = P(X = x)
Nota: Cuando la variable aleatoria X es discreta, con rango R
X
= {x
n
}, la fmp p
X
de
X queda unvocamente determinada conociendo los valores p
n
= p
X
(x
n
). Por este motivo nos
referiremos indistintamente a p
X
o a {p
n
} cuando X sea discreta. Ejemplo: Consideremos
una sucesion de n ensayos de Bernoulli con probabilidad de exito p en cada ensayo. Sea X =
cantidad de exitos en los n ensayos. En este caso R
X
= {0, 1, , n}. La fmp de X es:
p
X
(x) =
_ _
n
x
_
p
x
(1 p)
nx
si x {0, 1, , n}
0 si x {0, 1, , n}
Graquemos esta fdp en el caso n = 10, para p = 1/2 y luego para p = 1/4
p=0.5
x
f
d
p
(
x
)
0 2 4 6 8 10
0
.
0
0
.
0
5
0
.
1
0
0
.
1
5
0
.
2
0
0
.
2
5
0
.
3
0
p=0.25
x
f
d
p
(
x
)
0 2 4 6 8 10
0
.
0
0
.
0
5
0
.
1
0
0
.
1
5
0
.
2
0
0
.
2
5
0
.
3
0
Propiedad 31 Para toda variable aleatoria X se cumple: x R, p
X
(x) = F
X
(x) F
X
(x)
Dem: Podemos escribir {X < x} =
n=1
_
X x
1
n
_
. Esta union es creciente de manera que
por propiedades de las funciones de probabilidad vale: P(X < x) = lim
n
P
_
X x
1
n
_
=
lim
n
F
X
_
x
1
n
_
= F
X
(x). Entonces p
X
(x) = P(X = x) = P(X x) P(X < x) =
F
X
(x) F
X
(x)
Nota: Observese que F
X
(x
o
)F
X
(x
o
) representa el valor del salto de la fda de X en el punto
x = x
o
. Cuando F
X
es continua en x
o
entonces no hay salto all y en consecuencia la fmp de X es
nula en x = x
o
.
Propiedad 32 Sean X e Y variables aleatorias denidas sobre un mismo espacio de probabilidad.
Se verica: X e Y son identicamente distribuidas sii x R, F
X
(x) = F
Y
(x)
Dem: ) Supongamos X e Y identicamente distribuidas. Sea x R arbitrario. Entonces
(, x] B de modo que F
X
(x) = P(X (, x]) = P(Y (, x]) = F
Y
(x). Luego,
X e Y poseen la misma fda.
) Supongamos que F
X
= F
Y
. Consideremos la clase G de todos los miembros de B donde
P
X
coincide con P
Y
, es decir:
G = {B B : P
X
(B) = P
Y
(B)} = {B B : P(X B) = P(Y B)}
Por construccion es G B. Ademas por hipotesis, tomando B = (, x] se tiene P
X
(B) =
F
X
(x) = F
Y
(x) = P
Y
(B), de modo que G contiene a todos los subconjuntos de R de la forma
(, x] con x R. Pero dado que B es la mnima -algebra de subconjuntos de R que contiene
a todos los conjuntos de la forma (, x], resulta G B. Por lo tanto: G = B. Esto signica que
B B, P
X
(B) = P
Y
(B)
Ejemplo: Se arroja una moneda normal 3 veces. Sean X = cantidad de caras obtenidas e Y =
cantidad de cecas obtenidas. Veamos que X e Y son identicamente distribuidas. En efecto, dado
que en cada ensayo la probabilidad de cara es igual a la probabilidad de ceca, se tiene:
F
X
(x) =
[x]
k=0
_
3
k
__
1
2
_
3
= F
Y
(x)
Observemos, de paso, que X = Y . Por ejemplo, para = (C, C, S) es X() = 2 en tanto que
Y () = 1
Propiedad 33 Sea X una variable aleatoria discreta con rango R
X
= {x
n
}. La fmp de X verica
las propiedades siguientes:
i) x R, p
X
(x) 0
ii)
n=1
p
X
(x
n
) = 1
Dem:
= {X R
X
} =
n=1
{X = x
n
} siendo la union disjunta. Por lo tanto: 1 = P() =
n=1
P ({X = x
n
}) =
n=1
p
X
(x
n
)
Propiedad 34 Sea X una variable aleatoria discreta con rango R
X
= {x
n
}. La fmp de X determina
unvocamente su fda. En efecto:
F
X
(x) = P(X x) = P
_
_
_
_
n=1
x
n
x
{X = x
n
}
_
_
_
=
n=1
x
n
x
P(X = x
n
) =
n=1
x
n
x
p
X
(x
n
)
Ejemplo: Se lanzan dos dados. Consideremos la variable aleatoria X
i
= n umero del dado i (i =
1, 2). Sea X = maximo n umero en los dos dados. Es decir: X = max {X
1
, X
2
}. Hallemos la
fmp y la fda de X.
Hallemos primeramente las fmp de X
1
y X
2
. Se tiene: R
X
1
= R
X
2
= {1, 2, , 6} y por
equiprobabilidad vale:
p
X
1
(k) = p
X
2
(k) = 1/6 (k = 1, 2, , 6)
Por lo tanto:
F
X
1
(x) = F
X
2
(x) =
6
k=1
kx
1
6
=
[x]
6
Observemos ahora que
{X x} = {X
1
x} {X
2
x}
Por lo tanto y teniendo en cuenta la independencia de ambos lanzamientos:
F
X
(x) = P(X x) = P ({X
1
x} {X
2
x}) =
= P(X
1
x)P(X
2
x) = F
X
1
(x)F
X
2
(x) =
_
[x]
6
_
2
=
[x]
2
36
Luego, para k = 1, 2, , 6 se tiene:
p
X
(k) = P(X k) P(X k 1) = F
X
(k) F
X
(k 1) =
k
2
(k 1)
2
36
=
2k 1
36
Generalicemos esta situacion para el experimento que consiste en arrojar una dado normal n-veces.
Denamos:
X
i
= n umero obtenido en el i-esimo lanzamiento
X = maximo n umero obtenido en los n lanzamientos
Como antes: {X k} =
n
i=1
{X
i
k} Por lo tanto, teniendo en cuenta la independencia de los
n lanzamientos, resulta:
P(X x) = P
_
n
i=1
{X
i
x}
_
=
n
i=1
P(X
i
x) =
=
n
i=1
F
X
i
(x) =
n
i=1
[x]
6
=
_
[x]
6
_
n
Luego, para k = 1, 2, , 6 se tiene:
p
X
(k) = F
X
(k) F
X
(k 1) =
_
k
6
_
n
_
k 1
6
_
n
=
k
n
(k 1)
n
6
n
La propiedad anterior no es valida para variables aleatorias no discretas. De hecho, existen fda que son
funciones continuas en todo R. Si X una tal variable aleatoria entonces x R, F
X
(x) = F
X
(x).
Por lo tanto:
P(X = x) = P(X x) P(X < x) = F
X
(x) F
X
(x) = 0
Es decir, para variables aleatorias continuas la fmp carece por completo de interes dado que es
identicamente nula.
Propiedad 35 Sea {p
n
} una sucesi on tal que:
i) n N, p
n
0
ii)
x=1
p
n
= 1
Entonces {p
n
} es una fmp.
Dem:
Denamos F(x) =
n=1
nx
p
n
. Dejo a cargo de ustedes vericar que F satisface las condiciones para
ser una fda (Teorema 1)
Motivaremos ahora la nocion de variable aleatoria continua.
Ejemplo: Consideremos una poblacion formada por un gran n umero N = 1000 de personas. Supong-
amos que nos interesa la distribucion de la variable aleatoria X que mide la altura de un individuo
seleccionado al azar dentro de esta poblacion. Supongamos para jar ideas que las alturas se miden
en cm y que se encuentran en el intervalo [150, 190] Dado el gran n umero de personas en la poblacion
podemos tener una idea aproximada de la distribucion de alturas dividiendo el intervalo [150, 190]
en cuatro subintervalos de igual longitud [150, 160) , [160, 170) , [170, 180) , [180, 190) y de-
terminando las frecuencias, es decir la cantidad de individuos cuyas alturas caen en el respectivo
subintervalo. Para jar ideas, supongamos que tales frecuencias resulten como muestra la tabla:
Intervalo f(frecuencia) fr(frecuencia relativa) fr/(longitud subintervalo)
[150, 160) 80 0.10 0.01
[160, 170) 150 0.25 0.025
[170, 180) 500 0.50 0.05
[180, 190) 150 0.15 0.015
Si tomamos el extremo izquierdo de cada subintervalo como representativo de un valor en dicho subin-
tervalo, la tabla anterior provee una variable aleatoria discreta D que aproxima a la variable aleatoria
X y que toma los cuatro valores 150, 160, 170, 180 con probabilidades dadas por la columna fr y
que podemos resumir en esta otra tabla:
k p
D
(k) p
D
(k)/(long.subintervalo)
150 0.10 0.01
160 0.25 0.025
170 0.50 0.05
180 0.15 0.015
Para obtener una variable aleatoria discreta cuya distribucion represente mas elmente la distribucion
de X podemos renar nuestra particion del intervalo original [150, 190] y recalcular la fmp de la
variable discreta obtenida. Siguiendo de este modo, aumentando cada vez la cantidad de subinterva-
los y reduciendo la longitud de los mismos (norma tendiendo a cero) e imaginando que la poblacion
es tan grande que puede suponerse innita y por ende este proceso podra segir indenidamente,
obtendramos por lo general una situacion como se muestra en los gracos siguientes, en la que se
graca p
D
/(long.subintervalo) versus x para particiones con norma cada vez menor. Comente-
mos algunas caractersticas interesantes acerca de estos gracos:
Permiten reconstruir la fmp de la v.a.discreta simplemente hallando el area de cada rectangulo.
Dado que hemos considerado unicamente particiones regulares, los rectangulos mas altos y los
mas bajos permiten visualizar los valores mas probables y los menos probables de la variable
discreta y, como la discreta aproxima a la v.a. X, tambien podemos localizar los intervalos
donde X cae con mayor y con menor probabilidad.
Cuidado: Las alturas de los rectangulos no dan probabilidades sino probabilidades por unidad
de longitud.
Si la variable aleatoria X es discreta, el proceso deja de ser informativo dado que a partir de
cierto momento habra una enorme cantidad de subintervalos donde fr/L (L la long. del
subintervalo) sera nula y algunos otros (a lo sumo tantos como valores tome la v.a. X) donde
fr/L sera muy grande (pues L tiende a cero en tanto que fr permanecera ja). En el lmite
podramos decir que las gracas tienden a ser nulas salvo en una cantidad a lo sumo numerable
de picos innitos.
La suma de las areas de los rectangulos es 1
Las gracas de las alturas de los rectangulos se asemejan cada vez mas a la graca de una
funcion, digamos f(x), de argumento continuo.
150 160 170 180 190
0
.
0
0
.
0
1
0
.
0
3
0
.
0
5
x
150 160 170 180 190
0
.
0
0
.
0
1
0
.
0
3
0
.
0
5
x
150 160 170 180 190
0
.
0
0
.
0
1
0
.
0
3
0
.
0
5
x
150 160 170 180 190
0
.
0
0
.
0
1
0
.
0
3
0
.
0
5
x
Este ejemplo motiva la denicion que sigue.
Denici on 22 Se dice que una variable aleatoria X es continua (o m as precisamente absolutamente
continua) sii existe al menos una funci on f
X
: R R tal que:
i) x R, f
X
(x) 0
ii) A B, P(X A) =
_
A
f
X
(x) dx
Una tal funci on f
X
se denomina una funci on de densidad de probabilidad (fdp) de X o de F
X
.
Nota:
Dado que la integral involucrada en esta denicion puede ser impropia, se presupone su conver-
gencia.
Tomando A = (, x] se tiene que F
X
(x) =
x
_
f
X
(t) dt
En particular, si f
X
sea una funcion continua en el intervalo (a, b) resulta F
X
derivable en
(a, b) y vale x (a, b) , F
X
(x) = f
X
(x).
Observemos que
f
X
(x) dx = P(X R) = 1. Es decir, el area bajo la curva y =
f
X
(x) es igual a 1. Esto implica que una fdp, a diferencia de una fda, no puede ser monotona
puesto que para la convergencia de esta integral impropia es necesario que se verique:
lim
x
f
X
(x) = 0 y lim
x
f
X
(x) = 0
Si X es variable aleatoria continua entonces para cualquier intervalo I R de extremos a y
b se tiene
P(X I) = F
X
(b) F
X
(a) =
b
_
f
X
(x) dx
a
_
f
X
(x) dx =
b
_
a
f
X
(x) dx
Si f
X
es continua en x, entonces f
X
(x) = F
X
(x) de modo que se tiene la siguiente
interpretacion de la fdp:
f
X
(x) = lim
h0+
f
X
(x+h)F
X
(x)
h
= lim
h0+
P(Xx+h)P(Xx)
h
=
= lim
h0+
P(x<X<x+h)
h
Es decir que f
X
(x) representa la probabilidad de que X pertenezca al intervalo (x, x +
h) dividida por la longitud de dicho intervalo. De ah el nombre densidad de probabilidad.
Ejemplo: Sea F : R R dada por F(x) =
1
1+e
x
. Comprueben que F satisface las condiciones
de una fda, es decir que existe una variable aleatoria X tal que F = F
X
. Esta va es continua.
Hallemos su fdp:
f
X
(x) = F
X
(x) =
d
dx
1
1+e
x
=
e
x
(1+e
x
)
2
=
e
x
(1+e
x
)
2
Propiedad 36 Sea f : R R una funci on satisfaciendo las siguientes condiciones:
i) x R, f(x) 0
ii)
f(x) dx = 1
Entonces f una fdp.
Dem: Denamos F : R R por F(x) =
x
_
f(t) dt. Vamos a vericar que esta F es una fda.

F es no decreciente pues si x, y R con x < y se tiene:
F(x) =
x
_
f(t) dt
y
_
f(t) dt = F(y)
ya que f 0 y (, x) (, y)
Para cualquier x R es F continua en x. Solo demostraremos esto en el caso partirular en
que f es continua en x. En tal caso el teorema fundamental del calculo asegura que:
lim
h0
1
h
x+h
_
x
f(t) dt = f(x)
Entonces:
lim
h0
F(x +h) F(x) = lim
h0
_
x+h
_
f(t) dt
x
_
f(t) dt
_
= lim
h0
x+h
_
x
f(t) dt =
= lim
h0
_
h
1
h
x+h
_
x
f(t) dt
_
= 0 f(x) = 0
Por lo tanto lim
h0
F(x +h) F(x) = 0. Es decir: lim
h0
F(x +h) = F(x)
Finalmente:
lim
x
F(x) = lim
x
x
_
f(t) dt =
f(t) dt = 0
lim
x
F(x) = lim
x
x
_
f(t) dt =
f(t) dt = 1
Esto demuestra que F es una fda. Entonces por teorema 1 existe una variable aleatoria con fda F (y
por ende, con fdp f)
Denici on 23 Sea f una fdp. Se denomina soporte de f al menor conjunto cerrado que contiene
al conjunto {x R : f(x) > 0}. Anotaremos R
X
al soporte de f.
Propiedad 37 Sean X v.a. continua con fdp f
X
y sea B B. Entonces: P(X B) = P(X
B R
X
)
Dem:
P(X B) =
_
B
f
X
(x) dx =
_
BR
X
f
X
(x) dx +
_
BR
c
X
f
X
(x) dx =
_
BR
X
f
X
(x) dx =
P(X B R
X
) puesto que
_
BR
c
X
f
X
(x) dx =
_
BR
c
X
0 dx = 0
Propiedad 38 La funci on f(x) =
1
2
e
x
2
/2
es una fdp.
Dem:
Claramente: x R, f(x) > 0. Por otra parte:
_

_
2
e
x
2
/2
dx
_
2
=
_

_
2
e
x
2
/2
dx
_
_

_
2
e
y
2
/2
dy
_
=
=
1
2
e
(x
2
+y
2
)/2
dy dx =
_
0
2
_
0
1
2
e
r
2
/2
r d dr =
=
_
0
e
r
2
/2
r dr =
_
0
e
t
dt = e
t
0
= 1
En lo anterior hemos utilizado coordenadas polares (se multiplico por r, el modulo del jacobiano).
Luego, el cuadrado de la integral es 1. Pero siendo positiva la integral (pues f es positiva), resulta
necesariamente:
2
e
x
2
/2
dx = 1
Esta fdp es sumamente importante en estadstica y se denomina densidad gaussiana (es frecuente
llamarla tambien densidad normal standard). Suele anotarse (x).
Ejemplo: Sea
f(x) =
_
kx si 0 < x < 1
0 si x 0 x 1
Determinar el valor de la constante k de modo que f resulte ser una fdp. Hallar tambien la fda.
En primer lugar debe ser
f(x) dx = 1. En este caso:

1 =
1
_
0
kxdx = k
x
2
2
1
0
=
k
2
Por lo tanto k = 2. Hallemos la fda asociada:
F(x) =
x
_
f(t) dt =
_
_
0 si x 0
x
_
0
2t dt si 0 < x < 1
1 si x 1
=
_
_
_
0 si x 0
x
2
si 0 < x < 1
1 si x 1
Nota: El soporte de f en este ejemplo es [0, 1].
Ejemplo: El tiempo T en horas que funciona una computadora antes de descomponerse es una v.a.
continua con fdp dada por:
f
T
(t) =
_
_
_
e
t/100
si t 0
0 si t < 0
Calcular la probabilidad de que una computadora funcione entre 50 y 150 horas antes de descompon-
erse. Calcular tambien la probabilidad de que funciones menos de 100 horas.
Rta: Primero debemos hallar . Siendo f
T
una fdp se tiene:
1 =
_

f
T
(t) dt =
_

0
e
t/100
dt = 100 e
t/100
0
= 100
Luego = 1/100. Entonces la probabilidad de funcionar entre 50 y 150 horas es:
P(50 < T < 150) =
_
150
50
1
100
e
t/100
dt = e
t/100
150
50
= e
0.5
e
1.5
0.384
La probabilidad de que funcione menos de 100 horas viene dada por:
P(T < 100) =
_
100
0
1
100
e
t/100
dt = e
t/100
100
0
= 1 e
1
0.633
18 Cuantiles de una distribuci
on
Denici on 24 Sea X una variable aleatoria con fda F
X
. Dado R, 0 < < 1, un n umero
real x
se dice un -cuantil de F
X
o de X sii se verican:
P(X < x
) y P(X > x
) 1
Equivalentemente, x
es un -cuantil de F
X
sii se cumplen:
P(X < x
) y P(X x
)
Suponiendolos unicos, cuando = 0.5 hablamos de la mediana de F
X
, cuando = 0.25 hablamos
del primer cuartil de F
X
y para = 0.75 hablamos del tercer cuartil de X. Cuando se consideran
cuantiles asociados a una divisi on del intervalo (0, 1) en cien partes iguales es frecuente hablar de
percentiles de F
X
.
Nota: Cuando X es variable aleatoria continua (es decir que F
X
es funcion continua) la condicion
anterior se expresa de manera mas simple:
x
es cuantil de F
X
sii F(x
) = sii
_
x
f
X
(x) dx = sii P(X x
) =
De manera mas graca, el cuantil de una distribucion continua es el punto del eje de abscisas que
deja a su izquierda y por debajo de la graca de f
X
(obviamente por encima del eje de abscisas) un
area exactamente igual a . Equivalentemente si se graca F
X
(siempre supuesta continua), hallar
el cuantil de F
X
es hallar la abscisa del punto de la graca que posee ordenada igual a
Ejemplo: Si X es una variable aleatoria con distribucion gaussiana standard entonces la mediana es
x
0.5
= 0 pues debido a la paridad de la fdp se tiene:
F
X
(0) =
0
_
(x) dx =
1
2
(x) dx = 0.5
El cuantil = 0.05 se determina planteando (x
0.05
) = 0.05. Entonces x
0.05
=
1
(0.05). Para
calcularlo en forma concreta podemos utilizar tablas normales acumulativas o podemos por ejemplo
recurrir al SPlus. Para ilustrar un poco mas, veamos la siguiente tabla (junto con los comandos
utilizados):
p_c(0.01,0.05,0.1)
alfa_c(p,0.5,1-rev(p))
round(qnorm(alfa),3)
x
0.01 2.326
0.05 1.645
0.1 1.282
0.5 0.000
0.9 1.282
0.95 1.645
0.99 2.326
Ejemplo: Sea X Bi(n, 0.5). Veamos que la mediana es unica cuando n par pero deja de serlo
cuando n es impar.
Si n = 2r entonces x
0.5
= r pues:
P(X < r) =
r1
k=0
_
2r
k
_ _
1
2
_
2r
=
_
1
2
_
2r
r1
k=0
_
2r
k
_
P(X > r) =
2r
j=r+1
_
2r
j
_ _
1
2
_
2r
=
_
1
2
_
2r
2r
j=r+1
_
2r
j
_
=
=
_
1
2
_
2r
2r
j=r+1
_
2r
2rj
_
=
_
1
2
_
2r
r1
k=0
_
2r
k
_
Entonces P(X < r) = P(X > r). Pero P(X < r) +P(X = r) +P(X > r) = 1. Luego:
P(X < r) =
1P(X=r)
2
0.5 y P(X > r) = P(X < r) 0.5 = 1 0.5
Si n = 2r 1 entonces cualquier punto del intervalo (r 1, r] es una posible mediana de X.
En efecto: Sea x
(r 1, r]. Se tiene
P(X < x
) =
r1
k=0
_
2r1
k
_ _
1
2
_
2r1
=
_
1
2
_
2r1
r1
k=0
_
2r1
k
_
P(X > x
) =
2r1
j=r
_
2r1
j
_ _
1
2
_
2r1
=
_
1
2
_
2r1
2r1
j=r
_
2r1
j
_
=
=
_
1
2
_
2r1
2r1
j=r
_
2r1
2r1j
_
=
_
1
2
_
2r1
r1
k=0
_
2r1
k
_
Luego: P(X < x
) = P(X > x
). Pero como P(X < x
) + P(X > x
) = 1,
necesariamente es P(X < x
) = P(X > x
) = 1/2. Luego: P(X < x
) 0.5 y
P(X > x
) 1 0.5 = 0.5
Familias parametricas de distribuciones univariadas
19 Distribuciones discretas
19.1 Distribuci on uniforme discreta
Dado N N, se dice que una v.a. tiene distribucion uniforme discreta en {1, , N} sii su fmp
viene dada por:
p
X
(X = k) =
1
N
(1 k N)
Observese que R
X
= {1, , N} y esta distribucion de probabilidades es uniforme en el sentido
que deposita la misma masa de probabilidad en cada uno de los N posibles valores 1, , N de X.
Podemos comprobar que p
X
verica los axiomas de una fmp:
k R
X
, p
X
(k) = 1/N 0
k=1
p
X
(k) =
N
k=1
1
N
= N
1
N
= 1
Ejemplo: Se arroja un dado equilibrado. Sea X el puntaje obtenido. En este caso X posee
distribucion uniforme discreta en {1, , 6}
Ejemplo: Se extrae una carta al azar de un mazo de cartas espa nolas. Sea X la v.a. denida por
X =
_
_
1 si sale carta de oro
2 si sale carta de copa
3 si sale carta de espada
4 si sale carta de basto
Entonces X posee distribucion uniforme discreta en {1, 2, 3, 4}
Ejemplo: Un sereno tiene un llavero con n llaves y solo una de ellas abre la puerta de su habitacion,
pero no recuerda cual. Decide probarlas una por una (separando las que no abren) hasta lograr
abrir la puerta. Sea X el n umero de ensayos que necesita hasta abrir la puerta, de manera que
R
X
= {1, 2, , n}. Veamos que X posee distribucion uniforme discreta en {1, 2, , n}. En
efecto:
P(X = 1) =
1
n
P(X = 2) =
(n1)1
n(n1)
=
1
n
P(X = 3) =
(n1)(n2)1
n(n1)(n2)
=
1
n
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
P(X = n) =
(n1)(n2)21
n!
=
1
n
19.2 Distribuci on binomial
Una variable aleatoria X se dice con distribucion binomial de parametros n, p, siendo n N y
p R, 0 < p < 1, sii su fmp viene dada por:
p
X
(k) =
_
n
k
_
p
k
(1 p)
nk
(0 k n)
En tal caso anotamos X Bi(n, p). Observese que R
X
= {0, 1, , n}. Comprobemos que
p
X
verica los axiomas de una fmp:
k R
X
, p
X
(k) =
_
n
k
_
p
k
(1 p)
nk
0
k=0
p
X
(k) =
n
k=0
_
n
k
_
p
k
(1 p)
nk
= (p + (1 p))
n
= 1
Ademas la fda de X viene dada por:
F
X
(x) =
[x]
k=0
_
n
k
_
p
k
(1 p)
nk
Cuando p = 1/2 la fmp resulta simetrica con centro de simetra x
= n/2. En efecto: Consideremos

por separado los casos n par e impar.
n impar. Anotemos n = 2r 1. En este caso el simetrico de x = r j respecto de
x
= r 1/2 es x = 2x
(r j) = 2
_
r
1
2
_
(r j) = 2r 1 r +j = r +j 1
p
X
(r j) =
_
2r 1
r j
_ _
1
2
_
n
p
X
(r +j 1) =
_
2r 1
r +j 1
_ _
1
2
_
n
Pero
_
2r 1
r j
_
=
_
2r 1
(2r 1) (r j)
_
=
_
2r 1
r +j 1
_
n par. Anotemos n = 2r. En este caso el simetrico de x = r j respecto de x
= r es
x = 2x
(r j) = 2
2r
2
(r j) = 2r (r j) = r +j
p
X
(r j) =
_
2r
r j
_ _
1
2
_
n
p
X
(r +j) =
_
2r
r +j
_ _
1
2
_
n
Pero
_
2r
r j
_
=
_
2r
(2r) (r j)
_
=
_
2r
r +j
_
La distribucion binomial Bi(n, p) frecuentemente surge cuando se mide la cantidad de exitos en
una sucesion de n ensayos de Bernoulli con probabilidad de exito p en cada ensayo individual.
Notese que en tal caso la distribucion del n umero de fracasos es una variable aleatoria con distribucion
Bi(n, 1 p).
Ejemplo: Se lanza 8 veces un dado equilibrado. Sea
X = cantidad de ensayos en los que se obtiene m ultiplo de 3
Se trata de una sucesion de 8 ensayos de Bernoulli, donde en cada ensayo: exito=sale m ultiplo
de 3. la probabilidad de exito en cada ensayo es pues p = 1/3. La distribucion de X es entonces
Bi(8, 1/3). Calculemos las probabilidades de los siguientes eventos:
a) Cinco veces sale m ultiplo de 3
Rta: P(X = 5) =
_
8
5
_ _
1
3
_
5
_
2
3
_
3
= 0.0683
b) Al menos dos veces sale m ultiplo de 3
Rta: P(X 2) = 1P(X < 2) = 1P(X = 0)P(X = 1) = 1
_
8
0
_ _
2
3
_
8
_
8
1
_
1
3
_
2
3
_
7
c) A lo sumo cinco veces sale m ultiplo de 3
Rta: P(X 5) = 1 P(X > 5) = 1 P(X = 6) P(X = 7) P(X = 8) =
1
_
8
6
_ _
1
3
_
6
_
2
3
_
2
_
8
7
_ _
1
3
_
7
2
3

_
8
8
_ _
1
3
_
8
Propiedad 39 La fmp de una v.a. con distribuci on Bi(n, p) alcanza un m aximo en el punto
x
= [(n + 1)p]
Dem:
Dado que la fmp es discontinua, no es posible aplicar tecnicas de calculo (derivada) para obtener
su maximo. Sin embargo el siguiente procedimiento es viable: Calculemos el cociente C(k) =
p
X
(k)/p
X
(k 1) Mientras este cociente se mantenga mayor que la unidad sera p
X
creciente como
funcion de k. En cambio mientras el cociente permanezca menor que la unidad entonces p
X
sera
decreciente. Ante todo hallemos este cociente:
C(k) =
_
n
k
_
_
n
k1
_ =
n!(k 1)!(n k + 1)!p
k
q
nk
k!(n k)!n!p
k1
q
nk+1
=
(n k + 1)p
kq
Luego:
C(k) > 1 (n k + 1)p > k(1 p) k < (n + 1)p
C(k) = 1 (n k + 1)p > k(1 p) k = (n + 1)p
C(k) < 1 (n k + 1)p > k(1 p) k > (n + 1)p
Si (n + 1)p no es entero, lo anterior muestra que la fmp alcanza su maximo en un unico punto
(unimodal), a saber x
= [(n + 1)p]. Si, en cambio, (n + 1)p es entero, lo anterior muestra que la

fmp alcanza su maximo en dos puntos (bimodal), a saber: x
= (n + 1)p y x
= x
1
Esta situacion se puede comprobar en los siguientes gracos:
0 1 2 3 4 5 6
0
.
0
0
.
1
0
.
2
0
.
3
fmp de una Bi(6,1/3)
0 1 2 3 4 5 6 7 8
0
.
0
0
.
0
5
0
.
1
0
0
.
1
5
0
.
2
0
0
.
2
5
fmp de una Bi(8,1/3)
Nota: Los siguientes comandos de SPlus son utiles: Sea X Bi(n, p). Sea k un vector, k =
(k
1
, , k
s
) (cuando s = 1 es un vector de longitud 1, o sea un n umero).
dbinom(k,n,p)
da como resultado el vector (p
X
(k
1
), p
X
(k
s
)).
Por ejemplo:
> n <- 8
> p <- 0.25
> k <- c(3, 4, 6, 7)
> dbinom(k, n, p)
[1] 0.2076416016 0.0865173340 0.0038452148 0.0003662109
> round(dbinom(k, n, p), 5)
[1] 0.20764 0.08652 0.00385 0.00037
> k <- 0:8
> dbinom(k, n, p)
[1] 0.10011291504 0.26696777344 0.31146240234 0.20764160156 0.08651733398
[6] 0.02307128906 0.00384521484 0.00036621094 0.00001525879
> round(dbinom(k, n, p), 5)
[1] 0.10011 0.26697 0.31146 0.20764 0.08652 0.02307 0.00385 0.00037 0.00002
pbinom(k,n,p)
da como resultado el vector (F
X
(k
1
), F
X
(k
s
)).
19.3 Distribuci on geometrica
Dado p (0, 1), una v.a. X se dice con distribucion geometrica de parametro p sii su fmp viene
dada por:
p
X
(k) = (1 p)
k1
p (k N)
En tal caso anotamos X G(p). Observemos que R
X
= N. Veriquemos que p
X
satisface los
axiomas de una fmp. Para abreviar anotemos q = 1 p:
k N, p
X
(k) = q
k1
p 0
k=1
p
X
(k) =
k=1
q
k1
p = p
k=1
q
k1
=
p
1q
=
p
p
= 1
Calculemos su fda:
F
X
(x) = P(X x) =
[x]
k=1
(1 p)
k1
p = p
[x]1
j=0
(1 p)
j
=
= p
1(1p)
[x]
1(1p)
= 1 (1 p)
[x]
= 1 q
[x]
Algunas de estas gracas se muestran en la gura siguiente: Gracamos tambien algunas fmp:
Una propiedad interesante de esta distribucion es la siguiente.
Propiedad 40 (Ausencia de memoria) Sea X una v.a. con distribuci on geometrica de
par ametro p (0, 1). Sean s, t N con s > t. Se verica:
P(X > s|X > t) = P(X > s t)
Dem:
En efecto, anotemos q = 1 p. Como s > t resulta {X > s} {X > t}. Por lo tanto:
{X > s} {X > t} = {X > s}
Luego:
P(X > s|X > t) =
P(X>s, X>t )
P(X>t)
=
P(X>s)
P(X>t)
=
1F
X
(s)
1F
X
(t)
=
q
s
q
t
= q
st
= 1
_
1 q
st
_
=
= 1 F
X
(s t) = P(X > s t)
fda de una G( 0.2 )
k
P
(

X

=

k

)
0 5 10 15 20
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
fda de una G( 0.4 )
k
P
(

X

=

k

)
0 2 4 6 8 10 12
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
fda de una G( 0.6 )
k
P
(

X

=

k

)
0 2 4 6 8
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
fda de una G( 0.8 )
k
P
(

X

=

k

)
0 1 2 3 4 5
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
1 2 3 4 5 6 7 8 9
0
.
0
0
.
0
5
0
.
1
0
0
.
1
5
0
.
2
0
fmp de una G( 0.2 )
k
P
(

X

=

k

)
1 2 3 4 5 6 7 8 9
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
fmp de una G( 0.4 )
k
P
(

X

=

k

)
1 2 3 4 5 6 7 8 9
0
.
0
0
.
2
0
.
4
0
.
6
fmp de una G( 0.6 )
k
P
(

X

=

k

)
1 2 3 4 5 6 7 8 9
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
fmp de una G( 0.8 )
k
P
(

X

=

k

)
Ejemplo: La distribucion geometrica surge tambien en el contexto de ensayos de Bernoulli con proba-
bilidad de exito p en cada ensayo. Si X = cantidad de ensayos hasta obtener el primer exito entonces
X posee distribucion geometrica con parametro p. Por ejemplo, si se arroja un dado equilibrado hasta
que sale el n umero 6 y X representa la cantidad de lanzamientos necesarios, entonces R
X
= N y
X = k sii en los primeros k 1 lanzamientos no sale 6 y en el k-esimo sale 6. Dado que los
lanzamientos son independientes entre s, es claro que P(X = k) = (1 p)
k1
p, siendo p = 1/6.
Nota: Los siguientes comandos de SPlus son utiles: Sea X G(p). Sea k un vector, k =
(k
1
, , k
s
dgeom(k,p)
X
(k
1
), p
X
(k
s
)).
Por ejemplo:
> p <- 0.25
> k <- c(1, 4, 6, 7)
> dgeom(k, p)
[1] 0.18750000 0.07910156 0.04449463 0.03337097
> round(dgeom(k, p), 5)
[1] 0.18750 0.07910 0.04449 0.03337
> k <- 4:10
> dgeom(k, p)
[1] 0.07910156 0.05932617 0.04449463 0.03337097 0.02502823 0.01877117
[7] 0.01407838
> round(dgeom(k, p), 5)
[1] 0.07910 0.05933 0.04449 0.03337 0.02503 0.01877 0.01408
pgeom(k,p)
X
(k
1
), F
X
(k
s
)).
19.4 Distribuci on hipergeometrica
Dados n, D, N N con n < N , D < N, se dice que una v.a. X posee distribucion hiper-
geometrica con parametros n, D, N sii su fmp viene dada por:
p
X
(k) =
_
D
k
__
ND
nk
_
_
N
n
_ para max {0, D (N n)} k min {n, D}
En tal caso anotaremos X H(n, D, N). Observemos que cuando n min {D, N D} resulta
R
X
= {0, 1, , n} .
Ejemplo: Un lote de tama no N de cierta clase de artculos contiene D artculos defectuosos (y
N D artculos no defectuosos). Se extrae al azar una muestra de artculos de tama no n, sin
reposicion. Sea X la cantidad de artculos defectuosos presentes en dicha muestra. Evidentemente
el rango de X es de la forma R
X
= {m, , M}, donde m = max {n (N D), 0} y
M = min {D, n}. Dado k R
X
calculemos P(X = k). Abreviemos I
n
= {1, , n}. El
espacio muestral puede pensarse como
= {A {M
1
, , M
D
, B
1
, , B
ND
} : #(A) = n}
donde M indica defectuoso y B indica no defectuoso. Puesto que la extraccion se realiza al azar,
resulta natural considerar a los eventos elementales en este espacio muestral como equiprobables.
Entonces:
P(X = k) =
#{X = k}
#
Contar la cantidad de elementos en equivale a contar la cantidad de posibles subconjuntos de
tama no n elegidos entre N elementos diferentes. Hay
_
N
n
_
formas diferentes. Contemos ahora
en cuantas de ellas hay exactamente k objetos defectuosos. Para ello debemos contar de cuantas
formas es posible elegir los k objetos defectuosos que participaran, a saber
_
D
k
_
, y por cada una de
estas elecciones habra que determinar de cuantas formas es posible elegir los otros n k elementos
participantes no defectuosos, a saber
_
ND
nk
_
. Por lo tanto #{X = k} =
_
D
k
__
ND
nk
_
. Por lo tanto:
P(X = k) =
_
D
k
__
ND
nk
_
_
N
n
_
Es decir, efectivamente X posee distribucion hipergeometrica de parametros n, D, N. Anotaremos
esta distribucion como H(n, D, N).
Nota: Los siguientes comandos de SPlus son utiles: Sea X H(n, D, N). Sea k un vector,
k = (k
1
, , k
s
dhyper(k,D,N-D,n)
X
(k
1
), p
X
(k
s
)).
Por ejemplo:
> D <- 6
> ND <- 8
> n <- 4
> k <- 0:3
> round(dhyper(k, D, ND, n), 4)
[1] 0.0699 0.3357 0.4196 0.1598
phyper(k,D,N-D,n)
X
(k
1
), F
X
(k
s
)).
La fmp de una v.a. H(n, D, N) alcanza un maximo cuando k = k
=
_
(n+1)(D+1)
N+2
_
, como puede
demostrarse y comprobarse en los siguientes gracos. Notese que si
(n+1)(D+1)
N+2
no es entero, el
maximo se alcanza unicamente en k
(unimodal), mientras que si

(n+1)(D+1)
N+2
es entero, entonces
p
X
alcanza su maximo en los dos puntos k
=
(n+1)(D+1)
N+2
y k
= k
1 (bimodal)
0 1 2 3 4 5 6 7 8 9 10
fmp de H(10,12,26)
k
P
(

X
=
k

)
0
.
0
0
.
0
5
0
.
1
0
0
.
1
5
0
.
2
0
0
.
2
5
0
.
3
0
0 1 2 3 4 5 6 7
fmp de H(7,6,10)
k
P
(

X
=
k

)
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
19.5 Distribuci on de Poisson - Procesos de Poisson
Dado R, > 0, se dice que una v.a. X posee distribucion de Poisson con parametro sii su
fmp viene dada por:
p
X
(k) = e

k
k!
(k = 0, 1, 2, )
En tal caso anotaremos X P(). El parametro suele llamarse intensidad. Observemos que
R
X
= N {0}. Veriquemos que efectivamente p
X
es una fmp:
k N {0} , p
X
(k) = e

k
k!
0
k=0
p
X
(k) =
k=0
e

k
k!
= e
k=0
k
k!
= e
= e
0
= 1
Cuando no es entero, la distribucion P() alcanza su maximo en el unico (unimodal) punto
k = []. En cambio cuando es entero, la distribucion alcanza su maximo en dos puntos (bimodal),
a saber k = y k = 1. Graquemos algunas fmp de v.a. Poisson:
Uno de los contextos donde surgen naturalmente variables Poisson es en situaciones en las que deter-
minado evento de interes ocurre aleatoriamente en puntos del eje temporal. Por ejemplo, si estamos
en una parada de micros y el evento es la llegada de un micro a la parada, tal eventos ocurrira en de-
terminados instantes (horas). Supongamos que para cierta constante > 0 se verican las siguientes
suposiciones:
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
fmp de una P( 1.5 )
k
P
( X
=
k
)
0
.0
0
.1
0
.2
0
.3
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
fmp de una P( 3 )
k
P
( X
=
k
)
0
.0
0
.0
5
0
.1
0
0
.1
5
0
.2
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
fmp de una P( 4.5 )
k
P
( X
=
k
)
0
.0
0
.0
5
0
.1
0
0
.1
5
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
fmp de una P( 6 )
k
P
( X
=
k
)
0
.0
0
.0
5
0
.1
0
0
.1
5
1. La probabilidad de que ocurra exactamente un evento en un intervalo de tiempo dado y de
longitud h es de la forma: h +o(h)
2. La prbabilidad de que dos o mas eventos ocurran en un intervalo de tiempo dado y de longitud
h de la forma: o(h)
3. Dados cualesquiera n umeros n N, j
1
, , j
n
N{0} y cualquier conjunto de n intervalos
temporales disjuntos dos a dos, si se dene E
i
como el suceso que exactamente j
i
de los eventos
bajo consideracion ocurran en el i-esimo intervalo temporal (i = 1, , n), entonces los sucesos
E
1
, , E
n
son mutuamente independientes.
Intuitivamente hablando, el supuesto 1 signica que para valores peque nos de h, la probabilidad de
ocurrencia de exactamente uno de los eventos en un lapso de duracion h es h mas una cantidad
despreciable respecto de h. Observese que podemos interpretar como la tasa o razon instantanea
de ocurrencia de un evento. El supuesto 2 signica que la probabilidad de que ocurran dos o mas
eventos en un lapso de tiempo de duracion h es despreciable respecto de h. El supuesto 3 signica
que la cantidad de ocurrencias de eventos en un intervalo temporal no afecta ni es inuenciada por la
cantidad de ocurrencias del evento en intervalos de tiempo disjuntos con el primero.
Antes de continuar vamos a establecer un lema que nos resultara util dentro de poco.
Lema 1 Sea {
n
} una sucesi on de n umeros reales tal que existe R con lim
n
n
= .
Entonces se cumple:
lim
n
_
1

n
n
_
n
= e
Dem:
Sea f(x) = ln (1 x). Desarrollemos por Taylor de primer orden alrededor de x = 0. Se obtiene:
f(x) = x
x
2
2
1
(1 c)
2
con c entre 0 y x
Evaluando en x =
n
/n y multiplicando por n se obtiene:
n ln
_
1

n
n
_
=
n

2
n
2n
1
(1 c
n
)
2
(3)
Dado que c
n
se encuentra entre 0 y
n
/n y como lim
n
n
= , resulta lim
n
c
n
= 0. Luego,
tomando lmite para n en (3) vemos que la sucesion (3) tiene lmite . Tomando exponencial
y teniendo en cuenta que esta funcion es continua, resulta lo armado en el teorema
Teorema 7 Bajo los supuestos 1,2 y 3, la cantidad de ocurrencias de eventos en un lapso de tiempo
de duraci on h es una variable aleatoria con distribuci on de Poisson de par ametro h.
Dem:
Designemos N(t) el n umero de ocurrencias de eventos en el intervalo [0, t). Formemos una par-
ticion regular del intervalo [0, t] en n subintervalos: [0, t/n) , [t/n, 2t/n) [(n 1)t/n, t) .
Consideremos los siguientes sucesos:
A = k de los subint. contienen exact. un evento y n-k contienen 0 eventos
B
i
= el subint. i-esimo contiene dos o mas eventos (i = 1, , n)
B = al menos uno de los subint. contiene dos o mas eventos
C = {N(t) = k} B
Entonces claramente:
B =
n
i=1
B
i
(union no disjunta)
P(N(t) = k) = P(A C) = P(A) +P(C) pues A y C son disjuntos
Pero:
P(C) P(B)
n
i=1
P(B
i
) =
n
i=1
o
_
t
n
_
= n o
_
t
n
_
= t
_
o(t/n)
t/n
_
Para cada t jo es lim
n
o(t/n)
t/n
= 0. Luego: lim
n
P(C) = 0. Por otra parte, si I es un intervalo
de duracion h, los supuestos 1 y 2 implican que:
P(ocurren 0 eventos en I) = 1 P(ocurre exact. un evento en I)
P(ocurren dos o mas eventos en I) =
= 1 (h +o(h)) o(h) = 1 h o(h)
Ademas en virtud del supuesto 3 se tiene:
P(A) =
_
n
k
_
_
t
n
+o
_
t
n
_
_
k
_
1
t
n
o
_
t
n
_
_
nk
=
=
n(n1)(nk+1)
k!

1
n
k
_
n
_
t
n
+o
_
t
n
_
__
k
_
1
_
t
n
+o
_
t
n
_
__
nk
=
=
n(n1)(nk+1)
n
k

1
k!
_
n
_
t
n
+o
_
t
n
_
__
k
_
1
_
t
n
+o
_
t
n
_
__
nk
=
=
1
k!
_
n
_
t
n
+o
_
t
n
_
__
k
_
1
_
t
n
+o
_
t
n
_
__
n
_
1
_
t
n
+o
_
t
n
_
__
k k
i=1
_
1
i1
n
_
(4)
Pero como
lim
n
n
_
t
n
+o
_
t
n
__
= t + lim
n
t
_
o(t/n)
t/n
_
= t
se deduce del lema 1 con
n
= n
_
t
n
+o
_
t
n
_
_
que:
lim
n
_
1
_
t
n
+o
_
t
n
___
n
= e
t
La primera expresion entre llaves en la ultima de las expresiones en (4) tiende a
k
y la tercera
expresion entre llaves tiende a 0. La productoria consta de un n umero jo de factores y cada uno de
ellos tiende a 1. Por lo tanto:
lim
n
P(A) = e
t
(t)
k
k!
Nota: Denamos para cada t > 0 la variable aleatoria
X
t
= cantidad de ocurrencias del evento en el intervalo de tiempo [0,t)
La coleccion de variables aleatorias {X
t
: t > 0} se denomina porceso de Poisson de parametro
. Notese que para cada t > 0 es X
t
P(t). Volveremos a los procesos de Poisson cuando
presentemos las distribuciones exponencial y gama.
Corolario 4 (Aproximaci on de Poisson a la distribuci on binomial)
Sea R, > 0. Para cada k N {0} se verica:
lim
n
_
n
k
__
n
_
k
_
1

n
_
nk
= e

k
k!
Nota: Este corolario suele utilizarse de la manera siguiente. Sea X Bi(n, p). Supongamos
n grande, p peque no y np es moderado. Entonces la fmp de X es aproximadamente igual a la
fmp de Y , siendo Y P(np). La recomendacion suele ser el uso de la aproximacion cuando:
n 100 ; p 0, 01 ; np 20
Mencionemos que las variables Poisson no ocurren unicamente contando ocurrencias de eventos en el
tiempo. Damos algunos ejemplos de otras v.a. que usualmente tienen distribucion de Poisson:
La cantidad de errores de impresion en cierta/s pagina/s de un libro.
La cantidad de bacterias en cierta region de cierto cultivo.
Ejemplo: Supongamos que la cantidad de errores tipogracos por pagina de apuntes teorico-practicos
tipeados por Gaston Argeri posee distribucion P(0.25) (i.e. en promedio Gaston comete un error
de tipeo cada cuatro paginas). Si se escoge al azar un apunte teorico-practico de Gaston, calcular la
probabilidad de que la primera pagina presente al menos un error tipograco.
Rta: Si anotamos X a la cantidad de errores en la primera pagina entonces:
P(X 1) = 1 P(X = 0) = 1 e
0.25
0.221
Ejemplo: Supongamos que en promedio uno de cada diez artculos producidos por cierta maquina
resultan defectuosos. Se eligen al azar 20 artculos producidos por la maquina. Hallar la probabilidad
de que al menos 3 de ellos resulten defectuosos.
Rta: Se trata de una sucesion de n = 20 ensayos de Bernoulli, donde exito=se produce artculo
defectuoso, con p = 1/10 = 0.1 en cada ensayo. Si X representa la cantidad de defectuosos entre
20, entonces X Bi(20, 0.1) de modo que la probabilidad pedida es:
P(X 3) = 1 P(X = 0) P(X = 1) P(X = 2) =
= 1
_
20
0
_
(0.9)
20
_
20
1
_
(0.1)(0.9)
19
_
20
2
_
(0.1)
2
(0.9)
18
1 0.1215767 0.2701703 0.2851798 0.3231

Utilizando la aproximacion de Poisson con = np = 20(0.1) = 2 se obtiene:
P(X 3) 1
2
k=0
e
2
2
k
k!
1 0.1353353 0.2706706 0.2706706 0.3233
En este caso la aproximacion ha resultado muy buena.
19.6 Distribuci on binomial negativa
Dados r N y p (0, 1), se dice que una variable aleatoria X posee distribucion binomial negativa
con parametros r y p sii su fmp esta dada por:
p
X
(k) =
_
k 1
r 1
_
p
r
(1 p)
kr
(k = r, r + 1, )
En tal caso anotaremos X BN(r, p). Obseervese que R
X
= {r, r + 1, }. Veriquemos que
efectivamente p
X
es una fmp:
p
X
(k) =
_
k1
r1
_
p
r
(1 p)
kr
0 (k = r, r + 1, )
k=r
p
X
(k) =
k=r
_
k1
r1
_
p
r
(1 p)
kr
= p
r
k=r
_
k1
r1
_
(1 p)
kr
Consideremos la funcion g(q) =
j=0
q
j
=
1
1q
Si la derivamos r 1 veces obtenemos:
j=1
jq
j1
=
1
(1q)
2
j=2
j(j 1)q
j2
=
2
(1q)
3

j=r1
j(j 1) (j r + 2)q
jr+1
=
(r1)!
(1q)
r
Es decir (r 1)!
j=r1
_
j
r1
_
q
jr+1
=
(r1)!
(1q)
r
Por lo tanto, tomando q = 1 p se tiene:
p
r
k=r
_
k 1
r 1
_
(1 p)
kr
= p
r
j=r1
_
j
r 1
_
(1 p)
jr+1
=
p
r
p
r
= 1
La distribuci n binomial negativa surge naturalmente en el contexto de ensayos de Bernoulli con prob-
abilidad de exito p en cada ensayo individual. Recordemos que en dicho contexto la Bi(n, p) es la
distribucion de la cantidad de exitos en los n ensayos. En cambio, la BN(r, p) es la distribucion
de la v.a. X denida como la cantidad de ensayos necesarios hasta obtener el r-esimo exito (es
decir, la cantidad de ensayos es ahora aleatoria). En efecto, decir que X = k equivale a decir que
el r-esimo exito ocurre en el k-esimo ensayo. Por lo tanto en los k 1 ensayos anteriores debe
haber exactamente r 1 exitos y k r fracasos. Entonces para calcular la probabilidad del evento
{X = k} utilizamos asignacion de probabilidad por ensayos independientes: Hay
_
k1
r1
_
maneras
de ubicar los r 1 exitos entre los k 1 primeros ensayos (los lugares para los fracasos quedan
automaticamente determinados). Cada ordenamiento de r exitos y kr fracasos tiene probabilidad
p
r
(1 p)
kr
. Luego P(X = k) =
_
k1
r1
_
p
r
(1 p)
kr
Es decir X BN(r, p).
Nota: Comandos utiles eb SPlus son dnbinom , pnbinom
Presentamos algunos ejemplos de fmp binomiales negativas: Observese que la fmp de una v.a. BN(r, p)
alcanza su maximo en el punto k
=
_
r+p1
p
_
. Cuando
r+p1
p
no es entero, el maximo se alcanza
unicamente (unimodal) en k = k
. En cambio, cuando
r+p1
p
es entero, el maximo se alcanza en
k = k
y en k = k
1 (bimodal).
3 4 5 6 7 8 9 10 11 12 13 14 15
fmp de BN( 3 , 0.25 )
k
P
(

X
=
k

)
0
.
0
0
.
0
2
0
.
0
4
0
.
0
6
0
.
0
8
3 4 5 6 7 8 9 10 11 12 13 14 15
fmp de BN( 3 , 0.45 )
k
P
(

X
=
k

)
0
.
0
0
.
0
5
0
.
1
0
0
.
1
5
3 4 5 6 7 8 9 10 11 12 13 14 15
fmp de BN( 3 , 0.7 )
k
P
(

X
=
k

)
0
.
0
0
.
1
0
.
2
0
.
3
20 Distribuciones continuas
20.1 Distribuci on uniforme
Sean a, b R con a < b. Se dice que una variable aleatoria X posee distribucion uniforme en el
intervalo [a, b] sii X posee fdp f
X
dada por
f
X
(x) =
_
1
ba
si a x < b
0 si x < a x b
Anotamos X U(a, b) para indicar que X posee distribucion uniforme en [a, b]. Veriquemos
que f
X
es realmente un fdp:
x R, f
X
(x) 0
f
X
(x) dx =
b
_
a
1
ba
dx =
1
ba
b
_
a
dx =
ba
ba
= 1
Obtengamos la fda. F
X
(x) =
x
_
f
X
(t) dt. Debemos distinguir tres casos, seg un el valor de x:
Si x < a: F
X
(x) = 0
Si a x < b: F
X
(x) =
_
x
a
1
ba
dt =
xa
ba
Si x b: F
X
(x) =
_
b
a
1
ba
dt = 1
Es decir:
F
X
(x) =
_
_
_
0 si x < a
xa
ba
si a x < b
1 si x b
Las gracas de la fdp y la fda tienen el siguiente aspecto:
20.2 Distribuci on gaussiana
Sean , R, > 0. Se dice que una variable aleatoria X posee distribucion gaussiana (tambien
llamada distribucion normal) de parametros , sii X posee fdp dada por
f
X
(x) =
1
2
e
1
2
(x)
2
/
2
; x R
fdp de U(a,b)
x
y
0 1 2
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1 / ( b - a )
fda de U(a,b)
x
y
0 1 2
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
1
.
2
a b
Para indicar que X posee distribucion gaussiana de parametros , anotamos X N(, ). En
particular, cuando = 0 y = 1 se habla de la distribucion gaussiana (o normal) standard. Su
fdp suele anotarse con la letra . As, la fdp gaussiana standard esta dada por
(x) =
1
2
e
1
2
x
2
; x R
Mediante calculo es posible estudiar las caractersticas de la graca de . Resulta simetrica respecto
del eje de ordenadas (funcion par), con maximo en el origen. Ademas tiene la conocida forma de
campana de Gauss. Volviendo al caso general, observese que:
f
X
(x) =
1
_
x
_
Es decir que f
X
se puede obtener a partir de mediante una traslacion paralela al eje de abscisas
y cambios de escala en los ejes coordenados. Tales transformaciones conservan la forma acampanada
de la fdp. Graquemos algunos ejemplos de fdp gaussianas:
La fda asociada viene dada por:
F
X
(x) =
x
_
2
e
1
2
(t)
2
/
2
dt
La fda de una v.a. gaussiana standard suele anotarse y viene dada por:
(x) =
x
_
2
e
1
2
x
2
dt
Dado que esta funcion no es elemental (no puede expresarse elementalmente la integral indenida
correspondiente), para evaluarla en un punto se debe recurrir a tablas o se debe utilizar alg un software
o formula que aproxime sus valores. En el caso general, observemos que:
F
X
(x) =
_
x
_
si X N(, )
Nota: Comandos de SPlus dnorm , pnorm , qnorm. Ver el help del SPlus. Por ejemplo: help(dnorm)
o simplemente resaltando dnorm y clickeando sobre la echita run.
misma sigma, distintas mu
x
y
-2 0 2 4 6 8 10 12
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
0
.
5N(4,1.5)
N(2,1.5)
N(7,1.5)
misma mu, distintas sigma
x
y
-2 0 2 4 6 8 10 12
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
0
.
5N(4,1.5)
N(4,3)
N(4,0.75)
Familia de densidades gaussianas
20.3 Distribuci on exponencial
Dado R, > 0, se dice que una variable aleatoria X posee distribucion exponencial con
parametro sii su fdp vien dada por:
f
X
(x) = e
x
(x > 0)
En tal caso anotaremos X E(). El parametro suele denominarse parametro de intensidad.
Veriquemos que f
X
es efectivamente una fdp:
Para todo x R, f
X
(x) = e
x
0
Efectuando el cambio de variables t = x se obtiene:
_

0
e
x
dx =
_

0
e
t
dt = lim
c
e
t
c
0
= lim
c
(e
c
1) = 1
Hallemos al fda de X:
Si x 0 entonces F
X
(x) =
_
x
f
X
(t) dt = 0 pues f
X
(t) = 0 si t 0
Si x > 0 se tiene: F
X
(x) =
_
x
f
X
(t) dt =
_
x
0
e
t
dt = e
t
x
0
= 1 e
x
Por lo tanto la fda viene dada por:
F
X
(x) =
_
0 si x 0
1 e
t
si x > 0
fdp
x
y
0 2 4 6 8 10 12 14
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
0
.
5
0
.
6
lambda=0.2
lambda=0.4
lambda=0.6
fda
x
y
0 2 4 6 8 10 12 14
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
lambda=0.2
lambda=0.4
lambda=0.6
Familia de densidades exponenciales
Para observar las caractersticas mas importantes de la distribucion exponencial, graquemos algunos
ejemplos de fdp y fda en el caso exponencial:
Propiedad 41 (Ausencia de memoria) Supongamos que X E(). Sean s, t R, s > t
0. Se verica:
P(X > s | X > t) = P(X > s t)
Dem:
P(X > s|X > t) =
P(X>s, X>t )
P(X>t)
=
P(X>s)
P(X>t)
=
1F
X
(s)
1F
X
(t)
=
e
s
e
t
= e
(st)
= P(X > s t)
Ejemplo: Consideremos un proceso de conteo (de ocurrencias de cierto evento) tipo Poisson {X
t
: t > 0}
de parametro , es decir que X
t
E(). Denamos la variable aleatoria:
T
1
= tiempo hasta la primera ocurrencia del evento
Hallemos la fda de T
1
. Para ello calculemos:
P(T
1
t) = P(la primera ocurrencia se produce luego del instante t) =
= P(no hay ocurrencias en [0, t]) = P(X
t
= 0) = e
t
(t)
0
0!
= e
t
Por lo tanto F
T
1
(t) = 1 e
t
si t > 0. Naturalmente F
T
1
(t) = 0 si t 0. Por lo tanto la
variable aleatoria T
1
tiene distribucion exponencial de parametro .
Nota: Comandos de SPlus dexp , pexp , qexp
20.4 Distribuci on gamma
Se denomina funcion gama a la funcion : (0, ) R denida por:
(x) =
_
0
t
x1
e
t
dt (5)
Para ver que esta funcion esta correctamente denida es necesario demostrar que la integral impropia
en (5) es convergente. Observese que el integrando es positivo y que cuando x 1 la integral es
impropia en el innito, en tanto que si 0 < x < 1 la integral es impropia tanto en el innito como
en el origen.
Lema 2 Para cada u R, u 0 y para cada n N se verica
e
u
1 +u +
u
2
2!
+
u
3
3!
+ +
u
n
n!
(6)
Dem:
Por induccion sobre n
Paso base:
Dado que u 0 , e
u
0, la monotona de la integral denida garantiza que
_
u
0
e
u
du 0. Luego:
e
u
1 0. Por lo tanto e
u
1
Hipotesis inductiva (HI): Consiste en suponer que para todo u 0 la desigualdad (6) es verdadera.
En base a la HI queremos probar que:
e
u
1 +u +
u
2
2!
+
u
3
3!
+ +
u
n+1
(n + 1)!
(u 0)
Pero integrando ambos miembros de (6) en el intervalo [0, u] y teniendo en cuenta la monotona de
la integral, se deduce que
e
u
1 u +
u
2
2!
+
u
3
3!
+ +
u
n+1
(n + 1)!
que es precisamente lo que queremos demostrar. Luego, la desigualdad es verdadera para tono
n natural
Corolario 5 Para cada u 0 y cada n natural (o cero) se verica la siguiente desigualdad
e
u
u
n
n!
Dem:
Siendo u 0, todos los terminos en el mienbro de la derecha de la desigualdad (6) son no negativos.
Luego, la suma de los mismos es mayor o igual que cualquiera de ellos. En particular es mayor o igual
que el ultimo termino. Este hecho, junto con la desigualdad (6) terminan de demostrar este lema
Propiedad 42 Para cada x R, x > 0, la integral en (5) es convergente.
Dem:
Consideramos dos casos por separado.
Caso x 1
En el corolario anterior tomemos n = 1 + [x] de manera que n x + 1 > 1. Entonces para
t > 0 se verica
t
x1
e
t
=
t
x1
e
t

t
x1
n!
t
n
=
n!
t
nx+1
Como la integral impropia
_
1
n!
t
nx+1
dt es convergente, por criterio de comparacion resulta
_
1
t
x1
e
t
dt tambien convergente. Puesto que
_
1
0
t
x1
e
t
dt es propia (nita), se deduce
que
_
0
t
x1
e
t
dt es convergente.
Caso 0 < x < 1
Para t 1 resulta t
1x
= e
(1x) ln t
1 dado que (1 x) lnt > 0. Entonces:
t
x1
e
t
=
1
t
1x
e
t

1
e
t
= e
t
Pero como
_
1
e
t
dt es convergente, por criterio de comparacion resulta
_
1
t
x1
e
t
dt
convergente.
Para 0 < t < 1 resulta e
t
1. Luego t
x1
e
t
t
x1
=
1
t
1x
. Puesto que
_
1
0
1
t
1x
dt es convergente por ser 0 < x < 1, el criterio de comparacion asegura que
_
1
0
t
x1
e
t
dt es convergente
Propiedad 43 La funci on gama verica:
i) x R, x > 0, (x + 1) = x(x)
ii) n N, (n) = (n 1)!
Dem:
i) Integrando por partes con u = e
t
, dv = t
x1
se tiene du = e
t
, v = t
x
/x
_
t
x1
e
t
dt =
t
x
e
t
x
+
1
x
_
t
x
e
t
dt =
1
x
_
t
x
e
t
+
_
t
(x+1)1
e
t
dt
_
Entonces:
_
h
1
t
x1
e
t
dt =
1
x
_
t
x
e
t
h
1
+
_
h
1
t
(x+1)1
e
t
dt
_
=
=
1
x
_
h
x
e
h
e
1
+
_
h
1
t
(x+1)1
e
t
dt
_
Tomando lmite para h se obtiene:
_

1
t
x1
e
t
dt =
1
x
_
e
1
+
_

1
t
(x+1)1
e
t
dt
_
(7)
Analogamente:
_
1
h
t
x1
e
t
dt =
1
x
_
t
x
e
t
1
h
+
_
1
h
t
(x+1)1
e
t
dt
_
=
=
1
x
_
e
1
h
x
e
h
+
_
1
h
t
(x+1)1
e
t
dt
_
Tomando lmite para h 0+ se obtiene:
_
1
0
t
x1
e
t
dt =
1
x
_
e
1
+
_
1
0
t
(x+1)1
e
t
dt
_
(8)
Juntando los resultados (7) y (8) se tiene (x) =
1
x
(x + 1) como se quera demostrar.
ii) Para n N podemos aplicar repetidamente el resultado probado en el item anterior. Mas
formalmente, utilicemos induccion completa:
Paso base:
(1) =
_

0
e
t
dt =
_
1
0
e
t
dt +
_

1
e
t
dt = lim
h0+
e
h
+ lim
k
e
k
= 1 = 0!
Hipotesis inductiva (HI): Suponemos (n) = (n 1)!
En base a la HI queremos demostrar que (n + 1) = n!. Para ello:
(n + 1) = n(n) = n(n 1)! = n!
Por lo tanto (n) = (n 1)! es verdadera para todo n N
Dados , R, , > 0 se dice que una variable aleatoria X posee distribucion gama de
parametros , sii posee fdp dada por
f
X
(x) =
()
x
1
e
x
(x > 0)
En tal caso anotaremos X (, ). El parametro suele llamarse parametro de forma (shape)
y el parametro se suele denominar parametro de intensidad (rate). Veriquemos que f
X
es
efectivamente una fdp:
Para todo x R es f
X
(x) =

()
x
1
e
x
0
Debemos vericar que la integral de f
X
sobre R es 1. Si en la integral se realiza el cambio de
variables t = x se tendra:
_

0
()
x
1
e
x
dx =
1
()
_

0
t
1
e
t
dt =
()
()
= 1
Graquemos algunos ejemplos de densidades gama:
alfa= 0.5
x
y
0.0 0.02 0.04 0.06 0.08 0.10
0
2
4
6
8
1
0
1
2
1
4
lambda=0.2
lambda=0.4
lambda=0.6
alfa= 1
x
y
0 2 4 6
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
0
.
5
0
.
6lambda=0.2
lambda=0.4
lambda=0.6
alfa= 1.5
x
y
0 5 10 15
0
.
0
0
.
0
5
0
.
1
0
0
.
1
5
0
.
2
0
0
.
2
5
0
.
3
0
lambda=0.2
lambda=0.4
lambda=0.6
Familia de densidades gama
Examinando los distintos gracos se dara cuenta porque y se dicen parametros de forma e
intensidad (para 1, controla la rapidez con la cual la cola a derecha de la fdp tiende a cero
para x ), respectivamente.
Observemos que la distribucion (1, ) es precisamente la distribucion exponencial de parametro .
En efecto, sea X (1, ):
f
X
(x) =
1
(1)
x
11
e
x
= e
x
Nota: Comandos de SPlus dgamma , pgamma , qgamma
Vamos a vincular las distribuciones gamma y Poisson.
Propiedad 44 Sean n N, x > 0. Sea X (n, ). Si Y P(x) entonces se cumple:
F
X
(x) = P(X x) = P(Y n) = 1 F
Y
(n 1)
Dem:
Mediante integracion por partes, con u = t
n1
y dv = e
t
dt, se tiene:
_
t
n1
e
t
dt =
1
_
t
n1
e
t
+ (n 1)
_
t
n2
e
t
dt
_
Aplicando la regla de Barrow entre t = 0 y t = x y anotando I
n
(x) =
_
x
0
t
n1
e
t
dt resulta:
I
n
(x) = (n 1)I
n1
(x) x
n1
e
x
(9)
Queremos demostrar (lo haremos por induccion sobre n):
n N, x > 0 ,
_
x
0
n
(n 1)!
t
n1
e
t
dt = 1
n1
k=0
(x)
k
k!
e
x
En otro terminos, queremos probar que:
n
(n 1)!
I
n
(x) = 1
n1
k=0
(x)
k
k!
e
x
(10)
Entonces:
Paso base: I
1
(x) =
_
x
0
e
t
dt = 1e
t
x
0
= 1e
x
Esto es precisamente (10) cuando
n = 1
Hipotesis inductiva (HI): Supongamos (10) es verdadera.
Utilizando (9) junto con (HI) se tiene:
n+1
n!
I
n+1
(x) =

n
n!
_
nI
n
(x) x
n
e
x
_
=

n
(n1)!
I
n
(x)
(x)
n
n!
e
x
=
= 1
n1
k=0
(x)
k
k!
e
x
(x)
n
n!
e
x
= 1
n
k=0
(x)
k
k!
e
x
20.5 Distribuci on chi cuadrado

Esta distribucion es un caso particular de la distribucion gama. Si en la familia de distribuciones gama
se considera = n/2, siendo n natural, y se toma = 1/2 se obtiene la llamada distribucion chi
cuadrado con n grados de libertad (g.l.). Es decir:
Dado n N, se dice que una variable aleatoria X posee distribucion chi cuadrado con n grados de
libertad sii posee fdp dada por:
f
X
(x) =
1
2
n/2
(n/2)
x
(n/2)1
e
x/2
(x > 0)
En tal caso anotamos X
2
(n). La distribucion chi cuadrado con g.l.=2 tambiense denomina
distribucion de Raleygh y la chi cuadrado con g.l.=3 tambien se llama distribucion de Maxwell-
Boltzman (Estos terminos son mas frecuentes en mecanica estadstica).
Presentamos algunos ejemplos de fdp chi cuadrado con distintos grados de libertad asociados:
Nota: En SPlus los comandos utiles son dchisq , pchisq , qchisq.
x
y
0.0 0.5 1.0 1.5 2.0
0
.
0
0
.
5
1
.
0
1
.
5
g.l=1
g.l=2
x
y
0 5 10 15
0
.
0
0
.
0
5
0
.
1
0
0
.
1
5
0
.
2
0
0
.
2
5
g.l=3
g.l=4
g.l=8
Familia de densidades chi cuadrado
20.6 Distribuci on beta
Se denomina funcion beta la fuencion B : (0, ) (0, ) R dada por
B(, ) =
_
1
0
x
1
(1 x)
1
dx
Observese que seg un los valores de , la integral que dene a la funcion beta puede ser impropia
en el origen (cuando 0 < < 1) y/o en x = 1 (cuando 0 < < 1), o directamente ser propia.
Una aplicacion trivial del creiterio de comparacion muestra que la integral impropia es convergente
para cualesquiera , > 0. Mencionemos dos propiedades utiles de la funcion beta.
Propiedad 45 Para cualesquiera , R, > 0, > 0 se verican:
i) B(, ) =
()()
(+)
ii) B(, ) = B(, )
Dados , R, > 0, > 0 se dice que una variable aleatoria X posee distribucion beta con
paramteros , si posee fdp dada por:
f
X
(x) =
1
B(, )
x
1
(1 x)
1
(0 < x < 1)
En tal caso anotaremos X B(, ). Veriquemos que f
X
es realmente una fdp:
Para x (0, 1) ,
1
B(,)
x
1
(1 x)
1
0
_
1
0
1
B(,)
x
1
(1 x)
1
dx =
1
B(,)
B(, ) = 1
Graquemos algunos ejemplos de fdp para distribuciones beta:
alfa= 0.5
x
y
0.0 0.2 0.4 0.6 0.8 1.0
0
1
2
3
4
beta= 0.4
beta= 1
beta= 1.5
alfa= 0.7
x
y
0.0 0.2 0.4 0.6 0.8 1.0
0
1
2
3
4
5
beta= 0.4
beta= 1
beta= 1.5
alfa= 1
x
y
0.0 0.2 0.4 0.6 0.8 1.0
0
1
2
3
4
5
6
beta= 0.4
beta= 1
beta= 1.5
alfa= 1.3
x
y
0.0 0.2 0.4 0.6 0.8 1.0
0
2
4
6
beta= 0.4
beta= 1
beta= 1.5
Familia de densidades beta
Cuando = la distribucion beta es simetrica respecto de x = 0.5 Un caso particular (evidente)
de la distribucion beta es la U(0, 1). Esto tambien se aprecia en el graco correspondiente a los
valores = 1 , = 1
20.7 Distribuci on de Cauchy
Dados R, R, > 0, se dice que una variable aleatoria tiene distribucion de Cauchy con
parametros , sii posee fdp dada por:
f
X
(x) =
2
+ (x )
2
(x R)
En tal caso anotamos X C(, ). Se dice que es el parametro de posicion y el parametro de
escala. La fdp tiene forma similar a la gaussiana (acampanada) pero sus colas son mucho mas pesadas,
como veremos posteriormente. Esta familia de distribuciones es importante en estudios teoricos y de
simulacion. En la graca se observan fdp Cauchy para distintos valores de los parametros: Nota: En
SPlus los comandos interesantes son dcauchy , pcauchy , qcauchy.
misma theta, distintas lambda
x
y
-2 0 2 4 6 8 10 12
0
.
0
0
.
0
5
0
.
1
0
0
.
1
5
0
.
2
0
C(4,1.5)
C(2,1.5)
C(7,1.5)
misma lambda, distintas theta
x
y
0 2 4 6 8
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4C(4,0.75)
C(4,1.5)
C(4,2.25)
Familia de densidades Cauchy
20.8 Distribuci on lognormal
Sean , R, > 0. Se dice que una variable aleatoria X tiene distribucion lognormal con
parametros , sii ln X posee distribucion N(,
2
). Para hallar la fdp de X, llamemos Y =
ln X de manera que Y N(,
2
), y procedamos como sigue:
F
X
(x) = P(X x) = P(e
Y
x) = P(Y ln x) = F
Y
(ln x)
Derivando ambos miembros respecto de x (usamos la regla de la cadena) obtenemos:
f
X
(x) = f
Y
(ln x)
1
x
=
1
2 x
e
1
2
(ln x)
2
/
2
Las caractersticas salientes de la graca de una fdp lognormal puede estudiarse analticamente. Pre-
sentamos algunos ejemplos: Nota: Los comandos utiles en SPlus son dlnorm , plnorm , qlnorm.
misma mu,distintas sigma
x
y
0 1 2 3 4 5 6
0
.
0
0
.
1
0
.
2
0
.
3
logN(1,0.25)
logN(1,1)
logN(1,2.25)
misma sigma,distintas mu
x
y
0 1 2 3 4 5 6
0
.
0
0
.
1
0
0
.
2
0
0
.
3
0logN(0.7,1)
logN(1,1)
logN(1.3,1)
Familia de densidades lognormales
20.9 Distribuci on t doble exponencial o de Laplace
Dados , R, > 0, se dice que una variable aleatoria tiene distribucion doble exponencial con
parametros , sii posee fdp dada por:
f
X
(x) =
1
2
e
|x|
(x R)
En tal caso anotamos X DE(, ). Observese que, para = 0, esta fdp se obtiene al dividir por
dos la fdp exponencial de parametro y simetrizando por paridad con respecto al eje de ordenadas
(Cada mitad encierra area 0.5 por debajo, de modo que el area total por debajo es la unidad).
Tambien notemos que ambas mitades se han pegado de manera no suave en el origen, resultando
una fdp no diferenciable all. En la graca se observa este hecho como un pico en forma angulosa
(en el origen duando = 0 y en x = en general). La doble exponencial resulta interesante puesto
que posee colas mas pesadas que la distribucion normal. Entre otras razones resulta util cuando se
estudia la eciencia asintotica de ciertos estimadores, como veremos posteriormente.
misma lambda, distintas mu
x
y
-2 0 2 4 6 8 10
0
.
0
0
.
2
0
.
4
0
.
6
DE(3,0.6)
DE(2,0.6)
DE(5,0.6)
misma mu, distintas lambda
x
y
-2 0 2 4 6 8 10
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
DE(3,0.3)
DE(3,0.6)
DE(3,0.9)
Familia de densidades doble exponencial
Nota: La distribucion doble exponencial no esta disponible mediante comandos de SPlus, dada su
sencilla vinculacion con la distribucion exponencial.
20.10 Distribuci on t de Student
Dado n N, se dice que una variable aleatoria tiene distribucion t de Student con n grados de
libertad (g.l) sii posee fdp dada por:
f
X
(x) =
_
n+1
2
_
_
n
2
_

n
_
1 +
x
2
n
_
(n+1)/2
(x R)
En tal caso anotaremos X t(n). Esta distribucion es de aspecto acampanado, semejante a primera
vista a la N(0, 1), pero es de colas mas pesadas que esta y cobrara importancia a medida que
avancemos en este curso, cuando nos avoquemos a temas de inferencia. Un comentario interesante:
La distribucion C(0, 1) es precisamente la misma que t(1). Presentamos algunas fdp t de Student:
Se observa que a medida que aumentan los grados de libertad, la distribucion t de Student se aproxima
cada vez mas a la N(0, 1).
Nota: Los comandos utiles en SPlus son dt , pt , qt.
Familia de densidades t de Student
x
y
-4 -2 0 2 4
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
t(2)
t(5)
t(12)
N(0,1)
20.11 Distribuci on F de Fisher
Dados m, n N, se dice que una variable aleatoria X tiene distribucion Fisher con m, n grados de
libertad (g.l) sii posee fdp expresada por:
f
X
(x) =
_
m+n
2
_
_
m
2
_

_
n
2
_ x
(m/2)1
_
m
n
_
m/2
_
1 +
mx
n
_
(m+n)/2
(x > 0)
En tal caso se anota X F(m, n). Esta distribucion cobrara importancia cuando estudiemos prob-
lemas de inferencia mas adelante.
Nota: Los comandos de SPlus que utilizaremos son df , pf , qf.
Familia de densidades F de Fisher
x
y
0 1 2 3 4 5 6
0
.
0
0
.
2
0
.
4
0
.
6
F(3,4)
F(5,4)
F(12,4)
Familia de densidades F de Fisher
x
y
0 1 2 3 4 5 6
0
.
0
0
.
2
0
.
4
0
.
6
F(4,3)
F(4,5)
F(4,12)
20.12 Distribuci on Weibull
Dados , R, > 0, > 0, se dice que una variable aleatoria X tiene distribucion Weibull de
parametros , si posee fdp dada por:
f
X
(x) =
1
x
1
e
(x/)
(x > 0)
En tal caso anotamos X W(, ). La distribucion Weibull es importante en el estudio de tiempos
de sobrevida. El aspecto de la graca de una fdp Weibull puede observarse en las siguientes guras:
x
y
0 1 2 3 4
0
.
0
0
.
5
1
.
0
1
.
5
W(0.5,1)
W(1,1)
W(1.5,1)
x
y
0 1 2 3 4
0
.
0
0
.
5
1
.
0
1
.
5
W(1,0.5)
W(1,1)
W(1,1.5)
Familia de densidades Weibull
Nota: Como caso particular, observemos que tomando = 1 y =
1
se obtiene la distribucion
exponencial de parametro .
20.13 Distribuci on logstica
Dados , R, > 0, se dice que una variable aleatoria X tiene distribucion logstica de
parametros , si posee fdp dada por:
f
X
(x) =
1
e
(x)/
_
1 +e
(x)/
2
En tal caso anotamos X L(, ). Las gracas de las fdp logsticas asemejan a la gaussiana, pero
con colas mas pesadas. Presentemos algunas guras comparativas:
misma theta, distintas lambda
x
y
-4 -2 0 2 4 6 8
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4L(2,1)
L(3,1)
L(5,1)
N(0,1)
misma lambda, distintas theta
x
y
-4 -2 0 2 4 6 8
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
0
.
5L(0,0.5)
L(0,1)
L(0,1.5)
N(0,1)
Familia de densidades logisticas
Funciones de variables aleatorias
21 Transformaciones de variables aleatorias
21.1 Distribuci on de una funci on de una variable aleatoria
Supongamos que un experimento aleatorio esta dise nado para estudiar el area de la seccion transver-
sal de una poblacion de tubos cilndricos (circulares). Posiblemente cuando se estudia una muestra
aleatoria de tubos se mida el radio de su seccion transversal, en lugar del area de dicha seccion. Del
mismo modo, podramos conocer la distribucion poblacional del radio de un tubo y estar interesados
en investigar la distribucion poblacional del area de la seccion transversal del mismo. Si anotamos
X a la variable aleatoria radio del tubo e Y a la variable aleatoria area de la seccion transver-
sal del tubo, existe una relacion funcional determinstica entre ambas variables aleatorias, a saber:
Y = X
2
. Dado que la distribucion de X queda determinada por F
X
, es de esperar que esta
tambien determine la distribucion F
Y
.
Denici on 25 Sean una - algebra de subconjuntos de , X una variable aleatoria sobre
(, ) con rango R
X
y D
g
R una funci on con R
X
D. Denimos
g(X)
R como
la funci on compuesta g(X) = g X. Es decir, para cada se dene (g(X)) ()
def
=
(g X) () = g (X())
Recordemos que B designa la -algebra de Borel en R, es decir la mnima -algebra de subconjuntos
de R que contiene a todos los abiertos.
Nos preguntamos que caracterstica debe tener la funcion g en la def. anterior de modo que g(X) sea
una variable aleatoria sobre (, ). Para responder a esta pregunta necesitamos una denicion previa.
Denici on 26 Diremos que una funci on D
g
R, con D R, es boreliana sii se verica:
B B, g
1
(B) B
Las funciones continuas son solo un ejemplo de la amplsima variedad de funciones borelianas.
Propiedad 46 Sean X, g como en la primera denici on. Anotemos Y = g(X). Si g es una
funci on boreliana entonces Y es una variable aleatoria sobre (, ).
Dem:
Sea B B. Para ver que Y es variable aleatoria sobre (, ) debemos vericar que Y
1
(B) .
Pero:
{Y B} = Y
1
(B) = { : Y () B} = { : g (X()) B} =
=
_
: X() g
1
(B)
_
=
_
: X
1
_
g
1
(B)
__
=
_
X g
1
(B)
_
Siendo g boreliana y B B se cumple g
1
(B) B. Pero puesto que X es variable aleatoria
sobre (, ) resulta X
1
_
g
1
(B)
_
. Esto demuestra que Y
1
(B) , como deseabamos
ver
Investiguemos la relacion entre la fda de X y la fda de Y = g(X) (suponiendola v.a.). Notemos
ante todo que R
Y
= g (R
X
) = {g(x) : x R
X
}. Fijado y R hemos visto que
{Y y} =
_
X g
1
((, y])
_
Por lo tanto:
F
Y
(y) = P
_
X g
1
((, y])
_
As, cuando X es v.a.discreta, digamos con R
X
= {x
n
}, resulta tambien Y discreta con R
Y
=
{g(x
n
)} (Notar que como g no necesita ser 1-1, los valores g(x
n
) pueden estar repetidos). Si
anotamos R
Y
= {y
n
} se tiene:
F
Y
(y) =
n=1
y
n
y
p
Y
(y
n
) =
n=1
y
n
y
P(Y = y
n
) =
n=1
y
n
y
P
_
X g
1
({y
n
})
_
=
=
n=1
g(x
n
)y
p
X
(x
n
)
Analogamente:
p
Y
(y
n
) = P (Y = y
n
) = P
_
X g
1
(y
n
)
_
=
n=1
g(x
n
)=y
n
P(X = x
n
) =
=
n=1
g(x
n
)=y
n
p
X
(x
n
)
En cambio, si X es v.a. continua con fdp f
X
, resulta:
F
Y
(y) = P
_
X g
1
((, y])
_
=
_
g
1
((,y])
f
X
(x) dx
En este caso no queda claro si Y posee fdp. Esta situacion se analizara mas adelante. Por ahora nos
dedicaremos a presentar algunos ejemplos concretos de lo que acabamos de ver.
Nota: Cuando X discreta, la funcion g no necesita ser boreliana puesto que en este caso es
= P().
Ejemplo: Sea X Bi(n, p). Para jar ideas podemos pensar en n lanzamientos independientes e
identicos de una moneda, con probabilidad de salir cara en cada lanxamiento igual a p, donde X mide
la cantidad de caras que salen. Sea Y la cantidad de cecas que se obtienen. Entonces Y = n X.
Aca g(x) = n x. Como R
X
= {0, 1, , n} resulta R
Y
= R
X
. Para k R
Y
se tiene:
p
Y
(k) = P(Y = k) = P (n X = k) =
= P(X = n k) = p
X
(n k) =
_
n
nk
_
p
nk
(1 p)
k
=
_
n
k
_
(1 p)
k
p
nk
Esto muestra (aunque es obvio) que Y Bi(n, 1 p).
Ejemplo: Sea X E(). Determinemos la distribucion de Y =
1
X
. Evidentemente R
Y
= (0, ).
Se tiene para y > 0:
F
Y
(y) = P(Y y) = P
_
1
X
y
_
= P
_
X
1
y
_
=
=
_
1/y
e
x
dx = e
x
1/y
= e
/y
Por lo tanto:
f
Y
(y) = F
Y
(y) =
e
/y
y
2
(para Y > 0)
Ejemplo: Sea X N(0, 1). Denamos Y = X
2
. Hallemos la fda de Y . Naturalmente R
Y
=
(0, ). Fijado y > 0 se tiene:
F
Y
(y) = P(Y y) = P(X
2
y) = P(|X|
_
(y)) = P(
y X

y) =
=
y
_
y
1
2
e
x
2
/2
dx = (
y) (
y) = 2(
y) 1
Luego:
f
Y
(y) = F
Y
(y) =
_
2(
y) 1
_
=
2(
y)
2
y
=
(
y)
y
=
=
1
2
y
1/2
e
y/2
(para y > 0)
Habran reconocido que esta es la fdp de una v.a. chi-cuadrado con 1 grado de libertad, verdad? Es
decir:
X N(0, 1) X
2

2
(1)
Hay dos casos donde la relacion entre F
X
y F
Y
es muy sencilla: Cuando la funcion g es estrictamente
monotona sabemos que existe la funcion inversa g(D)
g
1
D la cual verica:
x D, g
1
(g(x)) = x
y g(D) , g
_
g
1
(y)
_
= y
Consideremos por separado los casos g creciente y g decreciente:
Cuando g es creciente tambien g
1
lo es. En efecto: Si y, u g(D) , y < u entonces
no puede ser g
1
(y) g
1
(u) porque en tal caso, sabiendo que g crece resultara la con-
tradiccion y = g(g
1
(y)) g(g
1
(u)) = u. Luego, necesariamente es g
1
(y) < g
1
(u).
Por lo tanto podemos reescribir:
X g
1
((, y]) g(X) (, y] g(X) y g
1
(g(X)) g
1
(y)
X g
1
(y)
Entonces se obtiene:
F
Y
(y) = P(Y y) = P(g(X) y) = P(X g
1
(y)) = F
X
(g
1
(y))
Dicho de otro modo: F
Y
= F
X
g
1
Cuando g es decreciente tambien g
1
lo es (sencillo de demostrar) y en tales casos la relacion
entre F
X
y F
Y
viene dada por: F
Y
(y) = 1 lim
t g
1
(y)
F
X
(t). Si ademas F
X
es continua
en el punto x = g
1
(y) esto se simplica a un mas: F
Y
(y) = 1 F
X
(g
1
(y))
Teorema 8 Sea X N(,
2
) y sean a, b R, a = 0. Entonces:
Y = aX +b N(a +b, a
2
2
)
Dem:
Consideremos primeramente el caso a > 0. Se tiene: F
Y
(y) = P(Y y) = P(aX + b
y) = P(aX y b) = P
_
X
yb
a
_
= F
X
_
yb
a
_
. Esto mismo se poda obtener a partir
de g(x) = ax + b hallando la inversa: g
1
(y) = (y b)/a. Entonces seg un las observaciones
anteriores es F
Y
(y) = F
X
(g
1
(y)) = F
X
_
yb
a
_
.
Luego, derivando respecto de y se obtiene:
f
Y
(y) =
1
a
F
X
_
yb
a
_
=
1
a
1
2
e
1/2
yb
a

2
=
1
2 a
e
1/2
y(a+b)
a
2
Pero esta es precisamente la fdp N(a +b, a
2
2
)
Ahora consideremos el caso a < 0. Se tiene: F
Y
(y) = P(Y y) = P(aX +b y) = P(aX
y b) = P
_
X
yb
a
_
= 1 F
X
_
yb
a
_
. Por lo tanto, derivando respecto de y se tiene:
f
Y
(y) =
1
a
F
X
_
yb
a
_
=
1
|a|
1
2
e
1/2
yb
a

2
=
1
2 |a|
e
1/2
y(a+b)
|a|
2
Reconocemos aqu nuevamente la fdp N(a +b, (|a| )
2
) es decir N(a +b, a
2
2
)
Corolario 6
X N(,
2
)
X
N(0, 1)
Nota: A partir de una variable aleatoria X N(,
2
), el proceso de restarle mu y dividir el
resultado por , es decir obtener la nueva variable aleatoria Z =
X
, se denomina standarizar X.
O sea, Z es la standarizacion de X.
Ejemplo: Si X N(2, 9) calcular:
a) P(1 < X < 5)
Rta:
P(1 < X < 5) = P
_
12
3
<
X2
3
<
52
3
_
= P(1/3 < Z < 1) = (1) (1/3)
0.841 0.369 = 0.472
b) P(|X 3| > 6)
Rta:
P(|X 3| > 6) = 1 P(|X 3| 6) = 1 P(6 X 3 6) =
= 1 P(6 + 3 X 6 + 3) = 1 P
_
32
3

X2
3

92
3
_
=
= 1 P(5/3 Z 7/3) = 1 [(7/3) (5/3)]
1 0.990 + 0.048 = 0.058
Teorema 9 (Teorema de cambio de variables) Sea [c, d]
g
R diferenciable con continuidad
en [c, d] (es decir g
existe y es continua en [c, d]). Sea f continua en g ([c, d]). Se verica:

_
g(d)
g(c)
f(x) dx =
_
d
c
f (g(t)) g
(t) dt
Nota: Siendo g continua en [c, d] resulta g ([c, d]) intervalo. Este intervalo contiene al intervalo
de extremos g(c) y g(d).
Dem:
Por hipotesis las funciones [c, d]
g
,fg
R son continuas. Denamos [c, d]
G
R y g ([c, d])
F
R por
G(t) =
_
t
c
f (g(s)) g
(s) ds ; F(x) =
_
x
g(c)
f(w) dw
Por el teorema fundamental del calculo se tiene:
G
(t) = f (g(t)) g
(t) para todo t [c, d]

F
(x) = f(x) para todo x g ([c, d])

Las funciones G y F g son dos primitivas de (f g)g
en [c, d]. Por lo tanto existe alguna

constante k tal que G = F g +k. Pero evaluando en t = c resulta G(c) = 0 = F(g(c)). Luego
k = 0. Entonces G = F g. En particular, tomando t = d se obtiene lo deseado
Corolario 7 Sea X una v.a. continua con fdp f
X
. Anotemos S
X
al soporte de f
X
y supongamos
que es un intervalo. Sea g una funci on continua y estrictamente mon otona en
X
. Denamos
S
Y
def
= g(S
X
). Supongamos que g
1
es diferenciable con continuidad en S
Y
Entonces la variable
aleatoria Y = g(X) es continua y su fdp viene dada por:
f
Y
(y) =
_
_
f
X
(g
1
(y))
d
dy
_
g
1
(y)
_
si y R
Y
0 si y R
Y
Dem:
Consideremos el caso en que g es estrictamente decreciente en R
X
Como g es continua re-
sulta que g(R
X
) es un intervalo. Anotemos I
X
e I
Y
a las funciones indicadoras de S
X
y
de S
Y
respectivamente. Entonces:
F
Y
(y) = P(Y y) = P(g(X) y) = P(g(X) y, X R
X
) = P(X g
1
(y)) =
=
_
g
1
(y)
f
X
(x)I
X
(x) dx =
_
y
f
X
_
g
1
(y)
_ _
g
1
_
(y)I
Y
(y) dy =
=
_
y
f
X
_
g
1
(y)
_
d
dy
_
g
1
(y)
_
I
Y
(y) dy =
=
_
y
f
X
_
g
1
(y)
_
_
d
dy
_
g
1
(y)
_
_
I
Y
(y) dy =
=
_
y
f
X
_
g
1
(y)
_
d
dy
_
g
1
(y)
_
I
Y
(y) dy
El otro caso es similar
Ejemplo: Veamos que si X U(0, 1) entonces Y = ln(1 X) E(1)
Notemos que S
X
= (0, 1) Ademas en este caso Y = g(X) siendo y = g(x) = ln(1 x) Esta
funcion es estrictamente creciente en S
X
como puede comprobarse va graca o evaluando el signo
de g
en S
X
Se tiene: (0, 1)
g
(0, ) , g
1
(y) = 1 e
y
es diferenciable con continuidad,
siendo
d
dy
_
g
1
(y)
_
= e
y
Por el teorema resulta:
f
Y
(y) = f
X
(1 e
y
)e
y
I
(0,)
(y) = e
y
I
(0,)
(y)
que es precisamente la densidad de una E(1)
Ejemplo: Mostrar que si X U(0, 1) entonces Y = X
1/
W(, )
Se tiene S
X
= (0, ) En este caso (0, )
g
(0, ) es estrictamente creciente con inversa
continuamente diferenciable: g
1
(y) = (y/)
,
d
dy
_
g
1
(y)
_
=

y
1
Por el teorema se tiene:
f
Y
(y) = f
X
((y/)
y
1
I
(0,)
(y) =
y
1
I
(0,)
(y)
que es precisamente la densidad W(, )
Ejemplo: Si X U(0, 1) y si es la fda normal standard entonces Y =
1
(X) N(0, 1)
Por ejemplo con Splus o R podramos generar n = 100 observaciones normales standard del modo
siguiente:
x_runif(100)
y_qnorm(x)
y
qqnorm(y)
qqline(y)
cuyo resultado es:
> y
[1] 1.439656209 -0.153820818 -0.973364545 -2.670822995 1.573157002
[6] -1.515236540 -0.017587315 -0.277855490 1.522914668 0.805903825
[11] 1.390965278 1.081745384 -0.940007847 1.806211842 1.385184211
[16] 0.789081143 -0.572512513 -0.426706851 -1.619519525 -0.163684787
[21] 0.363264580 3.509691190 -0.358246089 -0.618651099 -0.440391503
[26] -0.463496951 -0.528399068 0.343278381 -0.798728454 -0.858057270
[31] -0.114529089 0.014408313 0.711339651 -0.702370373 1.151716769
[36] 1.222205661 0.553613844 -1.291154983 1.576725352 1.274922705
[41] 2.373343271 0.023516669 -1.179085855 0.376860986 0.837743375
[46] 0.638265270 0.200955245 -1.227181790 0.226847841 0.092363984
[51] -0.202351448 -1.194020555 -0.031555431 -0.276199872 -0.522546189
[56] -0.821240291 -0.829233179 -1.420151004 -0.018863978 1.071702472
[61] 0.952116827 -0.481977529 0.013052120 2.576981022 -0.240945446
[66] 1.061576194 -0.429587065 1.177723298 1.517133775 0.747041757
[71] -0.302776745 -0.606648062 0.159249318 -0.727483736 -0.209902629
[76] -1.468940054 -0.384172801 -1.107982526 1.475101839 0.794312989
[81] -1.684586480 -0.847926953 0.244018386 -0.143598695 0.614903554
[86] 0.592337464 0.417235128 1.225940136 1.156041361 0.214837671
[91] -0.005689715 -0.291107554 1.142520415 -0.036015666 1.284851222
[96] 0.343150051 0.431397104 -0.260146350 -0.297678363 0.857941106
Quantiles of Standard Normal
y
-2 -1 0 1 2
-
2
-
1
0
1
2
3
El teorema anterior tiene el inconveniente de requerir la monotona de g Presentamos a continuacion
una version menos restrictiva del mismo teorema.
Teorema 10 ddd
Esperanza y varianza
22 Valor esperado de una variable aleatoria
22.1 Motivaci on
Los ejemplos siguientes aclaran la situacion que vamos a considerar.
Ejemplo: Una prueba es calicada en una escala de puntajes 0, 1, 2, 3. Un curso de 35 alumnos
realiza la prueba, con los siguientes resultados (en la tabla X indica el puntaje):
Al. X Al. X Al. X Al. X Al. X
1 2 8 1 15 2 22 1 29 0
2 1 9 2 16 2 23 1 30 1
3 1 10 1 17 1 24 2 31 1
4 0 11 1 18 2 25 1 32 2
5 2 12 1 19 1 26 1 33 2
6 2 13 0 20 1 27 2 34 2
7 2 14 3 21 0 28 1 35 1
Supongamos que se extrae al azar un alumno entre los 35 evaluados Que puntaje se espera observar?
Dicho en otro terminos, que n umero podemos tomar como representativo del puntaje del curso?
Naturalmente esperamos que el puntaje promedio del curso sirva a tales efectos. Sea X la variable
aleatoria que mide el puntaje (de un alumno, en nuestro experimento aleatorio de extraer un alumno
al azar y observar su puntaje). El rango de X es R
X
= {0, 1, 2, 3}. El puntaje promedio del curso
es (n = 35):
X =
2+1+1+0+2+2+2+1+2+1+1+1+0+3+2+2+1+2+1+1+0+1+1+2+1+1+2+2+1+1
35
Para calcular el numerador de esta expresion podemos agrupar puntajes iguales, es decir que podemos
agrupar de acuerdo a los distintos valores de la variable aleatoria X. Entonces el calculo anterior
adopta la forma:
X =
0f(X=0)+1f(X=1)+2f(X=2)+3f(X=3)
35
=
=
04+118+212+31
35
En los calculos f(k) = f(X = k) representa la frecuencia del valor X = k (k = 0, 1, 2, 3). Si
ahora distribuimos el denominador, se obtiene:
X =
04+118+212+31
35
= 0
4
35
+ 1
18
35
+ 2
12
35
+ 3
1
35
=
= 0
f(X=0)
35
+ 1
f(X=1)
35
+ 2
f(X=2)
35
+ 3
f(X=3)
35
=
=
=
n
k=0
k
f(X=k)
n
Ahora bien, los n umeros
f(X=k)
n
vienen dados precisamente por la fmp de X, es decir p
X
(k) =
P(X = k). Entonces obtenemos el siguiente resultado:
X =
n
k=0
k p
X
(k) =
n
k=0
k P(X = k) =
kR
X
k P(X = k)
Ejemplo: Supongamos (para modelizar) que la altura X de un individuo adulto de cierta poblacion
sigue una distribucion N(1.70, 0.01). Si se extrae un individuo al azar de esta poblacion, que
altura esperada tendra? Es decir, que n umero podramos tomar como representativo de la altura de
un individuo en dicha poblacion? A diferencia del ejemplo anterior, en este caso la variable aleatoria
X es continua. Podemos considerar un rango razonable [L, U] de alturas (por ejemplo podramos
tomar L = 1, U = 2 por decir algo). Dividamos este intervalo [L, U] en cierta cantidad n de
subintervalos, mediante una particion regular:
L = x
o
< x
1
< < x
n
= U
y llamemos h a la norma de esta particion, es decir h = (U L)/n. Recordemos que:
f
X
(x) = lim
h0+
P(x X < x +h)
h
Por lo tanto podemos escribir:
P(x X < x +h) = hf
X
(x) +o(h) para h 0+
o aproximadamente para h peque no: P(x X < x + h) hf
X
(x). En cada subintervalo
[x, x +h) es razonable considerar a x o a cualquier otro valor en tal intervalo, como represetativo
de las alturas all (h peque no). Luego, imitando los calculos del ejemplo anterior, tomaramos como
altura representativa aproximada:
n
k=1
x
k
P(x
k1
X < x
k
)
n
k=1
x
k
f
X
(x
k
)h =
n
k=1
x
k
f
X
(x
k
) h
El calculo resultara mas representativo cuanto mas peque no sea h. En el lmite el calculo resultara
exacto. Pero de acuerdo a la denicion de integral denida se tiene:
lim
h0+
n
k=1
x
k
f
X
(x
k
) h =
_
U
L
xf
X
(x) dx
Pero hemos introducido un intervalo razonable de alturas posibles. Si nos atenemos estrictamente
a nuestro modelo N(1.70, 0.01), no hay razones por las cuales no debamos considerar cualesquiera
posibles valores de X en su rango R
X
= R (recordemos que esto es solo un modelo para la poblacion
real). Entonces lo logico sera tomar como representativo de la altura de la poblacion al n umero:
_

xf
X
(x) dx
22.2 Denici on y ejemplos
Denici on 27 Sea X una variable aleatoria discreta con rango R
X
= {x
k
} (nito o innito
numerable) y sea p
X
su fmp. Se dene el valor esperado o la esperanza de X como el n umero real:
E(X) =
xR
X
xP(X = x) =
xR
X
xp
X
(x)
siempre y cuando la serie converja absolutamente. En caso contrario se dice que X no posee esperanza
o que la esperanza de X no est a denda. Al hablar de convergencia absoluta queremos signicar que
la serie de los valores absolutos debe converger (suma nita), es decir:
xR
X
|x| p
X
(x) <
Nota: Cuando R
X
es nito siempre existira E(X) puesto que la serie en cuestion solo consta de
un n umero nito de terminos.
Denici on 28 Sea X una variable aleatoria continua y sea f
X
su fdp. Se dene el valor esperado
o la esperanza de X como el n umero real:
E(X) =
xf
X
(x) dx
siempre y cuando la integral converja absolutamente. En caso contrario se dice que X no posee
esperanza o que la esperanza de X no est a denda.
Nota: La integral puede ser propia o impropia, dependiendo de las caractersticas y del soporte de f
X
.
En todo caso, siempre debe analizarse su covergencia. Al hablar de convergencia absoluta queremos
signicar que la integral del valor absoluto debe converger (valor nito), es decir:
|x| f
X
(x) dx <
Vamos a ilustrar estas deniciones calculando la esperanza de algunas de las distribuciones que hemos
introducido anteriormente. Calcularemos tambien la esperanza del cuadrado de cada variable aleatoria,
dado que nos resultara util en el futuro (cuando denamos el concepto de varianza de una variable
aleatoria)
Ejemplo: Geometrica
Sea X G(p). En este caso R
X
= N. Anotemos q = 1 p. La esperanza se calcula como:
E(X) =
k=1
kP(X = k) =
k=1
kq
k1
p = p
k=1
kq
k1
Para sumar esta serie podemos recurrir al truco siguiente (que ya hemos utilizado):
S(q) =
k=0
q
k
=
1
1 q
(11)
Derivado respecto de q (justicaran el intercambio de derivada con suma en alguno de los cursos de
Analisis Matematico) se obtiene:
S
(q) =
k=1
kq
k1
=
d
dq
_
1
1 q
_
=
1
(1 q)
2
=
1
p
2
Luego:
E(X) = p
1
p
2
=
1
p
Por otra parte:
E(X
2
) =
k=1
k
2
P(X = k) =
k=1
k
2
q
k1
p = p
k=1
k
2
q
k1
Para hallar la suma de esta serie, derivemos (11) pero en este caso dos veces:
S
(q) =
k=2
k(k 1)q
k2
=
d
dq
_
1
(1 q)
2
_
=
2
(1 q)
3
=
2
p
3
Si separamos la suma obtenemos:
S
(q) =
k=2
k
2
q
k2
k=2
kq
k2
= q
1
_

k=1
k
2
q
k1
1
k=2
kq
k1
_
=
= q
1
_

k=1
k
2
q
k1
1 (S
(q) 1)
_
=
= q
1
_

k=1
k
2
q
k1
S
(q)
_
Despejando:
k=1
k
2
q
k1
= qS
(q) +S
(q) =
2q
p
3
+
1
p
2
=
2q +p
p
3
Por lo tanto:
E(X
2
) = p
k=1
k
2
q
k1
=
2q +p
p
2
Ejemplo: Binomial
Sea X Bi(n, p). En este caso R
X
= {0, 1, , n}. Anotemos q = 1 p. Entonces:
E(X) =
n
k=0
k
_
n
k
_
p
k
q
nk
=
n
k=1
kn!
k!(nk)!
p
k
q
nk
=
n
k=1
n(n1)!
(k1)!(nk)!
p
k
q
nk
=
= np
n
k=1
_
n1
k1
_
p
k1
q
nk
= np
n
k=1
_
n1
k1
_
p
k1
q
nk
=
= np(p +q)
n1
= np
Para calcular la esperanza del cuadrado de una binomial:
E(X
2
) =
n
k=0
k
2
_
n
k
_
p
k
q
nk
=
n
k=1
k
2
_
n
k
_
p
k
q
nk
=
n
k=1
k
2
n!
k!(nk)!
p
k
q
nk
=
=
n
k=1
nk(n1)!
(k1)!(nk)!
p
k
q
nk
= np
n
k=1
k
_
n1
k1
_
p
k1
q
nk
=
= np
_
n
k=1
(k 1)
_
n1
k1
_
p
k1
q
nk
+
n
k=1
_
n1
k1
_
p
k1
q
nk
_
=
= np
_
n
k=1
(k 1)
_
n1
k1
_
p
k1
q
nk
+ 1
_
= np
_
n1
s=0
s
_
n1
s
_
p
s
q
n1s
+ 1
_
=
= np [(n 1)p + 1] = np(np + 1 p) = np(np +q)
donde hemos utilizado que la ultima suma entre corchetes es la expresion de la esperanza de una
Bi(n 1, p), es decir (n 1)p.
Ejemplo: Poisson
Sea X P() de modo que R
X
= N
{0}. Calculemos su esperanza:

E(X) =
k=0
k
k
k!
e
= e
k=1
k1
(k 1)!
= e
s=0
s
s!
= e
=
Calculemos la esperanza de su cuadrado:
E(X
2
) =
k=0
k
2
k
k!
e
= e
k=1
k

k1
(k1)!
= e
s=0
(s + 1)

s
s!
=
=
_

s=0
s

s
s!
e
+e
s=0
s
s!
_
=
_
+e
_
= (1 +)
Ejemplo: Gaussiana standard
Sea X N(0, 1). Su esperanza se calcula como:
E(X) =
_

x
1
2
e
x
2
/2
dx =
1
2
_

xe
x
2
/2
dx
Afortunadamente el integrando posee primitiva elemental. En efecto: Sustituyendo t = x
2
/2 se
tiene dt = xdx
_
xe
x
2
/2
dx =
_
e
t
dt = e
t
+C = e
x
2
/2
+C
Por lo tanto:
_
b
0
xe
x
2
/2
dx = 1 e
b
2
/2
b
1
_
0
a
xe
x
2
/2
dx = e
a
2
/2
1
a
1
De manera que:
_
xe
x
2
/2
dx = 1 + 1 = 0. Esto muestra que E(X) = 0
Calculemos ahora E(X
2
), es decir:
E(X
2
) =
_

x
2
1
2
e
x
2
/2
dx =
1
2
_

x
2
e
x
2
/2
dx
Planteamos la integral indenida por partes: u = x, dv = xe
x
2
/2
dx. Entonces: du = dx, v =
_
xe
x
2
/2
dx = e
x
2
/2
. Luego:
_
x
2
e
x
2
/2
dx = xe
x
2
/2
+
_
e
x
2
/2
dx
Por lo tanto:
_
b
a
x
2
e
x
2
/2
dx = xe
x
2
/2
b
a
+
_
b
a
e
x
2
/2
dx = be
b
2
/2
ae
a
2
/2
+
_
b
a
e
x
2
/2
dx
Luego:
_
0
a
x
2
e
x
2
/2
dx
a
+
_
0
e
x
2
/2
dx
_
b
0
x
2
e
x
2
/2
dx
b
+
_
0
e
x
2
/2
dx
Por lo tanto:
_

x
2
e
x
2
/2
dx =
_

e
x
2
/2
dx =
2
Finalmente: Por lo tanto:
E(X
2
) =
1
2
_

x
2
e
x
2
/2
dx =
1
2 = 1
Ejemplo: Exponencial
Sea X E(). Calculemos su esperanza:
E(X) =
_

0
xe
x
dx =
_

0
xe
x
dx
Planteamos la integral indenida por partes: u = x, dv = e
x
dx
_
xe
x
dx = xe
x
+
_
e
x
dx = xe
x
e
x
Entonces:
E(X) = xe
x
e
x
0
=
1
En cuanto a la esperanza del cuadrado, planteamos:

E(X
2
) =
_

0
x
2
e
x
dx =
_

0
x
2
e
x
dx
Nuevamente aca planteamos la integral indenida por partes: u = x
2
, dv = e
x
dx
_
x
2
e
x
dx = x
2
e
x
+ 2
_
xe
x
dx
Entonces:
E(X
2
) =
_
0
x
2
e
x
dx = x
2
e
x
0
+ 2
_
0
xe
x
dx = 2
_
0
xe
x
dx =
= 2
E(X)
= 2/
2
Ejemplo: Binomial negativa
Sea X BN(r, p). Su esperanza se calcula como:
E(X) =
k=r
k
_
k1
r1
_
p
r
q
kr
=
k=r
k(k1)!
(r1)!(kr)!
p
r
q
kr
=
= r
k=r
k!
r!(kr)!
p
r
q
kr
= r
k=r
_
k
r
_
p
r
q
kr
=
=
r
p
k=r
_
k
r
_
p
r+1
q
kr
=
r
p
s=r+1
_
s 1
(r + 1) 1
_
p
r+1
q
s(r+1)
. .
1
=
r
p
Para hallar la esperanza del cuadrado:
E(X
2
) =
k=r
k
2
_
k1
r1
_
p
r
q
kr
=
k=r
rkk!
r!(kr)!
p
r
q
kr
=
= r
k=r
k
_
k
r
_
p
r
q
kr
= r
s=r+1
(s 1)
_
s1
r
_
p
r+1
q
sr1
=
=
r
p
_
s=r+1
s
_
s 1
r
_
p
r+1
q
sr1
. .
(r+1)/p
s=r+1
_
s 1
r
_
p
r+1
q
sr1
. .
1
_
_
=
r
p
_
r+1
p
1
_
Ejemplo: Gama
Sea X (, ). Calculemos su esperanza:
E(X) =
_
0
x

()
x
1
e
x
dx =
_
()
x
(+1)1
e
x
dx =
=

+1
(+1)
x
(+1)1
e
x
dx =

En cuanto a la esperanza del cuadrao, los calculos son similares:

E(X
2
) =
_
0
x
2
()
x
1
e
x
dx =
_
()
x
(+2)1
e
x
dx =
=
(+1)
2
_
+2
(+2)
x
(+2)1
e
x
dx =
(+1)
2
Ejemplo: Beta
Sea X Be(, ). Su esperanza viene dada por:
E(X) =
_
1
0
x
1
B(,)
x
1
(1 x)
1
dx =
_
1
0
1
B(,)
x
(+1)1
(1 x)
1
dx =
=
_
1
0
1
B(,)
x
(+1)1
(1 x)
1
dx =

+
_
1
0
1
B(+1,)
x
(+1)1
(1 x)
1
dx =

+
E(X
2
) =
_
1
0
x
2 1
B(,)
x
1
(1 x)
1
dx =
_
1
0
1
B(,)
x
(+2)1
(1 x)
1
dx =
=
(+1)
(+)(++1)
_
1
0
1
B(+2,)
x
(+2)1
(1 x)
1
dx =
(+1)
(+)(++1)
Ejemplo: Hipergeometrica
Sea X H(n, D, N). Sean m = max {0, n N +D} , M = min {n, D}. Entonces si anota-
mos m
= max {0, (n 1) (N 1) + (D 1)} , M
= min {n 1, D 1} resulta:
m
=
_
0 si m = 0
m1 si m 1
= max {m1, 0} = max {m, 1} 1 ; M
= M 1
La esperanza de X viene dada por:
E(X) =
M
k=m
k
(
D
k
)(
ND
nk
)
(
N
n
)
=
M
k=max{m,1}
k
(
D
k
)(
ND
nk
)
(
N
n
)
=
=
n
N
M
k=max{m,1}
D(
D1
k1
)(
(N1)(D1)
(n1)(k1)
)
(
N1
n1
)
=
nD
N
M
k=max{m,1}
(
D1
k1
)(
(N1)(D1)
(n1)(k1)
)
(
N1
n1
)
=
=
nD
N
M1
s=max{m,1}1
(
D1
s
)(
(N1)(D1)
(n1)s
)
(
N1
n1
)
=
nD
N
M
s=m
(
D1
s
)(
(N1)(D1)
(n1)s
)
(
N1
n1
)
= n
D
N
E(X
2
) =
M
k=m
k
2
(
D
k
)(
ND
nk
)
(
N
n
)
=
M
k=max{m,1}
k
2
(
D
k
)(
ND
nk
)
(
N
n
)
=
=
n
N
M
k=max{m,1}
k
D(
D1
k1
)(
(N1)(D1)
(n1)(k1)
)
(
N1
n1
)
=
nD
N
M
k=max{m,1}
k
(
D1
k1
)(
(N1)(D1)
(n1)(k1)
)
(
N1
n1
)
=
=
nD
N
M1
s=max{m,1}1
(s + 1)
(
D1
s
)(
(N1)(D1)
(n1)s
)
(
N1
n1
)
=
nD
N
M
s=m
(s + 1)
(
D1
s
)(
(N1)(D1)
(n1)s
)
(
N1
n1
)
=
=
nD
N
_
M
s=m
s
(
D1
s
)(
(N1)(D1)
(n1)s
)
(
N1
n1
)
+
M
s=m
(
D1
s
)(
(N1)(D1)
(n1)s
)
(
N1
n1
)
_
=
=
nD
N
_
(n 1)
D1
N1
+ 1
_
=
nD
N
(n1)(D1)+(N1)
N1
= n
D
N
_
1 + (n 1)
D1
N1
_
=
=
N
N1
_
1 +
n(D1)
ND
_
n
D
N
_
1
D
N
_
Ejemplo: Chi cuadrado
Sea X
2
(n) =
_
n
2
,
1
2
_
. Entonces por lo visto para la gamma, se tiene:
E(X) =
n/2
1/2
= n ; E(X
2
) =
n
2
(
n
2
+1)
(1/2)
2
= n(n + 2)
Ejemplo: Uniforme
Sea X U(a, b). En este caso:
E(X) =
_
b
a
x
1
ba
dx =
1
ba
_
b
a
xdx =
1
ba
x
2
2
b
a
=
b
2
a
2
2(ba)
=
(ba)(b+a)
2(ba)
=
a+b
2
E(X
2
) =
_
b
a
x
2 1
ba
dx =
1
ba
_
b
a
x
2
dx =
1
ba
x
3
3
b
a
=
b
3
a
3
3(ba)
=
(ba)(a
2
+ab+b
2
)
3(ba)
=
a
2
+ab+b
2
3
Ejemplo: t de Student
Sea X t(n). Para calcular su esperanza observemos antes algunas particularidades. Debemos
analizar ante todo la convergencia de la integral impropia. Por simetra y dado que dicha integral
es propia en el origen, vamos a estudiarla en [
n, ). De hecho, para que nos sirva despues,

estudiaremos la convergencia de la siguiente (un poco mas general):
I
k,n
=
_

n
x
k
_
1 +
x
2
n
_
(n+1)/2
dx
Hacemos el cambio de variables (para deshacernos del n molesto): t = x/
n. Entonces dt =
dx/
n. Luego:
I
k,n
= n
(k+1)/2
_

1
t
k
(1 +t
2
)
(n+1)/2
dt
Pero si t 1 se cumple:
t
k
(1+t
2
)
(n+1)/2

t
k
t
n+1
=
1
t
n+1k
pues 1 +t
2
t
2
t
k
t
k
(1+t
2
)
(n+1)/2
t
n
(1+t
2
)
(n+1)/2

t
n
(2t
2
)
(n+1)/2
=
1
2
(n+1)/2
t
pues 1 +t
2
t
2
+t
2
= 2t
2
Luego: I
k,n
es convergente sii n + 1 k > 1 sii k < n. Deducimos inmediatamente que si
X t(1) entonces X carece de esperanza (nita). Si X t(2) entonces E(X) existe pero
E(X
2
) no existe. En cambio si X t(n) con n 3 entonces existen E(X) y E(X
2
).
Vamos a calcularlas: Para alivianar notacion denotemos A
n
=
(
n+1
2
)
(
n
2
)
n
. Tengamos presente que
por denicion de fdp (su integral sobre toda la recta es 1 ) se tiene para n N:
_

dt
(1 +t
2
)
(n+1)/2
= n
1/2
_

dx
_
1 +
x
2
n
_
(n+1)/2
=
_
n
1/2
A
n
_
1
Entonces usando consecutivamente las sustituciones t = x/
n, s = 1 +t
2
se obtiene para n 2:
E(X) = A
n
_
1+
x
2
n
(n+1)/2
dx = nA
n
_
t
(1+t
2
)
(n+1)/2
dt =
= nA
n
_
_
0
t
(1+t
2
)
(n+1)/2
dt +
_
0
t
(1+t
2
)
(n+1)/2
dt
_
=
=
1
2
nA
n
_
_
0
ds
s
(n+1)/2
+
_
0
ds
s
(n+1)/2
_
=
1
2
nA
n
_
0
ds
s
(n+1)/2
+
_
0
ds
s
(n+1)/2
_
= 0
Analogamente, para n 3 se tiene:
E(X
2
) = A
n
_
x
2
1+
x
2
n
(n+1)/2
dx = n
3/2
A
n
_
t
2
(1+t
2
)
(n+1)/2
dt =
= n
3/2
A
n
_
(1+t
2
)1
(1+t
2
)
(n+1)/2
dt =
= n
3/2
A
n
_
_
1
(1+t
2
)
(n1)/2
dt
_
1
(1+t
2
)
(n+1)/2
dt
_
=
= n
3/2
A
n
_
1
(n2)
1/2
A
n2
1
n
1/2
A
n
_
=
= n
_
_
n
n2
_
1/2
A
n
A
n2
1
_
Utilizando las propiedades de la funcion gamma se puede vericar facilmente que A
n
/A
n2
= (n
1)/
_
n(n 2)
1/2
. Reemplazando resulta:
E(X
2
) = n
_
_
n
n2
_
1/2
n1
[n(n2)]
1/2
1
_
= n
_
n1
n2
1
_
=
n
n2
Ejemplo: F de Fisher-Snedecor
El calculo de E(X) y E(X
2
) es un poco engorroso y lo omitiremos. El resultado es el siguiente:
E(X) =
n
n2
para n 3
E(X
2
) =
_
n
n2
_
2
_
1 + 2
m+n2
m(n4)
_
para n 5
Ejemplo: Lognormal
Sea X logN(, ). Calculemos su esperanza: Para la integral realizamos la sustitucion t = ln x.
Luego: dt = dx/x, x = e
t
. Entonces:
E(X) =
_
0
x
2 x
e
(ln x)
2
/(2
2
)
dx =
1
2
_
0
e
(ln x)
2
/(2
2
)
dx =
= =
1
2
_
e
(t)
2
/(2
2
)
e
t
dt =
1
2
_
e
(t
2
2t+
2
2
2
t)/(2
2
)
dt =
=
1
2
e
2
/(2
2
)
_
e
[t
2
2(+
2
)t]/(2
2
)
dt =
=
1
2
e
2
/(2
2
)
_
e
[t
2
2(+
2
)t+(+
2
)
2
(+
2
)
2
]/(2
2
)
dt =
=
1
2
e
2
/(2
2
)
_
e
[t(+
2
)]
2
/(2
2
)
e
(+
2
)
2
/(2
2
)
dt =
= e
2
/(2
2
)
e
(+
2
)
2
/(2
2
)
_
2
e
[t(+
2
)]
2
/(2
2
)
dt =
= e
2
/(2
2
)
e
(+
2
)
2
/(2
2
)
= e
+
2
/2
El calculo de la esperanza del cuadrado es completamente similar:
E(X
2
) =
_
0
x
2
2 x
e
(ln x)
2
/(2
2
)
dx =
1
2
_
0
xe
(ln x)
2
/(2
2
)
dx =
= =
1
2
_
e
(t)
2
/(2
2
)
e
2t
dt =
1
2
_
e
(t
2
2t+
2
4
2
t)/(2
2
)
dt =
=
1
2
e
2
/(2
2
)
_
e
[t
2
2(+2
2
)t]/(2
2
)
dt =
=
1
2
e
2
/(2
2
)
_
e
[t
2
2(+2
2
)t+(+2
2
)
2
(+2
2
)
2
]/(2
2
)
dt =
=
1
2
e
2
/(2
2
)
_
e
[t(+2
2
)]
2
/(2
2
)
e
(+2
2
)
2
/(2
2
)
dt =
= e
2
/(2
2
)
e
(+2
2
)
2
/(2
2
)
_
2
e
[t(+2
2
)]
2
/(2
2
)
dt =
= e
2
/(2
2
)
e
(+2
2
)
2
/(2
2
)
= e
2(+
2
)
22.3 Propiedades de la esperanza
Propiedad 47 (Linealidad de la esperanza) Sean X e Y variables aleatorias denidas sobre
un mismo espacio de probabilidad. Supongamos adem as que E(X) , E(Y ) est an denidas. Entonces
para cualesquiera constantes a, b R la esperanza E(aX +bY ) existe y se verica:
E(aX +bY ) = aE(X) +bE(Y )
Dem: Esta demostracion se dara mas adelante, cuando desarrollemos la teora de vectores aleatorios.
Propiedad 48 Sea X una variable aleatoria. Dados m, n N, m < n se cumple:
E(X
n
) existe E(X
m
) existe
Dem:
Solo demostramos el caso discreto (El caso continuo se demustra de manera completamente analoga,
reemplazando sumas por integrales). Tengamos en cuenta que: x 0 , x
m
x
n
x 1
E (|X
m
|) =
xR
X
|x|
m
p
X
(x) =
xR
X
|x|>1
|x|
m
p
X
(x) +
xR
X
|x|1
|x|
m
p
X
(x)

xR
X
|x|>1
|x|
n
p
X
(x) +
xR
X
|x|1
p
X
(x)

xR
X
|x|
n
p
X
(x) +
xR
X
p
X
(x) = E (|X
n
|) + 1
Por lo tanto si E(X
n
) existe entonces E (|X
n
|) < por lo cual E (|X
m
|) < de manera que
E(X
m
) existe.
Propiedad 49 Sea X una variable aleatoria tal que E(X) existe. Se cumple:
P(X 0) = 1 E(X) 0
Dem:
Caso discreto:
p
X
(x) = P(X = x) = P(X = x, X 0) +P(X = x, X < 0)
Pero: P(X < 0) = 1 P(X 0) = 1 1 = 0 Entonces como {X = x, X < 0}
{X < 0} resulta P(X = x, X < 0) = 0 Por lo tanto: p
X
(x) = P(X = x, X 0) =
p
X
(x)I
[0,)
(x) Entonces:
E(X) =
xR
X
xp
X
(x) =
xR
X
xp
X
(x)I
[0,)
(x) =
xR
X
x0
xp
X
(x) 0
El caso continuo es similar.
Corolario 8 Sean X, Y variables aleatorias tales que existen E(X), E(Y ) Se cumple:
P(X Y ) = 1 E(X) E(Y )
Dem: Consideremos Z = XY Aplicandole directamente la propiedad anterior y utilizando luego
la linealidad de la esperanza, se deduce el resultado a probar.
Propiedad 50 (Desigualdad de Markov) Sea X una variable aleatoria tal que X 0y E(X)
existe. Entonces para cualquier n umero real c > 0 se verica:
P(X c)
E(X)
c
Dem: Sea A = [c, ) La funcion indicadora de A es
I
A
(x) =
_
1 si x A
0 si x A
La variable aleatoria I
A
(X) es discreta con rango {0, 1} Calculemos su esperanza:
E(I
A
(X)) = 0P(I
A
(X) = 0)+1P(I
A
(X) = 1) = P(I
A
(X) = 1) = P(X A) = P(X c)
Ademas: x A x c x/c 1 Por lo tanto:
x R, I
A
(x)
x
c
I
A
(x)
x
c
Luego: I
A
(X)
X
c
Tomando esperanzas y utilizando el corolario anterior se tiene:
P(X c) = E(I
A
(X)) E
_
X
c
_
=
E(X)
c
Propiedad 51 Sea X una variable aleatoria. Se verica:
X 0 y E(X) = 0 P(X = 0) = 1
Dem: Fijemos x > 0 Por la desigualdad de Markov y utilizando que E(X) = 0 se tiene:
P(X x)
E(X)
x
= 0
Entonces: x > 0 , P(X x) = 0 Por lo tanto, si x > 0 vale: F
X
(x) = 1 puesto que:
F
X
(x) = P(X x) = lim
n
P(X < x + 1/n) = lim
n
_
_
1 P(X x + 1/n)
. .
0
_
_
= 1
Utilizando que X 0 tambien se tiene: x > 0 , F
X
(x) = 0 Por lo tanto:
P(X = 0) = lim
x0
+
_
_
F
X
(x)
. .
1
F
X
(x)
. .
0
_
_
= 1
como queramos demostrar.
23 Varianza de una variable aleatoria
23.1 Motivaci on y denici on
Consideremos una variable aleatoria X que representa una caracterstica numerica de los individuos
de cierta poblacion. Supongamos ademas que existe E(X
2
) Elijamos al azar un individuo dentro de
tal poblacion e intentemos predecir el valor que tomara la variable aleatoria X en dicho individuo.
Lo mas razonable sera predecir el valor de X mediante el n umero E(X) Porque? Supongamos
que decidimos predecir el valor de X mediante un n umero c Tal prediccion tendra asociado un error
(absoluto) aleatorio expresado por |X c| Naturalmente ning un n umero c minimizara este error para
todos los valores posibles de X precisamente por ser aleatorio el error. Pero podemos intentar buscar
el n umero c que minimice la esperanza del error. Para evitar valores absolutos, busquemos el n umero
c que minimice la esperanza del cuadrado del error, denominada error cuadratico medio(ECM):
ECM(c) = E
_
(X c)
2
_
= E(X
2
2cX +c
2
) = E(X
2
) 2cE(X) +c
2
La expresion anterior es cuadratica en c Podemos reexpresarla como:
E
_
(X c)
2
_
= E
_
[(X E(X)) + (E(X) c)]
2
_
=
= E
_
(X E(X))
2
_
+ 2 (E(X) c) E (X E(X)) +E
_
(X E(X))
2
_
=
= E
_
(X E(X))
2
_
+E
_
(E(X) c)
2
_
Como el primer termino en esta expresion no depende de c y el segundo termino se hace mnimo
tomando c = E(X) deducimos que el mejor predictor constante de X es el n umero E(X) Ademas, el
ECM de E(X) como predictor de X resulta ser E
_
(X E(X))
2
_
Esta magnitud es tan importante
en probabilidades y estadstica que recibe un nombre especial.
Denici on 29 Dada una variable aleatoria X se dene la varianza de X como:
V (X) = E
_
(X E(X))
2
_
siempre y cuando tal esperanza exista.
Otras notaciones comunes para la varianza de X son V ar(X) ,
XX
,
2
X
El desvo standard o tpico de X se dene como la raz cuadrada de su varianza:
SD(X) =
_
V (X)
El desvo standard de X tambien se anota
X
Observese que:
Si E(X
2
) existe entonces V (X) existe puesto que por propiedades vistas anteriormente se
deduce que E(X) existe y por lo tanto, utilizando la propiedad de linealidad de la esperanza
tiene: V (X) = E
_
(X E(X))
2
_
= E(X
2
2E(X)X +E
2
(X)) existe.
Siendo V (X) la esperanza de un cuadrado, resulta siempre: V (X) 0
Por propiedades vistas anteriormente se deduce que: V (X) = 0 P(X = E(X)) = 1
Si X se expresa en ciertas unidades, entonces V (X) se expresa en dichas unidades al cuadrado.
Por ejemplo, si X representa altura y se expresa en cm entonces V (X) queda expresada en
cm
2
En cambio SD(X) queda espresada en las mismas unidades que X
Tanto V (X) como SD(X) miden en cierto sentido cuan alejados se encuentran, en promedio, los
valores de la variable aleatoria X respecto de su centro o valor esperado E(X) Por ello decimos
que V (X) y SD(X) representan medidas de dispersion de la variable aleatoria.
23.2 Calculo y propiedades
Propiedad 52 Sea X una variable aleatoria con E(X
2
) nita. Se cumple:
V (X) = E(X
2
) E
2
(X)
Dem: Notemos que como E(X
2
) < entonces por una propiedad anterior E(X) existe. Por lo
tanto, utilizando la linealidad de la esperanza se obtiene:
V (X) = E
_
(X E(X))
2
_
= E(X
2
2E(X)X +E
2
(X)) = E(X
2
) 2E
2
(X) +E
2
(X) =
E(X
2
) E
2
(X)
Ejemplo: X Bi(n, p)
Ya calculamos E(X) = np , E(X
2
) = np(q +np) de modo que se tiene: V (X) = np(q +np)
(np)
2
= npq = np(1 p)
Ejemplo: X G(p)
En este caso sabemos que E(X) = 1/p y E(X
2
) = (2q + p)/p
2
Por lo tanto V (X) =
(2q +p)/p
2
1/p
2
= q/p
2
= (1 p)/p
2
Ejemplo: X H(n, D, N)
Vimos que E(X) = n
D
N
y E(X
2
) =
N
N1
_
1 +
n(D1)
ND
_
n
D
N
_
1
D
N
_
Entonces luego de operar se obtiene: V (X) = n
D
N
_
1
D
N
_
N n
N 1
. .
()
El factor () se denomina factor de correccion por poblacion nita, en tanto que los tres primeros
factores coinciden con la esperanza de una variable aleatoria con distribucion Bi(n, D/N) Esto no
debe sorprendernos ya que la hipergeometrica surgio al contar la cantidad de objetos distinguidos
en una muestra sin reposicion de tama no n de una poblacion de N individuos entre los que hay un
total de D distinguidos. Entonces cuando N es grande respecto de n y este es peque no respecto
de D es razonable que la no reposicion afecte muy poco el resultado, de manera que contar la can-
tidad de distinguidos entre los n debera dar resultados similares ya sea que la extraccion se realice
con o sin reposicion. Pero si se realiza con reposicion, la cantidad de distinguidos posee distribucion
Bi(n, D/N)
Ejemplo: X P()
En este caso vimos que E(X) = , E(X
2
) = ( + 1) Luego: V (X) = ( + 1)
2
=
Ejemplo: X N(,
2
)
Vimos que E(X) = , E(X
2
) =
2
+
2
Por lo tanto: V (X) =
2
+
2
2
=
2
Ejemplo: X (, )
Probamos antes que E(X) = /, E(X
2
) = ( + 1)/
2
Luego: V (X) = ( + 1)/
2
(/)
2
= /
Propiedad 53 Sea X una variable aleatoria tal que V (X) es nita y sean a, b constantes. Vale:
V (aX +b) = a
2
V (X)
Dem:
V (aX +b) = E
_
(aX +b)
2
_
E
2
(aX +b) = E(a
2
X
2
+ 2abX +b
2
) (aE(X) +b)
2
=
= a
2
E(X
2
) + 2abE(X) +b
2
a
2
E
2
(X) 2abE(X) b
2
=
= a
2
E(X
2
) a
2
E
2
(X) = a
2
_
E(X
2
) E
2
(X)
_
= a
2
V (X)
24 Esperanza y varianza de una funci on de una variable aleatoria
Propiedad 54 Sea X una variable aleatoria y sea S
X
el soporte de su distribuci on. La esperanza de
la variable aleatoria g(X) puede calcularse, siempre que exista, como:
i) Caso discreto:
E(g(X)) =
xS
X
g(x)p
X
(x)
ii) Caso continuo:
E(g(X)) =
_
S
X
g(x)f
X
(x) dx
Dem:
Caso discreto: La fmp de Y = g(X) viene dada por p
Y
(y) =
xR
X
g(x)=y
p
X
(x) Por lo tanto:
E(Y ) =
yR
Y
yp
Y
(y) =
yR
Y
y
xR
X
g(x)=y
p
X
(x) =
yR
Y
xR
X
g(x)=y
yp
X
(x) =
=
yR
Y
xR
X
g(x)=y
g(x)p
X
(x) =
xR
X
g(x)p
X
(x)
En el caso continuo la demostracion es similar a la del teorema de cambio de variables que se demostro
cuando se dedujo, bajo condiciones de regularidad, que Y = g(X) posee densidad. Omitimos la
prueba.
Ejemplo: Calculemos E( ln X) siendo X U(0, 1)
Sea Y = ln X Anotando S
X
= (0, 1) y S
Y
= (0, ) los soportes de Xe Y respectivamente,
se tiene:
E(Y ) =
_
1
0
( ln x) f
X
(x) dx =
_
1
0
lnxdx = xlnx|
1
0
+
_
1
0
dx = 1

Completo Combinatoria

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Completo Combinatoria

Transféré par

Droits d'auteur :

Formats disponibles

UNQ/Dip.CyT/Probabilidades y Estadstica/Primer Cuatrimestre de 2007 p ag.

Nota: La regla de Bayes tambien es valida para particiones nitas.

: no hay enfermedad coronaria

) = P(A\B) = P(A)P(AB) = P(A)P(A)P(B) = P(A)(1P(B)) = P(A)P(B

independientes, podemos aplicarles la parte ) ya demostrada.

f(t) dt. Vamos a vericar que esta F es una fda.

f(x) dx = 1. En este caso:

). Pero como P(X < x

) = 1/2. Luego: P(X < x

= n/2. En efecto: Consideremos

= [(n + 1)p]. Si, en cambio, (n + 1)p es entero, lo anterior muestra que la

(unimodal), mientras que si

1 0.1215767 0.2701703 0.2851798 0.3231

20.5 Distribuci on chi cuadrado

existe y es continua en [c, d]). Sea f continua en g ([c, d]). Se verica:

(t) para todo t [c, d]

(x) = f(x) para todo x g ([c, d])

en [c, d]. Por lo tanto existe alguna

{0}. Calculemos su esperanza:

En cuanto a la esperanza del cuadrado, planteamos:

En cuanto a la esperanza del cuadrao, los calculos son similares:

= max {0, (n 1) (N 1) + (D 1)} , M

n, ). De hecho, para que nos sirva despues,

Vous aimerez peut-être aussi