Probabilidad y Estadística. Por María Luisa Pérez Seguí y Miguel Raggi Pérez

Probabilidad y Estadı́stica
por Marı́a Luisa Pérez Seguı́

y Miguel Raggi Pérez
1. Conteo
Esta sección es un repaso de los temas básicos del conteo.
1.1 Ejemplo. ¿Cuántos números enteros de tres o menos cifras hay?

Solución. La respuesta a esta pregunta es fácil: Hay 1000 pues son todos los números
enteros del 0 al 999. Esta solución no nos enseña gran cosa. Retomemos ahora el problema
buscando una solución constructiva; esto es, para cualquier n = 1, 2, 3, . . ., la cantidad de
números de hasta n + 1 cifras se puede obtener de la cantidad de números de hasta n cifras:
simplemente se multiplica por 10. Vamos a describir con detalle este procedimiento:
Números de a lo más una cifra hay 10, a saber, 0, 1, 2, 3, 4, 5, 6, 7, 8 y 9. Para contar los
de hasta dos cifras (del 0 al 99) no necesitamos escribirlos todos; basta con observar que la
primera cifra puede ser cualquiera de los 10 dı́gitos 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, y por cada uno de
éstos hay 10 terminaciones distintas; por ejemplo, los números de dos cifras que empiezan con
4 son: 40, 41, 42, 43, 44, 45, 46, 47, 48 y 49, diez en total; lo mismo para cada una de las otras
decenas. Ası́ la cantidad de enteros entre 0 y 99 es 10×10 = 100. El siguiente paso es análogo:
Para contar los números de hasta tres cifras hay que agregar un dı́gito (posiblemente 0) a
cada uno de los 100 números de 2 o menos cifras; como hay diez posibilidades la respuesta
será 10 × 100 = 1000. ♦
Este procedimiento de “construir sobre lo ya construido” que hemos utilizado se llama

procedimiento inductivo . Muchas demostraciones de propiedades y fórmulas de números
naturales se basan en él. Más adelante se estudiará esto con detalle. El principio combinatorio
que manejamos en el ejemplo anterior (y que manejaremos en los siguientes) es:
1.2. Principio Fundamental de Conteo. Si una cierta tarea puede realizarse de m

maneras diferentes y, para cada una de esas formas, una segunda tarea puede realizarse de
n maneras distintas, entonces las dos tareas juntas pueden realizarse (en ese orden) de mn
formas diferentes.
1.3 Ejemplo. ¿Cuántas palabras de tres letras se pueden formar si se dispone de un

alfabeto con dos letras: a y b. (Nota: Son permisibles palabras como bba.)
Solución. Procederemos como en el ejemplo anterior. En este caso conviene ilustrarlo
haciendo un “diagrama árbol”:
1
Resolvamos ahora el ejemplo utilizando nuestro Principio Fundamental de Conteo. Con-
sideremos tres casillas: , la primera para la letra inicial, la segunda para la letra central
y la tercera para la letra final. En cada casilla hay dos elecciones posibles: la letra a o la
letra b. La respuesta es entonces 2 × 2 × 2 = 8. El procedimiento inductivo es como sigue:
En la primera casilla hay 2 posibilidades para elegir la letra. Una vez formada una palabra
de una letra: a o b, para agrandarla a una palabra de dos letras hay dos posibilidades, ası́
que palabras de dos letras hay 2 × 2 = 4. Para completar cada una de éstas a una palabra
de tres letras hay dos posibilidades; entonces hay 4 × 2 = 8 palabras de tres letras. ♦
1.4 Ejemplo. ¿Cuántas placas distintas hay con dos letras a la izquierda y tres números
a la derecha? (Nota: Consideraremos el alfabeto de 27 letras castellanas.
Solución. Seguimos el procedimiento de las casillas del ejemplo anterior:
27 × 27 × 10 × 10 × 10 = 729 000. ♦
| {z } | {z }
lugares lugares
para letras para números
1.5 Ejemplo. ¿Cuántas banderas bicolores se pueden formar si se dispone de 4 lienzos

de tela de colores distintos y un asta? (Nota: Banderas como rojo-rojo no son permisibles;
por otro lado, es importante el color que queda junto al asta, de esta manera banderas como
rojo-azul y azul-rojo se consideran distintas.)
Solución. En este caso consideramos dos casillas. La de la izquierda, digamos, representa
el lienzo junto al asta, el cual tiene 4 elecciones posibles. Una vez elegido éste, el color para
la derecha se puede escoger de 3 formas (pues no se permite la repetición de colores). Ası́
hay 4 × 3 = 12 formas distintas de formar las banderas. ♦
1.6 Ejercicio. Escribir todas las banderas que pueden formarse según el ejemplo anterior
si los colores son rojo (R), azul (A), verde (V ) y blanco (B).
2
1.7 Ejemplo. Misma pregunta que en el ejemplo anterior pero ahora suponiendo que
no hay asta. (En este caso no habrá distinción entre las banderas rojo-azul y azul-rojo.)
Solución. Para resolver este ejemplo analicemos la respuesta del ejemplo anterior. En
aquél, en la colección total de las 12 banderas posibles podemos aparear cada bandera con
su opuesta; por ejemplo la bandera azul-verde la apareamos con la bandera verde-azul. Cada
una de las del ejemplo anterior se esta contando dos veces y, por tanto, la respuesta es
12
2
= 6. ♦
1.8 Ejercicio. En el resultado del ejercicio 1.6 aparear cada una de las banderas con su
opuesta. Dar una lista de 6 banderas que ilustre la respuesta del ejemplo 1.7.
1.9 Ejemplo. ¿De cuántas formas se pueden sentar 5 personas en 5 sillas numeradas del
1 al 5?
Solución. En el asiento #1 se puede sentar cualquiera de las 5 personas; para cada elección
de la primera persona, la segunda puede ser cualquiera de las 4 restantes; ası́ en las dos
primeras sillas el número de elecciones posibles es 5 × 4 = 20. Continuamos de manera
análoga. Para simplificar dibujemos 5 casillas simbolizando los 5 asientos. Sobre cada casilla
escribamos el número respectivo de posibilidades y multipliquemos:
5 × 4 × 3 × 2 × 1 = 120. ♦
Si n es un número natural, el producto de todos los números naturales del 1 al n aparece

muy frecuentemente en problemas de combinatoria; se llama n factorial o factorial de n
y se denota por n!. (Ası́ la respuesta del ejemplo 1.9 es 5! = 120.)
Alejándose de la interpretación de n! como el producto de los naturales de 1 a n, se define
0! = 1;
esto permite incluir el caso n = 0 en algunas fórmulas en las que interviene n!. Entonces
0! = 1
1! = 1
2! = 1×2=2
3! = 1×2×3=6
4! = 1 × 2 × 3 × 4 = 24.
Es fácil darse cuenta que el número 5 del ejemplo 1.9 y el que sean personas y asientos
en lugar de cualquier otra cosa no es relevante; podemos generalizarlo como sigue:
3
El número Pn de distintas formas en que se pueden ordenar n objetos es n!. Cada una de
las listas ordenadas que se forman con los n objetos se llama permutación (de los objetos).
Tenemos entonces que el número de permutaciones de n objetos es Pn = n!.
1.10 Ejemplo. De un grupo de 5 estudiantes quiere elegirse una comisión de 3 para que
cada uno visite un museo de una lista de 3 museos. ¿Cuántas comisiones distintas se pueden
formar?
Solución. Utilizando el esquema de casillas (cada una representando un museo) como
arriba, tenemos que el resultado es
5 × 4 × 3 = 60. ♦
1.11 Ejemplo. De un grupo de 5 estudiantes quiere elegirse una comisión de 3 para que
juntos visiten un museo (el mismo todos). ¿Cuántas comisiones diferentes se pueden formar?
Solución. Hay que observar que la diferencia entre este ejemplo y el anterior es que no
importa el orden en la elección. En el ejemplo anterior habı́a distición entre las casillas pues
cada una representaba un museo en particular distinto a los otros; en éste no hay distinción
entre las casillas pues, por ejemplo, una comisión en que se haya elegido la sucesión de
alumnos Ana-Beto-Carlos se considerará igual a la sucesión Beto-Carlos-Ana y también
igual a la sucesión Ana-Carlos-Beto. Nuestro interés es entonces determinar en la cantidad
5 × 4 × 3, en cuántas sucesiones aparece el mismo conjunto de alumnos. Para responder
esto conviene plantear esta parte del ejemplo al revés: Consideremos un conjunto fijo de 3
personas, por ejemplo el formado por Ana (A), Beto (B) y Carlos (C) y contemos de cuántas
formas se pueden ordenar estos 3. Observemos que el número de formas es precisamente el
número de permutaciones de las 3 personas, o sea, P3 = 3! = 6. Entonces cada grupo de 3
personas se está contando 6 veces en el producto 5 × 4 × 3, ası́ que la respuesta al ejemplo
será
5×4×3
= 10. ♦
3!
1.12 Ejercicio. En los ejemplos 1.10 y 1.11 supongamos que el grupo de los 5 alumnos
está formado por Ana (A), Beto (B), Carlos (C), Daniel (D) y Elena (E). Hacer la lista de
los 60 arreglos de estos alumnos en los que se elige 3 para visitar museos distintos, agrupando
en esa lista las colecciones que resultan iguales si todos van a un mismo museo.
En el ejemplo anterior aprendimos el siguiente principio:
1.13. El número de colecciones (en las que el orden no importa) con r elementos que se
pueden seleccionar dentro de un conjunto de n elementos (n ≥ r ≥ 1) es
n × (n − 1) × · · · × (n − (r − 1))
.
r!
4
Este número recibe el nombre de combinaciones de n en r y se denota por nr . Dicho

de otra manera, el número de subconjuntos de r elementos que tiene un conjunto con n
elementos es nr . (En el ejemplo 1.11, n = 5 y r = 3 y la respuesta es 53 .) Nótese que la
fórmula 1.13 no tiene sentido para n = 0; sin embargo sı́ tiene sentido hablar del número
de subconjuntos con 0 elementos dentro de un conjunto con n elementos; sabemos que este
número es 1 pues sólo hay un conjunto sin elementos que es el llamado conjunto vacı́o.
Definimos entonces
n
= 1.
0
1.14 Ejercicio. Sea X = {a, b, c, d, e}. Escribir todos los subconjuntos de X con
(a) 0 elementos,
(b) 1 elemento,
(c) 2 elementos,
(d) 3 elementos,
(e) 4 elementos y
(f) 5 elementos.
5

Verificar que en cada caso el número de subconjuntos obtenido sea r
y que el número
total de subconjuntos sea 25 = 32.
1.15 Ejercicio. Basándose en la interpretación de nr como el número de subconjuntos

de r elementos dentro de un conjunto con n elementos, explicar por qué

n n
= .
r n−r
7 7 5 9

1.16 Ejercicio. Calcular 2
, 5
, 5
y 4
.
Con la intención de simplificar la fórmula 1.13 sobre las combinaciones de n en r, ob-

servemos que, para 1 ≤ r ≤ n − 1, el numerador se puede “completar” a n! multiplicando
por (n − r)!; si lo “completamos” deberemos compensar dividiendo también por (n − r)!.
Tendremos entonces que para r = 1, 2, . . . , n − 1,
1.17.
n n!
= .
r r!(n − r)!
Recordemos que se ha definido 0! = 1 y n0 = 1; notemos entonces que si sustituimos

r = 0 (y, posiblemente también n = 0) en el lado derecho de la fórmula 1.17 obtendremos
5
n! n!
0!n!
= 1. De la misma manera, al sustituir r = n obtendremos n!0!
= 1. Ası́, también en estos
casos extremos vale la fórmula 1.17.
1.18 Ejercicio. Volver a hacer los ejercicios 1.15 y 1.16 utilizando la fórmula 1.17.
1.19 Ejemplo. De un grupo de 10 niños y 15 niñas se quiere formar una colección de 5

jóvenes que tenga exactamente 2 niñas. ¿Cuántas colecciones distintas se pueden formar?
Solución. La elección de las 2 niñas se puede hacer de 15
15×14
2
= 2! = 105 formas. Como
deben ser 5 en total y debe haber 2 niñas exactamente, entonces los niños serán 3; éstos se
pueden escoger de 10 3
= 10×9×8
3!
= 120 formas. Por tanto el resultado es 105×120 = 12 600. ♦
Como hemos visto, al determinar cantidades buscamos simplificar nuestras cuentas uti-
lizando “homogeneidades” en el problema. Con este propósito, en algunas ocasiones es con-
veniente dividir en casos de manera que en cada uno de ellos haya homogeneidad, y después
sumar las respuestas. Un ejemplo muy simple de esto serı́a el siguiente: Si tenemos 4 paquetes
de 100 hojas de papel y otros 3 paquetes de 200 hojas cada uno, entonces el número total
de hojas que tenemos es
4 × 100 + 3 × 200 = 1000.
Comparemos el siguiente ejemplo con el anterior, tomando en cuenta la búsqueda de

homogeneidades, como acabamos de decir.
1.20 Ejemplo. De un grupo de 10 niños y 15 niñas se quiere formar una colección de 5

jóvenes que tenga a lo más 2 niñas. ¿Cuántas colecciones distintas se pueden formar?
Solución. Vamos a resolver este ejemplo como el anterior pero separando por casos y
después sumando las respuestas de cada uno de los casos.
Caso 1: Que la colección tenga 2 niñas exactamente: 15
10
2 3
= 12 600.
Caso 2: Que la colección tenga exactamente 1 niña: 15 10

1 4
= 3 150.
Caso 3: Que la colección no tenga niñas: 15 10

0 5
= 252.
La respuesta al ejemplo es 12 600 + 3 150 + 252 = 16 002. ♦
1.21 Ejemplo. Un grupo de 15 personas quiere dividirse en 3 equipos de 5 personas

cada uno. Cada uno tendrá una labor especı́fica distinta a las demás. ¿De cuántas formas
distintas es posible hacer la distribución?
Solución. Escojamos uno por uno los equipos. La elección del primer equipo puede hacerse
15

de 5 = 3 003 formas; para elegir el segundo equipo ya sólo habrá 10 personas de dónde
10

escoger, por tanto éste se podrá elegir de 5 = 252 formas. El tercer equipo quedará formado
6
automáticamente con la elección de los otros dos. Entonces el número de formas de hacer la
elección sucesiva es 3 003 × 252 × 1 = 756 756. ♦
1.22 Ejemplo. Un grupo de 15 personas quiere dividirse en 3 equipos de 5 personas

cada uno. Todos los equipos tendrán la misma labor. ¿De cuántas formas es posible hacer la
distribución?
Solución. En este caso no hay distinción entre los equipos ası́ que hay que dividir el
resultado del ejemplo anterior entre 3!, que es el número de permutaciones de los equipos.
La respuesta es entonces 126 126. ♦
1.23 Ejemplo. En una bolsa hay 3 pelotas rojas y 2 azules. Se quiere formar una fila
con todas ellas. ¿De cuántas maneras distintas puede quedar la fila?
Solución. Primera forma. Consideremos todas las permutaciones de las 5 pelotas y con-
temos cuántas de esas permutaciones son indistinguibles entre sı́. Las permutaciones de las
5 pelotas sabemos que son 5! = 120. En cualquiera de las permutaciones fijémonos en la
ubicación de las pelotas rojas; por ejemplo − roja − roja roja. éstas pueden revolverse
entre sı́ (3! veces) formando colecciones indistinguibles, y lo mismo ocurre con las del otro
color. Vamos a explicar lo anterior con más detalle: Denotemos las pelotas rojas por R1 , R2
y R3 , y las azules por A1 y A2 . Entonces las siguientes listas (en las que se han permutado
las rojas pero se han dejado fijas las azules) representan la misma colección:
 
A1 R1 A2 R2 R3
A1 R1 A2 R3 R2 
 
A1 R2 A2 R1 R3 
A1 R2 A2 R3 R1  .
 
 
A1 R3 A2 R1 R2 
A1 R3 A2 R2 R1
Estas 3! listas deben considerarse como una sola. Además, en cada una de ellas también se
pueden revolver las azules entre sı́ (2! permutaciones). Entonces al considerar las permuta-
ciones de las 5 pelotas, cada arreglo se está contando 3! × 2! = 12 veces en lugar de 1. La
5!
respuesta al ejemplo es pues 3!2! = 10.
Segunda forma. Primero podemos contar las posibilidades para colocar las pelotas rojas
en los 5 lugares disponibles; esto nos dará la elección de 3 lugares, que puede hacerse de
5
3
= 10 maneras. Para colocar las 2 azules ya sólo sobran 2 lugares ası́ que esto se puede
hacer de 22 = 1 forma. El resultado es 10 × 1 = 10. ♦

1.24 Ejercicio. Escrı́banse las 10 filas distintas que se pueden formar con las pelotas en
el ejemplo 3.10.
7
1.25 Ejemplo. En una bolsa hay 3 pelotas rojas y 2 azules. ¿Cuántas filas distintas de
3 pelotas se pueden formar?
Solución. Como son 5 pelotas en total pero sólo se van a considerar filas de 3, hay que dejar
dos pelotas sin colocar. Consideraremos los distintos casos por separado y después sumaremos
3!
las respuestas parciales. Si las dos pelotas que quedan fuera son rojas, hay 1!2! = 3 arreglos
3! 3!
con las restantes. Análogamente hay 3! = 1 fila que deja las 2 pelotas azules fuera, y 2!1! =3
filas que dejan una azul y una roja fuera. La respuesta al ejemplo es 3 + 1 + 3 = 7. ♦
1.26 Ejercicio. Escribir los 7 arreglos de pelotas del ejemplo 1.25 .
En algunas ocasiones, para poder hacer bien las cuentas, nuestra búsqueda de homoge-
neidad nos lleva a que es más fácil contar lo opuesto de lo que queremos y después restar de
un total. Ilustramos esto con el siguiente ejemplo.
1.27 Ejemplo. ¿De cuántas maneras pueden ordenarse en un estante 3 cuadernos rojos,
4 azules y 2 verdes, si los verdes no deben quedar juntos?
Solución. Conviene contar primero todas las ordenaciones posibles y después restar aquéllas
en las que los verdes quedan juntos. El número total de filas (incluyendo aquéllas en que los
9!
verdes quedan juntos es 3!4!2! = 1260. Para contar las que tienen juntos los cuadernos verdes
pensemos éstos como pegados formando un solo cuaderno; ahora determinemos el número de
8!
arreglos con 3 cuadernos rojos, 4 azules y 1 verde; éste es 3!4! = 280. La respuesta al ejemplo
es 1260 − 280 = 980. ♦
1.28. Los ejemplos siguientes se refieren a la baraja usual de pókar: Cada carta tiene
un sı́mbolo llamado número que puede ser cualquiera de los 13 sı́mbolos siguientes: A, 2,
3, 4, 5, 6, 7, 8, 9, 10, J, Q o K, y otro sı́mbolo llamado palo que puede ser cualquiera de
los 4 siguientes: ♠ (espada), ♥ (corazón), ♦ (diamante) o ♣ (trébol). Todos los palos
se combinan con todos los números para formar la baraja completa con 13 × 4 = 52 cartas
como se ilustra a continuación:
A♥ 2♥ 3♥ 4♥ 5♥ 6♥ 7♥ 8♥ 9♥ 10♥ J♥ Q♥ K♥
A♦ 2♦ 3♦ 4♦ 5♦ 6♦ 7♦ 8♦ 9♦ 10♦ J♦ Q♦ K♦
A♠ 2♠ 3♠ 4♠ 5♠ 6♠ 7♠ 8♠ 9♠ 10♠ J♠ Q♠ K♠
A♣ 2♣ 3♣ 4♣ 5♣ 6♣ 7♣ 8♣ 9♣ 10♣ J♣ Q♣ K♣
Se llama mano de pókar cualquier colección de 5 cartas de la baraja. La siguiente
8
nomenclatura es usual:
par: dos cartas del mismo número.
tercia: tres cartas del mismo número.
pókar: cuatro cartas del mismo número.
full: una tercia y un par.
flor: cinco cartas del mismo palo.
corrida: cinco cartas con numeración consecutiva (según el orden en que se escribieron
arriba, pero permitiendo A también como número final, en seguida de K).
Observemos que el número total de manos de pókar es 52

5
= 2 598 960.
1.29 Ejemplo. ¿Cuántas manos de pókar tienen tercia exactamente (es decir, que no
sea full ni pókar).
Solución. Primera forma. Ponemos 5 casillas: las tres primeras para la tercia y las otras
dos para las otras cartas. La primera carta se puede escoger arbitrariamente; la segunda sólo
tiene 3 posibilidades pues debe tener el mismo número que la primera; la tercera ya sólo
puede ser elegida de 2 maneras distintas; como no importa el orden de estas 3 cartas, este
número deberá dividirse entre 3!. La cuarta carta se debe escoger dentro de las 48 que son de
número distinto al de la tercia. Para la quinta carta ya sólo sobran 44 cartas pues el número
debe ser también distinto. La cuarta y quinta pueden haberse escogido en cualquier orden
por lo que se deberá dividir entre 2!.
52 × 3 × 2 48 × 44
× = 54 912.
| {z3! } 2! }
| {z
tercia cartas distintas
Segunda forma. También formamos primero la tercia pero eligiendo antes el número que le
corresponderá: Tenemos 13 números para escoger y, una vez escogido el número, las 3 cartas
que forman la tercia deben escogerse dentro de 4 posibles; entonces el número de tercias
4

es 13 3 . Para escoger las otras dos cartas utilizando este mismo método razonamos como
sigue: Hay que escoger 2 números (pues queremos que las otras 2 cartas sean de números
distintos) dentro de los 12 que sobran; esta elección se puede hacer entonces de 12
2
formas.
En cada uno de estos números que se hayan elegido hay que escoger 1 carta, cosa que puede
hacerse de 41 formas. El resultado escrito en esta forma es
2
4 12 4
13 × ,
3 2 1
que, desde luego, también es igual a 54 912. ♦
1.30 Ejemplo. ¿Cuántas manos de pókar tienen dos pares (distintos) exactamente?
9
Solución. Procedemos como en el ejemplo 1.29.
Primera forma.
1er par 2o par
z }| { z }| {
52 × 3 48 × 3
2! 2! × 44 = 123 552.
2!
(Nota: Hay que dividir entre 2! porque no importa el orden entre los dos pares.)
Segunda forma. 2
13 4
× 44 = 123 552. ♦
2 2
1.31 Ejemplo. ¿Cuántas manos de pókar tienen corrida?

Solución. El número más bajo de la corrida puede ser cualquiera de los siguientes: A,
2, 3, 4, 5, 6, 7, 8, 9 o 10, que son 10 posibilidades. Pongamos 5 casillas; la primera casilla
será para la carta de número menor, la siguiente casilla será para el siguiente número, y ası́
sucesivamente hasta la quinta casilla que será para la carta con el número mayor. Una vez
escogido el número menor para la corrida, todos los demás números quedan determinados y
lo único que falta escoger es el palo. Entonces la cantidad de corridas es 10×4×4×4×4×4 =
10 240. ♦
Los métodos de conteo nos permiten a veces probar ciertas fórmulas. Un ejemplo muy
sencillo de esto es la prueba de la conmutatividad del producto de naturales, la cual estamos
acostumbrados a tomarla como verdadera; sin embargo, si lo pensamos con cuidado, para
m, n ∈ N, la expresión m × n significa, por definición, la suma de n consigo mismo m veces,
mientras que n × m representa la suma de m consigo mismo n veces. Ası́ expresados no
es claro por qué es válida la igualdad m × n = n × m. Sin embargo es claro que ambas
expresiones cuentan cuántos puntos hay en una configuración rectangular de puntos con
m renglones y n columnas y, como cuentan lo mismo, entonces son iguales. Veremos otros
ejemplos más complicados en los que se prueban fórmulas combinatorias.
1.32 Ejemplo. Probar la fórmula de Gauss
n(n + 1)
1 + 2 + 3 + ··· + n = .
2
Solución. Contaremos las colecciones de 2 elementos que pueden escogerse dentro de

un conjunto de n + 1 elementos de dos maneras diferentes. La comparación de los dos re-
sultados nos demostrará la veracidad de la fórmula. Consideremos ası́ el conjunto X =
10
{x1 , x2 , . . . , xn+1 }. Pongamos los subconjuntos de X que tienen dos elementos en una lista,
como sigue:
{x1 , x2 }, {x1 , x3 }, {x1 , x4 }, · · · {x1 , xn+1 },

{x2 , x3 }, {x2 , x4 }, · · · {x2 , xn+1 },
{x3 , x4 }, · · · {x3 , xn+1 },
..
.
{xn−1 , xn+1 }.
De esta lista es fácil observar que el número de subconjuntos de X con 2 elementos es

precisamente lo que aparece del lado izquierdo en la igualdad que queremos probar. Por otro
lado, sabemos que el número de subconjuntos de 2 elementos que tiene un conjunto con n + 1
elementos es n+1
2
, que es precisamente lo que aparece en el miembro derecho de la igualdad,
y ası́ queda completa la demostración. ♦
1.33 Ejemplo. Probar que si m, n y r son naturales con 0 ≤ r ≤ m, n, entonces

m+n m n m n m n m n
= + + + ··· + .
r 0 r 1 r−1 2 r−2 r 0
Solución. Ambas expresiones cuentan la cantidad de subconjuntos de r elementos dentro

de de un conjunto de m + n elementos: La de la izquierda lo hace directamente; en la de
la derecha se piensa al conjunto de m + n elementos partido en dos conjuntos, uno de m
elementos y otro de n elementos; para tomar un subconjunto de r elementos se consideran
las distintas posibilidades de cuántos elementos se escogen dentro del primer conjunt (y el
resto dentro del otro). ♦
1.34 Teorema. Teorema del Binomio de Newton. Sean a y b números arbitrarios

y sea n un número natural. Entonces

n n n n n−1 n n−r r n n
(a + b) = a + a b + ··· + a b + ··· + b .
0 1 r n
Demostración. La expresión (a + b)n significa que tenemos que multiplicar a + b consigo

mismo n veces. Entonces, al desarrollar todo el producto, los términos que obtenemos están
dados por todas las posibles elecciones de los números a o b en cada uno de los n factores
(por ejemplo, (a + b)3 = (a + b)(a + b)(a + b) = aaa + aab + aba + abb + baa + bab + bba + bbb =
a3 + 3a2 b + 3ab2 + b3 ). Observemos entonces que los términos obtenidos son de la forma as br ,
con 0 ≤ s, r ≤ n y s + r = n, es decir, s = n − r. Ahora notemos que an−r br aparece cada
vez que se eligió b en r de los factores y a en el resto, ası́ que el número de veces que aparece
este término es nr . Al agrupar términos semejantes tenemos la fórmula deseada. ♦
11
1.35 Ejercicio. Utilizar el Teorema del Binomio para probar la fórmula

n n n n n n
+ + + ··· = + + ··· .
0 2 4 1 3 5
¿Qué interpretación se puede dar a esta fórmula en términos de subconjuntos de un conjunto?
1.36 Ejemplo. ¿Cuántos números menores que 10 000 no son divisibles ni por 2, ni por
3, ni por 5?
Solución. A 10 000 habrá que restarle la cantidad de números divisibles por alguno de 2,
3 o 5. Sin embargo esto hay que hacerlo con cuidado para evitar repeticiones; por ejemplo,
los números que son divisibles tanto por 2 como por 3 se consideran dos veces: al contar los
divisibles por 2 y al contar los divisibles por 3. Vamos a determinar primero, por separado,
cuántos múltiplos hay de cada una de las distintas combinaciones entre 2, 3 y 5.
Hay 5 000 números divisibles por 2,

3 333 divisibles por 3,
666 divisibles por 15 y
333 divisibles por 30.
Al restarle a 10 000 la cantidad de números divisibles por 2 y luego los divisibles por 3 y
a continuación los divisibles por 5:
10 000 − (5 000 + 3 333 + 2 000),
los que son divisibles por 6, por 10 o por 15 pero no por 30 se habrán quitado dos veces
cada uno, y los que son múltiplos de 30 se habrán quitado tres veces. Entonces al agregar a
la cuenta los que son múltiplos de 6, de 10 o de 15, los que son divisibles por 30 se habrán
quitado primero tres veces al restar los múltiplos de 2, de 3, y de 5, y después se habrán
vuelto a sumar tres veces al sumar los múltiplos de 6 y los de 10 y los de 15, ası́ que tendremos
que restarlos. La respuesta al ejemplo es pues:
10 000 − (5 000 + 3 333 + 2 000) + (1 666 + 1 000 + 666) − 333 = 2 666. ♦
El método que se utilizó en ejemplo anterior se llama método de inclusión y exclusión y

en general es como sigue:
12
1.37 Proposición. Principio de Inclusión y Exclusión. Supongamos que tenemos n
conjuntos A1 , A2 , . . . , An (posiblemente con elementos en común). Entonces el número total
k de elementos que tienen entre todos es igual a k1 − k2 + k3 − k4 + − · · · kn , donde k1 es la
suma de los elementos que pertenecen a (por lo menos) uno de los conjuntos, k2 es la suma
de los elementos que pertenecen a (por lo menos) dos de los conjuntos, y ası́ sucesivamente
hasta kn , que es el número de elementos en común a todos los conjuntos. (Utilizando el
lenguaje usual de teorı́a de conjuntos donde |X| denota el número de elementos de un
conjunto X, ∪ es el sı́mbolo usual de unión y ∩ es el sı́mbolo usual de intersección, tenemos:
k = |A1 ∪ A2 ∪ · · · ∪ An |, k1 = |A1 | + |A2 | + · · · + |An |, k2 = |A1 ∩ A2 | + |A1 ∩ A3 | + · · · + |A1 ∩
An | + |A2 ∩ A3 | + · · · + |An−1 ∩ An |, y ası́ sucesivamente hasta kn = |A1 ∩ A2 ∩ · · · ∩ An |.)
Demostración. Tomemos un elemento cualquiera y supongamos, por ejemplo, que el ele-
mento pertenece a los conjuntos Ai1 , Ai2 , . . . , Air para cierta r, y sólo a éstos. Entonces el
número de veces que dicho elemento se considera en la suma k1 − k2 + k3 − k4 + − · · · kn es

r r r r r
− + − + −··· ,
1 2 3 4 r
que, por el ejercicio 1.35, es igual a 0r = 1. Entonces la suma k1 − k2 + k3 − k4 + − · · · kn

cuenta cada elemento exactamente una vez, que es lo que querı́amos demostrar. ♦
1.38 Ejercicio. En cierta escuela hay 100 alumnos. De ellos 50 saben inglés, 30 saben
alemán y 30 saben francés. Además 10 saben inglés y francés, 14 saben francés y alemán,
11 saben inglés y alemán, y 6 saben los tres idiomas. Determinar cuántos alumnos no saben
ninguno de los tres idiomas.
1.39 Ejercicio. ¿De cuántas maneras diferentes se pueden ordenar 8 personas alrededor
de una mesa redonda? (Nota: Dos distribuciones se considerarán iguales si una se puede
obtener de la otra mediante un giro.)
1.40 Ejercicio. ¿De cuántas maneras distintas se pueden sentar 5 personas en una fila
de 8 asientos numerados del 1 al 8?
1.41 Ejercicio. ¿Cuántas diagonales tiene un polı́gono regular de n lados?
1.42 Ejercicio. Probar la Fórmula de Pascal:

n+1 n n
= + ,
r+1 r r+1
para r y n números enteros con 0 ≤ r < n.
13
1.43 Ejercicio. El Triángulo de Pascal está definido como el triángulo de números
en el que el renglón número n aparecen los n + 1 números

n n n n n
, , ,··· , , .
0 1 2 n−1 n
Se muestran a continuación los primeros 4 renglones del Triángulo de Pascal. Utilizar la

fórmula del ejercicio anterior para construir los 10 primeros renglones.
1 1
1 2 1
1 3 3 1
1 4 6 4 1
1.44 Ejercicio. Probar de dos maneras distintas (una, viendo que ambos lados de la
igualdad cuentan lo mismo, y la otra, usando el teorema del binomio) la siguiente fórmula
para n ∈ N:
n n n n
+ + + ··· + = 2n .
0 1 2 n
1.45 Ejercicio. De un grupo de 24 personas se quiere elegir 5 representantes de la

siguiente forma: Pedro y Luis deben estar en el grupo elegido. Hay 8 mujeres en total pero a
lo más deben figurar 2 en el grupo. ¿De cuántas maneras distintas puede hacerse la elección?
1.46 Ejercicio. De un grupo de 30 socios de un club se quiere elegir una mesa direc-
tiva con un presidente, un secretario y 3 equipos de 2 personas cada uno. ¿Cuántas mesas
directivas distintas se pueden formar?
1.47 Ejercicio. De un conjunto de 10 botes de distintos colores se quiere escoger 5 de

tal manera que 3 sean para dulces y 2 sean para chocolates. ¿De cuántas formas distintas es
posible hacer la elección?
1.48 Ejercicio. Se dispone de una colección de 30 pelotas divididas en 5 tamaños dis-

tintos y 6 colores diferentes de tal manera que en cada tamaño hay los 6 colores. ¿Cuántas
colecciones de 4 pelotas tienen exactamente 2 pares de pelotas del mismo tamaño (que no
sean las 4 del mismo tamaño)?
14
2. Qué estudian la Probabilidad y la Estadı́stica
La probabilidad y la estadı́stica estudian el comportamiento de procesos aleatorios. Lo

“aleatorio” de un proceso puede venir de diferentes lados:
Realmente es aleatorio.
Falta de información.
Falta de poder deductivo.
La estadı́stica también, a veces, nos proporciona un resumen de los datos, para que los
podamos entender. Esto, claro, lleva sus problemas también, porque a veces se confunde el
resumen de los datos con los datos. Si sólo tenemos el promedio de las cosas, muchas veces
eso no cuenta “toda la historia”. Ni siquiera el promedio, la media, la media geométrica, la
varianza, el segundo momento, etc., cuentan toda la historia.
En términos generales:
La probabilidad supone que se conoce exactamente cómo funciona determinado proceso
aleatorio y trata de concluir qué se observará.
La estadı́stica comienza de las observaciones y trata de inferir cómo funciona un proceso
aleatorio.
Probabilidad Estadı́stica
Va de lo general a lo particular Va de lo particular a lo general

Perfecta, sin lugar a interpretaciones Sujeta a todo tipo de errores, interpretaciones, etc.
Independiente Se necesita entender probabilidad primero
Totalmente matemática Menos matemática
Pocas aplicaciones directas Muchas aplicaciones directas en la vida cotidiana
La primera y más importante aplicación es: para razonar correctamente. El entender los
principios de la Probabilidad y de la Estadı́stica nos sirve para tomar buenas decisiones de
la vida cotidiana; para no dejarnos engañar por los polı́ticos o por las noticias, para hacer
buenas inversiones, etc.
La aplicación matemática y técnica de la Probabilidad y de la Estadı́stica ha tenido varios
15
grandes éxitos en distintas áreas:
En Ciencias Naturales: Fı́sica, Biologı́a, Quı́mica, etc.
En Medicina: Revolucionada por la estadı́stica y estudios doblemente a ciegas.
En Ciencias Sociales: Polı́tica (elecciones), Psicologı́a, Economı́a, etc.
En Finanzas: Aunque aquı́, malas interpretaciones también han ocasionado problemas
enormes.
Nuestra intuición como humanos acerca de los eventos aleatorios no es buena. Simple-
mente no hemos evolucionado para lidiar con un mundo tan complejo como el que vivimos.
La Probabilidad y la Estadı́stica son herramientas muy poderosas que, ası́ como pueden ser
usadas para bien, también pueden ser (y son) usadas para mal (a veces creyendo que se están
usando para bien).
No en cualquier ámbito la estadı́stica funciona a la perfección. Por ejemplo: En Europa

se creı́a que no existı́an los cisnes negros pues nunca habı́an visto uno. Pero ¡sı́ existen!
Por mucho que uno conozca una muestra muy grande de algo y en esa muestra haya el 0 %
de cierta cosa, eso no quiere decir que no exista esa cosa. (Al revés, sı́, es decir, si por algún
método es posible demostrar que la probabilidad de encontrar cierto objeto en algún lugar
es positiva, entonces se puede garantizar la existencia de esa cosa. Éste es un procedimineto
utilizado algunas veces en Matemáticas.)
Ahora, quizás los cisnes negros no son de gran importancia. ¿Qué más da que haya o no
cisnes negros? Pero en algunos ámbitos, puede ser que 100 000 observaciones sean de cierto
tipo, que una sea de otro, y que justo la diferente sea la única que importa.
Por ejemplo, si a un grupo de 10 000 personas se le agrega la persona más alta de todo
el mundo, el promedio de alturas no cambia casi nada.
Por otro lado, si a un grupo de 10 000 personas al azar se le agrega la persona más rica
del mundo, el promedio de dinero en el grupo habrá aumentado considerablemente.
El famoso autor Nassim Nicholas Taleb habla de “dos mundos”: Mediocristán y Extre-
misán. (Leer: “Fooled by Randomness”, “The Black Swan” y “Antifragile”.)
16
Mediocristán es cuando una sola observación no puede cambiar el promedio considera-
blemente. Por ejemplo: altura, peso, elecciones polı́ticas, número de dedos, etc.
Extremisán es cuando una sola observación puede cambiar totalmente el promedio. Por
ejemplo: cantidad de dinero de las personas, número de ventas de libros en una tienda,
terremotos, etc.
La estadı́stica funciona bien en Mediocristán, pero no en Extremisán.
2.1. Errores comunes
Los problemas de mala interpretación de la Estadı́stica son varios. Podemos enunciar

algunos:
Confundir causalidad con correlación. Dos cosas están correlacionadas si, por lo general,
ocurrren juntas; sin embargo no tiene por qué ser cierto que una sea causa de la otra. Un
ejemplo muy burdo de esto serı́a decir que usar zapatos grandes hace que uno juegue bien
basquetbol.
Coincidencia. Los sucesos cotidianos son innumerables. Tratar de explicar uno de ellos
simplemente porque otro ocurrió antes es un error muy común. Ejemplos de esto son las
supuestas premoniciones, los milagros curativos, etc. Inclusive, la cantidad de eventos que
pueden analizarse es enorme, ası́ que algunas gráficas se parecen (es decir, existe corrrelación
entre ellas) aunque los eventos son completamente ajenos (ver, por ejemplo,
http://www.xatakaciencia.com/psicologia/correlacion-no-implica-causalidad-hay-que-
decirlo-mas).
Encuestas sin representatividad. Aquı́ un ejemplo extremo serı́a preguntar en una avenida a
los conductores si tienen coche, y luego inferir que casi todas las personas tienen coche.
Veamos aquı́ algunos ejemplos sencillos. Más adelante veremos ejemplos más complicados
aprovechando las técnicas que estudiaremos.
2.1 Ejemplo. Una persona dice: “Yo le hablo a las plantas porque ası́ crecen mejor.”
El error. Muchas cosas se dan juntas porque tienen una causa común; no por eso una es
la razón de que ocurra la otra, es decir, correlación no implica causalidad. Si una persona
habla con las plantas, seguramente les proporciona más cuidados y eso es lo que hace que
crezcan bien.
2.2 Ejemplo. En una encuesta, el locutor de radio pide que llamen por teléfono a la
17
radiodifusora para determinar qué tan popular es él pues quiere lanzarse como director de
la radiodifusora. El 90 % de los que llaman lo apoyan, ası́ que decide lanzarse, casi seguro de
que ganará.
El error. Las personas que no lo aprecian, no lo escuchan.
La gente que nos rodea tiende a ser parecida a nosotros, y lo mismo ocurre con los
medios de información que consultamos. No debemos rechazar o aceptar una opinión como
generalizada, dependiendo de una encuesta que se ha hecho en forma local.
Por otro lado, una buena muestra (representativa) basta, al igual que basta analizar una
sola cucharada de agua de un lago para saber la proporción de sal que tiene el agua del lago.
2.3 Ejemplo. Un entrenador de tenis castiga al deportista cuando juega mal porque ha
notado que ası́ la siguiente vez juega mejor.
El error. Probablemente habrı́a jugado mejor de cualquier manera. Todos tenemos altiba-
jos. Del punto más alto no podemos subir y del más bajo no podemos bajar. Este fenómeno
se llama Regreso a la media.
De hecho, los estudios demuestran que el estı́mulo positivo es más benéfico que el negativo.
2.4 Ejemplo. Durante 8 semanas seguidas, Luis recibe un correo de un corredor de bolsa
que le predice que cierta acción de bolsa va a subir o bajar. Como en todas ellas acierta,
Luis decide confiarle su dinero para una inversión.
El error. El siguiente fraude es posible: El corredor anuncia una semana a 256 000 personas
que la acción subirá y a otras 256 000 que bajará. Al cabo de la semana, a la mitad del grupo
con la que acertó le pronostica que otra acción subirá y a la otra mitad le dice que bajará;
ası́ sucesivamente. Al final de 8 predicciones, con 1000 personas habrá acertado.
El ejemplo está basado en el problema de los Grandes números.
2.5 Ejemplo. Paty le cuenta a Raúl que ayer soñó con su tı́a que hace años que no se
comunica con ella y, de repente, su tı́a llegó a visitarla. Paty está convencida que tuvo una
premonición.
El error. No es cierto. Constantemente estamos pensando, soñando, imaginando cosas.

Si no pasa nada, se nos olvidan; si algo pasa, vuelven a nuestra conciencia. Hay que tener
cuidado con las coincidencias y no buscarles explicaciones mágicas.
Para poder demostrar que alguien tiene poderes sı́quicos, deberı́a escribir su supuesta
premonición y anotar también el resultado de ella durante un periodo de tiempo fijo, digamos
una semana. El análisis siempre debe ser hacia el futuro y no hacia el pasado.
18
2.6 Ejemplo. Ángela dice: “Estudiar no sirve; Bill Gates no terminó licenciatura y es
millonario.”
El error. El análisis correcto serı́a comparar la proporción de gente que no estudió y es

exitosa contra la proporción de gente que sı́ estudió y es exitosa.
2+2=5
En este mundo hay muchı́sima suerte. Dice el dicho “el que no arriesga, no gana”. Claro,
pero ¡tampoco pierde!
Tenemos que tomar decisiones que maximicen nuestra esperanza de ganar.
2.7 Ejemplo. En un crimen se descubre que una muestra de sangre pertenece al criminal
y que, al analizar el ADN y buscar registros policiales de todo el paı́s, resulta que el ADN
de una cierta persona coincide en las caracterı́sticas con el ADN encontrado, de manera que
sólo 1 de cada millón de personas tiene esa coincidencia. Se deduce que esa persona cometió
el crimen.
El error. Dentro de un paı́s de 100 millones de habitantes se esperarı́a que 100 tuvieran
esas mismas caracterı́sticas de ADN. Hay que buscar otros datos; por ejemplo, sı́ serı́a una
evidencia extremadamente fuerte la del ADN si se hubiera visto a esa persona entrar al lugar
del crimen un rato antes de la comisión del crimen.
2.8 Ejercicio. Explicar qué tipo de error hay en los siguientes argumentos y decir cómo
serı́a el argumento correcto.
(a) Se aplica un examen en todos los salones de clase de las escuelas de una ciudad.
Resulta que el promedio de calificaciones obtenidas en cada salón es más alto en los
que hay pocos estudiantes. Se deduce que, para mejorar la educación, los salones deben
tener pocos alumnos.
(b) En un juicio se acusa a S de haber matado a su esposa. Habı́a evidencia de que

la habı́a golpeado con anterioridad. El abogado defensor argumenta que sólo 1 de cada
19
1000 hombres que golpean a su esposa terminan por matarla, ası́ que la probabilidad
1
de que la haya matado es 1000 .
(c) Se hizo un estudio con dos grupos: uno de 1000 niños que ven videos violentos y
otro de 1000 niños que no ven videos violentos. Se notó que los del primer grupo eran
más violentos. Se concluye que el ver videos violentos produce niños violentos.
(d) Como al lanzar 3 dados el que la suma sea 3 o 4 sólo puede ocurrir de una
manera en cada caso (en el primero, que todos los dados sean 1; en el segundo que dos
dados sean 1 y un dado sea 2), entonces es igual de probable obtener cualquiera de los
dos resultados.
(e) Un estudio observó que las personas que tomado más medicinas en sus primeros
30 años de vida en general mueren más jóvenes, de manera que es malo tomar medicina.
20
3. Introducción a la Probabilidad
Empezaremos por dar un “modelo general” de cómo funciona la probabilidad y luego

veremos técnicas para calcularla.
Intuitivamente, la probabilidad calcula la proporción de casos en los que cierto experi-

mento ocurre en relación con el total de resultados posibles.
Es necesario conocer todas las posibilidades que pudieran llegar a ocurrir en un experi-
mento dado. Esto, en el mundo real, no ocurre siempre, claro.
Al conjunto de todas las posibles situaciones que podrı́an llegar a ocurrir (o resultados
posibles de un experimento) se le llama espacio muestral; lo denotaremos por Ω. A los
subconjuntos del espacio muestral a los que les calculamos la probabilidad se les llama
sucesos o eventos.
3.1 Ejemplo. (a) Si lanzamos una moneda una vez, Ω = {a, s}.
(b) Si lanzamos una moneda dos veces, entonces Ω = {aa, as, sa, ss}.
El espacio muestral Ω podrı́a ser finito o infinito pero, más importante que eso, Ω podrı́a
ser discreto o continuo.
La probabilidad discreta es cuando no hay noción de “cercanı́a” entre las cosas que
pueden ocurrir (usualmente, cuando es finito), como por ejemplo tiros de monedas, dados,
votaciones, etc. En la probabilidad continua hay toda una gama de posibilidades que pueden
estar muy “cerca” unas de otras, como temperatura, tiro con arco, etc.
Vamos a empezar a estudiar la probabilidad discreta y luego veremos sus “analogı́as”

con la probabilidad continua. Básicamente, para probabilidad discreta hay que saber contar.
Para probabilidad continua hay que saber cálculo o análisis matemático. Podemos pensar
que la probabilidad continua es el lı́mite de la probabilidad discreta.
En un espacio muestral discreto Ω, cada elemento x ∈ Ω tiene asociada un número entre

0 y 1, que es su probabilidad de ocurrir. Lo denotamos por P (x).
En un espacio discreto, la suma de todas las probabilidades en un suceso S es la proba-
bilidad del suceso, denotada por P (S). Por definición se debe tener P (Ω) = 1.
3.2 Nota. Es importante señalar que el que se puedan sumar las probabilidades indivi-
duales de los elementos depende fuertemente del que el espacio sea discreto. Por ejemplo, si
tenemos una región circular del plano, lo natural serı́a que la probabilidad de escoger alea-
toriamente un determinado punto en esa región sea 0, pero la suma de 00 s es 0 y entonces
no podrı́a tenerse que P (Ω) = 1. Para poder estudiar probabilidad de este tipo se necesita
21
introducir conceptos como de medida. Un estudio ası́ corresponde al Análisis Matemático
bastante más complicado que el propósito de este curso.
3.1. Probabilidad combinatoria
Si en un espacio todos los elementos tienen la misma probabilidad, decimos que es equi-
probable. En este caso, si Ω es finito, la probabilidad de un evento S es
#veces que ocurre S |S|

P (S) = = .
#total de casos |Ω|
Por ejemplo, si lanzamos una moneda “justa” el espacio muestral es Ω = {a, s}, y P (a) =
P (s) = 12 .
3.3 Ejemplo. Supongamos que tiramos dos dados y nos fijamos en su suma. ¿Cuál es
el espacio muestral y cuánto vale P (8)?
Solución. Podemos decir que el espacio muestral es
Ω = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}.
Sin embargo, es claro que no todos los elementos de este espacio muestral tienen la misma
probabilidad de ocurrir; por ejemplo, es claro que P (2) 6= P (7). Conviene trabajar en otro
espacio muestral en el que cada elemento tenga la misma probabilidad:
Ω = {(2, 6), (3, 5), (4, 4), (5, 3), ...}.
Entonces, el suceso en que la suma es 8 es:
{(2, 6), (3, 5), (4, 4), (5, 3), (6, 2)},
5
que tiene 5 elementos. Ası́, P (8) = .♦
36
Recordemos que es común la siguiente notación para un número natural n:
[n] = {1, 2, . . . , n}.
Ası́, en el ejemplo anterior, el espacio muestral es el producto cartesiano de [6] consigo mismo:
[6] × [6] = [6]2 .
22
3.4 Ejemplo. El experimento consiste en lanzar un dado y observar el número que
queda arriba. Calcular la probabilidad de que el número que quede arriba sea el 1 y también
calcular la probabilidad de que el número que quede arriba sea par.
Solución. Aquı́ Ω = [6]. En el primer caso el suceso es S = {1} y P (S) = 16 . En el segundo

caso el suceso es T = {2, 4, 6} y P (T ) = 36 = 12 . ♦
3.5 Ejemplo. El experimento es lanzar una moneda 2 veces y observar la sucesión de

águilas a y soles s que se obtiene. Determinar la probabilidad de que se observen dos águilas.
Solución. El espacio muestral puede ser
Ω = {aa, as, sa, ss}
y entonces el suceso es S = {aa} y P (S) = 41 . ♦
3.6 Ejemplo. Calcular la probabilidad de que al lanzar una moneda 3 veces se muestren
al menos dos águilas.
Solución. Aquı́ podemos definir
Ω = {aaa, aas, asa, saa, ass, sas, ssa, sss}.

4
El suceso es S = {aas, asa, saa, aaa} y entonces la probabilidad buscada es P (S) = 8
= 12 . ♦
3.7 Ejemplo. Determinar la probabilidad de que al lanzar dos dados lo que sumen las
caras que se ven arriba sea 6.
Solución. Conviene definir Ω = [6] × [6] y entonces
S = {(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)},
5
de donde la probabilidad es 36
∼ 0.14. ♦
Veamos algunas propiedades que ya hemos podido observar en los ejemplos y hagamos
algunos comentarios sobre ellas.
De aquı́ en adelante Ω denota al espacio muestral en cuestión.
3.8. Propiedad (1). La probabilidad de que algo ocurra es un número entre 0 y 1. (Esto
es obvio pues, como el suceso S es subconjunto del espacio muestral Ω, entonces |S| ≤ |Ω|.)
Es 0 cuando es imposible que ocurra (es decir, P (∅) = 0), y es 1 cuando es seguro que debe
23
ocurrir (o sea, P (Ω) = 1). En el caso en que Ω es conjunto finito y todos los elementos son
equiprobables, entonces para todo S ⊂ Ω se tiene que P (S) ∈ Q.
Propiedad (2). Si dos cosas no pueden ocurrir simultáneamente, la probabilidad de que

ocurra una o la otra (es decir, cualquiera de las dos) es la suma de las probabilidades. En otras
palabras, si S y T son sucesos ajenos (es decir, S ∩ T = ∅, entonces P (S ∪ T ) = P (S) + P (T ).
(Esto es claro pues |S ∪ T | = |S| + |T |.)
Retomemos aquı́ el ejemplo 3.6 en el que se pide calcular la probabilidad de que al lanzar
tres monedas al aire salgan al menos dos águilas. Arriba calculamos la probabilidad de S ∪ T
donde S = {ass, sas, ssa, } y T = {aaa}, pero podrı́amos haber calculado por separado las
probabilidades P (S) = 83 y P (T ) = 18 .
Observemos que la propiedad (2) no serı́a válida si no pidiéramos que los sucesos fueran
mutuamente excluyentes, es decir, si hubiera la posibilidad de que ocurrieran simultánea-
mente; por ejemplo, la probabilidad de que al lanzar un dado lo que salga sea un número
mayor que 3 o que sea un número par es 46 (el suceso es {2, 4, 5, 6}) y no 63 + 36 = 1, que serı́a
la suma de las probabilidades de los sucesos S = {4, 5, 6} y T = {2, 4, 6} (los casos 4 y 6 son
comunes a los dos y se estarı́an contando dos veces al sumar las probabilidades).
Propiedad (3). La probabilidad de que ocurran dos cosas en un orden determinado es

el producto de las probabilidades. En este caso estamos diciendo que si S1 es un suceso en
un espacio muestral Ω1 y S2 es un suceso en un espacio muestral Ω2 , entonces P (S1 × S2 ) =
P (S1 )P (S2 ), lo cual es claro pues dados dos conjuntos S y T , el número de elementos del
producto cartesiano S × T es |S||T |.
Retomemos el ejemplo 3.5 en el que querı́amos calcular la probabilidad de que al lanzar

dos monedas al aire el resultado en ambas sea águila. En lugar de lo hecho arriba, podrı́amos
haber definido Ω = {a, s} y S = {a} y calcular P (S)P (S) = 21 12 = 14 . ♦
Dado S ⊂ Ω denotamos por ¬S al complemento de S, es decir, al conjunto Ω \ S = {x ∈

Ω:x∈/ S}
3.9 Corolario. Si la probabilidad de que algo ocurra es p, entonces la probabilidad de

que no ocurra es 1 − p.
Demostración. Esto es claro por la propiedad (2) pues para S ⊂ Ω, S y ¬S son conjuntos
ajenos cuya unión es Ω, ası́ que 1 = P (Ω) = P (S) + P (¬S). ♦
Veamos más ejemplos en los que podremos observar que hay que escoger con cuidado el
espacio muestral para que represente verdaderamente el problema que se quiere resolver.
3.10 Ejemplo. El experimento es sacar 2 pelotas de una caja en la que hay 2 pelotas
24
rojas y 3 azules. Se quiere calcular la probabilidad de que las dos pelotas escogidas tengan
distinto color y compararla con la probabilidad de que tengan el mismo color.
Solución. Para definir el espacio muestral conviene numerar las pelotas y pensar que las
rojas son la 1 y la 2, y que de la 3 a la 5 son azules; entonces el espacio muestral es
Ω = {{1, 2}, {1, 3}, {1, 4}, {1, 5}, {2, 3}, {2, 4}, {2, 5}, {3, 4}, {3, 5}, {4, 5}}
y S = {{1, 3}, {1, 4}, {1, 5}, {2, 3}, {2, 4}, {2, 5}},
6
ası́ que P (S) = 10 = 53 = 0.6. La probabilidad de que las dos pelotas tengan el mismo color
4
se calcula considerando el suceso T = {{1, 2}, {3, 4}, {3, 5}, {4, 5}}, y aquı́ P (T ) = 10 =
0.4 < P (S) (o, de otra manera, como T = ¬S, P (T ) = 1 − P (S) = 1 − 53 = 25 = 0.4). ♦
3.11 Ejemplo. Como en 3.10, se tiene una caja en la que hay 2 pelotas rojas y 3 azules,
pero ahora el experimento consiste en sacar una pelota, observar su color, volverla a meter,
y sacar otra vez una pelota. Calcular la probabilidad de que las dos pelotas escogidas tengan
distinto color. Comparar con los resultados de 3.10.
Solución. Numeremos las pelotas como en el ejemplo anterior. En este caso
Ω = [5] × [5] y
S = {(1, 3), (3, 1), (1, 4), (4, 1), (1, 5), (5, 1), (2, 3), (3, 2), (2, 4), (4, 2), (2, 5), (5, 2)},
por lo que P (S) = 12
25
= 0.48, que es menor que el resultado del ejemplo anterior, lo cual
resultaba intuitivamente obvio. ♦
3.12 Ejemplo. Dentro de cierto grupo de 4 caballos numerados del #1 al #4 se ha

observado que la frecuencia con que el caballo #1 gana es el doble que con la que gana el
#2; que éste a su vez gana el doble de veces que el #3, y que el #3 gana el doble de veces
que el #4. Encontrar la probabilidad de que en la próxima carrera el caballo ganador sea el
#3.
Solución. Tenemos que representar en el espacio muestral las condiciones de que unos
ganan el doble de veces que otros. Podemos entonces asignar al caballo 4 el número 1, al
caballo 3 los números 2 y 3, al caballo 2 los números 4, 5, 6 y 7, y al caballo 1 los números
2
del 8 al 15. De esta manera Ω = [15], S = {2, 3} y la probabilidad es 15 ∼ 0.13. ♦
Para eliminar complicaciones técnicas, en los dos ejemplos siguientes consideraremos

el año con 365 dı́as (sin contar en ningún caso el 29 de febrero) y supondremos que la
distribución de los cumpleaños es pareja a lo largo del año.
3.13 Ejemplo. Encontrar la probabilidad de que una persona determinada haya nacido
en enero o febrero.
25
59
Solución. Ω = [365], S = [59] y P (S) = 365
∼ 16 . ♦
3.14 Ejemplo. Encontrar la probabilidad de que en un grupo de 59 personas al menos

2 tengan el mismo cumpleaños.
Solución. Notemos que este ejemplo difiere del anterior en que las fechas de cumpleaños
no se comparan con fechas fijas sino entre sı́. Veremos que los resultados son muy distintos.
Para resolver el ejemplo resulta más fácil contar la probabilidad opuesta: que no haya ningún
cumpleaños repetido, y después usar 3.9. Utilizaremos repetidamente la propiedad (3). Con-
sideremos un orden fijo para las personas. La probabilidad de que el segundo cumpleaños sea
distinto del primero es 364
365
. La probabilidad de que el tercero sea distinto de los dos anteriores
es 363
365
, y ası́ sucesivamente. El resultado es
364 × 363 × · · · × 307
1− ,
36558
que es aproximadamente igual a 0.995. Esto quiere decir que de 1000 grupos de 59 personas
cada uno, se espera que en sólo 5 de los grupos no haya cumpleaños comunes. (Compárese
este resultado con el del ejemplo anterior. Resulta que basta con 23 personas para que la
probabilidad de que haya cumpleaños repetidos entre ellas sea mayor que 21 .) ♦
3.15 Ejemplo. Encontrar la probabilidad de que al lanzar una moneda al aire 10 veces
caigan exactamente 5 águilas.
Solución. Como antes, escribamos a por águila y s por sol. El espacio muestral Ω consta
de todas las sucesiones de longitud 10 formadas por a y s, de manera que |Ω| = 210 = 1024.
El suceso consta de los elementos de Ω que tienen exactamente 5 a0 s, ası́ que |S| es el número
de formas en que se pueden escoger 5 posiciones (donde aparezcan las a0 s) dentro de un total
de 10, es decir, 10
5
252
= 252. Entonces P (S) = 1024 ∼ 0.25. ♦
En forma análoga a la resolución del ejemplo anterior tenemos que la probabilidad de

1 20

que de un total de 20 lanzamientos de la moneda 10 salgan águila es 220 10 , que es apro-
ximadamente igual a 0.176. Se puede demostrar que mientras más lanzamientos se hagan,
la probabilidad de que la mitad de las veces salga águila es menor. Esto no contradice la
afirmación de que si una moneda se lanza al aire un número grande de veces se espera que
un número cercano a la mitad de las ocasiones caiga águila; la explicación para esto es que la
idea de “cercanı́a” debe manejarse en forma relativa al tamaño del número; por ejemplo, en
el caso de 10 lanzamientos podrı́amos decir que los casos en que salieran entre 3 y 7 águilas
son todos “cercanos” a la mitad, y en el caso de 20 lanzamientos dirı́amos que los casos
“cercanos” a la mitad son entre 5 y 15.
3.16 Ejercicio. Encontrar la probabilidad de que al lanzar una moneda al aire 10 veces
salga águila entre 3 y 7 veces.
26
3.17 Ejemplo. En un grupo de 8 niños la maestra los ordena al azar en una fila. ¿Cuál
es la probabilidad de que Ana quede atrás de Beto?
Solución. Primera forma. Podemos pensar que el espacio muestral es el conjunto de todas
las permutaciones, el cual tiene 8! elementos. Para contar las permutaciones en las que Ana
queda detrás de Beto podemos escoger los dos lugares en los que quedan ellos dos, lo cual
8
puede hacerse de 2 maneras; ahı́ ponerlos en orden y luego multiplicar por las permutaciones
de todos los demás, que son 6!. La ptrobabilidad es:
8

2
6! 8·7 1
= = .
8! 2·8·7 2
Segunda forma. De todas las permutaciones, en la mitad está Ana antes que Beto y en
la otra mitad está Beto antes que Ana. La probabilidad es 21 . ♦
3.18 Ejemplo. En un grupo de 8 niños la maestra los ordena al azar en una fila.
(a) ¿Cuál es la probabilidad de que Ana quede atrás de Beto y de Carlos?
(b) ¿Cuál es la probabilidad de que Ana quede atrás de Beto, y Beto atrás de Carlos?
Solución. (a) 31 .
(b) 16 . ♦
Como ya hemos visto, se pueden considerar distintos espacios muestrales para resolver un
determinado problema y, en cada caso, el suceso del cual se quiere calcular la probabilidad
es diferente, ası́ que los cálculos también lo son, aunque, claro, el resultado final debe ser el
mismo. En el siguiente ejemplo presentamos varias formas de resolver el problema según el
espacio muestral que se escoja.
3.19 Ejemplo. ¿Cuál es la probabilidad de que al escoger dos subconjuntos de 4 elemen-

tos dentro de un conjunto de 10 elementos, los subconjuntos tengan al menos un elemento
en común?
Solución. Es más fácil contar la probabilidad contraria, es decir, la probabilidad de que los
dos subconjuntos escogidos no tengan elementos en común. Consideremos distintos espacios
muestrales Ω y los respectivos sucesos S con complemento ¬S:
Primera forma. Sea P4 = {S ⊂ [10] : |S| = 4}, es decir, P4 tiene por elementos a
los subconjuntos de [10] que tienen 4 elementos. Tomemos Ω = P4 × P4 . En este caso
10 6

|¬S| = 4 4 , ası́ que
10 6 6 6·5·4·3

4 4 4 4·3·2·1 6·5·4·3 13
P (S) = 1 − P (¬S) = 1 − 102 = 1 − 10 = 1 − 10·9·8·7 = 1 − = .
4 4·3·2·1
10 · 9 · 8 · 7 14
4
27
Segunda forma. Sea P4 como arriba. Supongamos que un conjunto de 4 elementos ya está
escogido; entonces queremos calcular la probabilidad de que al escoger otro conjunto,
éste
6 10
sea ajeno con el primero. En este caso tomemos Ω = P4 . Aquı́ |¬S| = 4 , |Ω| = 4 y
6·5·4·3
6

6·5·4·3 13
P (S) = 1 − P (¬S) = 1 − 4
=1− 4·3·2·1 =1− = .
10 10 · 9 · 8 · 7

4
10 · 9 · 8 · 7 14
4·3·2·1
Tercera forma. Como en la segunda forma, supongamos que un conjunto de 4 elementos ya
está escogido; entonces queremos calcular la probabilidad de que al escoger otro conjunto,
éste sea ajeno con el primero. Sea Ω = {(c1 , c2 , c3 , c4 ) ∈ [10] : ci 6= cj para i 6= j} y
supongamos que el conjunto ya escogido tiene elementos a1 , a2 , a3 , a4 ; en este caso ¬S =
{(c1 , c2 , c3 , c4 ) ∈ Ω : para cada i, j ci 6= aj }, |¬S| = 6 · 5 · 4 · 3 y |Ω| = 10 · 9 · 8 · 7 y, entonces,
6·5·4·3 13
P (S) = 1 − P (¬S) = 1 − = .♦
10 · 9 · 8 · 7 14
3.20 Ejercicio. Cuatro equipos A, B, C, D entran a un torneo de basquetbol. Al princi-

pio juegan A contra B, y C contra D; en cada juego se elimina al perdedor. Los dos ganadores
se enfrentan y el que gane ese juego se determina como ganador del torneo. Escribir un espa-
cio muestral apropiado y el suceso correspondiente para determinar la probabilidad de que
B sea el ganador.
3.21 Ejercicio. Un grupo de 3 mujeres y 3 hombres se dividirá en dos equipos con 3

miembros cada uno. Definir un espacio muestral y el suceso correspondiente que sirvan para
encontrar la probabilidad de que en uno de los equipos queden todos los hombres y en el
otro todas las mujeres.
Los siguientes problemas se refieren al conjunto usual de 28 fichas de dominó en que cada
ficha muestra dos números de la colección 0, 1, 2, 3, 4, 5 y 6 (posiblemente repetidos), como
esquematizamos a continuación:
6|6 6|5 6|4 6|3 6|2 6|1 6|0

5|5 5|4 5|3 5|2 5|1 5|0
4|4 4|3 4|2 4|1 4|0
3|3 3|2 3|1 3|0
2|2 2|1 2|0
1|1 1|0
0|0
Se llaman fichas dobles aquéllas en que los dos números mostrados son iguales. Se llama
mano de dominó cualquier
colección de 7 de las 28 fichas. Nótese que el número total de
28
manos de dominó es 7 = 1 184 040.
28
3.22 Ejercicio. ¿Cuál es la probabilidad de que una mano de dominó tenga por lo menos
2 fichas dobles?
3.23 Ejercicio. Se dice que una mano de dominó tiene falla si alguno de los números
entre el 0 y el 6 no aparece en la mano (cada número faltante es una falla); por ejemplo
la mano {2|1, 5|5, 3|1, 0|0, 1|0, 5|6, 0|2} tiene falla a 40 s. ¿Cuál es la probabilidad de que una
mano de dominó no tenga falla?
3.24 Ejercicio. Se eligen al azar n cartas de la baraja. ¿Cómo debe ser n para que la
probabilidad de que entre las cartas elegidas haya (al menos) dos del mismo número sea
mayor que 21 ? ¿Cuál es la probabilidad si n = 14?
3.25 Ejercicio. En el experimento de escoger un número entre el 1 y el 60 al azar, sea

S el evento de escoger un número múltiplo de 5, y sea T el evento de escoger un número
múltiplo de 3. ¿Cuál es la probabilidad de escoger un número que sea múltiplo de 3 o múltiplo
de 5?
3.26 Ejercicio. Calcular la probabilidad de que al lanzar tres veces dos dados, las tres
veces los números que salgan sean iguales entre sı́.
3.27 Ejercicio. Se escogen al azar en sucesión tres números (posiblemente iguales) entre
el 1 y el 100. ¿Cuál es la probabilidad de que se hayan escogido en orden creciente estricto?
3.28 Ejercicio. Lanzamos una moneda al aire 5 veces. Si sabemos que 3 de ellas fueron
águila, ¿cuál es la probabilidad de que la primera haya caı́do águila?
3.29 Ejercicio. Un dado se lanza al aire 6 veces. ¿Cuál es la probabilidad de que aparezca
cada uno de los seis números una vez?
3.30 Ejercicio. Supongamos que de un grupo de 10 enfermedades cada una tiene pro-
1
babilidad 10 de atacar a un animal determinado a lo largo de su vida. ¿Qué probabilidad
tiene ese animal de enfermarse de al menos una de esas enfermedades?
3.2. Funciones de probabilidad
Hasta aquı́ hemos trabajado con problemas de probabilidad basados en conteo dentro de
conjuntos finitos. Sin embargo, es claro que pueden interesarnos casos en los que los conjuntos
no sean finitos. Por ejemplo, podrı́amos preguntar cuál es la probabilidad de escoger un punto
dentro de una región dibujada en un papel al escoger un punto cualquiera del papel. Si el
29
área total del papel es s y el área de la región es r, entonces la respuesta deberı́a ser el
número real (no necesariamente racional) rs ; para lograr esto deberemos tener una concepto
de medida clara en nuestros conjuntos y también una idea de convergencia en el caso infinito.
En muchos casos, nuestros espacios muestrales pueden ser conjuntos de números reales
o de Rn para algún natural n. Decimos que un espacio muestral Ω ⊂ Rn es discreto si para
cualquier producto de intervalos reales I = [a1 , b1 ] × · · · × [an , bn ] la intersección de I con Ω
es finita. Por ejemplo, cualquier espacio muestral finito es discreto y también lo es Z × Z. El
intervalo real (0, 1), Q, { n1 : n ∈ N} y el cı́rculo S 1 = {z ∈ C : ||z|| = 1} no son discretos.
Para extender nuestro estudio de probabilidad abstraeremos las condiciones intuitivas de
probabilidad que hemos visto, como explicamos a continuación.
Dado un conjunto arbitrario X, recordemos que el conjunto potencia de X es el conjunto

X
2 = P(X) cuyos elementos son todos los subconjuntos de X, es decir
P(X) = {A : A ⊂ X}.
Dado un conjunto Ω, llamado espacio muestral, se considera un subconjunto S ⊂ P(Ω) cuyos

elementos se llaman sucesos o eventos (es decir, los elementos de S son subconjuntos S de
Ω). Dicho conjunto S debe satisfacer algunas propiedades técnicas (que no mencionaremos
aquı́) de manera que tengan sentido los axiomas que pediremos que satisfaga una función de
probabilidad, definida a continuación. Dados Ω y S ⊂ P(Ω), una función de probabilidad en
Ω es una función P : S → R que satisface:
(P1) P (Ω) = 1.
(P2) P (S) ≥ 0 para todo S ∈ S.
P familia finita o numerable {Si : i} de sucesos ajenos por parejas se

(P3) ParaScualquier
tiene que P ( i Si ) = i P (Si ).
A (P1), (P2) y (P3) les llamamos axiomas de probabilidad.
Es claro que el concepto intuitivo de probabilidad que vimos en los ejemplos finitos al
|S|
definir P (S) = |Ω| para S ⊂ Ω satisface los axiomas de probabilidad. También observemos
que para resolver problemas como 3.12, escogimos un espacio muestral especial que tomaba
en cuenta una “medida” para cada caballo; nuestro espacio muestral podrı́a haber sido el
conjunto {1, 2, 3, 4} de los caballos y podrı́amos haber calculado la función de probabilidad
tomando P {4} = p y entonces P {3} = 2p, P {2} = 4p y P {1} = 8p. Como 1 = P {1, 2, 3, 4} =
1
P {1} + P {2} + P {3} + P {4} = 8p + 4p + 2p + p = 15p, entonces p = 15 y la respuesta es
2
P {3} = 15 .
Dada una función de probabilidad, usando sólo los axiomas se pueden probar las siguientes
propiedades:
3.31 Proposición. Sea P una función de probabilidad en Ω y sea S el conjunto de
30
sucesos de Ω. Se satisfacen entonces la siguientes propiedades.
(a) P (∅) = 0.
(b) Si S ∈ S y ¬S es el complemento de S entonces P (¬S) = 1 − P (S).
(c) Si S ⊂ T entonces P (S) ≤ P (T ).
(d) Para todo S ∈ S se tiene que P (S) ≤ 1.
Demostración. (a) Se deduce de inmediato a partir de (P3) tomando S1 = S2 = ∅:

P (∅) = P (∅ ∪ ∅) = P (∅) + P (∅), de donde, cancelando, P (∅) = 0.
(b) También es claro a partir de (P3) pues S y ¬S son sucesos ajenos cuya unión es Ω.
Se dejan las demostraciones de (c) y (d) como ejercicio. ♦
3.32 Nota. Se puso (P3) como axioma, sin considerar un problema de convergencia
en el caso numerable; sin embargo, una serie como la descrita siempre
Pn converge pues de la
proposición anterior se deduce que la sucesión de sumas parciales i=1 P (Sk ) n es creciente
y acotada por 1 = P (Ω).
De aquı́ en adelante, P es una función de probabilidad en un espacio muestral Ω (no

necesariamente finito) y S denota el conjunto de sucesos.
Para el siguiente ejemplo debemos recordar que para cualquier número x 6= 1, si n es

n+1
natural, entonces 1 + x + x2 + · · · + xn = 1−x 1−x
(lo cual se comprueba fácilmente haciendo
la multiplicación (1 + x + x2 + · · · + xn )(1 − x)). Además, las reglas de convergencia en R
1
nos dicen que si x es un real tal que |x| < 1 entonces 1 + x + x2 + · · · = 1−x .
3.33 Ejemplo. Se lanza una moneda al aire hasta que salga águila por primera vez.
(a) ¿Cuál es la probabilidad de que se lance menos de 4 veces?
(b) ¿Cuál es la probabilidad de que la primera vez que salga águila sea en un lanzamiento
par (es decir en el segundo o en el cuarto, etc.)?
(c) ¿Cuál es la probabilidad de que la primera vez que salga águila sea en un lanzamiento
impar (es decir en el segundo o en el cuarto, etc.)?
Solución. Conviene tomar Ω = N en donde cada n ∈ Ω representa el primer lugar en el
que apareció águila. Entonces P {1} = 21 , P {2} = 12 12 = 14 y, en general, P {n} = 21n ; si S
es un suceso con más de un elemento, se define P (S) usando P∞(P3). Entonces es claro que
1
también se satisface (P2). El axioma (P1) se satisface pues i=1 2n = 1.
(a) Aquı́ el suceso que debemos considerar S = {1, 2, 3, 4}, ası́ que la solución del ejemplo
es
1 1 1 1 15
P (S) = P {1} + P {2} + P {3} + P {4} = + + + = .
2 4 8 16 16
31
(b) En este caso el suceso es T = {2, 4, 6, · · · } y
∞
X 1 1 4 1
P (T ) = P {2} + P {4} + P {6} + · · · = = 1 −1= −1= .
i=1
4n 1− 4
3 3
(c) Usando 3.31(b) tenemos que la probabilidad es 23 . ♦
3.34 Nota. Para espacios numerables, si se conoce la probabilidad en los conjuntos de un

solo elemento entonces, usando (P3), también se conoce la probabilidad de cualquier suceso.
Sin embargo, al tratar de definir la probabilidad en los conjuntos de un solo elemento hay que
tomar en cuenta que la probabilidad del conjunto total debe ser 1. En muchos casos, sobre
todo en espacios muestrales continuos, esto no es útil (incluso resulta que la probabilidad de
los conjuntos de un solo elemento es casi siempre 0).
Trabajar con conjuntos en donde no se tiene bien definida una noción de medida puede
llevar a contradicciones, como veremos en el siguiente ejemplo.
3.35 Ejemplo. ¿Cuál es la probabilidad de que al escoger un natural al azar el resultado

sea un número par?
Solución. Uno tiende a decir que el resultado es 12 , pero vamos a ver que esto no tiene
sentido pues, también parecerı́a natural tener que P {n} = P {m} para todos los enteros
m, n, y esto no es posible ya que, usando (P3), se tendrı́a que P (N) = ∞, por más pequeño
que escogiéramos el valor de los P {n}.
Nuestra idea de que el resultado deberı́a ser 21 viene de que estamos acostumbrados a
pensar en los números naturales en orden y nos gustarı́a interpretar el problema a partir de
los casos finitos, es decir, considerando N = lim [n] y determinando, para cada n ∈ N, la
n→∞
probabilidad de escoger un número par dentro de [n], la cual, en vista de nuestro concepto
natural de probabilidad en los casos finitos, deberı́a de ser n/2 n
= 12 si n es par, y (n−1)/2
n
= 12 n−1
n
si n es impar. Entonces, interpretando ası́ y pensando en una idea como de una “probabilidad
continua” la respuesta a nuestro problema deberı́a ser el lı́mite, cuando n tiende a infinito,
de la sucesión (0, 21 , 12 23 , 12 , 12 34 , . . .), que es 21 .
Sin embargo, lo que acabamos de hacer es erróneo. Notemos que la elección de los con-
juntos [n] que se aproximan a N es arbitraria; ¿por qué no tomar otra sucesión creciente de
conjuntos cuya unión fuera N? Por ejemplo, en lugar de agregar uno a uno los elementos
en orden, uno podrı́a agregar de tres en tres los elementos de manera que se agregaran dos
impares y un par, en orden:
X1 = {1, 3, 2}
X2 = {1, 3, 2, 5, 7, 4}
X3 = {1, 3, 2, 5, 7, 4, 9, 11, 6}
X4 = {1, 3, 2, 5, 7, 4, 9, 11, 6, 13, 15, 8}
..
.
32
En este caso, la unión también serı́a N, pero en cada conjunto la probabilidad de escoger un
número par serı́a 13 ası́ que procediendo de esta manera concluirı́amos que la probabilidad
total es también 13 .
Modificando los conjuntos es posible lograr que cualquier número entre 0 y 1 sea el lı́mite
de las probabilidades de una sucesión creciente de conjuntos cuya unión es N. ♦
El absurdo de obtener cualquier probabilidad como respuesta en el ejemplo anterior es

porque no tenemos bien definida la idea de medida en N: ¿Por qué algún conjunto infinito
serı́a más grande que otro? Entonces, el cálculo de probabilidades depende siempre de la
definición de nuestra función de probabilidad.
En los casos finitos, nuestro sentido común nos ayuda mucho a definir la función de pro-
babilidad, pero en los casos infinitos debemos basarnos en alguna abstracción que convenga
al problema que queremos resolver o, simplemente, puede trabajarse en abstracto. Estudios
de este tipo corresponden a un nivel mucho más avanzado que el propósito de este curso.
Los espacios muestrales continuos son infinitos e, inclusive, pueden no ser numerables.
En ellos debe definirse una medida (y, a través de ella, una probabilidad) de alguna manera
apropiada cuidando que se satisfagan los axiomas (P1), (P2) y (P3). Para empezar, como
vimos en 3.35, si el espacio muestral es infinito, no es posible que todos los sucesos que
constan de un solo elemento tengan la misma probabilidad; también resulta, como dijimos
arriba, que en muchos casos no es posible asignar una probabilidad a cada subconjunto del
espacio muestral.
El siguiente ejemplo nos describe una forma de definir una función de probabilidad en
un espacio muestral continuo.
3.36 Ejemplo. Definir una función de probabilidad en el intervalo real [a, b] (con a < b
reales) que tome en cuenta la proporción de medidas.
Solución. Consideremos que los sucesos son intervalos contenidos en [a, b] o uniones finitas
o numerables de éstos. Recordemos que se quiere que el espacio total tenga probabilidad 1.
c−d
Entonces, dado un intervalo [c, d] ⊂ [a, b], es natural definir P [c, d] = b−a . Se extiende la
definición a otros sucesos usando (P3). (Observamos que la probabilidad de los conjuntos de
un solo elemento es 0.) ♦
3.37 Nota. En el ejemplo anterior, el mismo resultado lo podrı́amos haber obtenido

usando integrales (que son la generalización natural de suma) definiendo la función f : R → R
por 1
b−a
, si x ∈ [a, b],
f (x) =
0, si no
33
y para [c, d] ⊂ [a, b],
d
d−c
Z
P [c, d] = f (x)dx = .
c b−a
En este caso la función escogida f es constante pues se quiere que la probabilidad sea
homogénea de acuerdo a la medida. Sin embargo, como vimos en los casos finitos, en otros
problemas puede interesarnos que la distribución de probabilidad no sea homogénea; en esos
casos usaremos la integral de una función f no constante que tome en cuenta la distribución
de la probabilidad que requiere el problema.
3.38 Ejercicio. Probar las afirmaciones de 3.31(c) y (d).
3.39 Ejercicio. Sea Ω = {a, b, c}. ¿Es posible definir una función de probabilidad en Ω
que cumpla P {a, b} = 32 , P {a, c} = 13 y P {b, c} = 13 ?
3.40 Ejercicio. Se sabe que hay dos enfermedades que pueden atacar a una población
de animales en el verano. También se sabe que la probabilidad de que un determinado animal
adquiera a lo más una de las enfermedades es 0.9 y de que adquiera al menos una de las
enfermedades es 0.2. Determinar las siguientes probabilidades para un determinado animal:
(a) Que no adquiera ninguna de las enfermedades.
(b) Qe adquiera una de ellas.
(c) Que adquiera las 2.
3.41 Ejercicio. Se lanza un dado hasta que aparezca 1 por primera vez. Calcular las
siguientes probabilidades.
(a) Que se necesite lanzarlo 10 veces.
(b) Que se necesite echarlo menos de 5 veces.
(c) Que se necesite lanzarlo un número par de veces.
3.42 Ejercicio. Se escoge un número real r al azar entre 0 y 1 y se traza un cı́rculo en

el plano con radio r. ¿Cuál es la probabilidad que el cı́rculo tenga área menor que π2 ?
3.43 Ejercicio. Se rompe una regla de 30 cm en dos pedazos a lo largo. ¿Cuál es la

probabilidad de que un pedazo tenga al menos el doble de tamaño que el otro?
3.44 Ejercicio. En cada turno de un juego, cada una de tres personas lanza una moneda
al aire hasta que uno de los resultados sea distinto de los otros dos, y entonces el dueño de
34
la moneda distinta pierde.
(a) ¿Cuál es la probabilidad de que en el primer turno haya un perdedor?
(b) ¿Cuál es la probabilidad de que se necesite un número par de lanzamientos para
determinar un perdedor?
3.3. Probabilidad Condicional
Empezaremos esta sección con tres ejemplos en los que nuestra intuición falla si no se
toman en cuenta condiciones que limitan al conjunto que tratamos. La conclusión es que hay
que tener mucho cuidado con el universo en el que se trabaja.
3.45 Ejemplo. En un programa de concurso hay tres puertas cerradas. Sólo una de
ellas tiene detrás un premio. Un determinado concursante escoge una puerta A, sin abrirla;
el animador (que sabe cuál de las puertas es la buena), abre una de las otras dos puertas,
B, mostrando que no hay premio detrás, y le dice al jugador que abra una de las otras: B o
C. Según las probabilidades, ¿qué puerta le conviene abrir al concursante (o es igual)?
Solución. Tenemos el espacio muestral Ω = {A, B, C}. En un principio se tiene que la
probabilidad es homogénea, ası́ que P {A} = 13 y, por tanto, P {B, C} = 23 . Sin embargo luego
se nos dice que no es B, ası́ que P {B} = 0; la probabilidad de A sigue siendo 13 pero la de
{C} ahora tenemos que es 23 , ası́ que le conviene cambiar de opinión y escoger la puerta C
(con el doble de oportunidad de ganar). ♦
3.46 Ejemplo. En una población se sabe que la probabilidad de tener una cierta enfer-
medad es de 10 1000 . Una prueba de sangre es confiable en un 90 %. Raúl se hizo la prueba y
resultó positiva. Está muy asustado. ¿Tiene razón?
Solución. No tiene razón. La probabilidad de que tenga la enfermedad es muy remota,
como veremos a continuación. En primer lugar entendamos qué significa que la prueba sea
90 % confiable. Significa que acierta en el 90 % de los casos en ambas situaciones: cuando la
persona está enferma y cuando la persona está sana.
Veamos ahora la solución. Supongamos que en la población hay 100 000 personas. Hay 10
enfermas y 99 990 sanas. De las 10 enfermas, a 9 les sale positivo y a 1 le sale negativo. De
las 99 990 sanas, a 9 999 (la décima parte) les sale positivo y al resto 89 991 les sale negativo.
35
1
La probabilidad de que esté enfermo es ¡menos de 1000
!:
9
= 0.0009. ♦
9 + 9 999
En el ejemplo anterior destacamos el significado de ser 90 % confiable como el de acertar

en todas las situaciones. Serı́a incorrecto pensar en que la prueba es 90 % confiable cuando
acierta el 90 % de las ocasiones en una de las situaciones, por ejemplo, cuando la persona
está enferma. El siguiente ejemplo analiza esta posibilidad.
3.47 Ejemplo. A cada persona de un grupo se le aplica la siguiente prueba: Se le pide

que escoja al azar una carta de un mazo de 10 cartas numeradas del 1 al 10. Se dice que la
persona está enferma si la carta elegida lleva un número entre 1 y 9, y sana si la carta lleva
el número 10. Probar que la prueba acierta en 90 % de los casos en las personas enfermas
pero sólo acierta en 10 % de los casos en las personas sanas.
Solución. Sin importar si la persona está enferma o sana, la probabilidad de escoger una
9
carta que tenga número entre 1 y 9 es 10 ası́ que, si está enferma, la prueba acertará en 90 %
de los casos, misma probabilidad que tendrá de fallar si la persona está sana. ♦
3.48 Ejemplo. Paradoja de Simpson. En la admisión a una Facultad de Fı́sico-

Matemáticas resultó que, tanto en el departamento de Matemáticas como en el de Fı́sica, la
proporción de mujeres aceptadas con respecto al de solicitantes fue mayor que la de hombres.
El director publicó que, con respecto al número de solicitantes, la proporción total de mujeres
aceptadas fue mayor que la de hombres. ¿Tiene razón?
Solución. No necesariamente. Es posible que en el departamento de Fı́sica sea mucho
mayor la cantidad de hombres solicitantes que la de mujeres y que eso no ocurra en el
departamento de Matemáticas, y las probabilidades relativas no compensan esa diferencia.
Por ejemplo, supongamos que en Matemáticas hubo 40 hombres solicitantes de los cuales
se aceptó a 10, y que hubo 20 mujeres solicitantes de las cuales se aceptó a 10. Por otro
lado supongamos que hubo 100 hombres solicitantes en Fı́sica de los cuales se aceptó a 90,
mientras que hubo 10 solicitantes mujeres en Fı́sica y que todas fueron aceptadas.
36
Tenemos que el total de hombres solicitantes fue de 40 + 100 = 140 y de ellos se aceptó a
10 + 90 = 100 y eso da una proporción de 57 . Por otro lado, del total de 20 + 10 = 30 mujeres
solicitantes se aceptó a 10 + 10 = 20, lo cual hace una proporción total de mujeres aceptadas
de 32 . ♦
3.49 Definición. Dados dos eventos S y T tales que P (T ) 6= 0, la probabilidad condi-

cional P (S|T ) de S dado T es la probabilidad que ocurra S cuando ya ocurrió T . Se calcula
ası́:
P (S ∩ T )
P (S|T ) = .
P (T )
Ilustremos el concepto con el siguiente ejemplo.
3.50 Ejemplo. Supongamos que lanzamos una moneda al aire 5 veces y que sabemos
que 3 de ellas fueron sol. ¿Cuál es la probabilidad de que la primera haya caı́do sol?
Solución. El nuevo espacio muestral en este caso es:
{sssaa, ssasa, ssaas, sassa, sasas, saass, asssa, assas, asass, aasss},
6
ası́ que la probabilidad de que la primera sea sol es 10
.
Según la notación de la definición tenemos que en el espacio muestral Ω = {a, s}5 , que tie-
ne 32 elementos. Se quiere calcular P (S|T ), donde T es suceso en que hay tres soles (o sea que
|T | = 53 y S = {s}×{a, s}4 . Notemos que S∩T = {sssaa, ssasa, ssaas, sassa, sasas, saass}

y ası́
5
P (S ∩ T ) 6
P (S|T ) = = 325
= .♦
P (T ) ( 3) 10
32
3.51 Observación. Sea S un suceso distinto del vacı́o y de Ω. Entonces

(a) P (S|S) = 1.
(b) P (S|¬S) = 0.
(c) Si S y T son ajenos y P (T ) 6= 0, entonces P (S|T ) = 0.
37
3.52 Proposición. Sea Ω = T1 ∪ T2 ∪ · · · ∪ Tn con los Ti sucesos ajenos por parejas y
sea T un suceso. Entonces:
P (S) = P (S|T1 )P (T1 ) + P (S|T2 )P (T2 ) + · · · + P (S|Tn )P (Tn ). ♦
Por ejemplo, para n = 2 tenemos:
3.53 Corolario. Si S y T son dos eventos, entonces

P (S) = P (S|T )P (T ) + P (S|¬T )P (¬T ).
3.54 Ejemplo. Supongamos que un futbolista va a tirar un penalty. Si tira a la izquierda,

su probabilidad de meter gol es de 70 %. Si tira a la derecha, su probabilidad de meter gol
es de 60 %. Sabemos que tira a la izquierda el 80 % de las veces. ¿Cuál es su probabilidad de
meter gol?
Solución. Llamemos G al suceso de que meta gol, I al de que tire hacia la izquierda y D
al de que tire a la derecha. Entonces
P (G) = P (G|I)P (I) + P (G|D)P (D) (1)
7 8 6 2
= + (2)
10 10 10 10
= 0.68. (3)
3.55 Ejemplo. En una competencia de futbol se usan 3 estadios. Al equipo Kimo le

conviene jugar en su estadio pues en él tiene probabilidad de 60 % de ganar mientras que en
los otros sólo tiene un 40 %. Se sorteará el estadio donde le va a tocar jugar mañana. ¿Qué
probabilidad tiene de ganar?
Solución. Aplicamos 3.52. Sea T1 el suceso de que el equipo Kimo juegue en su propio
estadio y sea T2 el suceso de que juegue en otro. Entonces P (T1 ) = 31 y P (T2 ) = 32 . Sea S el
suceso de que gane. Entonces
60 1 40 2 7
P (S) = P (S|T1 )P (T1 ) + P (S|T2 )P (T2 ) = · + · = .♦
100 3 100 3 15
38
Es muy importante destacar que si S y T son dos eventos distintos, entonces los valores
P (S|T ) y P (T |S) representan cosas totalmente distintas. Por ejemplo, es posible que en un
grupo de personas el 90 % de los que juegan basquetbol midan más de 180 cm pero que sólo
el 20 % de las personas del grupo que miden más de 180 cm jueguen basquetbol. Si llamamos
B al evento de jugar basquetbol y A al evento de medir más de 180 cm, se está diciendo que
P (A|B) = 0.9 y P (B|A) = 0.2.
3.56 Ejemplo. Utilizar probabilidad condicional para encontrar el error en el siguiente

argumento: “El 10 % de los alumnos que reprobaron la materia el ciclo anterior no estudiaron,
ası́ que si no estudio para esa materia en este ciclo tengo 90 % de probabilidad de aprobar.”
Solución. Llamemos R al grupo de reprobados y E a los que estudiaron. Lo que nos dice
la frase: “El 10 % de los alumnos que reprobaron la materia el ciclo anterior no estudiaron” es
que P (¬E|R) = 10 %; la probabilidad de reprobar si no se estudia está dado por P (R|¬E),
que puede ser muy distinto a 10 %; por ejemplo, si hubiera habido 100 alumnos, de los cuales
sólo 2 no estudiaron, y que hubieran reprobado 10: 9 de los que estudiaron y 1 de los que no
estudió; entonces
|¬E ∩ R| 1
P (¬E|R) = = = 10 %,
|R| 10
|¬E ∩ R| 1
pero P (R|¬E) = = = 50 %. ♦
|¬E| 2
En el siguiente esquema ilustramos la situación del ejemplo anterior, donde hemos deno-
tado con A al grupo de los aprobados.
39
El siguiente teorema nos permite cambiar el conocimiento de una probabilidad del tipo
P (S|T ) por una del tipo P (T |S). El resultado se obtiene simplemente despejando en 3.52.
3.57 Corolario. Teorema S de Bayes. Sean T1 , T2 , . . . , Tn sucesos ajenos en un espacio

muestral Ω y tales que Ω = i Ti . Si S es otro suceso en Ω, entonces
P (S|Ti )P (Ti )
P (Ti |S) = .
P (S|T1 )P (T1 ) + · · · + P (S|Tn )P (Tn )
Demostración. Tenemos que

P (S|Ti )P (Ti ) = P (S ∩ Ti ) y P (S|T1 )P (T1 ) + · · · + P (S|Tn )P (Tn ) = P (S). ♦
3.58 Ejemplo. Supongamos que se tienen dos monedas, una normal N (con caras s y
a) y otra defectuosa D, con dos águilas (a1 y a2 ). Se selecciona una de las monedas al azar y
resulta que al lanzarla se obtiene águila. ¿Cuál es la probabilidad de que haya sido la moneda
defectuosa?
Solución. Sean Ω = {s, a, a1 , a2 } (el conjunto de los posibles resultados), N = {s, a} (el
conjunto de los resultados de la moneda normal) y D = {a1 , a2 } (el conjunto de los resultados
de la moneda defectuosa). Sea A = {a, a1 , a2 } el suceso de que haya salido águila. Buscamos
P (D|A). Según 3.57 podemos calcularlo como
1
P (A|D)P (D) 1· 2
P (D|A) = = 2 = .♦
P (A|D)P (D) + P (A|N )P (N ) 1 1 1 3
1· + ·
2 2 2
3.59 Ejemplo. A cada uno de los miembros de una fábrica se le aplica una prueba para
ver si usa una droga determinada. Se sabe que la prueba es 98 % confiable. Si al Sr. X se le
hizo la prueba y salió positiva, ¿se puede afirmar que es 98 % seguro que usa la droga? ¿Y si
le sale negativa?
Solución. No, depende de la proporción de personas que usan la droga, por ejemplo,
supongamos que la fábrica tiene 10 000 personas y que sólo 100 de ellas usan la droga.
Usamos 3.52.
Por ejemplo; supongamos que la fábrica tiene 10 000 empleados y que sólo 100 usan la
droga. Sea D el conjunto de los empleados que usan la droga (ası́ P (D) = 10100000
= .01) y
L el conjunto de los empleados que no la usan (P (L) = .99). Sea P os el conjunto de los
empleados para los cuales la prueba resulta positiva (P (P os|D) = .98 y P (P os|L) = .02).
Por 3.52,
P (P os|D)P (D) (.98)(.01) 98
P (D|P os) = = = ∼ 33 %.
P (P os|D)P (D) + P (P os|L)P (L) (.98)(.01) + (.02)(.99) 296
40
Ahora, con el mismo ejemplo y N el conjunto de empleados a los que les sale negativa la
prueba, tenemos: P (N |D) = .02, P (N |L) = .98 y ası́
P (N |D)P (D) (.02)(.01)
P (D|N ) = = ∼ .0002 %.♦
P (N ) (.02)(.01) + (.98)(.99)
3.60 Ejemplo. En un juicio de un criminal que huyó por la noche en un taxi hubo un
testigo que afirmó que el taxi en el que habı́a huido era azul; justo el mismo color del taxi del
acusado. Habı́a duda de si se le creı́a o no porque era de noche. El fiscal dijo entonces que se
le habı́a hecho una prueba al testigo de distinguir un taxi en las mismas condiciones que las
de la noche del crimen; que se le habı́a repetido 100 veces y que el 80 % de las ocasiones habı́a
dicho el color correcto; que eso era indicación de que debı́a creérsele (con certeza de un 80 %).
Sin embargo, el abogado defensor dijo que probablemente el testigo se habı́a equivocado de
color porque la ciudad tenı́a 100 taxis, de los cuales 90 eran verdes y sólo 10 eran azules.
Entonces, cuando al testigo se le mostró taxi verde, pudo haber dicho verde 72 veces contra
18 que habrı́a dicho azul, y al presentársele con un taxi azul, pudo haber dicho verde 2 veces
y azul 8 veces; ası́ habrı́a acertado el 80 % de las veces; sin embargo, sólo 8 de las 26 veces
que habrı́a dijo azul, efectivamente se habrı́a tratado de un taxi azul, lo que representarı́a
8
un 26 ∼ 31 % ¿Quién tiene razón?
Solución. El abogado defensor está en lo correcto. La explicación matemática nos la da
el Teorema de Bayes. Sea Ω el conjunto de los taxis de esa ciudad. Sea S1 el conjunto de
los taxis azules y sea S2 el de los taxis verdes. Sea U el suceso que consta de los taxis que
el testigo declara como azules. Queremos determinar la probabilidad de que el taxi sea azul
dado que el testigo lo vio azul, es decir, P (S1 |U ). Entonces
P (U |S1 )P (S1 ) (.8)(.1) 8
P (S1 |U ) = = = .♦
P (U |S1 )P (S1 ) + P (U |S2 )P (S2 ) (.8)(.1) + (.2)(.9) 26
3.61 Ejercicio. En 3.59, ¿cómo deberı́a ser la proporción de personas que usan la droga
con respecto a los que no la usan, para que si a una persona la prueba le sale positiva entonces
se pueda afirmar que la probabilidad de que la usa sea de 98 %?
3.62 Ejercicio. En 3.60, ¿qué tan confiable habrı́a sido el testigo si se supiera que el
número de taxis verdes era de 10 y el de azules de 90?
3.63 Ejercicio. Se lanzaron 2 dados al aire y uno de ellos mostró un número par. ¿Cuál
es la probabilidad de que ambos hayan sido pares?
3.64 Ejercicio. Todas las tardes, Carmen va a la panaderı́a. El 80 % de las ocasiones

encuentra su pan favorito. Se ha observado que si va entre 5 y 6, la probabilidad de que
encuentre su pan favorito es de 90 %, pero si va entre 6 y 7 su probabilidad baja a 40 %.
¿Qué porcentaje de los dı́as va a la panaderı́a entre 6 y 7?
3.65 Ejercicio. Volver a hacer el ejemplo 3.46 usando el teorema de Bayes.
41
3.66 Ejercicio. Supongamos que cierta enfermedad x le da a 1 de cada 1000 personas.
Sabemos que alrededor de 5 % de la población tiene diabetes y que de la gente que tiene x,
el 50 % también padece diabetes.
(a) Si Juanito no padece la enfermedad x, ¿cuál es la probabilidad de que tenga diabetes?
(b) Si Juanito tiene diabetes, ¿cuál es la probabilidad de que tenga x?
3.67 Ejercicio. Supongamos que la probabilidad de que en un juicio un tribunal dé

el veredicto correcto sobre culpabilidad o inocencia de un individuo es 0.9. Supongamos
también que el 80 % de las personas que llegan a ser enjuiciadas es culpable. Si el tribunal
decidió que el individuo a es culpable. ¿Cuál es la probabilidad de que, efectivamente, a sea
culpable?
3.68 Ejercicio. Explicar en términos de probabilidad condicional los errores expuestos

en 2.2, 2.6 y 2.8.
3.4. Independencia
Dos eventos S y T son independientes si la información de que ocurra uno de ellos (o no

ocurra) no altera para nada si ocurre el otro. Formalmente:
P (S|T ) = P (S)
o, equivalentemente:
P (S ∩ T ) = P (S)P (T )
Dos eventos son dependientes si no son independientes.
3.69 Ejemplo. (a) Se lanza una moneda dos veces; S es el evento que la primera caiga
sol, T que la segunda caiga sol. Entonces S y T son independientes.
(b) Se lanza un dado; S es el evento que caiga número par, T es el evento que caiga 2.
42
Entonces S y T no son independientes.
(c) Se lanza un dado dos veces. S es el evento que caigan iguales, T es el evento que el
primero sea 4. Entonces S y T son independientes.
(d) Se lanzan dos dados. S es el evento que su suma sea un número par, T es el evento
que su producto sea un número par. Entonces S y T no son independientes.
(e) Ω es el espacio de todas las personas; se escoge una al azar y S es el evento “ser
fumador” y T es el evento “morir joven”. Entonces S y T no son independientes.
Hasta ahora hemos visto qué significa que dos eventos sean independientes. Pero, ¿qué
significa que 3 o más eventos lo sean? Por ejemplo, intuitivamente, entendemos que si tiramos
una moneda 3 veces, los 3 eventos son independientes. Pero, aunque parezca extraño, podrı́a
ser que hubiera 3 eventos que estuvieran ligados a pesar de que cada pareja no lo estuviera.
Por ejemplo, supongamos que tiramos dos dados y sea S el evento que el primero sea par, T
el evento que el segundo sea par, y U el evento que la suma de ambos sea par. Claramente
cada dos son independientes, pero si se conocen S y T , entonces ya se conoce U , ası́ que en
conjunto, los tres no son independientes.
Decimos que eventos S1 , S2 , . . . , Sn de un espacio Ω son independientes si para cualquier

subconjunto I ⊂ [n] se tiene que
!
\ Y
P Si = P (Si ).
i∈I i∈I
En la figura se muestran eventos independientes por parejas pero no independientes.
3.70 Observación. (a) Un evento S es independiente de sı́ mismo sólo cuando P (S) = 1
o P (S) = 0.
(b) Si S1 , S2 , S3 son mutuamente independientes, entonces
P (S1 |S2 ∩ S3 ) = P (S1 ).
3.71 Ejemplo. En el experimento de escoger un número del 1 al 60, sean S el evento
43
de escoger un número múltiplo de 4, T el evento de escoger un múltiplo de 5 y U el evento
de escoger un múltiplo de 6. Determinar la independencia o dependencia de S con T y U .
Solución. Vemos que S y T son independientes pues P (S|T ) = 41 = P (S); S y U no son
independientes ya que P (S|U ) = 12 6= P (S), y T y U sı́ son independientes pues P (U |T ) =
1
6
= P (U ). En este caso, por ejemplo, la probabilidad de que un número en [12] sea múltiplo
de 6 dado que se sabe que es múltiplo de 2 es 26 = 1/6
1/2
.♦
3.72 Ejemplo. Sea a1 , a2 , . . . , an una permutación de [n]. Sea S el suceso de que a1 > a2
y sea T el suceso de que a2 > a3 . ¿Cuál es la probabilidad de S dado T ? ¿Son S y T
independientes?
Solución. Tenemos que P (S) = P (T ) = 21 y P (S ∩ T ) = 16 , ası́ que P (S|T ) = 31 , es decir,
los sucesos no son independientes: el que T ocurra hace que S sea menos probable. ♦
El ejemplo anterior es intuitivamente claro pues el que T ocurra limita las posibilidades
para a2 (por ejemplo a2 6= 1).
3.73 Ejercicio. (a) Inventar otro ejemplo de 3 eventos independientes por parejas que
no sean independientes.
(b) Inventar un ejemplo de 4 eventos que saber 2 de ellos no afecte a un tercero, pero
que saber 3 de ellos sı́ afecte al cuarto.
3.74 Ejercicio. Probar que dado n ∈ N existen n sucesos dependientes tales que cua-
lesquiera n − 1 de ellos son independientes.
3.75 Ejercicio. Dar un ejemplo de naturales n, r y s, con r y s primos relativos, tales

que el suceso de escoger un múltiplo de r en [n] y el de escoger un múltiplo de s en [n] no
sean independientes.
3.76 Ejercicio. Probar que si el que T ocurra hace más probable la ocurrencia de S (es
decir, P (S|T ) > P (S)) entonces el que S ocurra también hace más probable la ocurrencia
de T .
3.77 Ejercicio. Probar que si S y T son sucesos independientes entonces también lo son
¬S y ¬T .
3.78 Ejercicio. Una moneda se lanza al aire dos veces. Sea S el suceso de que la primera
vez salga águila y sea T el suceso de que los dos lanzamientos den distinto resultado. ¿Son
S y T independientes?
44
3.79 Ejercicio. En una caja hay 4 pelotas numeradas del 1 al 4. Se saca una pelota y
después, sin volver a meter la que se sacó, se saca otra pelota. Sea S el suceso de que la
primera pelota tenga el número 1 y sea T el suceso de que la segunda pelota tenga el número
1. ¿Son S y T independientes?
45
4. Variables Aleatorias y Esperanza
4.1. Variables Aleatorias
Hemos dado el nombre de espacio muestral al conjunto que contiene los posibles resultados
de un experimento. Sin embargo, no se puede operar con los resultados, por ejemplo, cuando
nos interesa contar el número de águilas al lanzar varias monedas al aire o al fijarnos en la
suma de lo que mostraban dos dados o al considerar la altura de personas. Se introduce,
entonces el concepto de variable aleatoria.
Dado un conjunto muestral Ω, una variable aleatoria en Ω es una función
X : Ω → R.
Dada una variable aleatoria X y un número real a, asociamos a X el suceso
[X = a] := {ω ∈ Ω : X(w) = a} = X −1 (a).
De la misma manera definimos [X < a], [X > a], [X ≤ a], [X ≥ a], etc. (Por ejemplo,
[X ≤ a] = X −1 (−∞, a].)
Inclusive, para un conjunto de reales A, [X ∈ A] es el suceso
X −1 (A) = {ω ∈ Ω : X(ω) ∈ A}.
Ası́, en la situación en que X es la estatura de una persona en centı́metros, [X < 170] consiste
de todas las personas que miden menos de 170 cm, y en la situación en que X es el número
de águilas al lanzar 10 monedas, el evento [X = 1] consta de todos los lanzamientos que
constan de exactamente un águila.
Muchas veces nos queremos olvidar de Ω y, simplemente, pensar en la probabilidad de la

variable aleatoria X.
46
Si Ω es un espacio muestral discreto y X es variable aleatoria en Ω, entonces la densidad de
X es la función pX : A → [0, 1], donde A es el rango de X y, para a ∈ A, pX (a) = P [X = a].
La distribución cumulativa de X es la función FX : R → [0, 1] dada por
X
FX (a) := P [X ≤ a] = pX (b).
b≤a
Notemos que estamos tratando el caso en que la variable aleatoria X es discreta, es decir,
el rango de X, A = {X(ω) : ω ∈ Ω}, es un subconjunto discreto de reales. Ası́, a partir de
las probabilidades de los conjuntos de un solo elemento se pueden obtener, usando (P3), las
probabilidades de todos los conjuntos.
Por ejemplo, en el espacio de probabilidad que resulta al lanzar una moneda 10 veces, en
donde X calcula el número de águilas, se tiene que
10

5 252
pX (5) = 10 = ∼ 0.25
2 1024
10 10 10 10 10 10

5
+ 4
+ 3
+ 2
+ 1
+ 0
FX (5) =
210
252 + 210 + 120 + 45 + 10 + 1 638
= = ∼ 0.60.
1024 1024
Hay varios tipos de distribuciones
4.1 Definición. La distribución uniforme es la más sencilla y natural: Es en la que “todo

tiene la misma probabilidad”. Cuando decimos “tomamos un número entero aleatorio entre
0 y 10” nos referimos a esta distribución. Si |Ω| = n entonces pX (a) = 1/n
4.2 Ejemplo. Lanzamos un dado y nos fijamos en los resultados posibles (todos con la
misma probabilidad); entonces la variable aleatoria X : [6] → R está definida por X(ω) = ω
y, para i = 1, 2, . . . , 6, tenemos que pX (i) = 61 y FX (i) = 6i . Las gráficas pX y FX son:
47
4.3 Definición. La distribución de Bernoulli es la correspondiente a una variable alea-
toria X que sólo toma los valores 0 y 1. Si P [X = 0] = p, entonces pX (0) = p, pX (1) = 1 − p
y, para cualquier otro número r, pX (r) = 0. También FX [−∞, 0) = 0, FX [0, 1) = p y
FX [1, ∞) = 1.
4.4 Definición. La distribución binomial es aquélla en la que se repite una variable

aleatoria de Bernoulli n veces como en la definición arriba y la variable aleatoria cuenta
cuántas veces se obtuvo cada resultado. Entonces su densidad es:

n k
pX (k) = p (1 − p)n−k .
k
4.5 Ejemplo. Consideremos la variable aleatoria X : {a, s}4 → R definida por X(ω) =
número de a0 s en el elemento ω del espacio muestral, considerando que la probabilidad de
obtener s es p = 21 . Tenemos
1 4 6 4 1
pX (0) = , pX (1) = , pX (2) = , pX (3) = y pX (4) = .
16 16 16 16 16
1 1+4
FX (−∞, 0) = 0, FX [0, 1) = , FX [1, 2) = ,
16 16
1+4+6 1+4+6+4
FX [2, 3) = , FX [3, 4) = y
16 16
1+4+6+4+1
FX [4, ∞) = = 1.
16
48
4.2. Esperanza
Vamos a considerar promedios de variables aleatorias discretas. La idea es la misma que

la del siguiente ejemplo.
4.6 Ejemplo. A lo largo del semestre, un alumno obtuvo en cada una de 7 tareas la
calificación de 8 y en cada una de 5 tareas una calificación de 10. ¿Cuál es el promedio de
las 12 tareas?
Solución. El promedio es la suma de todas las calificaciones dividida entre el número de
calificaciones:
7 × 8 + 5 × 10 106
= = 8.83. ♦
12 12
Sea X una variable aleatoria discreta. La esperanza, media (aritmética), valor esperado,
promedio o primer momento de X, denotado por E(X), es el promedio de los valores de X,
considerando la repetición, es decir,
4.7. X X X
E(X) = P (ω)X(ω) = a · P [X = a] = a · pX (a).
ω∈Ω a∈R a∈R
Notemos que, en el caso finito, la esperanza también se puede calcular como

1 X
E(X) = X(ω),
|Ω| ω∈Ω
49
lo cual coincide con nuestra idea de promedio de valores. En otras palabras, si a1 , ..., an son
los posibles valores que puede tomar X, entonces
E(X) = a1 P [X = a1 ] + a2 P [X = a2 ] + · · · + an P [X = an ].
4.8 Ejemplo. (a) ¿Cuál es el valor esperado del número que sale al lanzar un dado?
(b) ¿Cuál es el valor esperado de la suma de lo que muestren dos dados que se lanzan?
Solución. (a) El promedio es

1+2+3+4+5+6
= 3.5
6
o, puesto en los términos de 4.7, tomando la variable aleatoria como X(a) = a, para a ∈
Ω = [6],
1 1 1
E(X) = 1 · pX (1) + 2 · pX (2) + · · · + 6 · pX (6) = 1 · + 2 · + · · · + 6 · = 3.5.
6 6 6
(b) En este caso, Ω = [6] × [6] y la variable aleatoria está definida por X(a, b) = a + b. La
esperanza de X es
E(X) = 2 · pX (2) + 3 · pX (3) + 4 · pX (4) + · · · + 11 · pX (11) + 12 · pX (12)
1 2 3 2 1
= 2· +3· +4· + · · · + 11 · + 12 ·
36 36 36 36 36
2 · 1 + 3 · 2 + 4 · 3 + · · · + 11 · 2 + 12 · 1
=
36
252
= = 7. ♦
36
Después veremos que en el ejemplo anterior no es casualidad que el resultado del promedio
de dos dados sea el doble del promedio de un dado (ver 4.15).
4.9 Ejemplo. ¿Cuántas águilas se espera que salgan si se lanza una moneda 2 veces?
Solución. Aquı́ Ω el conjunto de sucesiones de longitud 2 en {a, s} y X es la variable
aleatoria en Ω definida por X(ω) = número de águilas de ω. En este caso,
E(X) = 2 · pX (2) + 1 · pX (1) + 0 · pX (0) = 2 · 14 + 1 · 12 + 0 · 14 = 1,
o también
1 1
E(X) = (X(a, a) + X(a, s) + X(s, a) + X(s, s)) = (2 + 1 + 1 + 0) = 1. ♦
4 4
50
4.10 Ejemplo. Como en 3.10, el experimento es sacar 2 pelotas de una caja en la que
hay 2 pelotas rojas y 3 azules. ¿Cuántos colores distintos se esperan?
Solución. La variable aleatoria a considerar está definida por X(ω) = número de colores
de ω, donde ω es cualquier conjunto de dos pelotas de la caja. Por 3.10 sabemos que la
probabilidad de que salgan los dos colores es pX (2) = 0.6 y la de que las dos pelotas tengan
el mismo color es pX (1) = 0.4. Entonces
6 4
E(X) = 2 · pX (2) + 1 · pX (1) = 2 · +1· = 1.6. ♦
10 10
4.11 Ejemplo. Alejandra y Delia van a jugar un juego. Alejandra lanzará un dado y
le dará una moneda a Delia cada vez que lo que salga en el dado no sea 2. Si se quiere que
ninguna de las dos jugadoras tenga ventaja, ¿cuántas monedas deberá pagar Delia cada vez
que salga el 2?
Solución. Aquı́ tenemos Ω = [6] y X(ω) = 1 si ω 6= 2. Se quiere encontrar X(2) de
tal manera que E(X) = 0. Sea z = X(2). Tenemos, pX (1) = 65 , pX (z) = 16 y E(X) = 0.
Entonces 0 = 1 · 56 + z · 16 , de donde z = −5, de manera que Delia tendrá que pagar 5 monedas
a Alejandra en caso de que salga 2 en el dado. ♦
4.12 Ejemplo. Se escogen al azar 3 números distintos entre el 1 y el 100. En promedio,

¿cuál es el valor del menor de esos tres?
Solución. El 1 aparece como menor en 99 98

2
ternas, el 2 en 2
, etc., ası́ que la respuesta
es
1 · 99 + 2 · 98 + · · · + 98 · 22

2 2
100
.
3
Ahora, el numerador es igual a
99 98 97 2 100

2
+ 2
+ 2
+ ··· + 2
= 3
+
98 97 2 99

+ 2
+ 2
+ ··· + 2
= 3
+
97 2 98

+ 2
+ ··· + 2
= 3
+
..
.
+
2 3

+ 2
= 3
=
101
= 4
.
Entonces la respuesta es
101

4 101 · 100 · 99 · 98 3!
100
= · = 25.25. ♦
3
100 · 99 · 98 · 97 4!
51
Observemos que, dada una variable aleatoria X en Ω, pX es, en efecto, una función de
probabilidad que traduce la probabilidad P definida en sucesos (subconjuntos) de Ω en una
probabilidad de sucesos (subconjuntos) de R. De hecho, ya habı́amos hecho esto, sin decirlo,
como explicamos en el siguiente ejemplo.
4.13 Ejemplo. El experimento consiste en lanzar una moneda al aire hasta que salga
águila por primera vez. ¿En qué lanzamiento se espera que esto ocurra?
Solución. Aquı́ consideramos la variable aleatoria X que asigna, a cada sucesión infinita
de a0 s y s0 s, el primer lugar en el que aparece a (si no aparece, podrı́amos asignarle cualquier
valor no natural, por ejemplo −1, con probabilidad 0). Como el conjunto es infinito, ya no
podemos calcular la esperanza tomando el promedio en la forma acostumbrada y, de hecho,
es más difı́cil adivinar la esperanza de X. Veamos que se espera que salga águila alrededor
del segundo lanzamiento, recordando que pX (i) = 21i :
∞ ∞
i i
= 21 + 42 + 38 + · · ·
P P
E(X) = 2i
= 2i
i=1 i=1
1
+ + 81 + · · · +
1 1
+ 18 + · · · + 1 1

= 2 4 4 8
+ ··· + 16
+ ··· + ···
= 1 + 21 + 41 + 18 + · · · = 2. ♦
Dados un conjunto {Xi : i = 1, 2, . . . , k} de variables aleatorias

P en un conjuntoP
muestral Ω
y reales c1 , c2 , . . . , ck , definimos otra variable aleatoria X = i ci Xi por X(ω) = i ci Xi (ω).
4.14 Proposición. (a) Si X es una variable aleatoria constante tal que X(ω) = c para
todo ω ∈ Ω, entonces E(X) = c.
(b) Si X ≤ Y (es decir, si X y Y son variables aleatorias en Ω y para todo ω ∈ Ω se tiene
que X(ω) ≤ Y (ω)), entonces E(X) ≤ E(Y ).
(c) Si X es variable aleatoria y c es una constante, entonces E(cX) = cE(X).
(d) Si X y Y son variables aleatorias en un espacio muestral Ω, entonces E(X + Y ) =
E(X) + E(Y ).
Demostración. (a) pX (c) = 1 y pX (a) = 0 si a 6= c.

(b) y (c) son claras.
(d) Tenemos que
X X X
E(X + Y ) = P (ω)(X + Y )(ω) = P (ω)X(ω) + P (ω)Y (ω) = E(X) + E(Y ). ♦
ω∈Ω ω∈Ω ω∈Ω
Aquı́ queda de manifiesto lo que habı́amos dicho de que no era sorprendente que el
resultado de 4.8(b) fuera el doble del de 4.8(a).
52
4.15 Nota. Las propiedades (c) y (d) de la proposición anterior expresan la linealidad
de la esperanza y tenemos que si X1 , X2 , . . . , Xn son variables aleatorias en Ω y c1 , c2 , . . . , cn
son reales, entonces !
X X
E ci X i = ci E(Xi ).
i i
La linealidad de la esperanza es muy útil pues en ocasiones es difı́cil de calcular la espe-

ranza de cierta variable aleatoria, pero esta se puede descomponer como suma de variables
cuya esperanza es fácil de calcular.
En los siguientes tres ejemplos la respuesta es obvia, como mostramos en la primera

solución; sin embargo conviene analizar las otras soluciones para comparar y, en dado caso,
ver la utilidad de la linealidad de la esperanza 4.15.
4.16 Ejemplo. Tiramos un dado 100 veces. En promedio, ¿cuántas veces esperamos que
nos salga un 4?
Solución. Primera forma. Se espera que la sexta parte de las veces salga 4, ası́ que la
respuesta es 100/6.
Segunda forma. Sea X la variable aleatoria que cuenta el número de veces que salió 4.
Escribimos
X = X1 + X2 + X3 + · · · + X100
donde
1, si el dado i es 4,
Xi (ω) =
0, si no.
Entonces E(X) = E(X1 ) + · · · + E(X100 ), pero para toda i,
1
E(Xi ) = 1 · P [Xi = 1] + 0 · P [Xi = 0] = ,
6
ası́ que E(X) = 100/6. ♦
4.17 Ejemplo. ¿Cuántos elementos se espera que tenga un subconjunto de [n] escogido
al azar?
Solución. Primera forma. Para cada r ≤ n los conjuntos con r elementos son la misma
cantidad que los conjuntos con n − r elementos, ası́ que el promedio es n2 .
Segunda forma. Sea Ω = P[n], el conjunto de subconjuntos de [n]. Sea X la variable
aleatoria definida en Ω por X(ω) = número de elementos de ω. Entonces
n
1X n
E(X) = n r .
2 r=0 r
53
n n

Ahora, considerando que r
= n−r
, agrupando términos y multiplicando por 2/2, tenemos
que n
1 X n 1 n
E(X) = n+1 n = n+1 (n · 2n ) = .
2 r=0
r 2 2
Tercera forma. Consideremos Ω y X como en la solución anterior y definamos, para

i = 1, . . . , n, la variable aleatoria Xi por

1, si i ∈ ω,
Xi (ω) =
0, si no.
Claramente X = i Xi y P [Xi = 1] = P [Xi = 0] = 12 para toda i, y ası́
P
n n
X X 1 1 n
E(X) = E(Xi ) = 1· +0· = .♦
i=1 i=1
2 2 2
4.18 Nota. Una variable aleatoria (como las Xi de los ejemplos anteriores) que sólo
toma valores 0 o 1, se llama variable aleatoria indicadora. Su esperanza coincide con la
probabilidad de que su valor sea 1.
4.19 Ejemplo. Determinar cuántas fichas dobles se espera que tenga una mano de
dominó, primero de manera intuitiva y después usando variables aleatorias indicadoras.
Solución. Primera forma. Una mano de dominó consta de 7 fichas, que es la cuarta parte
del total; como hay 7 dobles se espera que una mano tenga también la cuarta parte de éstas;
ası́ la respuesta es 47 .
Segunda forma. Podemos calcular el promedio de las fichas dobles que tiene 21 cada mano;
7
el número de manos que tienen i fichas dobles (para i = 0, 1, 2, . . . , 7) es i 7−i . Cada uno
de éstos tenemos que multiplicarlo por i y observamos que i 7i 7−i
21 6
21
= 7 i−1 7−i
. Entonces,
usando 4.15, tenemos que el promedio de fichas dobles en una mano es
7
21
7 27

X i 7−i 7
i· 28
= 286 = .
i 7 7
4
Tercera forma. Sea Ω = {manos}. Sea X la variable aleatoria definida en Ω por X(ω) =
número de fichas dobles en ω. Queremos determinar E(X). Para esto definamos, para i =
1, . . . , 7, la variable aleatoria Xi por

1, si (i, i) ∈ ω,
Xi (ω) =
0, si no.
(276) 7
= 14 para toda i, ası́ que
P
Es claro que X = Xi y que P [Xi = 1] = = 28
i (287)
X 7
E(X) = E(Xi ) = . ♦
i
4
54
4.20 Ejemplo. A una fiesta asisten n personas. Cada una lleva un regalo y éstos se
sortean, de manera que a cada persona le toque un regalo. ¿A cuántas personas se espera
que les toque su propio regalo?
Solución. Aquı́ podemos pensar que el espacio muestral consta de todas las permutaciones
(a1 , a2 , . . . , an ) de n elementos, y la variable aleatoria X que nos interesa calcula el número
de puntos fijos, es decir, cuántos ai son iguales a i (por ejemplo, si n = 8, en la permutación
(4, 1, 3, 8, 2, 6, 5, 7) los puntos fijos son dos: en 3 y en 6). Definamos, para cada i ∈ [n], la
variable aleatoria que tiene el valor 1 cuando i es punto fijo y 0 cuando no. Entonces
n
X (n − 1)! 1
X= Xi y P [Xi = 1] = = ,
i=1
n! n
de donde E(X) = 1. ♦
Para comprender mejor el ejemplo anterior, veamos la siguiente tabla, en la que se mues-
tran las 6 permutaciones σ1 , . . . , σ6 de [3], y en cada una se han marcado con asterisco los
elementos fijos. La última columna cuenta el número de puntos fijos de cada permutación, lo
cual es lo que cuenta X. Por otro lado, hasta abajo de cada columna aparece cuántas veces
el elemento respectivo quedó fijo, lo cual corresponde a lo que cuenta cada Xi . Los totales
deben ser los mismos; es decir, 3 + 1 + 1 + 0 + 0 + 1 = 6 = 2 + 2 + 2. En resumen, las Xi0 s
cuentan por columnas lo mismo que X cuenta por renglones.
total
∗ ∗ ∗
σ1 1 2 3 → 3
σ2 1∗ 3 2 → 1
σ3 2 1 3∗ → 1
σ4 2 3 1 → 0
σ5 3 1 2 → 0
σ6 3 2∗ 1 → 1
↓ ↓ ↓ ↓
total 2 2 2 → 6
4.21 Ejemplo. Un grupo de n jóvenes compite cada dı́a en saltos de longitud. Nunca
se repiten las distancias que logran. En un dı́a promedio, ¿cuántas veces se rompe el récord
de ese mismo dı́a (considerando que el primero que compite siempre rompe récord)?
Solución. Digamos que Ω = es el conjunto de permutaciones de [n]. La variable aleatoria
X : Ω → R es tal que evaluada en una permutación σ, es el número de veces que dentro de
σ se rompe el record (es decir, que aparece un número más grande que todos los anteriores).
55
Analicemos el caso n = 4, subrayando los lugares donde se rompe récord:
1234 1243 1324 1342 1423 1432

2134 2143 2314 2341 2413 2431
3124 3142 3214 3241 3412 3421
4123 4132 4213 4231 4312 4321
Podemos observar que el 1ero rompe récord en 24 permutaciones (el 100 % de las veces);
que el 2do lo rompe en 12 (en la mitad de las veces); el 3ero en 8 (la tercera parte); el 4to
en 6: (la cuarta parte).
En general:
1 1 1
E(X) = E(X1 ) + · · · + E(Xn ) = + + · · · + ∼ ln(n) ♦
1 2 n
Terminemos esta sección con algunos ejemplos interesantes. Los siguientes dos ejemplos
van en contra de nuestra intuición.
4.22 Ejemplo. Dados mágicos. Se tienen los siguientes dados:

El dado naranja tiene números 5, 5, 5, 1, 1, 1.
El dado azul tiene números 4, 4, 4, 4, 0, 0.
El dado verde tiene números 3, 3, 3, 3, 3, 3.
El dado rojo tiene números 6, 6, 2, 2, 2, 2.
Natalia toma el dado naranja, Anabel toma el azul, Vicente toma el verde y Raúl toma el
rojo. Probar que si cada uno lanza su dado y apuesta 1 peso a que en su dado sale un número
mayor que en el del otro, entonces la esperanza de ganancia de cada una de las siguientes
competencias son todas de 13 :
[N vs A] Natalia contra Anabel.
[A vs V ] Anabel contra Vicente.
[V vs R] Vicente contra Raúl.
[R vs N ] Raúl contra Natalia.
Solución. Observemos que en cada caso hay 36 combinaciones y contemos en cuántas
gana cada uno.
[N vs A] Cada uno de los tres 50 s de N gana a las seis posibilidades de A; los tres 10 s de N
ganan, cada uno, contra los dos 00 s de A. Entonces, de las 36 opciones, N gana 3·6+3·2 = 24,
56
es decir,
1 12 1
E(N vs A) = (1 · 18 + 1 · 6 + (−1) · 12) = = .
36 36 3
[A vs V ] De la misma manera, los cuatro 40 s de A ganan a las seis posibilidades de V pero

los dos 00 s pierden y entonces
1 12 1
E(A vs N ) = (1 · 24 + (−1) · 12) = = .
36 36 3
[V vs R] Los 30 s de V pierden, cada uno, contra los dos 60 s de N pero ganan las otras
veces y ası́
1 12 1
E(V vs R) = (1 · 24 + (−1) · 12) = = .
36 36 3
[R vs N ] Como arriba,
1 12 1
E(R vs N ) = (1 · 12 + 1 · 12 + (−1) · 12) = = .♦
36 36 3
4.23 Nota. El ejemplo anterior lo sintetizamos por:
N > A > V > R > N.
4.24 Ejemplo. ¿Cuántos novios conviene a tener antes de casarse? Supongamos que
uno piensa que a lo más debe tener n novios/as (por ejemplo, si se decidiera empezar a
probar novios a los 17, tener un novio cada 2 años y elegir a lo más a los 34 años, entonces
n serı́a 34−16
2
= 9). También supongamos que se decide tener a novios de prueba a los que se
desecharı́a (y no se podrı́a volver con ninguno de ellos) y después se decidirı́a por el primero
que superara a esos a. ¿La pregunta es: Aquı́ se pueden hacer dos preguntas
Versión romántica. ¿Cómo debe ser a en relación con n, si se quiere maximizar la proba-
bilidad de quedarse con el mejor?
Versión práctica. ¿Cómo debe ser a en relación con n, si se quiere maximizar la esperanza
(el promedio)?
Solución. Para entender bien el problema, tomemos n = 9, digamos que todos los can-
didatos están ordenados del 1 al 9, siendo 9 el que habrı́a sido mejor, luego el 8, etc. Si se
determinara que a = 4 entonces, analicemos con cuál novio se quedarı́a uno en el caso de las
siguientes permutaciones de candidatos (que serı́a según van apareciendo como candidatos):
57
Para (4, 1, 5, 2, 3, 6, 8, 7, 9) la elección serı́a el 6.
A continuación se tiene una simulación hecha por computadora para n = 30 y diversos
valores de a de la versión romántica, es decir, de la probabiidad de escoger a n. La gráfica
muestra que a deberı́a ser entre 11 y 12.
La siguiente es la gráfica de la versión práctica, es decir, para n = 30 y diversos valores de

a se muestra la calificación promedio del novio elegido. El máximo aparece para a alrededor
de 5.
58
Trabajaremos aquı́ la versión romántica pues la otra es demasiado complicada.
Entonces veamos cuándo se elige al candidato n. Separemos en casos según la posición

de n. La probabilidad de que n esté en una posición determinada es n1 .
1
Si está en la posición a + 1 seguro será el seleccionado. Entonces esto contribuye en n
a
la probabilidad.
Si n está en la posición a + 2, entonces para que sea seleccionado se necesita que el que
quedó en la posición a + 1 no sea más grande que los a primeros, o, en otras palabras, que
el mejor de los a + 1 quede dentro de los a primeros, y la probabilidad de que eso ocurra es
a
a+1
a
. Esto contribuye en total n1 a+1 a la probabilidad.
Análogamente, si n está en la posición a + 3 se necesita que el mayor de los primeros
a
a + 2 quede en las primeras a posiciones y la probabilidad de esto es a+1 ; para un total de
1 a
n a+2
.
En total queda:
1a 1 a 1 a 1a
P (escoger al mejor) = + + + ... +
n a n a + 1 n a + 2 n
n
a 1 1 1 1
= + + + ... +
n a a+1 a+2 n
Ahora, suponiendo que n es grande y que en este caso a también lo es, la expresión es
aproximadamente igual a
a
(ln(n) − ln(a))
n
a n
= ln
n a
Como queremos maximizar la probabilidad, llamemos x = na . Ası́ queda

1
x ln
x
Derivando e igualando a 0 obtenemos lo que queremos:

0
1 1
x ln = ln −1
x x
Igualamos a 0 y despejamos x:
1
x= .
e
Para maximizar la probabilidad de quedarse con el/la mejor posible marido/mujer se deben
tener ne novios(as) antes de decidir donde n es el número esperado de novios(as) que podrı́a
59
uno tener antes de casarse. La probabilidad de obtenerlo será 1e . (Por ejemplo, si n = 9,
entonces la probabilidad de encontrar el mejor candidato como esposo se obtiene con a =
9
e
∼ 3 y si n = 30 entonces a = 30
e
∼ 11. ♦
4.25 Ejercicio. Probar que dada X : Ω → R variable aleatoria, pX es una función de

probabilidad en R (es decir, satisface (P1), (P2) y (P3)).
4.26 Ejercicio. En una caja hay 11 pelotas rojas, 9 pelotas azules y 5 pelotas blancas.
Si se extraen 4 pelotas de la caja, ¿cuántas pelotas blancas se espera que salgan?
4.27 Ejercicio. Dada una permutación (a1 , . . . , an ) de [n], para i ≥ 2 digamos que ai
es valle si ai es menor que ambos ai−1 y ai+1 . ¿Cuál es el valor esperado para el número de
valles de una permutación de [n]?
4.28 Ejercicio. En un torneo hay 6 equipos y cada uno juega una vez contra cada uno
de los demás equipos. Si todos los equipos tienen la misma probabilidad de ganar, al final
del torneo ¿cuántas veces se espera que haya tres equipos A, B, C tales A le ganó a B, B le
ganó a C y C le ganó a A? (Sugerencia: Calcular primero la probabilidad que tiene una terna
de vértices cualquiera de ser como las indicadas. Escribir la variable aleatoria que cuenta el
número de ternas dirigidas como suma de variables aleatorias indicadoras.)
4.29 Ejercicio. Dados Shippuden. Se tienen los siguientes dados.

El dado azul tiene números 1, 1, 1, 13, 13, 13.
El dado verde tiene números 0, 3, 3, 12, 12, 12.
El dado rojo tiene números 2, 2, 2, 11, 11, 14.
Probar que, con la notación de 4.23 se tiene que
A>V >R>A pero A + A < V + V < R + R < A + A,
entendiendo que, por ejemplo, A + A son todas las posibilidades de sumas de dos caras de
A, es decir A + A tiene las 62 = 15 combinaciones de sumas siguientes:
2, 2, 2, 14, 14, 14, 14, 14, 14, 14, 14, 14, 26, 26, 26.
4.30 Ejercicio. Sea Ω = {a, b, c, d} con P (a) = 0.2, P (b) = 0.4, P (c) = 0.1 y P (d) = 0.3.
Además X es la variable aleatoria definida por: X(a) = 2, X(b) = 5, X(c) = 10 y X(d) = −1.
Determinar pX (5), FX (5), E(X), E(X 2 ) y E(X)2 .
4.31 Ejercicio. En un costal hay 11 pelotas: 4 son azules, 5 son blancas y 2 son doradas.
Un jugador saca dos pelotas del costal al azar. Si son del mismo color pero no son doradas,
60
entonces gana $10; si salen 2 doradas gana $50. ¿Cuánto debe pagar si salen pelotas de
distinto color para que en promedio no gane ni pierda nada?
4.32 Ejercicio. En un juego se lanzan tres dados. Un jugador apuesta a cualquiera de

los números del 1 al 6 y gana 1 peso por cada vez que salga ese número en algún dado (ası́,
si sale 1 en los 3 dados, entonces gana 3 pesos), pero pierde un peso si no sale ninguna vez.
¿Cuál es su ganancia esperada en cada apuesta?
4.33 Ejercicio. Problema de Pascal de la apuesta interrumpida. Dos jugadores A y B

juegan el siguiente juego: Al azar se les reparten dos cartas: una de ellas está en blanco y
la otra tiene una marca. El ganador del juego es el primero que recibe la carta marcada 10
veces. Su premio consiste en 64 monedas. Sin embargo, el juego se ve interrumpido cuando
A ha recibido la carta marcada 8 veces y B 4 veces. ¿En qué proporción deberı́an repartirse
las 64 monedas para que el juego sea justo (dado que A está más cercano a ganar)?
4.3. Variables aleatorias independientes
Decimos que dos variables aleatorias X y Y en Ω son independientes si para todos a, b ∈ R

los sucesos X ≤ a y Y ≤ b son independientes, es decir,
P [X ≤ a y Y ≤ b] = P [X ≤ a] · P [Y ≤ b].
En espacios discretos (como los que hemos trabajado hasta el momento) la definición es
equivalente a:
P [X = a y Y = b] = P [X = a] · P [Y = b],
puesto que, por ejemplo,
P [X = a] = P [X ≤ a] − P [X ≤ a1 ],
para algún elemento a1 ∈ R.
4.34 Ejemplo. (a) Si X cuenta el número de águilas cuando lanzamos 5 monedas al

aire y Y cuenta el número de soles, entonces X y Y no son independientes.
(b) Si se lanzan 10 monedas al aire y X cuenta el número de águilas de las primeras 5
monedas y Y el número de soles que salen en las 5 últimas, entonces X y Y son indepen-
dientes.
De la misma manera que con eventos, la independencia de variables aleatorias es muy

sutil. No es lo mismo que 3 variables sean independientes a que sean independientes por
parejas. Además, puede ocurrir que dos variables no sean independientes, pero lo sean dada
una tercera.
61
4.35 Ejemplo. Sea Ω el espacio de humanos y consideremos las siguientes variables
aleatorias
Z(ω) = número de los zapatos que calza ω.
B(ω) = qué tan bien juega ω basquetbol.
A(ω) = la altura de ω.
Entonces es claro que Z y B no son independientes, pues los que usan zapatos más
grandes tienden a jugar mejor basquetbol por ser más altos. Sin embargo Z|A y B|A sı́ son
independientes.
4.36 Proposición. Si X y Y son variables aleatorias independientes (en el mismo espacio

Ω), entonces
E(XY ) = E(X) E(Y ).
Demostración. Simplemente hay que expandir lo que significa cada una de esas cosas.
P P
E(X) E(Y ) = ( ai P [X = ai ]) ( bj P [Y = bj ])
i j
P
= ai bj P [X = ai ] · P [Y = bj ]
i,j
P
= ai bj P [X = ai , Y = bj ]
i,j
= E(XY ). ♦
4.37 Nota. El recı́proco no es cierto, es decir, es posible que E(XY ) y E(X) E(Y ) sean
iguales a pesar de que X y Y no sean independientes (ver 6.13). Se define la covarianza de
X y Y como
Cov(X, Y ) = E(XY ) − E(X) E(Y ).
Más adelante veremos el significado de esto (ver 6).
62
5. Varianza y Desviación Estándar
5.1. Varianza
La esperanza de una variable aleatoria nos dice el promedio de todos los valores (tomados
con repetición). Sin embargo esta información puede ser muy incompleta. Por ejemplo, no es
lo mismo que las calificaciones de un grupo de alumnos sean todas de 5, a que la mitad de
los alumnos tengan 10 de calificación y la otra mitad tengan 0. La varianza será una medida
para expresar qué tan alejados de su esperanza están los valores.
Un intento para medir qué tanto se alejan los valores que toma X de su propio promedio
µ := E(X), serı́a tomar la esperanza de X − µ, es decir E(X − M ), donde M es la variable
aleatoria constante con valor µ. Sin embargo, por 4.15, esta esperanza es 0, ası́ que no
tendrı́amos información. Consideramos, en su lugar, la esperanza de (X − µ)2 para evitar
que se cancelen valores positivos con negativos y, como “elevar al cuadrado” es una función
creciente en los números positivos, ésta se puede considerar una buena medida de lo que
queremos.
Entonces definimos la varianza o segundo momento de una variable aleatoria X : Ω → R

como
Var(X) := E (X − µ)2 ,

donde µ = E(X).
5.1 Observación. Sean Ω = {ω1 , . . . , ωn } un espacio muestral con n elementos con

P (ai ) = pi para cada i. Si X es la variable aleatoria definida por X(ωi ) = ai para cada i y
E(X) = µ, entonces
Var(X) = p1 (a1 − µ)2 + · · · + pn (an − µ)2 .
En el caso en que Ω sea equiprobable tendremos
(a1 − µ)2 + · · · + (an − µ)2

Var(X) = .
n
5.2 Ejemplo. Determinar la varianza si la mitad de los alumnos de un grupo tienen
calificación de 10 y la otra mitad tienen 0, y compararla con otras distribuciones similares.
Solución. Si todos tienen calificación de 5, la varianza es 0, mientras que si las calificaciones
son 0 y 10, la varianza es
1 1
(10 − 5)2 + (0 − 5)2 = 25.
2 2
63
La escala se ha cambiado al elevar al cuadrado pero mide qué tanto se alejan las calificaciones
del promedio. Tenemos también los siguientes casos:
Si la mitad de las calificaciones son 6 y la otra mitad son 4, entonces la varianza es:
1 1
(6 − 5)2 + (4 − 5)2 = 1.
2 2
Cuando la mitad de las calificaciones son 7 y la otra mitad son 3, la varianza es
1 1
(7 − 5)2 + (3 − 5)2 = 4.
2 2
5.3 Ejemplo. Supongamos que Ω = {a, b, c} y que P (a) = 12 , P (b) = 13 y P (c) = 16 .

Digamos que X es la variable aleatoria definida por X(a) = 3, X(b) = 4 y X(c) = 7. ¿Cuál
es la varianza?
Solución. Tenemos que
3 4 7
E(X) = + + = 4.
2 3 6
Ası́ µ = 4, y si Y = X − µ, entonces
Y 2 (a) = (X(a) − µ)2 = (3 − 4)2 = 1,

Y 2 (b) = 02 = 0,
Y 2 (c) = 32 = 9,
de donde
1 1 1
Var(X) = E((X − µ)2 ) = 1 + 0 + 9 = 2. ♦
2 3 6
5.4 Proposición. Si X es una variable aleatoria, entonces
Var(X) = E(X 2 ) − E(X)2 .
Demostración. Sea µ = E(X). Entonces
Var(X) = E ((X − µ)2 )

= E(X 2 − 2Xµ + µ2 )
= E(X 2 ) − 2µ2 + µ2
= E(X 2 ) − µ2 . ♦
Usualmente es más sencillo utilizar 5.4 para calcular varianza.
Recordemos (ver 4.37) que se define la covarianza de X y Y como
Cov(X, Y ) = E(XY ) − E(X) E(Y ).
64
5.5 Proposición. Sean X y Y variables aleatorias en un espacio Ω y sea c una constante.
Entonces
(a) Var(c) = 0.
(b) Var(cX) = c2 Var(X).
(c) Var(X + Y ) = Var(X) + Var(Y ) + 2 Cov(X, Y ).
Demostración. (a) Es claro.

(b) Var(cX) = E ((cX)2 ) − (E(cX))2
= E(c2 X 2 ) − (cE(X))2
= c2 (E(X 2 ) − E(X)2 )
= c2 Var(X).
(c) Var(X + Y ) = E ((X + Y )2 ) − E(X + Y )2
= E (X 2 + Y 2 + 2XY ) − (E(X) + E(Y ))2
= E(X 2 ) + E(Y 2 ) + 2 E(XY )
−E(X)2 − E(Y )2 − 2E(X)E(Y )
= Var(X) + Var(Y ) + 2 (E(XY ) − E(X)E(Y ))
= Var(X) + Var(Y ) + 2 Cov(X, Y ). ♦
5.6 Corolario. Si X y Y son variables aleatorias independientes, entonces

Var(X + Y ) = Var(X) + Var(Y ).
En particular, si c ∈ R,
Var(X + c) = Var(X). ♦
5.2. Desviación Estándar
Hemos visto que si multiplicamos una variable aleatoria por una constante, la varianza
se multiplica por la constante al cuadrado. Esto no nos gusta. Por ejemplo, si una variable
65
aleatoria está medida en centı́metros y tiene cierta varianza, al medirla en pulgadas su
varianza se multiplica por ∼ 2.542 . Nos gustarı́a una medida que si todo se multiplica por
una constante, esa medida se multiplique por esa misma constante. La solución a esto es
considerar la raı́z cuadrada de la varianza. Esto nos lleva a la siguiente definición.
Dada una variable aleatoria X, la desviación estándar se define como

p p
σ(X) := Var(X) = E(X 2 ) − E(X)2 .
5.7 Ejemplo. Encontrar la desviación estándar de la variable aleatoria de 5.3.

√
Solución. Ya tenı́amos que la varianza era 2, ası́ que σ(X) = 2 ∼ 1.41. ♦
5.8 Ejemplo. Encontrar la desviación estándar de las diferentes variables aleatorias de

5.2.
Solución.
Si todos tienen calificación de 5, σ = 0.
Si las calificaciones son 0 y 10, σ = 5.
Si la mitad de las calificaciones es de 6 y la otra mitad es 4, entonces σ = 1.
Cuando la mitad de las calificaciones es de 7 y la otra mitad es de 3, la desviación estándar
es de 2. ♦
5.9 Ejemplo. Se lanza una moneda 10 veces y se cuenta el número de águilas. ¿Cuál
es la probabilidad de quedar dentro de una desviación estándar del promedio (es decir, la
probabilidad de que la variable aleatoria quede a distancia de a lo más 1 de la desviación
estándar)?
Solución. Sabemos que el promedio es de 5 águilas y
Var(X) = E(X 2 ) − E(X)2
1 10
10
10
5
= 0
· 02 + 1
· 12 + · · · + 10
· 102 − 52 = .
210 2
√ √ √
Entonces σ(X) = √52 < 2. Queremos la probabilidad de que 5 − √52 < X < 5 + √32 . Como X
toma sólo valores enteros, buscamos la probabilidad de que X sea 4, 5 o 6; ésta es

1 10 10 10
+ + ∼ 0.656. ♦
210 4 5 6
Después veremos que para este tipo de distribuciones, la probabilidad de quedar a menos
de una desviación estándar del promedio es ∼ 32 (ver 8.4).
66
5.10 Ejemplo. Supongamos que tiramos dos dados. Sea X la variable aleatoria que
representa la suma de los dos dados. Encontrar la desviación estándar y la probabilidad de
quedar a lo más a una desviación estándar del promedio.
p
Solución. Tenemos que σ(X) = E(X 2 ) − E(X)2 y que E(X) = 7. Usemos la linealidad
de la esperanza para calcular E(X 2 ): Supongamos que A y B son las variables aleatorias
que denotan el primer dado y el segundo dado, respectivamente. Ası́, X = A + B, de donde
X 2 = A2 + 2AB + B 2 . Entonces
E(X 2 ) = E(A2 ) + 2E(AB) + E(B 2 )

2
1 + 22 + · · · + 62 1 · 1 + 1 · 2 + 1 · 3 + · · · + 5 · 6 + 6 · 6

= 2 +
6 36

91 (1 + 2 + 3 + · · · + 6)(1 + 2 + 3 + · · · + 6)
= 2 +
6 36
2

91 21
= 2 + ∼ 54.83.
6 36
√ √
Ası́, σ(X) ∼ 54.83 − 49 = 5.83 ∼ 2.41. La probabilidad de quedar a lo más a distancia
de 2.41 del promedio (que es 7) es
P [7 − 2.41 ≤ X ≤ 7 + 2.41] = P [X ∈ {5, 6, 7, 8, 9}]
4+5+6+5+4 24 2
= = = .♦
36 36 3
De 5.5 tenemos el siguiente corolario.
5.11 Corolario. Sean X y Y variables aleatorias en un espacio Ω y sea c una constante.

Entonces
(a) σ(cX) = |c| σ(X).
(b) σ(X + c) = σ(X). ♦
67
6. Covarianza y Correlación
La covarianza y la correlación miden qué tanto se parecen dos variables aleatorias X y

Y . Ya arriba nos ha aparecido este tipo de relación, la cual formalizamos en este momento
(ver 4.37 y 5.5).
Dadas dos variables aleatorias X y Y en el mismo espacio, definimos la covarianza por:
Cov(X, Y ) = E(XY ) − E(X)E(Y ).
La correlación entre X y Y es:
Cov(X, Y )
Corr(X, Y ) :=
σ(X)σ(Y )
La correlación simplemente es la covarianza “normalizada” (es decir, multiplicada para que

sus valores estén entre -1 y 1).
6.1 Nota. De manera similar a la definición que dimos de varianza (ver 5.1), tenemos
que si Ω es un espacio equiprobable con n elementos ω1 , . . . , ωn , y X y Y son variables
aleatorias definidas en Ω de manera que E(X) = µX , E(Y ) = µY , σ(X) = σX , σ(Y ) = σY ,
y para cada i, X(ωi ) = xi y Y (ωi ) = yi , entonces
Cov(X, Y ) = E(XY ) − E(X)E(Y ) = E[(X − E(X))(Y − E(Y ))]
(x1 − µX )(y1 − µY ) + · · · + (xn − µX )(yn − µY )

=
n

x 1 y 1 + x2 y 2 + · · · + xn y n x1 + x2 + · · · + xn y1 + y2 + · · · + yn
= − y
n n n

Cov(X, Y ) 1P n xi − µ X yi − µY
Corr(X, Y ) = = .
σ(X)σ(Y ) n i=1 σX σY
6.2 Observación. (a) Cov(X, X) = E(X 2 ) − E(X)2 = Var(X) y Corr(X, X) = 1.

(b) Si X y Y son independientes, Cov(X, Y ) = 0 = Corr(X, Y ).
6.3 Ejemplo. Supongamos que Ω = {a, b} y P (a) = 0.3. Digamos que X y Y son
variables aleatorias definidas por X(a) = 1 y X(b) = 5, Y (a) = 2 y Y (b) = 3. ¿Cuánto valen
Cov(X, Y ) y Corr(X, Y )?
68
Solución.
E(X) = 1 × 0.3 + 5 × 0.7 = 3.8,
E(Y ) = 2 × 0.3 + 3 × 0.7 = 2.7,
E(XY ) = 2 × 0.3 + 15 × 0.7 = 11.1,
Cov(X, Y ) = 11.1 − 2.7 × 3.8 = 0.84.
E(X 2 ) = 1 × 0.3 + 25 × 0.7 = 17.8,
E(Y 2 ) = 4 × 0.3 + 9 × 0.7√= 7.5,
√ √
− 2 = −
σ(X) = √ 17.8 3.8 √ 17.8 14.4√ 3.36 ∼ 1.83,
∼
σ(Y ) = 2
7.5 − 2.7 = 7.5 − 7.3 ∼ 0.21 ∼ 0.46,
0.84
Corr(X, Y ) = ∼ 1. ♦
1.83 × 0.46
De hecho, la correlación en el ejemplo anterior es exactamente 1. La razón, como veremos

más adelante, es que calcular correlación es bilineal, es decir si c y d son constantes y c 6= 0
entonces Corr(X, cY +d) = Corr(X, Y ) (ver 6.11) y es fácil ver que cualesquiera dos variables
aleatorias en un espacio de dos elementos están en relación lineal una de otra pues basta
resolver un sistema de dos ecuaciones lineales con dos incógnitas, como en el ejemplo anterior
en que el sistema de ecuaciones serı́a:
1c + d = 2,
5c + d = 3,
que tiene solución c = 41 , d = 74 .
Enunciaremos algunas propiedades de la correlación; no las demostraremos por ser muy

técnicas. Sin embargo, conviene hacer un paréntesis para entender el significado de la expre-
sión E(XY ) − E(X)E(Y ). Empecemos por analizar el siguiente ejemplo.
6.4 Ejemplo. ¿Cuál de las siguientes dos posibilidades es más conveniente?

∗ Obtener $5 pesos en cada uno de 3 dı́as y $10 pesos en cada uno de 4 dı́as.
∗ Obtener $5 pesos en cada uno de 4 dı́as y $10 pesos en cada uno de 3 dı́as?
Solución. En el primer caso el resultado es 5 · 3 + 10 · 4 = 55. En el segundo caso,

5 · 4 + 10 · 3 = 60. ♦
El resultado del ejemplo anterior es muy natural: la mayor suma de los productos se
obtiene juntando los números más grandes entre sı́. La siguiente desigualdad nos expresa
esto mismo con n números.
6.5 Proposición. Desigualdad del reacomodo. Sean (a1 , a2 , . . . , an ) y (b1 , b2 , . . . , bn ) su-

cesiones de números reales escritas en orden creciente, es decir a1 ≤ a2 ≤ · · · ≤ an y
69
b1 ≤ b2 ≤ · · · ≤ bn . Entonces para cualquier permutación τ de [n] se tiene que
a1 bτ (1) + a2 bτ (2) + · · · + an bτ (n) ≤ a1 b1 + a2 b2 + · · · + an bn .
Demostración. Sean 1 ≤ r < s ≤ n, y consideremos las siguientes dos expresiones en las

que únicamente se han intercambiado br y bs :
S = a1 b1 + · · · ar br + · · · + as bs + · · · + an bn .
T = a1 b1 + · · · ar bs + · · · + as br + · · · + an bn .
Bastará probar que S ≥ T pues el proceso se puede repetir. Ası́ tenemos
S − T = (ar br + as bs ) − (ar bs + as br ) = (as − ar )(bs − br ) ≥ 0. ♦
Ahora regresemos al análisis de la expresión E(XY )−E(X)E(Y ). Las variables aleatorias

X y Y están definidas en el mismo espacio muestral Ω; es decir el peso que tiene cada
subconjunto de Ω es el mismo en ambas variables, ası́ que, de acuerdo a la desigualdad del
reacomodo, mientras más se parecen X y Y en cuando al orden de tamaño de sus valores,,
el valor de E(XY ) es mayor; por otro lado, el producto E(X)E(Y ) es independiente de si
las variables se mueven juntas o no.
Tenemos las siguientes propiedades.
6.6 Proposición. (a) Si X y Y son variables aleatorias independientes, entonces su

correlación es 0; sin embargo no es cierto el recı́proco (ver 6.13).
(b) La correlación no está definida si una de las variables es constante pues σ(c) = 0. En
este caso usualmente decimos simplemente que Corr(X, c) = 0, pues X y c son independien-
tes.
(c) Los valores de la correlación siempre están entre -1 y 1. Para probar esto necesi-
tarı́amos técnicas que se salen del propósito de estas notas.
(d) La correlación entre dos variables X y Y es 1 o −1, si, y sólo si, están en relación lineal
(es decir, existen c y d constantes con c 6= 0 tales que Y = cX + d). Esto será consecuencia
de 6.11. En este caso, si se grafica la variable Y con respecto a la variable X, se obtiene una
recta (con pendiente c). La correlación es 1, si y sólo si, c > 0.
(e) La correlación entre dos variables es positiva si, y sólo si, las variables tienden a
crecer o decrecer juntas; es negativa si, y sólo si, las variables tienden a crecer o decrecer
inversamente. ♦
Veamos algunos ejemplos de manera intuitiva.
6.7 Ejemplo. (a) La temperatura de mañana y la cantidad de helados vendidos mañana
70
están correlacionadas (es decir, la correlación entre las variables aleatorias correspondientes
es positiva).
(b) La cantidad de comida que como esta semana y mi peso la próxima están correlacio-
nadas.
(c) La cantidad de papel que se usa hoy en el mundo y mi peso mañana no están corre-
lacionadas.
6.8 Nota. Correlación y causalidad son cosas distintas. Correlación no necesariamente

implica causalidad; correlación (positiva) simplemente significa que dos cosas tienden a crecer
juntas; causalidad significa que si artificialmente se cambia una de las variables, la otra
también cambia.
Ejemplos de sucesos correlacionados pero que ninguno causa el otro son los siguientes.
Servir dulces en fiesta de niños y que los niños estén hiperactivos.
Tener frı́o y enfermarse de gripe. (¡Es verdad! Es uno de los mitos más extendidos en
nuestra cultura: es falso que mojarse o salir al frı́o hará que nos enfermemos. Lo que sı́ es
cierto es que ciertas condiciones invernales promueven el desarrollo de los virus de la gripe.)
6.9 Ejercicio. Inventar más ejemplos (intuitivos) de sucesos que tengan correlación 1,
correlación positiva (no 1), correlación 0, correlación −1 y correlación negativa (no −1).
6.10 Ejercicio. Determinar si las siguienes parejas de eventos están correlacionados; en

ese caso decir si la correlación es positiva o negativa. También decir si hay causalidad y, en
ese caso, decir cuál es causa del otro.
Comer helados y ahogarse en una alberca.
Consumo de vino tinto y tener piel blanca.
Longevidad y fumar.
Cantidad de agua que toma un estudiante y su desempeño académico.
Tener más edad y saber más cosas.
6.11 Proposición. Si c y d son reales (c 6= 0) y X y Y son variables aleatorias en Ω,

entonces
Corr(X, Y ), si c > 0,
Corr(cX + d, Y ) =
−Corr(X, Y ), si c < 0.
71
Demostración. Vamos a usar 5.11
E((cX + d)Y ) − E(cX + d)E(Y )
Corr(cX + d, Y ) =
σ(cX + d)σ(Y )
cE(XY ) + dE(Y ) − cE(X)E(Y ) − dE(Y )

=
|c|σ(X)σ(Y )
cE(XY ) − cE(X)E(Y )
=
|c|σ(X)σ(Y )
= ±Corr(X, Y ). ♦
6.12 Ejemplo. Supongamos que se lanza un dado 3 veces, que X es la suma de los
dos primeros resultados, y que Y es la suma de los dos segundos. Calcular covarianza y
correlación de X y Y .
Solución. Tenemos que E(X) = 7 = E(Y ). Digamos que (A, B, C) es el resultado del
lanzamiento de los tres dados. Entonces
XY (A, B, C) = (A + B)(B + C) = AB + AC + B 2 + BC,
de donde, viendo A, B y C como variables aleatorias y usando la linealidad de la esperanza,
E(XY ) = E(B 2 ) + E(AB) + E(AC) + E(BC).
Ahora,
12 + 22 + 32 + 42 + 52 + 62 91
E(B 2 ) = = ,
6 6
1 · 1 + 1 · 2 + 1 · 3 + ··· + 5 · 6 + 6 · 6 212
E(BA) = E(BC) = E(AC) = = ,
36 36
Ası́
91 212
+3·
Cov(X, Y ) = − 7 · 7 ∼ 2.92.
6 36
También sabemos que σ(X) = 2.41 = σ(Y ) (ver 5.10), de donde
2.92
Corr(X, Y ) ∼ ∼ 0.5. ♦
5.83
Observamos en el ejemplo anterior que la correlación es .5, es decir, X y Y están media-

namente relacionadas, lo cual tiene mucho sentido pues la mitad de una (el valor de B) es
el mismo en ambas.
Puede ser que dos variables aleatorias no tengan correlación (es decir, su correlación sea
0) pero no sean independientes. El siguiente ejercicio es un ejemplo de esto.
72
6.13 Ejercicio. Sean X, Y y Z definidas en Ω = {a, b, c, d} como sigue:
X(a) = X(b) = 0 y X(c) = 1 = X(d).
Y (a) = −1 = Y (c) y Y (b) = 1 = Y (d).
Z = XY .
Probar que X y Z son dependientes, pero que Corr(X, Z) = 0.
6.14 Ejercicio. Sea Ω) = {a, b, c}. digamos que P (a) = 0.6, P (b) = 0.3 y P (c) = 0.1.
Sean X(a) = 1, X(b) = 2 y X(c) = 3. Sean U , V , W , Y y Z las variables aleatorias definidas
en Ω de acuerdo a la tabla siguiente:
a b c
U 2 2 3
V 1 4 3
W 1 2 6
Y 3 2 1
Z 3 2 3
H 10 1 10
Calcular la desviación estándar de cada una y la correlación de cada una con X. Analizar lo
encontrado. (Sugerencia: Hacer un programa que haga los cálculos.)
6.15 Ejercicio. Un pediatra hace un estudio de cómo ha variado el peso de un paciente

los primeros años de vida. Tiene los siguientes datos:
edad en años peso en Kg altura en cm

1 10 75
2 12 90
3 15 100
4 16 105
5 17 110
¿Cuál es la correlación entre el peso y la altura del niño?

Cambiar el peso del niño a los 5 años por 20 Kg y analizar cómo cambia la correlación.
6.16 Ejercicio. Sean X y Y dos variables aleatorias en el mismo espacio muestral, tales
que X = Y1 . Probar que si X(ω) > 0 para todo ω ∈ Ω entonces Cov(X, Y ) ≤ 1.
73
7. Probabilidad Continua
Hasta ahora hemos estado viendo probabilidad en donde el espacio muestral es finito,
o discreto. En probabilidad discreta, la probabilidad de cada elemento determina la proba-
bilidad de cualquier evento. Sin embargo, en probabilidad continua, aunque cada elemento
tenga probabilidad 0, es posible que varios elementos de Ω juntos tengan probabilidad po-
sitiva. Entonces lo importante es la probabilidad de los eventos. Sin embargo, no cualquier
subconjunto puede ser un evento pues en general hay demasiados subconjuntos y se tienen
que cumplir ciertas propiedades para poder tener una función de probabilidad.
Empecemos analizando de manera intuitiva algunos ejemplos en los que el espacio mues-
tral Ω es un subconjunto del plano R2 y donde pensamos que la probabilidad se calcula
tomando en cuenta el área de cada evento en relación del área de Ω.
7.1 Ejemplo. Supongamos que Ω = [0, 1] y que escogemos un punto aleatorio de Ω.

(a) ¿Cuál es la probabilidad de que ese punto sea 1/π?
(b) ¿Cuál es la probabilidad de que ese punto escogido sea menor a 0.4?
(c) ¿Cuál es la probabilidad de que ese punto escogido sea ≥ 0.7?
Solución.
(a) P ({ π1 }) = 0.
(b) P ([0, 0.4)) = 0.4.
(c) P ([0.7, 1]) = 0.3.
Observamos que no importa si los intervalos son cerrados o abiertos. ♦
7.2 Ejemplo. Escogemos un punto al azar en Ω = [0, 2]. ¿Cuál es la probabilidad de

que el número elegido esté entre 0.3 y 0.46?
Solución. Hay que ver la medida de [0.3, 0.46] con respecto a la medida de [0, 2], ası́ que
la respuesta es
0.46 − 0.3
P ([0.3, 0.46]) = = 0.08. ♦
2
7.3 Ejemplo. Supongamos que Ω = [1, 8]. Si escogemos un número al azar, ¿cuál es la
probabilidad de que el número sea menor a 5?
Solución. Básicamente queremos P ([1, 5]). Pero ahora la medida “total” es de 8 − 1 = 7,
ası́ que la respuesta es
4
P ([1, 5]) = . ♦
7
74
7.4 Ejemplo. Dentro del siguiente cuadrado escogemos un punto al azar. ¿Cuál es la
probabilidad de que caiga en el área sombreada?
Solución. El área sombreada es la mitad del área total, ası́ que la probabilidad es 21 . ♦
Sea Ω un espacio muestral y sea 2Ω el conjunto de todos los subconjuntos de Ω. Hay

razones técnicas que impiden definir la probabilidad en todos los subconjuntos, ası́ que
la función de probabilidad sólo queda definida para algunos de ellos a los que llamamos
subconjuntos medibles. Entonces los eventos o sucesos en el caso de probabilidad continua
serán los subconjuntos medibles. Al conjunto de todos los eventos lo denotamos por Σ. Este
subconjunto Σ de Ω resulta ser una σ-álgebra, es decir, Σ satisface:
Ω ∈ Σ.
Si S ∈ Σ, entonces Ω \ S ∈ Σ.
Si S1 , S2 , . . . ∈ Σ, entonces S1 ∪ S2 ∪ · · · ∈ Σ.
7.5 Nota. Se puede deducir que si Σ es σ-álgebra y S1 , S2 , . . . ∈ Σ, entonces
S1 ∩ S2 ∩ · · · ∈ Σ.
Un espacio de probabilidad consta de un conjunto Ω, una σ-álgebra Σ ⊂ 2Ω y una función

de probabilidad P : Σ → [0, 1] que satisface:
P (Ω) = 1.
P
Si S1 , S2 , . . . son ajenos por parejas, entonces P (S1 ∪ S2 ∪ · · · ) = i P (Si ).
Al igual que lo hicimos en 3.31, tenemos que
P (∅) = 0.
S ⊂ T con S, T ∈ Σ, entonces P (S) ≤ P (T ).
Si S ∈ Σ, entonces P (Ω \ S) = 1 − P (S).
Se cumple inclusión-exclusión, por ejemplo, P (S ∪ T ) = P (S) + P (T ) − P (S ∩ T ).
Algunos de los conceptos que hemos visto en probabilidad discreta se traducen exacta-
mente a probabilidad continua. Para otros tendremos que hacer una adaptación. En general
75
habrá que cambiar sumas por integrales, pues la integral es la forma de sumar infinitamente
(cuando esto es posible). Veamos aquı́ las traducciones correspondientes.
Si S y T son dos eventos tales que P (T ) 6= 0, la probabilidad condicional de S dado T

se define por
P (S ∩ T )
P (S|T ) = .
P (T )
Los resultados 3.52 y 3.57 siguen siendo ciertos. Dos eventos S y T son independientes si
P (S|T ) = P (S)
o, equivalentemente, si
P (S ∩ T ) = P (S)P (T ).
Para más de dos eventos se define la independencia igual que en probabilidad discreta.
Para definir variable aleatoria hay que hacer un pequeño cambio pues no puede ser
cualquier función. Una variable aleatoria es una función medible X : Ω → R, es decir, una
función tal que P [a ≤ X ≤ b] está definida para cualesquiera reales a ≤ b (y también con
intervalos abiertos, semiabiertos, rayos, etc.)
Al igual que en probabilidad discreta, dada una variable aleatoria X, su distribución

cumulativa, FX : R → [0, 1], es la función definida por
FX (a) := P [X ≤ a].
Se tiene que FX es una función creciente, que tiende a 0 cuando a → −∞ y que tiende a 1
cuando a → ∞.
7.6 Ejemplo. Supongamos que Ω es el cuadro de 1 × 1 con la esquina inferior izquierda

en el origen, y sea Z la variable aleatoria que al punto de coordenadas (x, y) le asocia el
número x + y. Encontrar FZ (1).
Solución. Tenemos que FZ (1) = P [Z ≤ 1] = P [x + y ≤ 1]. Debemos entonces considerar
cuáles son los puntos del cuadro en donde x + y ≤ 1:
76
Ası́, FZ (1) = 21 . ♦
7.7 Nota. Más precisamente, en el ejemplo anterior podemos ver que FZ está definida
por: 
 0, si t ≤ 0,
2

 t ,


si 0 ≤ t ≤ 1,

FZ (t) = 2 2
t
− + 2t − 1, si 1 ≤ t ≤ 2,



 2


1, si t ≥ 2.
La gráfica de FZ es la siguiente.
Observamos, como ya sabı́amos, que la función es creciente.
7.8 Ejemplo. Supongamos que Ω es el cı́rculo de radio 1 centrado en el origen. Sea W

la variable aleatoria tal que W (x, y) = x. Encontrar FW (0.5).
Solución. FW (0.5) = P [W ≤ 0.5] = P [x ≤ 0.5].
77
Entonces
2
Z 0.5 √
FW (0.5) = 1 − x2 dx. ♦
π −1
7.9 Nota. Se puede ver que la gráfica de FW del ejemplo anterior es la siguiente:
Por otro lado, notemos que si Ω es un espacio discreto, la gráfica de la función cumulativa
es escalonada.
Recordemos que si Ω es un espacio muestral discreto y X es variable aleatoria en Ω,

entonces la densidad de X es la función pX : R → [0, 1] definida por pX (a) = P [X = a].
Es claro que aquı́ tiene que haber un cambio grande en la definición. Recordemos que en
probabilidad discreta X
pX (ti ) = FX (a),
ti ≤a
donde los ti son los posibles valores que puede tomar X.
Traducimos esta propiedad a probabilidad continua cambiando suma por integral y, aten-
diendo a la costumbre, escribimos fX en lugar de pX . Ası́ tenemos que la función densidad,
fX , debe satisfacer: Z a
fX (t) dt = FX (a),
−∞
78
de manera que, por el Teorema Fundamental del Cálculo, fX (a) = FX0 (a). Veamos el caso
del ejemplo en el cı́rculo.
7.10 Ejemplo. En 7.8, calcular

P [a ≤ W ≤ b]
lim ,
b→a b−a
es decir, calcular cómo varı́a la distribución en a en relación a la variación alrededor de a.
Solución. Observemos que
Z b√
2
FW (b) − FW (a) = 1 − x2 dx.
π a
Al dividir entre b − a (es decir, la longitud del intervalo [a, b]) y hacer tender b a a,
obtenemos
√ la derivada de FW evaluada en a que es, por el teorema fundamental del Cálculo,
2 2
π
1−a . ♦
En resumen, si X es una variable aleatoria, definimos la densidad de X, también llamada

función de masa, como la función fX : R → R dada por
fX (a) = FX0 (a).
Básicamente, fX dice que, aunque la probabilidad de obtener un determinado número

sea 0, hay números más probables que otros. Por ejemplo, una gráfica de densidad podrı́a
verse como se muestra en la figura a continuación.
Donde es más alta es porque es más probable que ese valor (valores cercanos a él) salgan.
En el caso del ejemplo en el cı́rculo, la gráfica de la densidad es, precisamente, la de un
semicı́rculo (más cerca del centro del cı́rculo el área de una franjita vertical es mayor que
lejos del centro del cı́rculo).
79
7.11 Corolario. Si la densidad de una variable aleatoria X es fX y S ⊂ R, entonces
Z
P [X ∈ S] = fX . ♦
S
Rb
Por ejemplo, tenemos que P [X ∈ [a, b]] = P [a ≤ X ≤ b] = a
fX . Claro,
Z b
fX = FX (b) − FX (a).
a
7.12 Corolario. Supongamos que X es una variable aleatoria. Entonces la densidad fX

satisface
(a) fX (t) ≥ 0 para toda t ∈ R.
R∞
(b) −∞ fX = 1.
Demostración. (a) Esto es porque FX es creciente.

R∞
(b) −∞ fX = P [−∞ < X < ∞] = 1. ♦
7.13 Ejemplo. Supongamos que X es una variable aleatoria y que su distribución cu-
mulativa está definida ası́: (
0, si t < 0,
FX (t) = −t
1 − e , si t ≥ 0.
Revisar por qué ésta es una posible distribución cumulativa y determinar la densidad de X.
Solución. Es claro que es función de distribución pues es creciente, lim FX (t) = 0 y

t→−∞
lim FX (t) = 1. Para calcular la densidad, sólo hay que derivar FX :
t→∞
(
0, si t < 0,
fX (t) = FX0 (t) = −t
e , si t ≥ 0.
Se ven ası́:
80
7.1. Esperanza continua
Recordemos que la esperanza de una variable aleatoria discreta X es

X
E(X) = t · pX (t).
t∈Im(X)
En el caso continuo no podemos tomar la suma sobre los valores que toma X porque hay
una infinidad (no discreta) de ellos. Aquı́ también cambiamos suma por integral.
Sea X una variable aleatoria. Definimos su esperanza, E(X), por

Z ∞
E(X) := t · fX (t) dt.
−∞
7.14 Ejemplo. Calcular la esperanza de la variable aleatoria Z de 7.6.
Solución. La función densidad fZ se obtiene derivando FZ , ası́ que



 0, si t < 0,
t, si 0 < t < 1,

fZ (t) =

 −t + 2, si 1 < t < 2,
0, si t > 2.

Entonces
1 2
t3 1 −t3
Z Z
2
2 2 2
E(Z) = t dt + (−t + 2t) dt = + + t = 1,
0 1 3 0 3 1
lo cual es natural pues es el promedio de los valores de la suma de coordenadas (x, y) en el

cuadrado con diagonal que va del punto (0, 0) al punto (1, 1). ♦
81
7.15 Ejemplo. Calcular la esperanza de la variable aleatoria W de 7.8.
Solución. Como la función densidad está dada por



 0, si t ≤ −1,


 √

2
fW (t) = 1 − t2 , si − 1 ≤ t ≤ 1,


 π


si t ≥ 1,

0,
entonces
2 1 √ −1 p
Z 1
E(W ) = 2
t 1 − t dt = 3
(1 − t) = 0,

π −1 π −1
lo cual es natural pues la variable aleatoria W calcula la proyección de puntos del cı́rculo
cuyo diámetro es [−1, 1] × {0}. ♦
7.16 Ejemplo. Sea X la variable aleatoria cuya distribución cumulativa es


0, si t < 0,

FX (t) = t, si 0 ≤ t ≤ 1,

1, si t ≥ 1.

Calcular su esperanza.
Solución. Primero debemos calcular su densidad.


0, si t < 0,

fX (t) = 1, si 0 ≤ t ≤ 1, .

0, si t ≥ t.

Entonces
1
t2 1
Z
1
E(X) = t dt = = .
0 2 0 2
En este ejemplo no conocemos el espacio Ω ni la variable aleatoria en él; sin embargo, dado
que la densidad es constante, la medida es uniforme, ası́ que podemos pensar que Ω = [0, 1]
con la medida usual de R, y definir la variable aleatoria X : [0, 1] → R por X(ω) = ω.
Efectivamente, P [X ≤ t] = FX (t) y ahora es claro que el promedio de los valores de X es
1
.♦
2
7.17 Nota. Cuando decimos que vamos a tomar un punto al azar en un conjunto Ω,
se sobreentiende que el espacio es equiprobable. Si Ω ⊂ R, podemos pensar que la variable
aleatoria asociada X está definida por X(ω) = ω para todo ω ∈ Ω. La función de densidad
y la distribución cumulativa son precisamente las del ejemplo anterior, 7.16 para Ω = [0, 1].
82
7.18 Ejemplo. Calcular la esperanza de la variable aleatoria X de 7.13.
Solución. Vimos que la función densidad está definida por

(
0, si t < 0,
fX (t) = −t
e , si t ≥ 0.
Entonces, usando integración por partes con
u = t, du = 1 dt,
dv = e−t dt, v = −e−t ,
tenemos
Z ∞
te−t dt = lim −te−t − e−t − −te−t − e−t = 0 + 1 = 1.

E(X) =
0 t→∞ 0
En este ejemplo tampoco conocemos el espacio Ω ni la variable aleatoria en él. Aquı́ podemos
pensar que Ω = [0, ∞) y definir la variable aleatoria por X(ω) = ω; sin embargo hay que
tener cuidado pues la probabilidad en Ω no es la medida usual sino que, por ejemplo,
1
P [0, ln(2)] = FX (ln(2)) − FX (0) = 6= ln(2)). ♦
2
7.19 Proposición. Sea g : R → R una función continua cualquiera y sea X una variable
aleatoria. Entonces Z ∞
E(g(X)) = g(t) · fX (t) dt.
−∞
Demostración. Es claro de la definición. ♦
El resultado 7.19 es muy útil. A veces se le llama la ley del estadista inconsciente.
7.20 Ejemplo. Se escoge un número al azar entre 0 y 1 y luego se eleva al cuadrado.

En promedio, ¿cuánto es el resultado?
Solución. Se pregunta por E(X 2 ), donde X es la variable aleatoria de 7.16, es decir, X

está definida por X(t) = t para t ∈ [0, 1]. Entonces
Z ∞ Z 1
2 2 2 t3 1 1
E(X ) = t · fX (t) dt = t dt = = . ♦
−∞ 0 3 0 3
83
7.2. Varianza, Correlación, Covarianza
Sean X y Y variables aleatorias. Al igual que en el caso discreto definimos la varianza de

X por
Var(X) = E(X 2 ) − E(X)2 ,
la desviación estándar de X por
p
σ(X) = Var(X),
la covarianza de X y Y por
Cov(X, Y ) = E(XY ) − E(X)E(Y ),
y la correlación entre X y Y por
Cov(X, Y )
Corr(X, Y ) = .
σ(X)σ(Y )
7.21 Ejemplo. Supongamos que X es la variable aleatoria que elige un punto del
[0, 1] aleatoriamente y Y elige otro. Encontrar Var(X), σ(X), Cov(X, Y ), Cov(X, X + Y ) y
Corr(X, X + Y ).
Solución. Z 1
2 2 1
Var(X) = E(X ) − E(X) = t2 dt − 0.52 = .
0 12
p
σ(X) = 1/12 ∼ 0.288.
Como X y Y son independientes,
Cov(X, Y ) = 0.
Cov(X, X + Y ) = E(X(X + Y )) − E(X)E(X + Y )
= E(X 2 ) + E(XY ) − E(X)2 − E(X)E(Y )
1
= Var(X) + 0 = .
12
Var(X)
Corr(X, X + Y ) =
σ(X)σ(X + Y )
p
1/12 1/12 1
= p p = p =√ .♦
1/12 1/6 1/6 2
84
7.22 Ejercicio. Se escogen al azar dos números x y y en el intervalo [0, 2]. ¿Cuál es la
probabilidad de que su distancia |x − y| sea al menos 1?
7.23 Ejercicio. Se escoge al azar un punto z = (x, y) en el área comprendida por el

cı́rculo de radio 2 con centro el origen. ¿Cuál es la probabilidad de que |x| < 1 expresada
como una integral? Hacer el dibujo correspondiente.
7.24 Ejercicio. Sea Ω = [−2, 2], donde P [−2, 0] = 0.3, P [0, 2] = 0.7 pero dentro de
[−2, 0] y dentro de [0, 2] la probabilidad es uniforme.
(a) Hacer la gráfica de la función densidad de este espacio de probabilidad.
(b) Se escoge un número al azar en Ω. ¿Cuál es la probabilidad de que ese número esté
en [−2, 1]?
7.25 Ejercicio. Se escoge aleatoria y uniformemente un número real en [0, 4] ∪ [7, 9].
Determinar la variable aleatoria que describe esto, describir su densidad y encontrar su
promedio y su desviación estándar. Determinar cuál es la probabilidad de escoger un punto
a una distancia a la media menor que una desviación estándar.
7.26 Ejercicio. Sea X : R → R la variable aleatoria cuya función de densidad está dada
por
K
fX (t) := .
1 + t2
Determinar K para que, efectivamente, fX sea función de densidad. Encontrar su promedio.
(Sugerencia: arctan0 (t) = 1+t
1
2 .)
85
8. Distribuciones Importantes
Hay algunas distribuciones (es decir, combinaciones de densidad con distribución cumu-
lativa) que aparecen con frecuencia. Algunas de ellas tienen nombre.
Primero vamos a entender qué significa hablar de una distribución. Vamos a pensar que
Ω, el espacio muestral, es subconjunto de R. Dentro de R ya tenemos una medida dada, en
donde un intervalo [a, b] mide b − a. Pero en Ω las cosas pueden medir diferente. Cuánto mide
cada cosa en Ω es a lo que le llamamos una distribución. Para especificarla, usualmente se
toma Ω ⊂ R y la variable aleatoria X : Ω → R tal que X(a) = a (es decir, no hace nada) y
luego se define la densidad y/o distribución cumulativa de X.
8.1. Distribución uniforme
La distribución uniforme es la más sencilla y natural. Usualmente cuando decimos “to-

mamos un número aleatorio entre 0 y 1” o cosas ası́, nos referimos a esta distribución. Es en
la que “todo tiene la misma probabilidad”.
Sea Ω un subconjunto medible de R y digamos que su medida es m(Ω). La distribución

uniforme en Ω está dada por la siguiente función de densidad:
(
1
m(Ω)
, si t ∈ Ω,
fX (t) =
0, si no.
8.1 Ejemplo. ¿Cuál es la función de distribución cumulativa de la distribución uniforme?
Solución. Hay que integrar la densidad:

Z a Z a
1 m([−∞, a] ∩ Ω)
FX (a) = fX (t) dt = dt = .♦
−∞ −∞ m(Ω) m(Ω)
86
a−r
Por ejemplo, si Ω es un intervalo, Ω = [r, s], y r ≤ a ≤ s, entonces FX (a) = .
s−r
8.2 Ejemplo. Calcular esperanza, varianza y desviación estándar de la distribución

uniforme en un intervalo [a, b].
Solución. (a) La esperanza es
b
t2 b b 2 − a2
Z
1 b+a
t dt = = = ,
b−a a 2(b − a) a 2(b − a) 2
lo cual es lógico pues es el promedio entre a y b.

(b) La varianza es
b
t2 (b + a)2 b 3 − a3 (b + a)2 b2 + ab + b2 b2 + 2ab + b2
Z
1
dt − = − = − = (b − a)2 .
a b−a 4 3 (b − a) 4 3 4 12
(c) La desviación estándar es
b−a
√ ∼ 0.29(b − a). ♦
12
8.2. Distribución de Bernoulli
Es una distribución discreta y sencilla: Toma el valor 1 con probabilidad p y el valor 0

con probabilidad 1 − p. Es como lanzar una moneda que p de las veces cae águila y 1 − p
cae sol.
Su promedio es p:
E(X) = 1 · p + 0 · (1 − p) = p.
Su varianza es p(1 − p):
Var(X) = E(X 2 ) − E(X)2 = 12 · P [X = 1] + 02 · P [X = 0] − p2 = p − p2 = p(1 − p).
p
Su desviación estándar es p(1 − p).
87
8.3. Distribución Binomial
Si se toman muchas distribuciones de Bernoulli independientes y se suman, se obtiene la

distribución binomial. Por ejemplo, si una moneda tiene p de probabilidad de caer águila y
1 − p de caer sol, se lanza n veces y se cuenta el número de águilas, eso es la distribución
binomial. El factor 1 tiene efecto normalizante: logra que el área bajo la curva sea 1. El
punto máximo de la2πgráfica se encuentra cuando x = µ; la curva cambia de concavidad
exactamente cuando x está a una desviación de la media: en x = µ − σ y x = µ + σ. Su
densidad es
n k
fX (k) = p (1 − p)n−k .
k
Su distribución cumulativa en k es la suma de las densidades hasta k (inclusive).El factor

1
2π
tiene efecto normalizante: logra que el área bajo la curva sea 1. El punto máximo de la
gráfica se encuentra cuando x = µ; la curva cambia de concavidad exactamente cuando x
está a una desviación de la media: en x = µ − σ y x = µ + σ.
Su promedio es np por la linealidad de la esperanza, pues definimos las variables aleatorias
Xi que toman el valor 1 cuando en el lugar i hay águila y 0 cuando no.
Su varianza es np(1 − p) (por la aditividad de la varianza en variables independientes).
Simulación en PhET Veamos la simulación de la densidad en PhET.
88
8.4. Distribución Normal
La distribución normal es la versión continua de la distribución binomial. En la distribu-

ción binomial se toma el lı́mite cuando n tiende a infinito. La distribución normal N (µ, σ)
de promedio µ y desviación estándar σ tiene como función de densidad definida por:
1 (t−µ)2
fX (t) = √ e− 2σ2 .
σ 2π
La distribución cumulativa simplemente debe definirse como una integral. La gráfica es la

misma campana de antes, simplemente recorrida y/o expandida. Esta distribución depende
1
únicamente de su media µ y su desviación estándar σ. El factor 2π tiene efecto normalizante:
logra que el área bajo la curva sea 1. El punto máximo de la gráfica se encuentra cuando
x = µ; la curva cambia de concavidad exactamente cuando x está a una desviación de la
media: en x = µ − σ y x = µ + σ.
Por ejemplo, la variable aleatoria cuya densidad está dada por:

1 2
fX (t) = √ e−t
π
define la distribución normal con σ = √1 y µ = 0. Su gráfica es

2
Gráficas de Distribución Normal
89
la distribución normal aparece en todos lados de la naturaleza; básicamente lo hace siem-
pre que tenemos una serie de cosas independientes que contribuyen en algo. Por ejemplo,
se ha observado que las alturas de las personas del mundo están distribuidas aproximada-
mente con una distribución normal. Esto sugiere que hay varios factores independientes que
contribuyen a la altura de una persona.
También se le llama curva de Bell o campana de Gauss.
El teorema del lı́mite central que estudiaremos más adelante (ver 9.5) nos dice que el
promedio de repetir un cierto experimento una cantidad suficiente de veces siempre tiene
una distribución normal, independientemente de la distribución inicial. Ası́, el estudio de las
propiedades de la distribución normal nos permitirá inferir propiedades estadı́sticas de una
población general a través del análisis de muestras suficientemente grandes.
Otra propiedad muy interesante es la siguiente:
8.3 Ejemplo. Sea N (µ, σ) una distribución normal y supongamos que escogemos un
punto con esa distribución. ¿Cuál es la probabilidad de que quedemos a menos de una
desviación estándar del promedio?
Solución. Simplemente habrı́a que hacer la siguiente integral:

Z µ+σ
N (µ, σ).
µ−σ
Resulta que esa integral no depende de µ ni de σ. Su valor siempre es el mismo, y es

aproximadamente igual a 0.682689492137086 = 68.2689492137086 %. Lo mismo ocurre si
tomamos 2, 3, 4,... desviaciones estándar. Las probabilidades son como sigue:
90
P [µ − σ ≤ X ≤ µ + σ] ∼ 68.2 %.
P [µ − 2σ ≤ X ≤ µ + 2σ] ∼ 95.45 %.
P [µ − 3σ ≤ X ≤ µ + 3σ] ∼ 99.73 %.
Cuando se dice que algo es “estadı́sticamente significativo” lo que significa es que hay
menos de 5 % de probabilidad de que esté mal. Por ejemplo, si en una elección hacen una
encuesta y dicen algo como “el candidato A obtiene el 54.7 % de los votos con un error de
±3 %”, lo que significa es que la probabilidad de que el dato real (es decir, de que la gente
que votará por el candidato A) esté entre 51.7 % y 57.7 % es de 95 %. Es decir, 3 % es 2 veces
la desviación estándar de lo que obtuvo la estadı́stica y 54.7 es el promedio. Básicamente σ
depende del número de personas encuestadas.
El número de desviaciones estándar de distancia a la media se llama puntaje z (ver 9.4).
8.4 Ejercicio. Supongamos que las alturas de los alumnos de una universidad están
distribuidas con una distribución normal con media 165 y desviación estándar 5. Determinar
las probabilidades de que una persona mida menos de 160, que mida más de 170 y que mida
entre 150 y 180.
8.5. Otras distribuciones importantes
La distribución de Poisson que tiene la siguiente densidad:
λk −λ
e .
k!
91
La distribución hipergeométrica, con densidad
K N −k

k n−k
N
.
n
8.5 Ejercicio. Supongamos que una moneda tiene probabilidad p de caer en águila. Se
lanza hasta obtener la primera águila. Sea X la variable aleatoria que cuenta el número de
soles que salen antes de logra la primera águila. Calcular las funciones de densidad y de
distribución cumulativa. Determinar la esperanza y la varianza de X.
92
9. Estadı́stica
En esta sección estudiaremos otra vez varios de los conceptos aprendidos en las anteriores,
pero ahora desde el punto de vista del estudio estadı́stico.
9.1. Datos estadı́sticos.
La estadı́stica se utiliza en muchos lugares: ciencia, seguros, clima, comercio, polı́tica,

etc. Por un lado se obtienen datos mediante observación. Para analizarlos, se organizan y
resumen. Por otro lado se busca la forma de inferir la generalidad a partir de datos parciales,
para lo cual deben escogerse muestras en forma apropiada que proporcionen un buen nivel
de confianza con respecto a la generalidad.
Los datos que se analizan en estadı́stica pueden ser de toda la población o de una muestra,
es decir, de una elección aleatoria de elementos de la población (posiblemente con repetición).
Cuando se tienen los datos de toda la población su análisis corresponde a la estadı́stica
descriptiva. Cuando se toma una muestra y con base en ella quieren hacerse conclusiones o
inferencias acerca de la población en general, se está haciendo estadı́stica inferencial. Hay
que tener cuidado de qué se habla en cada situación.
Los datos pueden ser de diversos tipos; es común que sean números (sueldos de empleados
de una companı́a, población de ciudades, alturas de personas, calificaciones de un examen
de admisión a una universidad, número de coches que llegan cada minuto a una caseta en la
carretera, etc.), pero pueden ser de otro tipo (sexo, efectos de una medicina sobre la presión
arterial de un individuo cada minuto después de habérsela tomado, lugar de origen, forma,
etc.).
Hay muchos tipos de ilustraciones de datos de tipo estadı́stico. Lo importante es señalar

con precisión, en cada caso, qué se está comparando o graficando. A continuación mostramos
tres tipos.
93
15
1000
8 39
800
10
75 600
215
5 400
150 200
0 0
0 1 2 3 4 5 6 7 8 910 0 2 4 6 8 10 12
La primera gráfica podrı́a representar, por ejemplo, calificaciones de alumnos de un grupo

(7 alumnos obtuvieron 0, 5 alumnos obtuvieron 1, 14 obtuvieron 2, etc.). La segunda gráfica
podrı́a representar que 215 personas de una fábrica llevan menos de 5 años en la empresa, 150
llevan entre 5 y 10 años, 75 llevan entre 10 y 15, etc.). La tercera gráfica podrı́a representar
el promedio de dinero en una cuenta de ahorros a través de los últimos meses (el primer año
podrı́a haber tenido $700, el segundo $400, el tercero $400, etc.).
Las gráficas de barras como la de la izquierda, que representan frecuencias, se llaman

histogramas.
En las tres ilustraciones de arriba se señalan valores absolutos. Para estudiarlas de manera
estadı́stica (como haremos aquı́) podemos transformarse a gráficas de funciones de densidad.
En el caso de la ilustración de la derecha, primero podrı́a transformarse a histograma diciendo
cuántas veces se tuvo cada valor. Esto es justo lo que hacen las variables aleatorias. En
este caso el espacio muestral serı́a Ω = {400, 500, 600, 700, 800, 900} y se tendrı́a la variable
aleatoria X definida en Ω por X(400) = 4, X(500) = 2, X(600) = 1, X(700) = 2, X(800) = 1
y X(900) = 2. El histograma y la gráfica de densidad de X serı́an las siguientes.
5 0.35
4 0.3
0.25
3
0.2
2 0.15
0.1
1
0.05
0 0
400 500 600 700 800 900 200 400 600 800 1000
Dada una gráfica, ya sea histograma o de valores absolutos, uno puede preguntar si es
creciente o decreciente, si es asintótica hacia un cierto valor, etc. También son importantes
el promedio, los valores mayor y menor, la mediana o percentil 50 (valor que divide a los
94
valores en dos del mismo tamaño) los cuartiles (o percentiles 25, 50 y 75), valores que dividen
a todos los datos en 4 partes del mismo tamaño (o quintiles, deciles o percentiles).
Al analizar un histograma, hay tres datos importantes qué revisar: la forma, la media o
esperanza (que denotamos usualmente por µ) y la desviación estándar (denotada usualmente
por σ). En cuanto a la forma, uno puede preguntarse si la gráfica es simétrica con respecto
a la media o si está alargada hacia uno de los lados.
9.1 Ejemplo. Los siguientes histogramas muestran dos posibles calificaciones en grupos
de 70 alumnos. Por ejemplo, en el primero 5 alumnos obtuvieron 0, 15 alumnos obtuvieron
25, etc. Comparar sus parámetros.
35 35
30 30
25 25
20 20
15 15
10 10
5 5
0 0
0 25 50 75 100 0 25 50 75 100
Solución. Ambos tienen misma media:

5 · 0 + 15 · 25 + 30 · 50 + 15 · 57 + 5 · 100 4 · 0 + 30 · 25 + 2 · 50 + 30 · 75 + 4 · 100
= 50 = .
70 70
Además son simétricos respecto a la media. También tienen la misma mediana: 50, pues en
ambos casos hay el mismo número de personas que sacaron menos de 50 que los que sacaron
más de 50. Los cuartiles también son iguales: el primer cuartil es 25, pues 70
4
∼ 17 y en ambos
casos hay 17 personas que sacaron 25 o menos; el tercer cuartil es 75; los valores mayores y
menores son, en ambos casos, 100 y 0, respectivamente.
En lo que difieren es en la desviación estándar σ. Calculemos explı́citamente éstas. En la
primera la varianza es
1
5(0 − 50)2 + 15(25 − 50)2 + 30(50 − 50)2 + 15(75 − 50)2 + 5(100 − 50)2 = 625,

70
de donde σ = 25. En la segunda la varianza es
1
4(0 − 50)2 + 30(25 − 50)2 + 2(50 − 50)2 + 30(75 − 50)2 + 4(100 − 50)2 = 821,

70
de donde σ ∼ 28.66. La explicación de esta diferencia es que en la primera los valores están
más cercanos a la media. ♦
95
9.2 Ejercicio. Calcular la media y la mediana del siguiente histograma, y observar
que si el eje horizontal fuera un subibaja (sin peso) y las barras tuvieran peso igual a su
altura entonces, poniendo un pivote justo en la media, el subibaja quedarı́a equilibrado
(pensando que valores más alejados ejercen la fuerza proporcional a la lejanı́a), mientras
que en la mediana simplemente se considerarı́a que hubiera el mismo peso en cada lado (sin
considerar la distancia). Obsérvese también que un solo valor alejado afecta mucho la media
pero no la mediana. Pensar que el histograma representa calificaciones de 7 personas y hacer
también una gráfica donde en el eje x estén las personas (numeradas) y en el eje y estén las
calificaciones que obtuvieron; en ese dibujo, marcar la media y la mediana en el eje y.
0
0 1 2 3 4 5 6 7 8 9 10
A veces los datos tienen dimensión, que es la cantidad de números que se tienen en cada
objeto. Por ejemplo, si el dato es sólo estaturas, entonces la dimensión es 1, pero si para cada
persona se considera su estatura y su peso, entonces la dimensión es 2. Si tenemos datos x
y y con la misma dimensión, entonces x + y es el vector suma; por ejemplo, si x = (10, 20)
y y = (7, 3), entonces x + y = (17, 23). Igual con multiplicación, resta, etc.
Usualmente, cuando se habla de datos, se habla de una tabla de números y categorı́as:
Nombre Edad Peso Sexo

Juan 20 66.3 H
Pedra 25 57.8 M
Drácula 2500 -5 H
Los histogramas pueden tener diversas formas; algunas de ellas pueden aproximarse por
curvas suaves que tienen descritas por ciertas fórmulas matemáticas. Veamos algunos ejem-
plos:
9.3 Ejemplo. La distribución uniforme se da, por ejemplo, si se lanza un dado 1000
veces y se observa cuántas veces sale cada valor. Mostramos a continuación un histograma
posible de esto y la curva suave que la aproxima.
96
250
200 200
150
100
50
0
1 2 3 4 5 6 1 2 3 4 5 6
9.4 Ejemplo. Una distribución sesgada a la derecha o con sesgo positivo es como sigue:
y podrı́a representar algo como salarios de personal de una compañı́a.
9.5 Ejemplo. Una distribución exponencial decreciente tiene la forma ilustrada a con-
tinuación y puede representar, por ejemplo, la frecuencia con la que un niño se cae después
de haber aprendido a caminar, calculada a lo largo de un año, o la probabilidad de duración
de una pila. Su función de densidad está dada por:
(
ce−ct , si t ≥ 0,
f (t) =
0, si t < 0.
Si X es una variable aleatoria asociada a f entonces E(X) = 1c . Nota. En 7.13 y 7.18 se

tomó c = 1.
97
9.6 Ejemplo. Como hemos visto ya, una distribución gaussiana o normal es la que pro-
duce la llamada curva de Bell y que corresponde a distribuciones como las de tipo binomial.
Un histograma de esto (que representa el número de águilas que salen al lanzar una moneda
al aire 10 veces) y la curva suave que lo resume son:
300
250
200
150
100
50
0
0 1 2 3 4 5 6 7 8 9 10
Este tipo de distribuciones surgen de una gran cantidad de problemas que describen
cuántos objetos se encuentran dentro de una muestra de n (en el caso de la moneda n = 10)
cuando la probabilidad de encontrar cada uno es p (en el caso de las monedas p = 12 ). Dados
n y p se puede encontrar la gráfica y, viceversa, dada una muestra, a partir de ella se puede
calcular p. Estas distribuciones aparecen frecuentemente en problemas tan variados como
la cantidad de objetos defectuosos en una muestra, el efecto de una vacuna, el tiempo de
gestación de un animal, las alturas de hombres dentro de una población, los promedios de
bateo de un grupo de beisbolistas durante un año, etc.
9.7 Ejemplo. Los siguientes histogramas representan el número de águilas que se espera
obtener al lanzar n monedas sila probabilidad de obtener águila es p = 12 . Las alturas de
las barras en cada x = k son nk /2n (de esta manera los histogramas están normalizados, es
decir, las sumas de todas las alturas en cada histograma son 1). Las desviaciones estándar
(en éstos y en los siguientes grupos de histogramas) son
s
n
X n k
σ= p (1 − p)n−k (k − µ)2 ,
k=0
k
98
n = 20
p = 1/2
μ = 10
σ = 2.24
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
n = 15
p = 1/2
μ = 15/2 = 7.5
σ = 1.94
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
n = 10
p = 1/2
μ = 10/2=5
σ = 1.58
0 1 2 3 4 5 6 7 8 9 10
n=6
p = 1/2
μ = 6/2 = 3
σ = 1.22
0 1 2 3 4 5 6
9.8 Ejercicio. Hacer dibujo del histograma normalizado que representa los valores es-
perados del número de águilas que salen cuando uno lanza la moneda 8 veces. Calcular la
media y la desviación estándar. Calcular cuántos valores están a distancia de una desviación
estándar de la media, de dos desviaciones estándar de la media y de 3 desviaciones estándar
de la media.
9.9 Ejemplo. Los siguientes histogramas representan el número de águilas que se espera
obtener al lanzar una moneda n = 20 veces si la probabilidad de obtener águila es p.
99
n = 20
p = 1/2
μ = 10
σ = 2.24
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
n = 20
p = 1/4
μ = 20/4=5
σ =1.94
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
n = 20
p = 1/8
μ = 20/8 = 2.5
σ = 1.48
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
9.10 Ejercicio. Hacer un histograma que represente los valores esperados del número de
veces que sale un número menor o igual que 2 cuando se lanza un dado 8 veces. Calcular la
media y la desviación estándar. Calcular cuántos valores están a distancia de una desviación
estándar de la media.
100
9.2. Estimadores
Un parámetro es un número que sacamos a partir de los datos de una población. Puede
ser promedio, mediana, desviación estándar, etc.
Una estadı́stica es un número que sacamos a partir de los datos de una muestra. Ejemplos
de estadı́sticas son también promedio, mediana, desviación estándar, etc.
Supongamos que Ω es un espacio de probabilidad y que X es una variable aleatoria.
Usualmente uno no conoce la distribución de X pero puede considerar varios valores de
ella, x1 , x2 , . . . , xn , que constituyen una muestra. Se podrı́an considerar todas las posibles
muestras con n elementos (con o sin reemplazo) y comparar el promedio de las estadı́sticas
de las muestras con la estadı́stica general de la población (es decir, comparar la esperanza
de la estadı́stica de las muestras con la estadı́stica de la población).
En estadı́stica inferencial, a partir de estadı́sticas de muestras se trata de deducir datos

de la población. Esto se hace mediante estadı́sticas llamadas estimadores que se aplican a
muestras.
Consideremos entonces el espacio de probabilidad de todas las posibles muestras, supo-

niendo que cada muestra tiene la misma probabilidad. Supongamos que a cada una de esas
muestras se le calcula alguna estadı́stica (estimador) y luego, se toma el promedio de todos
los valores encontrados. La idea es comparar este promedio con el verdadero parámetro de
toda la población.
Por ejemplo, el promedio es un buen estimador, esto es, el promedio de todos los prome-
dios de las muestras coincide con el promedio de la población. Para entender esto veamos
un ejemplo, con el cual quedaremos también convencidos de que el resultado es cierto en
general.
9.11 Ejemplo. Calcular el promedio de alturas de 4 personas que tienen alturas 160,
164, 170, 184, y ver que coincide con el promedio de los promedios de todas las muestras de
2 alturas. Analizar por qué es cierto esto.
Solución. Debemos considerar las 16 posibles muestras (es decir, aparecen muestras como
(160, 160) y se consideran distintas las dos siguientes: (160, 164) y (164, 160)). Pero en este
caso también es cierto el resultado en el caso en que en las muestras no hay reemplazo ni
importa el orden que se tome de los valores. Hagamos este caso primero:
Los promedios por parejas son:
160 + 164 160 + 170 160 + 184
= 162, = 165, = 172,
2 2 2
164 + 170 164 + 184 170 + 184
= 167, = 174, = 177.
2 2 2
101
El promedio de los promedios es
162 + 165 + 172 + 167 + 174 + 177
= 169.5,
6
y el promedio real es:
160 + 164 + 170 + 184
= 169.5.
4
Entonces vemos que los valores coinciden.
Podemos notar que el resultado es claro, pues al tomar el promedio de los promedios,
cada valor se repite 3 veces pero luego se divide entre 3, que es la cantidad de contribuciones
que tiene cada valor al considerar las parejas:

1 (160 + 164) + (160 + 170) + (160 + 184) + (164 + 170) + (164 + 184) + (170 + 184)
.
6 2
El caso general con 16 muestras también es fácil de comprobar. ♦
Como vimos, el promedio es un buen estimador, o sea que la esperanza del promedio de
una muestra coindide con el promedio total de la población.
Sin embargo, la varianza es un estimador sesgado de la varianza general de la población

(su valor depende de la cantidad de datos), como veremos a continuación.
Recordemos primero (ver 5.1) que si x = (x1 , x2 , ..., xn ) es una serie de datos equiprobables
de una población con promedio µ, entonces su varianza está definida por:
1
(x1 − µ)2 + (x2 − µ)2 + · · · + (xn − µ)2 ,

Var(x) :=
n
p
y su desviación estándar σ por Var(x). En estadı́stica descriptiva no hay nada más que
decir.
En estadı́stica inferencial hay que hacer ajustes. Para entender mejor de qué se habla al
comparar resultados de muestras con el resultado de la población, revisemos, con lenguaje
más formal, nuestro análisis del ejemplo 9.11 en el que observamos que el “promedio” es un
buen estimador.
9.12 Proposición. Sea (Ω, P ) un espacio discreto de probabilidad y sea X : Ω → R

una variable aleatoria. Consideremos el conjunto Ωn de muestras de tamaño n como espacio
de probabilidad definiendo la función probabilidad P por:
n
Y
P (ω1 , . . . , ωn ) = P (ωi ).
i=1
102
Definamos en Ωn la variable aleatoria promedio por:
X(ω1 ) + · · · + X(ωn )
X(ω1 , . . . , ωn ) = .
n
Entonces E(X) = E(X). ♦
Como ya habı́amos visto, la proposición anterior nos dice que el promedio de los promedios
de las muestras es el promedio. Sin embargo la varianza de los promedios de las muestras no
es la varianza, como veremos a continuación.
9.13 Observación. Con el lenguaje de 9.12 se tiene que

Var(X)
Var(X) = .
n
Demostración. Para cada i ∈ n sea Xi : Ωn → R definida por
Xi (ω1 , . . . , ωn ) = X(ωi ),
es decir, Xi es prácticamente lo mismo que X, pero las Xi son independientes entre sı́.
Tenemos entonces que
X1 + · · · + Xn
X= ,
n
ası́ que, por 5.5 y 5.6,
1 n Var(X)
Var(X) = 2
(Var(X1 ) + · · · + Var(Xn )) = 2 Var(X) = .♦
n n n
9.14 Nota. En la situación de la proposición anterior es importante señalar que deben
tomarse todas las muestras de tamaño n tomando en cuenta repeticiones y posibles órdenes.
El resultado es bastante natural pues la varianza calcula qué tan alejados están los datos
del promedio, y los promedios de n valores se acercan al promedio real pues minimizan los
extremos.
9.15 Ejemplo. Sea Ω = {2, 4, 12} con distribución uniforme. Ilustrar el resultado de la
proposición anterior 9.13 con muestras de tamaño 2.
Solución. Tenemos que

2 + 4 + 12
µ= = 6,
3
y que
(2 − 6)2 + (4 − 6)2 + (12 − 6)2 42 + 22 + 62 56
Var(X) = = = .
3 3 3
103
Veamos varianza y desviación estándar de cada muestra de tamaño 2. Para ello recordemos
que las muestras se toman con reemplazo y consideremos la siguiente tabla que toma en
cuenta las 9 parejas::
muestra media varianza desviación

2, 4 3 1 1
4, 2 3 1 1
2, 12 7 25 5
12, 2 7 25 5
4, 12 8 16 4
12, 4 8 16 4
2, 2 2 0 0
4, 4 4 0 0
12, 12 12 0 0
La varianza de los promedios de las muestras es:Hacer lo mismo con las desviaciones estándar.
32 + 32 + 12 + 12 + 22 + 22 + 42 + 22 + 62 84 28
= =
9 9 3
que, efectivamente, es la mitad de la varianza total (aquı́ n = 2). ♦
9.16 Ejercicio. Calcular la varianza de los promedios de todas las muestras de tamaño
2 de las siguientes alturas de 4 personas: 160, 164, 170, 184. Comparar con la varianza total
de los datos.
En la proposición anterior vimos cómo se compara la varianza de promedios de muestras

con la varianza real. Ahora comparemos la varianza de las muestras con la varianza real,
más precisamente, el valor esperado de la varianza de las muestras con la varianza real.
Supongamos entonces que tenemos una muestra x = (x1 , . . . , xn ) del total. Basándonos
en ella queremos estimar la varianza en Ω. Los valores no son iguales. Lo que ocurre es que la
varianza mide qué tan lejos se está del promedio, y al calcular la varianza de x no se trabaja
con el promedio real sino con el promedio de los valores de x. Además, como los datos que
se tienen son también los que se utilizan para calcular el promedio, se tenderá a creer que se
está más cerca del promedio de lo que en realidad se está.
promedio real promedio de muestra
Enunciamos el resultado sin demostración que, aunque no es difı́cil, es larga y sin mayor
interés.
104
9.17 Proposición. Sea n ∈ N y sean V la esperanza de la varianza de las muestras
de tamaño n y s la esperanza de las desviaciones estándar de las muestras de tamaño n.
Entonces r
n n
Var(X) = V y σ(X) = s. ♦
n−1 n−1
Otra vez, hay que señalar que deben tomarse todas las muestras de tamaño n tomando
en cuenta repeticiones y posibles órdenes.
De manera precisa, lo que se está haciendo es, como en 9.12, considerar (Ω, P ) un espacio
de probabilidad, X : Ω → R una variable aleatoria y el conjunto Ωn de muestras de tamaño
n como espacio de probabilidad definiendo la función probabilidad P por:
n
Y
P (ω1 , . . . , ωn ) = P (ωi ).
i=1
Ahora, dada una muestra ω = (ω1 , . . . , ωn ), para pensarla como conjunto (en vista de que
nos importa el orden y puede haber repeticiones), etiquetamos cada coordenada, es decir,
pensamos ω b = {(ω1 , 1), . . . , (ωn , n)} equiprobable y definimos la variable aleatoria X
bω en ω
b
por Xω (ωi , i) = X(ωi ). Luego consideramos la varianza de esta variable aleatoria: Var(Xω )
b b
(o sea, Var(X bω ) es la varianza de la muestra). Ahora definimos
n
Var
[ω (X) = Var(X
bω ).
n−1
Entonces, para cada muestra ω tenemos un número Var

[ω (X). El promedio de todos estos
números es Var(X).
9.18 Ejemplo. Sea Ω = {2, 4, 12} con distribución uniforme. Ilustrar el resultado de la
proposición anterior con muestras de tamaño 2.
n 2 56
Solución. Aquı́ n = 2 ası́ que n−1 = 2−1 = 2. De 9.15 tenemos que µ = 6, Var(X) = 3
y
el promedio de las varianzas de las muestras es
1 + 1 + 25 + 25 + 16 + 16 + 0 + 0 + 0 84 28
V = = = .♦
9 9 3
9.19 Ejercicio. Con los datos de 9.11, calcular el promedio de las varianzas de las
muestras de tamaño 2 y comparar con la varianza total.
105
9.3. Correlación
Ya hemos visto que otro tipo de estudio entre variables aleatorias es la correlación: Se
analizan dos o más cosas y se ve si se mueven juntas. Por ejemplo, se puede ver si la calificación
que obtienen los alumnos en un examen de admisión a la universidad tiene que ver con su
promedio al finalizar su primer año de estudios. Para esto, pueden ponerse puntos en el plano
cartesiano de manera que la primera coordenada sea la calificación del examen de admisión y
la segunda, la calificación promedio después de un año. En caso de que los puntos formen una
masa con tendencia creciente (como se muestra en el dibujo), se dice que es una correlación
positiva.
10
5
5 5.5 6 6.5 7 7.5 8 8.5 9 9.5 10
Más precisamente, se analiza si el que un alumno haya obtenido una calificación en el

examen de admisión a distancia menor que una desviación estándar de la media (de las
calificaciones en el examen de admisión) significa que también su calificación después de un
año está a una distancia menor que una desviación estándar de la media (de los promedios
de calificaciones al finalizar el primer año).
Recordemos (ver 6.1) que si Ω es un espacio equiprobable con n elementos ω1 , . . . , ωn ,

y X y Y son variables aleatorias definidas en Ω de manera que E(X) = µX , E(Y ) = µY ,
σ(X) = σX , σ(Y ) = σY , y para cada i, X(ωi ) = xi y Y (ωi ) = yi , entonces
Cov(X, Y ) = E(XY ) − E(X)E(Y ) = E[(X − E(X))(Y − E(Y ))]
(x1 − µX )(y1 − µY ) + · · · + (xn − µX )(yn − µY )

=
n

x 1 y 1 + x2 y 2 + · · · + xn y n x1 + x2 + · · · + xn y1 + y2 + · · · + yn
= − y
n n n

Cov(X, Y ) 1P n xi − µ X yi − µY
Corr(X, Y ) = = .
σ(X)σ(Y ) n i=1 σX σY
106
xi − µ X
Observemos que mide a cuántas desviaciones estándar de distancia está xi de
σX
µX tomando en cuenta el sentido (es decir, es positivo si xi está a la derecha de la media y
es negativo si está a la izquierda); por 6.5, mientras más se parezcan en orden de tamaño
todos los xiσ−µ
X
X
a los respectivos yiσ−µ
Y
Y
, la suma es mayor (y cercana a 1); si se parecen en
valor absoluto pero difieren en signo, entonces el valor total es parecido a −1. Entonces,
si Corr(X, Y ) ∼ 1, los valores en el conjunto G = {(xi , yi ) : i = 1, 2, . . . , n} se acercan a
una recta con pendiente positiva (por ejemplo, si X = Y , entonces xi = yi para toda i
y la correlación es 1) y se dice que hay correlación positiva, si Corr(X, Y ) ∼ −1 entonces
hay correlación negativa (los valores en la gráfica están acumulados cerca de una recta con
pendiente negativa).
9.20 Nota. Al igual que en 9.17, la covarianza real y la covarianza promedio de las
muestras no es la misma. Para obtener mejor aproximación de la covarianza real hay que
dividir entre n − 1 en lugar de entre n, es decir, supongamos que tenemos dos variables
aleatorias X y Y en un espacio discreto Ω, que (x, y) es una muestra con n elementos; que
el promedio de la muestra x es µx y el promedio de la muestra y es µy . Se define
n
1 X
Cov(x,
d y) = (xi − x)(yi − y).
n − 1 i=1
Entonces Cov(x,
d y) es un estimador de la covarianza real, esto es, la esperanza de Cov(x,
d y)
es Cov(X, Y ), más precisamente, la covarianza real, Cov(X, Y ), es el promedio de todos los
posibles valores de Cov(x,
d y) variando sobre las muestras (x, y) de tamaño n.
9.21 Ejemplo. La siguiente tabla muestra el cálculo de algunas correlaciones (denotadas

por r). Las a0 s, b0 s, c0 s y e0 s son todas permutaciones de los números del 1 al 19 (por eso la
media en todos es 10 y la desviación estándar es la misma: 5.48). Las a0 s no se escogieron al
azar, ni tampoco las e0 s ni las d0 s pero las b0 s y c0 s, sı́. Las e0 s se escogieron para mostrar que
debe usarse criterio pues la correlación es muy pequeña y, sin embargo, es claro que están
muy relacionados.
107
μ σ r
x's 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 10.00
distancia a μ -9 -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 9
dist a μ cuadrada 81 64 49 36 25 16 9 4 1 0 1 4 9 16 25 36 49 64 81 30.00 5.48
a's 1 3 2 6 4 5 14 9 8 10 12 7 11 15 13 19 17 18 16 10.00
distancia a μ -9 -7 -8 -4 -6 -5 4 -1 -2 0 2 -3 1 5 3 9 7 8 6
dist a μ cuadrada 81 49 64 16 36 25 16 1 4 0 4 9 1 25 9 81 49 64 36 30.00 5.48
(x's-μ)(a's-μ) 81 56 56 24 30 20 -12 2 2 0 2 -6 3 20 15 54 49 64 54 27.05 .90
b's 10 16 1 5 3 13 6 7 8 14 4 15 9 18 19 12 11 2 17 10.00
distancia a μ 0 6 -9 -5 -7 3 -4 -3 -2 4 -6 5 -1 8 9 2 1 -8 7
dist a μ cuadrada 0 36 81 25 49 9 16 9 4 16 36 25 1 64 81 4 1 64 49 30.00 5.48
(x's-μ)(b's-μ) 0 -48 63 30 35 -12 12 6 2 0 -6 10 -3 32 45 12 7 -64 63 9.68 .32
c's 15 2 19 10 6 13 12 14 18 9 4 3 17 5 1 8 7 11 16 10.00
c's-media 5 -8 9 0 -4 3 2 4 8 -1 -6 -7 7 -5 -9 -2 -3 1 6
dist a μ cuadrada 25 64 81 0 16 9 4 16 64 1 36 49 49 25 81 4 9 1 36 30.00 5.48
(x's-μ)(c's-μ) -45 64 -63 0 20 -12 -6 -8 -8 0 -6 -14 21 -20 -45 -12 -21 8 54 -4.89 -.16
d's 9 9 9 9 10 10 10 10 10 11 11 11 11 11 8 8 12 11 10 10.00
distancia a μ -1 -1 -1 -1 0 0 0 0 0 1 1 1 1 1 -2 -2 2 1 0
dist a μ cuadrada 1 1 1 1 0 0 0 0 0 1 1 1 1 1 4 4 4 1 0 1.16 1.08
(x's-μ)(d's-μ) 9 8 7 6 0 0 0 0 0 0 1 2 3 4 -10 -12 14 8 0 2.11 .36
e's 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 19 10.00
distancia a μ 8 7 6 5 4 3 2 1 0 -1 -2 -3 -4 -5 -6 -7 -8 -9 9
dist a μ cuadrada 64 49 36 25 16 9 4 1 0 1 4 9 16 25 36 49 64 81 81 30.00 5.48
(x's-μ)(e's-μ) 8 7 6 5 0 0 0 0 0 -1 -2 -3 -4 -5 -24 -28 -32 -9 0 -4.32 -.14
La correlación puede aplicarse como sigue: supongamos que alguien dice que metió 19
bolas numeradas en una urna y que las fue sacando al azar; por ejemplo, podrı́a representar
que tenı́a 19 regalos y que dice que los repartió al azar entre sus amigos, pero al numerar
los regalos en cuanto a qué tan buenos eran y también numerar a los amigos en orden de
amistad, se ve que quedaron como en las a0 s de la tabla en las que la correlación con las x0 s
fue .9; en ese caso se desecha la suposición de que la selección se hizo al azar.
9.22 Ejercicio. Calcular la correlación de los siguientes valores (1, 5), (2, 4), (3, 3) y
(4, 2). Comparar con el promedio de las correlaciones de las muestras de tamaño 3.
9.23 Ejercicio. Calcular la correlación de los siguientes valores (1, 2), (2, 4), (3, 6), (4, 8)
y (5, 10).
108
9.4. Puntaje Z
El puntaje z (o z-score) mide a cuántas desviaciones estándar está cada dato del promedio,
es decir, si X es una variable aleatoria, su puntaje z es la variable aleatoria definida por
X − E(X)
Z(X) = .
σ(X)
Enunciamos el siguiente teorema sin demostración.
9.24 Teorema. Teorema de Chebyshev Para todo conjunto de datos, por lo menos
una proporción de 1 − k12 de los datos caen a k desviaciones estándar del promedio. Es decir,
su puntaje z (en valor absoluto) es de k o menos.
Por ejemplo, por lo menos 3/4 = 75 % de los datos deben estar a 2 o menos desviacio-
nes estándar del promedio. Esto es muy importante en general aunque, en distribuciones
particulares, como en las normales, se sabe más (ver 8.4).
9.5. Teorema del Lı́mite Central
Supongamos que tenemos un espacio muestral Ω y una variable aleatoria X. Una muestra
de tamaño n es la evaluación repetida de X n veces en elementos de Ω. Esto nos da n números
reales.
Sea Ω = Ωn el espacio de todas las muestras de tamaño n, donde cada muestra tiene su
probabilidad de ocurrir. Sea X la variable aleatoria que a cada muestra le asocia su promedio.
Por ejemplo, si Ω es el espacio que resulta de lanzar un dado y X es la variable aleatoria

que resulta de tomar el número que salió, entonces el espacio de todas las muestras de tamaño
2, es como lanzar dos dados: {11, 12, 13, 14, 15, 16, 21, 22, 23, 24, . . . , 66} y X será la variable
aleatoria que a 11 le asocia 1, a 12 le asocia 1.5, a 13 le asocia 2, etc. Si no todo tiene la
misma probabilidad, tampoco las muestras tendrán la misma probabilidad.
X1 +X2 +···+Xn
En general, podemos pensar que X = n
, donde las Xi son todas variables
idénticas a X, pero independientes.
109
Recordemos (ver 9.13 que los parámetros de X se relacionan con los de X como sigue:
E(X) = E(X)
Var(X)
Var(X) =
n
σ(X)
σ(X) = √
n
Enunciamos, sin demostración, el Teorema del Lı́mite Central.
9.25 Teorema. Teorema del Lı́mite Central. Con las condiciones de arriba, si X tiene
varianza finita, entonces

σ(X)
fX ∼ N E(X), σ(X) = N E(X), √ .
n
El teorema dice, además, qué tan rápido converge cuando n tiende a infinito. En la
práctica, si n es mayor a 30 se puede pensar que X tiene distribución normal.
El resultado del teorema es muy impresionante: Dice que no importa qué distribución
tenga X, si n es suficientemente grande, entonces la distribución de los promedios de las
muestras de tamaño n es muy similar a la distribución normal.
Por ejemplo, el lanzamiento de un dado tiene distribución uniforme; se trata del espacio
muestral Ω = [6] en el que todos los elementos tienen probabilidad de 16 , la variable aleatoria
X está definida por X(ω) = ω y su función de densidad pX es constante con valor 61 .
Ahora consideremos el promedio de cada muestra de tamaño 5. Tenemos el espacio mues-
tral Ω = [6]5 con 65 = 7776 elementos, y la variable aleatoria X definida por
ω1 + · · · + ω5
X(ω1 , . . . , ω5 ) = ;
5
sin embargo ahora la distribución no es uniforme: cada posible valor de X tiene una proba-
1
bilidad de ocurrir. Por ejemplo, P [X = 1] = 7776 pues el valor 1 sólo se toma cuando ωi = 1
para toda i; mientras que P [X = 2.6] se logra cada vez que ω1 + · · · + ω5 = 2.6 × 5 = 13
(por ejemplo, con (4, 2, 1, 3, 3) o con (2, 6, 2, 2, 1)). La función densidad de X se parece a la
distribución normal en la que la media es 3.5 (igual que la de X) y la desviación estándar es
σ(X) 12 + 22 + 32 + 42 + 52 + 62 1.71
√ = − 3.52 ∼ ∼ 0.76.
5 6 2.24
El teorema del lı́mite central tiene innumerables aplicaciones. A continuación veremos

varios ejemplos de distinta naturaleza.
110
Hemos dicho ya que en la distribución normal, a distancia menor de una desviación
estándar de la media se encuentran alrededor de 68 % de los datos y también hemos men-
cionado qué ocurrre a distancia menor que 2 y 3 desviaciones estándar.
Recordemos que llamamos puntaje z al número de desviaciones estándar en el que se

encuentra cierto pocentaje de los valores. A continuación presentamos una tabla de puntajes
z y explicamos la forma de leerla.
En la columna izquierda aparece el posible valor de z (positivo) hasta una cifra decimal;
hay que sumar lo que aparece en el renglón superior para tener un valor de z hasta 2 cifras
decimales. Por ejemplo, en la tabla se ha señalado el valor correspondiente a z = 1.63. El
número que se encuentra en la intersección del renglón y columna respectivos representa la
probabilidad de tener un valor mayor que la media a distancia de la media menor que z.
La tabla sólo muestra puntajes z positivos; con esto es suficiente en vista de que la
distribución normal es simétrica con respecto a la media y nos interesa saber el porcentaje
111
de valores que se encuentran a menos de cierta distancia de la media (si es necesario habrá
que multiplicar por 2).
De acuerdo a la tabla, si Z es la variable aleatoria correspondiente a la distribución
normal con media 0 y desviación estándar 1 entonces
P [0 ≤ Z ≤ 1.63] = 0.4484,
P [−1.63 ≤ Z ≤ 1.63] = 2 × 0.4484 = 0.8968,
es decir, a distancia de la media menor que 1.63 desviaciones estándar se encuentra alrededor
del 90 % de los datos.
1 − 2 × 0.4484
Si queremos P [Z ≤ −1.63], ésta será igual que P [Z ≥ 1.63] = =
2
1 − 0.8968
= 0.0518, o sea, alrededor de 5 % de los valores están a la izquierda de la media
2
a una distancia mayor que 1.63 desviaciones estándar de ella.
Notemos también que la tabla sólo considera puntajes z menores a 3.4 pues la probabili-
dad de estar a una distancia de 3.4 desviaciones estándar de la media o más es pácticamente
0.
Finalmente, para poder usar la tabla si se tiene una variable aleatoria con distribución
normal con media µ y desviación estándar σ deberá adecuarse a que la media sea 0 y la
desviación estándar sea 1, es decir, deberá considerarse la variable aleatoria
X −µ
.
σ
9.26 Ejemplo. Una pizzerı́a tarda en promedio 40 minutos con desviación estándar de
6 minutos en sus entregas de pedidos. ¿Cuál es la probabilidad de que el promedio de hoy
en 100 pedidos esté entre 35 y 40 minutos?
Solución. Por el TLC, los promedios de las muestras siguen una distribución parecida a
6
la normal con la misma media, 40, y desviación estándar de √100 ∼ 0.6. “Normalizamos” la
variable aleatoria para que la media sea 0 y la desviación estándar sea 1:
X −µ X − 40
Z= = .
σ 0.6
Buscamos

35 − 40 40 − 40
P ≤Z≤ = P [−8.3 ≤ Z ≤ 0] = P [Z ≤ 0] − P [−8.3 ≤ Z].
0.6 0.6
Es claro que P [Z ≤ 0] = 0.5 (pues la función es simétrica con respecto a la media); por otro
lado, P [−8.3 ≤ Z] = P [Z ≥ 8.3] ∼ 0. Entonces la probabilidad de que el pedido llegue entre
35 y 40 minutos es aproximadamente de 1/2. ♦
112
9.27 Ejemplo. En una escuela de 1000 alumnos se analiza una lista escogida al azar
de 50 personas inscritas y resulta que 35 son mujeres. Calcular el número de mujeres de la
escuela con un nivel de confianza de 90 %.
Solución. En este caso, como 35 de las 50 personas son mujeres, estimamos que el promedio
de mujeres es de 70 %. Por otro lado, la desviación estándar los promedios de las muestras
es de p
(0.7)(0.3)
√ ∼ 0.065,
49
El puntaje z en este caso es 1.64, ası́ que el error es
ε = 1.64 × 0.065 = 0.107.
Entonces se asegura que hay 700 alumnas con un nivel de confianza de 90 % y un margen de
error de 10.7 %; en otras palabras, el intervalo de confianza al 90 % es (593, 807). ♦
9.28 Ejemplo. Supongamos que tenemos una variable aleatoria X cuyo promedio es
100 y su desviación estándar es de 32. Tomamos una muestra de tamaño 64. ¿Cuál es la
probabilidad de que el promedio de la muestra sea menor a 96?
Solución. Nuestros datos son: E(X) = 100, σ(X) = 32, n = 64 y nos preguntan P [X <
96]. Como n = 64 > 30, podemos suponer que X tiene distribución normal. Entonces
σ(X) 32
E(X) = 100, σ(X) = √ = √ = 4.
n 64
Como (96 − 100)/4 = −1, buscamos en la tabla el valor para z = 1 que nos da 0.3413
(esto significa que a la izquierda de la media a distancia de 1 desviación estándar hay está
el 34.13 % de los valores). Entonces la probabilidad de que el promedio de la muestra sea
menor a 96 es aproximadamente
1 − 2 × 0.3413
= 0.1587,
2
es decir, la probabilidad de que la muestra tenga promedio menor a 96 es aproximadamente
16 %. ♦
Los problemas anteriores no son muy aplicables pues casi nunca se tiene el promedio y la
desviación estándar reales sino que más bien se quieren deducir estos datos a partir de una
muestra. Esto puede lograrse si la muestra es lo suficientemente grande (normalmente basta
con n ≥ 30 o si la muestra es pequeña pero se conoce la forma de la distribución de X).
Cuando se hace una encuesta y se estima que un cierto parámetro de toda la población
es R con nivel de confianza c y margen de error ε eso quiere decir que se ha estimado que
la probabilidad de que el parámetro esté en el intervalo [R − ε, R + ε] es c. Se dice también
113
que [R − ε, R + ε] es el intervalo de confianza para R con probabilidad c. De costumbre, se
toma c = 95 % sin decirlo explı́citamente.
Por ejemplo, es común que en un periódico se lea que en la próxima elección se espera
que 40 % de los votantes lo hagan por el candidato A con un margen de error de 3 %. Esto
quiere decir que hay 95 % de probabilidad de que el porcentaje de personas que voten por A
esté en el intervalo entre 37 % y 43 %.
Nota: La estadı́stica no funciona muy bien para probabilidades cercanas a 0 o a 1.
Para encontrar los valores z para cada nivel de confianza se hace búsqueda en las tablas
pero a la inversa. Por ejemplo, si c = .95, entonces se busca en la tabla el valor .95 2
= .475
y nos fijamos qué z le corresponde (a este valor le llamamos zc ). Aquı́ está la tabla para los
valores más comunes:
c .8 .9 .95 .99
zc 1.28 1.64 1.96 2.575
Concretamente, en la distribución normal, para cada nivel de confianza c, definimos

zc como el z puntaje (positivo) para el cual hay exactamente probabilidad c de que la
distribución normal caiga entre −zc y zc . Es decir, es el valor tal que:
Z zc
N (t; 0, 1)dt = c.
−zc
Supongamos que tenemos una muestra x de una variable aleatoria X de tamaño n > 30
y queremos estimar el parámetro µ = E(X). Como ya vimos, x = E(x) es una buena esti-
mación. El intervalo de confianza será [x − ε, x + ε]. El margen de error ε será un número
que dependerá de la muestra y del grado de confianza que queremos tener. En el interva-
lo de confianza, el área bajo la curva definida por la gráfica de la distribución normal es
precisamente c.
Por ejemplo, si tomamos la gráfica de la distribución normal N (0, 1) (es decir, cuando
µ = 0 y σ = 1), el área bajo la curva en [−1.96, 1.96] es 0.95.
114
Notemos que si n crece, entonces ε disminuye (si la muestra tiene muchos elementos el
error es pequeño). También tenemos que si c crece, entonces también ε crece (a mayor nivel
de confianza el error es mayor).
9.29 Proposición. Dada una muestra x = (x1 , . . . , xn ) de tamaño n > 30 de una

variable aleatoria X, y un nivel de confianza c, el margen de error es
σ(X) s
ε = zc σ(X) = zc √ ∼ zc √ ,
n n
donde X es la variable aleatoria que calcula el promedio de cada muestra de tamaño n, x es
el promedio de la muestra y s es la desviación estándar estimada de X. Es decir,
(xi − x)2 (xi − x)2
P P
n
s= = .
n−1 n n−1
Demostración. Sabemos que X tiene distribución aproximadamente normal, ası́ que sim-
plemente hay que multiplicar zc , que es el margen de error en la distribución normal con
desviación estándar por la desviación estándar de X. ♦
9.30 Ejemplo. Si preguntamos a 100 personas su estatura y el promedio de sus res-

puestas es de 160 cm con desviación estándar estimada de 15 cm, ¿cuál es el intervalo de
confianza del promedio si se desea un nivel de confianza de 95 %?
Solución. Sólo hay que encontrar ε:

s 15
ε = zc √ = 1.96 × √ = 2.94.
n 100
Entonces el intervalo será (157.06, 162.94). En otras palabras, hay 95 % de probabilidad de
que el promedio real de las estaturas esté en ese intervalo. ♦
9.31 Ejemplo. Supongamos que hacemos una encuesta para ver cuántos mexicanos
están de acuerdo con que se legalice la marihuana. Tomamos una muestra de 901 mexicanos
y, de ellos, el 60 % está de acuerdo con que se legalice. Si se desea un nivel de confianza de
95 %, ¿cuál es el intervalo de confianza?
Solución. Es casi el mismo problema que antes, salvo que aparentemente no tenemos la
desviación estándar. Pero sı́ la tenemos: es la distribución de Bernoulli. Entonces
q
(.6)(.4) 901
p
900 (.6)(.4)
ε ∼ 1.96 √ = 1.96 √ ∼ .03
901 900
El intervalo de confianza (57 %, 63 %), es decir, se puede asegurar con un margen de error de
3 % y nivel de confianza de 95 % que el 60 % de los mexicanos están de acuerdo con que se
legalice. ♦
115
9.32 Ejemplo. Queremos una confianza de 95 % para ver el porcentaje de personas
que votarán por A. Empezamos a hacer muestreo y alrededor de 50 % dicen que votarán
por A. ¿Cuántas personas necesitamos encuestar para que el error sea menor a 2 puntos
porcentuales?
Solución. Simplemente hay que despejar n:

r
p(1 − p) zc2
ε = zc =⇒ n = 2 p(1 − p) + 1
n−1 ε
en donde zc = 1.96, ε = 0.02 y p ∼ 0.5. La respuesta es 2401. ♦
9.33 Nota. En el ejemplo anterior observamos que el tamaño de la muestra no depende

del tamaño de la población; es como cuando queremos saber si a una sopa le falta sal: basta
con una cucharadita como muestra, independientemente de si el volumen de la sopa es un
litro, dos litros o lo que sea.
9.34 Ejercicio. Según un censo, el promedio de edades en México es de 40 y la desviación

estándar es de 10. Si tomamos a 100 personas al azar, les preguntamos su edad y tomamos
el promedio de los resultados, ¿cuál es la probabilidad de que la diferencia entre el promedio
calculado y el real sea mayor que 2?
9.6. Inferencia estadı́stica.
Nuestra mente tiende a establecer relaciones y vı́nculos entre los eventos. Desgraciada-
mente, como ya vimos en 6.8, muchas veces se deduce causalidad en forma errónea. Nuestra
formación académica y la comprensión correcta de la estadı́stica nos pueden ayudar a superar
esta tendencia y a evaluar en forma más objetiva los sucesos.
Al dar los conceptos básicos de Probabilidad hemos estudiado ya diversos parámetros

asociados a los datos de una población (a variables aleatorias definidas en espacios muestra-
les) como son: el promedio (o esperanza), la mediana, la varianza, la desviación estándar,
etc. Estos mismos valores se llaman estadı́sticas cuando se asocian a datos de una muestra
en Estadı́stica. La Estadı́stica pretende deducir datos generales a partir de datos obtenidos
a partir de muestras. La forma en que se eligen las muestras y cómo se analizan los datos
son la base de su estudio.
La inferencia estadı́stica consiste en concluir datos generales a partir de muestras alea-

torias. Su estrategia consiste en hacer una conjetura y, si se espera un cierto resultado pero
la muestra analizada se aleja mucho de ese resultado, entonces debe desecharse la conjetura.
116
Un ejemplo de esto es que si se tiene una moneda que se supone está equilibrada pero al
lanzarla 100 veces resulta que 80 de ellas muestra águila, entonces se descarta la conjetura de
que era equilibrada. En lo que sigue estudiaremos también el significado de “poco probable”.
Al escoger una muestra para poder inferir datos sobre la generalidad, se debe buscar que
la muestra tenga las mismas caracterı́sticas que la población general, lo cual se logra mejor
con el azar.
9.35 Ejemplo. En 1936 se hizo una encuesta sobre votación para presidente de Estados
Unidos en el que contendı́an Roosevelt y Landon. La muestra fue enorme y conjeturó que
Landon obtendrı́a 370 votos electorales contra 161 de Roosevelt; sin embargo el resultado
fue que Landon obtuvo 8 votos electorales mientras que Roosevelt obtuvo 523. El error
fue que la encuesta se hizo entre suscriptores de una revista (“Literary Digest”), la cual
habı́a predicho correctamente otras votaciones pero cuyos suscriptores tenı́an una tendencia
polı́tica especial. A partir de ese error las compañı́as que hacen ese tipo de encuestas son
más cuidadosas en seleccionar la muestra de manera más aleatoria.
9.36 Ejemplo. Se hizo una encuesta radiofónica preguntando si el tener hijos fortalecı́a
la relación de una pareja o no; 50 000 que tenı́an hijos llamaron por teléfono y el 70 % respon-
dieron a la encuesta diciendo que no los tendrı́an si empezaran de nuevo; inmediatamente se
hizo otra encuesta de otra manera y resultó que 91 % de las parejas volverı́an a tener hijos
si empezaran otra vez; el defecto en la primera encuesta fue que la respuesta era voluntaria.
Las encuestas que se lanzan a través de Internet, radio, televisión, etc. no son confiables, por
esta razón.
Otro punto a considerar al hacer una encuesta es buscar que la gente diga la verdad; por
ejemplo, es absurdo, en un salón de clase, pedir que los alumnos que hicieron trampa en el
examen pasado levanten la mano. Sin embargo, la estadı́stica nos proporciona un método
interesante para descubrir la respuesta correcta:
9.37 Ejemplo. Un grupo de 1000 alumnos presentó un examen. ¿Cómo puede utilizarse
la Probabilidad para estimar el porcentaje de alumnos que hizo trampa?
Solución. Supongamos que se pide a cada alumno que lance una moneda, y que levante
la mano ya sea si su moneda mostró águila, o si hizo trampa en el examen. Supongamos
entonces que 600 levantaron la mano; con sólo la cuestión de la moneda, se esperaba que
levantaran la mano 500, ası́ que hubo un excedente de 100; esto quiere decir que 100 de
los 500 que se esperaba tuvieran sol levantaron la mano, lo cual hace una proporción de
1
5
, es decir que alrededor del 20 % de los alumnos hizo trampa. Para analizar qué tan lejos
se está del 20 % hay que estudiar la curva binomial con n = 1000 y p = 12 , la cual tiene
una desviación estándar de 20 aproximadamente, ası́ que dentro del rango [460, 540] (a 2
desviaciones estándar de la media) se encuentra el 95 %. Suponiendo que 540 obtuvieron
117
águila, se tendrı́a que 600 − 540 = 60, levantaron la mano a pesar de tener sol, lo que
significa que habrı́a 60 tramposos dentro de los 460 que obtuvieron sol, es decir, la proporción
60
de tramposos serı́a 460 , que es un 13 %. El resultado pensando que 460 tuvieron águila nos
600 − 460
darı́a que el porcentaje de tramposos es de ∼ 26. Entonces se dice que, con
540
130 + 260
confianza del 95 % y margen de error de 6.5 %, hubo = 195 tramposos. ♦
2
Finalmente, en una encuesta hay que vigilar cómo se hace la pregunta pues la respuesta
puede estar inducida; la pregunta debe ser muy clara (sin prestarse a diferentes interpreta-
ciones) y explı́cita (por ejemplo, una pregunta como: ¿votarı́as por el presidente A que va a
subir los impuestos? es tendenciosa y sus resultados no serı́an confiables).
9.7. Prueba de hipótesis
Un método usado dentro de la inferencia estadı́stica se llama prueba de hipótesis. Consiste

en hacer una conjetura contraria a lo que se desea probar, llamada hipótesis nula, y analizar,
bajo esa suposición, qué tan probable es estar fuera de un rango establecido de error. Por
ejemplo, se tiene un acusado de un cierto delito; se hace la conjetura de que es inocente, y se
analiza, bajo la suposición de inocencia, si los datos que se tienen dicen que es poco probable
que sea inocente. La base de la inferencia estadı́stica es usar probabilidad para determinar
qué tan confiable es una afirmación hecha y qué margen de error hay en ella. (Desde luego,
en el caso de juzgar a alguien de un delito, los datos difı́cilmente pueden ponerse en números.
Otro error común es tranformar todo a números y basar juicios en esos números, sin ejercer
criterio).
9.38 Ejemplo. Veamos cómo se aplicarı́a la prueba de hipótesis para ver si una deter-
minada moneda es equilibrada; nuestra hipótesis nula, en este caso, serı́a que no lo es y,
analizando la gráfica de probabilidades en cuanto a que la moneda caiga águila si se la lanza
100 veces, vemos que la inmensa mayorı́a de las veces el resultado de lanzar la moneda 100
veces resulta en que se ve águila entre 40 y 60 veces; entonces, de manera arbitraria, antes
de lanzar la moneda, establecemos nuestro rango de confianza como [40, 60]; si la moneda
cayera águila dentro de este rango, entonces descartarı́amos nuestra suposición de que la
moneda era desequilibrada.
9.39 Nota. Es importante fijar de antemano el rango de confianza (y no establecerlo

después de hecho el experimento). De costumbre y, de manera arbitraria, se establece el
rango en el que se descartará la conjetura, como de 5 %; a la probabilidad de estar en un
valor tan o más extremo que el rango fijado se le llama valor p.
118
9.40 Ejemplo. Supongamos que se quiere ver si una determinada medicina cura cierta
enfermedad. Supongamos también que sabemos que 40 % de la gente que tiene esa enferme-
dad se cura espontáneamente después de una semana. Entonces hacemos la hipótesis nula de
que la medicina no funciona y consideramos la gráfica de probabilidades de una muestra de
100 personas que se pcurarı́an espontáneamente.
√ Tenemos una curva de Bell, con media 40 y
desviación estándar 100(.4)(1 − .4) = 24 ∼ 5, por ser una distribución binomial, según
se vio en 8.3. Establecemos nuestro rango permitido como de 5 %. Si le damos la medicina a
100 personas y resulta que 51 se curan en una semana, calculamos la probabilidad de estar
alejados de la media en 11 o más (es decir, en el rango [0, 29] ∪ [51, 100]) y vemos que es
3.2 %, lo cual es menor que el 5 % que habı́amos fijado, ası́ que rechazamos la conjetura;
entonces decimos que la medicina sı́ funciona con un valor p de 3.2 %. (En el dibujo el área
sombreada representa el 5 % del total del área bajo la curva, a 2 desviaciones estándar de
distancia de la media.)
9.41 Nota. Hay que tener cuidado en cómo se aplica la prueba de hipótesis. En los
ejemplos que vimos, conocemos la media y la desviación estándar; sin embargo, si por ejemplo
se asegura que la ingesta calórica diaria promedio de un hombre es 2400 y queremos ver si
esto es cierto y tomamos una muestra de 20 personas y todas ingieren 2500 calorı́as, no
sabremos si 100 de diferencia es mucho o no; esto dependerı́a de si los valores promedio
estuvieran muy dispersos o no.
Ahora veamos qué tan confiable puede ser nuestra evaluación de una muestra y qué tan
cerca de la verdad obtenemos la información a través de la muestra.
9.42 Ejemplo. Supongamos que va a haber una elección entre dos candidatos. Debemos
suponer las condiciones ideales de que la muestra fue escogida aleatoriamente, que todas las
personas a las que se les preguntó contestaron, que dijeron la verdad y que toda la población
vota. Digamos que la muestra consta de n personas y que, de toda la población, 60 % está
a favor de A. Bajo esta suposición, consideremos las distintas gráficas de densidad para
n = 10, 100, 1000.
119
Notemos que, de 10 personas, no es raro que 4 contesten que están a favor de A pues sólo
los valores de 0, 1, 9 y 10 representan menos del 5 % de la probabilidad total; por otro lado,
si n = 1000, entonces es muy raro obtener respuestas menores que 550 o mayores que 650.
Normalmente uno trabaja al revés pues no sabe cuántas personas están a favor de A
y sólo tiene la información de la muestra. Entonces digamos que de 1000 personas, 590
respondieron que estaban a favor de A. Uno hace varias hipótesis diciendo que un cierto
porcentaje p de toda la población está a favor de A y se pregunta entonces: siendo p el
porcentaje de gente a favor de A, ¿cuál es la probabilidad de haber obtenido 590 respuestas
favorables de 1000? Entonces se mueve la curva como la tercera de la figura con centro p
(normalizando p a que represente porcentaje) y se fija para qué valores de p, 590 queda
dentro de un rango permitido, digamos, con probabilidad de 95 %; por ejemplo, se puede
obtener que p ∈ [560, 620]. En este caso se dice que la gente está a favor del candidato A un
59 % con margen de error de 3 % (pues 56 = 59 − 3 y 62 = 59 + 3) y confianza de 95 %.
120
9.43 Ejercicio. Supongamos que cierta persona afirma que puede distinguir entre dos
refrescos que tienen el mismo aspecto. Se le va a dar a probar 20 veces cada par de refrescos
y se le preguntará cuál es cada uno. Hacer una hipótesis nula con rango de confianza del 5 %
y calcular con cuántas respuestas correctas se descartarı́a la hipótesis nula.
9.44 Nota. Dentro de la inferencia estadı́stica hay dos tipos de errores; un error del tipo
1 es cuando se rechaza la hipótesis nula a pesar de ser cierta (porque el azar dio un resultado
dentro de 5 %); un error del tipo 2 es que no se rechace la hipótesis nula a pesar de que sı́ sea
falsa, es decir, la realidad es distinta de la hipótesis. En el sistema jurı́dico debe hacerse la
suposición de inocencia (y entonces la hipótesis nula es que es culpable) tratando de evitar
un error del tipo 1.
9.8. Evitar errores de interpretación de datos
Al interpretar datos hay que tomar en cuenta si existen muchas variables. En ese caso
deben fijarse todas salvo una para ver el efecto de ésa. Por ejemplo, para ver las mejores
condiciones de crecimiento de maı́z bajo un fertilizante, hay que usar la misma tierra, la
misma agua, el mismo sol, etc.
9.45 Ejemplo. Al probar el efecto de una medicina debe darse a la mitad de la gente
dentro de un grupo un placebo (es decir, algo que parece medicina pero que no lo es), y
a la otra mitad debe dársele la medicina. Ninguno de los dos grupos debe saber qué se le
está dando. Además, las personas que hacen la entrevista al final del experimento a los que
tomaron la medicina o el placebo tampoco deben saber qué tomó la persona entrevistada
para evitar que su propio juicio sobre la respuesta sea parcial. Este tipo de estudio se llama
doble ciego.
En lo que sigue veremos algunos errores al aplicar la estadı́stica de manera superficial.
9.46 Nota. En un experimento puede haber variables ocultas; son las que afectan el
experimento pero que no se tomaron en cuenta. Por ejemplo, como vimos en 2.1 es común
que se diga que hablarle a las plantas mejora su crecimiento, y que se presenten “pruebas”
de esto pero sin tomar en cuenta que las personas que hablan a las plantas probablemente
también las cuidan más. Otro ejemplo es afirmar que la gente que lleva 20 años casada tiene
mejor salario; la variable oculta aquı́ podrı́a ser que no se tomó en cuenta la edad.
No es válido decir que algo que pasó (sin previsión de análisis de esa ocurrencia) era poco
121
probable, y con ello sacar una conclusión.
Los siguientes cuatro ejemplos tienen que ver con esto mismo.
9.47 Ejemplo. Puede ser que una determinada persona escriba una sucesión cualquiera
de 5 letras y resulte que es una palabra en algún idioma desconocido por ella. Es absurdo
que alguien la lea y diga que la probabilidad de haberla escrito es muy pequeña ası́ que
probablemente ya la conocı́a (tal vez en otra vida).
9.48 Ejemplo. A raı́z de los ataques a las torres gemelas de Nueva York el 11 de sep-
tiembre de 2001, mucha gente reportó haber tenido sueños muy vı́vidos acerca de explosiones,
los cuales incluso habı́an descrito a amigos suyos, antes de los ataques. ¿Se puede decir con
esto que esas personas tienen poderes sı́quicos? Sin negar o estar a favor de estas ideas, la
respuesta es no. Hay miles de millones de personas en el mundo y cada persona sueña mu-
chas veces durante una noche. Con esto es mucho más que suficiente para que todos los dı́as
muchas personas sueñen con explosiones vı́vidamente. Cuando no pasa nada, esos sueños se
olvidan, pero cuando pasa algo, entonces nos llama la atención y pensamos que tuvimos una
premonición.
9.49 Ejemplo. Muchas veces oı́mos a alguien decir que le dio gripa porque un par de dı́as
antes sufrió un cambio de temperatura. Como hemos dicho anteriormente, para comprobar
una afirmación de este tipo debe hacerse primero la conjetura y después hacer las pruebas,
es decir, no es correcto que cuando tenemos gripa hagamos memoria de si nos enfriamos o no
unos dı́as antes; un estudio estadı́stico correcto debe ser al revés: hacer un apunte de cada vez
que nos enfriamos y, de manera totalmente independiente, anotar cuando nos enfermamos;
después, con los dos datos juntos, estudiar la correlación. (Existen muchos estudios en cuanto
a los mitos sobre la gripa; ver, por ejemplo, http://www.commoncold.org/ o o http://www.
tylervigen.com/spurious-correlations)
9.50 Ejemplo. En un juicio se acusa a S de haber matado a su esposa. Habı́a suficiente

evidencia de que la habı́a golpeado con anterioridad. El defensor argumenta que sólo uno de
cada 1000 hombres que golpean a su esposa terminan por matarla, ası́ que la probabilidad
1
de que la haya matado es 1000 . ¿Hay error en ese razonamiento?
1
Solución. Sı́ hay error. Hay que comparar esa estadı́stica de 1000 con el resto de la pobla-
ción, es decir, cuántos hombres que no golpean a la esposa terminan por matarla. Además,
el hecho es que ya está muerta también es importante. ♦
9.51 Ejemplo. Supongamos que en un crimen se descubre que una muestra de sangre
pertenece al criminal y que, al analizar el ADN y buscar registros policiales, resulta que el
ADN de una cierta persona coincide en las caracterı́sticas con el ADN encontrado, de manera
que sólo 1 de cada millón de personas tiene esa coincidencia. ¿Es entonces muy probable que
122
la persona haya cometido el crimen?
Solución. Una vez más, serı́a una afirmación altamente aventurada, por ejemplo, si consi-
deramos que dentro de un paı́s de 100 millones de personas se esperarı́a que 100 que tuvieran
esas mismas caracterı́sticas de ADN. Desde luego, como en todo lo que hemos dicho, hay que
usar la información con cuidado y, por ejemplo, si se tiene algún otro dato como que se vio
a esa persona entrar al lugar del crimen un rato antes de la comisión del crimen, entonces sı́
serı́a una evidencia extremadamente fuerte la del ADN. ♦
9.52 Ejemplo. Consideremos los datos de la Liga de Beisbol Americana y supongamos

que queremos ver quién ha sido el mejor beisbolista de todos los tiempos. En primer lugar
hay que decidir qué cualidad se trata de analizar. Digamos que se busca el mejor promedio de
bateo (en el que se descartan las bondades del “pitcher”). La estadı́stica de bateo cuenta qué
proporción de las veces que un bateador tiene su turno para batear logra hacer un “hit”, es
decir, gracias a cómo bateó la bola, él logra correr a la primera base antes de que un jugador
del otro equipo lo toque con la misma bola que él bateó); se dice entonces que el jugador tiene
un porcentaje de .32 si el 32 % de las ocasiones que estuvo como bateador, logró hacer un hit.
La primera pregunta es durante cuánto tiempo debe considerarse ese promedio. Resultarı́a
absurdo considerar toda la vida de un jugador, puesto que puede haber empezado muy joven
o haberse retirado ya cuando habı́a decaı́do; entonces podemos decir que se considera sólo
un año; por otro lado, también es absurdo que entre en competencia alguien que sólo tuvo
una oportunidad de batear; entonces digamos que se pide que al menos haya estado como
bateador 80 veces en la temporada. Si uno hace ese análisis y sólo dice los años de los mejores
resultados, en orden, la lista es: 1901, 1924, 1922, 1911, 1912, 1911, 1920, 1941, 1925, 1923,
1922, 1930, 1922, 1939, 1929, 1927, 1921, 1912, 1994, 1921. Como puede apreciarse, en esta
lista de los mejores 20, todos salvo uno son anteriores a 1941. ¿Qué se puede inferir de esto?,
¿qué antes los bateadores eran mejores? Esto es absurdo, ası́ que vemos que hay que proceder
de otra manera en la evaluación. Resulta entonces más lógico comparar a cada bateador con
los de su propio año. Veamos cómo puede hacerse esto. Se tiene, por ejemplo que en 1920 los
10 mejores porcentajes de bateo fueron .4, .39, .39, .38, .37, .37, .36, .36, .35, .35, mientras
que en el año 2000 los 10 mejores porcentajes fueron: .37, .37, .36, .36, .36, .35, .35, .35,
.34, .34; se ve además que la desviación estándar en 1920 fue mucho mayor que en 2000, es
decir, en 2000 los bateadores tienen todos un promedio más cercano a la media. Se considera
entonces a cuántas desviaciones estándar de distancia de la media está cada bateador, es
decir, el z-score o puntaje z; de esta manera, en 1920, un bateador con promedio de .38 tiene
un z-score de 2.3 sobre la media y ese mismo z-score lo tiene un bateador con promedio de
.36 en 2000; se considera que dos bateadores ası́ tienen la misma calidad.
Otro punto que podrı́a considerarse también es si con su bateo el bateador no sólo llega a
primera base sino que llega a segunda, tercera o da la vuelta completa. En este último caso
se da un factor a cada bateo: se multiplica por 1 si el bateador llega a primera, por 2 si llega
a segunda, etc. Esto nos da una nueva clasificación de los bateadores.
123
9.53 Ejemplo. A continuación se presentan dos listas de 00 s y 10 s. Una de ellas fue hecha
al azar (por computadora) y la otra fue hecha por una persona, tratando que fuera aleatoria.
¿Cuál es cuál?
1100001110110100100111001011000111000000,
0100111010011100011011101001101001101000.
Solución. La primera fue hecha por computadora. Lo interesante de esto es que la primera
tiene “rachas” de repetición y la segunda no. De hecho, si lanzamos una moneda al aire 11
veces, es más probable que en algún momento haya por lo menos 4 águilas o 4 soles seguidos,
a que no los haya (ası́ que, si la lanzamos más veces, es todavı́a más probable y también es
más probable que aparecezcan cadenas más largas de repetición). Para ver esto observemos
que una sucesión de águilas y soles de longitud 11 que empiece con águila está determinada
por una suma a1 + a2 + · · · + ak = 11, donde a1 es el número de águilas al principio, a2
es el número de soles a continuación, etc. Entonces, el número de sucesiones que no tienen
una repetición de al menos 4 águilas o 4 soles y que empiezan con águila es el tamaño del
siguiente conjunto:
H = {(a1 , a2 , . . . , ak ) : k = 1, 2, . . . , 11; a1 + a2 + · · · + ak = 11; ∀ i, 1 ≤ ai ≤ 3}.

11
En consecuencia, la probabilidad de que haya 4 o más águilas o soles seguidos es 2 2−2|H|
11 (el 2
que multiplica |H| aparece considerando que una sucesión puede empezar con sol también).
Calculemos el tamaño de H según las posibilidades para k:
∗ k = 11. Todas las ai son 1 y hay una posibilidad que escribimos, por conveniencia de
acuerdo a lo que sigue, como 10
10
.
10
∗ k = 10. Exactamente una ai es 2 y las demás son 1, por tanto hay 10 posibilidades:
1
.
∗ k = 9. Aquı́, y en lo que sigue, observemos que cada sucesión (a1 , a2 , . . . , ak ) se puede
representar poniendo 11 rayitas − y escogiendo k − 1 de los 10 espacios que hay entre las
rayitas para poner un separador |; entonces a1 será el número de rayitas que hay antes (a
la izquierda) del primer separador, a2 será el número de rayitas que hay entre el primer
separador y el segundo, etc. (Por ejemplo, la sucesión (1, 3, 1, 1, 2, 3) está representada por:
−| − − − | − | − | − −| − − − .)
Entonces, para k = 9, las posibilidades son 10

8
y observamos que ninguna ai puede ser
mayor o igual que 4, pues las otras 8 deberı́an ser naturales con suma 7.
∗ k = 8. Como arriba, el número de posibilidades es 10

7
, salvo que aquı́ alguna de las ai
podrı́a ser 4 y podrı́a
estar en cualquiera de los 8 lugares. En total el número de posibilidades
en este caso es 107
− 8.
∗ k = 7. Como antes, el número de posibilidades es 10

6
y hay que restar cuando hay un
4; en este caso los otros 6 naturales sumarı́an 7, ası́ que uno tendrı́a que ser 2 y los otros 1;
eso nos dice que tenemos que restar 7 · 6 (la elección de los lugares para el 4 y el 2); también
124
podrı́a haber un 5 (y entonces los demás naturales serı́an 1), lo cual nos da 7 posibilidades.
10

En total las posibilidades en este caso son 6 − 49.
10

∗ k = 6. Procediendo como arriba, tenemos que hay 5
posibilidades; pero con un 4 hay
6

6 4 = 90 (pues hay 6 lugares para poner el 4 y los otros 5 números sumarı́an 7, ası́ que el
razonamiento es el mismo de separadores que hemos venido usando); con un 5 hay 6 × 5 = 30
(pues uno de los númerosrestantes serı́a un 2 y los otros serı́an 1); con un 6 habrı́a 6. En
total en este caso hay: 10
5
− 90 − 30 − 6 = 10 5
− 126.
∗ k = 5. Aquı́ nos conviene más contarlos directamente (pues ya podrı́a haber dos 40 s) y
suponer que a1 ≤ a2 ≤ a3 ≤ a4 ≤ a5 (y después multiplicar por lo necesario para revolverlos).
Vemos que si los dos primeros son 1, entonces los otros tres suman 9, ası́ que sólo hay una
5
posibilidad (con los ai ≤ 3): la sucesión (1, 1, 3, 3, 3) y sus permutaciones que son 2 = 10;
si los primeros son 1, 2, 2, entonces los otros dos deben sumar 6 y la única posibilidad es
(1, 2, 2, 3, 3) que, con sus permutaciones, nos da 52 32 = 30 posibilidades. Si a1 = 2, entonces

la única sucesión es (2, 2, 2, 2, 3) que tiene 5 permutaciones. En total son 45 sucesiones.

∗ k = 4. Lo hacemos como el caso anterior, contando las sucesiones (a1 , a2 , a3 , a4 ) con
a1 ≤ a2 ≤ a3 ≤ a4 . En este caso no puede haber ningún 1 pues los otros 3 números sumarı́an
10, lo que implicarı́a que alguno de ellos es 4 (o más). Entonces la única posibilidad es
(2, 3, 3, 3), y el número de posibilidades es 4.
∗ k ≤ 3. Estos casos ya no aumentan la cuenta pues alguno de los ai forzosamente es
mayor o igual que 4.
El total de sucesiones de longitud 11 que tienen 4 o más águilas o soles seguidos es:
211 − 2 10 + 10 + 10 + 10 − 8 + 10 − 49 + 10

10 9 8 7 6 5
− 26 + 45 + 4
10 10 10 10 10

= 211 − 2 210 − 4
− 3
− 2
− 1
− 0
− 134
= 2(210 + 120 + 45 + 10 + 1 + 134) = 1040.

1040
La probabilidad de que haya 4 o más águilas o soles seguidos es 2048
> 12 .
9.54 Ejemplo. Cuando se tienen muchos datos acerca de algo, es necesario organizarlos,
describirlos y resumirlos. Por ejemplo, si se quiere describir qué afecta al determinar el precio
de una casa, hay varios factores a considerar: el número de metros cuadrados de terreno,
el número de metros cuadrados de construcción, el número de recámaras, la localización,
la antigüedad, el tipo de construcción, etc. Sin embargo, muchos de estos datos pueden
estar relacionados, es decir, tener correlación, digamos, positiva (como pueden ser el número
de metros cuadrados de construcción y el número de recámaras). La idea es tratar de no
repetir al dar una fórmula para dar el precio. Para empezar, se puede pensar que cada metro
cuadrado de construcción aumenta una constante el valor de la casa. Sin embargo estos
valores no son precisos, es decir, una casa puede valer más o menos que la fórmula que se
tuviera; podrı́a observarse, por ejemplo, que el 70 % del valor de la casa depende sólo del
125
número de metros construidos. Se hace entonces un análisis de varianza, es decir, se hace
una hipótesis nula de que ninguna de las variables afecta la respuesta y, si el valor p es menor
que .05, se tiene que alguna de las otras variables debe ser explicatoria. Finalmente podrı́a
tenerse una fórmula del estilo:
P = 190c + 10t − 25d − 24r + 65,
en la que 1000P es el valor de la casa, c es el número de metros cuadrados construidos, t es
el número de metros cuadrados del terreno, d es la distancia al centro de la ciudad, r es el
número de recámaras (que aparece con signo negativo por lo que explicamos al principio de
su relación con c y, en caso de que r sea grande es porque las recámaras son más pequeñas
y eso es una indicación de menos lujo). Con esta nueva fórmula ya se tendrı́a, por ejemplo,
que 78 % del valor de la casa está explicada por las variables c, t, d y r.
9.55 Nota. Como vimos en el ejemplo anterior, cuando se va a hacer una evaluación de
algo, por ejemplo mediante una encuesta, hay que tener en consideración las repeticiones.
En muchas ocasiones hemos resuelto encuestas, por ejemplo, sobre evaluación de personas o
de algún servicio, en las que los datos importantes no se preguntan y, sin embargo, hay otros
datos que tienen implı́cita la respuesta de otros. Tal vez una encuesta con muchas preguntas,
incluso repetitivas, no sea mala; lo que puede ser muy malo es la forma de analizar los datos.
Como hemos visto, la estadı́stica puede ser muy útil, pero también se presta a que se
use de manera inadecuada. Muchos datos estadı́sticos no pueden dar una respuesta absoluta
porque, como hemos dicho, pueden tener una o varias variables ocultas. En muchas ocasiones
se trata de usar el promedio sin hacer un análisis de su significado. Un ejemplo chusco serı́a
decir que la persona promedio tiene un ovario y un testı́culo (la variable oculta serı́a no
distinguir el sexo de las personas). Damos a continuación algunos ejemplos de mal uso de la
estadı́stica.
9.56 Ejemplo. Un anuncio de una escuela dice que los egresados de ella en promedio
ganan más dinero que el resto de la población. No miente pero una variable oculta es que
dos de los estudiantes de esa escuela fueron Bill Gates y Paul Alan.
9.57 Ejemplo. Una escuela dice que tiene atención personalizada porque sus grupos
constan en promedio de 4 alumnos. No miente pero resulta que hay 48 salones con 2 alumnos
y un salón con 100 alumnos; ası́, de los 196 alumnos de la escuela, más de la mitad tiene
la experiencia de estar acompañado con otros 99 alumnos. (En un caso ası́ es más útil la
mediana.)
Otra forma de malinterpretar los datos, y que nos pasa con frecuencia, es que la gente
que nos rodea tiende a ser, de alguna manera, parecida a nosotros; esto nos da una visión
parcial del mundo; por ejemplo, de cómo piensa la gente en general. También muchos de
nosotros leemos periódicos que tienen una idea polı́tica similar a la nuestra y esto nos da
126
una idea distorsionada de la realidad o del pensamiento general de la gente.
9.58 Ejemplo. Hay datos de que en cierto paı́s hay mucha violencia y, por tanto no
nos atrevemos a viajar ahı́. Después nos enteramos que el número de muertes por accidentes
automovilı́sticos es 4 veces más alto que el de las muertes en ese paı́s. El problema aquı́ es que
los medios de comunicación destacan las noticias que llaman la atención y no las cotidianas.
Todo esto puede ser, simplemente, falta de interpretación correcta de los datos estadı́sticos
por nuestra parte pero también hay reportes que se hacen de manera tendenciosa volunta-
riamente (incluso sin mentir).
9.59 Ejemplo. Se reporta que una cierta medicina se le dio a 25 personas y que 20 de
ellas se curaron; sin embargo la medicina no sirve y lo que pasa es que se hicieron muchos
experimentos con grupos de 25 personas y sólo se reportó el que daba números favorables
para el laboratorio que la vende.
Un ejemplo parecido al anterior es el siguiente:
9.60 Ejemplo. Un corredor de bolsa puede cometer un fraude por Internet como sigue:
Le anuncia a 1 024 000 personas que cierta acción en la bolsa subirá la siguiente semana y
a 1 024 000 que la acción bajará. Al cabo de la semana, a una mitad del grupo al que le
dijo lo que en efecto ocurrió, le pronostica que otra acción subirá y a la otra mitad le dice
que bajará; ası́ sucesivamente, va dividiendo al grupo en que va acertando en dos del mismo
tamaño, a la mitad le hace una predicción y a la otra mitad, la contraria. Al final de 8
predicciones, con 1000 personas habrá acertado todas las veces y con ello las convencerá que
inviertan su dinero con él.
9.61 Ejemplo. Se nos puede anunciar que una inversión es muy redituable y se nos
muestra la siguiente tabla. El incremento real es de 0.5 % mensual pero la gráfica da la idea
de que cada mes se duplica la inversión; aquı́ el error es que en el eje vertical la distancia de
0 a 1000 está desproporcionada con respecto a la de los demás.
1020
1015
1010
1005
1000
9.62 Ejemplo. Dependiendo de la idea que se quiera dar, se pueden presentar dos
gráficas que dicen los mismos resultados pero que, sicológicamente, dan ideas diferentes; por
127
ejemplo, podrı́a plantearse una disminución de impuestos al salario dependiendo del rango
de salario, indicando en el eje x salarios menores a $5 000, en el rango de $5 000 a $10 000,
etc.; sin embargo en el eje y en la gráfica de la izquierda se presentarı́a el porcentaje de
ahorro, dando la idea de que todos los salarios tienen aproximadamente el mismo ahorro,
mientras que en la gráfica de la derecha se indicarı́a la cantidad de pesos ahorrados cada
periodo, mostrando que los que tienen salario mayor ahorrarı́an más.
1000
3
2
500
1
0
<5 5-10 10-15 15-20 20-25 25-30 30-35 >35 0
<5 5-10 10-15 15-20 20-25 25-30 >35
9.63 Ejemplo. Otra propaganda que puede conducir a una idea errónea es, por ejemplo,
decir que quien ingiere determinado alimento regularmente tiene un riesgo 30 % mayor de
de tener una cierta enfermedad que quien no lo ingiere. Para analizar el verdadero valor de
una afirmación ası́ hay que conocer cuál es el riesgo de quien no lo ingiere; por ejemplo, si
éste dice que 10 personas de cada millón tienen esa enfermedad, entonces el riesgo de los que
ingieren el alimento es de 13 sobre un millón, lo cual es irrelevante.
9.64 Ejemplo. Otro estilo de distorsión es la extrapolación. Por ejemplo, si se dice que
la tendencia de crecimiento de la población mundial actual es de 1.3 % anual y se piensa
que continuarı́a ası́, entonces para el año 3000 habrı́a 2 441 000 000 000 000 habitantes, lo que
significarı́a que habrı́a 20 personas por metro cuadrado en la Tierra.
9.65 Ejemplo. También con extrapolación, analizando de 1900 a 2000 los mejores tiem-
pos en que un corredor hace 1500 metros, se verı́a que esto se aproxima a una recta y,
calculando el valor en el año 2600 resultarı́a que el corredor llegó a la meta antes de salir.
9.66 Ejemplo. El punto de vista bayesiano es que tenemos una idea del mundo y, con
base en ella juzgamos de manera diferente resultados estadı́sticos iguales. Analicemos, por
ejemplo, las siguientes situaciones:
∗ Se nos dice que alguien es un musicólogo experto; le damos 5 veces a distinguir entre
una pieza de Mozart y una de Haydn y las 5 acierta.
∗ Una persona dice que distingue la marca de dos refrescos similares. Hace el experimento
5 veces y acierta.
∗ Una persona dice que puede predecir si al lanzar una moneda al aire caerá águila o sol.
Se le hace la prueba 5 veces y acierta.
En la primera prueba quedaremos convencidos que el musicólogo es realmente experto;
128
en el segundo caso seremos más escépticos y, en el tercero aseguraremos que fue casualidad.
También, si vamos a una tienda de magia y se nos da una moneda no equilibrada, si la
lanzamos 4 veces y tres de ellas sale águila nos formamos la idea de que la probabilidad
de que salga águila es 34 ; si la lanzamos dos veces más y sale un águila y un sol, entonces
modificaremos nuestra idea y pensaremos que la probabilidad de que salga águila es 23 .
9.67 Ejemplo. Otra idea interesante que muchas veces no se toma en cuenta y que nos
hace entender mal una situación es la de tendencia a regresar al promedio. Por ejemplo,
supongamos que tenemos una gripa y que un amigo nos ofrece un remedio para sentirnos
mejor; lo más probable es que, sin hacer nada, pronto mejoremos (regresamos a nuestro
estado normal) pero nosotros decimos que fue gracias al remedio. Otro ejemplo es que un
basquetbolista un dı́a mete 20 % más canastas en un partido; su entrenador lo felicita y, en
el siguiente partido juega peor; el entrenador decide que la felicitación le hizo daño, ası́ que
ahora decide regañar a sus jugadores lo cual tiene efecto positivo después de que un jugador
juega mal, por el mismo principio. Un tercer ejemplo en este sentido es cuando se invierte
en un determinado bien porque ha venido aumentando su valor e, inmediatamente, después
de hacer la inversión, el bien baja de valor (¡se culpa a la suerte!).
9.68 Ejemplo. Muchas veces oı́mos lamentos diciendo que estamos muy mal en relación
con años pasados pues tal o cual cosa tenı́a un precio mucho menor que ahora. Quejas ası́ sólo
tienen sentido si se hace una evaluación comparativa entre salarios (por el mismo trabajo)
y costos al consumidor a través del tiempo. El ı́ndice de precios y cotizaciones, IPC, analiza
la variación de los precios y servicios al consumidor. La canasta básica es un conjunto de
objetos y servicios que se consideran básicos en una época determinada. Se busca que las
cosas elegidas dentro de la canasta básica sean siempre equiparables aunque, desde luego,
deben ir cambiando conforme cambian las necesidades de las personas a través del tiempo.
El distinto costo de esa canasta básica es lo que determina la inflación. Tratando de tener
un valor de referencia fijo muchas cosas legales se indican a través del IPC.
9.69 Nota. Una observación muy sorprendente es la ley de Benford. Ésta establece que
en listas arbitrarias de datos estadı́sticos, el primer dı́gito d aparece con la probabilidad
log10 1 + d1 ; esto es, como primer dı́gito el 1 tiene una frecuencia de 30.1 %, el 2 de 17.6 %,

el 3 de 12.5 %, el 4 de 9.7 %, el 5 de 7.9 %, el 6 de 6.6 %, el 7 de 5.8 %, el 8 de 5.1 % y el

9 de 4.6 %. Esto es cierto para asuntos económicos, áreas de lagos o de ciudades, tamaños
de poblaciones, etc. Desde luego, no es cierto para números escogidos aleatoriamente, para
números de teléfono, etc.
9.70 Ejemplo. A continuación se muestra una tabla en la que se empieza con 2 (elegido
arbitrariamente), se le suma 3 % (también arbitrario), al resultado se le suma 3 % (del resul-
tado) y ası́ sucesivamente; sólo se muestra la parte entera del resultado. Hay 400 números
(también esta cantidad fue elegida en forma arbitraria), de los cuales 117 empiezan con 1,
129
es decir, el 29.25 %.
2 2 2 2 2 2 2 2 3 3
3 3 3 3 3 3 3 3 3 4
4 4 4 4 4 4 4 4 5 5
5 5 5 5 5 6 6 6 6 6
7 7 7 7 7 8 8 8 8 9
9 9 9 10 10 10 10 11 11 11
12 12 13 13 13 14 14 14 15 15
16 16 17 17 18 18 19 19 20 21
21 22 23 23 24 25 25 26 27 28
29 29 30 31 32 33 34 35 36 37
38 40 41 42 43 45 46 47 49 50
52 53 55 56 58 60 62 64 65 67
69 72 74 76 78 80 83 85 88 91
93 96 99 102 105 108 111 115 118 122
125 129 133 137 141 145 150 154 159 164
169 174 179 184 190 195 201 207 213 220
226 233 240 247 255 263 270 279 287 295
304 313 323 333 343 353 363 374 386 397
409 421 434 447 460 474 488 503 518 534
550 566 583 601 619 637 656 676 696 717
739 761 784 807 831 856 882 909 936 964
993 1023 1053 1085 1117 1151 1185 1221 1258 1295
1334 1374 1415 1458 1502 1547 1593 1641 1690 1741
1793 1847 1902 1959 2018 2079 2141 2205 2271 2340
2410 2482 2556 2633 2712 2794 2877 2964 3053 3144
3238 3336 3436 3539 3645 3754 3867 3983 4102 4225
4352 4483 4617 4756 4898 5045 5197 5353 5513 5679
5849 6024 6205 6391 6583 6781 6984 7194 7409 7632
7861 8096 8339 8589 8847 9113 9386 9667 9958 10256
10564 10881 11207 11543 11890 12246 12614 12992 13382 13784
14197 14623 15062 15513 15979 16458 16952 17461 17984 18524
19080 19652 20242 20849 21474 22119 22782 23466 24169 24895
25641 26411 27203 28019 28860 29725 30617 31536 32482 33456
34460 35494 36559 37655 38785 39948 41147 42381 43653 44962
46311 47701 49132 50606 52124 53687 55298 56957 58666 60426
62238 64106 66029 68010 70050 72151 74316 76545 78842 81207
83643 86153 88737 91399 94141 96965 99874 102871 105957 109135
112410 115782 119255 122833 126518 130313 134223 138250 142397 146669
151069 155601 160269 165077 170030 175130 180384 185796 191370 197111
203024 209115 215388 221850 228505 235361 242421 249694 257185 264900
Lo que pasa en el ejemplo anterior puede explicarse como sigue: Es una serie geométrica
en la que se va multiplicando por 1.03; cuando el número empieza por 1, al sumarle su 3 %
130
(o cualquier porcentaje) cambia poco en comparación con los números que empiezan con
otros dı́gitos; por ejemplo, si a 1530 le sumamos 3 % obtenemos 1575 (diferencia de 45 con
el número original); si le hacemos lo mismo a 2530 obtenemos 2605 (diferencia de 75) y si se
lo hacemos a 6530 el resultado es 6725 (diferencia de 195).
Otra explicación de la ley de Benford la encontramos en que los datos de tamaños de

cosas están acotados; cuando están acotados por, digamos, 500, es más fácil que empiecen
con cualquier número entre 1 y 4 a que empiecen con 9.
Uno podrı́a detectar un fraude en datos contables de una compañı́a usando esta ley.
9.71 Ejemplo. Otra forma interesante de usar la estadı́stica es para contar grandes
volúmenes de cosas. Por ejemplo, si se quiere ver cuántos tigres hay en la selva, se puede
capturar a unos cuantos, digamos a 50, ponerles una marca en la oreja y dejarlos ir. Después
de un tiempo se captura otra vez a 100 tigres y se cuenta qué porcentaje tiene marca.
Supongamos que hay 8 con marca; entonces, como la proporción debe ser muy parecida, si
llamamos x al número de tigres de la selva, tenemos que 50x
8
∼ 100 , de donde x ∼ 625. Con
esta misma idea se calcula el volumen de un lago: Se echa un kilo de sal, se espera a que se
mezcle y se recoge un metro cúbico de agua; se pone a hervir hasta que se evapore toda el
agua y se pesa la sal que quedó.
9.9. Métodos de elección
A continuación vamos a dar ejemplos para ilustrar que ningún método de votación entre
3 o más candidatos puede tener las caracterı́sticas ideales. Describiremos varios métodos de
votación y los problemas de cada uno.
9.72 Ejemplo. Supongamos que hay tres candidatos: A, A0 y B y que la población está
dividida en dos grupos: los que prefieren a cualquiera de A o A0 sobre B, y los que prefieren
a B sobre cualquiera de A o A0 , y que la tabla de preferencias es
preferencias/# personas 8 4 6 4
primero A A' B B
segundo A' A A' A
tercero B B A A'
131
es decir, 8 personas tienen a A en su primer lugar de preferencias, a A0 en su segundo, etc.
El primer método de votación es el de la pluralidad: Hay una sola ronda de votación y
gana el que más votos obtiene. Según este método ganarı́a B con 10 votos (A tendrı́a 8 y A0
tendrı́a 4).
El segundo método de votación que consideramos es en el que cada miembro vota por
sus dos preferidos. En este caso ganarı́a A0 con 18 votos (mientras que A tendrı́a 16).
El tercer método, llamado método Borda consiste en dar puntaje decreciente a los can-
didatos: 0 al último, 1 al penúltimo, 2 al anterior, etc. En este caso ganarı́a A con 24 puntos
(mientras que A0 tendrı́a 22 y B tendrı́a 20).
En el ejemplo anterior vimos cómo, con métodos que parecen razonables, es posible tener
una distribución de tal manera que cada uno de los candidatos gane en alguno de los métodos.
Veamos más ejemplos.
9.73 Ejemplo. Ahora supongamos que hay 5 candidatos: A, A0 y A00 , favoritos de un

grupo de votantes, y B y B 0 , favoritos de otro grupo; supongamos que la tabla de preferencias
es la siguiente:
votantes/candidatos A A' A'' B B'

primer grupo 10 10 11
segundo grupo 12 13
En este caso, en la tabla se indica, dentro de cada grupo, el cómo están distribuidas las
preferencias, es decir, dentro del primer grupo hay 10 personas que prefieren a A, 10 a A0 ,
11 a A00 , etc.
Con el método de pluralidad ganarı́a B 0 .
Sin embargo, veamos otro método de votación: el de dos rondas: En éste, en una primera
ronda cada votante elige a su favorito y, si ninguno tiene más de 50 % de la totalidad de
los votos, entonces se quedan para una segunda votación únicamente los dos candidatos con
mayor número de votos. En el caso del ejemplo ganarı́a uno de los dos de B o B 0 (dependiendo
a cuál de los dos se adhirieran los del primer grupo) y, podrı́amos suponer que gana B 0 . Sin
embargo observemos una cosa curiosa, digamos que al principio, en lugar de que 12 del
segundo grupo estuvieran por B y 13 por B 0 , la tabla fuera:
votantes/candidatos A A' A'' B B'

primer grupo 10 10 11
segundo grupo 10 15
132
En este caso, el mismo método de votación dejarı́a en la primera vuelta a A00 y a B 0 , y
en la segunda vuelta quedarı́a A00 como ganador (pues todos los del primer grupo votarı́an
por él). Desde luego, no es deseable que algo ası́ pase, es decir, que el que haya sido mejor
B 0 en la segunda tabla que en la primera dentro de su grupo (lo demás es igual) haga que
pierda la votación global.
9.74 Ejemplo. Otro método de votación es el llamado secuencial por parejas. En éste se
ordenan los candidatos, los dos primeros se enfrentan y el ganador se enfrenta con el tercero;
luego el ganador de esa última competencia se enfrenta con el cuarto y ası́ sucesivamente.
Supongamos aquı́ que la tabla de preferencias el como sigue:
preferencias/votantes X Y Z
primero A C B
segundo B A D
tercero D B C
cuarto C D A
Aquı́ hay tres votantes X, Y y Z y, por ejemplo, el votante X tiene a A como su candidato
favorito, luego a B, luego a D y al final a C. Supongamos que se establece el orden de votación
A−B −C −D; entonces al principio se enfrentan A contra B y gana A (pues X y Y prefieren
a A sobre B y sólo Z tiene el orden inverso de preferencias); según las reglas, ahora A se
enfrenta a C; aquı́ gana C; finalmente en el enfrentamiento entre C y D ganarı́a D. Sin
embargo esto no parece razonable pues todos los votantes preferirı́an a B sobre D (ası́ que
D habrı́a perdido desde el prinicipio si el orden hubiera sido D − B − C − A).
9.75 Ejemplo. Ahora veamos la llamada Paradoja de Condorcet, en la que se ve cómo

ninguno de los candidatos deberı́a ganar puesto que dos terceras partes de la población
preferirı́a a otro sobre el elegido.
preferencias/# personas 10 10 10
primero A B C
segundo B C A
tercero C A B
Por ejemplo, si ganara A, se tendrı́a que 20 de los 30 votantes habrı́an preferido a C sobre
A.
133
Se llama ganador Condorcet a un candidato que podrı́a ganar en un enfrentamiento
directo contra cualquier otro candidato (no siempre hay). Se pensarı́a que en los casos en
que hubiera un ganador Condorcet, él deberı́a ganar la elección general (aunque es claro
que no siempre ocurre esto, pues en general se usa el método de pluralidad). Sin embargo,
veamos el siguiente ejemplo.
9.76 Ejemplo. El ganador Condorcet puede no coincidir con el que da el método Borda
(que también parece ser razonable). Consideremos la siguiente tabla:
preferencias/# personas 30 10 10 1 29 1
primero A B C A B C
segundo B C A C A B
tercero C A B B C A
En el ejemplo, A es ganador Condorcet pues contra B tendrı́a 30 + 10 + 1 = 41 mientras

que B tendrı́a 10 + 29 + 1 = 40, y contra C, A tendrı́a 30 + 1 + 29 = 60 mientras que
C tendrı́a 10 + 10 + 1 = 21. Sin embargo, con el método Borda (ver 9.72) ganarı́a B con
2(10 + 29) + (30 + 1) = 109 puntos (pues A habrı́a obtenido 2(30 + 1) + (10 + 29) = 101 y
C habrı́a obtenido 2(10 + 1) + (10 + 1) = 33).
9.77 Ejemplo. Otro método comúnmente usado es el de hacer varias rondas y en cada
paso ir eliminando al que obtiene menos votos. Este método se usó en la elección del lugar
para los juegos olı́mpicos del año 2000 y los votos que se fueron obteniendo son los siguientes:
ciudades/rondas 1o. 2o. 3o. 4o.

Pekín 32 37 40 43
Sidney 30 30 37 45
Manchester 11 13 11 -
Berlín 9 9 - -
Estambul 7 - - -
Como vemos en el ejemplo, ganó Sidney a pesar de que en cada una de las votaciones
previas Pekı́n habı́a obtenido más votos.
9.78 Ejemplo. Examinemos ahora también una manera de evaluar tres fábricas A, B
y C, poniendo a trabajar 5 máquinas de cada una y contando el número de dı́as que duran
134
antes de fallar. En la tabla se ve, por ejemplo, que la primera máquina de A duró 1137 dı́as
sin fallar, la segunda 993, etc.
fábricas/máquinas 1 2 3 4 5
A 1137 993 472 256 207
B 1088 659 493 259 238
C 756 669 372 240 202
Una forma para evaluar las fábricas serı́a asignarles el orden de duración de dı́as, por
ejemplo, darı́amos el número 1 a la máquina 1 de la fábrica A porque es la que más dı́as
duró trabajando, luego tendrı́a el número 2 la primera máquina de la fábrica B, etc. De esta
manera, la ganadora serı́a la que obtuviera menos puntos, en este caso, A.
fábricas/máquinas 1 2 3 4 5 suma
A 1 3 8 11 14 37
B 2 6 7 10 13 38
C 4 5 9 12 15 45
Pero observemos otra vez que el haya participado la fábrica C en la evaluación cambió
las cosas pues, sin ella la numeración habrı́a sido la siguiente, y entonces habrı́a ganado B.
fábricas/máquinas 1 2 3 4 5 suma
A 1 3 6 8 10 28
B 2 4 5 7 9 27
9.79 Observación. Como vimos en los ejemplos anteriores, a pesar de que un determi-
nado método de votación nos puede parecer razonable, sus resultados no siempre lo son pues
no se da alguna de las siguientes tres condidiones deseables:
∗ Condición pareto. Ésta establece que serı́a deseable ir de acuerdo al consenso, es decir,
no deberı́a ganar un candidato si algún otro es preferido sobre él por los demás votantes
(como ocurrı́a en el método de la votación secuencial por parejas o usando el método de
Borda en 9.72).
∗ Mejor debe ser mejor. En esta condición se pide que el tener más votos de preferencia
no perjudique al candidato (como ocurrı́a en 9.73 con el método de dos rondas).
∗ Irrelevante debe ser irrelevante. Aquı́ lo que se pide es que un candidato que no es favo-
rito no deberı́a alterar la votación de los mejores (lo cual ocurre en el método de pluralidad
9.72 o, como vimos, en la elección de las fábricas).
135
Como vimos en los ejemplos, ninguno de los métodos descrito satisface las tres condi-
ciones. El teorema de imposibilidad de Arrow establece que no existe ningún método que
contemple las tres condiciones simultáneamente (es decir, con cualquier método que se pro-
ponga, se puede dar una tabla de preferencias en la que alguna de las condiciones falle).
9.10. Estimadores.
9.80 Ejemplo. En la 2a Guerra Mundial los Aliados querı́an analizar la fuerza de la

armada alemana; habı́an capturado algunos tanques y observaron que los números de serie
de ellos parecı́an tener numeración consecutiva, empezando con 1, y que éste iba de acuerdo
a la cronologı́a de construcción. El problema general es el siguiente: Supongamos que hay n
objetos numerados y que al azar tenemos un subconjunto de ellos. A partir de los números
de la muestra ¿se puede estimar el valor de n? Cualquier método de solución (o intento de
solución) de esto se llama estimador. Veamos varios estimadores. Supongamos que la muestra
es {68, 35, 38, 107, 52}.
Estimador de la media. Considerando que el promedio de cualquier muestra se pa-
rece al promedio total, que es 1+2+···+n
n
= n(n+1)
2n
= n+1
2
, podemos estimar que n+1 2
∼
68+35+38+107+52
5
= 60, de donde n ∼ 119. Este estimador tiene un grave defecto: podrı́a
dar un número menor que alguno de los números de la muestra, lo cual serı́a un absurdo
(por ejemplo, si se agrega al subconjunto dado el número 300, entonces el nuevo promedio es
600
6
= 100, de donde obtendrı́amos que n ∼ 199 < 300). (Es claro que si hubiéramos estimado
que n+1
2
∼ a la mediana, habrı́amos tenido el mismo problema).
Estimador de máxima probabilidad. Otro estimador que podrı́a parecer razonable es
tratar de maximizar la probabilidad de haber encontrado el subconjunto dado (la cual es
1
), es decir, buscando para qué n el número n5 es mı́nimo, pero esto es claro que se alcanza
(n5 )
con el valor de n lo más chico posibley, considerando también que debe ser mayor o igual
que el mayor número del subconjunto encontrado, tendrı́amos que n = 107. Sin embargo
esto no resulta razonable pues es poco probable que el subconjunto encontrado contenga
precisamente al mayor de los números del conjunto.
Para cada estimador se puede calcular su esperanza, es decir, pensar que el experimento
se repite de manera que todos los sucesos estén considerados; luego, cada vez se toma el
valor que da el estimador y después se toma el promedio de todos esos valores. Un estimador
se llama imparcial si su esperanza es la correcta; por ejemplo, el estimador de la media es
imparcial, pero el de la máxima probabilidad no lo es (pues es claro que el promedio de todos
los máximos elementos de los conjuntos de 5 elementos no coincide con el promedio total:
n+1
2
). Se busca entonces un estimador imparcial pero que no tenga el defecto del de la media,
es decir, que en ningún caso dé un valor absurdo (que el mismo conjunto escogido esté fuera
del rango que da el estimador).
136
9.81 Proposición. El estimador φ siguiente es imparcial y nunca da respuesta falsa.
Dado un subconjunto S = {x1 , x2 , . . . , xk } de {1, 2, . . . , n}, suponiendo que xk es su elemento
mayor, φ está definido por
k+1
φ(S) = xk − 1.
k
Demostración. Primero observemos que nunca da un valor falso, es decir, que xk ≤
k+1
k
xk − 1, lo cual es equivalente a kxk + k ≤ kxk + xk , que, a su vez, es equivalente a k ≤ xk ,
lo cual es claro.
Ahora veamos que es imparcial. Conviene analizar primero un ejemplo. Supongamos que
4
n = 5 y k = 3. Entonces 5 es elemento mayor en 2
= 6 subconjuntos, 4 es elemento mayor
3 2

en 2 = 3 conjuntos y 3 es mayor en 2 = 1 conjuntos. Entonces, en 6 conjuntos el valor
del estimador es 34 · 5 − 1, en 3 conjuntos el valor del estimador es 43 · 4 − 1 y en un conjunto
el valor del estimador es 43 · 3 − 1. El promedio de todos los valores del estimador es

4 4 4
6 ·5−1 +3 ·4−1 +1 ·3−1
3 3 3
5

3
4
(30 + 12 + 3) − (6 + 3 + 1) 60 − 10
= 3 = = 5 = n.
10 10
Ahora sı́, hagamos el caso general. Usaremos las siguientes dos fórmulas de combinatoria:

n n−1 n
= y
r r−1 r

n n n n+1
+ + ··· + = ;
r r+1 n r+1
la primera se demuestra directamente de la definición nr = r!(n−r)!
n!

; para la segunda, observar
que para escoger un conjunto de r+1 elementos dentro del conjunto {1, 2, . . . , n+1} podemos
fijarnos en cuántos conjuntos contienen a un determinado elemento como elemento mayor
del conjunto (como se hizo en el ejemplo aquı́ arriba).
Queremos probar que
n
1 X r k+1
n
(r + 1) − 1 = n.
k r=k−1
k − 1 k
Esto equivale a probar que
n
X r r+1 1 n n
− = ,
r=k−1
k−1 k k+1 k+1 k
137
lo cual ocurre si, y sólo si,
n n
X r+1 1 X r n n
− = ,
r=k−1
k k + 1 r=k−1 k − 1 k+1 k
y esto a su vez es cierto si, y sólo si,

n+1 1 n+1 n n
− = ,
k+1 k+1 k k+1 k
o, equivalentemente,
n+1 n+1 n
= ,
k+1 k+1 k
el cual es cierto. ♦
9.82 Ejercicio. Determinar qué valor da el estimador 9.81 en el ejemplo de 9.80
138
Referencias y lecturas complementarias
[1]. Alon, N., Spencer, J., The Probabilistic Method, 2nd edition, Wiley-Interscience Series
in Discrete Mathematics and Optimization, John Wiley and Sons Inc., 2000
[2]. Bóna, M., A Walk through Combinatorics, World Scientific, 2002.
[3]. De Groot M.H., Probabilidad y Estadı́stica, 2a. ed., Addison Wesley, 1988.
[4]. Feller W., An Introduction to Probability Theory and Its Applications, vol. I, 3a. ed.,
John Wiley and Sons, New York, 1968.
[5]. Harris B., Theory of Probability, Addison Wesley, 1966.
[6]. Hoel, Port and Stone, Introduction to Probability Theory, Houghton Mifflin Company,
Boston, 1971.
[7]. Mood A.M., Graybill F.A. and Boes D.C., Introduction to the Theory of Statistics,
3a. ed., McGraw-Hill, 1974.
[8]. Pérez Seguı́ M.L., Combinatoria, Cuadernos de Olimpiadas de Matemáticas, Instituto

de Matemáticas, UNAM, 3a edición, 2009.
139

Probabilidad y Estadística. Por María Luisa Pérez Seguí y Miguel Raggi Pérez

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Probabilidad y Estadística. Por María Luisa Pérez Seguí y Miguel Raggi Pérez

Transféré par

Droits d'auteur :

Formats disponibles

Probabilidad y Estadı́stica

por Marı́a Luisa Pérez Seguı́

Esta sección es un repaso de los temas básicos del conteo.

1.1 Ejemplo. ¿Cuántos números enteros de tres o menos cifras hay?

Este procedimiento de “construir sobre lo ya construido” que hemos utilizado se llama

1.2. Principio Fundamental de Conteo. Si una cierta tarea puede realizarse de m

1.3 Ejemplo. ¿Cuántas palabras de tres letras se pueden formar si se dispone de un

1.5 Ejemplo. ¿Cuántas banderas bicolores se pueden formar si se dispone de 4 lienzos

Si n es un número natural, el producto de todos los números naturales del 1 al n aparece

Alejándose de la interpretación de n! como el producto de los naturales de 1 a n, se define

En el ejemplo anterior aprendimos el siguiente principio:

1.15 Ejercicio. Basándose en la interpretación de nr como el número de subconjuntos

de r elementos dentro de un conjunto con n elementos, explicar por qué

Con la intención de simplificar la fórmula 1.13 sobre las combinaciones de n en r, ob-

Recordemos que se ha definido 0! = 1 y n0 = 1; notemos entonces que si sustituimos

r = 0 (y, posiblemente también n = 0) en el lado derecho de la fórmula 1.17 obtendremos

1.19 Ejemplo. De un grupo de 10 niños y 15 niñas se quiere formar una colección de 5

Comparemos el siguiente ejemplo con el anterior, tomando en cuenta la búsqueda de

1.20 Ejemplo. De un grupo de 10 niños y 15 niñas se quiere formar una colección de 5

1.21 Ejemplo. Un grupo de 15 personas quiere dividirse en 3 equipos de 5 personas

1.22 Ejemplo. Un grupo de 15 personas quiere dividirse en 3 equipos de 5 personas

1.26 Ejercicio. Escribir los 7 arreglos de pelotas del ejemplo 1.25 .

Se llama mano de pókar cualquier colección de 5 cartas de la baraja. La siguiente

1.31 Ejemplo. ¿Cuántas manos de pókar tienen corrida?

1.32 Ejemplo. Probar la fórmula de Gauss

Solución. Contaremos las colecciones de 2 elementos que pueden escogerse dentro de

{x1 , x2 }, {x1 , x3 }, {x1 , x4 }, · · · {x1 , xn+1 },

De esta lista es fácil observar que el número de subconjuntos de X con 2 elementos es

1.33 Ejemplo. Probar que si m, n y r son naturales con 0 ≤ r ≤ m, n, entonces

Solución. Ambas expresiones cuentan la cantidad de subconjuntos de r elementos dentro

1.34 Teorema. Teorema del Binomio de Newton. Sean a y b números arbitrarios

Demostración. La expresión (a + b)n significa que tenemos que multiplicar a + b consigo

¿Qué interpretación se puede dar a esta fórmula en términos de subconjuntos de un conjunto?

Hay 5 000 números divisibles por 2,

10 000 − (5 000 + 3 333 + 2 000),

10 000 − (5 000 + 3 333 + 2 000) + (1 666 + 1 000 + 666) − 333 = 2 666. ♦

El método que se utilizó en ejemplo anterior se llama método de inclusión y exclusión y

que, por el ejercicio 1.35, es igual a 0r = 1. Entonces la suma k1 − k2 + k3 − k4 + − · · · kn

1.41 Ejercicio. ¿Cuántas diagonales tiene un polı́gono regular de n lados?

1.42 Ejercicio. Probar la Fórmula de Pascal:

para r y n números enteros con 0 ≤ r < n.

Se muestran a continuación los primeros 4 renglones del Triángulo de Pascal. Utilizar la

1.45 Ejercicio. De un grupo de 24 personas se quiere elegir 5 representantes de la

1.47 Ejercicio. De un conjunto de 10 botes de distintos colores se quiere escoger 5 de

1.48 Ejercicio. Se dispone de una colección de 30 pelotas divididas en 5 tamaños dis-

La probabilidad y la estadı́stica estudian el comportamiento de procesos aleatorios. Lo

Va de lo general a lo particular Va de lo particular a lo general

La aplicación matemática y técnica de la Probabilidad y de la Estadı́stica ha tenido varios

No en cualquier ámbito la estadı́stica funciona a la perfección. Por ejemplo: En Europa

La estadı́stica funciona bien en Mediocristán, pero no en Extremisán.

2.1. Errores comunes

Los problemas de mala interpretación de la Estadı́stica son varios. Podemos enunciar

El error. Las personas que no lo aprecian, no lo escuchan.

El ejemplo está basado en el problema de los Grandes números.

El error. No es cierto. Constantemente estamos pensando, soñando, imaginando cosas.

El error. El análisis correcto serı́a comparar la proporción de gente que no estudió y es

Tenemos que tomar decisiones que maximicen nuestra esperanza de ganar.

(b) En un juicio se acusa a S de haber matado a su esposa. Habı́a evidencia de que

Empezaremos por dar un “modelo general” de cómo funciona la probabilidad y luego

Intuitivamente, la probabilidad calcula la proporción de casos en los que cierto experi-

Vamos a empezar a estudiar la probabilidad discreta y luego veremos sus “analogı́as”

En un espacio muestral discreto Ω, cada elemento x ∈ Ω tiene asociada un número entre

3.1. Probabilidad combinatoria