Académique Documents
Professionnel Documents
Culture Documents
1
Resolvamos ahora el ejemplo utilizando nuestro Principio Fundamental de Conteo. Con-
sideremos tres casillas: , la primera para la letra inicial, la segunda para la letra central
y la tercera para la letra final. En cada casilla hay dos elecciones posibles: la letra a o la
letra b. La respuesta es entonces 2 × 2 × 2 = 8. El procedimiento inductivo es como sigue:
En la primera casilla hay 2 posibilidades para elegir la letra. Una vez formada una palabra
de una letra: a o b, para agrandarla a una palabra de dos letras hay dos posibilidades, ası́
que palabras de dos letras hay 2 × 2 = 4. Para completar cada una de éstas a una palabra
de tres letras hay dos posibilidades; entonces hay 4 × 2 = 8 palabras de tres letras. ♦
1.4 Ejemplo. ¿Cuántas placas distintas hay con dos letras a la izquierda y tres números
a la derecha? (Nota: Consideraremos el alfabeto de 27 letras castellanas.
Solución. Seguimos el procedimiento de las casillas del ejemplo anterior:
27 × 27 × 10 × 10 × 10 = 729 000. ♦
| {z } | {z }
lugares lugares
para letras para números
1.6 Ejercicio. Escribir todas las banderas que pueden formarse según el ejemplo anterior
si los colores son rojo (R), azul (A), verde (V ) y blanco (B).
2
1.7 Ejemplo. Misma pregunta que en el ejemplo anterior pero ahora suponiendo que
no hay asta. (En este caso no habrá distinción entre las banderas rojo-azul y azul-rojo.)
Solución. Para resolver este ejemplo analicemos la respuesta del ejemplo anterior. En
aquél, en la colección total de las 12 banderas posibles podemos aparear cada bandera con
su opuesta; por ejemplo la bandera azul-verde la apareamos con la bandera verde-azul. Cada
una de las del ejemplo anterior se esta contando dos veces y, por tanto, la respuesta es
12
2
= 6. ♦
1.8 Ejercicio. En el resultado del ejercicio 1.6 aparear cada una de las banderas con su
opuesta. Dar una lista de 6 banderas que ilustre la respuesta del ejemplo 1.7.
1.9 Ejemplo. ¿De cuántas formas se pueden sentar 5 personas en 5 sillas numeradas del
1 al 5?
Solución. En el asiento #1 se puede sentar cualquiera de las 5 personas; para cada elección
de la primera persona, la segunda puede ser cualquiera de las 4 restantes; ası́ en las dos
primeras sillas el número de elecciones posibles es 5 × 4 = 20. Continuamos de manera
análoga. Para simplificar dibujemos 5 casillas simbolizando los 5 asientos. Sobre cada casilla
escribamos el número respectivo de posibilidades y multipliquemos:
5 × 4 × 3 × 2 × 1 = 120. ♦
0! = 1;
esto permite incluir el caso n = 0 en algunas fórmulas en las que interviene n!. Entonces
0! = 1
1! = 1
2! = 1×2=2
3! = 1×2×3=6
4! = 1 × 2 × 3 × 4 = 24.
Es fácil darse cuenta que el número 5 del ejemplo 1.9 y el que sean personas y asientos
en lugar de cualquier otra cosa no es relevante; podemos generalizarlo como sigue:
3
El número Pn de distintas formas en que se pueden ordenar n objetos es n!. Cada una de
las listas ordenadas que se forman con los n objetos se llama permutación (de los objetos).
Tenemos entonces que el número de permutaciones de n objetos es Pn = n!.
1.10 Ejemplo. De un grupo de 5 estudiantes quiere elegirse una comisión de 3 para que
cada uno visite un museo de una lista de 3 museos. ¿Cuántas comisiones distintas se pueden
formar?
Solución. Utilizando el esquema de casillas (cada una representando un museo) como
arriba, tenemos que el resultado es
5 × 4 × 3 = 60. ♦
1.11 Ejemplo. De un grupo de 5 estudiantes quiere elegirse una comisión de 3 para que
juntos visiten un museo (el mismo todos). ¿Cuántas comisiones diferentes se pueden formar?
Solución. Hay que observar que la diferencia entre este ejemplo y el anterior es que no
importa el orden en la elección. En el ejemplo anterior habı́a distición entre las casillas pues
cada una representaba un museo en particular distinto a los otros; en éste no hay distinción
entre las casillas pues, por ejemplo, una comisión en que se haya elegido la sucesión de
alumnos Ana-Beto-Carlos se considerará igual a la sucesión Beto-Carlos-Ana y también
igual a la sucesión Ana-Carlos-Beto. Nuestro interés es entonces determinar en la cantidad
5 × 4 × 3, en cuántas sucesiones aparece el mismo conjunto de alumnos. Para responder
esto conviene plantear esta parte del ejemplo al revés: Consideremos un conjunto fijo de 3
personas, por ejemplo el formado por Ana (A), Beto (B) y Carlos (C) y contemos de cuántas
formas se pueden ordenar estos 3. Observemos que el número de formas es precisamente el
número de permutaciones de las 3 personas, o sea, P3 = 3! = 6. Entonces cada grupo de 3
personas se está contando 6 veces en el producto 5 × 4 × 3, ası́ que la respuesta al ejemplo
será
5×4×3
= 10. ♦
3!
1.12 Ejercicio. En los ejemplos 1.10 y 1.11 supongamos que el grupo de los 5 alumnos
está formado por Ana (A), Beto (B), Carlos (C), Daniel (D) y Elena (E). Hacer la lista de
los 60 arreglos de estos alumnos en los que se elige 3 para visitar museos distintos, agrupando
en esa lista las colecciones que resultan iguales si todos van a un mismo museo.
1.13. El número de colecciones (en las que el orden no importa) con r elementos que se
pueden seleccionar dentro de un conjunto de n elementos (n ≥ r ≥ 1) es
n × (n − 1) × · · · × (n − (r − 1))
.
r!
4
Este número recibe el nombre de combinaciones de n en r y se denota por nr . Dicho
de otra manera, el número de subconjuntos de r elementos que tiene un conjunto con n
elementos es nr . (En el ejemplo 1.11, n = 5 y r = 3 y la respuesta es 53 .) Nótese que la
fórmula 1.13 no tiene sentido para n = 0; sin embargo sı́ tiene sentido hablar del número
de subconjuntos con 0 elementos dentro de un conjunto con n elementos; sabemos que este
número es 1 pues sólo hay un conjunto sin elementos que es el llamado conjunto vacı́o.
Definimos entonces
n
= 1.
0
1.14 Ejercicio. Sea X = {a, b, c, d, e}. Escribir todos los subconjuntos de X con
(a) 0 elementos,
(b) 1 elemento,
(c) 2 elementos,
(d) 3 elementos,
(e) 4 elementos y
(f) 5 elementos.
5
Verificar que en cada caso el número de subconjuntos obtenido sea r
y que el número
total de subconjuntos sea 25 = 32.
7 7 5 9
1.16 Ejercicio. Calcular 2
, 5
, 5
y 4
.
1.17.
n n!
= .
r r!(n − r)!
5
n! n!
0!n!
= 1. De la misma manera, al sustituir r = n obtendremos n!0!
= 1. Ası́, también en estos
casos extremos vale la fórmula 1.17.
1.18 Ejercicio. Volver a hacer los ejercicios 1.15 y 1.16 utilizando la fórmula 1.17.
Como hemos visto, al determinar cantidades buscamos simplificar nuestras cuentas uti-
lizando “homogeneidades” en el problema. Con este propósito, en algunas ocasiones es con-
veniente dividir en casos de manera que en cada uno de ellos haya homogeneidad, y después
sumar las respuestas. Un ejemplo muy simple de esto serı́a el siguiente: Si tenemos 4 paquetes
de 100 hojas de papel y otros 3 paquetes de 200 hojas cada uno, entonces el número total
de hojas que tenemos es
4 × 100 + 3 × 200 = 1000.
6
automáticamente con la elección de los otros dos. Entonces el número de formas de hacer la
elección sucesiva es 3 003 × 252 × 1 = 756 756. ♦
1.23 Ejemplo. En una bolsa hay 3 pelotas rojas y 2 azules. Se quiere formar una fila
con todas ellas. ¿De cuántas maneras distintas puede quedar la fila?
Solución. Primera forma. Consideremos todas las permutaciones de las 5 pelotas y con-
temos cuántas de esas permutaciones son indistinguibles entre sı́. Las permutaciones de las
5 pelotas sabemos que son 5! = 120. En cualquiera de las permutaciones fijémonos en la
ubicación de las pelotas rojas; por ejemplo − roja − roja roja. éstas pueden revolverse
entre sı́ (3! veces) formando colecciones indistinguibles, y lo mismo ocurre con las del otro
color. Vamos a explicar lo anterior con más detalle: Denotemos las pelotas rojas por R1 , R2
y R3 , y las azules por A1 y A2 . Entonces las siguientes listas (en las que se han permutado
las rojas pero se han dejado fijas las azules) representan la misma colección:
A1 R1 A2 R2 R3
A1 R1 A2 R3 R2
A1 R2 A2 R1 R3
A1 R2 A2 R3 R1 .
A1 R3 A2 R1 R2
A1 R3 A2 R2 R1
Estas 3! listas deben considerarse como una sola. Además, en cada una de ellas también se
pueden revolver las azules entre sı́ (2! permutaciones). Entonces al considerar las permuta-
ciones de las 5 pelotas, cada arreglo se está contando 3! × 2! = 12 veces en lugar de 1. La
5!
respuesta al ejemplo es pues 3!2! = 10.
Segunda forma. Primero podemos contar las posibilidades para colocar las pelotas rojas
en los 5 lugares disponibles; esto nos dará la elección de 3 lugares, que puede hacerse de
5
3
= 10 maneras. Para colocar las 2 azules ya sólo sobran 2 lugares ası́ que esto se puede
hacer de 22 = 1 forma. El resultado es 10 × 1 = 10. ♦
1.24 Ejercicio. Escrı́banse las 10 filas distintas que se pueden formar con las pelotas en
el ejemplo 3.10.
7
1.25 Ejemplo. En una bolsa hay 3 pelotas rojas y 2 azules. ¿Cuántas filas distintas de
3 pelotas se pueden formar?
Solución. Como son 5 pelotas en total pero sólo se van a considerar filas de 3, hay que dejar
dos pelotas sin colocar. Consideraremos los distintos casos por separado y después sumaremos
3!
las respuestas parciales. Si las dos pelotas que quedan fuera son rojas, hay 1!2! = 3 arreglos
3! 3!
con las restantes. Análogamente hay 3! = 1 fila que deja las 2 pelotas azules fuera, y 2!1! =3
filas que dejan una azul y una roja fuera. La respuesta al ejemplo es 3 + 1 + 3 = 7. ♦
En algunas ocasiones, para poder hacer bien las cuentas, nuestra búsqueda de homoge-
neidad nos lleva a que es más fácil contar lo opuesto de lo que queremos y después restar de
un total. Ilustramos esto con el siguiente ejemplo.
1.27 Ejemplo. ¿De cuántas maneras pueden ordenarse en un estante 3 cuadernos rojos,
4 azules y 2 verdes, si los verdes no deben quedar juntos?
Solución. Conviene contar primero todas las ordenaciones posibles y después restar aquéllas
en las que los verdes quedan juntos. El número total de filas (incluyendo aquéllas en que los
9!
verdes quedan juntos es 3!4!2! = 1260. Para contar las que tienen juntos los cuadernos verdes
pensemos éstos como pegados formando un solo cuaderno; ahora determinemos el número de
8!
arreglos con 3 cuadernos rojos, 4 azules y 1 verde; éste es 3!4! = 280. La respuesta al ejemplo
es 1260 − 280 = 980. ♦
1.28. Los ejemplos siguientes se refieren a la baraja usual de pókar: Cada carta tiene
un sı́mbolo llamado número que puede ser cualquiera de los 13 sı́mbolos siguientes: A, 2,
3, 4, 5, 6, 7, 8, 9, 10, J, Q o K, y otro sı́mbolo llamado palo que puede ser cualquiera de
los 4 siguientes: ♠ (espada), ♥ (corazón), ♦ (diamante) o ♣ (trébol). Todos los palos
se combinan con todos los números para formar la baraja completa con 13 × 4 = 52 cartas
como se ilustra a continuación:
A♥ 2♥ 3♥ 4♥ 5♥ 6♥ 7♥ 8♥ 9♥ 10♥ J♥ Q♥ K♥
A♦ 2♦ 3♦ 4♦ 5♦ 6♦ 7♦ 8♦ 9♦ 10♦ J♦ Q♦ K♦
A♠ 2♠ 3♠ 4♠ 5♠ 6♠ 7♠ 8♠ 9♠ 10♠ J♠ Q♠ K♠
A♣ 2♣ 3♣ 4♣ 5♣ 6♣ 7♣ 8♣ 9♣ 10♣ J♣ Q♣ K♣
8
nomenclatura es usual:
par: dos cartas del mismo número.
tercia: tres cartas del mismo número.
pókar: cuatro cartas del mismo número.
full: una tercia y un par.
flor: cinco cartas del mismo palo.
corrida: cinco cartas con numeración consecutiva (según el orden en que se escribieron
arriba, pero permitiendo A también como número final, en seguida de K).
Observemos que el número total de manos de pókar es 52
5
= 2 598 960.
1.29 Ejemplo. ¿Cuántas manos de pókar tienen tercia exactamente (es decir, que no
sea full ni pókar).
Solución. Primera forma. Ponemos 5 casillas: las tres primeras para la tercia y las otras
dos para las otras cartas. La primera carta se puede escoger arbitrariamente; la segunda sólo
tiene 3 posibilidades pues debe tener el mismo número que la primera; la tercera ya sólo
puede ser elegida de 2 maneras distintas; como no importa el orden de estas 3 cartas, este
número deberá dividirse entre 3!. La cuarta carta se debe escoger dentro de las 48 que son de
número distinto al de la tercia. Para la quinta carta ya sólo sobran 44 cartas pues el número
debe ser también distinto. La cuarta y quinta pueden haberse escogido en cualquier orden
por lo que se deberá dividir entre 2!.
52 × 3 × 2 48 × 44
× = 54 912.
| {z3! } 2! }
| {z
tercia cartas distintas
Segunda forma. También formamos primero la tercia pero eligiendo antes el número que le
corresponderá: Tenemos 13 números para escoger y, una vez escogido el número, las 3 cartas
que forman la tercia deben escogerse dentro de 4 posibles; entonces el número de tercias
4
es 13 3 . Para escoger las otras dos cartas utilizando este mismo método razonamos como
sigue: Hay que escoger 2 números (pues queremos que las otras 2 cartas sean de números
distintos) dentro de los 12 que sobran; esta elección se puede hacer entonces de 12
2
formas.
En cada uno de estos números que se hayan elegido hay que escoger 1 carta, cosa que puede
hacerse de 41 formas. El resultado escrito en esta forma es
2
4 12 4
13 × ,
3 2 1
que, desde luego, también es igual a 54 912. ♦
1.30 Ejemplo. ¿Cuántas manos de pókar tienen dos pares (distintos) exactamente?
9
Solución. Procedemos como en el ejemplo 1.29.
Primera forma.
1er par 2o par
z }| { z }| {
52 × 3 48 × 3
2! 2! × 44 = 123 552.
2!
(Nota: Hay que dividir entre 2! porque no importa el orden entre los dos pares.)
Segunda forma. 2
13 4
× 44 = 123 552. ♦
2 2
Los métodos de conteo nos permiten a veces probar ciertas fórmulas. Un ejemplo muy
sencillo de esto es la prueba de la conmutatividad del producto de naturales, la cual estamos
acostumbrados a tomarla como verdadera; sin embargo, si lo pensamos con cuidado, para
m, n ∈ N, la expresión m × n significa, por definición, la suma de n consigo mismo m veces,
mientras que n × m representa la suma de m consigo mismo n veces. Ası́ expresados no
es claro por qué es válida la igualdad m × n = n × m. Sin embargo es claro que ambas
expresiones cuentan cuántos puntos hay en una configuración rectangular de puntos con
m renglones y n columnas y, como cuentan lo mismo, entonces son iguales. Veremos otros
ejemplos más complicados en los que se prueban fórmulas combinatorias.
n(n + 1)
1 + 2 + 3 + ··· + n = .
2
10
{x1 , x2 , . . . , xn+1 }. Pongamos los subconjuntos de X que tienen dos elementos en una lista,
como sigue:
11
1.35 Ejercicio. Utilizar el Teorema del Binomio para probar la fórmula
n n n n n n
+ + + ··· = + + ··· .
0 2 4 1 3 5
1.36 Ejemplo. ¿Cuántos números menores que 10 000 no son divisibles ni por 2, ni por
3, ni por 5?
Solución. A 10 000 habrá que restarle la cantidad de números divisibles por alguno de 2,
3 o 5. Sin embargo esto hay que hacerlo con cuidado para evitar repeticiones; por ejemplo,
los números que son divisibles tanto por 2 como por 3 se consideran dos veces: al contar los
divisibles por 2 y al contar los divisibles por 3. Vamos a determinar primero, por separado,
cuántos múltiplos hay de cada una de las distintas combinaciones entre 2, 3 y 5.
los que son divisibles por 6, por 10 o por 15 pero no por 30 se habrán quitado dos veces
cada uno, y los que son múltiplos de 30 se habrán quitado tres veces. Entonces al agregar a
la cuenta los que son múltiplos de 6, de 10 o de 15, los que son divisibles por 30 se habrán
quitado primero tres veces al restar los múltiplos de 2, de 3, y de 5, y después se habrán
vuelto a sumar tres veces al sumar los múltiplos de 6 y los de 10 y los de 15, ası́ que tendremos
que restarlos. La respuesta al ejemplo es pues:
12
1.37 Proposición. Principio de Inclusión y Exclusión. Supongamos que tenemos n
conjuntos A1 , A2 , . . . , An (posiblemente con elementos en común). Entonces el número total
k de elementos que tienen entre todos es igual a k1 − k2 + k3 − k4 + − · · · kn , donde k1 es la
suma de los elementos que pertenecen a (por lo menos) uno de los conjuntos, k2 es la suma
de los elementos que pertenecen a (por lo menos) dos de los conjuntos, y ası́ sucesivamente
hasta kn , que es el número de elementos en común a todos los conjuntos. (Utilizando el
lenguaje usual de teorı́a de conjuntos donde |X| denota el número de elementos de un
conjunto X, ∪ es el sı́mbolo usual de unión y ∩ es el sı́mbolo usual de intersección, tenemos:
k = |A1 ∪ A2 ∪ · · · ∪ An |, k1 = |A1 | + |A2 | + · · · + |An |, k2 = |A1 ∩ A2 | + |A1 ∩ A3 | + · · · + |A1 ∩
An | + |A2 ∩ A3 | + · · · + |An−1 ∩ An |, y ası́ sucesivamente hasta kn = |A1 ∩ A2 ∩ · · · ∩ An |.)
Demostración. Tomemos un elemento cualquiera y supongamos, por ejemplo, que el ele-
mento pertenece a los conjuntos Ai1 , Ai2 , . . . , Air para cierta r, y sólo a éstos. Entonces el
número de veces que dicho elemento se considera en la suma k1 − k2 + k3 − k4 + − · · · kn es
r r r r r
− + − + −··· ,
1 2 3 4 r
cuenta cada elemento exactamente una vez, que es lo que querı́amos demostrar. ♦
1.38 Ejercicio. En cierta escuela hay 100 alumnos. De ellos 50 saben inglés, 30 saben
alemán y 30 saben francés. Además 10 saben inglés y francés, 14 saben francés y alemán,
11 saben inglés y alemán, y 6 saben los tres idiomas. Determinar cuántos alumnos no saben
ninguno de los tres idiomas.
1.39 Ejercicio. ¿De cuántas maneras diferentes se pueden ordenar 8 personas alrededor
de una mesa redonda? (Nota: Dos distribuciones se considerarán iguales si una se puede
obtener de la otra mediante un giro.)
1.40 Ejercicio. ¿De cuántas maneras distintas se pueden sentar 5 personas en una fila
de 8 asientos numerados del 1 al 8?
13
1.43 Ejercicio. El Triángulo de Pascal está definido como el triángulo de números
en el que el renglón número n aparecen los n + 1 números
n n n n n
, , ,··· , , .
0 1 2 n−1 n
1 1
1 2 1
1 3 3 1
1 4 6 4 1
1.44 Ejercicio. Probar de dos maneras distintas (una, viendo que ambos lados de la
igualdad cuentan lo mismo, y la otra, usando el teorema del binomio) la siguiente fórmula
para n ∈ N:
n n n n
+ + + ··· + = 2n .
0 1 2 n
1.46 Ejercicio. De un grupo de 30 socios de un club se quiere elegir una mesa direc-
tiva con un presidente, un secretario y 3 equipos de 2 personas cada uno. ¿Cuántas mesas
directivas distintas se pueden formar?
14
2. Qué estudian la Probabilidad y la Estadı́stica
La estadı́stica también, a veces, nos proporciona un resumen de los datos, para que los
podamos entender. Esto, claro, lleva sus problemas también, porque a veces se confunde el
resumen de los datos con los datos. Si sólo tenemos el promedio de las cosas, muchas veces
eso no cuenta “toda la historia”. Ni siquiera el promedio, la media, la media geométrica, la
varianza, el segundo momento, etc., cuentan toda la historia.
En términos generales:
La probabilidad supone que se conoce exactamente cómo funciona determinado proceso
aleatorio y trata de concluir qué se observará.
La estadı́stica comienza de las observaciones y trata de inferir cómo funciona un proceso
aleatorio.
Probabilidad Estadı́stica
La primera y más importante aplicación es: para razonar correctamente. El entender los
principios de la Probabilidad y de la Estadı́stica nos sirve para tomar buenas decisiones de
la vida cotidiana; para no dejarnos engañar por los polı́ticos o por las noticias, para hacer
buenas inversiones, etc.
15
grandes éxitos en distintas áreas:
En Ciencias Naturales: Fı́sica, Biologı́a, Quı́mica, etc.
En Medicina: Revolucionada por la estadı́stica y estudios doblemente a ciegas.
En Ciencias Sociales: Polı́tica (elecciones), Psicologı́a, Economı́a, etc.
En Finanzas: Aunque aquı́, malas interpretaciones también han ocasionado problemas
enormes.
Nuestra intuición como humanos acerca de los eventos aleatorios no es buena. Simple-
mente no hemos evolucionado para lidiar con un mundo tan complejo como el que vivimos.
La Probabilidad y la Estadı́stica son herramientas muy poderosas que, ası́ como pueden ser
usadas para bien, también pueden ser (y son) usadas para mal (a veces creyendo que se están
usando para bien).
Por mucho que uno conozca una muestra muy grande de algo y en esa muestra haya el 0 %
de cierta cosa, eso no quiere decir que no exista esa cosa. (Al revés, sı́, es decir, si por algún
método es posible demostrar que la probabilidad de encontrar cierto objeto en algún lugar
es positiva, entonces se puede garantizar la existencia de esa cosa. Éste es un procedimineto
utilizado algunas veces en Matemáticas.)
Ahora, quizás los cisnes negros no son de gran importancia. ¿Qué más da que haya o no
cisnes negros? Pero en algunos ámbitos, puede ser que 100 000 observaciones sean de cierto
tipo, que una sea de otro, y que justo la diferente sea la única que importa.
Por ejemplo, si a un grupo de 10 000 personas se le agrega la persona más alta de todo
el mundo, el promedio de alturas no cambia casi nada.
Por otro lado, si a un grupo de 10 000 personas al azar se le agrega la persona más rica
del mundo, el promedio de dinero en el grupo habrá aumentado considerablemente.
El famoso autor Nassim Nicholas Taleb habla de “dos mundos”: Mediocristán y Extre-
misán. (Leer: “Fooled by Randomness”, “The Black Swan” y “Antifragile”.)
16
Mediocristán es cuando una sola observación no puede cambiar el promedio considera-
blemente. Por ejemplo: altura, peso, elecciones polı́ticas, número de dedos, etc.
Extremisán es cuando una sola observación puede cambiar totalmente el promedio. Por
ejemplo: cantidad de dinero de las personas, número de ventas de libros en una tienda,
terremotos, etc.
Coincidencia. Los sucesos cotidianos son innumerables. Tratar de explicar uno de ellos
simplemente porque otro ocurrió antes es un error muy común. Ejemplos de esto son las
supuestas premoniciones, los milagros curativos, etc. Inclusive, la cantidad de eventos que
pueden analizarse es enorme, ası́ que algunas gráficas se parecen (es decir, existe corrrelación
entre ellas) aunque los eventos son completamente ajenos (ver, por ejemplo,
http://www.xatakaciencia.com/psicologia/correlacion-no-implica-causalidad-hay-que-
decirlo-mas).
Encuestas sin representatividad. Aquı́ un ejemplo extremo serı́a preguntar en una avenida a
los conductores si tienen coche, y luego inferir que casi todas las personas tienen coche.
Veamos aquı́ algunos ejemplos sencillos. Más adelante veremos ejemplos más complicados
aprovechando las técnicas que estudiaremos.
2.1 Ejemplo. Una persona dice: “Yo le hablo a las plantas porque ası́ crecen mejor.”
El error. Muchas cosas se dan juntas porque tienen una causa común; no por eso una es
la razón de que ocurra la otra, es decir, correlación no implica causalidad. Si una persona
habla con las plantas, seguramente les proporciona más cuidados y eso es lo que hace que
crezcan bien.
2.2 Ejemplo. En una encuesta, el locutor de radio pide que llamen por teléfono a la
17
radiodifusora para determinar qué tan popular es él pues quiere lanzarse como director de
la radiodifusora. El 90 % de los que llaman lo apoyan, ası́ que decide lanzarse, casi seguro de
que ganará.
La gente que nos rodea tiende a ser parecida a nosotros, y lo mismo ocurre con los
medios de información que consultamos. No debemos rechazar o aceptar una opinión como
generalizada, dependiendo de una encuesta que se ha hecho en forma local.
Por otro lado, una buena muestra (representativa) basta, al igual que basta analizar una
sola cucharada de agua de un lago para saber la proporción de sal que tiene el agua del lago.
2.3 Ejemplo. Un entrenador de tenis castiga al deportista cuando juega mal porque ha
notado que ası́ la siguiente vez juega mejor.
El error. Probablemente habrı́a jugado mejor de cualquier manera. Todos tenemos altiba-
jos. Del punto más alto no podemos subir y del más bajo no podemos bajar. Este fenómeno
se llama Regreso a la media.
De hecho, los estudios demuestran que el estı́mulo positivo es más benéfico que el negativo.
2.4 Ejemplo. Durante 8 semanas seguidas, Luis recibe un correo de un corredor de bolsa
que le predice que cierta acción de bolsa va a subir o bajar. Como en todas ellas acierta,
Luis decide confiarle su dinero para una inversión.
El error. El siguiente fraude es posible: El corredor anuncia una semana a 256 000 personas
que la acción subirá y a otras 256 000 que bajará. Al cabo de la semana, a la mitad del grupo
con la que acertó le pronostica que otra acción subirá y a la otra mitad le dice que bajará;
ası́ sucesivamente. Al final de 8 predicciones, con 1000 personas habrá acertado.
2.5 Ejemplo. Paty le cuenta a Raúl que ayer soñó con su tı́a que hace años que no se
comunica con ella y, de repente, su tı́a llegó a visitarla. Paty está convencida que tuvo una
premonición.
Para poder demostrar que alguien tiene poderes sı́quicos, deberı́a escribir su supuesta
premonición y anotar también el resultado de ella durante un periodo de tiempo fijo, digamos
una semana. El análisis siempre debe ser hacia el futuro y no hacia el pasado.
18
2.6 Ejemplo. Ángela dice: “Estudiar no sirve; Bill Gates no terminó licenciatura y es
millonario.”
2+2=5
En este mundo hay muchı́sima suerte. Dice el dicho “el que no arriesga, no gana”. Claro,
pero ¡tampoco pierde!
2.7 Ejemplo. En un crimen se descubre que una muestra de sangre pertenece al criminal
y que, al analizar el ADN y buscar registros policiales de todo el paı́s, resulta que el ADN
de una cierta persona coincide en las caracterı́sticas con el ADN encontrado, de manera que
sólo 1 de cada millón de personas tiene esa coincidencia. Se deduce que esa persona cometió
el crimen.
El error. Dentro de un paı́s de 100 millones de habitantes se esperarı́a que 100 tuvieran
esas mismas caracterı́sticas de ADN. Hay que buscar otros datos; por ejemplo, sı́ serı́a una
evidencia extremadamente fuerte la del ADN si se hubiera visto a esa persona entrar al lugar
del crimen un rato antes de la comisión del crimen.
2.8 Ejercicio. Explicar qué tipo de error hay en los siguientes argumentos y decir cómo
serı́a el argumento correcto.
(a) Se aplica un examen en todos los salones de clase de las escuelas de una ciudad.
Resulta que el promedio de calificaciones obtenidas en cada salón es más alto en los
que hay pocos estudiantes. Se deduce que, para mejorar la educación, los salones deben
tener pocos alumnos.
19
1000 hombres que golpean a su esposa terminan por matarla, ası́ que la probabilidad
1
de que la haya matado es 1000 .
(c) Se hizo un estudio con dos grupos: uno de 1000 niños que ven videos violentos y
otro de 1000 niños que no ven videos violentos. Se notó que los del primer grupo eran
más violentos. Se concluye que el ver videos violentos produce niños violentos.
(d) Como al lanzar 3 dados el que la suma sea 3 o 4 sólo puede ocurrir de una
manera en cada caso (en el primero, que todos los dados sean 1; en el segundo que dos
dados sean 1 y un dado sea 2), entonces es igual de probable obtener cualquiera de los
dos resultados.
(e) Un estudio observó que las personas que tomado más medicinas en sus primeros
30 años de vida en general mueren más jóvenes, de manera que es malo tomar medicina.
20
3. Introducción a la Probabilidad
Es necesario conocer todas las posibilidades que pudieran llegar a ocurrir en un experi-
mento dado. Esto, en el mundo real, no ocurre siempre, claro.
Al conjunto de todas las posibles situaciones que podrı́an llegar a ocurrir (o resultados
posibles de un experimento) se le llama espacio muestral; lo denotaremos por Ω. A los
subconjuntos del espacio muestral a los que les calculamos la probabilidad se les llama
sucesos o eventos.
3.1 Ejemplo. (a) Si lanzamos una moneda una vez, Ω = {a, s}.
(b) Si lanzamos una moneda dos veces, entonces Ω = {aa, as, sa, ss}.
El espacio muestral Ω podrı́a ser finito o infinito pero, más importante que eso, Ω podrı́a
ser discreto o continuo.
La probabilidad discreta es cuando no hay noción de “cercanı́a” entre las cosas que
pueden ocurrir (usualmente, cuando es finito), como por ejemplo tiros de monedas, dados,
votaciones, etc. En la probabilidad continua hay toda una gama de posibilidades que pueden
estar muy “cerca” unas de otras, como temperatura, tiro con arco, etc.
3.2 Nota. Es importante señalar que el que se puedan sumar las probabilidades indivi-
duales de los elementos depende fuertemente del que el espacio sea discreto. Por ejemplo, si
tenemos una región circular del plano, lo natural serı́a que la probabilidad de escoger alea-
toriamente un determinado punto en esa región sea 0, pero la suma de 00 s es 0 y entonces
no podrı́a tenerse que P (Ω) = 1. Para poder estudiar probabilidad de este tipo se necesita
21
introducir conceptos como de medida. Un estudio ası́ corresponde al Análisis Matemático
bastante más complicado que el propósito de este curso.
Si en un espacio todos los elementos tienen la misma probabilidad, decimos que es equi-
probable. En este caso, si Ω es finito, la probabilidad de un evento S es
Por ejemplo, si lanzamos una moneda “justa” el espacio muestral es Ω = {a, s}, y P (a) =
P (s) = 12 .
3.3 Ejemplo. Supongamos que tiramos dos dados y nos fijamos en su suma. ¿Cuál es
el espacio muestral y cuánto vale P (8)?
Sin embargo, es claro que no todos los elementos de este espacio muestral tienen la misma
probabilidad de ocurrir; por ejemplo, es claro que P (2) 6= P (7). Conviene trabajar en otro
espacio muestral en el que cada elemento tenga la misma probabilidad:
{(2, 6), (3, 5), (4, 4), (5, 3), (6, 2)},
5
que tiene 5 elementos. Ası́, P (8) = .♦
36
Ası́, en el ejemplo anterior, el espacio muestral es el producto cartesiano de [6] consigo mismo:
[6] × [6] = [6]2 .
22
3.4 Ejemplo. El experimento consiste en lanzar un dado y observar el número que
queda arriba. Calcular la probabilidad de que el número que quede arriba sea el 1 y también
calcular la probabilidad de que el número que quede arriba sea par.
3.6 Ejemplo. Calcular la probabilidad de que al lanzar una moneda 3 veces se muestren
al menos dos águilas.
3.7 Ejemplo. Determinar la probabilidad de que al lanzar dos dados lo que sumen las
caras que se ven arriba sea 6.
S = {(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)},
5
de donde la probabilidad es 36
∼ 0.14. ♦
Veamos algunas propiedades que ya hemos podido observar en los ejemplos y hagamos
algunos comentarios sobre ellas.
3.8. Propiedad (1). La probabilidad de que algo ocurra es un número entre 0 y 1. (Esto
es obvio pues, como el suceso S es subconjunto del espacio muestral Ω, entonces |S| ≤ |Ω|.)
Es 0 cuando es imposible que ocurra (es decir, P (∅) = 0), y es 1 cuando es seguro que debe
23
ocurrir (o sea, P (Ω) = 1). En el caso en que Ω es conjunto finito y todos los elementos son
equiprobables, entonces para todo S ⊂ Ω se tiene que P (S) ∈ Q.
Retomemos aquı́ el ejemplo 3.6 en el que se pide calcular la probabilidad de que al lanzar
tres monedas al aire salgan al menos dos águilas. Arriba calculamos la probabilidad de S ∪ T
donde S = {ass, sas, ssa, } y T = {aaa}, pero podrı́amos haber calculado por separado las
probabilidades P (S) = 83 y P (T ) = 18 .
Observemos que la propiedad (2) no serı́a válida si no pidiéramos que los sucesos fueran
mutuamente excluyentes, es decir, si hubiera la posibilidad de que ocurrieran simultánea-
mente; por ejemplo, la probabilidad de que al lanzar un dado lo que salga sea un número
mayor que 3 o que sea un número par es 46 (el suceso es {2, 4, 5, 6}) y no 63 + 36 = 1, que serı́a
la suma de las probabilidades de los sucesos S = {4, 5, 6} y T = {2, 4, 6} (los casos 4 y 6 son
comunes a los dos y se estarı́an contando dos veces al sumar las probabilidades).
Demostración. Esto es claro por la propiedad (2) pues para S ⊂ Ω, S y ¬S son conjuntos
ajenos cuya unión es Ω, ası́ que 1 = P (Ω) = P (S) + P (¬S). ♦
Veamos más ejemplos en los que podremos observar que hay que escoger con cuidado el
espacio muestral para que represente verdaderamente el problema que se quiere resolver.
3.10 Ejemplo. El experimento es sacar 2 pelotas de una caja en la que hay 2 pelotas
24
rojas y 3 azules. Se quiere calcular la probabilidad de que las dos pelotas escogidas tengan
distinto color y compararla con la probabilidad de que tengan el mismo color.
Solución. Para definir el espacio muestral conviene numerar las pelotas y pensar que las
rojas son la 1 y la 2, y que de la 3 a la 5 son azules; entonces el espacio muestral es
Ω = {{1, 2}, {1, 3}, {1, 4}, {1, 5}, {2, 3}, {2, 4}, {2, 5}, {3, 4}, {3, 5}, {4, 5}}
y S = {{1, 3}, {1, 4}, {1, 5}, {2, 3}, {2, 4}, {2, 5}},
6
ası́ que P (S) = 10 = 53 = 0.6. La probabilidad de que las dos pelotas tengan el mismo color
4
se calcula considerando el suceso T = {{1, 2}, {3, 4}, {3, 5}, {4, 5}}, y aquı́ P (T ) = 10 =
0.4 < P (S) (o, de otra manera, como T = ¬S, P (T ) = 1 − P (S) = 1 − 53 = 25 = 0.4). ♦
3.11 Ejemplo. Como en 3.10, se tiene una caja en la que hay 2 pelotas rojas y 3 azules,
pero ahora el experimento consiste en sacar una pelota, observar su color, volverla a meter,
y sacar otra vez una pelota. Calcular la probabilidad de que las dos pelotas escogidas tengan
distinto color. Comparar con los resultados de 3.10.
Solución. Numeremos las pelotas como en el ejemplo anterior. En este caso
Ω = [5] × [5] y
S = {(1, 3), (3, 1), (1, 4), (4, 1), (1, 5), (5, 1), (2, 3), (3, 2), (2, 4), (4, 2), (2, 5), (5, 2)},
por lo que P (S) = 12
25
= 0.48, que es menor que el resultado del ejemplo anterior, lo cual
resultaba intuitivamente obvio. ♦
3.13 Ejemplo. Encontrar la probabilidad de que una persona determinada haya nacido
en enero o febrero.
25
59
Solución. Ω = [365], S = [59] y P (S) = 365
∼ 16 . ♦
3.15 Ejemplo. Encontrar la probabilidad de que al lanzar una moneda al aire 10 veces
caigan exactamente 5 águilas.
Solución. Como antes, escribamos a por águila y s por sol. El espacio muestral Ω consta
de todas las sucesiones de longitud 10 formadas por a y s, de manera que |Ω| = 210 = 1024.
El suceso consta de los elementos de Ω que tienen exactamente 5 a0 s, ası́ que |S| es el número
de formas en que se pueden escoger 5 posiciones (donde aparezcan las a0 s) dentro de un total
de 10, es decir, 10
5
252
= 252. Entonces P (S) = 1024 ∼ 0.25. ♦
3.16 Ejercicio. Encontrar la probabilidad de que al lanzar una moneda al aire 10 veces
salga águila entre 3 y 7 veces.
26
3.17 Ejemplo. En un grupo de 8 niños la maestra los ordena al azar en una fila. ¿Cuál
es la probabilidad de que Ana quede atrás de Beto?
Solución. Primera forma. Podemos pensar que el espacio muestral es el conjunto de todas
las permutaciones, el cual tiene 8! elementos. Para contar las permutaciones en las que Ana
queda detrás de Beto podemos escoger los dos lugares en los que quedan ellos dos, lo cual
8
puede hacerse de 2 maneras; ahı́ ponerlos en orden y luego multiplicar por las permutaciones
de todos los demás, que son 6!. La ptrobabilidad es:
8
2
6! 8·7 1
= = .
8! 2·8·7 2
Segunda forma. De todas las permutaciones, en la mitad está Ana antes que Beto y en
la otra mitad está Beto antes que Ana. La probabilidad es 21 . ♦
3.18 Ejemplo. En un grupo de 8 niños la maestra los ordena al azar en una fila.
(a) ¿Cuál es la probabilidad de que Ana quede atrás de Beto y de Carlos?
(b) ¿Cuál es la probabilidad de que Ana quede atrás de Beto, y Beto atrás de Carlos?
Solución. (a) 31 .
(b) 16 . ♦
Como ya hemos visto, se pueden considerar distintos espacios muestrales para resolver un
determinado problema y, en cada caso, el suceso del cual se quiere calcular la probabilidad
es diferente, ası́ que los cálculos también lo son, aunque, claro, el resultado final debe ser el
mismo. En el siguiente ejemplo presentamos varias formas de resolver el problema según el
espacio muestral que se escoja.
Primera forma. Sea P4 = {S ⊂ [10] : |S| = 4}, es decir, P4 tiene por elementos a
los subconjuntos de [10] que tienen 4 elementos. Tomemos Ω = P4 × P4 . En este caso
10 6
|¬S| = 4 4 , ası́ que
10 6 6 6·5·4·3
4 4 4 4·3·2·1 6·5·4·3 13
P (S) = 1 − P (¬S) = 1 − 102 = 1 − 10 = 1 − 10·9·8·7 = 1 − = .
4 4·3·2·1
10 · 9 · 8 · 7 14
4
27
Segunda forma. Sea P4 como arriba. Supongamos que un conjunto de 4 elementos ya está
escogido; entonces queremos calcular la probabilidad de que al escoger otro conjunto,
éste
6 10
sea ajeno con el primero. En este caso tomemos Ω = P4 . Aquı́ |¬S| = 4 , |Ω| = 4 y
6·5·4·3
6
6·5·4·3 13
P (S) = 1 − P (¬S) = 1 − 4
=1− 4·3·2·1 =1− = .
10 10 · 9 · 8 · 7
4
10 · 9 · 8 · 7 14
4·3·2·1
Tercera forma. Como en la segunda forma, supongamos que un conjunto de 4 elementos ya
está escogido; entonces queremos calcular la probabilidad de que al escoger otro conjunto,
éste sea ajeno con el primero. Sea Ω = {(c1 , c2 , c3 , c4 ) ∈ [10] : ci 6= cj para i 6= j} y
supongamos que el conjunto ya escogido tiene elementos a1 , a2 , a3 , a4 ; en este caso ¬S =
{(c1 , c2 , c3 , c4 ) ∈ Ω : para cada i, j ci 6= aj }, |¬S| = 6 · 5 · 4 · 3 y |Ω| = 10 · 9 · 8 · 7 y, entonces,
6·5·4·3 13
P (S) = 1 − P (¬S) = 1 − = .♦
10 · 9 · 8 · 7 14
Los siguientes problemas se refieren al conjunto usual de 28 fichas de dominó en que cada
ficha muestra dos números de la colección 0, 1, 2, 3, 4, 5 y 6 (posiblemente repetidos), como
esquematizamos a continuación:
Se llaman fichas dobles aquéllas en que los dos números mostrados son iguales. Se llama
mano de dominó cualquier
colección de 7 de las 28 fichas. Nótese que el número total de
28
manos de dominó es 7 = 1 184 040.
28
3.22 Ejercicio. ¿Cuál es la probabilidad de que una mano de dominó tenga por lo menos
2 fichas dobles?
3.23 Ejercicio. Se dice que una mano de dominó tiene falla si alguno de los números
entre el 0 y el 6 no aparece en la mano (cada número faltante es una falla); por ejemplo
la mano {2|1, 5|5, 3|1, 0|0, 1|0, 5|6, 0|2} tiene falla a 40 s. ¿Cuál es la probabilidad de que una
mano de dominó no tenga falla?
3.24 Ejercicio. Se eligen al azar n cartas de la baraja. ¿Cómo debe ser n para que la
probabilidad de que entre las cartas elegidas haya (al menos) dos del mismo número sea
mayor que 21 ? ¿Cuál es la probabilidad si n = 14?
3.26 Ejercicio. Calcular la probabilidad de que al lanzar tres veces dos dados, las tres
veces los números que salgan sean iguales entre sı́.
3.27 Ejercicio. Se escogen al azar en sucesión tres números (posiblemente iguales) entre
el 1 y el 100. ¿Cuál es la probabilidad de que se hayan escogido en orden creciente estricto?
3.28 Ejercicio. Lanzamos una moneda al aire 5 veces. Si sabemos que 3 de ellas fueron
águila, ¿cuál es la probabilidad de que la primera haya caı́do águila?
3.29 Ejercicio. Un dado se lanza al aire 6 veces. ¿Cuál es la probabilidad de que aparezca
cada uno de los seis números una vez?
3.30 Ejercicio. Supongamos que de un grupo de 10 enfermedades cada una tiene pro-
1
babilidad 10 de atacar a un animal determinado a lo largo de su vida. ¿Qué probabilidad
tiene ese animal de enfermarse de al menos una de esas enfermedades?
Hasta aquı́ hemos trabajado con problemas de probabilidad basados en conteo dentro de
conjuntos finitos. Sin embargo, es claro que pueden interesarnos casos en los que los conjuntos
no sean finitos. Por ejemplo, podrı́amos preguntar cuál es la probabilidad de escoger un punto
dentro de una región dibujada en un papel al escoger un punto cualquiera del papel. Si el
29
área total del papel es s y el área de la región es r, entonces la respuesta deberı́a ser el
número real (no necesariamente racional) rs ; para lograr esto deberemos tener una concepto
de medida clara en nuestros conjuntos y también una idea de convergencia en el caso infinito.
En muchos casos, nuestros espacios muestrales pueden ser conjuntos de números reales
o de Rn para algún natural n. Decimos que un espacio muestral Ω ⊂ Rn es discreto si para
cualquier producto de intervalos reales I = [a1 , b1 ] × · · · × [an , bn ] la intersección de I con Ω
es finita. Por ejemplo, cualquier espacio muestral finito es discreto y también lo es Z × Z. El
intervalo real (0, 1), Q, { n1 : n ∈ N} y el cı́rculo S 1 = {z ∈ C : ||z|| = 1} no son discretos.
Para extender nuestro estudio de probabilidad abstraeremos las condiciones intuitivas de
probabilidad que hemos visto, como explicamos a continuación.
P(X) = {A : A ⊂ X}.
Es claro que el concepto intuitivo de probabilidad que vimos en los ejemplos finitos al
|S|
definir P (S) = |Ω| para S ⊂ Ω satisface los axiomas de probabilidad. También observemos
que para resolver problemas como 3.12, escogimos un espacio muestral especial que tomaba
en cuenta una “medida” para cada caballo; nuestro espacio muestral podrı́a haber sido el
conjunto {1, 2, 3, 4} de los caballos y podrı́amos haber calculado la función de probabilidad
tomando P {4} = p y entonces P {3} = 2p, P {2} = 4p y P {1} = 8p. Como 1 = P {1, 2, 3, 4} =
1
P {1} + P {2} + P {3} + P {4} = 8p + 4p + 2p + p = 15p, entonces p = 15 y la respuesta es
2
P {3} = 15 .
Dada una función de probabilidad, usando sólo los axiomas se pueden probar las siguientes
propiedades:
30
sucesos de Ω. Se satisfacen entonces la siguientes propiedades.
(a) P (∅) = 0.
(b) Si S ∈ S y ¬S es el complemento de S entonces P (¬S) = 1 − P (S).
(c) Si S ⊂ T entonces P (S) ≤ P (T ).
(d) Para todo S ∈ S se tiene que P (S) ≤ 1.
3.32 Nota. Se puso (P3) como axioma, sin considerar un problema de convergencia
en el caso numerable; sin embargo, una serie como la descrita siempre
Pn converge pues de la
proposición anterior se deduce que la sucesión de sumas parciales i=1 P (Sk ) n es creciente
y acotada por 1 = P (Ω).
3.33 Ejemplo. Se lanza una moneda al aire hasta que salga águila por primera vez.
(a) ¿Cuál es la probabilidad de que se lance menos de 4 veces?
(b) ¿Cuál es la probabilidad de que la primera vez que salga águila sea en un lanzamiento
par (es decir en el segundo o en el cuarto, etc.)?
(c) ¿Cuál es la probabilidad de que la primera vez que salga águila sea en un lanzamiento
impar (es decir en el segundo o en el cuarto, etc.)?
Solución. Conviene tomar Ω = N en donde cada n ∈ Ω representa el primer lugar en el
que apareció águila. Entonces P {1} = 21 , P {2} = 12 12 = 14 y, en general, P {n} = 21n ; si S
es un suceso con más de un elemento, se define P (S) usando P∞(P3). Entonces es claro que
1
también se satisface (P2). El axioma (P1) se satisface pues i=1 2n = 1.
(a) Aquı́ el suceso que debemos considerar S = {1, 2, 3, 4}, ası́ que la solución del ejemplo
es
1 1 1 1 15
P (S) = P {1} + P {2} + P {3} + P {4} = + + + = .
2 4 8 16 16
31
(b) En este caso el suceso es T = {2, 4, 6, · · · } y
∞
X 1 1 4 1
P (T ) = P {2} + P {4} + P {6} + · · · = = 1 −1= −1= .
i=1
4n 1− 4
3 3
(c) Usando 3.31(b) tenemos que la probabilidad es 23 . ♦
Trabajar con conjuntos en donde no se tiene bien definida una noción de medida puede
llevar a contradicciones, como veremos en el siguiente ejemplo.
32
En este caso, la unión también serı́a N, pero en cada conjunto la probabilidad de escoger un
número par serı́a 13 ası́ que procediendo de esta manera concluirı́amos que la probabilidad
total es también 13 .
Modificando los conjuntos es posible lograr que cualquier número entre 0 y 1 sea el lı́mite
de las probabilidades de una sucesión creciente de conjuntos cuya unión es N. ♦
En los casos finitos, nuestro sentido común nos ayuda mucho a definir la función de pro-
babilidad, pero en los casos infinitos debemos basarnos en alguna abstracción que convenga
al problema que queremos resolver o, simplemente, puede trabajarse en abstracto. Estudios
de este tipo corresponden a un nivel mucho más avanzado que el propósito de este curso.
Los espacios muestrales continuos son infinitos e, inclusive, pueden no ser numerables.
En ellos debe definirse una medida (y, a través de ella, una probabilidad) de alguna manera
apropiada cuidando que se satisfagan los axiomas (P1), (P2) y (P3). Para empezar, como
vimos en 3.35, si el espacio muestral es infinito, no es posible que todos los sucesos que
constan de un solo elemento tengan la misma probabilidad; también resulta, como dijimos
arriba, que en muchos casos no es posible asignar una probabilidad a cada subconjunto del
espacio muestral.
El siguiente ejemplo nos describe una forma de definir una función de probabilidad en
un espacio muestral continuo.
3.36 Ejemplo. Definir una función de probabilidad en el intervalo real [a, b] (con a < b
reales) que tome en cuenta la proporción de medidas.
Solución. Consideremos que los sucesos son intervalos contenidos en [a, b] o uniones finitas
o numerables de éstos. Recordemos que se quiere que el espacio total tenga probabilidad 1.
c−d
Entonces, dado un intervalo [c, d] ⊂ [a, b], es natural definir P [c, d] = b−a . Se extiende la
definición a otros sucesos usando (P3). (Observamos que la probabilidad de los conjuntos de
un solo elemento es 0.) ♦
33
y para [c, d] ⊂ [a, b],
d
d−c
Z
P [c, d] = f (x)dx = .
c b−a
En este caso la función escogida f es constante pues se quiere que la probabilidad sea
homogénea de acuerdo a la medida. Sin embargo, como vimos en los casos finitos, en otros
problemas puede interesarnos que la distribución de probabilidad no sea homogénea; en esos
casos usaremos la integral de una función f no constante que tome en cuenta la distribución
de la probabilidad que requiere el problema.
3.39 Ejercicio. Sea Ω = {a, b, c}. ¿Es posible definir una función de probabilidad en Ω
que cumpla P {a, b} = 32 , P {a, c} = 13 y P {b, c} = 13 ?
3.40 Ejercicio. Se sabe que hay dos enfermedades que pueden atacar a una población
de animales en el verano. También se sabe que la probabilidad de que un determinado animal
adquiera a lo más una de las enfermedades es 0.9 y de que adquiera al menos una de las
enfermedades es 0.2. Determinar las siguientes probabilidades para un determinado animal:
(a) Que no adquiera ninguna de las enfermedades.
(b) Qe adquiera una de ellas.
(c) Que adquiera las 2.
3.41 Ejercicio. Se lanza un dado hasta que aparezca 1 por primera vez. Calcular las
siguientes probabilidades.
(a) Que se necesite lanzarlo 10 veces.
(b) Que se necesite echarlo menos de 5 veces.
(c) Que se necesite lanzarlo un número par de veces.
3.44 Ejercicio. En cada turno de un juego, cada una de tres personas lanza una moneda
al aire hasta que uno de los resultados sea distinto de los otros dos, y entonces el dueño de
34
la moneda distinta pierde.
(a) ¿Cuál es la probabilidad de que en el primer turno haya un perdedor?
(b) ¿Cuál es la probabilidad de que se necesite un número par de lanzamientos para
determinar un perdedor?
Empezaremos esta sección con tres ejemplos en los que nuestra intuición falla si no se
toman en cuenta condiciones que limitan al conjunto que tratamos. La conclusión es que hay
que tener mucho cuidado con el universo en el que se trabaja.
3.45 Ejemplo. En un programa de concurso hay tres puertas cerradas. Sólo una de
ellas tiene detrás un premio. Un determinado concursante escoge una puerta A, sin abrirla;
el animador (que sabe cuál de las puertas es la buena), abre una de las otras dos puertas,
B, mostrando que no hay premio detrás, y le dice al jugador que abra una de las otras: B o
C. Según las probabilidades, ¿qué puerta le conviene abrir al concursante (o es igual)?
Solución. Tenemos el espacio muestral Ω = {A, B, C}. En un principio se tiene que la
probabilidad es homogénea, ası́ que P {A} = 13 y, por tanto, P {B, C} = 23 . Sin embargo luego
se nos dice que no es B, ası́ que P {B} = 0; la probabilidad de A sigue siendo 13 pero la de
{C} ahora tenemos que es 23 , ası́ que le conviene cambiar de opinión y escoger la puerta C
(con el doble de oportunidad de ganar). ♦
3.46 Ejemplo. En una población se sabe que la probabilidad de tener una cierta enfer-
medad es de 10 1000 . Una prueba de sangre es confiable en un 90 %. Raúl se hizo la prueba y
resultó positiva. Está muy asustado. ¿Tiene razón?
Solución. No tiene razón. La probabilidad de que tenga la enfermedad es muy remota,
como veremos a continuación. En primer lugar entendamos qué significa que la prueba sea
90 % confiable. Significa que acierta en el 90 % de los casos en ambas situaciones: cuando la
persona está enferma y cuando la persona está sana.
Veamos ahora la solución. Supongamos que en la población hay 100 000 personas. Hay 10
enfermas y 99 990 sanas. De las 10 enfermas, a 9 les sale positivo y a 1 le sale negativo. De
las 99 990 sanas, a 9 999 (la décima parte) les sale positivo y al resto 89 991 les sale negativo.
35
1
La probabilidad de que esté enfermo es ¡menos de 1000
!:
9
= 0.0009. ♦
9 + 9 999
Solución. Sin importar si la persona está enferma o sana, la probabilidad de escoger una
9
carta que tenga número entre 1 y 9 es 10 ası́ que, si está enferma, la prueba acertará en 90 %
de los casos, misma probabilidad que tendrá de fallar si la persona está sana. ♦
36
Tenemos que el total de hombres solicitantes fue de 40 + 100 = 140 y de ellos se aceptó a
10 + 90 = 100 y eso da una proporción de 57 . Por otro lado, del total de 20 + 10 = 30 mujeres
solicitantes se aceptó a 10 + 10 = 20, lo cual hace una proporción total de mujeres aceptadas
de 32 . ♦
3.50 Ejemplo. Supongamos que lanzamos una moneda al aire 5 veces y que sabemos
que 3 de ellas fueron sol. ¿Cuál es la probabilidad de que la primera haya caı́do sol?
{sssaa, ssasa, ssaas, sassa, sasas, saass, asssa, assas, asass, aasss},
6
ası́ que la probabilidad de que la primera sea sol es 10
.
Según la notación de la definición tenemos que en el espacio muestral Ω = {a, s}5 , que tie-
ne 32 elementos. Se quiere calcular P (S|T ), donde T es suceso en que hay tres soles (o sea que
|T | = 53 y S = {s}×{a, s}4 . Notemos que S∩T = {sssaa, ssasa, ssaas, sassa, sasas, saass}
y ası́
5
P (S ∩ T ) 6
P (S|T ) = = 325
= .♦
P (T ) ( 3) 10
32
37
3.52 Proposición. Sea Ω = T1 ∪ T2 ∪ · · · ∪ Tn con los Ti sucesos ajenos por parejas y
sea T un suceso. Entonces:
P (S) = P (S|T1 )P (T1 ) + P (S|T2 )P (T2 ) + · · · + P (S|Tn )P (Tn ). ♦
Solución. Llamemos G al suceso de que meta gol, I al de que tire hacia la izquierda y D
al de que tire a la derecha. Entonces
P (G) = P (G|I)P (I) + P (G|D)P (D) (1)
7 8 6 2
= + (2)
10 10 10 10
= 0.68. (3)
Solución. Llamemos R al grupo de reprobados y E a los que estudiaron. Lo que nos dice
la frase: “El 10 % de los alumnos que reprobaron la materia el ciclo anterior no estudiaron” es
que P (¬E|R) = 10 %; la probabilidad de reprobar si no se estudia está dado por P (R|¬E),
que puede ser muy distinto a 10 %; por ejemplo, si hubiera habido 100 alumnos, de los cuales
sólo 2 no estudiaron, y que hubieran reprobado 10: 9 de los que estudiaron y 1 de los que no
estudió; entonces
|¬E ∩ R| 1
P (¬E|R) = = = 10 %,
|R| 10
|¬E ∩ R| 1
pero P (R|¬E) = = = 50 %. ♦
|¬E| 2
En el siguiente esquema ilustramos la situación del ejemplo anterior, donde hemos deno-
tado con A al grupo de los aprobados.
39
El siguiente teorema nos permite cambiar el conocimiento de una probabilidad del tipo
P (S|T ) por una del tipo P (T |S). El resultado se obtiene simplemente despejando en 3.52.
3.58 Ejemplo. Supongamos que se tienen dos monedas, una normal N (con caras s y
a) y otra defectuosa D, con dos águilas (a1 y a2 ). Se selecciona una de las monedas al azar y
resulta que al lanzarla se obtiene águila. ¿Cuál es la probabilidad de que haya sido la moneda
defectuosa?
Solución. Sean Ω = {s, a, a1 , a2 } (el conjunto de los posibles resultados), N = {s, a} (el
conjunto de los resultados de la moneda normal) y D = {a1 , a2 } (el conjunto de los resultados
de la moneda defectuosa). Sea A = {a, a1 , a2 } el suceso de que haya salido águila. Buscamos
P (D|A). Según 3.57 podemos calcularlo como
1
P (A|D)P (D) 1· 2
P (D|A) = = 2 = .♦
P (A|D)P (D) + P (A|N )P (N ) 1 1 1 3
1· + ·
2 2 2
3.59 Ejemplo. A cada uno de los miembros de una fábrica se le aplica una prueba para
ver si usa una droga determinada. Se sabe que la prueba es 98 % confiable. Si al Sr. X se le
hizo la prueba y salió positiva, ¿se puede afirmar que es 98 % seguro que usa la droga? ¿Y si
le sale negativa?
Solución. No, depende de la proporción de personas que usan la droga, por ejemplo,
supongamos que la fábrica tiene 10 000 personas y que sólo 100 de ellas usan la droga.
Usamos 3.52.
Por ejemplo; supongamos que la fábrica tiene 10 000 empleados y que sólo 100 usan la
droga. Sea D el conjunto de los empleados que usan la droga (ası́ P (D) = 10100000
= .01) y
L el conjunto de los empleados que no la usan (P (L) = .99). Sea P os el conjunto de los
empleados para los cuales la prueba resulta positiva (P (P os|D) = .98 y P (P os|L) = .02).
Por 3.52,
P (P os|D)P (D) (.98)(.01) 98
P (D|P os) = = = ∼ 33 %.
P (P os|D)P (D) + P (P os|L)P (L) (.98)(.01) + (.02)(.99) 296
40
Ahora, con el mismo ejemplo y N el conjunto de empleados a los que les sale negativa la
prueba, tenemos: P (N |D) = .02, P (N |L) = .98 y ası́
P (N |D)P (D) (.02)(.01)
P (D|N ) = = ∼ .0002 %.♦
P (N ) (.02)(.01) + (.98)(.99)
3.60 Ejemplo. En un juicio de un criminal que huyó por la noche en un taxi hubo un
testigo que afirmó que el taxi en el que habı́a huido era azul; justo el mismo color del taxi del
acusado. Habı́a duda de si se le creı́a o no porque era de noche. El fiscal dijo entonces que se
le habı́a hecho una prueba al testigo de distinguir un taxi en las mismas condiciones que las
de la noche del crimen; que se le habı́a repetido 100 veces y que el 80 % de las ocasiones habı́a
dicho el color correcto; que eso era indicación de que debı́a creérsele (con certeza de un 80 %).
Sin embargo, el abogado defensor dijo que probablemente el testigo se habı́a equivocado de
color porque la ciudad tenı́a 100 taxis, de los cuales 90 eran verdes y sólo 10 eran azules.
Entonces, cuando al testigo se le mostró taxi verde, pudo haber dicho verde 72 veces contra
18 que habrı́a dicho azul, y al presentársele con un taxi azul, pudo haber dicho verde 2 veces
y azul 8 veces; ası́ habrı́a acertado el 80 % de las veces; sin embargo, sólo 8 de las 26 veces
que habrı́a dijo azul, efectivamente se habrı́a tratado de un taxi azul, lo que representarı́a
8
un 26 ∼ 31 % ¿Quién tiene razón?
Solución. El abogado defensor está en lo correcto. La explicación matemática nos la da
el Teorema de Bayes. Sea Ω el conjunto de los taxis de esa ciudad. Sea S1 el conjunto de
los taxis azules y sea S2 el de los taxis verdes. Sea U el suceso que consta de los taxis que
el testigo declara como azules. Queremos determinar la probabilidad de que el taxi sea azul
dado que el testigo lo vio azul, es decir, P (S1 |U ). Entonces
P (U |S1 )P (S1 ) (.8)(.1) 8
P (S1 |U ) = = = .♦
P (U |S1 )P (S1 ) + P (U |S2 )P (S2 ) (.8)(.1) + (.2)(.9) 26
3.61 Ejercicio. En 3.59, ¿cómo deberı́a ser la proporción de personas que usan la droga
con respecto a los que no la usan, para que si a una persona la prueba le sale positiva entonces
se pueda afirmar que la probabilidad de que la usa sea de 98 %?
3.62 Ejercicio. En 3.60, ¿qué tan confiable habrı́a sido el testigo si se supiera que el
número de taxis verdes era de 10 y el de azules de 90?
3.63 Ejercicio. Se lanzaron 2 dados al aire y uno de ellos mostró un número par. ¿Cuál
es la probabilidad de que ambos hayan sido pares?
41
3.66 Ejercicio. Supongamos que cierta enfermedad x le da a 1 de cada 1000 personas.
Sabemos que alrededor de 5 % de la población tiene diabetes y que de la gente que tiene x,
el 50 % también padece diabetes.
(a) Si Juanito no padece la enfermedad x, ¿cuál es la probabilidad de que tenga diabetes?
(b) Si Juanito tiene diabetes, ¿cuál es la probabilidad de que tenga x?
3.4. Independencia
3.69 Ejemplo. (a) Se lanza una moneda dos veces; S es el evento que la primera caiga
sol, T que la segunda caiga sol. Entonces S y T son independientes.
(b) Se lanza un dado; S es el evento que caiga número par, T es el evento que caiga 2.
42
Entonces S y T no son independientes.
(c) Se lanza un dado dos veces. S es el evento que caigan iguales, T es el evento que el
primero sea 4. Entonces S y T son independientes.
(d) Se lanzan dos dados. S es el evento que su suma sea un número par, T es el evento
que su producto sea un número par. Entonces S y T no son independientes.
(e) Ω es el espacio de todas las personas; se escoge una al azar y S es el evento “ser
fumador” y T es el evento “morir joven”. Entonces S y T no son independientes.
Hasta ahora hemos visto qué significa que dos eventos sean independientes. Pero, ¿qué
significa que 3 o más eventos lo sean? Por ejemplo, intuitivamente, entendemos que si tiramos
una moneda 3 veces, los 3 eventos son independientes. Pero, aunque parezca extraño, podrı́a
ser que hubiera 3 eventos que estuvieran ligados a pesar de que cada pareja no lo estuviera.
Por ejemplo, supongamos que tiramos dos dados y sea S el evento que el primero sea par, T
el evento que el segundo sea par, y U el evento que la suma de ambos sea par. Claramente
cada dos son independientes, pero si se conocen S y T , entonces ya se conoce U , ası́ que en
conjunto, los tres no son independientes.
3.70 Observación. (a) Un evento S es independiente de sı́ mismo sólo cuando P (S) = 1
o P (S) = 0.
(b) Si S1 , S2 , S3 son mutuamente independientes, entonces
43
de escoger un número múltiplo de 4, T el evento de escoger un múltiplo de 5 y U el evento
de escoger un múltiplo de 6. Determinar la independencia o dependencia de S con T y U .
Solución. Vemos que S y T son independientes pues P (S|T ) = 41 = P (S); S y U no son
independientes ya que P (S|U ) = 12 6= P (S), y T y U sı́ son independientes pues P (U |T ) =
1
6
= P (U ). En este caso, por ejemplo, la probabilidad de que un número en [12] sea múltiplo
de 6 dado que se sabe que es múltiplo de 2 es 26 = 1/6
1/2
.♦
3.72 Ejemplo. Sea a1 , a2 , . . . , an una permutación de [n]. Sea S el suceso de que a1 > a2
y sea T el suceso de que a2 > a3 . ¿Cuál es la probabilidad de S dado T ? ¿Son S y T
independientes?
Solución. Tenemos que P (S) = P (T ) = 21 y P (S ∩ T ) = 16 , ası́ que P (S|T ) = 31 , es decir,
los sucesos no son independientes: el que T ocurra hace que S sea menos probable. ♦
El ejemplo anterior es intuitivamente claro pues el que T ocurra limita las posibilidades
para a2 (por ejemplo a2 6= 1).
3.73 Ejercicio. (a) Inventar otro ejemplo de 3 eventos independientes por parejas que
no sean independientes.
(b) Inventar un ejemplo de 4 eventos que saber 2 de ellos no afecte a un tercero, pero
que saber 3 de ellos sı́ afecte al cuarto.
3.74 Ejercicio. Probar que dado n ∈ N existen n sucesos dependientes tales que cua-
lesquiera n − 1 de ellos son independientes.
3.76 Ejercicio. Probar que si el que T ocurra hace más probable la ocurrencia de S (es
decir, P (S|T ) > P (S)) entonces el que S ocurra también hace más probable la ocurrencia
de T .
3.77 Ejercicio. Probar que si S y T son sucesos independientes entonces también lo son
¬S y ¬T .
3.78 Ejercicio. Una moneda se lanza al aire dos veces. Sea S el suceso de que la primera
vez salga águila y sea T el suceso de que los dos lanzamientos den distinto resultado. ¿Son
S y T independientes?
44
3.79 Ejercicio. En una caja hay 4 pelotas numeradas del 1 al 4. Se saca una pelota y
después, sin volver a meter la que se sacó, se saca otra pelota. Sea S el suceso de que la
primera pelota tenga el número 1 y sea T el suceso de que la segunda pelota tenga el número
1. ¿Son S y T independientes?
45
4. Variables Aleatorias y Esperanza
Hemos dado el nombre de espacio muestral al conjunto que contiene los posibles resultados
de un experimento. Sin embargo, no se puede operar con los resultados, por ejemplo, cuando
nos interesa contar el número de águilas al lanzar varias monedas al aire o al fijarnos en la
suma de lo que mostraban dos dados o al considerar la altura de personas. Se introduce,
entonces el concepto de variable aleatoria.
X : Ω → R.
[X = a] := {ω ∈ Ω : X(w) = a} = X −1 (a).
De la misma manera definimos [X < a], [X > a], [X ≤ a], [X ≥ a], etc. (Por ejemplo,
[X ≤ a] = X −1 (−∞, a].)
Ası́, en la situación en que X es la estatura de una persona en centı́metros, [X < 170] consiste
de todas las personas que miden menos de 170 cm, y en la situación en que X es el número
de águilas al lanzar 10 monedas, el evento [X = 1] consta de todos los lanzamientos que
constan de exactamente un águila.
46
Si Ω es un espacio muestral discreto y X es variable aleatoria en Ω, entonces la densidad de
X es la función pX : A → [0, 1], donde A es el rango de X y, para a ∈ A, pX (a) = P [X = a].
La distribución cumulativa de X es la función FX : R → [0, 1] dada por
X
FX (a) := P [X ≤ a] = pX (b).
b≤a
Notemos que estamos tratando el caso en que la variable aleatoria X es discreta, es decir,
el rango de X, A = {X(ω) : ω ∈ Ω}, es un subconjunto discreto de reales. Ası́, a partir de
las probabilidades de los conjuntos de un solo elemento se pueden obtener, usando (P3), las
probabilidades de todos los conjuntos.
Por ejemplo, en el espacio de probabilidad que resulta al lanzar una moneda 10 veces, en
donde X calcula el número de águilas, se tiene que
10
5 252
pX (5) = 10 = ∼ 0.25
2 1024
10 10 10 10 10 10
5
+ 4
+ 3
+ 2
+ 1
+ 0
FX (5) =
210
252 + 210 + 120 + 45 + 10 + 1 638
= = ∼ 0.60.
1024 1024
4.2 Ejemplo. Lanzamos un dado y nos fijamos en los resultados posibles (todos con la
misma probabilidad); entonces la variable aleatoria X : [6] → R está definida por X(ω) = ω
y, para i = 1, 2, . . . , 6, tenemos que pX (i) = 61 y FX (i) = 6i . Las gráficas pX y FX son:
47
4.3 Definición. La distribución de Bernoulli es la correspondiente a una variable alea-
toria X que sólo toma los valores 0 y 1. Si P [X = 0] = p, entonces pX (0) = p, pX (1) = 1 − p
y, para cualquier otro número r, pX (r) = 0. También FX [−∞, 0) = 0, FX [0, 1) = p y
FX [1, ∞) = 1.
4.5 Ejemplo. Consideremos la variable aleatoria X : {a, s}4 → R definida por X(ω) =
número de a0 s en el elemento ω del espacio muestral, considerando que la probabilidad de
obtener s es p = 21 . Tenemos
1 4 6 4 1
pX (0) = , pX (1) = , pX (2) = , pX (3) = y pX (4) = .
16 16 16 16 16
1 1+4
FX (−∞, 0) = 0, FX [0, 1) = , FX [1, 2) = ,
16 16
1+4+6 1+4+6+4
FX [2, 3) = , FX [3, 4) = y
16 16
1+4+6+4+1
FX [4, ∞) = = 1.
16
48
4.2. Esperanza
4.6 Ejemplo. A lo largo del semestre, un alumno obtuvo en cada una de 7 tareas la
calificación de 8 y en cada una de 5 tareas una calificación de 10. ¿Cuál es el promedio de
las 12 tareas?
Solución. El promedio es la suma de todas las calificaciones dividida entre el número de
calificaciones:
7 × 8 + 5 × 10 106
= = 8.83. ♦
12 12
Sea X una variable aleatoria discreta. La esperanza, media (aritmética), valor esperado,
promedio o primer momento de X, denotado por E(X), es el promedio de los valores de X,
considerando la repetición, es decir,
4.7. X X X
E(X) = P (ω)X(ω) = a · P [X = a] = a · pX (a).
ω∈Ω a∈R a∈R
49
lo cual coincide con nuestra idea de promedio de valores. En otras palabras, si a1 , ..., an son
los posibles valores que puede tomar X, entonces
E(X) = a1 P [X = a1 ] + a2 P [X = a2 ] + · · · + an P [X = an ].
4.8 Ejemplo. (a) ¿Cuál es el valor esperado del número que sale al lanzar un dado?
(b) ¿Cuál es el valor esperado de la suma de lo que muestren dos dados que se lanzan?
1 2 3 2 1
= 2· +3· +4· + · · · + 11 · + 12 ·
36 36 36 36 36
2 · 1 + 3 · 2 + 4 · 3 + · · · + 11 · 2 + 12 · 1
=
36
252
= = 7. ♦
36
Después veremos que en el ejemplo anterior no es casualidad que el resultado del promedio
de dos dados sea el doble del promedio de un dado (ver 4.15).
4.9 Ejemplo. ¿Cuántas águilas se espera que salgan si se lanza una moneda 2 veces?
Solución. Aquı́ Ω el conjunto de sucesiones de longitud 2 en {a, s} y X es la variable
aleatoria en Ω definida por X(ω) = número de águilas de ω. En este caso,
E(X) = 2 · pX (2) + 1 · pX (1) + 0 · pX (0) = 2 · 14 + 1 · 12 + 0 · 14 = 1,
o también
1 1
E(X) = (X(a, a) + X(a, s) + X(s, a) + X(s, s)) = (2 + 1 + 1 + 0) = 1. ♦
4 4
50
4.10 Ejemplo. Como en 3.10, el experimento es sacar 2 pelotas de una caja en la que
hay 2 pelotas rojas y 3 azules. ¿Cuántos colores distintos se esperan?
Solución. La variable aleatoria a considerar está definida por X(ω) = número de colores
de ω, donde ω es cualquier conjunto de dos pelotas de la caja. Por 3.10 sabemos que la
probabilidad de que salgan los dos colores es pX (2) = 0.6 y la de que las dos pelotas tengan
el mismo color es pX (1) = 0.4. Entonces
6 4
E(X) = 2 · pX (2) + 1 · pX (1) = 2 · +1· = 1.6. ♦
10 10
4.11 Ejemplo. Alejandra y Delia van a jugar un juego. Alejandra lanzará un dado y
le dará una moneda a Delia cada vez que lo que salga en el dado no sea 2. Si se quiere que
ninguna de las dos jugadoras tenga ventaja, ¿cuántas monedas deberá pagar Delia cada vez
que salga el 2?
Solución. Aquı́ tenemos Ω = [6] y X(ω) = 1 si ω 6= 2. Se quiere encontrar X(2) de
tal manera que E(X) = 0. Sea z = X(2). Tenemos, pX (1) = 65 , pX (z) = 16 y E(X) = 0.
Entonces 0 = 1 · 56 + z · 16 , de donde z = −5, de manera que Delia tendrá que pagar 5 monedas
a Alejandra en caso de que salga 2 en el dado. ♦
51
Observemos que, dada una variable aleatoria X en Ω, pX es, en efecto, una función de
probabilidad que traduce la probabilidad P definida en sucesos (subconjuntos) de Ω en una
probabilidad de sucesos (subconjuntos) de R. De hecho, ya habı́amos hecho esto, sin decirlo,
como explicamos en el siguiente ejemplo.
4.13 Ejemplo. El experimento consiste en lanzar una moneda al aire hasta que salga
águila por primera vez. ¿En qué lanzamiento se espera que esto ocurra?
Solución. Aquı́ consideramos la variable aleatoria X que asigna, a cada sucesión infinita
de a0 s y s0 s, el primer lugar en el que aparece a (si no aparece, podrı́amos asignarle cualquier
valor no natural, por ejemplo −1, con probabilidad 0). Como el conjunto es infinito, ya no
podemos calcular la esperanza tomando el promedio en la forma acostumbrada y, de hecho,
es más difı́cil adivinar la esperanza de X. Veamos que se espera que salga águila alrededor
del segundo lanzamiento, recordando que pX (i) = 21i :
∞ ∞
i i
= 21 + 42 + 38 + · · ·
P P
E(X) = 2i
= 2i
i=1 i=1
1
+ + 81 + · · · +
1 1
+ 18 + · · · + 1 1
= 2 4 4 8
+ ··· + 16
+ ··· + ···
= 1 + 21 + 41 + 18 + · · · = 2. ♦
4.14 Proposición. (a) Si X es una variable aleatoria constante tal que X(ω) = c para
todo ω ∈ Ω, entonces E(X) = c.
(b) Si X ≤ Y (es decir, si X y Y son variables aleatorias en Ω y para todo ω ∈ Ω se tiene
que X(ω) ≤ Y (ω)), entonces E(X) ≤ E(Y ).
(c) Si X es variable aleatoria y c es una constante, entonces E(cX) = cE(X).
(d) Si X y Y son variables aleatorias en un espacio muestral Ω, entonces E(X + Y ) =
E(X) + E(Y ).
Aquı́ queda de manifiesto lo que habı́amos dicho de que no era sorprendente que el
resultado de 4.8(b) fuera el doble del de 4.8(a).
52
4.15 Nota. Las propiedades (c) y (d) de la proposición anterior expresan la linealidad
de la esperanza y tenemos que si X1 , X2 , . . . , Xn son variables aleatorias en Ω y c1 , c2 , . . . , cn
son reales, entonces !
X X
E ci X i = ci E(Xi ).
i i
4.16 Ejemplo. Tiramos un dado 100 veces. En promedio, ¿cuántas veces esperamos que
nos salga un 4?
Solución. Primera forma. Se espera que la sexta parte de las veces salga 4, ası́ que la
respuesta es 100/6.
Segunda forma. Sea X la variable aleatoria que cuenta el número de veces que salió 4.
Escribimos
X = X1 + X2 + X3 + · · · + X100
donde
1, si el dado i es 4,
Xi (ω) =
0, si no.
Entonces E(X) = E(X1 ) + · · · + E(X100 ), pero para toda i,
1
E(Xi ) = 1 · P [Xi = 1] + 0 · P [Xi = 0] = ,
6
ası́ que E(X) = 100/6. ♦
4.17 Ejemplo. ¿Cuántos elementos se espera que tenga un subconjunto de [n] escogido
al azar?
Solución. Primera forma. Para cada r ≤ n los conjuntos con r elementos son la misma
cantidad que los conjuntos con n − r elementos, ası́ que el promedio es n2 .
Segunda forma. Sea Ω = P[n], el conjunto de subconjuntos de [n]. Sea X la variable
aleatoria definida en Ω por X(ω) = número de elementos de ω. Entonces
n
1X n
E(X) = n r .
2 r=0 r
53
n n
Ahora, considerando que r
= n−r
, agrupando términos y multiplicando por 2/2, tenemos
que n
1 X n 1 n
E(X) = n+1 n = n+1 (n · 2n ) = .
2 r=0
r 2 2
4.18 Nota. Una variable aleatoria (como las Xi de los ejemplos anteriores) que sólo
toma valores 0 o 1, se llama variable aleatoria indicadora. Su esperanza coincide con la
probabilidad de que su valor sea 1.
4.19 Ejemplo. Determinar cuántas fichas dobles se espera que tenga una mano de
dominó, primero de manera intuitiva y después usando variables aleatorias indicadoras.
Solución. Primera forma. Una mano de dominó consta de 7 fichas, que es la cuarta parte
del total; como hay 7 dobles se espera que una mano tenga también la cuarta parte de éstas;
ası́ la respuesta es 47 .
Segunda forma. Podemos calcular el promedio de las fichas dobles que tiene 21 cada mano;
7
el número de manos que tienen i fichas dobles (para i = 0, 1, 2, . . . , 7) es i 7−i . Cada uno
de éstos tenemos que multiplicarlo por i y observamos que i 7i 7−i
21 6
21
= 7 i−1 7−i
. Entonces,
usando 4.15, tenemos que el promedio de fichas dobles en una mano es
7
21
7 27
X i 7−i 7
i· 28
= 286 = .
i 7 7
4
Tercera forma. Sea Ω = {manos}. Sea X la variable aleatoria definida en Ω por X(ω) =
número de fichas dobles en ω. Queremos determinar E(X). Para esto definamos, para i =
1, . . . , 7, la variable aleatoria Xi por
1, si (i, i) ∈ ω,
Xi (ω) =
0, si no.
(276) 7
= 14 para toda i, ası́ que
P
Es claro que X = Xi y que P [Xi = 1] = = 28
i (287)
X 7
E(X) = E(Xi ) = . ♦
i
4
54
4.20 Ejemplo. A una fiesta asisten n personas. Cada una lleva un regalo y éstos se
sortean, de manera que a cada persona le toque un regalo. ¿A cuántas personas se espera
que les toque su propio regalo?
Solución. Aquı́ podemos pensar que el espacio muestral consta de todas las permutaciones
(a1 , a2 , . . . , an ) de n elementos, y la variable aleatoria X que nos interesa calcula el número
de puntos fijos, es decir, cuántos ai son iguales a i (por ejemplo, si n = 8, en la permutación
(4, 1, 3, 8, 2, 6, 5, 7) los puntos fijos son dos: en 3 y en 6). Definamos, para cada i ∈ [n], la
variable aleatoria que tiene el valor 1 cuando i es punto fijo y 0 cuando no. Entonces
n
X (n − 1)! 1
X= Xi y P [Xi = 1] = = ,
i=1
n! n
de donde E(X) = 1. ♦
Para comprender mejor el ejemplo anterior, veamos la siguiente tabla, en la que se mues-
tran las 6 permutaciones σ1 , . . . , σ6 de [3], y en cada una se han marcado con asterisco los
elementos fijos. La última columna cuenta el número de puntos fijos de cada permutación, lo
cual es lo que cuenta X. Por otro lado, hasta abajo de cada columna aparece cuántas veces
el elemento respectivo quedó fijo, lo cual corresponde a lo que cuenta cada Xi . Los totales
deben ser los mismos; es decir, 3 + 1 + 1 + 0 + 0 + 1 = 6 = 2 + 2 + 2. En resumen, las Xi0 s
cuentan por columnas lo mismo que X cuenta por renglones.
total
∗ ∗ ∗
σ1 1 2 3 → 3
σ2 1∗ 3 2 → 1
σ3 2 1 3∗ → 1
σ4 2 3 1 → 0
σ5 3 1 2 → 0
σ6 3 2∗ 1 → 1
↓ ↓ ↓ ↓
total 2 2 2 → 6
4.21 Ejemplo. Un grupo de n jóvenes compite cada dı́a en saltos de longitud. Nunca
se repiten las distancias que logran. En un dı́a promedio, ¿cuántas veces se rompe el récord
de ese mismo dı́a (considerando que el primero que compite siempre rompe récord)?
Solución. Digamos que Ω = es el conjunto de permutaciones de [n]. La variable aleatoria
X : Ω → R es tal que evaluada en una permutación σ, es el número de veces que dentro de
σ se rompe el record (es decir, que aparece un número más grande que todos los anteriores).
55
Analicemos el caso n = 4, subrayando los lugares donde se rompe récord:
Podemos observar que el 1ero rompe récord en 24 permutaciones (el 100 % de las veces);
que el 2do lo rompe en 12 (en la mitad de las veces); el 3ero en 8 (la tercera parte); el 4to
en 6: (la cuarta parte).
En general:
1 1 1
E(X) = E(X1 ) + · · · + E(Xn ) = + + · · · + ∼ ln(n) ♦
1 2 n
Terminemos esta sección con algunos ejemplos interesantes. Los siguientes dos ejemplos
van en contra de nuestra intuición.
56
es decir,
1 12 1
E(N vs A) = (1 · 18 + 1 · 6 + (−1) · 12) = = .
36 36 3
[V vs R] Los 30 s de V pierden, cada uno, contra los dos 60 s de N pero ganan las otras
veces y ası́
1 12 1
E(V vs R) = (1 · 24 + (−1) · 12) = = .
36 36 3
[R vs N ] Como arriba,
1 12 1
E(R vs N ) = (1 · 12 + 1 · 12 + (−1) · 12) = = .♦
36 36 3
4.23 Nota. El ejemplo anterior lo sintetizamos por:
4.24 Ejemplo. ¿Cuántos novios conviene a tener antes de casarse? Supongamos que
uno piensa que a lo más debe tener n novios/as (por ejemplo, si se decidiera empezar a
probar novios a los 17, tener un novio cada 2 años y elegir a lo más a los 34 años, entonces
n serı́a 34−16
2
= 9). También supongamos que se decide tener a novios de prueba a los que se
desecharı́a (y no se podrı́a volver con ninguno de ellos) y después se decidirı́a por el primero
que superara a esos a. ¿La pregunta es: Aquı́ se pueden hacer dos preguntas
Versión romántica. ¿Cómo debe ser a en relación con n, si se quiere maximizar la proba-
bilidad de quedarse con el mejor?
Versión práctica. ¿Cómo debe ser a en relación con n, si se quiere maximizar la esperanza
(el promedio)?
Solución. Para entender bien el problema, tomemos n = 9, digamos que todos los can-
didatos están ordenados del 1 al 9, siendo 9 el que habrı́a sido mejor, luego el 8, etc. Si se
determinara que a = 4 entonces, analicemos con cuál novio se quedarı́a uno en el caso de las
siguientes permutaciones de candidatos (que serı́a según van apareciendo como candidatos):
57
Para (4, 1, 5, 2, 3, 6, 8, 7, 9) la elección serı́a el 6.
Para (8, 4, 9, 3, 5, 1, 6, 7, 2) la elección serı́a el 2.
Para (6, 2, 1, 8, 4, 3, 9, 5, 7) la elección serı́a el 9.
Para (1, 2, 3, 4, 5, 6, 7, 8, 9) la elección serı́a el 5.
A continuación se tiene una simulación hecha por computadora para n = 30 y diversos
valores de a de la versión romántica, es decir, de la probabiidad de escoger a n. La gráfica
muestra que a deberı́a ser entre 11 y 12.
58
Trabajaremos aquı́ la versión romántica pues la otra es demasiado complicada.
Ahora, suponiendo que n es grande y que en este caso a también lo es, la expresión es
aproximadamente igual a
a
(ln(n) − ln(a))
n
a n
= ln
n a
Igualamos a 0 y despejamos x:
1
x= .
e
Para maximizar la probabilidad de quedarse con el/la mejor posible marido/mujer se deben
tener ne novios(as) antes de decidir donde n es el número esperado de novios(as) que podrı́a
59
uno tener antes de casarse. La probabilidad de obtenerlo será 1e . (Por ejemplo, si n = 9,
entonces la probabilidad de encontrar el mejor candidato como esposo se obtiene con a =
9
e
∼ 3 y si n = 30 entonces a = 30
e
∼ 11. ♦
4.26 Ejercicio. En una caja hay 11 pelotas rojas, 9 pelotas azules y 5 pelotas blancas.
Si se extraen 4 pelotas de la caja, ¿cuántas pelotas blancas se espera que salgan?
4.27 Ejercicio. Dada una permutación (a1 , . . . , an ) de [n], para i ≥ 2 digamos que ai
es valle si ai es menor que ambos ai−1 y ai+1 . ¿Cuál es el valor esperado para el número de
valles de una permutación de [n]?
4.28 Ejercicio. En un torneo hay 6 equipos y cada uno juega una vez contra cada uno
de los demás equipos. Si todos los equipos tienen la misma probabilidad de ganar, al final
del torneo ¿cuántas veces se espera que haya tres equipos A, B, C tales A le ganó a B, B le
ganó a C y C le ganó a A? (Sugerencia: Calcular primero la probabilidad que tiene una terna
de vértices cualquiera de ser como las indicadas. Escribir la variable aleatoria que cuenta el
número de ternas dirigidas como suma de variables aleatorias indicadoras.)
entendiendo que, por ejemplo, A + A son todas las posibilidades de sumas de dos caras de
A, es decir A + A tiene las 62 = 15 combinaciones de sumas siguientes:
2, 2, 2, 14, 14, 14, 14, 14, 14, 14, 14, 14, 26, 26, 26.
4.30 Ejercicio. Sea Ω = {a, b, c, d} con P (a) = 0.2, P (b) = 0.4, P (c) = 0.1 y P (d) = 0.3.
Además X es la variable aleatoria definida por: X(a) = 2, X(b) = 5, X(c) = 10 y X(d) = −1.
Determinar pX (5), FX (5), E(X), E(X 2 ) y E(X)2 .
4.31 Ejercicio. En un costal hay 11 pelotas: 4 son azules, 5 son blancas y 2 son doradas.
Un jugador saca dos pelotas del costal al azar. Si son del mismo color pero no son doradas,
60
entonces gana $10; si salen 2 doradas gana $50. ¿Cuánto debe pagar si salen pelotas de
distinto color para que en promedio no gane ni pierda nada?
61
4.35 Ejemplo. Sea Ω el espacio de humanos y consideremos las siguientes variables
aleatorias
Z(ω) = número de los zapatos que calza ω.
B(ω) = qué tan bien juega ω basquetbol.
A(ω) = la altura de ω.
Entonces es claro que Z y B no son independientes, pues los que usan zapatos más
grandes tienden a jugar mejor basquetbol por ser más altos. Sin embargo Z|A y B|A sı́ son
independientes.
Demostración. Simplemente hay que expandir lo que significa cada una de esas cosas.
P P
E(X) E(Y ) = ( ai P [X = ai ]) ( bj P [Y = bj ])
i j
P
= ai bj P [X = ai ] · P [Y = bj ]
i,j
P
= ai bj P [X = ai , Y = bj ]
i,j
= E(XY ). ♦
4.37 Nota. El recı́proco no es cierto, es decir, es posible que E(XY ) y E(X) E(Y ) sean
iguales a pesar de que X y Y no sean independientes (ver 6.13). Se define la covarianza de
X y Y como
Cov(X, Y ) = E(XY ) − E(X) E(Y ).
Más adelante veremos el significado de esto (ver 6).
62
5. Varianza y Desviación Estándar
5.1. Varianza
La esperanza de una variable aleatoria nos dice el promedio de todos los valores (tomados
con repetición). Sin embargo esta información puede ser muy incompleta. Por ejemplo, no es
lo mismo que las calificaciones de un grupo de alumnos sean todas de 5, a que la mitad de
los alumnos tengan 10 de calificación y la otra mitad tengan 0. La varianza será una medida
para expresar qué tan alejados de su esperanza están los valores.
Un intento para medir qué tanto se alejan los valores que toma X de su propio promedio
µ := E(X), serı́a tomar la esperanza de X − µ, es decir E(X − M ), donde M es la variable
aleatoria constante con valor µ. Sin embargo, por 4.15, esta esperanza es 0, ası́ que no
tendrı́amos información. Consideramos, en su lugar, la esperanza de (X − µ)2 para evitar
que se cancelen valores positivos con negativos y, como “elevar al cuadrado” es una función
creciente en los números positivos, ésta se puede considerar una buena medida de lo que
queremos.
donde µ = E(X).
63
La escala se ha cambiado al elevar al cuadrado pero mide qué tanto se alejan las calificaciones
del promedio. Tenemos también los siguientes casos:
Si la mitad de las calificaciones son 6 y la otra mitad son 4, entonces la varianza es:
1 1
(6 − 5)2 + (4 − 5)2 = 1.
2 2
Cuando la mitad de las calificaciones son 7 y la otra mitad son 3, la varianza es
1 1
(7 − 5)2 + (3 − 5)2 = 4.
2 2
de donde
1 1 1
Var(X) = E((X − µ)2 ) = 1 + 0 + 9 = 2. ♦
2 3 6
64
5.5 Proposición. Sean X y Y variables aleatorias en un espacio Ω y sea c una constante.
Entonces
(a) Var(c) = 0.
(b) Var(cX) = c2 Var(X).
(c) Var(X + Y ) = Var(X) + Var(Y ) + 2 Cov(X, Y ).
= E(c2 X 2 ) − (cE(X))2
= c2 (E(X 2 ) − E(X)2 )
= c2 Var(X).
Hemos visto que si multiplicamos una variable aleatoria por una constante, la varianza
se multiplica por la constante al cuadrado. Esto no nos gusta. Por ejemplo, si una variable
65
aleatoria está medida en centı́metros y tiene cierta varianza, al medirla en pulgadas su
varianza se multiplica por ∼ 2.542 . Nos gustarı́a una medida que si todo se multiplica por
una constante, esa medida se multiplique por esa misma constante. La solución a esto es
considerar la raı́z cuadrada de la varianza. Esto nos lleva a la siguiente definición.
5.9 Ejemplo. Se lanza una moneda 10 veces y se cuenta el número de águilas. ¿Cuál
es la probabilidad de quedar dentro de una desviación estándar del promedio (es decir, la
probabilidad de que la variable aleatoria quede a distancia de a lo más 1 de la desviación
estándar)?
Solución. Sabemos que el promedio es de 5 águilas y
Var(X) = E(X 2 ) − E(X)2
1 10
10
10
5
= 0
· 02 + 1
· 12 + · · · + 10
· 102 − 52 = .
210 2
√ √ √
Entonces σ(X) = √52 < 2. Queremos la probabilidad de que 5 − √52 < X < 5 + √32 . Como X
toma sólo valores enteros, buscamos la probabilidad de que X sea 4, 5 o 6; ésta es
1 10 10 10
+ + ∼ 0.656. ♦
210 4 5 6
Después veremos que para este tipo de distribuciones, la probabilidad de quedar a menos
de una desviación estándar del promedio es ∼ 32 (ver 8.4).
66
5.10 Ejemplo. Supongamos que tiramos dos dados. Sea X la variable aleatoria que
representa la suma de los dos dados. Encontrar la desviación estándar y la probabilidad de
quedar a lo más a una desviación estándar del promedio.
p
Solución. Tenemos que σ(X) = E(X 2 ) − E(X)2 y que E(X) = 7. Usemos la linealidad
de la esperanza para calcular E(X 2 ): Supongamos que A y B son las variables aleatorias
que denotan el primer dado y el segundo dado, respectivamente. Ası́, X = A + B, de donde
X 2 = A2 + 2AB + B 2 . Entonces
4+5+6+5+4 24 2
= = = .♦
36 36 3
67
6. Covarianza y Correlación
Cov(X, Y )
Corr(X, Y ) :=
σ(X)σ(Y )
6.1 Nota. De manera similar a la definición que dimos de varianza (ver 5.1), tenemos
que si Ω es un espacio equiprobable con n elementos ω1 , . . . , ωn , y X y Y son variables
aleatorias definidas en Ω de manera que E(X) = µX , E(Y ) = µY , σ(X) = σX , σ(Y ) = σY ,
y para cada i, X(ωi ) = xi y Y (ωi ) = yi , entonces
Cov(X, Y ) 1P n xi − µ X yi − µY
Corr(X, Y ) = = .
σ(X)σ(Y ) n i=1 σX σY
6.3 Ejemplo. Supongamos que Ω = {a, b} y P (a) = 0.3. Digamos que X y Y son
variables aleatorias definidas por X(a) = 1 y X(b) = 5, Y (a) = 2 y Y (b) = 3. ¿Cuánto valen
Cov(X, Y ) y Corr(X, Y )?
68
Solución.
E(X) = 1 × 0.3 + 5 × 0.7 = 3.8,
E(Y ) = 2 × 0.3 + 3 × 0.7 = 2.7,
E(XY ) = 2 × 0.3 + 15 × 0.7 = 11.1,
Cov(X, Y ) = 11.1 − 2.7 × 3.8 = 0.84.
E(X 2 ) = 1 × 0.3 + 25 × 0.7 = 17.8,
E(Y 2 ) = 4 × 0.3 + 9 × 0.7√= 7.5,
√ √
− 2 = −
σ(X) = √ 17.8 3.8 √ 17.8 14.4√ 3.36 ∼ 1.83,
∼
σ(Y ) = 2
7.5 − 2.7 = 7.5 − 7.3 ∼ 0.21 ∼ 0.46,
0.84
Corr(X, Y ) = ∼ 1. ♦
1.83 × 0.46
El resultado del ejemplo anterior es muy natural: la mayor suma de los productos se
obtiene juntando los números más grandes entre sı́. La siguiente desigualdad nos expresa
esto mismo con n números.
69
b1 ≤ b2 ≤ · · · ≤ bn . Entonces para cualquier permutación τ de [n] se tiene que
S = a1 b1 + · · · ar br + · · · + as bs + · · · + an bn .
T = a1 b1 + · · · ar bs + · · · + as br + · · · + an bn .
70
están correlacionadas (es decir, la correlación entre las variables aleatorias correspondientes
es positiva).
(b) La cantidad de comida que como esta semana y mi peso la próxima están correlacio-
nadas.
(c) La cantidad de papel que se usa hoy en el mundo y mi peso mañana no están corre-
lacionadas.
6.9 Ejercicio. Inventar más ejemplos (intuitivos) de sucesos que tengan correlación 1,
correlación positiva (no 1), correlación 0, correlación −1 y correlación negativa (no −1).
71
Demostración. Vamos a usar 5.11
E((cX + d)Y ) − E(cX + d)E(Y )
Corr(cX + d, Y ) =
σ(cX + d)σ(Y )
cE(XY ) − cE(X)E(Y )
=
|c|σ(X)σ(Y )
= ±Corr(X, Y ). ♦
6.12 Ejemplo. Supongamos que se lanza un dado 3 veces, que X es la suma de los
dos primeros resultados, y que Y es la suma de los dos segundos. Calcular covarianza y
correlación de X y Y .
Solución. Tenemos que E(X) = 7 = E(Y ). Digamos que (A, B, C) es el resultado del
lanzamiento de los tres dados. Entonces
XY (A, B, C) = (A + B)(B + C) = AB + AC + B 2 + BC,
de donde, viendo A, B y C como variables aleatorias y usando la linealidad de la esperanza,
E(XY ) = E(B 2 ) + E(AB) + E(AC) + E(BC).
Ahora,
12 + 22 + 32 + 42 + 52 + 62 91
E(B 2 ) = = ,
6 6
1 · 1 + 1 · 2 + 1 · 3 + ··· + 5 · 6 + 6 · 6 212
E(BA) = E(BC) = E(AC) = = ,
36 36
Ası́
91 212
+3·
Cov(X, Y ) = − 7 · 7 ∼ 2.92.
6 36
También sabemos que σ(X) = 2.41 = σ(Y ) (ver 5.10), de donde
2.92
Corr(X, Y ) ∼ ∼ 0.5. ♦
5.83
Puede ser que dos variables aleatorias no tengan correlación (es decir, su correlación sea
0) pero no sean independientes. El siguiente ejercicio es un ejemplo de esto.
72
6.13 Ejercicio. Sean X, Y y Z definidas en Ω = {a, b, c, d} como sigue:
X(a) = X(b) = 0 y X(c) = 1 = X(d).
Y (a) = −1 = Y (c) y Y (b) = 1 = Y (d).
Z = XY .
Probar que X y Z son dependientes, pero que Corr(X, Z) = 0.
6.14 Ejercicio. Sea Ω) = {a, b, c}. digamos que P (a) = 0.6, P (b) = 0.3 y P (c) = 0.1.
Sean X(a) = 1, X(b) = 2 y X(c) = 3. Sean U , V , W , Y y Z las variables aleatorias definidas
en Ω de acuerdo a la tabla siguiente:
a b c
U 2 2 3
V 1 4 3
W 1 2 6
Y 3 2 1
Z 3 2 3
H 10 1 10
Calcular la desviación estándar de cada una y la correlación de cada una con X. Analizar lo
encontrado. (Sugerencia: Hacer un programa que haga los cálculos.)
73
7. Probabilidad Continua
Hasta ahora hemos estado viendo probabilidad en donde el espacio muestral es finito,
o discreto. En probabilidad discreta, la probabilidad de cada elemento determina la proba-
bilidad de cualquier evento. Sin embargo, en probabilidad continua, aunque cada elemento
tenga probabilidad 0, es posible que varios elementos de Ω juntos tengan probabilidad po-
sitiva. Entonces lo importante es la probabilidad de los eventos. Sin embargo, no cualquier
subconjunto puede ser un evento pues en general hay demasiados subconjuntos y se tienen
que cumplir ciertas propiedades para poder tener una función de probabilidad.
Empecemos analizando de manera intuitiva algunos ejemplos en los que el espacio mues-
tral Ω es un subconjunto del plano R2 y donde pensamos que la probabilidad se calcula
tomando en cuenta el área de cada evento en relación del área de Ω.
Solución.
(a) P ({ π1 }) = 0.
(b) P ([0, 0.4)) = 0.4.
(c) P ([0.7, 1]) = 0.3.
Observamos que no importa si los intervalos son cerrados o abiertos. ♦
7.3 Ejemplo. Supongamos que Ω = [1, 8]. Si escogemos un número al azar, ¿cuál es la
probabilidad de que el número sea menor a 5?
Solución. Básicamente queremos P ([1, 5]). Pero ahora la medida “total” es de 8 − 1 = 7,
ası́ que la respuesta es
4
P ([1, 5]) = . ♦
7
74
7.4 Ejemplo. Dentro del siguiente cuadrado escogemos un punto al azar. ¿Cuál es la
probabilidad de que caiga en el área sombreada?
Solución. El área sombreada es la mitad del área total, ası́ que la probabilidad es 21 . ♦
S1 ∩ S2 ∩ · · · ∈ Σ.
Algunos de los conceptos que hemos visto en probabilidad discreta se traducen exacta-
mente a probabilidad continua. Para otros tendremos que hacer una adaptación. En general
75
habrá que cambiar sumas por integrales, pues la integral es la forma de sumar infinitamente
(cuando esto es posible). Veamos aquı́ las traducciones correspondientes.
P (S|T ) = P (S)
o, equivalentemente, si
P (S ∩ T ) = P (S)P (T ).
Para más de dos eventos se define la independencia igual que en probabilidad discreta.
Para definir variable aleatoria hay que hacer un pequeño cambio pues no puede ser
cualquier función. Una variable aleatoria es una función medible X : Ω → R, es decir, una
función tal que P [a ≤ X ≤ b] está definida para cualesquiera reales a ≤ b (y también con
intervalos abiertos, semiabiertos, rayos, etc.)
FX (a) := P [X ≤ a].
Se tiene que FX es una función creciente, que tiende a 0 cuando a → −∞ y que tiende a 1
cuando a → ∞.
76
Ası́, FZ (1) = 21 . ♦
7.7 Nota. Más precisamente, en el ejemplo anterior podemos ver que FZ está definida
por:
0, si t ≤ 0,
2
t ,
si 0 ≤ t ≤ 1,
FZ (t) = 2 2
t
− + 2t − 1, si 1 ≤ t ≤ 2,
2
1, si t ≥ 2.
La gráfica de FZ es la siguiente.
77
Entonces
2
Z 0.5 √
FW (0.5) = 1 − x2 dx. ♦
π −1
7.9 Nota. Se puede ver que la gráfica de FW del ejemplo anterior es la siguiente:
Por otro lado, notemos que si Ω es un espacio discreto, la gráfica de la función cumulativa
es escalonada.
Traducimos esta propiedad a probabilidad continua cambiando suma por integral y, aten-
diendo a la costumbre, escribimos fX en lugar de pX . Ası́ tenemos que la función densidad,
fX , debe satisfacer: Z a
fX (t) dt = FX (a),
−∞
78
de manera que, por el Teorema Fundamental del Cálculo, fX (a) = FX0 (a). Veamos el caso
del ejemplo en el cı́rculo.
Al dividir entre b − a (es decir, la longitud del intervalo [a, b]) y hacer tender b a a,
obtenemos
√ la derivada de FW evaluada en a que es, por el teorema fundamental del Cálculo,
2 2
π
1−a . ♦
Donde es más alta es porque es más probable que ese valor (valores cercanos a él) salgan.
En el caso del ejemplo en el cı́rculo, la gráfica de la densidad es, precisamente, la de un
semicı́rculo (más cerca del centro del cı́rculo el área de una franjita vertical es mayor que
lejos del centro del cı́rculo).
79
7.11 Corolario. Si la densidad de una variable aleatoria X es fX y S ⊂ R, entonces
Z
P [X ∈ S] = fX . ♦
S
Rb
Por ejemplo, tenemos que P [X ∈ [a, b]] = P [a ≤ X ≤ b] = a
fX . Claro,
Z b
fX = FX (b) − FX (a).
a
7.13 Ejemplo. Supongamos que X es una variable aleatoria y que su distribución cu-
mulativa está definida ası́: (
0, si t < 0,
FX (t) = −t
1 − e , si t ≥ 0.
Revisar por qué ésta es una posible distribución cumulativa y determinar la densidad de X.
Se ven ası́:
80
7.1. Esperanza continua
En el caso continuo no podemos tomar la suma sobre los valores que toma X porque hay
una infinidad (no discreta) de ellos. Aquı́ también cambiamos suma por integral.
Entonces
1 2
t3 1 −t3
Z Z
2
2 2 2
E(Z) = t dt + (−t + 2t) dt = + + t = 1,
0 1 3 0 3 1
81
7.15 Ejemplo. Calcular la esperanza de la variable aleatoria W de 7.8.
lo cual es natural pues la variable aleatoria W calcula la proyección de puntos del cı́rculo
cuyo diámetro es [−1, 1] × {0}. ♦
Calcular su esperanza.
Entonces
1
t2 1
Z
1
E(X) = t dt = = .
0 2 0 2
En este ejemplo no conocemos el espacio Ω ni la variable aleatoria en él; sin embargo, dado
que la densidad es constante, la medida es uniforme, ası́ que podemos pensar que Ω = [0, 1]
con la medida usual de R, y definir la variable aleatoria X : [0, 1] → R por X(ω) = ω.
Efectivamente, P [X ≤ t] = FX (t) y ahora es claro que el promedio de los valores de X es
1
.♦
2
7.17 Nota. Cuando decimos que vamos a tomar un punto al azar en un conjunto Ω,
se sobreentiende que el espacio es equiprobable. Si Ω ⊂ R, podemos pensar que la variable
aleatoria asociada X está definida por X(ω) = ω para todo ω ∈ Ω. La función de densidad
y la distribución cumulativa son precisamente las del ejemplo anterior, 7.16 para Ω = [0, 1].
82
7.18 Ejemplo. Calcular la esperanza de la variable aleatoria X de 7.13.
u = t, du = 1 dt,
dv = e−t dt, v = −e−t ,
tenemos
Z ∞
te−t dt = lim −te−t − e−t − −te−t − e−t = 0 + 1 = 1.
E(X) =
0 t→∞ 0
En este ejemplo tampoco conocemos el espacio Ω ni la variable aleatoria en él. Aquı́ podemos
pensar que Ω = [0, ∞) y definir la variable aleatoria por X(ω) = ω; sin embargo hay que
tener cuidado pues la probabilidad en Ω no es la medida usual sino que, por ejemplo,
1
P [0, ln(2)] = FX (ln(2)) − FX (0) = 6= ln(2)). ♦
2
7.19 Proposición. Sea g : R → R una función continua cualquiera y sea X una variable
aleatoria. Entonces Z ∞
E(g(X)) = g(t) · fX (t) dt.
−∞
El resultado 7.19 es muy útil. A veces se le llama la ley del estadista inconsciente.
83
7.2. Varianza, Correlación, Covarianza
la covarianza de X y Y por
Cov(X, Y )
Corr(X, Y ) = .
σ(X)σ(Y )
7.21 Ejemplo. Supongamos que X es la variable aleatoria que elige un punto del
[0, 1] aleatoriamente y Y elige otro. Encontrar Var(X), σ(X), Cov(X, Y ), Cov(X, X + Y ) y
Corr(X, X + Y ).
Solución. Z 1
2 2 1
Var(X) = E(X ) − E(X) = t2 dt − 0.52 = .
0 12
p
σ(X) = 1/12 ∼ 0.288.
Como X y Y son independientes,
Cov(X, Y ) = 0.
1
= Var(X) + 0 = .
12
Var(X)
Corr(X, X + Y ) =
σ(X)σ(X + Y )
p
1/12 1/12 1
= p p = p =√ .♦
1/12 1/6 1/6 2
84
7.22 Ejercicio. Se escogen al azar dos números x y y en el intervalo [0, 2]. ¿Cuál es la
probabilidad de que su distancia |x − y| sea al menos 1?
7.24 Ejercicio. Sea Ω = [−2, 2], donde P [−2, 0] = 0.3, P [0, 2] = 0.7 pero dentro de
[−2, 0] y dentro de [0, 2] la probabilidad es uniforme.
(a) Hacer la gráfica de la función densidad de este espacio de probabilidad.
(b) Se escoge un número al azar en Ω. ¿Cuál es la probabilidad de que ese número esté
en [−2, 1]?
7.25 Ejercicio. Se escoge aleatoria y uniformemente un número real en [0, 4] ∪ [7, 9].
Determinar la variable aleatoria que describe esto, describir su densidad y encontrar su
promedio y su desviación estándar. Determinar cuál es la probabilidad de escoger un punto
a una distancia a la media menor que una desviación estándar.
7.26 Ejercicio. Sea X : R → R la variable aleatoria cuya función de densidad está dada
por
K
fX (t) := .
1 + t2
Determinar K para que, efectivamente, fX sea función de densidad. Encontrar su promedio.
(Sugerencia: arctan0 (t) = 1+t
1
2 .)
85
8. Distribuciones Importantes
Hay algunas distribuciones (es decir, combinaciones de densidad con distribución cumu-
lativa) que aparecen con frecuencia. Algunas de ellas tienen nombre.
Primero vamos a entender qué significa hablar de una distribución. Vamos a pensar que
Ω, el espacio muestral, es subconjunto de R. Dentro de R ya tenemos una medida dada, en
donde un intervalo [a, b] mide b − a. Pero en Ω las cosas pueden medir diferente. Cuánto mide
cada cosa en Ω es a lo que le llamamos una distribución. Para especificarla, usualmente se
toma Ω ⊂ R y la variable aleatoria X : Ω → R tal que X(a) = a (es decir, no hace nada) y
luego se define la densidad y/o distribución cumulativa de X.
86
a−r
Por ejemplo, si Ω es un intervalo, Ω = [r, s], y r ≤ a ≤ s, entonces FX (a) = .
s−r
b−a
√ ∼ 0.29(b − a). ♦
12
p
Su desviación estándar es p(1 − p).
87
8.3. Distribución Binomial
88
8.4. Distribución Normal
89
la distribución normal aparece en todos lados de la naturaleza; básicamente lo hace siem-
pre que tenemos una serie de cosas independientes que contribuyen en algo. Por ejemplo,
se ha observado que las alturas de las personas del mundo están distribuidas aproximada-
mente con una distribución normal. Esto sugiere que hay varios factores independientes que
contribuyen a la altura de una persona.
El teorema del lı́mite central que estudiaremos más adelante (ver 9.5) nos dice que el
promedio de repetir un cierto experimento una cantidad suficiente de veces siempre tiene
una distribución normal, independientemente de la distribución inicial. Ası́, el estudio de las
propiedades de la distribución normal nos permitirá inferir propiedades estadı́sticas de una
población general a través del análisis de muestras suficientemente grandes.
8.3 Ejemplo. Sea N (µ, σ) una distribución normal y supongamos que escogemos un
punto con esa distribución. ¿Cuál es la probabilidad de que quedemos a menos de una
desviación estándar del promedio?
90
P [µ − σ ≤ X ≤ µ + σ] ∼ 68.2 %.
P [µ − 2σ ≤ X ≤ µ + 2σ] ∼ 95.45 %.
P [µ − 3σ ≤ X ≤ µ + 3σ] ∼ 99.73 %.
Cuando se dice que algo es “estadı́sticamente significativo” lo que significa es que hay
menos de 5 % de probabilidad de que esté mal. Por ejemplo, si en una elección hacen una
encuesta y dicen algo como “el candidato A obtiene el 54.7 % de los votos con un error de
±3 %”, lo que significa es que la probabilidad de que el dato real (es decir, de que la gente
que votará por el candidato A) esté entre 51.7 % y 57.7 % es de 95 %. Es decir, 3 % es 2 veces
la desviación estándar de lo que obtuvo la estadı́stica y 54.7 es el promedio. Básicamente σ
depende del número de personas encuestadas.
8.4 Ejercicio. Supongamos que las alturas de los alumnos de una universidad están
distribuidas con una distribución normal con media 165 y desviación estándar 5. Determinar
las probabilidades de que una persona mida menos de 160, que mida más de 170 y que mida
entre 150 y 180.
λk −λ
e .
k!
91
La distribución hipergeométrica, con densidad
K N −k
k n−k
N
.
n
8.5 Ejercicio. Supongamos que una moneda tiene probabilidad p de caer en águila. Se
lanza hasta obtener la primera águila. Sea X la variable aleatoria que cuenta el número de
soles que salen antes de logra la primera águila. Calcular las funciones de densidad y de
distribución cumulativa. Determinar la esperanza y la varianza de X.
92
9. Estadı́stica
En esta sección estudiaremos otra vez varios de los conceptos aprendidos en las anteriores,
pero ahora desde el punto de vista del estudio estadı́stico.
Los datos que se analizan en estadı́stica pueden ser de toda la población o de una muestra,
es decir, de una elección aleatoria de elementos de la población (posiblemente con repetición).
Cuando se tienen los datos de toda la población su análisis corresponde a la estadı́stica
descriptiva. Cuando se toma una muestra y con base en ella quieren hacerse conclusiones o
inferencias acerca de la población en general, se está haciendo estadı́stica inferencial. Hay
que tener cuidado de qué se habla en cada situación.
Los datos pueden ser de diversos tipos; es común que sean números (sueldos de empleados
de una companı́a, población de ciudades, alturas de personas, calificaciones de un examen
de admisión a una universidad, número de coches que llegan cada minuto a una caseta en la
carretera, etc.), pero pueden ser de otro tipo (sexo, efectos de una medicina sobre la presión
arterial de un individuo cada minuto después de habérsela tomado, lugar de origen, forma,
etc.).
93
15
1000
8 39
800
10
75 600
215
5 400
150 200
0 0
0 1 2 3 4 5 6 7 8 910 0 2 4 6 8 10 12
En las tres ilustraciones de arriba se señalan valores absolutos. Para estudiarlas de manera
estadı́stica (como haremos aquı́) podemos transformarse a gráficas de funciones de densidad.
En el caso de la ilustración de la derecha, primero podrı́a transformarse a histograma diciendo
cuántas veces se tuvo cada valor. Esto es justo lo que hacen las variables aleatorias. En
este caso el espacio muestral serı́a Ω = {400, 500, 600, 700, 800, 900} y se tendrı́a la variable
aleatoria X definida en Ω por X(400) = 4, X(500) = 2, X(600) = 1, X(700) = 2, X(800) = 1
y X(900) = 2. El histograma y la gráfica de densidad de X serı́an las siguientes.
5 0.35
4 0.3
0.25
3
0.2
2 0.15
0.1
1
0.05
0 0
400 500 600 700 800 900 200 400 600 800 1000
Dada una gráfica, ya sea histograma o de valores absolutos, uno puede preguntar si es
creciente o decreciente, si es asintótica hacia un cierto valor, etc. También son importantes
el promedio, los valores mayor y menor, la mediana o percentil 50 (valor que divide a los
94
valores en dos del mismo tamaño) los cuartiles (o percentiles 25, 50 y 75), valores que dividen
a todos los datos en 4 partes del mismo tamaño (o quintiles, deciles o percentiles).
Al analizar un histograma, hay tres datos importantes qué revisar: la forma, la media o
esperanza (que denotamos usualmente por µ) y la desviación estándar (denotada usualmente
por σ). En cuanto a la forma, uno puede preguntarse si la gráfica es simétrica con respecto
a la media o si está alargada hacia uno de los lados.
9.1 Ejemplo. Los siguientes histogramas muestran dos posibles calificaciones en grupos
de 70 alumnos. Por ejemplo, en el primero 5 alumnos obtuvieron 0, 15 alumnos obtuvieron
25, etc. Comparar sus parámetros.
35 35
30 30
25 25
20 20
15 15
10 10
5 5
0 0
0 25 50 75 100 0 25 50 75 100
95
9.2 Ejercicio. Calcular la media y la mediana del siguiente histograma, y observar
que si el eje horizontal fuera un subibaja (sin peso) y las barras tuvieran peso igual a su
altura entonces, poniendo un pivote justo en la media, el subibaja quedarı́a equilibrado
(pensando que valores más alejados ejercen la fuerza proporcional a la lejanı́a), mientras
que en la mediana simplemente se considerarı́a que hubiera el mismo peso en cada lado (sin
considerar la distancia). Obsérvese también que un solo valor alejado afecta mucho la media
pero no la mediana. Pensar que el histograma representa calificaciones de 7 personas y hacer
también una gráfica donde en el eje x estén las personas (numeradas) y en el eje y estén las
calificaciones que obtuvieron; en ese dibujo, marcar la media y la mediana en el eje y.
0
0 1 2 3 4 5 6 7 8 9 10
A veces los datos tienen dimensión, que es la cantidad de números que se tienen en cada
objeto. Por ejemplo, si el dato es sólo estaturas, entonces la dimensión es 1, pero si para cada
persona se considera su estatura y su peso, entonces la dimensión es 2. Si tenemos datos x
y y con la misma dimensión, entonces x + y es el vector suma; por ejemplo, si x = (10, 20)
y y = (7, 3), entonces x + y = (17, 23). Igual con multiplicación, resta, etc.
Los histogramas pueden tener diversas formas; algunas de ellas pueden aproximarse por
curvas suaves que tienen descritas por ciertas fórmulas matemáticas. Veamos algunos ejem-
plos:
9.3 Ejemplo. La distribución uniforme se da, por ejemplo, si se lanza un dado 1000
veces y se observa cuántas veces sale cada valor. Mostramos a continuación un histograma
posible de esto y la curva suave que la aproxima.
96
250
200 200
150
100
50
0
1 2 3 4 5 6 1 2 3 4 5 6
9.4 Ejemplo. Una distribución sesgada a la derecha o con sesgo positivo es como sigue:
9.5 Ejemplo. Una distribución exponencial decreciente tiene la forma ilustrada a con-
tinuación y puede representar, por ejemplo, la frecuencia con la que un niño se cae después
de haber aprendido a caminar, calculada a lo largo de un año, o la probabilidad de duración
de una pila. Su función de densidad está dada por:
(
ce−ct , si t ≥ 0,
f (t) =
0, si t < 0.
97
9.6 Ejemplo. Como hemos visto ya, una distribución gaussiana o normal es la que pro-
duce la llamada curva de Bell y que corresponde a distribuciones como las de tipo binomial.
Un histograma de esto (que representa el número de águilas que salen al lanzar una moneda
al aire 10 veces) y la curva suave que lo resume son:
300
250
200
150
100
50
0
0 1 2 3 4 5 6 7 8 9 10
Este tipo de distribuciones surgen de una gran cantidad de problemas que describen
cuántos objetos se encuentran dentro de una muestra de n (en el caso de la moneda n = 10)
cuando la probabilidad de encontrar cada uno es p (en el caso de las monedas p = 12 ). Dados
n y p se puede encontrar la gráfica y, viceversa, dada una muestra, a partir de ella se puede
calcular p. Estas distribuciones aparecen frecuentemente en problemas tan variados como
la cantidad de objetos defectuosos en una muestra, el efecto de una vacuna, el tiempo de
gestación de un animal, las alturas de hombres dentro de una población, los promedios de
bateo de un grupo de beisbolistas durante un año, etc.
9.7 Ejemplo. Los siguientes histogramas representan el número de águilas que se espera
obtener al lanzar n monedas sila probabilidad de obtener águila es p = 12 . Las alturas de
las barras en cada x = k son nk /2n (de esta manera los histogramas están normalizados, es
decir, las sumas de todas las alturas en cada histograma son 1). Las desviaciones estándar
(en éstos y en los siguientes grupos de histogramas) son
s
n
X n k
σ= p (1 − p)n−k (k − µ)2 ,
k=0
k
98
n = 20
p = 1/2
μ = 10
σ = 2.24
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
n = 15
p = 1/2
μ = 15/2 = 7.5
σ = 1.94
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
n = 10
p = 1/2
μ = 10/2=5
σ = 1.58
0 1 2 3 4 5 6 7 8 9 10
n=6
p = 1/2
μ = 6/2 = 3
σ = 1.22
0 1 2 3 4 5 6
9.8 Ejercicio. Hacer dibujo del histograma normalizado que representa los valores es-
perados del número de águilas que salen cuando uno lanza la moneda 8 veces. Calcular la
media y la desviación estándar. Calcular cuántos valores están a distancia de una desviación
estándar de la media, de dos desviaciones estándar de la media y de 3 desviaciones estándar
de la media.
9.9 Ejemplo. Los siguientes histogramas representan el número de águilas que se espera
obtener al lanzar una moneda n = 20 veces si la probabilidad de obtener águila es p.
99
n = 20
p = 1/2
μ = 10
σ = 2.24
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
n = 20
p = 1/4
μ = 20/4=5
σ =1.94
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
n = 20
p = 1/8
μ = 20/8 = 2.5
σ = 1.48
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
9.10 Ejercicio. Hacer un histograma que represente los valores esperados del número de
veces que sale un número menor o igual que 2 cuando se lanza un dado 8 veces. Calcular la
media y la desviación estándar. Calcular cuántos valores están a distancia de una desviación
estándar de la media.
100
9.2. Estimadores
Un parámetro es un número que sacamos a partir de los datos de una población. Puede
ser promedio, mediana, desviación estándar, etc.
Una estadı́stica es un número que sacamos a partir de los datos de una muestra. Ejemplos
de estadı́sticas son también promedio, mediana, desviación estándar, etc.
Supongamos que Ω es un espacio de probabilidad y que X es una variable aleatoria.
Usualmente uno no conoce la distribución de X pero puede considerar varios valores de
ella, x1 , x2 , . . . , xn , que constituyen una muestra. Se podrı́an considerar todas las posibles
muestras con n elementos (con o sin reemplazo) y comparar el promedio de las estadı́sticas
de las muestras con la estadı́stica general de la población (es decir, comparar la esperanza
de la estadı́stica de las muestras con la estadı́stica de la población).
Por ejemplo, el promedio es un buen estimador, esto es, el promedio de todos los prome-
dios de las muestras coincide con el promedio de la población. Para entender esto veamos
un ejemplo, con el cual quedaremos también convencidos de que el resultado es cierto en
general.
9.11 Ejemplo. Calcular el promedio de alturas de 4 personas que tienen alturas 160,
164, 170, 184, y ver que coincide con el promedio de los promedios de todas las muestras de
2 alturas. Analizar por qué es cierto esto.
Solución. Debemos considerar las 16 posibles muestras (es decir, aparecen muestras como
(160, 160) y se consideran distintas las dos siguientes: (160, 164) y (164, 160)). Pero en este
caso también es cierto el resultado en el caso en que en las muestras no hay reemplazo ni
importa el orden que se tome de los valores. Hagamos este caso primero:
Los promedios por parejas son:
160 + 164 160 + 170 160 + 184
= 162, = 165, = 172,
2 2 2
164 + 170 164 + 184 170 + 184
= 167, = 174, = 177.
2 2 2
101
El promedio de los promedios es
162 + 165 + 172 + 167 + 174 + 177
= 169.5,
6
y el promedio real es:
160 + 164 + 170 + 184
= 169.5.
4
Podemos notar que el resultado es claro, pues al tomar el promedio de los promedios,
cada valor se repite 3 veces pero luego se divide entre 3, que es la cantidad de contribuciones
que tiene cada valor al considerar las parejas:
1 (160 + 164) + (160 + 170) + (160 + 184) + (164 + 170) + (164 + 184) + (170 + 184)
.
6 2
Como vimos, el promedio es un buen estimador, o sea que la esperanza del promedio de
una muestra coindide con el promedio total de la población.
Recordemos primero (ver 5.1) que si x = (x1 , x2 , ..., xn ) es una serie de datos equiprobables
de una población con promedio µ, entonces su varianza está definida por:
1
(x1 − µ)2 + (x2 − µ)2 + · · · + (xn − µ)2 ,
Var(x) :=
n
p
y su desviación estándar σ por Var(x). En estadı́stica descriptiva no hay nada más que
decir.
En estadı́stica inferencial hay que hacer ajustes. Para entender mejor de qué se habla al
comparar resultados de muestras con el resultado de la población, revisemos, con lenguaje
más formal, nuestro análisis del ejemplo 9.11 en el que observamos que el “promedio” es un
buen estimador.
102
Definamos en Ωn la variable aleatoria promedio por:
X(ω1 ) + · · · + X(ωn )
X(ω1 , . . . , ωn ) = .
n
Entonces E(X) = E(X). ♦
Como ya habı́amos visto, la proposición anterior nos dice que el promedio de los promedios
de las muestras es el promedio. Sin embargo la varianza de los promedios de las muestras no
es la varianza, como veremos a continuación.
Xi (ω1 , . . . , ωn ) = X(ωi ),
es decir, Xi es prácticamente lo mismo que X, pero las Xi son independientes entre sı́.
Tenemos entonces que
X1 + · · · + Xn
X= ,
n
ası́ que, por 5.5 y 5.6,
1 n Var(X)
Var(X) = 2
(Var(X1 ) + · · · + Var(Xn )) = 2 Var(X) = .♦
n n n
9.14 Nota. En la situación de la proposición anterior es importante señalar que deben
tomarse todas las muestras de tamaño n tomando en cuenta repeticiones y posibles órdenes.
El resultado es bastante natural pues la varianza calcula qué tan alejados están los datos
del promedio, y los promedios de n valores se acercan al promedio real pues minimizan los
extremos.
9.15 Ejemplo. Sea Ω = {2, 4, 12} con distribución uniforme. Ilustrar el resultado de la
proposición anterior 9.13 con muestras de tamaño 2.
La varianza de los promedios de las muestras es:Hacer lo mismo con las desviaciones estándar.
32 + 32 + 12 + 12 + 22 + 22 + 42 + 22 + 62 84 28
= =
9 9 3
que, efectivamente, es la mitad de la varianza total (aquı́ n = 2). ♦
9.16 Ejercicio. Calcular la varianza de los promedios de todas las muestras de tamaño
2 de las siguientes alturas de 4 personas: 160, 164, 170, 184. Comparar con la varianza total
de los datos.
Supongamos entonces que tenemos una muestra x = (x1 , . . . , xn ) del total. Basándonos
en ella queremos estimar la varianza en Ω. Los valores no son iguales. Lo que ocurre es que la
varianza mide qué tan lejos se está del promedio, y al calcular la varianza de x no se trabaja
con el promedio real sino con el promedio de los valores de x. Además, como los datos que
se tienen son también los que se utilizan para calcular el promedio, se tenderá a creer que se
está más cerca del promedio de lo que en realidad se está.
Enunciamos el resultado sin demostración que, aunque no es difı́cil, es larga y sin mayor
interés.
104
9.17 Proposición. Sea n ∈ N y sean V la esperanza de la varianza de las muestras
de tamaño n y s la esperanza de las desviaciones estándar de las muestras de tamaño n.
Entonces r
n n
Var(X) = V y σ(X) = s. ♦
n−1 n−1
Otra vez, hay que señalar que deben tomarse todas las muestras de tamaño n tomando
en cuenta repeticiones y posibles órdenes.
De manera precisa, lo que se está haciendo es, como en 9.12, considerar (Ω, P ) un espacio
de probabilidad, X : Ω → R una variable aleatoria y el conjunto Ωn de muestras de tamaño
n como espacio de probabilidad definiendo la función probabilidad P por:
n
Y
P (ω1 , . . . , ωn ) = P (ωi ).
i=1
Ahora, dada una muestra ω = (ω1 , . . . , ωn ), para pensarla como conjunto (en vista de que
nos importa el orden y puede haber repeticiones), etiquetamos cada coordenada, es decir,
pensamos ω b = {(ω1 , 1), . . . , (ωn , n)} equiprobable y definimos la variable aleatoria X
bω en ω
b
por Xω (ωi , i) = X(ωi ). Luego consideramos la varianza de esta variable aleatoria: Var(Xω )
b b
(o sea, Var(X bω ) es la varianza de la muestra). Ahora definimos
n
Var
[ω (X) = Var(X
bω ).
n−1
9.18 Ejemplo. Sea Ω = {2, 4, 12} con distribución uniforme. Ilustrar el resultado de la
proposición anterior con muestras de tamaño 2.
n 2 56
Solución. Aquı́ n = 2 ası́ que n−1 = 2−1 = 2. De 9.15 tenemos que µ = 6, Var(X) = 3
y
el promedio de las varianzas de las muestras es
1 + 1 + 25 + 25 + 16 + 16 + 0 + 0 + 0 84 28
V = = = .♦
9 9 3
9.19 Ejercicio. Con los datos de 9.11, calcular el promedio de las varianzas de las
muestras de tamaño 2 y comparar con la varianza total.
105
9.3. Correlación
Ya hemos visto que otro tipo de estudio entre variables aleatorias es la correlación: Se
analizan dos o más cosas y se ve si se mueven juntas. Por ejemplo, se puede ver si la calificación
que obtienen los alumnos en un examen de admisión a la universidad tiene que ver con su
promedio al finalizar su primer año de estudios. Para esto, pueden ponerse puntos en el plano
cartesiano de manera que la primera coordenada sea la calificación del examen de admisión y
la segunda, la calificación promedio después de un año. En caso de que los puntos formen una
masa con tendencia creciente (como se muestra en el dibujo), se dice que es una correlación
positiva.
10
5
5 5.5 6 6.5 7 7.5 8 8.5 9 9.5 10
Cov(X, Y ) 1P n xi − µ X yi − µY
Corr(X, Y ) = = .
σ(X)σ(Y ) n i=1 σX σY
106
xi − µ X
Observemos que mide a cuántas desviaciones estándar de distancia está xi de
σX
µX tomando en cuenta el sentido (es decir, es positivo si xi está a la derecha de la media y
es negativo si está a la izquierda); por 6.5, mientras más se parezcan en orden de tamaño
todos los xiσ−µ
X
X
a los respectivos yiσ−µ
Y
Y
, la suma es mayor (y cercana a 1); si se parecen en
valor absoluto pero difieren en signo, entonces el valor total es parecido a −1. Entonces,
si Corr(X, Y ) ∼ 1, los valores en el conjunto G = {(xi , yi ) : i = 1, 2, . . . , n} se acercan a
una recta con pendiente positiva (por ejemplo, si X = Y , entonces xi = yi para toda i
y la correlación es 1) y se dice que hay correlación positiva, si Corr(X, Y ) ∼ −1 entonces
hay correlación negativa (los valores en la gráfica están acumulados cerca de una recta con
pendiente negativa).
9.20 Nota. Al igual que en 9.17, la covarianza real y la covarianza promedio de las
muestras no es la misma. Para obtener mejor aproximación de la covarianza real hay que
dividir entre n − 1 en lugar de entre n, es decir, supongamos que tenemos dos variables
aleatorias X y Y en un espacio discreto Ω, que (x, y) es una muestra con n elementos; que
el promedio de la muestra x es µx y el promedio de la muestra y es µy . Se define
n
1 X
Cov(x,
d y) = (xi − x)(yi − y).
n − 1 i=1
Entonces Cov(x,
d y) es un estimador de la covarianza real, esto es, la esperanza de Cov(x,
d y)
es Cov(X, Y ), más precisamente, la covarianza real, Cov(X, Y ), es el promedio de todos los
posibles valores de Cov(x,
d y) variando sobre las muestras (x, y) de tamaño n.
107
μ σ r
x's 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 10.00
distancia a μ -9 -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 9
dist a μ cuadrada 81 64 49 36 25 16 9 4 1 0 1 4 9 16 25 36 49 64 81 30.00 5.48
a's 1 3 2 6 4 5 14 9 8 10 12 7 11 15 13 19 17 18 16 10.00
distancia a μ -9 -7 -8 -4 -6 -5 4 -1 -2 0 2 -3 1 5 3 9 7 8 6
dist a μ cuadrada 81 49 64 16 36 25 16 1 4 0 4 9 1 25 9 81 49 64 36 30.00 5.48
(x's-μ)(a's-μ) 81 56 56 24 30 20 -12 2 2 0 2 -6 3 20 15 54 49 64 54 27.05 .90
b's 10 16 1 5 3 13 6 7 8 14 4 15 9 18 19 12 11 2 17 10.00
distancia a μ 0 6 -9 -5 -7 3 -4 -3 -2 4 -6 5 -1 8 9 2 1 -8 7
dist a μ cuadrada 0 36 81 25 49 9 16 9 4 16 36 25 1 64 81 4 1 64 49 30.00 5.48
(x's-μ)(b's-μ) 0 -48 63 30 35 -12 12 6 2 0 -6 10 -3 32 45 12 7 -64 63 9.68 .32
c's 15 2 19 10 6 13 12 14 18 9 4 3 17 5 1 8 7 11 16 10.00
c's-media 5 -8 9 0 -4 3 2 4 8 -1 -6 -7 7 -5 -9 -2 -3 1 6
dist a μ cuadrada 25 64 81 0 16 9 4 16 64 1 36 49 49 25 81 4 9 1 36 30.00 5.48
(x's-μ)(c's-μ) -45 64 -63 0 20 -12 -6 -8 -8 0 -6 -14 21 -20 -45 -12 -21 8 54 -4.89 -.16
d's 9 9 9 9 10 10 10 10 10 11 11 11 11 11 8 8 12 11 10 10.00
distancia a μ -1 -1 -1 -1 0 0 0 0 0 1 1 1 1 1 -2 -2 2 1 0
dist a μ cuadrada 1 1 1 1 0 0 0 0 0 1 1 1 1 1 4 4 4 1 0 1.16 1.08
(x's-μ)(d's-μ) 9 8 7 6 0 0 0 0 0 0 1 2 3 4 -10 -12 14 8 0 2.11 .36
e's 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 19 10.00
distancia a μ 8 7 6 5 4 3 2 1 0 -1 -2 -3 -4 -5 -6 -7 -8 -9 9
dist a μ cuadrada 64 49 36 25 16 9 4 1 0 1 4 9 16 25 36 49 64 81 81 30.00 5.48
(x's-μ)(e's-μ) 8 7 6 5 0 0 0 0 0 -1 -2 -3 -4 -5 -24 -28 -32 -9 0 -4.32 -.14
La correlación puede aplicarse como sigue: supongamos que alguien dice que metió 19
bolas numeradas en una urna y que las fue sacando al azar; por ejemplo, podrı́a representar
que tenı́a 19 regalos y que dice que los repartió al azar entre sus amigos, pero al numerar
los regalos en cuanto a qué tan buenos eran y también numerar a los amigos en orden de
amistad, se ve que quedaron como en las a0 s de la tabla en las que la correlación con las x0 s
fue .9; en ese caso se desecha la suposición de que la selección se hizo al azar.
9.22 Ejercicio. Calcular la correlación de los siguientes valores (1, 5), (2, 4), (3, 3) y
(4, 2). Comparar con el promedio de las correlaciones de las muestras de tamaño 3.
9.23 Ejercicio. Calcular la correlación de los siguientes valores (1, 2), (2, 4), (3, 6), (4, 8)
y (5, 10).
108
9.4. Puntaje Z
El puntaje z (o z-score) mide a cuántas desviaciones estándar está cada dato del promedio,
es decir, si X es una variable aleatoria, su puntaje z es la variable aleatoria definida por
X − E(X)
Z(X) = .
σ(X)
9.24 Teorema. Teorema de Chebyshev Para todo conjunto de datos, por lo menos
una proporción de 1 − k12 de los datos caen a k desviaciones estándar del promedio. Es decir,
su puntaje z (en valor absoluto) es de k o menos.
Por ejemplo, por lo menos 3/4 = 75 % de los datos deben estar a 2 o menos desviacio-
nes estándar del promedio. Esto es muy importante en general aunque, en distribuciones
particulares, como en las normales, se sabe más (ver 8.4).
Supongamos que tenemos un espacio muestral Ω y una variable aleatoria X. Una muestra
de tamaño n es la evaluación repetida de X n veces en elementos de Ω. Esto nos da n números
reales.
Sea Ω = Ωn el espacio de todas las muestras de tamaño n, donde cada muestra tiene su
probabilidad de ocurrir. Sea X la variable aleatoria que a cada muestra le asocia su promedio.
109
Recordemos (ver 9.13 que los parámetros de X se relacionan con los de X como sigue:
E(X) = E(X)
Var(X)
Var(X) =
n
σ(X)
σ(X) = √
n
9.25 Teorema. Teorema del Lı́mite Central. Con las condiciones de arriba, si X tiene
varianza finita, entonces
σ(X)
fX ∼ N E(X), σ(X) = N E(X), √ .
n
El teorema dice, además, qué tan rápido converge cuando n tiende a infinito. En la
práctica, si n es mayor a 30 se puede pensar que X tiene distribución normal.
El resultado del teorema es muy impresionante: Dice que no importa qué distribución
tenga X, si n es suficientemente grande, entonces la distribución de los promedios de las
muestras de tamaño n es muy similar a la distribución normal.
Por ejemplo, el lanzamiento de un dado tiene distribución uniforme; se trata del espacio
muestral Ω = [6] en el que todos los elementos tienen probabilidad de 16 , la variable aleatoria
X está definida por X(ω) = ω y su función de densidad pX es constante con valor 61 .
Ahora consideremos el promedio de cada muestra de tamaño 5. Tenemos el espacio mues-
tral Ω = [6]5 con 65 = 7776 elementos, y la variable aleatoria X definida por
ω1 + · · · + ω5
X(ω1 , . . . , ω5 ) = ;
5
sin embargo ahora la distribución no es uniforme: cada posible valor de X tiene una proba-
1
bilidad de ocurrir. Por ejemplo, P [X = 1] = 7776 pues el valor 1 sólo se toma cuando ωi = 1
para toda i; mientras que P [X = 2.6] se logra cada vez que ω1 + · · · + ω5 = 2.6 × 5 = 13
(por ejemplo, con (4, 2, 1, 3, 3) o con (2, 6, 2, 2, 1)). La función densidad de X se parece a la
distribución normal en la que la media es 3.5 (igual que la de X) y la desviación estándar es
σ(X) 12 + 22 + 32 + 42 + 52 + 62 1.71
√ = − 3.52 ∼ ∼ 0.76.
5 6 2.24
110
Hemos dicho ya que en la distribución normal, a distancia menor de una desviación
estándar de la media se encuentran alrededor de 68 % de los datos y también hemos men-
cionado qué ocurrre a distancia menor que 2 y 3 desviaciones estándar.
En la columna izquierda aparece el posible valor de z (positivo) hasta una cifra decimal;
hay que sumar lo que aparece en el renglón superior para tener un valor de z hasta 2 cifras
decimales. Por ejemplo, en la tabla se ha señalado el valor correspondiente a z = 1.63. El
número que se encuentra en la intersección del renglón y columna respectivos representa la
probabilidad de tener un valor mayor que la media a distancia de la media menor que z.
La tabla sólo muestra puntajes z positivos; con esto es suficiente en vista de que la
distribución normal es simétrica con respecto a la media y nos interesa saber el porcentaje
111
de valores que se encuentran a menos de cierta distancia de la media (si es necesario habrá
que multiplicar por 2).
De acuerdo a la tabla, si Z es la variable aleatoria correspondiente a la distribución
normal con media 0 y desviación estándar 1 entonces
P [0 ≤ Z ≤ 1.63] = 0.4484,
P [−1.63 ≤ Z ≤ 1.63] = 2 × 0.4484 = 0.8968,
es decir, a distancia de la media menor que 1.63 desviaciones estándar se encuentra alrededor
del 90 % de los datos.
1 − 2 × 0.4484
Si queremos P [Z ≤ −1.63], ésta será igual que P [Z ≥ 1.63] = =
2
1 − 0.8968
= 0.0518, o sea, alrededor de 5 % de los valores están a la izquierda de la media
2
a una distancia mayor que 1.63 desviaciones estándar de ella.
Notemos también que la tabla sólo considera puntajes z menores a 3.4 pues la probabili-
dad de estar a una distancia de 3.4 desviaciones estándar de la media o más es pácticamente
0.
Finalmente, para poder usar la tabla si se tiene una variable aleatoria con distribución
normal con media µ y desviación estándar σ deberá adecuarse a que la media sea 0 y la
desviación estándar sea 1, es decir, deberá considerarse la variable aleatoria
X −µ
.
σ
9.26 Ejemplo. Una pizzerı́a tarda en promedio 40 minutos con desviación estándar de
6 minutos en sus entregas de pedidos. ¿Cuál es la probabilidad de que el promedio de hoy
en 100 pedidos esté entre 35 y 40 minutos?
Solución. Por el TLC, los promedios de las muestras siguen una distribución parecida a
6
la normal con la misma media, 40, y desviación estándar de √100 ∼ 0.6. “Normalizamos” la
variable aleatoria para que la media sea 0 y la desviación estándar sea 1:
X −µ X − 40
Z= = .
σ 0.6
Buscamos
35 − 40 40 − 40
P ≤Z≤ = P [−8.3 ≤ Z ≤ 0] = P [Z ≤ 0] − P [−8.3 ≤ Z].
0.6 0.6
Es claro que P [Z ≤ 0] = 0.5 (pues la función es simétrica con respecto a la media); por otro
lado, P [−8.3 ≤ Z] = P [Z ≥ 8.3] ∼ 0. Entonces la probabilidad de que el pedido llegue entre
35 y 40 minutos es aproximadamente de 1/2. ♦
112
9.27 Ejemplo. En una escuela de 1000 alumnos se analiza una lista escogida al azar
de 50 personas inscritas y resulta que 35 son mujeres. Calcular el número de mujeres de la
escuela con un nivel de confianza de 90 %.
Solución. En este caso, como 35 de las 50 personas son mujeres, estimamos que el promedio
de mujeres es de 70 %. Por otro lado, la desviación estándar los promedios de las muestras
es de p
(0.7)(0.3)
√ ∼ 0.065,
49
El puntaje z en este caso es 1.64, ası́ que el error es
Entonces se asegura que hay 700 alumnas con un nivel de confianza de 90 % y un margen de
error de 10.7 %; en otras palabras, el intervalo de confianza al 90 % es (593, 807). ♦
9.28 Ejemplo. Supongamos que tenemos una variable aleatoria X cuyo promedio es
100 y su desviación estándar es de 32. Tomamos una muestra de tamaño 64. ¿Cuál es la
probabilidad de que el promedio de la muestra sea menor a 96?
Solución. Nuestros datos son: E(X) = 100, σ(X) = 32, n = 64 y nos preguntan P [X <
96]. Como n = 64 > 30, podemos suponer que X tiene distribución normal. Entonces
σ(X) 32
E(X) = 100, σ(X) = √ = √ = 4.
n 64
Como (96 − 100)/4 = −1, buscamos en la tabla el valor para z = 1 que nos da 0.3413
(esto significa que a la izquierda de la media a distancia de 1 desviación estándar hay está
el 34.13 % de los valores). Entonces la probabilidad de que el promedio de la muestra sea
menor a 96 es aproximadamente
1 − 2 × 0.3413
= 0.1587,
2
es decir, la probabilidad de que la muestra tenga promedio menor a 96 es aproximadamente
16 %. ♦
Los problemas anteriores no son muy aplicables pues casi nunca se tiene el promedio y la
desviación estándar reales sino que más bien se quieren deducir estos datos a partir de una
muestra. Esto puede lograrse si la muestra es lo suficientemente grande (normalmente basta
con n ≥ 30 o si la muestra es pequeña pero se conoce la forma de la distribución de X).
Cuando se hace una encuesta y se estima que un cierto parámetro de toda la población
es R con nivel de confianza c y margen de error ε eso quiere decir que se ha estimado que
la probabilidad de que el parámetro esté en el intervalo [R − ε, R + ε] es c. Se dice también
113
que [R − ε, R + ε] es el intervalo de confianza para R con probabilidad c. De costumbre, se
toma c = 95 % sin decirlo explı́citamente.
Por ejemplo, es común que en un periódico se lea que en la próxima elección se espera
que 40 % de los votantes lo hagan por el candidato A con un margen de error de 3 %. Esto
quiere decir que hay 95 % de probabilidad de que el porcentaje de personas que voten por A
esté en el intervalo entre 37 % y 43 %.
Para encontrar los valores z para cada nivel de confianza se hace búsqueda en las tablas
pero a la inversa. Por ejemplo, si c = .95, entonces se busca en la tabla el valor .95 2
= .475
y nos fijamos qué z le corresponde (a este valor le llamamos zc ). Aquı́ está la tabla para los
valores más comunes:
c .8 .9 .95 .99
zc 1.28 1.64 1.96 2.575
Supongamos que tenemos una muestra x de una variable aleatoria X de tamaño n > 30
y queremos estimar el parámetro µ = E(X). Como ya vimos, x = E(x) es una buena esti-
mación. El intervalo de confianza será [x − ε, x + ε]. El margen de error ε será un número
que dependerá de la muestra y del grado de confianza que queremos tener. En el interva-
lo de confianza, el área bajo la curva definida por la gráfica de la distribución normal es
precisamente c.
Por ejemplo, si tomamos la gráfica de la distribución normal N (0, 1) (es decir, cuando
µ = 0 y σ = 1), el área bajo la curva en [−1.96, 1.96] es 0.95.
114
Notemos que si n crece, entonces ε disminuye (si la muestra tiene muchos elementos el
error es pequeño). También tenemos que si c crece, entonces también ε crece (a mayor nivel
de confianza el error es mayor).
Demostración. Sabemos que X tiene distribución aproximadamente normal, ası́ que sim-
plemente hay que multiplicar zc , que es el margen de error en la distribución normal con
desviación estándar por la desviación estándar de X. ♦
9.31 Ejemplo. Supongamos que hacemos una encuesta para ver cuántos mexicanos
están de acuerdo con que se legalice la marihuana. Tomamos una muestra de 901 mexicanos
y, de ellos, el 60 % está de acuerdo con que se legalice. Si se desea un nivel de confianza de
95 %, ¿cuál es el intervalo de confianza?
Solución. Es casi el mismo problema que antes, salvo que aparentemente no tenemos la
desviación estándar. Pero sı́ la tenemos: es la distribución de Bernoulli. Entonces
q
(.6)(.4) 901
p
900 (.6)(.4)
ε ∼ 1.96 √ = 1.96 √ ∼ .03
901 900
El intervalo de confianza (57 %, 63 %), es decir, se puede asegurar con un margen de error de
3 % y nivel de confianza de 95 % que el 60 % de los mexicanos están de acuerdo con que se
legalice. ♦
115
9.32 Ejemplo. Queremos una confianza de 95 % para ver el porcentaje de personas
que votarán por A. Empezamos a hacer muestreo y alrededor de 50 % dicen que votarán
por A. ¿Cuántas personas necesitamos encuestar para que el error sea menor a 2 puntos
porcentuales?
Nuestra mente tiende a establecer relaciones y vı́nculos entre los eventos. Desgraciada-
mente, como ya vimos en 6.8, muchas veces se deduce causalidad en forma errónea. Nuestra
formación académica y la comprensión correcta de la estadı́stica nos pueden ayudar a superar
esta tendencia y a evaluar en forma más objetiva los sucesos.
116
Un ejemplo de esto es que si se tiene una moneda que se supone está equilibrada pero al
lanzarla 100 veces resulta que 80 de ellas muestra águila, entonces se descarta la conjetura de
que era equilibrada. En lo que sigue estudiaremos también el significado de “poco probable”.
Al escoger una muestra para poder inferir datos sobre la generalidad, se debe buscar que
la muestra tenga las mismas caracterı́sticas que la población general, lo cual se logra mejor
con el azar.
9.35 Ejemplo. En 1936 se hizo una encuesta sobre votación para presidente de Estados
Unidos en el que contendı́an Roosevelt y Landon. La muestra fue enorme y conjeturó que
Landon obtendrı́a 370 votos electorales contra 161 de Roosevelt; sin embargo el resultado
fue que Landon obtuvo 8 votos electorales mientras que Roosevelt obtuvo 523. El error
fue que la encuesta se hizo entre suscriptores de una revista (“Literary Digest”), la cual
habı́a predicho correctamente otras votaciones pero cuyos suscriptores tenı́an una tendencia
polı́tica especial. A partir de ese error las compañı́as que hacen ese tipo de encuestas son
más cuidadosas en seleccionar la muestra de manera más aleatoria.
9.36 Ejemplo. Se hizo una encuesta radiofónica preguntando si el tener hijos fortalecı́a
la relación de una pareja o no; 50 000 que tenı́an hijos llamaron por teléfono y el 70 % respon-
dieron a la encuesta diciendo que no los tendrı́an si empezaran de nuevo; inmediatamente se
hizo otra encuesta de otra manera y resultó que 91 % de las parejas volverı́an a tener hijos
si empezaran otra vez; el defecto en la primera encuesta fue que la respuesta era voluntaria.
Las encuestas que se lanzan a través de Internet, radio, televisión, etc. no son confiables, por
esta razón.
Otro punto a considerar al hacer una encuesta es buscar que la gente diga la verdad; por
ejemplo, es absurdo, en un salón de clase, pedir que los alumnos que hicieron trampa en el
examen pasado levanten la mano. Sin embargo, la estadı́stica nos proporciona un método
interesante para descubrir la respuesta correcta:
9.37 Ejemplo. Un grupo de 1000 alumnos presentó un examen. ¿Cómo puede utilizarse
la Probabilidad para estimar el porcentaje de alumnos que hizo trampa?
Solución. Supongamos que se pide a cada alumno que lance una moneda, y que levante
la mano ya sea si su moneda mostró águila, o si hizo trampa en el examen. Supongamos
entonces que 600 levantaron la mano; con sólo la cuestión de la moneda, se esperaba que
levantaran la mano 500, ası́ que hubo un excedente de 100; esto quiere decir que 100 de
los 500 que se esperaba tuvieran sol levantaron la mano, lo cual hace una proporción de
1
5
, es decir que alrededor del 20 % de los alumnos hizo trampa. Para analizar qué tan lejos
se está del 20 % hay que estudiar la curva binomial con n = 1000 y p = 12 , la cual tiene
una desviación estándar de 20 aproximadamente, ası́ que dentro del rango [460, 540] (a 2
desviaciones estándar de la media) se encuentra el 95 %. Suponiendo que 540 obtuvieron
117
águila, se tendrı́a que 600 − 540 = 60, levantaron la mano a pesar de tener sol, lo que
significa que habrı́a 60 tramposos dentro de los 460 que obtuvieron sol, es decir, la proporción
60
de tramposos serı́a 460 , que es un 13 %. El resultado pensando que 460 tuvieron águila nos
600 − 460
darı́a que el porcentaje de tramposos es de ∼ 26. Entonces se dice que, con
540
130 + 260
confianza del 95 % y margen de error de 6.5 %, hubo = 195 tramposos. ♦
2
Finalmente, en una encuesta hay que vigilar cómo se hace la pregunta pues la respuesta
puede estar inducida; la pregunta debe ser muy clara (sin prestarse a diferentes interpreta-
ciones) y explı́cita (por ejemplo, una pregunta como: ¿votarı́as por el presidente A que va a
subir los impuestos? es tendenciosa y sus resultados no serı́an confiables).
9.38 Ejemplo. Veamos cómo se aplicarı́a la prueba de hipótesis para ver si una deter-
minada moneda es equilibrada; nuestra hipótesis nula, en este caso, serı́a que no lo es y,
analizando la gráfica de probabilidades en cuanto a que la moneda caiga águila si se la lanza
100 veces, vemos que la inmensa mayorı́a de las veces el resultado de lanzar la moneda 100
veces resulta en que se ve águila entre 40 y 60 veces; entonces, de manera arbitraria, antes
de lanzar la moneda, establecemos nuestro rango de confianza como [40, 60]; si la moneda
cayera águila dentro de este rango, entonces descartarı́amos nuestra suposición de que la
moneda era desequilibrada.
118
9.40 Ejemplo. Supongamos que se quiere ver si una determinada medicina cura cierta
enfermedad. Supongamos también que sabemos que 40 % de la gente que tiene esa enferme-
dad se cura espontáneamente después de una semana. Entonces hacemos la hipótesis nula de
que la medicina no funciona y consideramos la gráfica de probabilidades de una muestra de
100 personas que se pcurarı́an espontáneamente.
√ Tenemos una curva de Bell, con media 40 y
desviación estándar 100(.4)(1 − .4) = 24 ∼ 5, por ser una distribución binomial, según
se vio en 8.3. Establecemos nuestro rango permitido como de 5 %. Si le damos la medicina a
100 personas y resulta que 51 se curan en una semana, calculamos la probabilidad de estar
alejados de la media en 11 o más (es decir, en el rango [0, 29] ∪ [51, 100]) y vemos que es
3.2 %, lo cual es menor que el 5 % que habı́amos fijado, ası́ que rechazamos la conjetura;
entonces decimos que la medicina sı́ funciona con un valor p de 3.2 %. (En el dibujo el área
sombreada representa el 5 % del total del área bajo la curva, a 2 desviaciones estándar de
distancia de la media.)
9.41 Nota. Hay que tener cuidado en cómo se aplica la prueba de hipótesis. En los
ejemplos que vimos, conocemos la media y la desviación estándar; sin embargo, si por ejemplo
se asegura que la ingesta calórica diaria promedio de un hombre es 2400 y queremos ver si
esto es cierto y tomamos una muestra de 20 personas y todas ingieren 2500 calorı́as, no
sabremos si 100 de diferencia es mucho o no; esto dependerı́a de si los valores promedio
estuvieran muy dispersos o no.
Ahora veamos qué tan confiable puede ser nuestra evaluación de una muestra y qué tan
cerca de la verdad obtenemos la información a través de la muestra.
9.42 Ejemplo. Supongamos que va a haber una elección entre dos candidatos. Debemos
suponer las condiciones ideales de que la muestra fue escogida aleatoriamente, que todas las
personas a las que se les preguntó contestaron, que dijeron la verdad y que toda la población
vota. Digamos que la muestra consta de n personas y que, de toda la población, 60 % está
a favor de A. Bajo esta suposición, consideremos las distintas gráficas de densidad para
n = 10, 100, 1000.
119
Notemos que, de 10 personas, no es raro que 4 contesten que están a favor de A pues sólo
los valores de 0, 1, 9 y 10 representan menos del 5 % de la probabilidad total; por otro lado,
si n = 1000, entonces es muy raro obtener respuestas menores que 550 o mayores que 650.
Normalmente uno trabaja al revés pues no sabe cuántas personas están a favor de A
y sólo tiene la información de la muestra. Entonces digamos que de 1000 personas, 590
respondieron que estaban a favor de A. Uno hace varias hipótesis diciendo que un cierto
porcentaje p de toda la población está a favor de A y se pregunta entonces: siendo p el
porcentaje de gente a favor de A, ¿cuál es la probabilidad de haber obtenido 590 respuestas
favorables de 1000? Entonces se mueve la curva como la tercera de la figura con centro p
(normalizando p a que represente porcentaje) y se fija para qué valores de p, 590 queda
dentro de un rango permitido, digamos, con probabilidad de 95 %; por ejemplo, se puede
obtener que p ∈ [560, 620]. En este caso se dice que la gente está a favor del candidato A un
59 % con margen de error de 3 % (pues 56 = 59 − 3 y 62 = 59 + 3) y confianza de 95 %.
120
9.43 Ejercicio. Supongamos que cierta persona afirma que puede distinguir entre dos
refrescos que tienen el mismo aspecto. Se le va a dar a probar 20 veces cada par de refrescos
y se le preguntará cuál es cada uno. Hacer una hipótesis nula con rango de confianza del 5 %
y calcular con cuántas respuestas correctas se descartarı́a la hipótesis nula.
9.44 Nota. Dentro de la inferencia estadı́stica hay dos tipos de errores; un error del tipo
1 es cuando se rechaza la hipótesis nula a pesar de ser cierta (porque el azar dio un resultado
dentro de 5 %); un error del tipo 2 es que no se rechace la hipótesis nula a pesar de que sı́ sea
falsa, es decir, la realidad es distinta de la hipótesis. En el sistema jurı́dico debe hacerse la
suposición de inocencia (y entonces la hipótesis nula es que es culpable) tratando de evitar
un error del tipo 1.
Al interpretar datos hay que tomar en cuenta si existen muchas variables. En ese caso
deben fijarse todas salvo una para ver el efecto de ésa. Por ejemplo, para ver las mejores
condiciones de crecimiento de maı́z bajo un fertilizante, hay que usar la misma tierra, la
misma agua, el mismo sol, etc.
9.45 Ejemplo. Al probar el efecto de una medicina debe darse a la mitad de la gente
dentro de un grupo un placebo (es decir, algo que parece medicina pero que no lo es), y
a la otra mitad debe dársele la medicina. Ninguno de los dos grupos debe saber qué se le
está dando. Además, las personas que hacen la entrevista al final del experimento a los que
tomaron la medicina o el placebo tampoco deben saber qué tomó la persona entrevistada
para evitar que su propio juicio sobre la respuesta sea parcial. Este tipo de estudio se llama
doble ciego.
9.46 Nota. En un experimento puede haber variables ocultas; son las que afectan el
experimento pero que no se tomaron en cuenta. Por ejemplo, como vimos en 2.1 es común
que se diga que hablarle a las plantas mejora su crecimiento, y que se presenten “pruebas”
de esto pero sin tomar en cuenta que las personas que hablan a las plantas probablemente
también las cuidan más. Otro ejemplo es afirmar que la gente que lleva 20 años casada tiene
mejor salario; la variable oculta aquı́ podrı́a ser que no se tomó en cuenta la edad.
No es válido decir que algo que pasó (sin previsión de análisis de esa ocurrencia) era poco
121
probable, y con ello sacar una conclusión.
Los siguientes cuatro ejemplos tienen que ver con esto mismo.
9.47 Ejemplo. Puede ser que una determinada persona escriba una sucesión cualquiera
de 5 letras y resulte que es una palabra en algún idioma desconocido por ella. Es absurdo
que alguien la lea y diga que la probabilidad de haberla escrito es muy pequeña ası́ que
probablemente ya la conocı́a (tal vez en otra vida).
9.48 Ejemplo. A raı́z de los ataques a las torres gemelas de Nueva York el 11 de sep-
tiembre de 2001, mucha gente reportó haber tenido sueños muy vı́vidos acerca de explosiones,
los cuales incluso habı́an descrito a amigos suyos, antes de los ataques. ¿Se puede decir con
esto que esas personas tienen poderes sı́quicos? Sin negar o estar a favor de estas ideas, la
respuesta es no. Hay miles de millones de personas en el mundo y cada persona sueña mu-
chas veces durante una noche. Con esto es mucho más que suficiente para que todos los dı́as
muchas personas sueñen con explosiones vı́vidamente. Cuando no pasa nada, esos sueños se
olvidan, pero cuando pasa algo, entonces nos llama la atención y pensamos que tuvimos una
premonición.
9.49 Ejemplo. Muchas veces oı́mos a alguien decir que le dio gripa porque un par de dı́as
antes sufrió un cambio de temperatura. Como hemos dicho anteriormente, para comprobar
una afirmación de este tipo debe hacerse primero la conjetura y después hacer las pruebas,
es decir, no es correcto que cuando tenemos gripa hagamos memoria de si nos enfriamos o no
unos dı́as antes; un estudio estadı́stico correcto debe ser al revés: hacer un apunte de cada vez
que nos enfriamos y, de manera totalmente independiente, anotar cuando nos enfermamos;
después, con los dos datos juntos, estudiar la correlación. (Existen muchos estudios en cuanto
a los mitos sobre la gripa; ver, por ejemplo, http://www.commoncold.org/ o o http://www.
tylervigen.com/spurious-correlations)
9.51 Ejemplo. Supongamos que en un crimen se descubre que una muestra de sangre
pertenece al criminal y que, al analizar el ADN y buscar registros policiales, resulta que el
ADN de una cierta persona coincide en las caracterı́sticas con el ADN encontrado, de manera
que sólo 1 de cada millón de personas tiene esa coincidencia. ¿Es entonces muy probable que
122
la persona haya cometido el crimen?
Solución. Una vez más, serı́a una afirmación altamente aventurada, por ejemplo, si consi-
deramos que dentro de un paı́s de 100 millones de personas se esperarı́a que 100 que tuvieran
esas mismas caracterı́sticas de ADN. Desde luego, como en todo lo que hemos dicho, hay que
usar la información con cuidado y, por ejemplo, si se tiene algún otro dato como que se vio
a esa persona entrar al lugar del crimen un rato antes de la comisión del crimen, entonces sı́
serı́a una evidencia extremadamente fuerte la del ADN. ♦
123
9.53 Ejemplo. A continuación se presentan dos listas de 00 s y 10 s. Una de ellas fue hecha
al azar (por computadora) y la otra fue hecha por una persona, tratando que fuera aleatoria.
¿Cuál es cuál?
1100001110110100100111001011000111000000,
0100111010011100011011101001101001101000.
Solución. La primera fue hecha por computadora. Lo interesante de esto es que la primera
tiene “rachas” de repetición y la segunda no. De hecho, si lanzamos una moneda al aire 11
veces, es más probable que en algún momento haya por lo menos 4 águilas o 4 soles seguidos,
a que no los haya (ası́ que, si la lanzamos más veces, es todavı́a más probable y también es
más probable que aparecezcan cadenas más largas de repetición). Para ver esto observemos
que una sucesión de águilas y soles de longitud 11 que empiece con águila está determinada
por una suma a1 + a2 + · · · + ak = 11, donde a1 es el número de águilas al principio, a2
es el número de soles a continuación, etc. Entonces, el número de sucesiones que no tienen
una repetición de al menos 4 águilas o 4 soles y que empiezan con águila es el tamaño del
siguiente conjunto:
10
∗ k = 10. Exactamente una ai es 2 y las demás son 1, por tanto hay 10 posibilidades:
1
.
∗ k = 9. Aquı́, y en lo que sigue, observemos que cada sucesión (a1 , a2 , . . . , ak ) se puede
representar poniendo 11 rayitas − y escogiendo k − 1 de los 10 espacios que hay entre las
rayitas para poner un separador |; entonces a1 será el número de rayitas que hay antes (a
la izquierda) del primer separador, a2 será el número de rayitas que hay entre el primer
separador y el segundo, etc. (Por ejemplo, la sucesión (1, 3, 1, 1, 2, 3) está representada por:
−| − − − | − | − | − −| − − − .)
124
podrı́a haber un 5 (y entonces los demás naturales serı́an 1), lo cual nos da 7 posibilidades.
10
En total las posibilidades en este caso son 6 − 49.
10
∗ k = 6. Procediendo como arriba, tenemos que hay 5
posibilidades; pero con un 4 hay
6
6 4 = 90 (pues hay 6 lugares para poner el 4 y los otros 5 números sumarı́an 7, ası́ que el
razonamiento es el mismo de separadores que hemos venido usando); con un 5 hay 6 × 5 = 30
(pues uno de los númerosrestantes serı́a un 2 y los otros serı́an 1); con un 6 habrı́a 6. En
total en este caso hay: 10
5
− 90 − 30 − 6 = 10 5
− 126.
∗ k = 5. Aquı́ nos conviene más contarlos directamente (pues ya podrı́a haber dos 40 s) y
suponer que a1 ≤ a2 ≤ a3 ≤ a4 ≤ a5 (y después multiplicar por lo necesario para revolverlos).
Vemos que si los dos primeros son 1, entonces los otros tres suman 9, ası́ que sólo hay una
5
posibilidad (con los ai ≤ 3): la sucesión (1, 1, 3, 3, 3) y sus permutaciones que son 2 = 10;
si los primeros son 1, 2, 2, entonces los otros dos deben sumar 6 y la única posibilidad es
(1, 2, 2, 3, 3) que, con sus permutaciones, nos da 52 32 = 30 posibilidades. Si a1 = 2, entonces
211 − 2 10 + 10 + 10 + 10 − 8 + 10 − 49 + 10
10 9 8 7 6 5
− 26 + 45 + 4
10 10 10 10 10
= 211 − 2 210 − 4
− 3
− 2
− 1
− 0
− 134
9.54 Ejemplo. Cuando se tienen muchos datos acerca de algo, es necesario organizarlos,
describirlos y resumirlos. Por ejemplo, si se quiere describir qué afecta al determinar el precio
de una casa, hay varios factores a considerar: el número de metros cuadrados de terreno,
el número de metros cuadrados de construcción, el número de recámaras, la localización,
la antigüedad, el tipo de construcción, etc. Sin embargo, muchos de estos datos pueden
estar relacionados, es decir, tener correlación, digamos, positiva (como pueden ser el número
de metros cuadrados de construcción y el número de recámaras). La idea es tratar de no
repetir al dar una fórmula para dar el precio. Para empezar, se puede pensar que cada metro
cuadrado de construcción aumenta una constante el valor de la casa. Sin embargo estos
valores no son precisos, es decir, una casa puede valer más o menos que la fórmula que se
tuviera; podrı́a observarse, por ejemplo, que el 70 % del valor de la casa depende sólo del
125
número de metros construidos. Se hace entonces un análisis de varianza, es decir, se hace
una hipótesis nula de que ninguna de las variables afecta la respuesta y, si el valor p es menor
que .05, se tiene que alguna de las otras variables debe ser explicatoria. Finalmente podrı́a
tenerse una fórmula del estilo:
P = 190c + 10t − 25d − 24r + 65,
en la que 1000P es el valor de la casa, c es el número de metros cuadrados construidos, t es
el número de metros cuadrados del terreno, d es la distancia al centro de la ciudad, r es el
número de recámaras (que aparece con signo negativo por lo que explicamos al principio de
su relación con c y, en caso de que r sea grande es porque las recámaras son más pequeñas
y eso es una indicación de menos lujo). Con esta nueva fórmula ya se tendrı́a, por ejemplo,
que 78 % del valor de la casa está explicada por las variables c, t, d y r.
9.55 Nota. Como vimos en el ejemplo anterior, cuando se va a hacer una evaluación de
algo, por ejemplo mediante una encuesta, hay que tener en consideración las repeticiones.
En muchas ocasiones hemos resuelto encuestas, por ejemplo, sobre evaluación de personas o
de algún servicio, en las que los datos importantes no se preguntan y, sin embargo, hay otros
datos que tienen implı́cita la respuesta de otros. Tal vez una encuesta con muchas preguntas,
incluso repetitivas, no sea mala; lo que puede ser muy malo es la forma de analizar los datos.
Como hemos visto, la estadı́stica puede ser muy útil, pero también se presta a que se
use de manera inadecuada. Muchos datos estadı́sticos no pueden dar una respuesta absoluta
porque, como hemos dicho, pueden tener una o varias variables ocultas. En muchas ocasiones
se trata de usar el promedio sin hacer un análisis de su significado. Un ejemplo chusco serı́a
decir que la persona promedio tiene un ovario y un testı́culo (la variable oculta serı́a no
distinguir el sexo de las personas). Damos a continuación algunos ejemplos de mal uso de la
estadı́stica.
9.56 Ejemplo. Un anuncio de una escuela dice que los egresados de ella en promedio
ganan más dinero que el resto de la población. No miente pero una variable oculta es que
dos de los estudiantes de esa escuela fueron Bill Gates y Paul Alan.
9.57 Ejemplo. Una escuela dice que tiene atención personalizada porque sus grupos
constan en promedio de 4 alumnos. No miente pero resulta que hay 48 salones con 2 alumnos
y un salón con 100 alumnos; ası́, de los 196 alumnos de la escuela, más de la mitad tiene
la experiencia de estar acompañado con otros 99 alumnos. (En un caso ası́ es más útil la
mediana.)
Otra forma de malinterpretar los datos, y que nos pasa con frecuencia, es que la gente
que nos rodea tiende a ser, de alguna manera, parecida a nosotros; esto nos da una visión
parcial del mundo; por ejemplo, de cómo piensa la gente en general. También muchos de
nosotros leemos periódicos que tienen una idea polı́tica similar a la nuestra y esto nos da
126
una idea distorsionada de la realidad o del pensamiento general de la gente.
9.58 Ejemplo. Hay datos de que en cierto paı́s hay mucha violencia y, por tanto no
nos atrevemos a viajar ahı́. Después nos enteramos que el número de muertes por accidentes
automovilı́sticos es 4 veces más alto que el de las muertes en ese paı́s. El problema aquı́ es que
los medios de comunicación destacan las noticias que llaman la atención y no las cotidianas.
Todo esto puede ser, simplemente, falta de interpretación correcta de los datos estadı́sticos
por nuestra parte pero también hay reportes que se hacen de manera tendenciosa volunta-
riamente (incluso sin mentir).
9.59 Ejemplo. Se reporta que una cierta medicina se le dio a 25 personas y que 20 de
ellas se curaron; sin embargo la medicina no sirve y lo que pasa es que se hicieron muchos
experimentos con grupos de 25 personas y sólo se reportó el que daba números favorables
para el laboratorio que la vende.
9.60 Ejemplo. Un corredor de bolsa puede cometer un fraude por Internet como sigue:
Le anuncia a 1 024 000 personas que cierta acción en la bolsa subirá la siguiente semana y
a 1 024 000 que la acción bajará. Al cabo de la semana, a una mitad del grupo al que le
dijo lo que en efecto ocurrió, le pronostica que otra acción subirá y a la otra mitad le dice
que bajará; ası́ sucesivamente, va dividiendo al grupo en que va acertando en dos del mismo
tamaño, a la mitad le hace una predicción y a la otra mitad, la contraria. Al final de 8
predicciones, con 1000 personas habrá acertado todas las veces y con ello las convencerá que
inviertan su dinero con él.
9.61 Ejemplo. Se nos puede anunciar que una inversión es muy redituable y se nos
muestra la siguiente tabla. El incremento real es de 0.5 % mensual pero la gráfica da la idea
de que cada mes se duplica la inversión; aquı́ el error es que en el eje vertical la distancia de
0 a 1000 está desproporcionada con respecto a la de los demás.
1020
1015
1010
1005
1000
9.62 Ejemplo. Dependiendo de la idea que se quiera dar, se pueden presentar dos
gráficas que dicen los mismos resultados pero que, sicológicamente, dan ideas diferentes; por
127
ejemplo, podrı́a plantearse una disminución de impuestos al salario dependiendo del rango
de salario, indicando en el eje x salarios menores a $5 000, en el rango de $5 000 a $10 000,
etc.; sin embargo en el eje y en la gráfica de la izquierda se presentarı́a el porcentaje de
ahorro, dando la idea de que todos los salarios tienen aproximadamente el mismo ahorro,
mientras que en la gráfica de la derecha se indicarı́a la cantidad de pesos ahorrados cada
periodo, mostrando que los que tienen salario mayor ahorrarı́an más.
1000
3
2
500
1
0
<5 5-10 10-15 15-20 20-25 25-30 30-35 >35 0
<5 5-10 10-15 15-20 20-25 25-30 >35
9.63 Ejemplo. Otra propaganda que puede conducir a una idea errónea es, por ejemplo,
decir que quien ingiere determinado alimento regularmente tiene un riesgo 30 % mayor de
de tener una cierta enfermedad que quien no lo ingiere. Para analizar el verdadero valor de
una afirmación ası́ hay que conocer cuál es el riesgo de quien no lo ingiere; por ejemplo, si
éste dice que 10 personas de cada millón tienen esa enfermedad, entonces el riesgo de los que
ingieren el alimento es de 13 sobre un millón, lo cual es irrelevante.
9.64 Ejemplo. Otro estilo de distorsión es la extrapolación. Por ejemplo, si se dice que
la tendencia de crecimiento de la población mundial actual es de 1.3 % anual y se piensa
que continuarı́a ası́, entonces para el año 3000 habrı́a 2 441 000 000 000 000 habitantes, lo que
significarı́a que habrı́a 20 personas por metro cuadrado en la Tierra.
9.65 Ejemplo. También con extrapolación, analizando de 1900 a 2000 los mejores tiem-
pos en que un corredor hace 1500 metros, se verı́a que esto se aproxima a una recta y,
calculando el valor en el año 2600 resultarı́a que el corredor llegó a la meta antes de salir.
9.66 Ejemplo. El punto de vista bayesiano es que tenemos una idea del mundo y, con
base en ella juzgamos de manera diferente resultados estadı́sticos iguales. Analicemos, por
ejemplo, las siguientes situaciones:
∗ Se nos dice que alguien es un musicólogo experto; le damos 5 veces a distinguir entre
una pieza de Mozart y una de Haydn y las 5 acierta.
∗ Una persona dice que distingue la marca de dos refrescos similares. Hace el experimento
5 veces y acierta.
∗ Una persona dice que puede predecir si al lanzar una moneda al aire caerá águila o sol.
Se le hace la prueba 5 veces y acierta.
En la primera prueba quedaremos convencidos que el musicólogo es realmente experto;
128
en el segundo caso seremos más escépticos y, en el tercero aseguraremos que fue casualidad.
También, si vamos a una tienda de magia y se nos da una moneda no equilibrada, si la
lanzamos 4 veces y tres de ellas sale águila nos formamos la idea de que la probabilidad
de que salga águila es 34 ; si la lanzamos dos veces más y sale un águila y un sol, entonces
modificaremos nuestra idea y pensaremos que la probabilidad de que salga águila es 23 .
9.67 Ejemplo. Otra idea interesante que muchas veces no se toma en cuenta y que nos
hace entender mal una situación es la de tendencia a regresar al promedio. Por ejemplo,
supongamos que tenemos una gripa y que un amigo nos ofrece un remedio para sentirnos
mejor; lo más probable es que, sin hacer nada, pronto mejoremos (regresamos a nuestro
estado normal) pero nosotros decimos que fue gracias al remedio. Otro ejemplo es que un
basquetbolista un dı́a mete 20 % más canastas en un partido; su entrenador lo felicita y, en
el siguiente partido juega peor; el entrenador decide que la felicitación le hizo daño, ası́ que
ahora decide regañar a sus jugadores lo cual tiene efecto positivo después de que un jugador
juega mal, por el mismo principio. Un tercer ejemplo en este sentido es cuando se invierte
en un determinado bien porque ha venido aumentando su valor e, inmediatamente, después
de hacer la inversión, el bien baja de valor (¡se culpa a la suerte!).
9.68 Ejemplo. Muchas veces oı́mos lamentos diciendo que estamos muy mal en relación
con años pasados pues tal o cual cosa tenı́a un precio mucho menor que ahora. Quejas ası́ sólo
tienen sentido si se hace una evaluación comparativa entre salarios (por el mismo trabajo)
y costos al consumidor a través del tiempo. El ı́ndice de precios y cotizaciones, IPC, analiza
la variación de los precios y servicios al consumidor. La canasta básica es un conjunto de
objetos y servicios que se consideran básicos en una época determinada. Se busca que las
cosas elegidas dentro de la canasta básica sean siempre equiparables aunque, desde luego,
deben ir cambiando conforme cambian las necesidades de las personas a través del tiempo.
El distinto costo de esa canasta básica es lo que determina la inflación. Tratando de tener
un valor de referencia fijo muchas cosas legales se indican a través del IPC.
9.69 Nota. Una observación muy sorprendente es la ley de Benford. Ésta establece que
en listas arbitrarias de datos estadı́sticos, el primer dı́gito d aparece con la probabilidad
log10 1 + d1 ; esto es, como primer dı́gito el 1 tiene una frecuencia de 30.1 %, el 2 de 17.6 %,
9.70 Ejemplo. A continuación se muestra una tabla en la que se empieza con 2 (elegido
arbitrariamente), se le suma 3 % (también arbitrario), al resultado se le suma 3 % (del resul-
tado) y ası́ sucesivamente; sólo se muestra la parte entera del resultado. Hay 400 números
(también esta cantidad fue elegida en forma arbitraria), de los cuales 117 empiezan con 1,
129
es decir, el 29.25 %.
2 2 2 2 2 2 2 2 3 3
3 3 3 3 3 3 3 3 3 4
4 4 4 4 4 4 4 4 5 5
5 5 5 5 5 6 6 6 6 6
7 7 7 7 7 8 8 8 8 9
9 9 9 10 10 10 10 11 11 11
12 12 13 13 13 14 14 14 15 15
16 16 17 17 18 18 19 19 20 21
21 22 23 23 24 25 25 26 27 28
29 29 30 31 32 33 34 35 36 37
38 40 41 42 43 45 46 47 49 50
52 53 55 56 58 60 62 64 65 67
69 72 74 76 78 80 83 85 88 91
93 96 99 102 105 108 111 115 118 122
125 129 133 137 141 145 150 154 159 164
169 174 179 184 190 195 201 207 213 220
226 233 240 247 255 263 270 279 287 295
304 313 323 333 343 353 363 374 386 397
409 421 434 447 460 474 488 503 518 534
550 566 583 601 619 637 656 676 696 717
739 761 784 807 831 856 882 909 936 964
993 1023 1053 1085 1117 1151 1185 1221 1258 1295
1334 1374 1415 1458 1502 1547 1593 1641 1690 1741
1793 1847 1902 1959 2018 2079 2141 2205 2271 2340
2410 2482 2556 2633 2712 2794 2877 2964 3053 3144
3238 3336 3436 3539 3645 3754 3867 3983 4102 4225
4352 4483 4617 4756 4898 5045 5197 5353 5513 5679
5849 6024 6205 6391 6583 6781 6984 7194 7409 7632
7861 8096 8339 8589 8847 9113 9386 9667 9958 10256
10564 10881 11207 11543 11890 12246 12614 12992 13382 13784
14197 14623 15062 15513 15979 16458 16952 17461 17984 18524
19080 19652 20242 20849 21474 22119 22782 23466 24169 24895
25641 26411 27203 28019 28860 29725 30617 31536 32482 33456
34460 35494 36559 37655 38785 39948 41147 42381 43653 44962
46311 47701 49132 50606 52124 53687 55298 56957 58666 60426
62238 64106 66029 68010 70050 72151 74316 76545 78842 81207
83643 86153 88737 91399 94141 96965 99874 102871 105957 109135
112410 115782 119255 122833 126518 130313 134223 138250 142397 146669
151069 155601 160269 165077 170030 175130 180384 185796 191370 197111
203024 209115 215388 221850 228505 235361 242421 249694 257185 264900
Lo que pasa en el ejemplo anterior puede explicarse como sigue: Es una serie geométrica
en la que se va multiplicando por 1.03; cuando el número empieza por 1, al sumarle su 3 %
130
(o cualquier porcentaje) cambia poco en comparación con los números que empiezan con
otros dı́gitos; por ejemplo, si a 1530 le sumamos 3 % obtenemos 1575 (diferencia de 45 con
el número original); si le hacemos lo mismo a 2530 obtenemos 2605 (diferencia de 75) y si se
lo hacemos a 6530 el resultado es 6725 (diferencia de 195).
Uno podrı́a detectar un fraude en datos contables de una compañı́a usando esta ley.
9.71 Ejemplo. Otra forma interesante de usar la estadı́stica es para contar grandes
volúmenes de cosas. Por ejemplo, si se quiere ver cuántos tigres hay en la selva, se puede
capturar a unos cuantos, digamos a 50, ponerles una marca en la oreja y dejarlos ir. Después
de un tiempo se captura otra vez a 100 tigres y se cuenta qué porcentaje tiene marca.
Supongamos que hay 8 con marca; entonces, como la proporción debe ser muy parecida, si
llamamos x al número de tigres de la selva, tenemos que 50x
8
∼ 100 , de donde x ∼ 625. Con
esta misma idea se calcula el volumen de un lago: Se echa un kilo de sal, se espera a que se
mezcle y se recoge un metro cúbico de agua; se pone a hervir hasta que se evapore toda el
agua y se pesa la sal que quedó.
A continuación vamos a dar ejemplos para ilustrar que ningún método de votación entre
3 o más candidatos puede tener las caracterı́sticas ideales. Describiremos varios métodos de
votación y los problemas de cada uno.
9.72 Ejemplo. Supongamos que hay tres candidatos: A, A0 y B y que la población está
dividida en dos grupos: los que prefieren a cualquiera de A o A0 sobre B, y los que prefieren
a B sobre cualquiera de A o A0 , y que la tabla de preferencias es
preferencias/# personas 8 4 6 4
primero A A' B B
segundo A' A A' A
tercero B B A A'
131
es decir, 8 personas tienen a A en su primer lugar de preferencias, a A0 en su segundo, etc.
El primer método de votación es el de la pluralidad: Hay una sola ronda de votación y
gana el que más votos obtiene. Según este método ganarı́a B con 10 votos (A tendrı́a 8 y A0
tendrı́a 4).
El segundo método de votación que consideramos es en el que cada miembro vota por
sus dos preferidos. En este caso ganarı́a A0 con 18 votos (mientras que A tendrı́a 16).
El tercer método, llamado método Borda consiste en dar puntaje decreciente a los can-
didatos: 0 al último, 1 al penúltimo, 2 al anterior, etc. En este caso ganarı́a A con 24 puntos
(mientras que A0 tendrı́a 22 y B tendrı́a 20).
En el ejemplo anterior vimos cómo, con métodos que parecen razonables, es posible tener
una distribución de tal manera que cada uno de los candidatos gane en alguno de los métodos.
Veamos más ejemplos.
En este caso, en la tabla se indica, dentro de cada grupo, el cómo están distribuidas las
preferencias, es decir, dentro del primer grupo hay 10 personas que prefieren a A, 10 a A0 ,
11 a A00 , etc.
Con el método de pluralidad ganarı́a B 0 .
Sin embargo, veamos otro método de votación: el de dos rondas: En éste, en una primera
ronda cada votante elige a su favorito y, si ninguno tiene más de 50 % de la totalidad de
los votos, entonces se quedan para una segunda votación únicamente los dos candidatos con
mayor número de votos. En el caso del ejemplo ganarı́a uno de los dos de B o B 0 (dependiendo
a cuál de los dos se adhirieran los del primer grupo) y, podrı́amos suponer que gana B 0 . Sin
embargo observemos una cosa curiosa, digamos que al principio, en lugar de que 12 del
segundo grupo estuvieran por B y 13 por B 0 , la tabla fuera:
132
En este caso, el mismo método de votación dejarı́a en la primera vuelta a A00 y a B 0 , y
en la segunda vuelta quedarı́a A00 como ganador (pues todos los del primer grupo votarı́an
por él). Desde luego, no es deseable que algo ası́ pase, es decir, que el que haya sido mejor
B 0 en la segunda tabla que en la primera dentro de su grupo (lo demás es igual) haga que
pierda la votación global.
9.74 Ejemplo. Otro método de votación es el llamado secuencial por parejas. En éste se
ordenan los candidatos, los dos primeros se enfrentan y el ganador se enfrenta con el tercero;
luego el ganador de esa última competencia se enfrenta con el cuarto y ası́ sucesivamente.
Supongamos aquı́ que la tabla de preferencias el como sigue:
preferencias/votantes X Y Z
primero A C B
segundo B A D
tercero D B C
cuarto C D A
Aquı́ hay tres votantes X, Y y Z y, por ejemplo, el votante X tiene a A como su candidato
favorito, luego a B, luego a D y al final a C. Supongamos que se establece el orden de votación
A−B −C −D; entonces al principio se enfrentan A contra B y gana A (pues X y Y prefieren
a A sobre B y sólo Z tiene el orden inverso de preferencias); según las reglas, ahora A se
enfrenta a C; aquı́ gana C; finalmente en el enfrentamiento entre C y D ganarı́a D. Sin
embargo esto no parece razonable pues todos los votantes preferirı́an a B sobre D (ası́ que
D habrı́a perdido desde el prinicipio si el orden hubiera sido D − B − C − A).
preferencias/# personas 10 10 10
primero A B C
segundo B C A
tercero C A B
Por ejemplo, si ganara A, se tendrı́a que 20 de los 30 votantes habrı́an preferido a C sobre
A.
133
Se llama ganador Condorcet a un candidato que podrı́a ganar en un enfrentamiento
directo contra cualquier otro candidato (no siempre hay). Se pensarı́a que en los casos en
que hubiera un ganador Condorcet, él deberı́a ganar la elección general (aunque es claro
que no siempre ocurre esto, pues en general se usa el método de pluralidad). Sin embargo,
veamos el siguiente ejemplo.
9.76 Ejemplo. El ganador Condorcet puede no coincidir con el que da el método Borda
(que también parece ser razonable). Consideremos la siguiente tabla:
preferencias/# personas 30 10 10 1 29 1
primero A B C A B C
segundo B C A C A B
tercero C A B B C A
9.77 Ejemplo. Otro método comúnmente usado es el de hacer varias rondas y en cada
paso ir eliminando al que obtiene menos votos. Este método se usó en la elección del lugar
para los juegos olı́mpicos del año 2000 y los votos que se fueron obteniendo son los siguientes:
Como vemos en el ejemplo, ganó Sidney a pesar de que en cada una de las votaciones
previas Pekı́n habı́a obtenido más votos.
9.78 Ejemplo. Examinemos ahora también una manera de evaluar tres fábricas A, B
y C, poniendo a trabajar 5 máquinas de cada una y contando el número de dı́as que duran
134
antes de fallar. En la tabla se ve, por ejemplo, que la primera máquina de A duró 1137 dı́as
sin fallar, la segunda 993, etc.
fábricas/máquinas 1 2 3 4 5
A 1137 993 472 256 207
B 1088 659 493 259 238
C 756 669 372 240 202
Una forma para evaluar las fábricas serı́a asignarles el orden de duración de dı́as, por
ejemplo, darı́amos el número 1 a la máquina 1 de la fábrica A porque es la que más dı́as
duró trabajando, luego tendrı́a el número 2 la primera máquina de la fábrica B, etc. De esta
manera, la ganadora serı́a la que obtuviera menos puntos, en este caso, A.
fábricas/máquinas 1 2 3 4 5 suma
A 1 3 8 11 14 37
B 2 6 7 10 13 38
C 4 5 9 12 15 45
Pero observemos otra vez que el haya participado la fábrica C en la evaluación cambió
las cosas pues, sin ella la numeración habrı́a sido la siguiente, y entonces habrı́a ganado B.
fábricas/máquinas 1 2 3 4 5 suma
A 1 3 6 8 10 28
B 2 4 5 7 9 27
9.79 Observación. Como vimos en los ejemplos anteriores, a pesar de que un determi-
nado método de votación nos puede parecer razonable, sus resultados no siempre lo son pues
no se da alguna de las siguientes tres condidiones deseables:
∗ Condición pareto. Ésta establece que serı́a deseable ir de acuerdo al consenso, es decir,
no deberı́a ganar un candidato si algún otro es preferido sobre él por los demás votantes
(como ocurrı́a en el método de la votación secuencial por parejas o usando el método de
Borda en 9.72).
∗ Mejor debe ser mejor. En esta condición se pide que el tener más votos de preferencia
no perjudique al candidato (como ocurrı́a en 9.73 con el método de dos rondas).
∗ Irrelevante debe ser irrelevante. Aquı́ lo que se pide es que un candidato que no es favo-
rito no deberı́a alterar la votación de los mejores (lo cual ocurre en el método de pluralidad
9.72 o, como vimos, en la elección de las fábricas).
135
Como vimos en los ejemplos, ninguno de los métodos descrito satisface las tres condi-
ciones. El teorema de imposibilidad de Arrow establece que no existe ningún método que
contemple las tres condiciones simultáneamente (es decir, con cualquier método que se pro-
ponga, se puede dar una tabla de preferencias en la que alguna de las condiciones falle).
9.10. Estimadores.
136
9.81 Proposición. El estimador φ siguiente es imparcial y nunca da respuesta falsa.
Dado un subconjunto S = {x1 , x2 , . . . , xk } de {1, 2, . . . , n}, suponiendo que xk es su elemento
mayor, φ está definido por
k+1
φ(S) = xk − 1.
k
Demostración. Primero observemos que nunca da un valor falso, es decir, que xk ≤
k+1
k
xk − 1, lo cual es equivalente a kxk + k ≤ kxk + xk , que, a su vez, es equivalente a k ≤ xk ,
lo cual es claro.
Ahora veamos que es imparcial. Conviene analizar primero un ejemplo. Supongamos que
4
n = 5 y k = 3. Entonces 5 es elemento mayor en 2
= 6 subconjuntos, 4 es elemento mayor
3 2
en 2 = 3 conjuntos y 3 es mayor en 2 = 1 conjuntos. Entonces, en 6 conjuntos el valor
del estimador es 34 · 5 − 1, en 3 conjuntos el valor del estimador es 43 · 4 − 1 y en un conjunto
el valor del estimador es 43 · 3 − 1. El promedio de todos los valores del estimador es
4 4 4
6 ·5−1 +3 ·4−1 +1 ·3−1
3 3 3
5
3
4
(30 + 12 + 3) − (6 + 3 + 1) 60 − 10
= 3 = = 5 = n.
10 10
Ahora sı́, hagamos el caso general. Usaremos las siguientes dos fórmulas de combinatoria:
n n−1 n
= y
r r−1 r
n n n n+1
+ + ··· + = ;
r r+1 n r+1
la primera se demuestra directamente de la definición nr = r!(n−r)!
n!
; para la segunda, observar
que para escoger un conjunto de r+1 elementos dentro del conjunto {1, 2, . . . , n+1} podemos
fijarnos en cuántos conjuntos contienen a un determinado elemento como elemento mayor
del conjunto (como se hizo en el ejemplo aquı́ arriba).
Queremos probar que
n
1 X r k+1
n
(r + 1) − 1 = n.
k r=k−1
k − 1 k
Esto equivale a probar que
n
X r r+1 1 n n
− = ,
r=k−1
k−1 k k+1 k+1 k
137
lo cual ocurre si, y sólo si,
n n
X r+1 1 X r n n
− = ,
r=k−1
k k + 1 r=k−1 k − 1 k+1 k
o, equivalentemente,
n+1 n+1 n
= ,
k+1 k+1 k
el cual es cierto. ♦
138
Referencias y lecturas complementarias
[1]. Alon, N., Spencer, J., The Probabilistic Method, 2nd edition, Wiley-Interscience Series
in Discrete Mathematics and Optimization, John Wiley and Sons Inc., 2000
[3]. De Groot M.H., Probabilidad y Estadı́stica, 2a. ed., Addison Wesley, 1988.
[4]. Feller W., An Introduction to Probability Theory and Its Applications, vol. I, 3a. ed.,
John Wiley and Sons, New York, 1968.
[6]. Hoel, Port and Stone, Introduction to Probability Theory, Houghton Mifflin Company,
Boston, 1971.
[7]. Mood A.M., Graybill F.A. and Boes D.C., Introduction to the Theory of Statistics,
3a. ed., McGraw-Hill, 1974.
139